數據探索主要可以分為兩個部分,一是可以看到數據的描述性統計結果,而是可以對數據的分佈形態進行檢驗,下面我們來檢驗一下看報時間是否符合正態分佈,具體的過程如下:
方法/步驟
打開數據以後,在菜單欄上執行analyze--descriptive statistics--explorer,打開explorer對話框
將每天的看報時間放到因變量列表,將性別放到因素量表(點擊添加按鈕可以添加因素
點擊statistics,設置要輸出的參數
選中descriptives,設置置信區間為95%,點擊continue。這個設置的意思是,輸出描述統計的各個參數
點擊plots,設置輸出的圖標
選擇stem-and-leaf,輸出莖葉圖,選擇histogram,輸出直方圖;勾選normality plots with tests,進行正態性檢驗,點擊continue按鈕
回到了explorer對話框,我們點擊ok按鈕,輸出結果。下面我們來對各個結果進行分析。
先來看描述統計結果,這裡很多輸出參數大家都懂,我們著重強調兩個,一個是5%的修正均值,他指的是去掉數據中最大和最小的5%的數據,然後求得的均值;四分位距,他指的是兩個四分為數之間的差值
接著看到正態性檢驗,我們看到有兩種檢驗正態性的方法,一種是k--s方法,sig值是0.000,這說明正態性假設無法成立,該數據不符合正態分佈。一種是s--w方法,這種方法只有在n小於50的時候比較準確,sig值也是0.000,這說明該數據不符合正態分佈
接著看直方圖,這個大家基本都懂,他可以用來驗證數據的正態性,如果數據都集中在平均數的左右,並且在均值出頻率最高就從直觀上認為是符合正態分佈的,這樣的圖說明數據不符合正態分佈
接下來看莖葉圖,這個圖搞統計的一般都懂,將這個圖旋轉90度就是直方圖,只不過比直方圖顯示的信息更多,你可以從圖中讀出具體的單個數據。
正態QQ圖:圖中的點代表數據,直線代表理想的正態數據,如果各個點都落在了直線的周圍並且在平均值的部分點的分佈比較均勻,這就說明是符合正態分佈的,顯然這個並不符合正態分佈