大數據時代,不論是當代大學生還是已入職場的屌絲們,尤其是在通往創業路上的俠士,都需要一種特別重要的能力-數據分析能力。它可以幫我們解決很多重要的問題,做出自己想要的預測,這樣才能在當今大數據時代穩而不亂,做當今的孔明,取有道之財!下面將筆者將根據自己學習SPSS進行總結,希望能夠幫助大家對SPSS進一步理解,有不足之處,望指正批評。
工具/原料
SPSS軟件
數據
一、均值比較和T檢驗
1.解決問題
(1)對抽取的樣本按照某個類別時行分別計算相應常見統計量,如平均數,標準差;
(2)檢驗兩個相關的樣本是否來自具有相同均值的總體;
(3)兩個有聯繫的正態總體均值是否顯著差異。
2.如何選擇
3.方差分析
3.1條件:
(1)總體必須滿足正態分佈(QQ圖,K-S檢驗進行驗證);
(2)觀測變量各總體的方差應該相同;(齊次性檢驗>0.05)
(3)控制變量一定是取值有限的名義尺度、順序尺度變量。
3.2分類:(根據控制變量的個數)
單因素方差分析、多因素方差(薪水-年齡和工作年限);
協方差分析:扣除協變量影響(年齡和工作年限相關,扣除工作年限影響)
二、 非參數檢驗
1.何時用呢?
在無法獲得有關總體分佈的相關信息時――
通過樣本檢驗關於總體的相關假設的檢驗方法
2.如何選擇呢?
三、 相關分析
這不難理解,在此不多解釋,重點說一下其分類,知道如何選擇就好了。
四、 迴歸分析
1.總體看各回歸方法
2.下面對重點環節進行闡述
一元線性迴歸步驟:
(1)作兩變量散點圖-觀相關性
(2)選定自/因變量,進行迴歸分析
(3)迴歸方程檢驗(方程意義、顯著性、係數顯著性、殘差(觀測值-預測值)分析)
(4)迴歸方程修正
3.多元線性迴歸:為了彌補一元線性迴歸無法完全解釋因變量變化信息而引入(只有當一元迴歸效果很差才考慮,且自變量間互不相關)
步驟: 選擇因變量-確定自變量對因變量的解釋力-消除自變量多重關性(迴歸)-擬合線性迴歸方程(多元線性迴歸)-方程檢驗-殘差分析-模型確認並用於預測
4.多元――多重共線(自變量間有較強的相關性)
如何發現:觀察自變量間相關分析;迴歸分析中多重共線診斷
解決方法:採用迴歸讓SPSS自動選擇合適自變量,用於建立迴歸方程(剔除已選變量發生多重花線的)
5.曲線迴歸:散點圖中發現-可能是弱非線性-曲線迴歸
難點 :曲線形式的選取;不確定只好選取多種可能合適的模型-SPSS計算參數-根據判定係數(可決係數)-選擇最優模型
五、 多重響應(多選項集)分析
1.適用場景:調查問卷往往需要被訪者對一個問題,多個選項進行選擇
SPSS處理:將一個多選項問題分解成若干個單選問題,對應每個單選問題設置一個變量。
2.如何選擇
六、聚類分析和判別分析
1.步驟
2. 相似性指標
3.聚類分析
適用:可以在沒有先驗分類的情況下,通過觀察對數據進行分類
目標:使組內數據對象具有很高相似度,而組間具有較大的差異性
4.判別分析
七、因子分析和對應分析
1.因子分析
是一種數據簡化的技術,通過研究眾多變量之間的內部依賴關係,探求觀測數據中的基本結構,並用少數幾個假想變量來表示其基本的數據結構。
即:假想變量 反映 主要信息 是不可觀測的潛在變量 即 因子
(1)主要思路:降維 簡化數據結構
(2)目的:將(具有錯綜複雜關係的)變量 綜合為 (數量較少的) 因子
以再現 原始變量與因子的關係, 通過不同的因子,對變量進行分類
消除 相關性,在信息損失最小的情況下,降維
2.步驟
選取因子分析的變量(選相關性較大的,利於降維)――標準化處理;
根據樣本、估計隨機向量的協方差矩陣或相關矩陣;
選擇一種方法――估計因子載荷陣,計算關鍵統計特徵;
進行因子旋轉,使因子含義清晰化,並命名,利用因子解釋變量的構成;
計算每個因子在各樣本上的得分,得出新的因子得分變量――進一步分析。
3.如何分析
檢驗變量間偏相關度KMO值>0.6,才適合做因子分析;
調整因子個數,顯示共同特徵後即可命名。
4.分類
5.對應分析基本理論