大數據SPSS分析總結?

大數據時代,不論是當代大學生還是已入職場的屌絲們,尤其是在通往創業路上的俠士,都需要一種特別重要的能力-數據分析能力。它可以幫我們解決很多重要的問題,做出自己想要的預測,這樣才能在當今大數據時代穩而不亂,做當今的孔明,取有道之財!下面將筆者將根據自己學習SPSS進行總結,希望能夠幫助大家對SPSS進一步理解,有不足之處,望指正批評。

工具/原料

SPSS軟件

數據

一、均值比較和T檢驗

1.解決問題

(1)對抽取的樣本按照某個類別時行分別計算相應常見統計量,如平均數,標準差;

(2)檢驗兩個相關的樣本是否來自具有相同均值的總體;

(3)兩個有聯繫的正態總體均值是否顯著差異。

2.如何選擇

大數據SPSS分析總結

3.方差分析

3.1條件:

(1)總體必須滿足正態分佈(QQ圖,K-S檢驗進行驗證);

(2)觀測變量各總體的方差應該相同;(齊次性檢驗>0.05)

(3)控制變量一定是取值有限的名義尺度、順序尺度變量。

3.2分類:(根據控制變量的個數)

單因素方差分析、多因素方差(薪水-年齡和工作年限);

協方差分析:扣除協變量影響(年齡和工作年限相關,扣除工作年限影響)

二、 非參數檢驗

1.何時用呢?

在無法獲得有關總體分佈的相關信息時――

通過樣本檢驗關於總體的相關假設的檢驗方法

2.如何選擇呢?

大數據SPSS分析總結

三、 相關分析

這不難理解,在此不多解釋,重點說一下其分類,知道如何選擇就好了。

大數據SPSS分析總結

四、 迴歸分析

1.總體看各回歸方法

大數據SPSS分析總結

2.下面對重點環節進行闡述

一元線性迴歸步驟:

(1)作兩變量散點圖-觀相關性

(2)選定自/因變量,進行迴歸分析

(3)迴歸方程檢驗(方程意義、顯著性、係數顯著性、殘差(觀測值-預測值)分析)

(4)迴歸方程修正

3.多元線性迴歸:為了彌補一元線性迴歸無法完全解釋因變量變化信息而引入(只有當一元迴歸效果很差才考慮,且自變量間互不相關)

步驟: 選擇因變量-確定自變量對因變量的解釋力-消除自變量多重關性(迴歸)-擬合線性迴歸方程(多元線性迴歸)-方程檢驗-殘差分析-模型確認並用於預測

4.多元――多重共線(自變量間有較強的相關性)

如何發現:觀察自變量間相關分析;迴歸分析中多重共線診斷

解決方法:採用迴歸讓SPSS自動選擇合適自變量,用於建立迴歸方程(剔除已選變量發生多重花線的)

5.曲線迴歸:散點圖中發現-可能是弱非線性-曲線迴歸

難點 :曲線形式的選取;不確定只好選取多種可能合適的模型-SPSS計算參數-根據判定係數(可決係數)-選擇最優模型

五、 多重響應(多選項集)分析

1.適用場景:調查問卷往往需要被訪者對一個問題,多個選項進行選擇

SPSS處理:將一個多選項問題分解成若干個單選問題,對應每個單選問題設置一個變量。

2.如何選擇

大數據SPSS分析總結

六、聚類分析和判別分析

1.步驟

大數據SPSS分析總結

2. 相似性指標

大數據SPSS分析總結

3.聚類分析

適用:可以在沒有先驗分類的情況下,通過觀察對數據進行分類

目標:使組內數據對象具有很高相似度,而組間具有較大的差異性

大數據SPSS分析總結

4.判別分析

大數據SPSS分析總結

七、因子分析和對應分析

1.因子分析

是一種數據簡化的技術,通過研究眾多變量之間的內部依賴關係,探求觀測數據中的基本結構,並用少數幾個假想變量來表示其基本的數據結構。

即:假想變量 反映 主要信息 是不可觀測的潛在變量 即 因子

(1)主要思路:降維 簡化數據結構

(2)目的:將(具有錯綜複雜關係的)變量 綜合為 (數量較少的) 因子

以再現 原始變量與因子的關係, 通過不同的因子,對變量進行分類

消除 相關性,在信息損失最小的情況下,降維

2.步驟

選取因子分析的變量(選相關性較大的,利於降維)――標準化處理;

根據樣本、估計隨機向量的協方差矩陣或相關矩陣;

選擇一種方法――估計因子載荷陣,計算關鍵統計特徵;

進行因子旋轉,使因子含義清晰化,並命名,利用因子解釋變量的構成;

計算每個因子在各樣本上的得分,得出新的因子得分變量――進一步分析。

3.如何分析

檢驗變量間偏相關度KMO值>0.6,才適合做因子分析;

調整因子個數,顯示共同特徵後即可命名。

4.分類

大數據SPSS分析總結

5.對應分析基本理論

大數據SPSS分析總結

相關問題答案