大數據SPSS分析總結?

Tags: 問題, 數據, 大學, 變量,

大數據時代，不論是當代大學生還是已入職場的屌絲們，尤其是在通往創業路上的俠士，都需要一種特別重要的能力－數據分析能力。它可以幫我們解決很多重要的問題，做出自己想要的預測，這樣才能在當今大數據時代穩而不亂，做當今的孔明，取有道之財！下面將筆者將根據自己學習SPSS進行總結,希望能夠幫助大家對SPSS進一步理解，有不足之處，望指正批評。

工具/原料

SPSS軟件

數據

一、均值比較和T檢驗

1.解決問題

（1）對抽取的樣本按照某個類別時行分別計算相應常見統計量，如平均數，標準差；

（2）檢驗兩個相關的樣本是否來自具有相同均值的總體；

（3）兩個有聯繫的正態總體均值是否顯著差異。

2.如何選擇

3.方差分析

3.1條件：

（1）總體必須滿足正態分佈（QQ圖，K-S檢驗進行驗證）；

（2）觀測變量各總體的方差應該相同；(齊次性檢驗>0.05)

（3）控制變量一定是取值有限的名義尺度、順序尺度變量。

3.2分類：（根據控制變量的個數）

單因素方差分析、多因素方差（薪水－年齡和工作年限）；

協方差分析：扣除協變量影響（年齡和工作年限相關，扣除工作年限影響）

二、非參數檢驗

1.何時用呢？

在無法獲得有關總體分佈的相關信息時――

通過樣本檢驗關於總體的相關假設的檢驗方法

2.如何選擇呢？

三、相關分析

這不難理解，在此不多解釋，重點說一下其分類，知道如何選擇就好了。

四、迴歸分析

1.總體看各回歸方法

2.下面對重點環節進行闡述

一元線性迴歸步驟：

（1）作兩變量散點圖－觀相關性

（2）選定自/因變量，進行迴歸分析

（3）迴歸方程檢驗（方程意義、顯著性、係數顯著性、殘差（觀測值-預測值）分析）

（4）迴歸方程修正

3.多元線性迴歸：為了彌補一元線性迴歸無法完全解釋因變量變化信息而引入（只有當一元迴歸效果很差才考慮，且自變量間互不相關）

步驟：選擇因變量－確定自變量對因變量的解釋力－消除自變量多重關性（迴歸）－擬合線性迴歸方程（多元線性迴歸）－方程檢驗－殘差分析－模型確認並用於預測

4.多元――多重共線（自變量間有較強的相關性）

如何發現：觀察自變量間相關分析；迴歸分析中多重共線診斷

解決方法：採用迴歸讓SPSS自動選擇合適自變量，用於建立迴歸方程（剔除已選變量發生多重花線的）

5.曲線迴歸：散點圖中發現－可能是弱非線性－曲線迴歸

難點：曲線形式的選取；不確定只好選取多種可能合適的模型－SPSS計算參數－根據判定係數（可決係數）－選擇最優模型

五、多重響應（多選項集）分析

1.適用場景：調查問卷往往需要被訪者對一個問題，多個選項進行選擇

SPSS處理：將一個多選項問題分解成若干個單選問題，對應每個單選問題設置一個變量。

2.如何選擇

六、聚類分析和判別分析

1.步驟

2. 相似性指標

3.聚類分析

適用：可以在沒有先驗分類的情況下，通過觀察對數據進行分類

目標：使組內數據對象具有很高相似度，而組間具有較大的差異性

4.判別分析

七、因子分析和對應分析

1.因子分析

是一種數據簡化的技術，通過研究眾多變量之間的內部依賴關係，探求觀測數據中的基本結構，並用少數幾個假想變量來表示其基本的數據結構。

即：假想變量反映主要信息是不可觀測的潛在變量即因子

（1）主要思路：降維簡化數據結構

（2）目的：將（具有錯綜複雜關係的）變量綜合為（數量較少的）因子

以再現原始變量與因子的關係，通過不同的因子，對變量進行分類

消除相關性，在信息損失最小的情況下，降維

2.步驟

選取因子分析的變量（選相關性較大的，利於降維）――標準化處理；

根據樣本、估計隨機向量的協方差矩陣或相關矩陣；

選擇一種方法――估計因子載荷陣，計算關鍵統計特徵；

進行因子旋轉，使因子含義清晰化，並命名，利用因子解釋變量的構成；

計算每個因子在各樣本上的得分，得出新的因子得分變量――進一步分析。

3.如何分析

檢驗變量間偏相關度KMO值>0.6,才適合做因子分析；

調整因子個數，顯示共同特徵後即可命名。

4.分類

5.對應分析基本理論

問題, 數據, 大學, 變量, spss數據分析, spss數據分析教程, spss數據分析案例, spss數據分析論文, 基於spss的數據分析, spss數據分析報告, spss數據分析實例, spss怎麼分析數據, 數據分析軟件spss,

相關問題答案

Have any Question?

Let us answer it!