統計方面博士論文
統計學是一個前景非常明朗的產業,各行各業都在應用統計學的技術。統計學的發展迅速,其發展方向也是令人關心的一個課題。下文是小編為大家蒐集整理的關於的內容,歡迎大家閱讀參考!
篇1
淺談統計調查及統計調查誤差的及特徵
種類
摘 要:隨著社會的發展,統計調查作為各資訊的來源勢必會越來越受到人們更多地關注,也勢必會有越來越多的人蔘與到統計調查活動中來。本文從統計調查的概念出發,通過對統計調查和其它調查的區別解釋統計調查,並正確區分統計調查與非統計調查、理解統計調查的種類、統計調查誤差的種類及其特徵和產生的原因,這些問題是參與和搞好統計調查、提高統計調查質量的基本前提。
關鍵詞:統計調查;誤差;統計調查質量
一、統計調查的概念
統計調查不僅要有明確的調查物件,而且調查物件是由具有某一或某些共同特徵的許多個體構成的總體,同時構成總體的個體數要足夠地多,除此之外,還要求調查的個體單位數也要足夠地多。統計調查對構成總體的許多獨立個體的調查不是目的,綜合與提煉許多獨立個體資訊資料才是統計調查的真正目的。因此,統計調查所獲資料的真實、準確與否,直接取決於個體提供的資訊資料是否真實、準確。而統計個體之所以有可能提供不真實、不準確的個體資訊資料,是因為統計個體擔心一旦提供了個體真實、準確的資訊資料可能會為自己、他人或相關部門帶來不必要的麻煩。不過,從統計調查的真實目的來看,統計個體的資訊資料根本不是統計調查所關注的資訊資料,個人資訊資料只作為一種資訊載體出現,僅起到顯現總體一般屬性或數量特徵的作用———從對個體資訊資料進行深入的加工、綜合中提煉出總體的一般屬性或數量特徵。
二、統計調查的種類
眾所周知,資訊化時代資訊的主體是統計資訊,統計資訊的獲取建立在統計調查的基礎之上。統計調查蒐集到的個體資訊資料的真實、準確與否將直接影響資訊化時代資訊的質量。統計調查獲取個體資訊資料的方式方法的不同決定了不同種類的統計調查獲取個體資訊資料質量的差異。
統計調查按是否對構成總體的全部個體進行調查,可以劃分為全面統計調查與非全面統計調查兩類。
全面統計調查指的是對構成總體的所有個體進行的調查,即要蒐集總體中所有個體的個體資訊資料的一種調查。再按對總體中個體資訊資料收集方式的不同,全面統計調查又可以劃分為普查和全面統計報表兩種。普查通常通過調查員藉助普查表直接向個體蒐集其資訊資料的一種調查方式。
非全面統計調查指僅從構成總體的全部個體中選取部分個體進行的調查。非全面調查又因從全部個體中所選部分個體的方式不同,分為抽樣調查和非抽樣調查。所謂抽樣調查指從構成總體的所有個體中按照隨機性原則選取部分個體的調查。同時,抽樣調查又根據隨機性原則在具體使用上的差異可以將抽樣調查劃分為簡單隨機抽樣、系統隨機抽樣、分層隨機抽樣、整群隨機抽樣以及多階段隨機抽樣等。另一方面,若從構成總體的所有個體單位中沒有遵循隨機性原則而選取部分個體單位進行調查,則這樣的統計調查稱之為非抽樣調查。生活中常用的非抽樣調查主要有重點調查、典型調查和滾雪球調查等。
因此,無論在抽樣調查的理論研究方面,還是在抽樣調查的實際應用中,抽樣調查正越來越受到人們的重視。
三、統計調查誤差的種類及特徵
1、統計調查誤差的概念。通常人們把由統計調查獲取個體資訊並綜合得到的總體規律性與總體實際客觀規律性之間的差異稱之為統計誤差。這種統計誤差反映在統計調查指標上,就是由調查個體所得總體指標數值與總體實際指標數值之間的差別。
2、登記性統計調查誤差、特徵及其產生的原因。
統計誤差通常可以分為登記性統計誤差和代表性誤差兩大類。所謂登記性誤差就是指由於調查者或被調查者的主觀原因而導致調查所得總體指標與總體實際指標之間的差異。
登記性統計誤差具有如下兩大基本特徵:一是登記性統計誤差從理論上而言是可以完全避免的,但是,在實際統計調查中,登記性統計誤差又不可避免。二是登記性統計誤差一旦產生,誤差的大小又不可以計量。
從理論上來說,只要被調查者提供了真實、準確的個體資訊資料,而且調查者能準確記錄與整理分析這些個體資訊資料,就可以避免登記性統計誤差的產生。事實上,統計總體中的個體可能會基於各種考慮或顧慮不願提供真實、準確的個體資訊資料。根源在於被調查者可能根本不理解統計調查的真實目的,或者把統計調查混同於非統計調查。在我國當前國民參與統計調查意識比較薄弱、基本統計常識比較缺乏以及保護統計個體資訊資料的法律、法規還不健全的現實條件下,要避免這種登記性誤差幾乎是不可能的。
再者,即使調查總體中的個體主觀想提供真實、準確的個體資訊資料,但是由於被調查的個體缺少必要的資料記錄,或沒有相關資料,或個人資訊資料記憶有誤也可能無法提供真實、準確的個人資訊資料。如在我國農村居民年收支情況的調查中,有些農村居民不是不想告訴你某年收支的準確資料,而是有些農村居民從來就沒有對自己的年收支核算過,也沒有詳細的收支記錄。
另一方面,即使被調查的個體提供了真實、準確的個體資訊資料,也可能因調查者資料記錄不熟練、責任心不強造成記錄錯誤,或者發生資料丟失以及分析、整理個體資訊資料有誤等,也會產生登記性統計誤差。
最後,不論何種原因一旦導致了登記性誤差的產生,登記性統計誤差的大小是無法準確計量的。這是因為被調查者提供的個體資訊資料中不真實、不準確的程度有多大、調查記錄中有多少差錯、個體資訊資料整理、分析中又有多大差錯等,在實際統計調查中均是不可測度的。
綜上所述,由於統計調查區別於非統計調查的特徵之一就是要對構成總體的個體進行獨立地調查,因此不管是全面統計調查還是非全面統計調查、不管是抽樣調查還是非抽樣調查都會產生登記性統計調查誤差。
3、代表性統計誤差、特徵及產生的原因。
所謂代表性統計誤差指僅對構成總體的所有個體中部分個體進行調查,且僅僅根據這部分個體提供的資訊資料綜合提煉出關於這部分個體的一般數量特徵如部分個體的均值,並據此對總體實際均值做出判斷所產生的一種差異。
代表性統計誤差可以根據它是來自抽樣調查還是非抽樣調查區分為抽樣誤差也稱隨機誤差和系統性誤差兩類。由抽樣調查所產生的代表性誤差稱之為抽樣誤差,由非抽樣調查所產生的代表性誤差稱為系統性統計誤差。
抽樣誤差具有如下基本特徵:從理論上來說抽樣誤差無法避免,但是,在實際抽樣調查中,抽樣誤差不僅可以採取一定手段加以防範和控制而且其大小也可以計算。一方面,代表性誤差產生的根源在於構成總體的所有個體的普遍規律性不可能由其中的部分個體完全顯現,否則,它就違背了部分與整體的基本哲學關係。另一方面,抽樣調查從總體中選取部分個體時,儘管確保了每一個個體都有同等被選中的可能性,使得所選中的部分個體的構成與總體中所有個體的構成趨於一致,由此保證了選中的部分個體的數量特徵能反映總體中所有個體的數量特徵。然而,總體中的某個個體能否最終被選中又具有一定的隨機性,從而使得所選中的部分個體數量特徵又不能完全反映總體中所有個體的數量特徵。由此表明,抽樣誤差不可避免。
數理統計關於抽樣的原理已經表明:只要採用適當的方法對構成總體中的所有個體先做適當的編排或分組,然後再遵循隨機性原則抽選個體,就可以有效地降低抽樣誤差的大小。即在樣本容量一定的前提下,對同一現象總體分別採用分層隨機抽樣、系統隨機抽樣、整群隨機抽樣和簡單隨機抽樣,其抽樣誤差是有顯著差異的。另外,在其他條件相同的情況下,變重複抽樣為不重複抽樣也可以適當減小抽樣誤差。系統性代表誤差具有如下基本特徵:從理論上來說系統性代表誤差是完全可以避免的,但是,系統性代表誤差一旦產生其大小又是不可計量的。系統性代表誤差產生的根源在於:在從構成總體的所有個體中選取部分個體時沒有遵循隨機性原則,而是主觀地、或部分主觀地從總體中選取個體作為調查單位。
因此,人們在實際統計調查中,如果能有意識地不受主觀因素的影響、自覺地遵循隨機性原則抽選部分個體,就可以避免系統性誤差的產生。
四、結語
隨著我國社會、經濟改革開放程度的不斷深入和社會主義市場經濟體系的不斷完善,社會各個階層及個人對資訊的種類、數量和質量的需求也在不斷改變。統計調查作為各種資訊的根本來源勢必會越來越受到人們更多地關注,也勢必會有越來越多的人蔘與到統計調查活動中來。通過分析不同調查現象總體的具體特徵,根據統計調查的實際需要選擇適當的調查方式方法,分析各種統計調查誤差產生的可能原因,就可以有針對性地採取必要的手段防範某些統計調查誤差的產生,從而實現在調查成本不變的情況下,有效地提高統計調查的資料質量。
篇2
談統計方法在行動通訊網路優化管理的應用
當前行動通訊網路優化,各種執行質量評估體系並存,不同運營商,不同裝置商的裝置和不同地區都可能形成自己的考核評估體系。這些考核評估體系大多是基於裝置商對各種行動通訊網路的統計,以及dt、cqt等場測資料綜合進行分析得出,能一定程度上反映行動通訊網路的執行效能與質量。但是隨著網路運營管理向系統化、精細化發展,原有的評估體系在某些方面不能適應當前網路優化工作的需要,如:對於各地區kpi關鍵質量指標縱、橫向比較的標準。較低的指標使原有評估體系的侷限性不斷顯現出來。要做到指標“與時俱進”的不斷提高,又要切合目前的網路質量狀態,達到最終的高指標、均衡化的目的,這就需要在指標門限制定的過程中運用統計學的若干方法。
聯合國的專門機構國際電信聯盟已為電信標準化部門制定了t標準。在文獻[1]中,明確定義了qos的概念、目標值等等。並且提到,在當前存在的移動系統中,通道阻塞率一般為5%~10%,而公共陸地電話網路到固定電路網路的阻塞率設計為1%。itu給出的建議標準是一重要參考,但指標最低門限是各運營商根據實際經驗、裝置商的建議和統計自行制定。
本文的主要工作在於:
1應用盒須圖模型模型中的穩健統計量和異常值定義,對各種關鍵效能指標的異常門限或等級門限的制定給出魯棒性強,符合數理統計規律的指導性建議。並應用盒須圖的視覺化功能,直觀便捷的觀察指標的統計規律,並對指標進行橫向比較。
2尊重地區差異,應用k-均值聚類的方法探索各不同地市之間在行動網路優化質量評價中的恰當分類。
1指標異常門限與等級門限
1.1網路均衡性
對使用者而言,在平時進行通訊時,若在不同時間、空間下有著不同的通話質量或者掉話率,就會引起使用者總體的感知度差。當前由於行動通訊話務統計指標的海量資料中,如果採用平均值得方式考核,就會忽略了指標的波動甚至異常。因此作為指標門限的制定的目的,要使網路kpi指標時刻和任何地點都有相對比較均衡的表現,並且要快速明顯的找出突發事故,發現和判別異常值。另外,排除異常值干擾後,要對各指標設定門限等級進行好中差的評價。符合統計規律、並且引領向好方向發展的管理評價才能使網路優化工作臻於至善。
1.2盒須圖模型
尋找合適的方法研究資料的合理範圍,發現和處理粗大的異常值是十分重要的.統計學為解決相關問題進行了許多積極的有益的探討,對單個變數且樣本容量不大時,已有許多較好的檢驗方法,諸如:z-檢驗、dixon檢驗、grubbs檢驗、nair檢驗、偏度-峰度檢驗等,它們都是以資料總體呈正態分佈為前提[2]。然而對於由移動通訊系統kpi指標影響因素很多,資料分佈未知且比較複雜。
根據中心極限定理和通訊干擾統計的相關的研究[3],行動通訊網路指標在受不同隨機因素影響的標準環境下,服從正態分佈。然而在實際環境中,行動通訊網路呈各種不規則的偏態單峰分佈,難於用已知分佈去擬合所有指標的數值分佈情況。為此,本文采用盒須圖模型結合穩健統計量的方法[4]。
圖1盒須圖模型
如圖1,盒須圖模型可以清晰地表示指標資料的分佈特徵,通過資料樣本的計算能得出五個次序統計量:中位數、內四分位距、偏態、最大/小觀測值和異常值。
1中位數:描述指標樣本的資料中心位置。
2四分位數:第一四分位數q1,又稱“下四分位數”,等於該樣本中所有數值由小到大排列後第25%的數字。第二四分位數q2,又稱“中位數”,等於該樣本中所有數值由小到大排列後第50%的數字。第三四分位數q3,又稱“上四分位數”,等於該樣本中所有數值由小到大排列後第75%的數字。
3內四分位距:描述指標樣本的資料離散程度。用盒形的高度表示。
4最大/小觀測值:描述指標樣本合理資料存在的範圍。用延伸的直線來表示,稱為“觸鬚”,觸鬚的頂部和底部分別為樣本指標資料中非異常資料的最大觀測值。若沒有異常值,樣本的最大值為上觸鬚的頂部,樣本最小值為下觸鬚的底部。
5偏態skewness:描述指標樣本資料中心偏離的程度。用盒中橫線在盒子的位置表示。s=
異常資料outliers:大於盒形頂部或底部延伸1.5倍內四分位距的資料稱為粗大異常資料。大於盒形頂部或底部延伸3倍內四分位距的資料稱為極端異常資料在在圖中紅色‘+’表示該處資料為一粗大異常資料。
採用盒須圖模型的優勢[2],1.有強大的穩健性和耐抗性抗崩潰,極端值幾乎不影響。2.不需要分佈的先驗知識,對資料真實的呈現。3.能包含絕大多數帶分佈性質的合理資料,並且判斷異常值是以四分位數和四分位距為依據,較為客觀。多達25%的異常資料不能影響這個標準。4.視覺化直觀間接的觀察資料的統計性質,可通過盒中橫線、盒形長短、盒須長短和紅十字觀察到中位數、四分位距、合理範圍和異常值等情況。此外,還可以觀察到分佈的偏態和尾重。若資料分佈為正態分佈,中位數和數學期望將重合,異常值判定約在±2.638σ以外,異常資料佔全部資料不大於0.7%,與萊特准則接近。
1.3應用例項
我們以2010年11月1日到2011年2月23日,某省話務量最大的四個城市一類城市的尋呼成功率為例子,演示計算過程、畫出盒須圖非異常資料佔總資料比。見圖2:
我們再以這四個一類城市的2010.9.8~2011.2.23的pdch複用度所有指標資料,應用盒須圖模型,考察它的合理資料非異常數
據的佔比,見表1。
另外,我們對某省21個地級市的2010.11.1~2011.2.23通道完好率指標做盒須圖橫向對比,觀察它所呈現的資料特性,見圖3。
根據以上的結論,我們可以驗證用盒須圖模型的方法觀察資料:
1異常資料只是佔資料總體的少量部分,並且都有明顯的離群的現象。
2考慮了資料的分佈形態,尊重了地市的現實情況。
3直觀、視覺化,併為從事質量管理提供瞭如資料中心、分佈離散程度等其他相資訊。
2地市分類
由於各地市在經濟發展速度、網路建設、人口和社會環境等各種因素的不均衡,要有根據的對不同地市分類比較,才能做到尊重地區差異的情況。因此,要科學合理的根據話務統計指標劃分地市,必須要採用統計學的方法,為網優管理提供有效的決策支援。
因此,我們嘗試用行動通訊kpi、話務量和資料業務量等資料,採用k-均值聚類的方法來研究行動通訊的地市分類。
本節我們將根據多維度評估對kpi的分類,分別對指標進行k-均值聚類,我們採用matlab 7.1軟體和數理統計工具箱的kmeans函式[5][6][7]來進行聚類。在這個階段,k值分類的選擇是是十分重要的,如果k取值過小,則不能發現有效的分類模式,使劃分失去了意義;如果k值取值過大,分類指標將變得瑣碎,各類之間的特徵區分不是特別明顯,對指導管理經營活動沒有操作性。根據以往業務經驗,分別取值2~5對樣本進行嘗試計算,然後用silhouette值觀測區分確定有效的k值分類數。silhouette值資料點與它本身聚類中的點的距離比上它與其他聚類中的點的距離,
sx=
minbx,y-ax,y
maxax,y,minbx,y,其中bx,y=avgdx,y,是x點與除開與x在同一聚類的點的平均距離。ax,y是x點與其同處於
一個聚類的點的平均距離。[9]
2.1話務量、資料量分類
我們以2010年11月1日至2011年2月23日表示話務量的指標——tch話務量峰值和表示資料量的指標——pdch佔用數20點,先對日指標求最大值,然後進行二維k-均值聚類。
我們設分類數k=2,3,4,5進行k-均值聚類,畫出silhouette圖。
從圖4中我們可以看出,21個地市按tch話務量峰值、pdch佔用數20點分類,當k=2和4,各組區分於其他組的silhouette值大部分都比較大大於0.6,並且沒有負值,說明分類比較好。
表2 tch話務量峰值、pdch佔用數20點k-均值聚類2010-11-1~2011-2-23
從表2中可以看出,地市關於話務量和資料業務量的分類,符合當前人們對該地市的社會經濟發展各因素的理解,因此可以作為地市網優管理分類的重要參考。
3結論
行動通訊網路指標異常值的挖掘是一個很有實際意義的問題。目前從物理上沒有確切的模型做為發現異常值的先驗參考;在少樣本,其他因素劇烈影響的影響和非標準環境下,各指標分佈情況複雜;從統計量的穩健性考慮去判別異常波動指標,因此採用盒須圖模型做了嘗試和資料論證。經過計算說明:採用盒須圖次序統計量模型制定異常門限,能包含大多數指標資料;並且由盒須圖直觀方便的視覺化功能,能迅速的將統計結果轉化為視覺映像,用此方法計算簡單,效率高,較為合理,有利於管理的橫向比較,具有一定的實用價值。
為了對網路產生的話務統計資料進行研究,科學、客觀的參照,並尊重地市網路建設、話務分佈乃至社會經濟等各方面差別的因素,必須對網路分類。本文嘗試採用k-均值聚類方法對某省21個地市的行動通訊網路的話務量、資料量分類,並結合各分類的silhouette值選擇k的大小。分類的效果說明這樣的分類是有意義的。
統計方面結課論文