統計學習方法有哪些
統計學習方法的三要素,包括假設空間、模型的選擇準則以及模型學習的演算法,簡稱為模型、策略和演算法。具體請看下文,下面是小編分享給大家的統計學習方法的資料,希望大家喜歡!
統計學習方法一
1.極大似然原理:
例子1:原理是這樣的,一個師傅和一個徒弟去打獵,如果第一個獵物被打到了,不知道是誰打的,就猜是師傅打的,這就是極大似然。
例子2:假設一件事有100種可能性,在一次試驗中其中一種可能性發生了,所以給人一種感覺這種可能性是最容易發生的,極大似然的想法就是使這種可能性達到最大
統計學習方法二
2.實際應用中極大似然估計分佈的引數:
根據n個樣本,估計整體分佈的引數,比如我們知道總體是服從正態分佈,但是不知道具體引數theta和u。其基本思想是這樣的:選擇一個引數使得實驗結果具有最大的概率,已知某個引數能使這個樣本出現的概率最大,我們當然不會再去選擇其他小概率的樣本,所以乾脆就把這個引數作為估計的真實值。
Em演算法和最大似然估計的關係:
EM演算法是求最大似然估計的一種方法,但是當含有隱變數時候不方便通過似然函式求導,來求引數,所以就分了e步和m步來求,這樣方便
P15頁上面的“S折交叉驗證”和“留一交叉驗證”有什麼區別嗎?
它們都是在資料集不夠的條件下使用的一種方,舉個例子吧s折交叉驗證,外層一個大迴圈***比如你可以讓它迴圈10次***,其中每一次都將資料集劃分為訓練集和測試集,這兩大塊的資料集大小的比例沒做限定,然後用訓練集訓練模型,測試集經驗風險,最後迴圈結束,對這些風險取平均值。
S折是把資料分成互不相交的S份,這裡有個完備的概念,S-1份作為訓練集,剩下的一份作為測試集,注意每一份是隨機選的,但是個數相同,這S份都要遍歷一遍,最後取平均值,不是取某一份最小的值,會發現用交叉驗證每執行一次程式碼,結果都不一樣,因為交叉驗證雖然把資料評論分成S份,但每分都是隨機選的,裡面有個隨機量,留一法就是隻留一條資料作為測試資料,其他都作為訓練集,是每份為一的交叉驗證,特殊的交叉驗證,留一法準確率高,就是運算量大,以上都是因為,我們訓練資料太少,我們要怎家訓練的多樣性,才這麼幹的
結構風險等於經驗風險加正則化項。都是複雜度越小越不容易過擬合,那完全可以加很小,趨於零 相當於不加了,只剩經驗風險了。那有什麼意義呢?對於過擬合。
對於正則化懲罰我是這麼理解的。和為懲罰?我們訓練策略是要求經驗損失儘可能小,當然模型複雜了,訓練效果好了,經驗損失肯定會小,但是這時候可能過擬合了,一個模型能使損失儘量小,我們有模型後面加上一個懲罰項就是加上一個數,是他不那麼容易把損失變得那麼小。
統計學習方概論
為了更好的把機器學習、深度學習用到油藏開發中,需要學習最先進的演算法。通過這篇概論可以看到,幾乎所有的統計學習問題,都變成了最優化問題。
統計學習的方法是基於資料構建統計模型從而對資料進行預測和分析。統計學習由監督學習、非監督學習、半監督學習和強化學習。李航的《統計學習方法》主要講解監督學習。
監督學習的任務是學習一個模型,使模型能夠對任意給定的輸入,對其相應的輸出做出一個好的預測。
統計學習方法的三要素,包括假設空間、模型的選擇準則以及模型學習的演算法,簡稱為模型、策略和演算法。
監督學習從訓練資料集合中學習模型,對觀測資料進行預測。人們根據輸入、輸出變數的不同型別,對預測任務給予不同的名稱:輸入變數與輸出變數均為連續變數的預測問題稱為迴歸問題;輸出變數為有限個離散變數的預測問題稱為分類問題;輸入變數和輸出變數均為變數序列的預測問題稱為標註問題。
監督學習中,假設訓練資料與測試資料是依聯合概率分佈P***X,Y***獨立同分布產生的。
在學習過程中,學習系統利用給定的訓練資料集,通過學習得到一個模型,表示條件概率分佈P***Y|X***或決策函式Y=f***X***,條件概率分佈或決策函式描述輸入與輸出隨機變數之間的對映關係。
在學習過程中,學習系統***也就是演算法***試圖通過訓練資料集中的樣本***xi,yi***帶來的資訊學習模型。
方法=模型+策略+演算法
在監督學習中,模型就是要學習的條件概率分佈或決策函式。一般,由決策函式表示的模型為非概率模型,由條件概率表示的模型為概率模型。模型的假設空間包含所有可能的條件概率分佈或決策函式。
統計學習的目的在於從假設空間中選取最優模型。損失函式度量模型一次預測的好壞,風險函式度量平均意義下模型預測的好壞。
期望風險是模型關於聯合分佈的期望損失,經驗風險是模型關於訓練樣本集的平均損失。根據大數定律,等樣本容量趨於無窮時,經驗風險區域期望風險。
經驗風險最小化的策略認為,經驗風險最小的模型是模型最優的模型。根據這一策略,按照經驗風險最小化求最優模型就是求解最優化問題。
當樣本容量足夠大時,經驗風險最小化能保證很好的學習效果,在現實中被廣泛使用。但是,當樣本容量很小時,經驗風險最小化學習的效果未必很好,會產生“過擬合”現象。
結構風險最小化是為了防止過擬合而提出來的策略。結構風險最小化等價於正則化,它是在經驗風險上加上表示模型複雜度的正則化項***regularizer***或懲罰項***penalty term***。模型複雜度是定義在假設空間上的泛函。結構風險小需要經驗風險與模型複雜度同時小。結構風險最小化的策略認為結構風險最小化的模型是最優的模型。所以求最優模型,就是求解最優化問題:
演算法是指學習模型的具體計算方法。統計學習問題歸結為最優化問題,統計學習的演算法成為求解最優化問題的演算法。如何保證找到全域性最優解,並使求解的過程非常高效,就成為一個重要問題。
統計學習可以利用已有的最優化演算法,有時也需要開發獨自的最優化演算法。
統計學習方法之間的不同,主要來自其模型、策略和演算法的不同。
統計學習的目的是使學到的模型不僅對已知資料而且對未知資料都有很好的預測能力。測試誤差反應了學習方法對未知的測試資料集的預測能力,是學習中的重要概念。通常將學習方法對未知資料的預測能力稱為泛化能力***generalizationability***。
監督學習的任務就是學習一個模型,應用這一模型,對給定的輸入預測相應的輸出。監督學習方法可以分為生成方法和判別方法,所學到的模型分別稱為生成模型和判別模型。
典型的生成模型有:樸素貝葉斯法和隱馬爾可夫模型。
典型的判別模型包括:k鄰近法、感知法、決策樹、邏輯斯遞迴模型、最大熵抹胸、支援向量機、提升法和條件隨機場等。
生成方法的特點:可以還原出聯合概率分佈P***X,Y***,而判別方法不能;生成方法的學習收斂速度更快,當存在隱變數時,仍可以用生成方法學習,測試判別方法不能用。
判別方法的特點:判別方法直接學習的是條件概率P***Y|X***或決策函式f***X***,直接面對預測,汪汪學習的準確率更好;由於直接學習P***Y|X***或f***X***,可以對資料進行各種程度上的抽象、定義特徵並使用特徵,因此可以簡化學習問題。
分類問題是監督學習的一個核心問題,監督學習從資料中學習一個分類模型或分類決策函式,稱為分類器。
分類問題包括學習和分類兩個過程。在學習過程中,根據已知的訓練資料集利用有效的學習方法學習一個分類器;在分類過程中,利用學習的分類器對新的輸入例項進行分類。
許多學習方法可以用於分類,包括k鄰近法,感知機,樸素貝葉斯,決策樹,決策列表,邏輯斯遞迴模型,支援向量機,提升方法,貝葉斯網路,神經網路,window等。
標註***tagging***也是一個監督學習問題,可以認為標註問題是分類問題的一個推廣,標註問題又是更復雜的結構預測***structureprediction***問題的一個簡單型式。標註問題類似於沉積序列問題,結構預測類似於沉積相分佈預測問題。
標註問體的輸入是一個觀測序列,輸出是一個標記序列或狀態序列。標註問體的目標在於學習一個模型,使它能夠預測序列給出標記序列作為預測。注意,可能的標記個數是有限的,但其組合所稱的標記序列的個數是依序列的個數長度呈指數增長的。
標註常用的統計學習方法有:隱式馬爾科夫模型、條件隨機場。
標註問題在資訊提取、自然語言處理等領域廣泛使用,是這些領域的基本問題。
迴歸問題是監督學習的另一個重要問題。迴歸用於預測輸入變數和輸出變數變數之間的關係,特別是當輸入變數的值發生變化時,輸出變數的值也發生的變化。迴歸莫i選哪個正是表示輸入變數到輸出變數之間對映的函式。迴歸問題的學習等價於函式擬合。
終於確認,多點地質統計學建模演算法採用的就是機器學習的思路。
統計機器學習中的特徵選擇方法綜述