統計基礎知識(最全統計學知識梳理,這些知識點夠用了)

統計學分為描述性統計學和推斷性統計學

一、描述統計學

(一)描述統計學簡介

何為描述,“一雙丹鳳三角眼、兩彎柳葉吊梢眉,身量苗條,體格風騷,粉面含春威不露,丹唇未啟笑先聞。”這是曹先生對王熙鳳的描述。和我們怎么評價一個人長什么模樣一樣,描述統計學是用來描述一組數據長什么樣:最大值最小值是多少?平均數是多少?哪個數字出現最多?數據是集中的還是離散的?等等。我們在做數據分析的時候,需要在數據中發現規律,但這一個前提就是我們要知道這組數據長什么樣。就像男生想要追求一個女孩子時,需要充分了解這個女孩子,才能對癥下藥、投其所好一樣。常見的描述數據的方法如下:

最全統計學知識梳理,這些知識點夠用了

 

(二)抽樣方法與中心極限定理

在我們檢測一批藥品合不合格的時候,我們不可能把所有的藥盒都打開全都檢查一遍確定是否合格,只能抽取部分檢測,依據這部分藥品的檢測結果來推斷全部藥品的質量,這就是所謂的抽樣方法。抽樣就是為了檢測整體而從整體中抽一個樣本出來檢測,以樣本檢測的結果來推斷整體質量的一種方法。

我們在實際生活中需要利用抽樣完成不同的目的,對于樣本的要求也不一樣,此時就需要不同的抽樣方法。常見抽樣方法如下:

最全統計學知識梳理,這些知識點夠用了

 

(三)抽取樣本服從什么分布?

根據中心極限定理:若給定樣本量的所有樣本來自任意整體,則樣本均值的抽樣分布近似服從正態分布,且樣本量越大,近似性越強。

當樣本量大于30的時候符合中心極限定理,樣本服從正態分布;當樣本量小于30的時候,總體近似正態分布時,此時樣本服從t分布。樣本的分布形態決定了我們在假設檢驗中采用什么方法去檢驗它。

二、推斷統計

(一)基本步驟

推斷統計顧名思義就是從樣本特征推斷總體的特征。而這個推斷的過程即所謂的假設檢驗。這個過程首先需要明確問題是什么?然后確定證據是什么?判斷標準是什么?最后做出結論。即對應假設檢驗的幾個步驟:

1.提出原假設(H0)和備選假設(H1)

2.確定顯著性水平(原假設為正確時,人們把它拒絕了的概率)

3.選擇檢驗統計量

4.建立決策準則

5.下結論

知識點:P值的獲取公式

樣本標準差s:估計總體標準差

根據t值,查找t表格,得到P值

(二)假設檢驗的三種類型

單樣本檢驗:檢驗單個樣本的平均值是否等于目標值

相關配對檢驗:檢驗相關或配對觀測之差的平均值是否等于目標值

獨立雙樣本檢驗:檢驗兩個獨立樣本的平均值之差是否等于目標值

(三)不同的統計檢驗方法

Z檢驗:Z檢驗是一般用于大樣本(即樣本容量大于30)平均值差異性檢驗的方法。它是用標準正態分布的理論來推斷差異發生的概率,從而比較兩個平均數>平均數的差異是否顯著。

T檢驗:用于樣本含量較?。ɡ鏽<30),總體標準差σ未知的正態分布樣本。

F檢驗:F檢驗又叫方差齊性檢驗。在兩樣本t檢驗中要用到F檢驗。檢驗兩個樣本的方差是否有顯著性差異 這是選擇何種T檢驗(等方差雙樣本檢驗,異方差雙樣本檢驗)的前提條件。

(T檢驗用來檢測數據的準確度,檢測系統誤差 ;F檢驗用來檢測數據的精密度,檢測偶然誤差)

卡方檢驗:主要用于檢驗兩個或兩個以上樣本率或構成比之間差別的顯著性,也可檢驗兩類事物之間是否存在一定的關系。

(四)雙尾檢測和單尾檢測

是雙尾檢測還是單尾檢測與我們提出的原假設有關。比如說我們檢測中國和日本人民的學歷是否有差異,如果原假設是中國人學歷=日本人學歷,原假設成立需要拒絕兩個可能,一是中國人學歷大于日本人學歷,二是日本人學歷大于中國人學歷,此時我們就需要進行雙尾檢驗。而原假設如果是中國人學歷大于日本人學歷,原假設成立只需要拒絕一個可能,即中國人學歷小于日本人學歷,此時就需要進行單尾檢驗。

(五)置信區間與置信水平

所謂的統計學,就是依據一個樣本來推斷總體。在推斷過程中,我們或多或少會遇到一些干擾因素,最終推斷的結果并不是一個確切的數字,取值會在一個范圍里面,這個范圍就是所謂的置信區間。

如果要保證總體的取值一定在一個置信區間里,那置信區間的存在也就沒什么意義了,因為萬事皆有可能,總體的數據可能是任何數,只是概率大不大的問題了,此時置信區間將是一個無盡的區間。所以需要加上置信水平的限制,置信水平給出了一個概率,即不要求百分之百的準確度,只要達到置信水平的標準就行了,我們常用的就是95%的置信水平。比如說95%的置信水平下的置信區間是[2,3],意思是有百分之95%的可能總體的值出現在[2,3]的區間內。

置信區間[a,b]的計算方法為:(z分數:由置信水平決定,查表得)

a = 樣本均值 - z*標準誤差

b = 樣本均值 + z*標準誤差

(六)第一類錯誤和第二類錯誤

第一類錯誤是拒絕了實際正確的假設,第二類錯誤是接受了實際上不成立的假設。犯兩類錯誤的主要影響因素是置信水平,當置信水平越高,即總體值均值落在置信區間的可能性越大,此時越不容易拒絕實際正確的假設,犯第一類的錯誤可能性就會變小,而犯第二類錯誤的可能性就會變大;而置信水平越低,越容易犯第一類錯誤,而不容易犯第二類錯誤。在實際中我們更怕犯第一類錯誤,所以會盡量設定高的置信水平。

(七)效應量

當我們通過假設檢驗得出結論,只能知道樣本是否有差異,如果有差異的話,差異又有多大呢?效應量指標就是用來衡量效果顯著性的指標,主要有兩大類別。

差異指標:衡量兩組數據的平均值差異

最全統計學知識梳理,這些知識點夠用了

 

相關度指標:衡量某一指標與另一指標的關系

最全統計學知識梳理,這些知識點夠用了

 

(八)數據統計分析匯報格式

1、描述統計分析

描述兩組數據的基本情況

2、推論統計分析

1)假設檢驗

假設檢驗APA格式:

t (df) = ×.xx, p = .xx (α=.xx),檢驗方向

2)置信區間

3)效應量

掃一掃手機訪問

發表評論

條留言  
給我留言