1. 常態分布就是以平均數為中心點,往兩旁漸低的左右對稱分布。常態分布下,中心的最高點就是平均數,也就是眾數、和中位數。
在現實中,並沒有連續的曲線存在,頂多只是類似常態分布,但當樣本數很大時,會越接近常態分布。
2. 常態分布曲線公式(圖4.1),有平均數和變異數(或標準差)就可知道常態分布的形狀。
- 標準差決定y軸,標準差越小,data越集中
- 平均數決定x軸,平均數不同,圖型會左右位移
3. 讀法:p(X=3)=1/6 → 參數3的出現機率是1/6。只有間斷變項才會有這樣的表達方式,若是連續變項,如身高,就不會說170公分出現的機率是多少。這時候就必須使用「機率密度」
4. 機率密度:
- 適用於連續變項。如平均數170公分,標準差5的常態分布中,170(+-5,165~175)的機率密度為0.0798。但機率密度無多大意義,大家比較關心的是170公分以下的機率,或是165~175的機率。
- = NORMDIST(160, 170, 5, FALSE) → 平均數170,標準差5的常態分布下,160的機率密度。
5. 累積分布函數:
- = NORMDIST(170, 170, 5, TRUE) → 平均數170,標準差5的常態分布下,170以下的累積機率為0.5(50%)。
- 累積分布反函數: 90% = NORMINV(0.9, 170, 5)= 176.41
第二節 標準常態分布 (Z分布)
1. 將平均數定為0,變異數訂為1的常態分布。
2. 將X參數利用線性公式4.25轉換為z分數後,使用 = NORMSDIST(z) 會得到該參數的累積機率。也可利用 = NORMSINV(累積機率) 回求該參數。
第三節 峰度與偏態 (用來描述常態分布的形狀)
1. 常態分布的峰度為0
- 若資料峰度大於0,呈現高峽峰
- 若資料峰度小於零,呈現低闊峰
- KURT(range) 就可得到峰度
3. 偏態
- 偏態值>0,表示資料集中在左邊,右偏態
- 偏態值<0,表示資料集中在右邊,左偏態
- = SKEW(range)
沒有留言:
張貼留言