條件概率
\[P(A|B)=\frac{P(AB)}{P(B)}\]\[P(A_1\cup A_2 \cup A_3|B)=\frac{P(A_1)}{P(B)}+\frac{P(A_2)}{P(B)}+\frac{P(A_3)}{P(B)}\]\[P(A_1A_2A_3\dots A_n)=\frac{P(A_1A_2)}{P(A_1)}\frac{P(A_1A_2A_3)}{P(A_1A_2)} \dots \frac{P(A_1A_2\dots A_{n})}{P(A_1A_2\dots A_{n-1})} P(A_1)\]\[P(B_i|A)=\frac{P(B_i)P(A|B_i)}{ \sum_{j=1}^n P(B_j)P(A|B_j)}\]一些基本的分佈
離散
二次項分佈
\[f(k,n,p)= \text{Pr}(X=k)=\tbinom {n}{k}(1-p)^{n-k}p^{k}\]\[\text{E}(X)=np,\quad \text{var}(X)=np(1-p)\]幾何分佈
- wiki
- 如果每次試驗的成功概率是$p$,那麼$k$次試驗中,第$k$次才得到第一次成功的概率是,
\[\text{Pr}(X=k)= (1-p)^{k-1}p\]\[\text{E}(X)=\frac{1}{p},\quad \text{var}(X)=\frac{1-p}{p^2}\]超幾何分佈
wiki 超幾何分佈是統計學上一種離散概率分佈。它描述了由有限個物件中抽出$n$個物件,成功抽出指定種類的物件的個數(不歸還 (without replacement))。
例如在有$N$個樣本,其中$K$個是不及格的。超幾何分佈描述了在該$N$個樣本中抽出$n$個,其中$k$個是不及格的機率:
\[f(k;n,K,N)=\frac{\tbinom {K}{k} \tbinom {N-K}{n-k} }{\tbinom {N}{n} }\]上式可如此理解:$\tbinom {N}{n}$ 表示所有在 $N$個樣本中抽出$n$個的方法數目。$\tbinom {K}{k}$表示在$K$個樣本中,抽出$k$個的方法數目,即組合數,又稱二項式係數。剩下來的樣本都是及格的,而及格的樣本有$N-K$個,剩下的抽法便有$\tbinom {N-K}{n-k}$種。
若$n=1$,超幾何分佈還原為伯努利分佈。其中 $k = 1, 2, 3, ….$
\[\text{E}(X)=n\frac{K}{N},\quad \text{var}(X)=n\frac{K(N-K)(N-n)}{N^2(N-1)}\]poisson分佈
\[\text{Pr}(X=k)=\frac{e^{-\lambda}\lambda^k}{k!}\]卜瓦松分佈的母數$\lambda$是單位時間(或單位面積)內隨機事件的平均發生率。
\[\text{E}(X)=\lambda,\quad \text{var}(X)=\lambda\]連續分佈
常數分佈
\[E(X)=\frac{b+a}{2} \quad var(X)=\frac{b-a}{12}\]指數分佈
\[f(x)=\lambda \exp(-\lambda x) \quad x > 0\] \[E(X)=\frac{1}{\lambda},\quad var(X)=\frac{1}{\lambda^2}\]正態分佈
\[f(x)=\frac{1}{\sqrt{2\pi \sigma} }\exp{-\frac{(x-\mu)^2}{2\sigma^2}}\]
統計特徵量
- 用來表達所有資料中意涵訊息的特徵,以凸顯資料所代表的意義,讓使用該資料之研究者或讀者能夠掌握分析方向
- 分四大類:集中量數、差異量數、偏態與峯度。
集中量數/集中趨勢量數
- 指一羣體中之個體的某一特性,有其共同的趨勢存在,此一共同趨勢之量數即稱之集中趨勢量數
- 因其能夠代表該羣體特性的平均水準,故通稱為平均數
- 居有簡化作用、代表作用和比較作用
偏度
- 負偏態或左偏態:偏度<0,平均值左側的橫軸更長,分佈的主體集中在右側。平均<中位<眾數,峯的位置在右邊。
- 正偏態或右偏態:偏度>0,平均值右側的橫軸更長,分佈的主體集中在左側。眾數<中位<平均,峯的位置在左邊。
\[g=\frac{m_3}{m_2^\frac{3}{2}}=\frac{\sum\limits_{i=1}^n (x-\bar x)^3}{(\sum\limits_{i=1}^n (x-\bar x)^2)^{\frac{2}{3} } }\]峯度
- wiki
- 如果超值峯度為正,稱為尖峯態(leptokurtic)。如果超值峯度為負,稱為低峯態(platykurtic)。
\[g=\frac{m_4}{m_2^2}-3=\frac{\sum\limits_{i=1}^n (x-\bar x)^4} {(\sum\limits_{i=1}^n (x-\bar x)^2 )^2}-3\]相對分散度
- 若有兩組資料而欲比較其相對分散程度時,會使用相對分散度來對比
\[\text{CV}=\frac{\sigma}{\mu}\]異衆比率
\[V_r=\frac{ (\sum f_i ) -f_m}{\sum f_i}\]樣本分位數與樣本中位數
\[m_{0.5}=\Big\{ \begin{aligned} & x_{\frac{n+1}{2}} \quad & \text{n is odd}\\ & 0.5*(x_{\frac{n}{2}} +x_{\frac{n}{2}+1}) \quad & \text{n is even} \end{aligned}\] \[m_{p}=\Big\{ \begin{aligned} & x_{ \lfloor np+1 \rfloor]} \quad & np\text{ is not an integer}\\ & 0.5*(x_{np} +x_{np+1}) \quad & np \text{ is an integer} \end{aligned}\]五數概括與箱線圖
\[x_{\text{min}}, Q_1=m_{0.25},m_{0.5},Q_3=m_{0.75},x_{\text{max}}\]- 當數據含有極端值時, 使用中位數比使用均更好,中位數的這種抗干擾性在統計中稱為具有穩健性
一些基本定理
中央極限定理
- 中心極限定理就是研究隨機變量和的極限分布在甚麽條件下為正態分布的問題
\[\frac{\sum X_i-E(\sum X_i)}{ \text{Var}(\sum X_i)}= \frac{\sum X_i -n\mu}{\sigma\sqrt{n}}= \frac{\frac{\sum X_i}{n} -\mu}{\frac{\sigma}{\sqrt{n}}} \rightarrow N(0,1)\]柴比雪夫不等式
\[\text{Pr}(|X-E(X)|\geq b) \leq \frac{\text{Var}(X)}{b^2}\]或者
\[\text{Pr}(| \frac{\bar X-\mu}{\frac{\sigma}{\sqrt{n}}}|\geq b ) \leq \frac{1}{b^2}\]大數法則
\[\lim_{n\rightarrow \infty} P(\vert \frac{1}{n} \sum _{i=1}^n X_i -\frac{1}{n} \sum _{i=1}^n E(X_i) \vert \geq \epsilon) =0\]
三大分佈
$\chi^2$分布
- P.283
- 卡方:名義測量類型的數據
- 卡方:單個總體的方差檢驗
- 卡方圖形在$y$軸右側
- 總體方差服從卡方分佈
- $X_i \sim N(0,1)$
\[\chi^2=X_1^2+X_2^2+\dots +X_n^2\]- $x_i$是來自$N(\mu,\sigma)$樣本
- $\bar x=\frac{1}{n}\sum x_i$
- $s^2=\frac{1}{n-1}\sum(x-\bar x)^2$
\[\frac{(n-1)s^2}{\sigma^2} \sim \chi^2(n-1)\]$F$分布
\[X_i\sim \chi^2(m),X_2 \sim \chi^2(n)\] \[F=\frac{X_1/m}{X_2/n}\] \[F_\alpha(n,m)=\frac{1}{F_{1-\alpha}(m,n)}\]- 若$x_1,\dots x_n \sim N(\mu_1, \sigma)$,$y_1,\dots y_n \sim N(\mu_2, \sigma)$
\[F=\frac{\frac{(m-1)s_x^2}{\sigma}}{\frac{(n-1)s_y^2}{\sigma}} =\frac{s_x^2}{s_y^2} \sim F(m-1,n-1)\]$t$分布
\[t=\frac{X_1}{\sqrt{X_2/n}}\]- $x1,\dots, x_n N(\mu,\sigma)$,$\bar x , s^2$是樣本的平均和方差,則
\[t=\frac{\sqrt{n}(\bar x -\mu)}{s}\sim t(n-1)\]參數估計
- $ \hat \theta$ 是估計出來
- $\theta$ 是參數
矩法估計
- 樣本矩代替總體矩,矩可以是中心矩或原點矩
- 其估計參數和總體矩的函數, 亦用估計參數和樣本矩代替
\[E(X)=\frac{1}{\theta} \implies \bar X=\frac{1}{\hat \theta}\]極大似然估計
\[L(\theta)=L(\theta,X_1,X_2,\dots,X_n)=f(x_1,\theta)f(x_2,\theta)\dots f(x_n,\theta)\] \[L(\hat \theta)=\max_{\theta} L(\theta)\]相合性
\[lim_{n \leftarrow \infty} P{ | \hat \theta -\theta| \geq \epsilon} =0\]\[lim_{n \leftarrow \infty} E(\hat \theta) = \theta , \quad lim_{n \leftarrow \infty} Var(\hat \theta) = 0\]則$\hat \theta$ 是相合
無偏性
\[E(\hat \theta)=\theta\]有效性
若$\text{Var}(\theta_1)<= \text{Var}{\theta_2}$,則稱$\theta_1$比$\theta_2$更有效
假設檢驗
\[\text{Pr}(\text{置信距間})=1-\alpha\]大樣本檢驗
\[\begin{aligned} I \quad &H_0:\theta \leq \theta_0 \quad &VS\quad &H_1:\theta > \theta_0 \\ II \quad &H_0:\theta \geq \theta_0 \quad &VS\quad &H_1:\theta < \theta_0 \\ III \quad &H_0:\theta = \theta_0 \quad &VS\quad &H_1:\theta \neq \theta_0 \end{aligned}\]- 二點分布$b(1,\theta)$ ,方差$\theta(1-\theta)$
\[u=\frac{\sqrt{n}(\bar x-\theta_0)}{\sqrt{\sigma^2(\hat \theta)}} \sim N(0,1)\]\[H_0:\lambda \leq \lambda_0 \quad VS \quad H_1:\lambda > \lambda_0\] \[u=\frac{\sqrt{n}(\bar x-\lambda_0)}{\sqrt{\hat \lambda}} \sim N(0,1)\]其中, $\hat \lambda$是樣本平均值
$\chi^2$分類數據擬合度檢驗
- 有$r$類, $A_1,A_2,\dots,A_r$
\[H_0: A_i \text{的所占的比率是} p_{i0},\quad i=1,2,\dots,r\] \[\chi^2=\sum\frac{(n_i-np_{i0})^2}{np_{i0}} \sim \chi^2(r-1)\]列聯表的獨立性檢驗
\[H_0:p_{ij} =p_{i\cdot}p_{\cdot j} \quad i=1,\dots,r,j=1,2,\dots,c\] \[\chi^2=\sum\sum\frac{(n_{ij}-n\hat p_{ij})^2}{n\hat p_{ij}} \sim \chi^2((r-1)(c-1))\]- 拒絕域$W={\chi^2\geq \chi^2_{1-\alpha}((r-1)(c-1))}$
正態分布
線性迴歸和邏輯迴歸
抽樣
- reference
- 分類:
- 概率抽樣包括有簡單隨機抽樣、系統抽樣(等距抽樣)、分層抽樣(類型抽樣)、整羣抽樣
簡單隨機抽樣(simple random sampling)
在進行抽樣時不摻入任何人為因素。母體的每一個體都有同等的機會被選中,且每次抽選與此次之前的歷次抽選無關。在進行此方法時,通常將所觀察的母體內每一個體,加以編號$1-N$,接著隨機地從這$N$個號碼中抽出我們想要的$n$個號碼(即預定的樣本數)。其次找出母體號碼中與這$n$個隨機號碼相同的個體, 這就是選出的樣本。
分層抽樣(stratified sampling)
調查的母體,可依某衡量標準,區分成若干個不重複的子母體,我們稱之為『層』,且層與層之間有很大的變異性,層內的變異性較小。在區分不同層後,再從每一層中利用簡單隨機抽樣抽出所須比例的樣本數,將所得各層樣本合起來即為樣本。此處的比例就是該層的個體總數佔母體的比例。
系統抽樣(systematic sampling)
系統抽樣基本上是隻做一次簡單隨機抽樣後,就採取依固定間隔數抽出一樣本。一般而言,若母體為有限,可將母體依序編號$1,2,\cdots,N$,假設欲選取$n$個樣本,先決定區間間隔$k$,然後以簡單隨機抽樣從$1,2,\cdots,k$中選取一數,此數做為起點,依序每$k$個單位選取一樣本。通常k取為最接近$N/n$的整數。
羣集抽樣(cluster sampling)
當母體的底冊的蒐集及編造極為困難或龐大,而在調查時又希望節省成本時,可採用此種抽樣。羣集抽樣的方法就是將母體分成幾個羣集(或部落、區域),而羣集間的變異小,羣集內的變異大。再從這幾個羣集中抽出數個羣集進行抽樣或普查。有時羣集抽樣又稱部落抽樣、叢聚抽樣。
最大似然
- 估計算
- 無偏性、有效性、一致性 邏輯迴歸中常用的篩選變量的方法有
- Wald test : 共線性時Wald檢驗不再有效
- 一個似然比檢驗
數據清理和檢查
- 隨機森林填充缺失值 對於一個有n個特徵的數據來說,其中特徵T有缺失值,我們就把特徵T當作標籤,其他的n-1個特徵和原本的標籤組成新的特徵矩陣。那對於T來說,它沒有缺失的部分,就是我們的Y_test,這部分數據既有標籤也有特徵,而它缺失的部 分,只有特徵沒有標籤,就是我們需要預測的部分。
- 特徵T不缺失的值對應的其他n-1個特徵 + 本來的標籤:X_train
- 特徵T不缺失的值:Y_train
- 特徵T缺失的值對應的其他n-1個特徵 + 本來的標籤:X_test
- 特徵T缺失的值:未知,我們需要預測的Y_test、
- 識別異常值
- 數據標準化
聚類法
- 錯誤值(Wrong Value)的處理是在知識發掘處理的數據清洗階段。
- 連續變量的缺失值佔比在85%左右時,根據是否缺失,生成指示變量,僅使用指示變量作爲解釋變量
- 标准化之后,利用正负3倍标准差识别异常值
主成分分析、因子分析、對應分析等
主成份分析(PCA)
- 變化過後的新的特徵,兩兩之間完全獨立
- 新的特徵的方差就是其所對應的特徵值
- 做PCA最好需要做標準化
- 主成分分析關注變量之間的相關關係
- 因子分析關注維度的含義
- 對應分析關注行變量和列變量兩者的相關性。
- 多維尺度分析關注行變量之間的相似性
對應分析
- 對應分析用於兩個離散型變量之間的分析
- 能夠分析變量(列)與樣本(行)之間的關係
- 夠分析樣本(行)與樣本(行)之間的關係## 時間序列
- 兩個向量的長度越長,且夾角越小,那麼對應性越強
相關分析
- 數據間相互獨立,包括觀測間相互獨立與變量間相互獨立
- 兩列變量均服從正態分佈
- 變量爲連續變量
- 兩變量間的關係是線性的