統計3-Regression

3 minute read

Published: April 26, 2019

回歸分析的概念
- 回歸的步驟
回歸的一些數學公式

回歸分析的概念

REF 1
REF 2
REF 3
REF 4
線性回歸的假設理論
- 線性關係
  - 觀察自因變量的圖，看是否呈直線關係
- 獨立性假設, 即各變量之間是相互獨立的；
  - VIF<3，無多重線性，VIF>10有多重線性
- 殘差：
  - 正態性假設：即所研究的變量均服從正態分布；
    - Q-Q圖或一些正態檢驗
    - 圖
    - 若不是正態，正偏態（峰值偏左），對數轉換
    - 若不是正態，負偏態（峰值偏右），指數轉換
  - 等方差假設：即各變量總體的方差是相等的；
    - 觀察殘差分佈圖，若殘差規律有除X軸變大或變小，就有異方差性問題
    - 若方差不齊，使用加權最小二乘法估計回歸系數
  - 殘差項無自相關性，即誤差項之間互不相關，Cov(ei,ej)=0
    - DW檢測：0<DW<2為正常，不然會有自相關問題
回歸顯著性問題
- 回歸系數的檢驗（t檢驗）
- 回歸方程的檢驗（F檢驗）：ANOVA方差分析
異常值檢測：因為異常值為大為影響回歸的結果
- Cook’s Distance： CD>0.5為異常點

回歸的步驟

VEDIO

graph LR
id0[數據預處理]
id1[數據深索]
id2[建立回歸預測模型]
id3[殘差的檢證]
id4[多重共線性檢測]
id5[極端值的檢測]
id6[回歸顯著性測試]
id7[模型擬合程度,比較模型]
id8[預測]

id0-->id1
id1-->id2
id2-->id3
id2-->id4
id2-->id5
id2-->id6
id3-->|yes|id7
id4-->|yes|id7
id5-->|yes|id7
id6-->|yes|id7
id3-->|no|id2
id4-->|no,去除共線性變量|id2
id5-->|no,去除極端值|id2
id6-->|no,去除不顯著的變量|id2 
id7-->id8

數據預處理
數據深索
- 確定Y變量是正態：Q-Q圖或P-P圖
- X可以不是正態，但不能是散得太厲害
- 散點圖，看是否呈直線關係
- 相關系數，$X_i,y$,看與$y$是否有顯著相關
建立回歸預測模型,根據公式計算出線性的系數
殘差的檢證
- 正態
- 獨立
- 等方差
多重共線性檢測:VIF>2,有共線性，共線性會成對出現
極端值的檢測：
- Cook’s Distance:衡量第I個觀測刪除後，回歸系數估計的影響度$\text{Cook’s Distance}>\frac{4}{\text{number of obs}}$是強影響點
- STUDNET residual：即殘差除以標準誤,-2到2之間是合理
- RSTUDENT residual:不含該觀測的模型的學生化殘差，RSTUDENT residual>3是強影響點
- DIFFITS:對應預測值的標準化影響度，$\text{DIFFITS}>2\sqrt{\frac{ \text{number of params} }{\text{number of obs} } }$是強影響點
回歸顯著性測試
模型擬合程度：$R^2$，比較不同模型，取殘差平方和最小，也即$R^2$最大
- 變量越多，$R^2$越大
- 為校正自變量個數的影響，一般采用後面的Adjusted $R^2$(調整$R^2$)
預測

回歸的一些數學公式

一元簡單線性迴歸

令

\[\hat y_i=\beta_0+\beta_i x_i\]

最小二法是選出$\beta_0,\beta_1$使得$Q$最小。

\[Q=\sum_{i=1}^n (y_i -\hat y_i)^2=\sum_{i=1}^n (y_i -\beta_0-\beta_i x_i)^2\]

通常采用偏微$ \frac{\partial Q}{\partial \beta_0},\frac{\partial Q}{\partial \beta_1}=0$ 計算出$\beta_0,\beta_1$，

\[\left\{ \begin{array}{lr} \hat \beta_1=\frac{l_{xy}}{l_{xx}} \\ \hat \beta_0=\bar y - \hat \beta_1 \bar x \end{array} \right.\]

其中，

\[\begin{aligned} l_{xy} &=\sum(x_i -\bar x)(y_i-\bar y) = \sum x_iy_i- n \bar x \bar y =\sum x_iy_i- \frac{1}{n} \sum x_i \sum y_i \\ l_{xx} &=\sum(x_i -\bar x)^2 =\sum x_i^2 -n\bar x^2 =\sum x_i^2- \frac{1}{n} \left(\sum x_i \right) ^2 \\ l_{yy} &=\sum(y_i -\bar y)^2 =\sum y_i^2 -n\bar y^2 =\sum x_i^2- \frac{1}{n} \left(\sum y_i \right) ^2 \end{aligned}\]

其中改寫$\beta_0,\beta_1$

\[\begin{aligned} \hat \beta_1 &=\sum \left( \frac{x_i-\bar x}{l_{xx}}\right)y_i \\ \hat \beta_0 &=\bar y -\hat \beta_i \bar x=\sum \left[\frac{1}{n} -\frac{(x_i-\bar x)\bar x}{l_{xx}}\right]y_i \end{aligned}\]

而進行簡單的計算得出：

$E(\hat \beta_0)$
$E(\hat \beta_1)$
$\text{Var}( \hat \beta_0)$
$\text{Var}(\hat \beta_1)$
$\text{Cov}(\hat \beta_0,\hat \beta_1)$

多元線性迴歸

\[C = \begin{bmatrix} 1 & x_{11} & x_{12} &\cdots & x_{1m}\\ 1 & x_{21} & x_{22} &\cdots & x_{2m} \\ \vdots & \vdots & \vdots &\cdots & \vdots\\ 1 & x_{n1} & x_{n2} &\cdots & x_{nm} \end{bmatrix}\] \[y = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_n \end{bmatrix}, \beta = \begin{bmatrix} \beta_0 \\ \beta_1 \\ \vdots \\ \beta_m \end{bmatrix}, \varepsilon = \begin{bmatrix} \varepsilon_0 \\ \varepsilon_1 \\ \vdots \\ \varepsilon_n \end{bmatrix}\] \[Y=C\beta+\varepsilon\]

最小二乘法

$\beta$的估計

\[Q(\beta)=\sum_{t=1}^n \varepsilon_t^2=\sum_{t=1}^n( y_t - \hat y_t)^2=\sum_{t=1}^n[ y_t - (\beta_0+\beta_1 x_{t1}+\cdots+\beta_mx_{tm})]^2\]

最小二乘法是取$\beta_i$使得$Q$達到最小。從這個方法可得出以下結果

\[\begin{aligned} \widehat{\beta} &=(C'C)^{-1}C'Y \\ \hat Y &=C\widehat{\beta}=C(C'C)^{-1}C'Y \\ \hat \varepsilon &=Y-\hat Y \\ Q(\hat \beta) &= \hat \varepsilon' \varepsilon \end{aligned}\]

$\hat \sigma$ 的估計

利用最大似然原理，仍可得出$\beta$最大似然估計仍為$\hat \beta$,$\sigma$的估計是

\[\hat \sigma^2=\frac{1}{n}\sum_{t=1}^n[ y_t - (\beta_0+\beta_1 x_{t1}+\cdots+\beta_mx_{tm})]^2=\frac{1}{n}Q(\beta)\]

但因$\hat \sigma$不是無偏估計量，通常取

\[s^2=\frac{1}{n-m-1}Q(\beta)\]

殘差

\[\begin{aligned} Q &=(Y-\hat Y)'(Y-\hat Y)=\sum(y_i-\hat y_i)^2 \\ U &=(\bar Y-\hat Y)'(\bar Y-\hat Y)=\sum(\hat y_i-\bar y_i)^2 \\ E(y) &= (Y-\bar Y)'(Y-\bar Y)=\sum( y_i-\bar y_i)^2=U+Q \end{aligned}\]

其中

$U$為所建立迴歸式的$X$所引起
$Q$為隨機誤差所引起

殘差檢定

常態分配
獨立性
變異數同質性

這個請參閱另一篇BLOG

離群值檢定

標準化殘差

回歸方程的顯著性檢驗

已知：

\[\begin{aligned} \hat \beta &\sim \beta N_{m+1}(\beta,\sigma^2(C'C)^{-1})\\ \frac{1}{\sigma^2} Q &\sim \chi_{n-m-1}^2 \end{aligned}\] \[H_0 :\beta_1=\beta_2=\cdots=\beta_n=0\]

在已知$H_0$下，

\[\frac{1}{\sigma^2} U \sim \chi_{m}^2\]

所以，

\[F=\frac{U/m}{Q/n-m-1}\]

如果

\[F >F_\alpha \text{ or } p <\alpha，\]

則否定$H_0$。

額外平方和

這是台灣考題中經常出現，未必有需要，但對厘清概念是非常好的。

假設$Q_i,U_i$表示去掉自變量$x_i$後的各自定義的殘差平方和。 $P_i=U-U(i)=Q(i)-Q$

在台灣的定義中， $\text{SSR}=U,\quad \text{SSE}=Q$

\[\begin{aligned} \text{SSR}(x_1| x_2,x_3) &=\text{SSR}(x_1 ,x_2,x_3)-\text{SSR}(x_1,x_2) \\ &=\text{SSE}(x_1,x_2)-\text{SSE}(x_1 ,x_2,x_3) \\ \text{SSR}(x_1, x_2|x_3) &=\text{SSR}(x_1 ,x_2,x_3)-\text{SSR}(x_3) \\ &=\text{SSE}(x_3)-\text{SSE}(x_1 ,x_2,x_3) \end{aligned}\]

有關更詳細的資料，請參閱 link。

判定係數

\[R^2=1-\frac{Q}{U+Q}=\frac{U}{T}\]

這裏 $T=U+Q=\sum(y_i-\bar y_i)^2$ 是總偏差平方和。

判定係數$R$的分子$U$為所建立迴歸式的$X$所引起
$R$越大，即$X$能解釋$Y$的能力越強

修定判定係數

\[R^2_{\text{adj}}=1-\frac{Q/\text{df}Q}{T/\text{df}T}\]

這裏 $\text{df}Q,\text{df}T$分別是$Q$和$T$的自由度。

這主要是修正因樣本量太小而變大的$R$。

標準化後的$\beta$

受到不同尺度衡量的影響，由標準化的自變數所計算而得到的迴歸係數，我們稱為$\beta$係數 (beta 係數)，擁有$\beta$係數愈高的自變數($x_n$)，對依變數(Y)的影響力愈大。

ref:link

方差膨脹因子

容忍度：$1-R_i=\frac{Q}{T}$表示以其它自變數來預測第$i$個自變數之決定係數。
當容忍度愈小時表示$R_i$愈大，即其他$\left\{ x_j \vert j\neq i \right\}$能解釋$x_i$的能力愈大。
方差膨脹因子$\text{VIF}=\frac{1}{1-R_i}$，與$R_i$成正比。$\text{VIF}>10$時，為顯著共線性。

共線性問題

檢查方法
1. 檢查看相關係數，超過 0.8 就已經太高了，可能有共線性問題
2. 查看容忍值(tolerance)，容忍值( 0~1 之間)，愈大愈好，容忍值愈大，代表共線性問題愈小
3. 變異數膨脹因素(VIF)，VIF 的值愈小愈好，代表愈没有共線性問題。
消除共線性的方法：
1. 從彼此相關係數較高的自變數中只取一個重要的變項
2. 使用脊迴歸（ridge regression）分析
3. 用主成份迴歸

偏判定係數

在已知$x_1,x_2$的情況下，引入$x_3$，其判定係數的定義是

\[R^2_{x_3|x_1,x_2}=\frac{\text{SSR}(x_3|x_1,x_2)}{\text{SSE}(x_1,x_2)}\]

分子可以想像為因為引入$x_3$而造成殘差增加量，分母就是只有$x_1,x_2$的殘差。這個比就是增加量和原本相比，它增加的幅度。

回歸系數的顯著性檢驗

\[H^{(i)}_0:\beta_i=0 \quad (i=1,2,\cdots,m)\]

在$H_0$下，

\[\begin{align} F_i &=\frac{P_i}{Q/n-m-1} \sim F(1,n-m-1), \\ T_i &=\frac{ \sqrt{P_i} }{\sqrt{Q/(n-m-1)}} \sim t(n-m-1) \end{align}\]

如果 $ F >F_\alpha \quad \text{ or } \quad p={F>F_\alpha} <\alpha $，則否定$H_0$。

Share on

Twitter Facebook Google+ LinkedIn

Elsa CHOI