因為經常在處理數據時,我們不知道它的平均值和方差,似然就是利用數據樣本去估計它的平均值和方差,使得得出樣本數據的機率最大。
另外,有關似然的更多解釋請到 link。
假設 $X_{(i)}’$是 $p$ 元正態總$N(\mu,\Sigma )$, 令
\[X=\left[ \begin{matrix} X_{(1)}' \\ X_{(2)}' \\ \vdots \\ X_{(n)}' \end{matrix} \right]\tag{1}\]為樣本矩陣。
若定義
\[Vec(X')= \left[ \begin{matrix} X_{(1)} \\ X_{(2)} \\ \vdots \\ X_{(n)} \end{matrix} \right] \tag{2}\]那麽
\[Vec(X') = N_{np}(1_n \otimes \mu, I_n \otimes \Sigma)\]為什麽要定義 $Vec(X’)$ 使其複雜? 因為$X’$本來就是一個樣本矩陣,在求似然的最大值時,本能地將矩陣看向為$np$維的向量,再去微分求最大值。
因為定義了 $Vec(X’)$,所以才有以下等式 令$f$為聯合密度函數,$L$為似然函數
\[L(\mu,\Sigma|X')=f(Vec(X')|1_n \otimes \mu,I_n \otimes \Sigma)=\prod_{i=1}^nf(x_i| \mu)\]即不同的$f(x_i\vert\theta)$能獨立地相乘,都是因為定義了$Vec(X’)$,使得相對應的
\[1_{n} \otimes \mu\]和
\[I_{n} \otimes \Sigma,\]然後運算過程中能拆成
\[\prod_{i=1}^n f(x_i\vert \mu)\]其中
\[A=\sum_{i=1}^n (X_i-\bar{X})(X_i-\bar{X})'\]