綜合機器學習複習
Published:
前提
決策樹
ID3
- “統計學習方法”書中第76頁中有詳細介紹
- 基本上就是使用信息增益來決定那一個特徵是根和根的分支是根特徵分類,再計算熵增益如此類推。
- 不可處理空值和數值形態字段
C4.5
- “統計學習方法”書中第78頁中有詳細介紹
- 基本上就是使用信息增益比來決定那一個特徵是根和根的分支是根特徵分類,再計算熵增益如此類推。
- 可處理空值和數值形態字段
隨機森林
- 參考網頁
- 隨機森林是從樣本抽取N組數據,每組數據形成一𢒙決策樹,再從這N個決策樹中取特徵眾數
- 在机器学习中,随机森林是一个包含多个决策树的分类器, 并且其输出的类别是由个别树输出的类别的众数而定。 Leo Breiman和Adele Cutler发展出推论出随机森林的算法。
- 预测样本分类、用于样本排序、用于特征选择和用于回归预测
频繁闭项集
- 知乎解釋
- 閉項:它的直接超集的支持度计数都不等于它本身的支持度计数
- 闭项集同时是频繁: 也就是它的支持度大于等于最小支持度阈值,那它就称为闭频繁项集
防止決策樹OVERFITTING
- 防止決策樹OVERFITTING
- 剪枝
- 提前停止:限制樣樹的高度,分類指標決定要不要再走下一支線
分類
SVM
- Regularization:減少OVERFITTING,即減少變量的重要性。
- Regularization 2
数据挖掘
- 分类
- 回归
線性回歸和邏輯回歸的相同和分別
- 線性回歸和邏輯回歸分別
- 線性回歸假設因變量的高斯(或正態)分佈。 Logistic回歸假設因變量的二項式分佈。
- 線性回歸是關於在數據中擬合直線,而邏輯回歸是關於在數據中擬合曲線。
- 線性回歸是機器學習的回歸算法,而邏輯回歸是機器學習的分類算法。
岭回归和lasso回归
聚類
轮廓系数
- $s_i$接近1,则说明样本$i$聚类合理;
- $s_i$接近-1,则说明样本$i$更应该分类到另外的簇;
- 若$s_i$近似为0,则说明样本$i$在两个簇的边界上。
Density-based clustering
- 參考
- non-globular cluster :非珠狀聚類
SMOTE过采样算法
Machine Learning 和 Deep Learning 分別
路徑BFS 與 DFS
數據取LOG
- 知乎解答
- 1.We might want to see the data structure a little differently
- 2.We might want to reduce skew to assist in modeling
- 3.We might want to straighten a nonlinear relationship in a scatterplot, so that we can model the relationship with simpler methods