hahadsg's note

Follow me on GitHub

Naive Bayes

如果指标相关程度很高，那么朴素贝叶斯很显然是不会有很好的结果，因为它假设指标间是独立的

Linear Model

缺点

对异常点敏感

优点

能够判断出特征间的关系（相加、相减）

Tree Model

无法判断出特征间的关系（相加、相减），需要人为加入这些特征

Random Forest

在小的数据集上效果会比较差

每棵树都要随机选取行和列，如果数据集的规模不大，这个行为意义就不大了
难以解释

即便有特征的重要程度，但是无法直观的知道指标与标签的关系（比如：线性回归就很明显的看出指标和标签呈现怎么样的倍数关系）树模型的重要程度一般是取每个节点对应特征的gini不纯度下降了多少，累加起来。当然，会在每棵树内进行归一化
计算量相较于线性模型更大
无法很好的处理超过特征数值范围的情况

比如：训练数据给出某特征5~10，那么随机森林无法很好的处理超出这个范围的情况（而在这一点上线性模型做得更好）