Naive Bayes
如果指标相关程度很高,那么朴素贝叶斯很显然是不会有很好的结果,因为它假设指标间是独立的
Linear Model
缺点
- 对异常点敏感
优点
- 能够判断出特征间的关系(相加、相减)
Tree Model
- 无法判断出特征间的关系(相加、相减),需要人为加入这些特征
Random Forest
-
在小的数据集上效果会比较差
每棵树都要随机选取行和列,如果数据集的规模不大,这个行为意义就不大了
-
难以解释
即便有特征的重要程度,但是无法直观的知道指标与标签的关系(比如:线性回归就很明显的看出指标和标签呈现怎么样的倍数关系) 树模型的重要程度一般是取每个节点对应特征的gini不纯度下降了多少,累加起来。当然,会在每棵树内进行归一化
-
计算量相较于线性模型更大
-
无法很好的处理超过特征数值范围的情况
比如:训练数据给出某特征5~10,那么随机森林无法很好的处理超出这个范围的情况(而在这一点上线性模型做得更好)