hahadsg's note

Follow me on GitHub

Naive Bayes

如果指标相关程度很高,那么朴素贝叶斯很显然是不会有很好的结果,因为它假设指标间是独立的

Linear Model

缺点

  • 对异常点敏感

优点

  • 能够判断出特征间的关系(相加、相减)

Tree Model

  • 无法判断出特征间的关系(相加、相减),需要人为加入这些特征

Random Forest

  • 在小的数据集上效果会比较差

    每棵树都要随机选取行和列,如果数据集的规模不大,这个行为意义就不大了

  • 难以解释

    即便有特征的重要程度,但是无法直观的知道指标与标签的关系(比如:线性回归就很明显的看出指标和标签呈现怎么样的倍数关系) 树模型的重要程度一般是取每个节点对应特征的gini不纯度下降了多少,累加起来。当然,会在每棵树内进行归一化

  • 计算量相较于线性模型更大

  • 无法很好的处理超过特征数值范围的情况

    比如:训练数据给出某特征5~10,那么随机森林无法很好的处理超出这个范围的情况(而在这一点上线性模型做得更好)