hahadsg's note

Follow me on GitHub

关联分析

基本概念

  • 项集

    在关联分析中,包含0个或者多个的项的集合称为 项集。 如果一个项集包含k个项,那么就称为k-项集。比如{牛奶,咖啡}则称为2项集

  • 支持度(support)

    支持度用来确定给定数据集的频繁程度,即给定数据集在所有的数据集中出现的频率,例如s(X -> Y) = P(X,Y) / N

    如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义

  • 置信度(confidence)

    置信度则是用来确定Y在包含X的事务中出现的频繁程度,即 c(X -> Y) = P(X,Y) / P(X)

    只有置信度越高,Y出现在包含X的事务中的概率才越大,否则这个规则也没有意义