关联分析
基本概念
-
项集
在关联分析中,包含0个或者多个的项的集合称为 项集。 如果一个项集包含k个项,那么就称为k-项集。比如{牛奶,咖啡}则称为2项集
-
支持度(support)
支持度用来确定给定数据集的频繁程度,即给定数据集在所有的数据集中出现的频率,例如s(X -> Y) = P(X,Y) / N
如果支持度很低,代表这个规则其实只是偶然出现,基本没有意义
-
置信度(confidence)
置信度则是用来确定Y在包含X的事务中出现的频繁程度,即 c(X -> Y) = P(X,Y) / P(X)
只有置信度越高,Y出现在包含X的事务中的概率才越大,否则这个规则也没有意义