碧波液压网 欢迎你,游客。 登录 注册

基于改进Apriori算法的客户满意度评测研究及应用

版权信息:站内文章仅供学习与参考,如触及到您的版权信息,请与本站联系。
液压导航网

  1 引言

  数据挖掘(Data Ming)也称数据库中的知识发现,是当今数据库技术和人工智能研究的主要研究方向,其主要目标是从数据库中挖掘出潜在的有用的知识。其中事务数据库挖掘关联规则(Associa-tion Rules)是数据挖掘领域中一个非常重要的研究课题。而Apriori算法是关联规则挖掘中的经典算法。

  现今,Apriori算法流行的应用领域是购物篮分析,通过搜索经常一块购买的商品集合,研究顾客的购买习惯,文中利用同样的原理来分析顾客满意度。根据顾客对问题的评价,得出顾客经常一块提出需要改善的问题。分析改进其中的某个问题,使得与之相关问题的评价得到改善。

  客户满意度评测系统中利用关联规则来挖掘出顾客不满意的项目,在这些项目群中找到强关联规则,利用这些规则,给企业管理人员提出一个改进的建议,并针对管理人员给予的改进代价,实现智能的分析,自动决定改进的项目,并根据改进的动态结果,快速的制定下一步的改进项目。但是原来的系统中采用了经典的Apriori算法,短时间内的顾客满意度变化不能实时显示,更不能指导下面的决策。系统需要快速动态的反映短时间内顾客对问题满意度的微小变化。因此本文提出一种改进的Apriori算法,采用一种新的哈希表存储技术和高效率的内存分配策略。改进的算法效率提高,挖掘的速度明显加快,能够基本满足系统需要,为企业决策,经营管理提供实时动态的帮助。

  2 Apriori算法的基本概念和缺陷

  2.1 算法的基本概念

  设I={i1,i2,…,im}是项的集合,设D={T1,T2,…,Tn}是任务相关的事务数据库集合,其中每个事务是项的集合,使得Ti I。设A是一个项集,事务T包含A当且仅当A T。关联规则是形如A=>B的蕴涵式。其中A I,B I,并且A∩B=Φ,规则A=>B在事务数据库D中成立,具有支持度s,其中s是D中事务包含A∪B的百分比,即P(A∪B)的值。如果事务数据库D中包含A事务的同时也包含B事务的百分比是c,规则A=>B在事务数据库D中的置信度是c,即P(B|A)的值。我们可以得到两个公式:support(A=>B)=P(A B),Confidence(A=>B)=P(B|A)。同时满足最小支持度和最小置信度的规则就称作强关联规则,所以关联规则的挖掘可以定义为:给定一个事务数据库D,寻找出所有满足s>min_supp,c>min_conf两个条件的关联规则[1]。

  2.2 算法的主要缺陷

  找出所有的频繁项集是整个关联规则挖掘算法的关键,是提高算法效率性能的主要考虑的问题。Apriori算法的主要缺陷[2]:Apriori算法产生的候选项集可能很多,尤其是二项频繁项集的候选项集,每个候选项集需要扫描数据库,因此扫描数据库的次数也非常高。大量的候选项集的产生和重复的扫描数据库是算法的瓶颈。Apriori算法的提高的关键是减少事务数据库的扫描次数,并进行适当的剪枝,产生出较少的候选项集。

你没有登陆,无法阅读全文内容

您需要 登录 才可以查看,没有帐号? 立即注册

标签:
点赞   收藏

相关文章

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名: 验证码: 看不清?点击更换

最新评论