碧波液压网 欢迎你,游客。 登录 注册

一种改进的朴素贝叶斯分类器在文本分类中的应用研究

版权信息:站内文章仅供学习与参考,如触及到您的版权信息,请与本站联系。
液压导航网

  

  

  朴素贝叶斯分类器(naive bayesian classifier,NBC)是贝叶斯网分类器的一种,是目前公认的一种简单而有效的概率分类方法.其性能可与决策树、神经网络等算法相媲美,在某些领域中性能优异[1].但是,该模型在实际应用中常常会碰到问题:一是为了减小计算规模,朴素贝叶斯分类器是基于条件独立性假设的,但是这个限制过于严格,在实际应用中常常难以满足;二是朴素贝叶斯分类方法所选训练集的条件属性集在预处理时需要进行属性约简,否则即为原始数据库的完全属性集,由于一些属性与分类无关,可能会降低分类能力,而属性约简的好坏会直接影响分类效果[2].

  尽管有很多研究者通过用通用贝叶斯网络分类器、树增强朴素贝叶斯分类器、选择型朴素贝叶斯分类器、判别分析的朴素贝叶斯分类器进一步改进了分类器性能并使其更符合实际的语义环境[3].然而,一个有效的分类器,应当既有很高的分类精度,又使其误差分布在输入空间的不同部分.这就要求在构造分类器时,不但要考虑分类精度,还应考虑分类误差在实例空间中的分布程度,即差异度.

  本研究将结合遗传算法,提出一种朴素贝叶斯分类算法,在训练集上通过随机属性选取生成若干属性子集,并以这些子集构建相应的朴素贝叶斯分类器,进而采用遗传算法进行优选,从而避免属性约简的好坏对分类精度的影响.

  1 文本分类

  文本分类(text categoration)是指依据文本内容,由计算机根据某种自动分类算法,把文本判分为预先定义好的类别.文本分类大致可分为:文本的向量模型表示、文本特征选择和分类器训练[4].数量巨大的训练样本和过高的向量维数是文本分类的两大特征.这两个特性决定文本分类问题是一个运算时间和空间复杂度很高的学习问题.为兼顾运算时间和分类精度两个方面,不得不进行特征选择,力求在不损伤分类性能的同时来达到降维的目的.目前分类的方法主要有决策树、Bayes方法、神经网络、基于关联的方法、k2最近邻方法、遗传算法、粗糙集等,其中最常用的是前两种方法[5].

  2 遗传算法的基本思想

  遗传算法是从代表问题可能潜在解集的一个种群开始的,而一个种群则由经过基因编码的一定数目的个体组成.每个个体实际上是染色体带有特征的实体.染色体作为遗传物质的主要载体,即多个基因的集合,其内部表现(基因型)是某种基因组合,它决定了个体的性状的外部表现,因此,在一开始需要实现从表现型到基因型的映射即编码工作.由于仿照基因编码的工作很复杂,我们往往进行简化,如二进制编码、浮点数编码.初代种群产生后,按照适者生存和优胜劣汰的原理,逐代演化产生出越来越好的近似解.在每一代,根据问题域中个体的适应度大小挑选个体,并借助于自然遗传学的遗传算子进行组合交叉和变异,产生出代表新的解集的种群.这个过程将导致种群像自然进化一样的后代种群比前代更加适应于环境,末代种群中的最优个体经过解码,可以作为问题近似最优解[6].

你没有登陆,无法阅读全文内容

您需要 登录 才可以查看,没有帐号? 立即注册

标签:
点赞   收藏

相关文章

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名: 验证码: 看不清?点击更换

最新评论