碧波液压网 欢迎你,游客。 登录 注册

一种改进的支持向量机的文本分类算法

版权信息:站内文章仅供学习与参考,如触及到您的版权信息,请与本站联系。

  

  1 引言

  随着科学技术的迅猛发展和Internet的日益普及,人们面临的信息数据呈现爆炸式的增长。然而数据丰富但信息贫乏的现象却一直困扰着人们。一方面,面对因特网里蕴涵  的浩如烟海的信息,人们往往无法有效地从大量信息中迅速地提取出所需的信息;另一方面,人们获取信息的主要来源仍然是文本类型数据,如何对这些海量、异构的文本数据进行快速有效的过滤、检索和分类成为人们关心的首要问题。这两方面的需求促成了文本挖掘技术的兴起,而文本分类技术正是文本挖掘的基础和核心。

  目前常用的文本分类方法有:贝叶斯分类法、决策树法、KNN法、神经网络法以及支持向量机。支持向量机是由Vapnik博士提出的基于统计学习理论的一种新的模式识别技术[1]。是一种在统计学习理论和结构风险最小原理基础上发展起来的机器学习方法,可以根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷的方法[2][3]。

  支持向量机方法由于在求解小样本、非线性、高维空间、局部极小点等问题上表现除了较好的性能得到广泛的关注。但是, SVM在具体应用中存在一个突出的问题,即如何设置影响算法性能的一些关键参数,如惩罚因子C和核函数的参数才能获得较好的预测效果。而免疫算法是一种新的有效随机全局优化技术,它具有不易陷入局部优化、解的精度高、收敛速度快等优点。针对上述问题,在对SVM的参数性能进行分析的基础上,本文提出了基于免疫优化支持向量机参数的方法,用于文本分类中。其中,利用免疫算法( ImmuneAlgorithm, IA)优化SVM的参数,以减少参数选择的盲目性,提高SVM的预测精度。

  2 基于SVM的文本分类方法

  文本分类(TextCategorization或TextClassification,缩写为TC)是指根据文档的内容或属性,将大量的文本归到一个或多个类别的过程。文本分类的关键问题是如何构造一个分类函数或分类模型。目前常用的文本分类方法有:贝叶斯分类法、决策树法、KNN法、神经网络法以及支持向量机(SVM)。从实际分类效果来看,支持向量机在解决小样本、非线性及高维的模式识别问题中是目前已知的分类器中效果最好的,而这些问题恰是文本分类问题所面临的困难。因此,支持向量机和文本分类问题有着良好的结合点。

  2.1 支持向量机分类器

  SVM具有直观的几何意义,对于线性可分的情况:设训练集为:

  

  

  不大,但是核函数的相关参数,如多项式核函数的多项式次数,对于高斯核函数的值对模型的分类精度均有重要影响。为此,本文选定高斯核函数,引入根据人类或其它高等动物免疫系统的机理而设计的免疫算法来优化SVM的参数。

你没有登陆,无法阅读全文内容

您需要 登录 才可以查看,没有帐号? 立即注册

标签:
点赞   收藏

相关文章

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名: 验证码:

最新评论