小样本数据的支持向量机回归模型参数及预测区间研究
统计学习理论(Statistic Learning Theory:SLT)[1]是一种专门研究小样本情况下机器学习规律的基本理论和数学构架,也是小样本统计估计和预测学习的最佳理论。它较好地解决了小样本、非线性、高维数和局部极小点等实际问题。由Vapnik[1]提出的基于结构风险最小的学习机器———支持向量机(Sup-port VectorMachine:SVM),从理论上保证了模型的最大泛化能力,因此基于支持向量机的回归分析和函数拟合与最小二乘法、神经网络、灰色模型等模型相比,往往具有更高的预测精度和预测效果[2~4]。
统计学习理论尽管从理论上得到了统计学习方法推广性的界的结论,但是推广性的界是对于最坏情况的结论,所给出的界在很多情况下是很松的,尤其当VC维比较高时更是如此。而且推广的界由于函数VC维的计算非常困难而无法实施,同时,支持向量机回归模型的参数,如核函数及其相关参数、惩罚因子C及损失函数ε等对模型的推广性具有很大影响。而实际的数据经常出现数据量少(20个以下)、非等间隔、明显的非线性等特征,显然,支持向量机回归模型运用于实际问题求解,尚存在模型参数选取和预测置信区间的求取等问题。因此,运用支持向量机进行小样本数据的回归分析和函数拟合,需要首先解决模型的泛化能力问题,即选取模型参数以保证最大的推广性,然后在此基础上,建立小样本数据的置信区间计算模型,获取预测点的置信区间。目前的相关研究[2~4]并未很好解决此问题。
本文利用支持向量机对小样本数据建立回归模型,首先利用统计学习理论的推广性的界,进行回归模型参数的选取,然后,在此基础上,构造模型预测点置信区间的计算公式求取预测点的置信区间。从而完善支持向量机的回归分析理论。
1 支持向量机回归模型
支持向量回归[5~7]的基本思想是通过一个非线性映射将数据映射到高维特征空间,并在这个空间进行线性回归。此模型是在分类模型的基础上引进一个修正距离的损失函数,常用的损失函数有二次函数、Huber函数、Laplace函数和ε损失函数,其中ε损失函数可以确保对偶变量的稀疏性,同时确保全局最小解的存在和可靠泛化界的优化。因为这些较好的性质而得到广泛的应用。对于给定的训练样本(xi,yi),xi∈Rd,yi∈R,i=1,…,n,回归的目标就是求下列回归函数:其中为w和x的内积
求解以下优化问题:
其中,C是预先给定的,用于控制模型复杂度和逼近误差的折中,C越大则对数据的拟合程度越高。ε用于控制回归逼近误差管道的大小,从而控制支持向量的个数和泛化能力,其值越大,则支持向量越少,但精度会越低。将上述优化问题转化为其相应的对偶问题,同时引进核方法则转化为求解如下约束问题的最大值,解得αi,α*i
相关文章
- 2024-11-01F2等级砝码质量测量结果的不确定度评定
- 2024-10-14梁纯弯曲的大变形分析
- 2022-06-29片上网络交换机制的研究
- 2023-12-29面向大规模数值计算的并行网格生成
- 2023-08-11EF-500回声测深系统的设计及应用
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。