碧波液压网 欢迎你,游客。 登录 注册

利用DPS剔除测量数据中的异常值

版权信息:站内文章仅供学习与参考,如触及到您的版权信息,请与本站联系。

  

  0 引言

  在科学实验中,由于外界条件的改变和主观因素的影响,实验测量的数据中个别数据往往会产生较大误差,即出现异常值。这些异常值的存在往往会掩盖研究对象的变化规律,甚至得出错误的结论。因此,正确分析并剔除异常值有助于提高实验测量精度。

  判别某个可疑数据是否为异常值的步骤是首先仔细检查和分析原始数据的记录、操作方法、实验条件等过程,找出异常值出现的原因并将相应值剔除,此方法称为物理方法;如果上述方法无法作出判断,就应采用统计学方法,即给定一个显著水平,即发生概率,一般为1%或5%,并确定一个相应的置信限,凡超出该误差范围的测量值都是小概率事件,造成该误差的值就为异常值,应予以剔除。用计算机剔除实验数据异常值的方法有关文献[1-3]作了报道。本文将结合实例给出一种“傻瓜式”的新方法,该方法更加简单、快键,且无需编程和计算。

  1 异常值判别的统计学方法[4-8]

  1·1 t检验(3S)准则

  t检验准则又称罗曼诺夫斯基准则,它是按t分布的实际误差分布范围来判别异常值,对重复测量次数较少的情况比较合理。

  先将一组测量数据x1,x2,x3,…,xn中的可疑的值xj剔除,计算余下n-1个数的平均值-xn-1及标准差

  然后,按t分布来判别被剔除的值xj是否为异常值。

  若|xj--xn-1|>K(n,α),则xj为异常值,应予剔除,否则为正常值,应予以保留。其中:α为显著水平;n为数据个数;K(n,α)为检验系数,可通过查表得到。

  1·2 狄克松(Dixon)准则

  设有一组测量数据,且为正态分布,则可能为异常值的测量数据必然出现在两端,即x1或xn。

  狄克松给出了不同样本数量n时检验统计量的计算公式(见表1)。当显著水平α为1%或5%时,狄克松给出了其临界值D1-α(n)。如果测量数据的检验统计量D>D1-α(n),则x1为异常值,如果测量数据的检验统计量D′>D1-α(n),则xn为异常值,否则为正常值。

  1·3 格拉布斯(Grubbs)准则

  设一组测量数据为正态分布,为了检验数据中是否存在异常值,将其按大小顺序排列,即x1≤x2≤x3≤…≤xn,可能为异常值的测量数据一定出现在最大或最小的数据中。

  若最小值x1是可疑的,则检验统计量G=(-x-x1)/s;若最大值xn是可疑的,则检验统计量G=(xn--x)/s。式中-x是均值、s是标准差,即-x=。

你没有登陆,无法阅读全文内容

您需要 登录 才可以查看,没有帐号? 立即注册

标签:
点赞   收藏

相关文章

发表评论

请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。

用户名: 验证码:

最新评论