大岩定增吧 关注:20贴子:135
  • 2回复贴,共1

大岩资本:处理异常值的泛用方法——截尾

只看楼主收藏回复

清洗异常值,在量化中泛用的做法是截尾。对于每个数据,定义一大一小两个数值,称之为上界和下界,把该数据中大于上界的数值变为上界;把该数据中小于下界的数值变为下界。上界和下界有两种常用定义方法,分位数法或标准差法。


1楼2021-03-10 16:29回复
    分位数法:将数据排序,取其分位数为上下界,通常可以是99%和1%。
    标准差法:将数据均值加减3~5个标准差,定义为上下界。
    显然,截尾操作将损失值过大和值过小的数据信息。这种清洗方式隐含了哪些假设?


    2楼2021-03-10 16:30
    回复
      隐含假设之一,少数数据不适合统计归纳。突发的事件和新闻会带来变化很大的数据,这部分信息不一定是当前模型能够学习到的,因此我们希望通过截尾,来减弱这些突发事件数据对其他数据造成的影响。
      同时,在许多量化模型里,异常值对模型训练会产生较大的影响,我们隐含假设了模型应该发现的是重复了非常多次的规律,而不去学习到极少数数据中含有的信息。


      3楼2021-03-10 16:30
      回复