虎牙直播吧 关注:873,334贴子:16,849,759
  • 9回复贴,共1

今天的题目是:分类问题教你识别NC粉

取消只看楼主收藏回复

分类问题和回归问题都属于有监督学习的范畴。回归问题之我是谁、我在哪、我为什么跳不到台子上,他们的区别在于回归问题是连续变量预测,而分类问题是离散变量预测。


IP属地:上海1楼2018-01-09 16:01回复
    首先考虑仅有一个特征的情况。根据百度百科给出的**粉行为标准,我们从行为狂热度方面进行考虑。比如不想学习系列列为轻度狂热,诸如此类的x取值为0.1~0.4。集体自焚系列列为重度狂热,那么x取值为0.7~1.0。我们收集了不同行为狂热度的粉丝样本,他们可能是**粉,y 取值为1。也可能不是**粉,y 取值为0。


    IP属地:上海3楼2018-01-09 16:04
    回复
      也可以将上面的结果映射在一条直线上,但需要用不同的符号加以区分:


      IP属地:上海4楼2018-01-09 16:05
      回复
        简易加强版!
        现在我们把年龄也纳入考虑范畴,在这种情况下,数据集如图所示:

        分类算法所做的,就是画上一条直线,像这样把**粉与非**粉区分开来:


        IP属地:上海5楼2018-01-09 16:07
        回复
          但是我们仍然会遇到其他问题,例如这条直线的画法可能不止一种(例如下图)


          IP属地:上海6楼2018-01-09 16:07
          回复
            那么我们以什么标准评价分界线的优劣呢?
            支持向量机!
            百度百科上的外星语言:支持向量机把分类问题转化为寻找分类平面的问题,并通过最大化分类边界点距离分类平面的距离来实现分类。
            人类语言:支持向量机就是寻找一条分类线,使之到两类样本中最近点的距离最大的一种机器学习算法。(如下图所示)



            IP属地:上海7楼2018-01-09 16:11
            回复


              IP属地:上海8楼2018-01-09 16:11
              回复


                IP属地:上海9楼2018-01-09 16:12
                回复


                  IP属地:上海10楼2018-01-09 16:13
                  回复


                    IP属地:上海11楼2018-01-09 16:19
                    回复