柯哀分析文吧 关注:75,788贴子:1,763,439

基于机器学习论述毛利兰为什么是神

只看楼主收藏回复

第一次在这个吧发帖,请多包涵。
目录
基于机器学习论述毛利兰为什么是神
Abstract
Foreword
Background
Introduction
Dataset
Methods
Results
Conclusions
References


IP属地:浙江来自Android客户端1楼2023-06-13 16:45回复
    Abstract
    在我们谈论毛利兰时,我们常言毛利兰为神[1]。此之“神”,有着多个方面的含义和体现,例如著名的拉窗帘等等。但是今天我们要讨论的,则是毛利兰作为神所具有的特殊的召唤“天兵天将”[2]的能力。周所周知,毛利兰作为名柯这部动漫唯一的女主,在天朝乃至是全球范围内都有着不可撼动的人气以及地位,在无论任何投票中都是当之无愧的T0。因此,我们借以泰国日本动漫官方(貌似是这个名字)发起的名柯动漫角色投票的契机,通过selenium爬取投票所属推文的转推和点赞用户信息,并借助wajdiz等人[3]用于机器人识别大赛的twitter数据集进行机器学习训练,基于训练好的模型分别对毛利兰和灰原哀的支持方用户机器人占比进行了分析,并得到了“毛利兰是神”的又一例证。


    IP属地:浙江来自Android客户端2楼2023-06-13 16:46
    回复
      Background
      随着M26的票房大卖,毛利兰作为神的特征也逐渐展现出来,从四月份开始,其狂热粉丝就开始在互联网上到处出警,痛骂其他角色及其粉丝,甚至上升到网暴和线下殴打的地步。然而所有的这些,只不过是为了展现其作为神所拥有的实力与地位。而在各种投票中的失利仿佛在预示着神的陨落,为了避免跌落神坛,毛利兰终于大手一挥,释放了其作为神所特有的召唤天兵天将的能力,而这也使所有其他角色再次笼罩神的阴影之下,为其夺得了多次投票的胜利。


      IP属地:浙江来自Android客户端4楼2023-06-13 16:46
      回复
        Dataset
        本文所使用的数据集来源于wajdiz等人用于机器人识别大赛的twitter用户数据集,数据集主要包含18,799条记录,是从 2018 年 9 月至 8 月期间随机抽取的阿拉伯语标签。数据来自 Twitter, 该样本占标记样本的 80%。 标记的样本被标记为 is_bot,值为 0 和 1。0 = 没有机器人,1 = 机器人。元数据信息包括多个列,包括推文文本、推文时间、用户创建日期、关注者数量、关注、列出、位置、传记详细信息等。基于这些特征,我们可以通过机器学习分类的方法来训练出能够识别推特机器人的模型。


        IP属地:浙江来自Android客户端6楼2023-06-13 16:46
        回复
          爬取的数据:
          主要爬取了推文的166个转推用户信息和78个点赞用户信息,爬取了对应的元数据,存储于Excel表。



          IP属地:浙江来自Android客户端7楼2023-06-13 16:47
          回复
            Methods
            我们主要考虑使用机器学习分类的方式训练数据集并对爬取的数据进行分析。
            lightgbm分类是一种基于梯度提升决策树(GBDT)算法的分布式梯度提升框架,由微软于2017年推出,是一种高效、可扩展、鲁棒的机器学习方法。lightgbm分类可以处理各种类型的分类问题,如二分类、多分类、有序分类等,并且可以利用多种目标函数和评估指标来优化模型性能。lightgbm分类的主要优点是:(1)具有更快的训练速度和更低的内存消耗,通过采用基于直方图的算法、基于梯度的单侧采样(GOSS)和互斥特征捆绑(EFB)等技术来减少数据和计算量;(2)具有更好的准确性,通过采用带有深度限制的叶子优先生长策略、最大化增益分割点选择和类别特征支持等技术来提高模型质量;(3)具有更强的可扩展性,通过采用并行学习、投票并行和网络并行等技术来支持大规模数据集和分布式环境。[5]
            在本实验中主要采用了lightgbm分类方法,并搭配遗传算法加以优化。
            训练所得准确率接近100%,如下所示:


            IP属地:浙江来自Android客户端8楼2023-06-13 16:47
            回复
              所有特征比重如下:


              IP属地:浙江来自Android客户端9楼2023-06-13 16:47
              回复
                混淆矩阵热力图如下:


                IP属地:浙江来自Android客户端10楼2023-06-13 16:48
                回复
                  Results基于上述训练好的模型,我对爬取的数据进行了分类预测,所得结果主要如下所示。 可见两边均有机器人参与,但是毛神明显多于灰原哀。



                  IP属地:浙江来自Android客户端11楼2023-06-13 16:48
                  收起回复
                    Conclusions
                    基于以上分析,我们可以得到毛利兰作为神已经熟练掌握了召唤天兵天将以及控制赛博士兵的能力,灰原哀相较于毛神,已落于下风矣。
                    此外,对实验结果进行额外的分析,即假设该比例可以代表整体的情况,那么毛神召唤的赛博士兵的数量大概在34.9k*3.64%=1270人次左右,可以说是法力无边了。未来的名柯,必然是兰神的天下。


                    IP属地:浙江来自Android客户端12楼2023-06-13 16:48
                    回复
                      References
                      [1]why Mori Ran is a god-Two-dimensional shrimp
                      [2]网页链接
                      [3]网页链接
                      [4]Heidari M, Jones Jr J H, Uzuner O. Online user profiling to detect social bots on twitter[J]. arXiv preprint arXiv:2203.05966, 2022.
                      [5]Ke G, Meng Q, Finley T, et al. Lightgbm: A highly efficient gradient boosting decision tree[J]. Advances in neural information processing systems, 2017, 30.


                      IP属地:浙江来自Android客户端13楼2023-06-13 16:49
                      回复
                        被吞了一些楼,补一下




                        IP属地:浙江来自Android客户端14楼2023-06-13 16:51
                        回复


                          IP属地:上海来自iPhone客户端15楼2023-06-13 17:03
                          回复
                            什么深度学习


                            IP属地:天津来自Android客户端16楼2023-06-13 17:12
                            收起回复
                              有理有据


                              IP属地:湖南来自iPhone客户端17楼2023-06-13 17:13
                              收起回复