squad吧 关注:52,558贴子:1,400,130
  • 7回复贴,共1

comment on “通过数据评价战斗表现”

只看楼主收藏回复

Sorafenib, MD, PhD
E-mail:sweetironyamerica@gmail.com
尊敬的百度贴吧社区:
我带着蛮大的兴趣阅读了这篇“通过数据评价战斗表现”,Prenston以各项数据,对玩家和战队的表现进行量化,以获得更好、各客观的评估效果,Prenston进行了一项非常好的研究,写了一篇很好的论文。但是,仍有下述问题需要作者回答。
Minor revision:
Comment 1:page 1
你的摘要缺乏关键要素,请依据写作规范进行补充和删除。比如,“从而在之......促进意义”属于展望,应尽量不写入摘要。
Comment 2:page 1
关键词缺少“战术小队”。
Comment 3:page 1
引言书写不规范。
(1)内容。论文寸土寸金,应做到惜字如金。每段话都应重点明确,每句话都应承接上一句,传递给下一句。建议:
第一段描述战术小队比赛受关注度高,对战术小队比赛开展的研究十分重要;
第二段描述目前战术小队复盘的主要方式是录像,但是录像复盘存在缺乏客观性等缺点;
第三段描述以指标评价战斗表现在其他游戏中的应用现状,已在其他游戏中被广泛采用以替代录像复盘;
第四段描述本研究将构建战术小队中“基于多项指标的Prenston评价体系”,该体系有着良好的诊断效能。
(2)用语。尽管战术小队缺乏研究基础,引言部分也应该尽量避免使用“我们”等主观性用语,而尽量客观性地陈述相关研究进展
Comment 4:page 1, column right, line 6
“可行性”说法过于模糊,你的研究重点是说明“基于多项指标的Prenston评价体系”对玩家和战队表现的诊断价值。
Comment 5:page 1, column right
总的来说,纳入的维度越多,越能建立效果更好地评价体系。而你的评价体系仅仅基于5个维度。您是否考虑不放弃掉结算界面的得分等维度,甚至以开放模组或者人工统计等形式收集更多玩家在比赛中的相关参数。
Comment 6:page 1-3
第二部分应为研究方法,而指标属于研究方法中的一项,尽量不要放入标题。
研究方法中不应该包括对指标的讨论,如page 2, column right, line 3-15中“指标高可能的原因有”,写到discussion去。
Comment 7:page 2-3
英文缩写缺乏标注且不准确。
比如KD在游戏里一般是kill death,整体战损比应该是overall kill/death ratio, OKDR。
综合战斗效益的GCR分别什么意思呢,G应该是general,C应该是combat,R是什么呢。效益一般用benefit。
Comment 8:page 2, column left, line 12-20
GCR这一指标的设置是否有问题,比如一队死了很多次,导致D太大了,这队菜鸟比较怂,在远距离或者房子里苟着,被击倒就H,这样H就拉高了分母。另外,我认为H应该对标W,因为都没“放弃”,都可以救起来,K才能和D对标。但是该指标只用K+H对比D单独一个分子。
Comment 9:page 2
BC为什么以自然常数的-1为threshold 呢。H/(H+D)=e^(-1),那么1+D/H=e,为什么D/H=1.7是一个判断控制力是否是“绝对的,也就是差异巨大的”的threshold。未在讨论中得到解释。
Comment 10:page 2, column right, line 21-32
大家知道,票开始+拉点-人死-载具死-FOB死=票结束,所以 票结束-票开始=拉点-人死-载具死-FOB死
而TR=(票结束-票开始)/D+1=(拉点-人死-载具死-FOB死)/D+1=(拉点-载具死-FOB死)/D
当拉点票不足弥补 载具死和FOB死 损失的票时,作者认为非单兵因素差。虽然载具炸的多,fob掉得多,确实说明非单兵因素差,但为什么是以拉点票为threshold。
Comment 11:page 3, column left
战术类指标相关性的threshold取0.3和0.8是用的什么统计学方法。
Comment 12:page 3, column left
数据属于研究方法的一部分
Comment 13:page 3-5
不要把result和discussion写在一起。不要一边陈述分析结果,一边解释讨论分析结果。
Comment 14:page 3, column right, line 4
判断是否实力悬殊要做T检验,这个检验一下很快的事情,SF的右边放个P值,尽量客观。
下文中对双方各指标的对比,都是用眼睛进行数值上大小的比较,很不合理,比如1000个人KD分别为1.35和1.4,那肯定是存在统计学差异的;而5个人KD分别为1.35和1.4,很可能就没有统计学差异了。同指标,不同时间的对比也要做统计学检验。
Comment 15:page 3, column right, line 4
你进行了分局比较,希望看到该指标随时间变化的趋势。你可以考虑进行时间依赖性的指标的计算,比如,将一局一个KD,增加time-dependent KD,观察对局变化
Comment 16:page 4, column left
你描述着各项指标的离散程度,图是最直观的,所谓参数这时候反而不重要了,因为离散程度在统计学的学术界没有固定的一个threshold(据我了解是这样),还真的很大程度上取决于主观。
而且,你的表放正文里,图为什么故意不放正文里,而且贴吧也找不到,为什么故意藏起来呢,我真想不通啊兄弟。
没有表头、单位、注释。
Comment 17:page 4, column right, line 2
阵亡击杀的集中程度的评价应该用离散程度相关的指标,比如四分位间距,而不是TOPX。
Comment 18:page 4
你描述“击杀分布的离散程度很大,有严重右偏。”但是你包括了K的数据集却把K和H相加,进行一元线性回归,那么正态性到底被纠正回来了吗。你的一元线性回归在其中的维度被“自曝”正态严重不齐之后,却没有进行正态性和方差齐性检测。这其实要major revision,但是你都用这么差的模型了,效果估计也很差,估计没人计较。
Comment 19:page 5, column left, line 4-5
不是我挑刺,参数是2.2573,一般不能只留整数,至少留小数点后两位
Comment 20:page 5, column right
不好意思,我现在才看到你自己说了阈值的limitation,第一遍居然没看到,但是你可以不用其他统计学方法求具体的threshold,依旧要在文中表明选择该threshold的模型是能够有区分性的。
文章写的很好,建议把conclusion的总结放在limitation后面比较好些。
Major revision:
Comment 1:page 3, column left
1.战术类指标相关性明明纳入了 K和H两个维度,为什么把他们俩合并在一起算和,再使用一元线性模型。战略性指标和单兵类指标中没有说K+H是某个特定的指标。而分别纳入K和H后,采用多元线性回归明显更合适。
2.战术类指标在之后的计算里设置了corr trim去除了极值。(1)没有在方法部分描述过这种做法。(2)为什么随意去除极值,是因为他们开挂了,属于异常值吗。
3.一元线性回归是拟合度过于差的模型,再加上纳入的维度过少,做出来的模型大概就是初中水平的模型。那模型这么差,当然有极值啊。建议使用更高级的模型,如果你可以纳入分析的比赛场数比较多,比如把全球的服务器所有对局都备份下来,可以找中科院等工科丝瓜玩家帮你设计更合适的算法,并用机房来计算出合适的深度学习模型。
Comment 2:page 3
你的论文的逻辑严重不正确,实验的设计存在问题。
1.你提出了各种指标,然后用这些指标评价了OWLS的比赛,最后说这些指标的评价效果很好。用大白话说,出卷子的是你,答卷子的是你,改卷子的还是你。因此,你不能说明自己出的卷子好,不能说明自己的卷子能把好生和差生区分开,不能说明OWLS的比赛就是该卷子能体现自己评价效果的例子。
2.正确的逻辑,我建议你这样设计研究。(1)提出各项指标及具体的definition。(2)设计高时长玩家组建专家评议组,三人。低级专家A和低级专家B进行一致性检验,检验合格。实验设计三盲。专家组以“经典的看录像”的形式分析战略、单兵、战术,得出结论,结论可以是打分,也可以是二变量。若专家A、B意见一致,则作为最终意见;不一致,则以高级专家C领导下的讨论意见为最终意见。你用你的指标评价后,与专家的最终意见相比较,说明评价效果。(3)评价效果已经得到证明的“基于多项指标的Prenston评价体系”,评价OWLS的比赛。


IP属地:福建1楼2024-03-09 17:59回复
    这下真的依托答辩了


    IP属地:浙江来自Android客户端2楼2024-03-09 18:40
    回复
      恐怖


      IP属地:辽宁来自Android客户端3楼2024-03-09 19:04
      回复
        编辑:这么多意见,给个两个月的major


        IP属地:福建来自Android客户端4楼2024-03-09 19:08
        回复
          没想到真的会有人写comments,提前知道也好歹多做点工作,好好排版,好好写写了。这篇论文提出的各项指标,以及模型都是存在严重缺陷的,这是回避不了的,我下笔之前就有这个认识了。ICO之后丝瓜完全是另一个游戏,回溯这四到五年的所有比赛进行研究最后得到的结果很难说对现版本也有意义。所以,在数据量不足的情况下,这篇论文仅是作为一个建立方法论的目的来写的,希望为战术设计者和战队管理者提供一个复盘的角度。关于指标方面,其实是存在不依赖于专家打分这种有主观因素参与的评价指标有效性的方法的,但是如上所说,ICO后的比赛数据太少了,目前的数据量还不足够具有统计意义。关于模型的部分,如上所说,仅做为一个方法论的参考,希望训练负责人能从这个角度去评估队员水平,我也不认为有人会相信这么简单又奇葩的模型能解释这两个变量有什么关系,如实证用到的,这个简单的模型唯一的用处就是看看残差分布,找一下偏差值来源于哪个队员。不过简单的线性模型也是有意义的,比如CAPM模型,实证分析都写烂了这模型不好使,但是他依旧是现代金融学的基石之一。总结而言,受限于数据量,我现在能做的研究就只有抛砖引玉,建立一个方法论,但是想要有一套广泛且普适的评价标准,是需要进一步研究的。


          IP属地:北京来自Android客户端5楼2024-03-09 20:32
          回复
            3


            IP属地:广西来自Android客户端6楼2024-03-09 21:43
            回复
              太长不看


              IP属地:安徽来自Android客户端7楼2024-03-10 02:13
              回复
                这下真的成答辩了


                IP属地:江苏来自Android客户端8楼2024-03-10 18:17
                回复