数据堂吧 关注:1,130贴子:2,249
  • 0回复贴,共1

应对大模型幻觉挑战,如何构建高质量SFT数据?

只看楼主收藏回复

大模型发展日新月异,其超强的内容生成能力已被广泛认可,日益成为人们日常生活和工作学习中名副其实的效率提升工具。但有时面对专业领域的问题,大模型会出现“大模型幻觉”,生成不真实、虚构、不一致或无意义的内容。在近期OpenAI华人科学家翁荔发布的博文中,大模型幻觉也被定义为“不基于所提供的上下文或世界知识所输出的虚构内容”。
目前有许多种方法应对大模型幻觉。大致可分为五个方面:
一是数据增强,既包括无监督学习阶段训练数据质量、数量、多样性的增强,也包括后期监督学习阶段中SFT数据质量增强和强化学习数据质量的增强。
二是外部知识库检索及其他类似的验证方法,包括检索增强生成(RAG),即检索相关文档,然后利用额外的相关文档作为上下文进行生成;在没有外部检索知识的基础上,也可以设计一个利用模型本身进行验证和修订的过程,以减少幻觉。
三是特殊的采样方法,比如22年有学者提出基于假设的事实和采样算法;23年有学者提出Inference-Time Intervention(ITI),通过在每层上对激活进行线性探测,以区分真实与虚假的输出等。四是对齐微调,既包括针对事实的微调,如目前必备的监督微调(SFT)和基于人类反馈的强化学习(RLHF),也包括针对归因的微调,比如,为避免低质量响应,将模型配置为拒绝使用预设答案 “I don't know” 进行回答。五是其他可解释性方法,比如通过神经元编辑来减少幻觉问题。
01 数据增强中的SFT数据
在应对大模型幻觉问题的诸多触角中,数据堂作为全球知名的AI数据服务商,更长期专注于如何通过高质量数据来赋能大模型,以更好应对幻觉问题。
其中,就监督微调阶段的SFT数据质量增强而言,广为熟知的是SFT需要少量但高质量的数据集。但更具体地说,到底如何定义高质量的SFT数据?如何评估SFT数据的质量呢?
02 如何定义高质量监督微调数据(SFT数据)?
基于数据堂在SFT领域积累的诸多经验,我们形成了一套定义高质量监督微调数据的评估标准,以更好指导和校准实际的SFT数据服务工作。
高质量Prompt标注数据需要符合以下四点:
• 具体性:避免复杂或模棱两可的指令,文本直接,易于理解。
• 相关性:符合逻辑,多轮对话主题相同。例如,问题要符合给定的标签类别,同时要通过评估各个问题的相似度、常用性、合理性,筛选出高质量的问题文本。
• 精确性:避免太过广泛或开放的问题。问题文本要清晰、简洁,精确表达内容含义。
• 直接性:避免说不要做什么,问题文本要直截了当、简明达意。
高质量Output标注数据需要符合以下五点:
• 相关性:问题和答案之间要准确贴合,避免答非所问。其中要特别注意答案是否有对问题要点进行一一回应。
• 真实性:输出准确无误的信息,不可以误导用户。
• 连贯性:避免错别字、语法错误、语义不顺等表达问题,尽量口语化。
• 有益性(有帮助的):遵循用户意图并帮助解决问题,且答案简明扼要。
• 无害性:输出内容不应对用户造成身体、心理或社会伤害。
此外在实际应用中,还需要针对项目的具体需求调整和规定SFT数据的实施细节,以更好保障数据质量始终如一。比如,细化标签颗粒度和分类层级,关注内容占比和特殊问答的具体要求等。最终通过一系列定制化手段,更好保障SFT数据质量。
03 数据堂监督微调(SFT)数据服务
基于数百个大模型数据项目实施经验,数据堂通过制定一系列质量评估体系和标准,显著优化提升了包括SFT数据在内的数据质量和交付效率。通过组建粗标、精标、专业等多级别标注团队,能有效满足不同特定任务、特定专业领域的高质量SFT数据需求,助力大模型快速提升逻辑推理、复杂指令跟随、敏感问题应答能力。
包含SFT数据服务在内,数据堂提供了一站式大模型解决方案。在无监督学习阶段,我们的训练数据包括1PB大规模无标注文本数据、多语种平行语料数据,800TB图片-文本描述、1PB视频-文本描述数据集,即取即用,并在持续扩充覆盖场景和数据量级。也可根据客户领域数据类型特点,提供无监督数据清洗服务。在监督学习阶段,除监督微调数据外,我们也在通过红队测试、强化学习(RLHF)等服务,切实帮助不同企业有效提升模型应用效果。


IP属地:北京1楼2024-08-05 10:24回复