文心一言吧 关注:8,033贴子:28,747
  • 0回复贴,共1

文小言大升级:多模型调度、图片问答,还能唠家乡话!

只看楼主收藏回复

如果TA聪明、理解能力强、很会找话题,又很年轻,介绍给你,你愿意认识一下吗?
3月31日,新一期百度AI Day上,文小言正式宣布完成品牌焕新与功能升级:支持多模型调度,升级全新语音大模型、图片问答能力。
⭐多模型融合调度提升 响应速度与任务处理能力
升级后的文小言,整合了最新的文心大模型X1、文心大模型4.5等模型能力,尤其擅长推理计算,推理后不仅能输出图文混合内容,还能调用工具完成连续任务的处理。
以装修方案为例,如选择文心X1模式,把需求告诉文小言,它就能根据你的需求点生成多种装修风格的方案,设计原理、效果图一应俱全。
多模态理解能力出色,特别是图片理解能力,分析得又准又快。不知道吃什么时,拍下菜单,并告诉小言你的需求,“世纪难题”轻松解决。
不仅有自家最新模型的加持,还接入了DeepSeek-R1等第三方优质模型,实现了多模型间的智能协同。选择“自动模式”,即可一键调用最优模型组合,或根据需求灵活选择单一模型完成特定任务,大幅提升响应速度与任务处理能力。
⭐全新的端到端语音语言大模型 对话流畅自然
文小言升级全新语音大模型,支持方言对话、复杂知识问答及随时打断等,用户可进行语音知识问答或趣味角色扮演。
以小朋友和小言的对话为例,衔接丝滑,不用担心打断后,AI接不上话。还能切换蜡笔小新、孙悟空、熊大熊二等百变音色,喜欢谁就换谁!
不仅如此,小言还学会了多种方言。重庆话、河南话、广西话等等都能聊!
此次升级的语音大模型,是百度在业界首个推出的基于全新互相关注意力(cross attention)的端到端语音语言大模型。该大模型的编码模块和语音识别融合,解码模块和语音合成融合,具备构建多垂类助手,DeepQA,RAG和情感聊天等服务的能力。
模型具备极低的训练和使用成本,极快的推理响应速度。语音交互时,可将用户等待时长从行业常见的3-5秒降低至1秒左右;在电话语音频道的语音问答场景中,调用成本较行业均值下降约50%-90%。
同时,在大模型加持下,实现业内领先的流式逐字的LLM驱动的多情感语音合成,情感饱满、逼真、拟人,交互听感得到极大提升。
简单来说,端到端语音语言大模型把「听」和「说」的能力进行了深度结合,所以不仅能像真人一样处理复杂对话,还能根据不同场景变身成专业助手,反应更快、更懂潜台词、回答也更人性化。
⭐图片问答能力更强
图片问答功能下,只需随手拍摄/上传图片,配合文字或语音提问,就能获取深度解析,让视觉信息获取更高效。比如:
拍摄数学题,获得解题思路与视频解析(特有的AI解题视频能力,讲解又准又全面,辅导孩子学习更方便啦~)
上传多款商品相关图片,了解你的需求后,通过对比参数、价格等,帮你做出购物决策(这专业度 棒)
上传你喜欢的物品图,小言会自动识别设计风格,帮你把相同的设计元素应用到其他指定商品上,生成专属定制设计方案。
文小言还新增“图个冷知识”功能,能选择不同人设(赛博先知、时空学者等),对同一图片进行多维解读。
有了更强的图片问答功能,就相当于有了个“会思考的眼睛”,拍啥都能问,问啥都可以,解锁更多应用场景。
⭐听不清、看不懂、调不动,别着急~ 有问题,问小言!⭐
详情:网页链接
最新版文小言下载:网页链接


IP属地:安徽来自Android客户端1楼2025-04-01 11:54回复