2024世界人工智能大会｜蚂蚁百灵大模型最新进展：已具备原生多模态能力

7月5日，在2024世界人工智能大会“可信大模型助力产业创新发展”论坛上，蚂蚁集团公布了其自研的百灵大模型最新研发进展：百灵大模型已具备能“看”会“听”、能“说”会“画”的原生多模态能力，可以直接理解并训练音频、视频、图、文等多模态数据。原生多模态被认为是通往AGI的必经之路，在国内，目前只有为数不多的大模型厂商实现了这一能力。

记者从大会现场的演示看到，多模态技术可以让大模型更像人一样感知和互动，支撑只能体验升级，百灵的多模态能力已应用于“支付宝智能助理”上，未来还将支持支付宝上更多智能体升级。

图说：蚂蚁集团副总裁徐鹏介绍百灵大模型原生多模态能力采访对象提供（下同）

据了解，百灵大模型多模态能力，在中文图文理解MMBench-CN评测集上达到GPT-4o水平，在信通院多模态安全能力评测达到优秀级（最高），具备支持规模化应用的能力，能支持AIGC、图文对话、视频理解、数字人等一系列下游任务。

多模态大模型技术能够使AI更好地理解人类世界的复杂信息，也让AI落地应用时更符合人类的交互习惯，在智能客服、自动驾驶、医疗诊断等多个领域展现出巨大的应用潜力。

蚂蚁集团有着丰富的应用场景，百灵大模型的多模态能力，也已被应用在生活服务、搜索推荐、互动娱乐等场景。在生活服务上，蚂蚁集团使用多模态模型实现了ACT技术，让智能体具备一定规划执行能力，比如根据用户语音指定直接在星巴克小程序下单一杯咖啡，目前这一功能已在支付宝智能助理上线。在医疗领域，多模态能力为用户实现复杂任务的操作，可以对超过100多种复杂的医学检验检测报告进行识别和解读，还可以检测毛发健康和脱发情况，为治疗提供辅助。

图说：观众在蚂蚁展厅现场体验使用支付宝智能助理点咖啡

发布现场，蚂蚁集团副总裁徐鹏展示了新升级的多模态技术可实现的更多应用场景：通过视频对话的自然形式，AI助理能为用户识别穿着打扮，给出约会的搭配建议；根据用户不同的意图，从一堆食材中搭配出不同的菜谱组合；根据用户描述的身体症状，从一批药物中，挑选出可能合适的药，并读出服用指导，供用户参考等。

基于百灵大模型多模态能力，蚂蚁集团已在探索规模应用落地产业的实践。

论坛上同时发布的“支付宝多模态医疗大模型”，便是这一探索的实践。据了解，支付宝多模态医疗大模型添加了包含报告、影像、药品等多模态信息在内的百亿级中英文图文、千亿级医疗文本语料，以及千万级高质量医疗知识图谱，具备专业医学知识，在中文医疗LLM评测榜单promptCBLUE上，取得A榜第一，B榜第二的成绩。

基于百灵大模型多模态能力，由蚂蚁集团与武汉大学联合研发的遥感模型SkySense，也在论坛上公布了开源计划。SkySense是目前参数规模最大、覆盖任务最全、识别精度最高的多模态遥感基础模型。

“从单一的文本语义理解，到多模态能力，是人工智能技术的关键迭代，而多模态技术催生的‘看听说写画’的应用场景，将让AI的表现更真实，更接近人类，从而也能更好地服务人类。蚂蚁会持续投入原生多模态技术的研发。”徐鹏说。

新民晚报记者金志刚

友情提示

本站部分转载文章，皆来自互联网，仅供参考及分享，并不用于任何商业用途；版权归原作者所有，如涉及作品内容、版权和其他问题，请与本网联系，我们将在第一时间删除内容！

联系邮箱：1042463605@qq.com

2024世界人工智能大会｜蚂蚁百灵大模型最新进展：已具备原生多模态能力

友情提示

今日之声:"不要以爱的名义骗炮,做爱前可签字画押"

杭州文旅局联合支付宝培训旅行社导游，助力全球游客一部手机畅杭州

要买的快去抢！3%预定利率的储蓄险9月将全面下架……

官宣退赛！郑钦文预定中国闭幕旗手，夺奥运金牌后，收入保底上亿

蚂蚁集团或借子公司重启IPO

蚂蚁集团旗下企管公司增资至36亿元

拖拉机自驾游西藏318川藏线救援坦克300#拖拉机#自驾游#西藏

原来这才是大名鼎鼎的“止咳大王”，很多人还不认识，我也才知道

延迟退休对在职职工影响不大，对灵活就业影响很大

电影：这才叫经典港片，吕良伟遇上肥猫演技霸气外露，精彩好看

光棍汉胡长清在路边捡到一个流浪女做老婆，五年后直呼负担不起

晚年最不愁钱的3大生肖，儿孙有出息，日子幸福，猜猜是哪几个？

难言x：当难言帮妹妹扶贫，存款只有24

定居泰国、高调炫富，这一次再也没人能管住张默，连张国立也没辙

河南这件事，比想象得还要恐怖

死于传呼机爆炸的真主党领导超半数：至少一年内难掀风浪

多人运动?小杨哥和卓仕琳的瓜！除了沫沫还有两个主播也进去了？

惊悚恐怖片《鬼皮》完整版