智源“百模评测”放榜:多模态发展提速或激发新的AI应用
12月19日,智源研究院发布最新一期FlagEval大模型评测榜单。本次参与测评的有国内外100余个开源、商业闭源大模型,涵盖语言、视觉语言、文生图、文生视频、语音语言多个类别。

智源研究院评测发现,2024年下半年,大模型发展更聚焦综合能力提升与实际应用。语言模型能力趋于饱和稳定,发展相对放缓。多模态模型发展迅速,涌现了不少新厂商与新模型。国内厂商在文生图、文生视频模型方面占据全球第一梯队的位置。
从上榜的大模型厂商看,国内的字节跳动、腾讯、阿里巴巴、百度、快手,国外的OpenAI、谷歌、Meta、Anthropic等大公司的模型排名靠前,比大模型初创公司更具优势。
大模型厂商分层,AI应用或出现新趋势
智源研究院副院长兼总工程师林咏华表示,互联网大厂在用户流量与数据反馈上都会比非互联网厂商有优势,尤其是短视频大厂积累了海量的高质量数据,经过近一年的训练,多模态模型能力进步明显。在今年上半年,一些文生图模型普遍无法生成正确的中文文字,但此次参评的头部模型已经具备中文文字生成能力。
大模型厂商也出现了明显的分层。一部分厂商仍在追求更强更大的人工通用智能模型,另一部分厂商则加大了对应用的探索。
智源研究院测评团队观察到,今年以来,从预训练环节开始训练模型的企业已经很少了,开源的语言模型数量也在减少。这在一定程度上说明,业界对基础模型的探索在收敛。不过,国内仍有不少具有实力的厂商在持续发力通用基座模型并选择开源。
智源研究院智能评测组负责人杨熙告诉经济观察网,今年业界更关注应用,一些大模型厂商也在积极向应用侧转变。做应用需要在推理端做更多优化,相比之下,训练更大尺寸的基础语言模型,对企业的技术实力、财力、资源挑战较大。
杨熙称,国内的AI应用还处于用户教育阶段,很多厂商在设计产品时,要么是在教用户怎么正确且高效地使用大模型,要么是通过配套的产品化能力识别出用户的意图,再对用户的请求做适应性调整。这说明国内的AI应用还比较领先。
林咏华认为,过去两年,语言模型的持续发展带来了今年以语言模型为支撑的各种AI应用,2025年,AI应用会出现三个明显的趋势:一是基于语言模型的智能体能够完成更复杂的AI功能;二是文生图、文生视频应用会出现一些突破;三是跨模态的视觉语言模型有望形成新的AI应用。
头部金融模型能力接近初级量化交易员
智源研究院评测结果显示,针对一般中文场景的语言模型在开放式问答或生成任务上的能力已趋于饱和稳定,但是在复杂场景任务的表现上,国内头部语言模型仍与国际一流水平存在显著差距。
在语言模型主观评测中,字节跳动Doubao-pro-32k-preview、百度ERNIE 4.0 Turbo位居第一、第二。在视觉语言模型评测上,OpenAI GPT-4o-2024-11-20位列第一,字节跳动的豆包视觉模型紧随其后。
文生图多模态模型虽然在这半年进步较大,但仍会出现复杂场景人物变形的情况。评测结果显示,腾讯Hunyuan Image位列第一,字节跳动Doubao image v2.1、Ideogram 2.0分列第二、第三,OpenAI DALL·E 3、快手可图次之。
在文生视频多模态模型评测中,画质进一步提升,动态性更强,镜头语言更丰富,转场更流畅,但普遍存在大幅度动作变形,无法理解物理规律,物体消失、闪现、穿模等情况。评测结果显示,快手可灵1.5、字节跳动即梦P2.0 pro、爱诗科技PixVerse V3、MiniMax 海螺AI、Pika 1.5位列前五。
语音语言模型能力提升巨大,覆盖面更全,但在具体任务上与专家模型还存在一定差距。整体而言,性能好、通用能力强的开源语音语言模型偏少。专项评测结果显示,阿里巴巴Qwen2-Audio位居第一,香港中文大学amp;微软WavLLM、清华大学amp;字节跳动Salmon位列第二、第三,Nvidia Audio-Flamingo,MIT amp; IBM LTU均进入前五。
在本次测评中,智源研究院首次增加了金融量化交易榜单。评测结果显示,头部模型能力已接近初级量化交易员的水平。大模型已经具备生成有回撤收益的策略代码的能力,能开发量化交易典型场景里的代码。其中,深度求索Deepseek-chat,OpenAI GPT-4o-2024-08-06,Google Gemini-1.5-pro-latest位列前三。
据了解,本次评测依托智源研究院自2023年6月上线的大模型评测平台FlagEval,已覆盖全球800多个开闭源模型,包含20多种任务,90多个评测数据集,超200万条评测题目。
郑重声明:此文内容为本网站转载企业宣传资讯,目的在于传播更多信息,与本站立场无关。仅供读者参考,并请自行核实相关内容。
推荐
-
走进“准独角兽”|逸动科技:大学生创业十余载,如何做出全球领先“水上特斯
香港科技大学离海不远,二十来岁的陶师正总是喜欢去海边看海玩船。当时的他并没想到,这片辽阔的海域将是自己未来要闯荡的“星辰大海”。 近日,港科大2024“十...2024-12-21 04:05 -
全方位建设模范自治区暨“科技兴蒙产才融合”政策企业家宣介活动上海临港站顺
12月14日,由内蒙古自治区人民政府驻上海办事处主办的全方位建设模范自治区暨“科技兴蒙产才融合”政策企业家宣介活动(上海临港站)顺利召开。 在当今全球化竞...2024-12-21 03:27 -
2024中国国际零售创新大会:《生成式人工智能零售业全景探索白皮书》领航
11月19日至21日,以“在新时期实现零售的进化”为主题的CCFA新消费论坛—2024中国国际零售创新大会在上海国际会议中心成功召开。此次大会发布了由华为深度参...2024-12-21 02:00 -
美国消费者信心指数连续第五个月上升1年期通胀预期升至2.8%
智通财经APP获悉,12月,美国消费者信心指数连续第五个月上涨,同时通胀预期略有上升。据密歇根大学发布的数据显示,12月消费者信心指数终值从上月的71.8升至7...2024-12-21 01:08 -
刚刚发布,489.15万亿!
2024年3季度末金融业机构总资产489.15万亿元 初步统计,2024年3季度末,我国金融业机构总资产为489.15万亿元,同比增长8.0%,其中,银行...2024-12-20 23:33
最新
图文
-
德国统计局表示,今年第一季度进口电动汽车中,中国生产的汽车占比28.2%,排名第二。在进口国家中,中国超过了韩国。这比去...[详情]
-
初夏悄然而至,正是出游好时节。这不,正适合跟着斯柯达柯迪亚克、明锐Pro前往美丽鹭岛,开启一场海滨之旅。好时节又逢理想“...[详情]
-
行至巅峰,也向山海。5月25日,在世界最高峰——珠穆朗玛峰下,通过长安马自达官方直播间和浙江卫视频道和Z视介平台,“山系...[详情]
-
近日,北美年度风云车(简称NACTOY)公布了2023年度汽车名单。其中起亚纯电动汽车EV6荣获NACTOY评审团授予的...[详情]
-
对于汽车厂家来说,紧凑型SUV市场是必争之地。不管是中国品牌,还是合资对手,都将这块市场视为“一...[详情]
-
车评观察《车评社》前言:作为自主一线豪华品牌,红旗汽车在国内市场的环境可谓是强敌环伺,但即便如此...[详情]
-
回首2022年,新能源汽车市场可谓炙手可热。在这条快速成长的轨道上,各路车企纷纷抢滩登陆,在市场中抢占先机。伴随着竞争愈...[详情]
-
今日,极氪智能科技旗下全球首款原生纯电豪华MPV极氪009如期开启交付。首批用户在北京、上海、杭州、南京等城市的极氪交付...[详情]