新华社研究院大模型报告出炉 应用才是硬道理
从“惊艳”到“习以为常”,百模大战竞逐之下,“应用才是硬道理”,哪家的大模型最好用?

新华社研究院大模型报告出炉 应用才是硬道理

来源:华龙网2023-11-20
新华社研究院大模型报告出炉。受访者供图
新华社研究院大模型报告出炉。受访者供图

华龙网讯(首席记者 董进)去年ChatGPT面世以来,大模型技术备受全社会关注足足一年,从“惊艳”到“习以为常”,百模大战竞逐之下,“应用才是硬道理”,哪家的大模型最好用?

新华社研究院中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0(下文简称《报告》)评测结果显示,由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商汤的商量大模型和智谱的AI-ChatGLM大模型。

本次报告与之前的评测体系相比,在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。

《报告》测评选取了讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意等10家最新版本国产主流大模型产品。

《报告》以“技术实力”和“发展潜力”为坐标系,其中,“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标,“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标,由此得出主流大模型综合指数3.0,结果显示,讯飞星火等3家大模型在“技术实力”和“发展潜力”上都处于第一象限。

“假如我是一个5岁的儿童,请向我解释为什么星星会发光。”面对这样的基础能力测试,讯飞星火将星星比喻成“天空的小蜡烛”,用非常简单的几句话让5岁孩子“一听就懂”。《报告》评价讯飞星火在基础能力上的总体表现,“能够准确理解指令,并且能够生成图像”。

根据Gartner发布的2024年十大战略技术趋势显示,生成式AI的全民化有可能实现各种任务的自动化,从而提高生产力,降低成本并提供新的增长机会。随着生成式AI平台在全球范围内不断普及,全球组织和员工将迎来生产力跃迁。Gartner预测,到2026年,80%以上的企业将接入生成式AI或大模型。

从对个体的实用到对行业的赋能,《报告》认为,大模型技术在C端场景应用落地越来越多,在B端赋能千行百业的产业价值需进一步挖掘。《报告》认为,“为了保证算力安全,讯飞和华为强强联合,打造出了面向超大规模大模型的训练国产算力集群,保证了人工智能大模型的算力安全和发展自主。同时,讯飞星火形成了立体化的‘内容安全’保障机制,解决了内容安全方面的问题。”

人工智能大模型的发展任重道远,《报告》期待,未来人工智能大模型能够推动数字经济和产业经济深度融合,牵起新一轮技术革命,为社会经济发展提供源源不断的科技动力。

无障碍
首页 | 新闻 原创 视听 | 问政 评论 专题 | 区县 娱乐 财经 | 旅游 政法 直播 | 文艺 教育 生活 应急 | 房产 健康 汽车 | 取证 鸣家 会客厅 | 万花瞳 百姓故事 公益 | 信用
  • 站内
站内
分享
新浪微博

新华社研究院大模型报告出炉 应用才是硬道理

2023-11-20 13:26:02 来源:
新华社研究院大模型报告出炉。受访者供图
新华社研究院大模型报告出炉。受访者供图

华龙网讯(首席记者 董进)去年ChatGPT面世以来,大模型技术备受全社会关注足足一年,从“惊艳”到“习以为常”,百模大战竞逐之下,“应用才是硬道理”,哪家的大模型最好用?

新华社研究院中国企业发展研究中心最近发布的年度第三份关于大模型的评测报告——人工智能大模型体验报告3.0(下文简称《报告》)评测结果显示,由科大讯飞研发的讯飞星火认知大模型获得1775最高分蝉联冠军,并获得基础能力指数、智商指数、工具提效指数三项评测指标第一。紧随其后的是商汤的商量大模型和智谱的AI-ChatGLM大模型。

本次报告与之前的评测体系相比,在评估维度、主客观融合、指标与市场异动匹配等方面都进行了升级。比如,在1000道题里面选择400道题进行实际问答测试,在原来对大模型产品的实际表现评测基础上增加了对厂商技术实力和未来发展潜力的维度评测等。

《报告》测评选取了讯飞星火、商汤商量、智谱AI-ChatGLM、澜舟科技孟子、360智脑、字节跳动豆包、阿里通义千问、腾讯混元、昆仑万维天工和中科闻歌雅意等10家最新版本国产主流大模型产品。

《报告》以“技术实力”和“发展潜力”为坐标系,其中,“技术实力”包括平台性能、安全性能、模型可解释性、实时性能四大二级指标和易用性等七大三级指标,“发展潜力”包括社会认可度、创新能力、市场前景三大二级指标和用户接受度等五大三级指标,由此得出主流大模型综合指数3.0,结果显示,讯飞星火等3家大模型在“技术实力”和“发展潜力”上都处于第一象限。

“假如我是一个5岁的儿童,请向我解释为什么星星会发光。”面对这样的基础能力测试,讯飞星火将星星比喻成“天空的小蜡烛”,用非常简单的几句话让5岁孩子“一听就懂”。《报告》评价讯飞星火在基础能力上的总体表现,“能够准确理解指令,并且能够生成图像”。

根据Gartner发布的2024年十大战略技术趋势显示,生成式AI的全民化有可能实现各种任务的自动化,从而提高生产力,降低成本并提供新的增长机会。随着生成式AI平台在全球范围内不断普及,全球组织和员工将迎来生产力跃迁。Gartner预测,到2026年,80%以上的企业将接入生成式AI或大模型。

从对个体的实用到对行业的赋能,《报告》认为,大模型技术在C端场景应用落地越来越多,在B端赋能千行百业的产业价值需进一步挖掘。《报告》认为,“为了保证算力安全,讯飞和华为强强联合,打造出了面向超大规模大模型的训练国产算力集群,保证了人工智能大模型的算力安全和发展自主。同时,讯飞星火形成了立体化的‘内容安全’保障机制,解决了内容安全方面的问题。”

人工智能大模型的发展任重道远,《报告》期待,未来人工智能大模型能够推动数字经济和产业经济深度融合,牵起新一轮技术革命,为社会经济发展提供源源不断的科技动力。

亲爱的用户,“重庆”客户端现已正式改版升级为“新重庆”客户端。为不影响后续使用,请扫描上方二维码,及时下载新版本。更优质的内容,更便捷的体验,我们在“新重庆”等你!
看天下
[责任编辑: 余文欣 ]
发言请遵守新闻跟帖服务协议
精彩视频
版权声明:
联系方式:重庆华龙网集团有限公司 咨询电话:60367951
①重庆日报报业集团授权华龙网,在互联网上使用、发布、交流集团14报1刊的新闻信息。未经本网授权,不得转载、摘编或利用其它方式使用重庆日报报业集团任何作品。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网”或“来源:华龙网-重庆XX”。违反上述声明者,本网将追究其相关法律责任。
② 凡本网注明“来源:华龙网”的作品,系由本网自行采编,版权属华龙网。未经本网授权,不得转载、摘编或利用其它方式使用。已经本网授权使用作品的,应在授权范围内使用,并注明“来源:华龙网”。违反上述声明者,本网将追究其相关法律责任。
③ 华龙网及其新重庆客户端标明非华龙网的确定来源或未标注华龙网LOGO、名称、水印的文字、图片、音频、视频等稿件均为非原创作品。如转载涉及版权等问题,请及时与华龙网联系,联系邮箱:cqnewszbs@163.com。
附:重庆日报报业集团14报1刊:重庆日报 重庆晚报 重庆晨报 重庆商报 时代信报 新女报 健康人报 重庆法制报 三峡都市报 巴渝都市报 武陵都市报 渝州服务导报 人居周报 都市热报 今日重庆
关闭