新华社《人工智能大模型体验报告》:四大专业维度36项子能力 文心一言大模型综合指数排名第一(附PDF下载)


人工智能技术迎来了新一轮大变革,ChatGPT在推出短短2个月后便成为了月活破亿的应用。近日,新华社研究院中国企业发展研究中心对主流大模型产品进行了体验评测,发布了《人工智能大模型体验报告》(以下简称《报告》)。

《报告》显示,百度文心一言总得分位居国内第一,并在基础能力、智商、情商、工作提效等维度均获国内第一。在智商测试维度,百度文心一言得分超过Chat-GPT3.5。

新华社研究院主要承担国家高端智库建设等工作,以政策研究为主攻方向,围绕国内外重大问题开展前瞻性、战略性、储备性研究。为直观感受我国当前主流科技企业所推出的大模型产品的现状、优势和特点,新华社研究院中国企业发展研究中心于今年4月启动了人工智能产业创新活力研究。本次研究设置了用户体验项目,抓取了05月22日—05月26日数据,对国内主流大模型进行使用体验评测,旨在为科技企业调整努力方向提供参考。

在综合指数评价方面,本次评测选取4大维度(基础能力、智商测试、情商测试、工作提效能力)、36个子能力,共300个问题,对目前主流大模型产品进行测试,并邀请相关专家组成评测团队深入分析各个产品的语义理解、知识储备、逻辑能力等,最终得出各厂商的大模型综合指数评价。

综合评测结果显示:由OpenAI开发的Chat-GPT系列模型各项指标表现优异,Chat-GPT4.0版本各项能力在3.5版本的基础上均有一定程度提升;由百度开发的人工智能大模型文心一言是目前国内自主研发的大模型中具有优势的产品。其余大模型产品也在基础能力方面表现优良,但面对较复杂的工作内容或情商环境仍有不同程度的进步空间。

针对各维度能力测评,该报告也给出了相应的案例展示和分析。基础能力部分,百度文心一言表现最为抢眼。

智商测试部分,百度文心一言意外超过ChatGPT3.5,表现突出,位居排名第二,仅次于GPT4。

情商测试部分,百度文心一言表现最佳;在工作提效部分,百度文心一言与智谱ChatGLM最佳。

《报告》指出:人工智能与各行业的深度融合是促进产业升级和转型的重要方式之一,“大模型+行业”的发展应用尤为重要。目前大模型在金融、工业、医疗等领域已经取得了显著的成果,如何为行业领域提供更为精准、更为高效的解决方案,成为大模型厂商未来弯道超车的机会。

来源:新华社研究院报告:四大专业维度36项子能力 文心一言大模型综合指数排名第一快科技科技改变未来 (mydrivers.com)

新华社-人工智能大模型体验报告-5...
3.10M

特别声明:1、以上内容仅代表原作者观点;2、以上内容(包括资讯和下载资源等)由吾爱元宇宙提供免费获取方式,仅供用户学习使用,如需商用请联系原作者;3、如需转载以上内容请保留原始出处并提供链接通道;4、如以上内容侵犯了原作者的版权、著作权、肖像权等权利,请联系:admin@5imetaverse.com,我们会尽快核实处理。

评论列表 0

暂无评论