新华社研究院中国企业发展研究中心最新发布的《人工智能大模型体验报告2.0》对国内大模型在四大核心维度上的表现进行了详尽排名与解析。该报告揭示了AI技术的前沿进展,特别是讯飞星火以1013分的总成绩位居榜首,仅比人类答案低1分,展现了其卓越的能力。紧随其后的是百度文心一言,以1010分位列第二,而商汤商量与智谱ChatGLM则并列第三,得分983分。
报告深入探讨了各模型在基础能力、智商能力、情商能力和工具提效方面的具体表现。在基础能力方面,AI与人类之间的差距并不显著,这得益于AI算法模型在开发过程中充分吸收了人类的智慧和知识,并在政策的积极引导下,展现出向善和卓越的语言能力。测评结果显示,百度文心一言在科技企业大模型中表现尤为突出,商汤商量、智谱AI-ChatGLM和360智脑也表现出色。
智商评估方面,尽管AI技术不断进步,但人类在智商上仍具有明显优势,特别是在学习能力、善用工具和解决问题方面。此次测评从常识知识、逻辑能力和专业知识三个方面进行考量,讯飞星火和智谱AI-ChatGLM表现突出,百度文心一言和昆仑万维天工也表现优良。
在情商方面,AI与人类之间的差距最为显著。人类在情绪理解和处理方面具有更强优势,而AI在处理日常事项、一语双关和人际关系等方面仍有待提升。不过,商汤商量在情商方面表现亮眼,百度文心一言、澜舟科技Mchat、智谱AI-ChatGLM及360智脑均表现优良。
工具提效和生成创新方面,报告指出,讯飞星火在此项测评中表现最为抢眼,百度文心一言、商汤商量和智谱AI-ChatGLM也表现优良。然而,尽管AI具有高速度和高效率的优势,但在某些复杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。
报告强调,尽管在不同领域中AI和人类表现出不同的优劣势,但整体上AI大模型的发展为人类工作和生活的提质增效带来了重要积极影响。同时指出,随着AI技术的不断成熟,其发展方向已从盲目追求规模转向注重实用性和可持续性。未来,通过降低成本、提高易用性、增强可靠性、保护隐私和安全等措施,进一步提高大模型的可用性,将是让AI真正走进千家万户的关键。