随着高考季的落幕,迎来了备受瞩目的“对答案”环节。今年,除了各领域名师参与解题外,一群“被迫上阵”的AI考生也加入了这场竞赛。国内顶尖AI模型被送入高考考场,涵盖作文、数学、英语等多个科目,成为2024年高考考场上最忙碌的存在。
其中,对于语言能力强大的大模型而言,写作文无疑是其强项。红网曾邀请百度文心一言、阿里通义千问、腾讯混元、字节豆包、讯飞星火等五款大模型撰写关于人工智能思考的湖南高考语文作文,并面向读者发起投票。结果显示,讯飞、腾讯浑元、文心一言分别获得1411票、1263票、474票,成为公众心目中的“语文课代表”。
此外,36氪旗下账号“智能涌现”则选出11位大模型考生,针对天津卷的“定义与自我定义”考题进行作答,并请GPT-4o进行打分。结果显示,GPT-4o给自己和通义千问打出了55分的高分,讯飞星火和智谱清言紧随其后,获得54分。
除了语文,大模型的数学功底也成为关注的焦点。为了全面考察其数学基础知识的掌握情况以及逻辑推理、数据处理、解析能力等多方面的能力,对其进行了数学功底的“深度摸底考”。搜狐科技选取网络流传的2024新课标I卷前8道单选题对十家大模型进行了比拼。结果显示,文心一言、字节豆包、讯飞星火并列第一,正确率为63%。
随着更多高考题目和参考答案的公布,AI大模型工场选取了不同难易程度、不同章节考点的高考数学题,邀请此前表现优异的文心一言、讯飞星火、通义千问、腾讯元宝等四位大模型进行对决,以探究谁是“最懂数学的大模型”。同时,为了防止大模型在论证题目中“胡说八道”,考题主要以一目了然的选择题为主,并参照公众号“韩老师带你学数学”中人类数学老师的标准答案及解析过程进行对比。
在单选环节,多轮对战中,讯飞星火表现稳定。例如,在考察命题部分的题目中,虽然文心一言和腾讯元宝分别选择了错误答案,但通义千问和讯飞星火均正确作答。而在带有图表的题目中,考察极差等考点的同时,也检验了大模型的多模态和识别图表能力。结果显示,文心一言和讯飞星火选择了正确答案,而腾讯元宝则因读错题而误判。
在更为复杂的多选题“加时赛”环节,讯飞星火再次展现其卓越能力,给出了全面正确的回答。相比之下,其他大模型则存在不同程度的误判或漏选情况。
整体来看,大模型在数学领域的表现仍有待提高。然而,作为人工智能和机器学习领域的基础和核心,数学是大模型的“必修课”。通过不断提升数学能力,大模型可以进一步理解线性代数、微积分等数学概念和方法,从而提高其建模、分析和泛化能力。
值得一提的是,讯飞星火在多项测评中均表现优异,特别是在更符合人类实际使用的大模型Latex格式下同样能力超群。在高考数学新课标I卷、新课标II卷的14道题测试中名列前茅其中新课标II卷的测评分数更是遥遥领先。这也让外界看到了大模型的数学潜力并打开了更多想象空间。期待未来能在数学竞技场上看到大模型与人类选手同场竞技的精彩对决。
此外我们还拥有覆盖超1000位AIGC圈内外人士的精准社群包括百度大模型业务负责人京东大模型业务负责人等欢迎加入请加微信fqq2000nian并注明真实身份。我们期待更多关于大模型商业化落地的创新思路与探讨。