AI编码工具未能代替码农：大模型的局限性揭秘

　　随着ChatGPT和Github Copilot等AI编码工具的兴起，Stack Overflow近日因流量减少宣布裁员近三分之一。这引发了一个争议的问题：ChatGPT这类AI编码工具，真的要颠覆整个行业了吗？然而，根据最新的研究，目前这类大语言模型（LLM）在编程领域还难以替代人类程序员。

　　据报告，GPT-4在面对选取的GitHub问题时的成功率为0%，而表现最佳的模型Claude 2的成功率也仅为1.96%。那么，我们真的需要为编程工作的未来担忧吗？目前看来，程序员的职位并未受到真正的威胁。

　　Stack Overflow应对AI工具挑战

　　Stack Overflow，曾是开发者首选的代码辅助网站，近期受到ChatGPT及其GPT-4驱动的Github Copilot等AI编程工具的冲击，流量明显减少。尽管去年该公司员工人数翻倍至540人，但自去年11月OpenAI发布ChatGPT以来，开发者逐渐转向使用AI工具以获取更实时、准确的建议。今天，Stack Overflow的CEO Prashanth Chandrasekar宣布，由于宏观经济压力和转型盈利需求，公司裁员超过100人，占总员工数的28%。

　　面对AI的挑战，Stack Overflow采取了两大策略：一是自主研发自家AI编码工具；二是与科技巨头合作，强调知识库网站在AI模型进化中的不可或缺角色。同时，为防止未授权数据爬取，OpenAI正在研发网络爬虫控制。

　　研究显示，大语言模型在编程领域的表现并不尽如人意。普林斯顿和芝加哥大学的团队使用SWE-bench框架，对大语言模型在解决2294个GitHub问题的能力进行评估。结果显示，即使是GPT-4和Claude 2这样的领先模型，成功率都不超过5%。具体来说，GPT-4的成功率为0%，而Claude 2为1.96%。这一发现对于那些将GPT-4视为“编程神器”的人来说，无疑是一个巨大的打击。

　　研究为“程序员是否会因AI失业”争议提供了新证据。有评论指出：“新的评估数据集SWE-bench比之前的HumEval更有说服力，大模型不到4%的成功率，难道说明它们距离真正自主还远？”

　　SWE-bench：构建独特的数据集

　　与传统的NLP基准不同，SWE-bench基准测试考虑了真实的软件工程任务，每个任务均涉及复杂的代码库和相关问题描述。解决这些问题需要的不仅仅是代码生成能力，还需具备资深软件工程师的专业技巧。

　　SWE-bench的数据采集流程适用于GitHub上的任何Python存储库，大大减少了人工干预的需要。这意味着研究者可以不断地为SWE-bench添加新任务，确保语言模型在尚未接触过的问题上得到评估。

　　大模型在代码编辑领域的挑战

　　在最近的一项评估中，研究者对多种大型模型进行了详细测试。令人惊讶的是，大多数模型的表现都不尽如人意。结果显示，这些模型在复杂问题上遭遇困境。如，Claude 2和GPT-4仅解决了4.8%和1.7%的任务。此外，微调模型对上下文敏感，更擅长生成补丁而非整个文件。大模型更偏向生成简短、简单的代码。

　　尽管目前的通才模型存在上下文长度限制，但其潜力不容小觑。预见到未来，特训的LLM将展现更强的专业性。这并不意味着模型会取代程序员，反而可以加速他们的工作流，从而助力团队更快地实现目标。

本网站上的所有资源均来源于本网站，所有网址和文章版权均归原作者所有。如有侵权行为，请将相关证明发送至以下电子邮件地址：dxsen@qq.com

54个AI场景模板拿去，文案、PPT、EXCEL、音视频、设计全包了

AI百科 # ps # 应用场景 # 提示词

1个月前

“AI张文宏”深夜直播带货，别让新技术沦为新骗术

AI百科

8个月前

131

免费好用！用AI做海报太高效了！阿里ModelScope这款AI创意海报生成工具，连专业设计都在用！（附详细教程）

AI百科 # AI

7个月前

宁德时代携手滴滴布局换电业务!同类规模、流动性领先的电池50ETF(159796)连续4日累计吸金超4000万元，DeepSeek提振电池业务？机构火线解读

AI百科 # ChatGPT # 创新 # 阅读

1个月前

AI编码工具未能代替码农：大模型的局限性揭秘

PPTAI - 功能介绍（桌面端）

真三国无双蓝宝石版ai地图介绍

相关文章

54个AI场景模板拿去，文案、PPT、EXCEL、音视频、设计全包了

“AI张文宏”深夜直播带货，别让新技术沦为新骗术

免费好用！用AI做海报太高效了！阿里ModelScope这款AI创意海报生成工具，连专业设计都在用！（附详细教程）

宁德时代携手滴滴布局换电业务!同类规模、流动性领先的电池50ETF(159796)连续4日累计吸金超4000万元，DeepSeek提振电池业务？机构火线解读

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

AI编码工具未能代替码农：大模型的局限性揭秘

PPTAI - 功能介绍（桌面端）

真三国无双蓝宝石版ai地图介绍

相关文章

54个AI场景模板拿去，文案、PPT、EXCEL、音视频、设计全包了

“AI张文宏”深夜直播带货，别让新技术沦为新骗术

免费好用！用AI做海报太高效了！阿里ModelScope这款AI创意海报生成工具，连专业设计都在用！（附详细教程）

宁德时代携手滴滴布局换电业务!同类规模、流动性领先的电池50ETF(159796)连续4日累计吸金超4000万元，DeepSeek提振电池业务？机构火线解读

网址

PPT模板、PP案例、PPT课件免费下载网站

【官网】 闪剪

怪兽AI数字人

蝉镜

慧播星·百度电商数字人直播

音视频内容 AI

热门网址

Huawei Enterprise: Accelerate Industrial Intelligence

快写红薯通AI

畅问AI

慧星云

新壹科技

星火网文助手

滴文

标书制作

AI小说家

百度作家平台

【官网】闪剪