AI编码工具未能代替码农:大模型的局限性揭秘

AI百科2周前更新 快创云
18 0

  随着ChatGPT和Github Copilot等AI编码工具的兴起,Stack Overflow近日因流量减少宣布裁员近三分之一。这引发了一个争议的问题:ChatGPT这类AI编码工具,真的要颠覆整个行业了吗?然而,根据最新的研究,目前这类大语言模型(LLM)在编程领域还难以替代人类程序员。

  据报告,GPT-4在面对选取的GitHub问题时的成功率为0%,而表现最佳的模型Claude 2的成功率也仅为1.96%。那么,我们真的需要为编程工作的未来担忧吗?目前看来,程序员的职位并未受到真正的威胁。

  Stack Overflow应对AI工具挑战

  Stack Overflow,曾是开发者首选的代码辅助网站,近期受到ChatGPT及其GPT-4驱动的Github Copilot等AI编程工具的冲击,流量明显减少。尽管去年该公司员工人数翻倍至540人,但自去年11月OpenAI发布ChatGPT以来,开发者逐渐转向使用AI工具以获取更实时、准确的建议。今天,Stack Overflow的CEO Prashanth Chandrasekar宣布,由于宏观经济压力和转型盈利需求,公司裁员超过100人,占总员工数的28%。

  面对AI的挑战,Stack Overflow采取了两大策略:一是自主研发自家AI编码工具;二是与科技巨头合作,强调知识库网站在AI模型进化中的不可或缺角色。同时,为防止未授权数据爬取,OpenAI正在研发网络爬虫控制。

  研究显示,大语言模型在编程领域的表现并不尽如人意。普林斯顿和芝加哥大学的团队使用SWE-bench框架,对大语言模型在解决2294个GitHub问题的能力进行评估。结果显示,即使是GPT-4和Claude 2这样的领先模型,成功率都不超过5%。具体来说,GPT-4的成功率为0%,而Claude 2为1.96%。这一发现对于那些将GPT-4视为“编程神器”的人来说,无疑是一个巨大的打击。

  研究为“程序员是否会因AI失业”争议提供了新证据。有评论指出:“新的评估数据集SWE-bench比之前的HumEval更有说服力,大模型不到4%的成功率,难道说明它们距离真正自主还远?”

  SWE-bench:构建独特的数据集

  与传统的NLP基准不同,SWE-bench基准测试考虑了真实的软件工程任务,每个任务均涉及复杂的代码库和相关问题描述。解决这些问题需要的不仅仅是代码生成能力,还需具备资深软件工程师的专业技巧。

  SWE-bench的数据采集流程适用于GitHub上的任何Python存储库,大大减少了人工干预的需要。这意味着研究者可以不断地为SWE-bench添加新任务,确保语言模型在尚未接触过的问题上得到评估。

  大模型在代码编辑领域的挑战

  在最近的一项评估中,研究者对多种大型模型进行了详细测试。令人惊讶的是,大多数模型的表现都不尽如人意。结果显示,这些模型在复杂问题上遭遇困境。如,Claude 2和GPT-4仅解决了4.8%和1.7%的任务。此外,微调模型对上下文敏感,更擅长生成补丁而非整个文件。大模型更偏向生成简短、简单的代码。

  尽管目前的通才模型存在上下文长度限制,但其潜力不容小觑。预见到未来,特训的LLM将展现更强的专业性。这并不意味着模型会取代程序员,反而可以加速他们的工作流,从而助力团队更快地实现目标。

© 版权声明

相关文章