大模型“自动修bug”能力将提升，豆包团队开源首个多语言代码修复基准Multi-SWE-bench

2025-04-11 发布在科技

IT之家 4月10日消息，豆包大模型团队今日通过官方公众号宣布，首个多语言类 SWE 数据集Multi-SWE-bench现已正式开源，可用于评估和提升大模型“自动修Bug”能力。

在SWE-bench基础上，Multi-SWE-bench首次覆盖Python之外的7种主流编程语言，是真正面向“全栈工程”的评测基准。其数据均来自GitHub issue，历时近一年构建，以尽可能准确测评和提高大模型高阶编程智能水平。

Multi-SWE-bench旨在推动自动编程技术从仅能解决单一语言（如 Python）和低复杂度的任务，朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。

SWE-bench是当前最具代表性的代码修复评测基准，强调任务真实、难度高。它基于 GitHub issue，要求模型自动定位并修复Bug，兼具跨文件修改、复杂语义推理与上下文理解等挑战。

Multi-SWE-bench旨在补全现有同类基准语言覆盖方面的不足，系统性评估大模型在复杂开发环境下的“多语言泛化能力”，推动多语言软件开发Agent的评估与研究，其主要特性如下：

首次覆盖7种主流编程语言（包括Java、Go、Rust、C、C++、TypeScript、JavaScript），构建多语言开发环境下的代码修复任务，系统评估模型的跨语言适应与泛化能力；

引入任务难度分级机制，将问题划分为简单（Easy）、中等（Medium）和困难（Hard）三类，涵盖从一行修改到多文件、多步骤、多语义依赖的开发挑战；

1,632个实例全部来源于真实开源仓库，并经过统一的测试标准和专业开发者的审核筛选，确保每个样本具备清晰的问题描述、正确的修复补丁以及可复现的运行测试环境。

“特别声明：以上作品内容(包括在内的视频、图片或音频)为凤凰网旗下自媒体平台“大风号”用户上传并发布，本平台仅提供信息存储空间服务。

Notice: The content above (including the videos, pictures and audios if any) is uploaded and posted by the user of Dafeng Hao, which is a social media platform and merely provides information storage space services.”

声明：本站所有文章资源内容，如无特殊说明或标注，均为采集网络资源。如若本站内容侵犯了原著者的合法权益，可联系本站删除。

大模型“自动修bug”能力将提升，豆包团队开源首个多语言代码修复基准Multi-SWE-bench

相关文章

热门

推荐

随机

标签

大模型“自动修bug”能力将提升，豆包团队开源首个多语言代码修复基准Multi-SWE-bench

相关文章

热门

推荐

随机

标签

微信扫一扫打赏