豆包大模型团队正式开源首个多语言类SWE数据集
4月10日,字节跳动豆包大模型团队宣布,正式开源首个多语言类SWE数据集——Multi-SWE-bench,可用于评估和提升大模型“自动修Bug”能力。
据介绍,在SWE-bench基础上,Multi-SWE-bench首次覆盖Python之外的7种主流编程语言,是真正面向“全栈工程”的评测基准。其数据均来自GitHub issue,历时近一年构建,以尽可能准确测评和提高大模型高阶编程智能水平。
豆包大模型团队称,Multi-SWE-bench是业内首个面向多语言代码问题修复的大模型评测基准,覆盖Java、TypeScript、C、C++、Go、Rust和JavaScript等编程语言。
作为一个标准化、可复现、覆盖多语言的“自动编程”开源评测基准,Multi-SWE-bench旨在推动自动编程技术从仅能解决单一语言(如Python)和低复杂度的任务,朝着支持多语言、具备真实问题解决能力的通用型智能体迈进。
伴随强化学习崛起,豆包团队还同步开源了Multi-SWE-RL,为RL在真实代码环境中的训练提供了标准化、可复用的数据基础设施。
目前Multi-SWE-bench论文、代码和数据集已全部公开。
