C代码写的比Codex还溜的AI神器开源

近几年来，AI 代码生成器十分流行，从OpenAI的Codex再到DeepMind的AlphaCode。DeepMind甚至表示，AlphaCode在Codeforces（一个编程竞赛平台）举办的编程竞赛（有5000多名参赛者）中，取得了平均排名前54.3%的成绩，并且声称它是首批可与人类程序员竞争的代码生成系统之一。但无论是Codex还是AlphaCode，截止目前都还没有对外开源。

卡内基梅隆大学（Carnegie Mellon University，以下简称CMU）的研究人员表示，“大型科技公司没有公开发布他们的模型，这确实阻碍了科学研究和这种大型语言模型代码的应用。”为此，几个来自CMU的研究人员开发了PolyCoder——一个具有 27B 参数，基于 GPT-2 架构且开源的自动代码生成器模型，在12种编程语言的249GB代码数据库中进行训练。

12种编程语言代码集
研究人员声称，PolyCoder在编写C语言方面的表现优于所有的已知模型（包括Codex）。

和其他开源模型比较，PolyCoder在C、JavaScript、Rust、Scala和TypeScript方面的表现都比类似模型GPT-Neo 2.7B要好。

但是在C语言之外的其他十一种语言中，所有其它开源模型包括PolyCoder可能要略逊Codex。

作为一个开源的 AI 代码生成器，PolyCoder算是取得了不错的成绩。但研究人员担心，像PolyCoder这样的模型可能会提示生成有漏洞的程序，即使是带有一些难以检测的安全漏洞程序。而且他们还担心未来其对手可以在代码生成模型中“隐藏”恶意行为，所以他们建议将Codex大小的模型开源，这不仅可以避免上述情况的发生，还有另一个额外的好处，即开发人员可以通过微调对模型进行个性化操作，这比从头训练模型的成本低很多。

其研究人员还表示，希望能够通过开源，节约资源以及促进科技研究的发展。

参考资料：https://arxiv.org/pdf/2202.13169.pdf
https://venturebeat.com/2022/03/04/researchers-open-source-code-generating-ai-they-claim-can-beat-openais-codex/

C代码写的比Codex还溜的AI神器开源原创

本月精选性能专题

本月精选线上案例

本月精选原创好文

联系我们

网媒渠道

友情链接