LLM代码准确率平均降低15%

GPT-4、ChatGPT、CODEGEN、VICUNA、SANTACODER、INCODER、GPT-J、GPT-NEO、PolyCoder、StableLM-α。

从表格中来看，经过严格测试后，这群AI的生成准确率都有所下落：

又一家出口企业准备上市

这里会通过一种名叫pass@k的方法评估准确率，其中k是允许大模型给问题生成的程序数量，n是用于测试的输入数量，c是正确的输入数量：

根据新的这套评估标准，大模型们的准确率平均下落了15%，其中比较广泛研究的CODEGEN-16B更是下落了超过18%。

至于ChatGPT和GPT-4生成代码的性能，也下落了最少13%。

不过，也有网友表示，大模型生成的代码效果没那么好，已经是“尽人皆知的事实”了，需要研究的是“为何大模型写的代码不能用”。

关于本次LLM代码准确率平均降低15%的问题分享到这里就结束了，如果解决了您的问题，我们非常高兴。

本文内容由互联网用户自发贡献，该文观点仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容，请发送邮件至81118366@qq.com举报，一经查实，本站将立刻删除。发布者：大脸妹，转载请注明出处：https://www.jianzixun.com/141180.html