中国信息通信研究院(以下简称“中国信通院”)正式公布了AI代码大模型的首轮评估结果,在此次评估中,阿里云通义灵码、华为云盘古、商汤小浣熊以及智谱CodeGeeX等国产AI大模型均表现出色,成功通过评估,并获得了业内的高度认可,这一评估结果不仅标志着我国在AI代码大模型领域取得了重要进展,也为后续AI技术的研发和应用提供了有力的参考依据。

据悉,此次AI代码大模型评估是依据《智能化软件工程技术和应用要求 第1部分:代码大模型》标准进行的,该标准于今年1月正式发布,涵盖了通用能力、专用场景能力和应用成熟度三大部分,包括16个能力项、100多个能力要求,评估内容全面从输入多样性、任务多样性、语言完备度、结果可接收性、结果准确度等维度,考核代码大模型的全栈技术能力。
在通用能力方面,各参评模型均展现出了强大的代码理解和生成能力,阿里云通义灵码在代码转换、代码检查及修复、代码优化等方面表现突出,能够高效地完成代码的自动转换和优化工作,极大地提高了开发效率,华为云盘古则在代码解释、代码转换等方面表现出色,能够准确理解代码意图,并生成高质量的代码,商汤小浣熊同样在代码解释、代码转换等方面有着不俗的表现,其强大的代码理解能力为开发者提供了极大的便利。
在专用场景能力方面,各参评模型也展现出了广泛的应用场景和强大的支持能力,阿里云通义灵码提供了网站开发、数据库开发、大数据开发、嵌入式开发等多个场景支持能力,能够满足不同领域开发者的需求,华为云盘古则支持网站开发、移动应用开发、大数据开发、人工智能开发等多个场景的开发能力,其丰富的应用场景为开发者提供了更多的选择,商汤小浣熊同样支持网站开发、桌面应用开发、移动应用开发、数据库开发等多个场景,其强大的专用场景能力为开发者提供了全方位的支持。
在应用成熟度方面,各参评模型也展现出了较高的水平,阿里云通义灵码具备较完善的数据合规及数据分类分级机制,且模型稳定性及可维护性表现优异,在模型推理性能、模型服务风险可控性等方面均表现优秀,能够为用户提供稳定、可靠的服务,华为云盘古则在推理性能、数据分类分级、数据安全合规等方面表现出色,其完善的应用成熟度机制为用户提供了更加安全、可靠的服务,商汤小浣熊同样在数据分类分级、模型性能、模型服务可维护性、风险可控性等方面均表现优秀,其成熟的应用机制为用户提供了更加便捷、高效的服务。
值得一提的是,在此次评估中,有多个大模型应用获得了4+级的高评级,阿里云通义灵码、华为云盘古、商汤小浣熊以及智谱CodeGeeX均获得了这一殊荣,这一评级不仅体现了这些模型在技术能力方面的卓越表现,也为其在后续的市场竞争中奠定了坚实的基础。
此次评估结果还为模型厂商提供了代码大模型能力的评价和指导标准,以及为模型应用方提供了有效衡量其能力水平的标准依据,这对于推动我国AI技术的研发和应用具有重要意义,随着AI技术的不断发展,代码大模型将在各个领域发挥越来越重要的作用,而此次评估结果的公布,将为后续AI技术的研发和应用提供更加明确的指导和方向。
展望未来,随着AI技术的不断发展和应用领域的不断拓展,代码大模型将在更多领域发挥重要作用,我们也期待更多的国产AI大模型能够涌现出来,为我国AI技术的发展和应用贡献更多的力量,在此过程中,中国信通院将继续发挥其专业优势,为AI技术的研发和应用提供更加全面、专业的支持和指导。
此次AI代码大模型评估结果的公布,不仅是对各参评模型技术能力的肯定,也是对我国AI技术发展的一次重要检验,我们相信,在不久的将来,随着AI技术的不断发展和应用领域的不断拓展,我国将在全球AI领域占据更加重要的地位,我们也期待更多的企业和科研机构能够加入到AI技术的研发和应用中来,共同推动我国AI技术的不断发展和进步。