在HumanEval 基准测试中

来源：品玩2023-08-29 19:10:47

大模型资讯：

WizardCoder 34B 在HumanEval 基准测试中击败 GPT-4

WizardLM 近日宣布，旗下代码生成模型 WizardCoder 34B 近日在HumanEval 基准测试中战胜了 GPT-4。

(资料图片仅供参考)

WizardCoder 34B 是一款在 Code Llama 基础上改进的代码模型。WizardCoder 34B 在基准测试中获得%的通过率，而 GPT-4在今年3月的成绩为67%。编程模型 WizardCoder 由微软和香港浸会大学于 6 月推出，即将推出经过微调的 13B/7B 版本。

此外，WizardCoder 34B 的性能还超过了最新迭代的和 Claude 2。

OpenAI官宣与Scale合作支持企业微调模型

OpenAI今天宣布，将与Scale合作，帮助更多公司从模型微调中受益。

OpenAI 在官方声明中表示，鉴于 Scale 在帮助企业安全、有效地利用人工智能数据方面拥有丰富的经验，OpenAI将其作为首选合作伙伴，扩大OpenAI 模型微调功能的优势。Scale 的客户现在可以像通过 OpenAI 一样对 OpenAI 模型进行微调，同时还能受益于 Scale 的企业人工智能专业知识和数据引擎。

OpenAI 表示，他们最近为 Turbo 推出了微调功能，今年秋天还将为 GPT-4 带来微调功能。

国内首个大模型数据标注基地落地海口

据百度官方消息，日前，位于海口市秀英区的百度智能云（海口）人工智能基础数据产业基地正式启动运营，这是百度智能云与海口市政府合作共建的国内首个大模型数据标注中心。

百度智能云方面表示，目前已经在全国与各地政府合作，共建了十多个数据标注基地，累计为当地提供超过万个稳定就业岗位，间接带动5万人就业。

浪潮信息发布大模型智算软件栈 OGAI

据浪潮服务器官方消息，浪潮信息近日正式发布大模型智算软件栈 OGAI。

OGAI为大模型业务提供AI算力系统环境部署、算力调度保障及模型开发管理能力的全栈全流程的智算软件栈。OGAI由浪潮信息基于大模型自身实践与服务客户的专业经验而开发，旨在为大模型研发与应用创新全力打造高效生产力，加速生成式AI产业创新步伐。

OGAI是浪潮信息从当前大模型算力建设、模型开发和应用落地的实际需求出发，秉承全栈全流程、算力充分释放、实战验证提炼的设计原则打造而成。

代码生成模型 Code Llama-34B 已在 HumanEval 测试中击败 GPT-4

据 phind官方消息，研究团队在Phind 内部数据集上对 CodeLlama-34B 和 CodeLlama-34B-Python 进行微调之后发现，这两款模型微调之后在 HumanEval 测试中的通过率均已超过GPT-4在今年3月份的成绩。

Code Llama 是Meta发布的一款代码生成大模型，拥有7B、13B和34B三个尺寸，同时包含基础模型、Python专用版本等多款模型。 HumanEval 测试显示，未经过微调的CodeLlama-34B 和 CodeLlama-34B-Python 的通过率分别为%和%。

在经过测试之后发现，训练后的 CodeLlama-34B 通过率达到% ，CodeLlama-34B-Python 的通过率达到% 。而 GPT-4在今年3月份的成绩为67%。

航旅纵横上线民航大模型千穰，现已面向 Plus 会员开启公测

据航旅纵横官方消息，航旅纵横近日正式发布民航领域垂直大模型，千穰大模型。

据航旅纵横表示，千穰大模型是融合了视觉大模型、语言大模型、多模态大模型和计算大模型的图文计算多智体。千穰支持多模态交互、实时信息获取、民航知识精准理解、复杂推理能力、高精度计算优化等功能，可为消费者服务领域行业服务领域提供面对不同场景的解决方案。

千穰出行助手已在航旅纵横App落地，但目前仅供航旅纵横Plus会员申请使用。

软银计划下月安排印度团队前往硅谷学习 AI 技术

据 Tech In Asia 报道，软银集团计划下月带领一支由印度初创企业创始人组成的团队前往美国硅谷进行 AI 技术的考察餐馆。

据软银旗下愿景基金高管Sumer Juneja 表示，愿景基金正在帮助投资的企业采用人工智能技术，并一直在为其支持的创始人安排与该领域领先企业的面对面交流的机会。据悉，这支参观学习团队有20人，不过具体名单尚未透露。

重点论文：

清华大学联手多所高校，推出FlexKBQA 框架

据 Arxiv 页面显示，来自清华大学、俄亥俄州立大学、中国科学院大学和山东大学等多所高校的研究者们近日发表论文，介绍了一款可用于解决知识库问答问题的框架FlexKBQA 。

论文表示，FlexKBQA利用大型语言模型作为程序翻译器，可以解决少样本知识库问答任务中固有的挑战。FlexKBQA利用自动算法从知识库中抽取多样的程序，然后通过大语言模型将其转化为自然语言问题。这个合成的数据集有助于训练一个专门的轻量级模型用于知识库问答。

研究显示，FlexKBQA在少数标注的情况下取得了令人印象深刻的结果，相对于全监督模型的性能达到了93%的水平。

论文地址：点此前往

关键词：

责任编辑：sdnew003

返回首页返回公司首页

在HumanEval 基准测试中

相关新闻

热文排行

投资

产业

创投

关注

热门主题

综合热门

热门主题

科技热门

热门主题

在HumanEval 基准测试中

相关新闻

热文排行 投资 产业 创投

关注 热门主题

综合热门 热门主题

科技热门 热门主题

热文排行

投资

产业

创投

关注

热门主题

综合热门

热门主题

科技热门

热门主题