苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型
IT之家
2024-04-25 00:11:55

原标题:苹果发布 OpenELM,基于开源训练和推理框架的高效语言模型

IT之家 4 月 24 日消息,在 WWDC24 之前,苹果在 Hugging Face 平台上发布了一个“具有开源训练和推理框架的高效语言模型”,名为 OpenELM。

当然,这是一项开源语言模型,其源码及预训练的模型权重和训练配方可在苹果 Github 库中获取。

IT之家将官方简介翻译如下:

大型语言模型的可重复性和透明性对于推进开放研究、确保结果的可信度以及调查数据和模型偏差以及潜在风险至关重要。为此,我们发布了 OpenELM,一个最先进的开源语言模型。

OpenELM 使用分层缩放策略,可以有效地分配 Transformer 模型每一层的参数,从而提高准确率。例如,在参数量约为 10 亿的情况下,OpenELM 与 OLMo 相比准确率提升了 2.36%,同时所需的预训练 tokens 数量仅有原来的 50%。

与以往只提供模型权重和推理代码并在私有数据集上进行预训练的做法不同,我们发布的版本包含了在公开数据集上训练和评估语言模型的完整框架,包括训练日志、多个检查点和预训练配置。

我们还发布了将模型转换为 MLX 库的代码,以便在苹果设备上进行推理和微调。此次全面发布旨在增强和巩固开放研究社区,为未来的开放研究工作铺平道路。

参考资料:

相关内容

热门资讯

中冶赛迪申请高温煤气碳迁移在线... 国家知识产权局信息显示,中冶赛迪工程技术股份有限公司申请一项名为“基于氩气内标的高温煤气碳迁移在线定...
和讯投顾陆顺姣:25年最后一天... 2026年作为十五五规划的开局之年,政策面已经定调A股,元旦后的投资主线也越来越清晰,核心就是围绕新...
中国移动申请计算任务的分配方法... 国家知识产权局信息显示,中国移动通信集团设计院有限公司、中国移动通信集团有限公司申请一项名为“计算任...
壁仞科技申请算子执行方法专利,... 国家知识产权局信息显示,上海壁仞科技股份有限公司申请一项名为“算子的执行方法、装置、设备、存储介质及...
“AI+核技术”上新 海南自贸... 自12月18日海南自由贸易港启动全岛封关运作以来,近半个月来,海南自由贸易港跨境人流量和物流量大幅增...