大型语言模型LLM的核心概念
创始人
2024-12-02 11:06:17

本文主要介绍了目前主流的,几个大型语言模型LLM的整个训练过程

通常分为下面的几个阶段

1. 预训练

采用互联网上的大量数据进行训练,这一阶段大模型LLM的主体已定,找出共性并且压缩成一个模型。模型的参数量不是越大越好,遵循合理、适中的原则。增加数据量并保持中到大型的参数规模,则是一个成本与模型效果的平衡之后的合理方案

2. 微调

大型语言模型中,绝大部分的知识都是在预训练中学习的。
这阶段需要喂给精确的、高质量的问答数据给大模型,可以使用相对较少的数据,来继续训练模型,以适应特定问题和场景
对于每个问题,大模型都会给 3 个回答,需要人类手动选择一个最优的回答,给大模型一个反馈,来帮助大模型进一步优化和提升。

3. 模型对齐

使用预期回答模板,套入大模型生成的回答,实现模型和预测的对齐。这有助于符合正当的合法的目的,同时遵守人类最基本的情感、道德、底线、公序良俗以及符合当地的风俗习惯等等

相关内容

热门资讯

托举天舟十号升空!长七火箭“美... 5月11日8时14分,天舟十号货运飞船载着总重近6.2吨的补给物资和实验载荷,在长征七号遥十一运载火...
“一人公司”社区落地贵阳高新区 5月7日,贵州科学城科技创新园与贵州星梦源科技有限公司正式签署合作协议,共同落地OPC(One Pe...
市、区科协联合开展科普大篷车进... 2026.5.11 近日,兰州市科协与城关区科协科普大篷车先后联合走进城关区拱星墩小学、文璟学校、甘...
科技保险从有保障迈向高质量 从人形机器人到人工智能大模型,从创新药到光电融合芯片……近年来,科技创新领域成果不断涌现。科技创新是...
天舟十号带货!太空光伏炸场,柔... 5 月 11 日,天舟十号货运飞船成功发射,除常规补给外,一件 “黑科技” 货物引爆市场 —— 我国...