四行代码让大模型上下文暴增3倍,羊驼Mistral都适用
量子位
2024-01-08 21:55:48
0

原标题:四行代码让大模型上下文暴增3倍,羊驼Mistral都适用

克雷西 发自 凹非寺

量子位 | 公众号 QbitAI

无需微调,只要四行代码就能让大模型窗口长度暴增,最高可增加3倍!

而且是“即插即用”,理论上可以适配任意大模型,目前已在Mistral和Llama2上试验成功。

有了这项技术,大模型(LargeLM)就能摇身一变,成为LongLM。

近日,来自得克萨斯农工大学等机构的华人学者们发布了全新的大模型窗口扩展方法SelfExtended(简称SE)

在Mistral上,研究者在24k长度的文本中随机插入5位数字让模型搜索,结果经SE处理后,呈现出了全绿(通过)的测试结果。

而未经处理的版本,在6k长度时就已经开始“见红”了。

GitHub Copilot主创Alex Graveley也激动地宣布,在Llama2上进行的实验同样取得了成功。

在网友的进一步询问之下,Alex解释了推文中“work”的具体含义:原先在4k长度时就会出现的噪声,现在已经消失了。

而对于SE窗口长度的极限,一位根据论文复现SE代码的大佬表示,理论上(只要算力足够)可以达到无限长。

那么,SE具体能达到什么样的效果呢?

长文本能力显著增强

在窗口长度从4096增长到16384的过程中,Llama 2的困惑度从一开始变飙升了两个数量级。

但使用SE后,文本长度变成了原来的4倍,困惑度却只增加了0.4。

而在Mistral上,SE比Mistral自身采用的滑动窗口(SWA)机制带来了更低的困惑度。

左下图使用对数坐标

在专为长文本模型设计的LongBench数据集中,SE处理后的模型在单/多文档问答、总结、少样本学习、代码等任务中,评分均相比起原始版本有所提升。

特别是在一个名为SOLAR的模型上,处理后的模型在16k长度下的表现比原始版本在4k长度下的表现还要优异。

SOLAR由两个羊驼掐头去尾拼接而成,这种拼接的方式,使得其注意力层结构与其他基于Transformer的模型形成了一定差异。

同时,在GSM等由考试题组成的闭域问答任务中,SE优化后的模型也都相比原始版本取得了更高的平均成绩,在Mistral上稍逊于其自身的SWA方法。

而长文本能力的增强,并没有带来模型在短文本上的能力下降。

在HuggingFace的OpenLLM基准下,SE版Llama2的测评成绩相比原版均为发生显著降低。

目前,SE的开箱即用版支持Phi、Llama和Mistral三种模型,在这三种模型上只需4行代码就能进行窗口扩增。

对于其他模型,则需要对代码进行一定修改。

那么,SE是如何给模型增加窗口长度的呢?

两种注意力机制共同作用

研究者认为,长文本能力是大模型本身就具有的,但需要通过一定方法激发才能实现。

其中最主要的问题是,大模型在处理长文本时,会遇到相对位置编码超出训练时所见范围的情况。

针对这一情况,作者采用了FLOOR注意力机制作为解决策略。

FLOOR对输入的文本序列进行分组,然后用组数对某一token的绝对位置做取整除,就可以长距离将映射到较短的范围。

然后,对这些映射值进行注意力运算,就解决了位置编码超限的问题,实现了长文本的处理。

而在处理中短长度文本时,仍然使用模型原有的注意力机制,从而确保了模型不会“顾此失彼”,避免因长文本能力的增长导致短文本能力损失。

此外,在Mistral上复现SE的作者还坦言,目前该模型并不完美,可能存在计算量暴增的问题。

同时,SE的原作者也说,目前SE方法的确还没有做过效率方面的优化,未来计划通过引入FlashAttention机制等策略来解决这一问题。

论文地址:

https://arxiv.org/abs/2401.01325

点这里👇关注我,记得标星哦~

一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~

相关内容

热门资讯

小程序商城制作平台哪家好? 大... 2025年最靠谱的小程序商城制作平台推荐,全是干货! 最近好多朋友问我,想做个小程序商城,但不知道选...
2025年华为2000元档最值... 系列:年轻用户的性价比之选 2025年的华为nova系列在2000元价位段依然保持着强劲的竞争力。最...
原创 1... 要说当下移动端领域的芯片霸主,高通骁龙当之无愧。而对于ChinaJoy这样兼具数码和娱乐属性的盛会,...
2025 年 8 款 VIVO... 在职场中摸爬滚打的朋友们大概都清楚,录音转文字这项功能简直是刚需。无论是重要的会议需要记录关键要点,...
汽车卷“测试”,却把车主当傻子... 文 | 智能相对论 作者 | 云途 你以为 理想i8 一辆家用SUV撞塌一辆重型卡车 已经够夸张了 ...
政务数字人平台|AI数字人_大... 在“人工智能+”战略深入实施的背景下,政务服务正迎来智能化转型的关键节点。道可云依托在AI、元宇宙、...
原创 岚... 8月4日消息,除了岚图知音之外,岚图还有一款接下来要发布的新车,那就是岚图追光L,现在,这款车的谍照...
方程豹OTA正式推送:钛3支持... 快科技8月4日消息,方程豹汽车于今日正式推送全新OTA升级包,涉及豹5天神版、钛3全系车型。 此次更...
硬件崛起:康迪发力“科技出海新... 来源:媒体训练营 7月26日至28日,上海2025世界人工智能大会召开,这届大会整个展出的前沿产品达...
AI手机的正确打开方式!华为畅... 在科技飞速发展的今天,手机早已成为人们生活中不可或缺的一部分。面对市场上琳琅满目的手机产品,如何挑选...
德科隆取得高压试压工装专利,用... 金融界2025年8月4日消息,国家知识产权局信息显示,德科隆(无锡)流体控制有限公司取得一项名为“一...
破除形式主义,莫让科研人员被订... 公众期待的是实验室里诞生的纳米级突破,而不是档案袋里闪闪发光的不锈钢订书钉 。 ▲ 资料图:科研人...
广州智能驾驶装备工作指引正在编... 【CNMO科技新闻】近日,广州市正积极编制智能驾驶装备工作指引,旨在从全市全域层面推动多种类型、多种...
原创 汞... 在元素周期表中,黄金和汞分别是79号元素(Au)和80号元素(Hg),这也就意味着,黄金原子核内有7...
Tim Cook:苹果将继续高... 编译/VR陀螺 库克本周在苹果2025财年第三季度财报电话会议上告诉投资者: “我对团队发布的vis...
照亮百姓智能化生活——访全国政... 《 人民政协报 》 2025年08月04日 第4版 林孝发(左一)在车间检查产品。 林孝发 全国...
AI虚拟细胞开启生物研究新范式 细胞是孕育生命的微小单元。细胞内部及其与外部之间物质、能量和信号的传递与交换,构建出人类生长、发育、...
华磁磁电取得磁芯用生产下料一体... 金融界2025年8月4日消息,国家知识产权局信息显示,天长市华磁磁电有限公司取得一项名为“一种磁芯用...
地铁建设迎来新助手:板类混凝土... 建筑行业长久以来面临的一个挑战是混凝土振捣作业的高度人工依赖性,这不仅导致劳动强度巨大、效率低下,还...
破壁AI时代人才困局 “产学研... 东方网记者刘轶琳8月3日报道:日前,上海交通大学上海高级金融学院(高金)与上海交通大学人工智能学院于...