果揭秘LLM“超级权重”删掉就会胡说八道k8凯发国际入口001%参数定生死!苹
如表3所示☆■…•=,在与FP16◆□-、Naive W8A8◇…、SmoothQuant三种模型量化方法的比较中•▷☆,就近取整量化虽然效果略次于SmoothQuantk8凯发国际官方入口☆●-,但优于Naive W8A8△▽○☆◆,尤其是在不需要校准数据的前提下▲◇▽▽▪,实用性更强◇▷。
其中影响量化质量的○□★••△果揭秘LLM“超级权重”删掉就会胡说八,是一种重要的指标离群值(outliers)•…▽▲▪●。研究人员将超级权重和超级激活统称为超级离群值▷▽◆☆▽。
即使超级权重数量最多的模型(例如Phi-3-mini-4k-instruct)也只包含六个★▷▪▼=☆。
图2-I中蓝紫色方框中展示了超级权重的触发●◇=,它通常出现在较早层的down projection(降维投影)…◁=。
如图7◇☆•,蓝线RTN显示=△-▲▼,如果不处理超级权重☆•=●,随着量化块变大▲◆…◇◇=,模型性能急剧下降=☆;紫线Ours表示△◆=,如果恢复超级权重▽▲▼,模型准确率下降更平缓=□◇,即使大块量化也能维持较好性能…★☆▽☆•。
近日▽○☆•,苹果研究人员在论文《大语言模型中的超级权重》(The Super Weight in Large Language Models)中-☆,将上述现象■▷•,称为「超级权重现象」…•◇△•。
在该项研究中◆◇▼▼,研究人员考虑的是一种最简单的量化形式——即非对称的就近取重量化(asymmetric round-to-nearest quantization)-▼…○■:
这些都将帮助我们解锁…▷…■,构建更高效▽=○▼▷、更稳健○▲△、更可解释大模型的创新方法▪■●,让大模型告别「炼丹玄学」○○•。
想要部署在移动端等一些低预算◇△▪••◁、资源受限等环境中☆▲道k8凯发国际入口001%参数定生死!苹,如果把超级权重剪掉◇▽□■○,带有超级权重的原始Llama-7B▽•◇,研究人员发现□☆=,超级激活会在随后的所有层中以相同的幅度★▲◁、相同的位置持续存在◆△=○…,大模型庞大的体格(动辄数十亿甚至数千亿参数)☆-□=,
往往会面临巨大挑战◇☆。就像把大象塞进冰箱▷▽□,能顺利接着生成合乎逻辑的内容…=-•●。即便是只有0•▽.01%-=◆▽,仍可能包含数十万权重▷=■…•□。移除超级权重会导致停用词概率增加2-5倍◇▼○○○,图4表示□…◇▪▷=,极少量的参数□=▽●▷。
研究人员认为k8凯发国际官方入口◆△▼○,与需要处理数十万离群权重的方法相比◆▲★,这无疑是一种更友好的硬件方案=★=-■。
Mengxia Yu是圣母大学计算机专业博士生●■☆-△-,此前在北京大学获得计算语言学学士学位▪◆△…○-,本论文是她在苹果公司实习期间完成的■○▲。
超级权重▲○•◆,会诱发相应稀有且幅度巨大的激活离群值☆•▽△,研究人员将之称为super activations(超级激活)▽△•=••。
又或者使大模型的零样本学习准确率降低到「瞎猜」的水平…△•☆▽,这意味着大模型的智能也几乎废掉了◁●…▲•凯发游戏汇一体机,。
同样▲◆-○●○,如果在保留超权重的同时…●■…▪,对其他权重异常值进行裁剪==◁•▼,就近取整量化▷◁□••,也可以实现更好的压缩比••●△■。
毫无疑问□•☆●,进一步探索超级权重与超级激活的起源及其精确机制=★,将对LLM的运行动态□◇,带来更深入的洞见•▷☆▷。
图2-Ⅲ中表示☆•=•,在最终的输出logits(预测分布)里◆☆▷△○,超级激活会产生压制停用词(stopwords)的效果•▽。
更为合理的做法☆▲■★•,是让大模型「科学瘦身」-■▲☆•,比如缩小模型的规模和计算复杂度▪★□,从而降低内存与功耗◇△△•○…。
研究人员对Llama-7B的分析显示▲☆,AWQ将超级权重放大了12倍……,这印证了他们对超级权重重要性的判断◆=。
但是◇◇•★-,如果保留这些极少量参数•▷-■,即使删掉成千上万其他参数▽…●◆▪▲,大模型的智力依然在线◁▲•◆,几乎看不出有什么影响○•。
本文为澎湃号作者或机构在澎湃新闻上传并发布○☆□,仅代表该作者或机构观点□●,不代表澎湃新闻的观点或立场▼☆☆…,澎湃新闻仅提供信息发布平台◆=★。申请澎湃号请用电脑访问◇□☆■▷。
超级离群值☆●●▲,为人们认识大模型☆▷,改进大模型压缩技术□☆=▲,提供了一把重要的钥匙▼◇-▷。
它们通常是在超级权重之后出现--☆●●◇,并在随后的层中以一种恒定的幅度和位置持续存在◁△•■,而不受输入提示词的影响◆△☆□。
在模型压缩和简化过程中◇=,要避免碰到这些数量虽小◆…,却牵一发而动全身的「命门级」参数☆▪◇◁=,避免它们被显著修改(通过压缩)或被完全移除(剪枝)•▷■。
苹果研究人员发现•○…△,如果动了它们…▽,就可能破坏LLM生成连贯文本的能力□•▼…,比如让困惑度上升3个数量级•◆▷,这样大模型就几乎「读不懂」语言了◆•=。
比如…▪▽▪,一旦某个超级权重参与计算-▽▪=••,它会把输入信号放大成异常大的数值▲▽▲,于是紧接着的层中就出现超级激活▷■▪。
研究人员发现◇●▼◁•,只要以高精度保留超级激活☆○▽◇◆…,通过简单的就近取整(round-to-nearest)量化-•□◆--,也能将模型质量提升到与当前最先进方法相当的水平=◆。
即使它们的比例可以小到0◁-.01%◆△◆=,但对于拥有数十亿参数的模型•▲◆…☆●,仍然意味着有数十万个单独权重=■◆○▷◆。
为了促进公开研究▷○△□•□,研究人员还将一部分常见▲□◁▲◁★、公开可用的LLM超级权重标记了出来▪△▷,如下表2▪◆:
原标题●☆▲▽:《0□-△▷◇◇.01%参数定生死▽★△▪!苹果揭秘LLM「超级权重」●◁▷▲▽,删掉就会胡说八道》
在图3中▲=•,down_proj输入在层2中★=,仅有一个大幅度的激活值(super activation)▽■■▷▽,这是超级激活首次出现的地方★…。
为了全面展示超级权重的影响★◆=,研究人员将研究范围扩大到更多大模型▪-…:OLMo(1B和7B版本)△●▼□△、Mistral-7B以及Llama-2-7B○○。
在实际应用中△▼◁◇◆,但只要砍掉树干上的一个关键节点(核心参数)●◁◆•-,剪掉树(大模型)的几千片叶子(冗余参数)不会伤筋动骨★▪◁▪•▪,这在各种LLMs中都存在…▽○◇□。以及超级激活的传播机制■…□。超级激活的强度会下降75%▷▲▪▽◆。
这好比扩音器的噪音通过音响的电路一路传到所有扬声器★▽■,无论后续放什么音乐□•▽★★,那个噪音始终存在◆□◆。
通过超级激活来定位超级权重••:利用检测向下投影输入和输出分布跨层中的尖峰来定位超级权重▪=☆☆▪。
从另一个角度看○▽▪□-○,在更广泛的模型架构和训练范式中•▼•▷○,展开对超级权重的研究◁◆,也有助于揭示它们的角色和形成机制•▷-▪◁。
如上图1左侧显示○▲•★,展示了超级权重触发超级激活◇◁△◇,如果拿一棵树比喻□▪■◇,研究人员还通过图2○-•□▲□,对于拥有数十亿参数的模型◁…☆◁△,一旦在第2层被触发●▷▪-△☆。
【新智元导读】苹果研究人员发现★◆◇☆◆,在大模型中-◆◇,极少量的参数=▼○▼△-,即便只有0▷•○•.01%▪★●,仍可能包含数十万权重○•□●…,他们将这一发现称为「超级权重」▪◆◁■◆。超级权重点透了大模型「命门」▽•…,使大模型走出「炼丹玄学」▲◁。
而在图1右侧-○☆…,当超级权重参数被剪枝后○◆,Llama-7B就开始胡言乱语▪▼★◁,生成的全是毫无意义的文本=◆■△◁。
这说明◇□,只要针对单个超级权重进行特殊处理■•,就能显著提高量化的稳定性和可扩展性▷▷。
如果只是简单粗暴的等比压缩或简化▼▼□,就好比削足适履=■□■,只会导致模型质量显著下降△◇。
这也使得强大的LLM应用=△△,在资源受限的硬件上部署和高质量运行…••△,成为可能☆▪…◆。
在删掉极少量参数后•●●,大模型立刻变得胡言乱语起来○▪◇,在零样本任务中只会瞎猜◇…,原来的那股聪明劲儿全没了•▽▪。
整棵树可能就死掉了◁▷△。苹果研究人员将称这个单标量权重为超级权重(super weight)◆☆□★…△。而不受输入的影响•■▽▽……。
图2-Ⅱ中表示超级激活通过跳跃连接传播▪▽-▲◇,用蓝紫色线表示▪●☆□,它表示激活不是一次性消失▲-=▼=△,而是层层跳跃传播下去◇▲☆•。
同样的▲★•▼=,理解这些超级权重参数▽◆,如何在训练过程中获得如此「超级」的影响力•◆●▲,也可以为未来的模型设计★▼△、训练策略提供更有针对性的指导■□★=◁。




