当前位置：网站首页 » 观点 » 内容详情

logits权威发布_logits api(2024年12月精准访谈)

内容来源：卡姆驱动平台所属栏目：观点更新日期：2024-12-01

logits

[CL]《SLED: Self Logits Evolution Decoding for Improving Factuality in Large Language Models》J Zhang, D Juan, C Rashtchian, C Ferng… [Duke University & Google Research] (2024)网页链接「机器学习」「人工智能」「论文」

知识蒸馏的7种方法，你知道几种？知识蒸馏是一种将一个学生模型训练成复制更大、更复杂模型（教师模型）行为的方法。以下是几种常见的知识蒸馏方法：基于logit的蒸馏 𐟓ˆ 在这种方法中，学生模型被训练模仿教师模型生成的软目标（logits），而不是硬标签。使用温度参数来平滑logits。损失函数通常是标准分类损失（如与真实标签的交叉熵损失）和蒸馏损失的组合，后者最小化学生和教师logits之间的差异。这种方法实现简单，且在知识转移方面非常有效。不过，学生仅从教师的输出中学习，忽略了中间特征或表示。基于特征的蒸馏 𐟔 这种方法不仅训练学生在教师的logits上学习，还训练他们在教师的隐藏层中间特征表示或注意力图上学习。教师的中间特征图（来自特定层）与学生的对应层对齐，使用L2损失等损失函数。这迫使学生学习教师所编码的内部知识，帮助学生通过模仿教师的内部知识学习更细化的内部表示。不过，可能需要额外的设计选择，例如选择对齐的层，使其实现比基于logit的蒸馏更复杂。基于提示的蒸馏 𐟒ከ🙧獦–𙦳•是特殊形式的基于特征的蒸馏，教师提供某些隐藏层的提示，学生被训练以匹配这些中间表示。学生试图使用单独的损失项匹配教师层输出（提示）。这种方法允许学生从教师的知识层次中获取多个级别的指导，通过提供中间监督，有助于提高学生的性能。不过，需要仔细选择哪些教师模型的隐藏层作为提示。基于注意力的蒸馏 𐟧 在这种方法中，从教师模型中提取注意力图或梯度，并将其蒸馏到学生模型。这在像BERT或GPT这样的基于变换器的模型中尤其有效，因为注意力图在性能中起着关键作用。学生模型被训练以模仿教师模型的注意力图或注意力分布。在基于变换器的架构中效果良好，注意力对于理解任务至关重要。不过，计算开销大，可能需要匹配教师和学生之间的注意力机制。自蒸馏 𐟤– 在自蒸馏中，一个模型同时充当教师和学生。学生通常是教师的一个较浅版本，或使用教师的早期层作为其自己的指导。任务特定的蒸馏 𐟎’𘩦技术可以针对特定任务进行调整。渐进式蒸馏 𐟏𗯸 在渐进式蒸馏中，该过程被分解为多个阶段。多教师蒸馏 𐟑袀𐟏밟‘颀𐟏능䚤𘪦•™师模型为单个学生模型提供知识。学生被训练以学习多个教师的知识的组合。通过这些方法，知识蒸馏可以帮助学生模型更好地学习和理解教师模型的知识。

LLM推理加速新框架：“美杜莎”头亮相 𐟔 在LLM推理加速的领域，一个名为“美杜莎”的新框架崭露头角。它利用了投机采样的思想，通过小模型（draft）和大模型（target）的结合，来提升推理速度。 𐟤– 小模型与大模型的“对齐”是关键。通常，小模型需要与大模型属于同一系列（如Flan-T5、Llama、OPT等），以便更好地“猜中”大模型生成的简单token。然而，小模型的使用和维护也带来了一定的成本。 𐟒ᠩ’ˆ对这一问题，美杜莎提出了一种One model的解决方案，即LLM自行产生draft并进行验证。这一方法的核心在于，LLM在原有lm_head的位置添加多个Medusa head，每个head都用于预测下一个token。这样，Medusa头可以预测下一个、下下一个等token。 𐟔 如何验证这些预测呢？首先，LLM生成各个Medusa头的预测，但无法直接确认其准确性。通过forward一次得到各个头的logits，并使用argmax得到各个头所预测的token。将这些token作为query，利用KVcache进行错位校验，验证每个位置的正确性。验证正确的token将作为下一轮的输入。 𐟌𓠥楤–，美杜莎还引入了多候选+Tree Attention机制。每个Medusa head进行多次采样，产生多个候选结果，从而提高大模型的验证通过率。Tree Attention通过mask限制一个token只对前一个token有注意力，使得多个候选可以同时进行验证。 𐟓š 最后，美杜莎提供了两种训练方式：仅训练Medusa head；或同时训练LLM和Medusa head。这两种方式都展现了美杜莎在LLM推理加速方面的潜力。 𐟌 美杜莎框架的创新之处在于其self-draft的方式，以及speculative decoding的应用。它不仅提升了推理速度，还保留了draft+target的优点，如无需额外训练即可使用。对于关注MoE投机采样的研究者来说，美杜莎无疑是一个值得关注的领域。

多模态大模型幻觉缓解新方法：对比解码 𐟌Ÿ今天我们来介绍一篇通过对比解码来缓解多模态大模型幻觉的新工作——Re-Balancing Contrastive Decoding（RBD）。 𐟧简单来说，这篇文章在正常解码的基础上，引入了两个对比解码分支： 1️⃣ 第一个分支的目标是减少文本偏差，通过在输入图像上添加随机噪声来实现； 2️⃣ 第二个分支的目标是增强图像中的重要信息，通过mask掉重要性低的部分来实现； 3️⃣ 最后，输出logits=原始logits-分支1 logits + 分支2 logits（具体实现中有系数，见p1）。 𐟓š论文：《Mitigating Hallucination in Visual-Language Models via Re-Balancing Contrastive Decoding》 𐟒𛦖𙦳•：上文已概括(p1)，两个对比分支的具体计算方式见p2 𐟚€实验效果：如p3，显著减缓LLaVa、MiniGPT-4在CHAIR和POPE数据集上的幻觉，好于OPERA、DOLA和VCD；对VQA和MMB等通用benchmark上的表现无显著影响或略有提升。

[利用思维链隐式提升LLM的通用推理能力] 斯坦福的Quiet-STAR（Q-STAR）动机：之前已经有很多工作提出基于思维链提升模型的推理能力，但基本都是在推理阶段希望通过prompt输出CoT，从而提升infer阶段的prediction效果。本文的motivation是，在学习（阅读）一篇文章的时候，如果不知道它为什么这么写，那么对这个文本的理解就不会很深刻；因此希望在给定这篇文章的情况下（即上下文是固定的），在每个token处推断为什么下一个token是这么写的，通过这种逆向reasoning的能力，优化LLM的prediction（图1）。方法：给定golden文本X，在每个token处干三件事：Think，Talk，Learn。 ①Think：生成预测下一个位置的thought；（如图1） ②Talk：将【LLM的本身对下一个token的预测logits(w/o thought)】和【把thought加入了上下文后对下一个位置的预测logits（with thought）】进行插值计算，获得下个token的最终logits ③Learn：模型有两个优化目标，一是最大化上面的token生成logits，二是通过强化学习来给【那些对最终生成prediction有效的thoughts】以正向reward；（有效的thoughts如何度量？——通过with和w/o thoughts的模型logits diff大小来衡量）；（整个过程见图2算法）注意这篇文章的动机和之前的大多reasoning文章还是很不一样的。之前的文章都是希望通过reasoning的CoT来提升接下来生成的文本的质量。而这篇文章主打在自学中深入思考，希望将reasoning能力隐式地内化到LLM的通用预测能力中。这篇文章很早就在购物车了，然后就一直看不下去了，因为写的实在是太晦涩了。motivation、术语定义、实验描述都没有定义的很清楚。看了OpenReview上的reviewer评论，几个reviewer也是各种没看懂被带跑偏的样子。不过整体思路还是比较impressive的。论文：网页链接

专栏内容推荐

1280 x 853 · png
Mastering the Concept of LOGITS in Machine Learning
素材来自:tobaml.hashnode.dev
2560 x 1667 · png
tf.nn.softmax_cross_entropy_with_logits中的“logits”到底是个什么意思？_tf.nn.softmax的logits-CSDN博客
素材来自:blog.csdn.net

1980 x 1060 · jpeg
Aman's AI Journal • Token Sampling Methods
素材来自:aman.ai

500 x 500 · png
from_logits=True | What does it mean? | by Hithesh Jayawardana | Medium
素材来自:medium.com
850 x 1377 · png
Visualization of logits and confusion matrices. Twenty sample logit... | Download Scientific Diagram
素材来自:researchgate.net

1674 x 906 · jpeg
from_logits True и from_logits False получают разные ...9X
素材来自:xxxxxxxxx.ru

2522 x 697 · png
Standardized Max Logits
素材来自:awesomeopensource.com

7559 x 2788 · jpeg
Learning Generalizable Models for Vehicle Routing Problems via Knowledge Distillation | Papers ...
素材来自:paperswithcode.com

600 x 400 · jpeg
Logits Scales
素材来自:kk-leung.github.io
850 x 714 · png
Logits of the original speech (a), adversarial example (b) and raw... | Download Scientific Diagram
素材来自:researchgate.net

304 x 121 · png
神经网络中的logits是什么意思-CSDN博客
素材来自:blog.csdn.net
1600 x 840 · jpeg
Mastering the Concept of LOGITS in Machine Learning
素材来自:tobaml.hashnode.dev

850 x 399 · png
Visualizing high-dimensional logits via a principal component analysis:... | Download Scientific ...
素材来自:researchgate.net

2000 x 920 · png
Understanding Logits, Sigmoid, Softmax, and Cross-Entropy Loss in Deep Learning | Written ...
素材来自:wandb.ai

474 x 670 · jpeg
Logits are predictive of network type | DeepAI
素材来自:deepai.org
1920 x 906 · jpeg
Autobot, Maximal, and Terrorcon Insignias by MnstrFrc on DeviantArt
素材来自:deviantart.com

1814 x 1202 · png
＜class ‘torch.distributions.categorical.Categorical‘＞中属性probs和logits的计算方式_logits计算-CSDN博客
素材来自:blog.csdn.net
1315 x 1032 · png
＜class ‘torch.distributions.categorical.Categorical‘＞中属性probs和logits的计算方式_logits计算-CSDN博客
素材来自:blog.csdn.net

1702 x 714 · png
Sampling for Text Generation
素材来自:huyenchip.com

801 x 737 · png
F.binary_cross_entropy_with_logits函数与F.binary_cross_entropy函数的关系（二分类问题） - BooTurbo - 博客园
素材来自:cnblogs.com
344 x 359 · png
python - What are logits? What is the difference between softmax and softmax_cross_entropy_with ...
素材来自:stackoverflow.com

1113 x 1108 · png
＜class ‘torch.distributions.categorical.Categorical‘＞中属性probs和logits的计算方式_logits计算-CSDN博客
素材来自:blog.csdn.net
1200 x 630 · jpeg
[Solved] how to convert logits to probability in binary | 9to5Answer
素材来自:9to5answer.com

2000 x 631 · png
Understanding Logits, Sigmoid, Softmax, and Cross-Entropy Loss in Deep Learning | Written ...
素材来自:wandb.ai

1045 x 311 · jpeg
(5/100) Standardized Max Logits - 知乎
素材来自:zhuanlan.zhihu.com

640 x 640 · jpeg
Output logits distribution -on one image, across 120 label-texts ("a... | Download Scientific ...
素材来自:researchgate.net
850 x 661 · png
Mean original class logits for different models trained with empirical... | Download Scientific ...
素材来自:researchgate.net

3300 x 2100 · png
Logistic Regression in R: Logits, Odds, and Odds Ratios – Quantitative Quandaries
素材来自:quantitativequandaries.com
1312 x 908 · png
How to Implement the Logistic Sigmoid Function in Python - Sharp Sight
素材来自:sharpsightlabs.com

1272 x 852 · png
Logit vs Probit Models: Differences, Examples
素材来自:vitalflux.com
1222 x 814 · png
Solved Please select ALL of the choices below that are TRUE | Chegg.com
素材来自:chegg.com

素材来自:youtube.com

1108 x 647 · png
F.binary_cross_entropy_with_logits函数与F.binary_cross_entropy函数的关系（二分类问题） - BooTurbo - 博客园
素材来自:cnblogs.com
681 x 261 · png
Exploratory Analysis of TRLX RLHF Transformers with TransformerLens | EleutherAI Blog
素材来自:blog.eleuther.ai

1184 x 651 · png
tf.nn.softmax_cross_entropy_with_logits（）函数的使用方法_wx648a7da66bc78的技术博客_51CTO博客
素材来自:blog.51cto.com

素材来自:查看更多內容

当前用户设备UA：Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko; compatible; ClaudeBot/1.0; +claudebot@anthropic.com)