Delta Knowledge Distillation for Large Language Models 将KD的对齐目标变为模型更新的变化量,而不是固定的token概率分布 2025-09-28 学习笔记 #LLM #KD
Massive Activations in Large Language Models 关于LLM中的异常大激活值,以及其与attention sink的关系,将其解释为模型中统一且固定的bias,挺有意思的 2025-09-21 学习笔记 #LLM
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation 序列推荐数据集的蒸馏,引入Tucker分解来缓解随数据集规模而增长的参数压力 2025-09-21 学习笔记 #Dataset_Condensation
BOND: Aligning LLMs with Best-of-N distillation 对Best-of-N的生成结果显式表示成一种策略,并蒸馏给模型,将N次推理成功压缩到一次 2025-08-18 学习笔记 #LLM #KD #RLHF
Evaluating Position Bias in Large Language Model Recommendations 推荐任务中,item的输入顺序可能会影响模型推荐结果 2025-08-11 学习笔记 #LLM
DATASET DISTILLATION VIA KNOWLEDGE DISTILLATION: TOWARDS EFFICIENT SELF-SUPERVISED PRETRAINING OF DEEP NETWORKS 利用KD在监督学习与自监督学习之间搭了一座桥,非常巧妙! 2025-08-11 学习笔记 #LLM #KD #Pruning
DA-KD: Difficulty-Aware Knowledge Distillation for Efficient Large Language Models 训练时,根据模型学习效果动态筛选数据集,dataset efficient 2025-08-04 学习笔记 #LLM #KD