Sophilex's Blog
  • Home
  • Archive
  • Category
  • Tags
  • About me
  • Friends
Why Exposure Bias Matters: An Imitation Learning Perspective of Error Accumulation in Language Generation

Why Exposure Bias Matters: An Imitation Learning Perspective of Error Accumulation in Language Generation

提出了两个指标来直观观察lm的Error Accumulation现象
2025-06-23
学习笔记
#LLM #KD
NOT ALL LLM-GENERATED DATA ARE EQUAL: RETHINKING DATA WEIGHTING IN TEXT CLASSIFICATION

NOT ALL LLM-GENERATED DATA ARE EQUAL: RETHINKING DATA WEIGHTING IN TEXT CLASSIFICATION

尝试通过引入sample-wise loss weight来缓解train-inference mismatch问题
2025-06-23
学习笔记
#LLM #KD
hexo+reveal指南

hexo+reveal指南

搭建markdown+js写slides的框架,并依托hexo进行展示
2025-06-12
配置笔记
#配置
Different Designs For LLM KD Loss

Different Designs For LLM KD Loss

关于LLM KD中loss的一些讨论
2025-06-10
slides
#LLM #KD
服务器转发流量至本地

服务器转发流量至本地

懒人福音
2025-05-22
配置笔记
#配置 #ssh
练琴有感

练琴有感

我要练琴!我要当大佬!
2025-04-27
杂想
#杂想
关于浮点数存储精度

关于浮点数存储精度

存储精度的误差是相对原数而言的,有点神奇
2025-04-09
学习笔记
#学习笔记 #计算机系统
bug聚集地

bug聚集地

记录遇见的各种奇怪bug
2025-02-28
bugs > linux
#tmux #linux
服务器炼丹手册

服务器炼丹手册

从0开始完成ssh连接以及各种配置,边学边补充
2025-01-08
配置笔记
#配置 #ssh
从REINFORCE到PPO

从REINFORCE到PPO

之前对RL如何处理奖励与策略耦合的情况很感兴趣,借此入门了RL,顺便学了下PPO
2025-01-01
机器学习
#学习笔记 #LLM #RL
1234

搜索

Hexo Fluid
京ICP证123456号 | police-icon 京公网安备12345678号
载入天数... 载入时分秒...