MoE
LoRA
模型训练
Llama
The Llama 3 Herd of Models

pretrainin
post-training
RL
SFT
DPO
Apple Intelligence Foundation Models
https://machinelearning.apple.com/research/introducing-apple-foundation-models

AFM-on-device模型参数量2.58B(0.15B embedding),推理速度是0.6 ms per prompt token
,30 token/s without token speculation。
优化点:
- Shared input/output embedding
- GQA: 24 query, 8 kv heads
- LoRA adpater on-the-fly,rank 16的adapter大小在10MB量级。
- 量化:4比特、2比特混合量化,总体小于4bits, 3.7bpw。GPTQ、AWQ。
- Accuracy recovery adapter
Device model用于:
- 便签中写作、校对、总结等场景。
- 邮件、短信、通知的优先级+紧急程度判断
- 邮件总结、回复、语气调整

DeepSeek
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning
https://arxiv.org/abs/2501.12948

论文要求:
- 只使用RL来强化自身能力,这是self-evolution,不需要人类给正确答案。少量cold start 数据(几千条)有帮助。
- 大的模型能过RL学习到的知识,小的模型(32B)无法通过RL学到,所以蒸馏更有用。

https://arxiv.org/abs/2402.03300





推理
Agent
2020-2025, Dean Revision
d5bef8d