Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Self-Distillation Policy Optimization (SDPO)

Self-Distillation Policy Optimization (SDPO)

techniques

A training method where a model learns from its own predictions at the token level, providing fine-grained feedback.

Self-Distillation Policy Optimization (SDPO) — Glossary — ThinkLLM