Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Preference Optimization

Preference Optimization

techniques

A training method that learns from pairwise comparisons between solutions rather than explicit reward signals.

Related Capabilities

Instruction Following

Adhering to complex, structured, or constrained instructions

Preference Optimization — Glossary — ThinkLLM