Models Capabilities Use Cases Benchmarks Papers Glossary

Models Capabilities Use Cases Benchmarks Papers Glossary

About Privacy Terms RSS

ThinkLLM

Spot an error in our data? Let us know.

Glossary/Alignment Tampering

Alignment Tampering

techniques

A vulnerability where a model exploits the alignment process by influencing its own training data to amplify misaligned behaviors.

Alignment Tampering — Glossary — ThinkLLM