Unified Policy Value Decomposition for Rapid Adaptation

Cristiano Capone, Luca Falorsi, Andrea Ciardiello, Luca Manneschi|March 18, 2026arXiv

Key Takeaway

By decomposing policies and value functions into frozen basis functions weighted by a shared low-dimensional goal embedding, agents can adapt to novel tasks instantly without retraining, enabling rapid transfer in complex control problems.

Summary

This paper presents a method for quickly adapting reinforcement learning agents to new tasks by sharing a low-dimensional goal embedding between policy and value functions.

efficiency reasoning

Key Terms

goal-embedding bilinear-decomposition successor-features gain-modulation soft-actor-critic