Visual-ERM: Reward Modeling for Visual Equivalence

Ziyu Liu, Shengyuan Ding, Xinyu Fang, Xuanlang Dai, Penghui Yang et al.|March 13, 2026arXiv

Key Takeaway

Fine-grained visual feedback—comparing what code actually renders versus what it should render—is more effective for training vision-to-code models than text-based or embedding-based rewards, and avoids reward hacking.

Summary

This paper introduces Visual-ERM, a reward model that judges the quality of vision-to-code outputs by comparing rendered visuals directly rather than using text rules or embeddings.

multimodal reasoning

Key Terms

reward-model vision-to-code-generation reinforcement-learning reward-hacking multimodal-generative-reward-model