Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

Jacky Kwok; Xilun Zhang; Mengdi Xu; Yuejiang Liu; Azalia Mirhoseini; Chelsea Finn; Marco Pavone

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

Jacky Kwok* Stanford University

Xilun Zhang* Stanford University

Mengdi Xu Stanford University

Yuejiang Liu Stanford University

Azalia Mirhoseini Stanford University

Chelsea Finn Stanford University

Marco Pavone Stanford, NVIDIA

Preprint, 2026

CoVer-VLA introduces a contrastive verifier for vision-language-action alignment, demonstrating that scaling test-time verification yields larger gains than scaling policy pre-training.

Materials

Paper
Codebase
Models

Bibtex

@misc{2026covervla,
  title = {Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment},
  author = {Jacky Kwok and Xilun Zhang and Mengdi Xu and Yuejiang Liu and Azalia Mirhoseini and Chelsea Finn and Marco Pavone},
  booktitle = {Preprint},
  year = {2026},
}

Scaling Intelligence Lab

Scaling Verification Can Be More Effective than Scaling Policy Learning for Vision-Language-Action Alignment

Materials

Bibtex