VLX-Go - lightweight vision-language waypoints for embodied navigation

Om AI Lab은 2026년 6월 28일 Hugging Face를 통해 VLX-Go를 공개했다. VLX-Go는 최근 monocular frame, 현재 관측, 자연어 instruction을 받아 robot controller가 실행할 short-horizon local waypoint를 예측하는 0.6B 규모 vision-language planner다.

배경 및 맥락

Embodied AI는 대화형 모델이나 이미지 이해 모델과 다른 배포 조건을 가진다. 로봇은 사용자의 목표를 이해하는 동시에, 움직이는 사람과 장애물, 카메라 시야 변화, 실제 구동 오차를 계속 반영해야 한다. 따라서 모델이 장면을 설명하는 것만으로는 부족하고, controller가 바로 사용할 수 있는 local goal이나 waypoint가 필요하다.

최근 캐시에는 General Intuition처럼 gameplay data를 action-model substrate로 보는 항목과 AI RFIC inverse design처럼 물리 세계 설계 bottleneck을 다룬 항목이 있었다. VLX-Go는 이들과 다르게 로봇 navigation loop 안에서 vision-language model이 어떤 control interface를 내보내야 하는지 다룬다.

핵심 내용

VLX-Go는 vision-language short-horizon waypoint prediction을 목표로 하는 embodied navigation 모델이다. 입력은 최근 visual history, 현재 frame, 자연어 instruction이며, 출력은 downstream controller나 simulator가 사용할 short-horizon waypoint sequence다. 모델은 전체 경로를 한 번에 계획하거나 text-only action을 내는 대신, 다음 몇 스텝의 local motion target을 반복적으로 예측한다.

공개 글에 따르면 VLX-Go는 0.6B 규모의 lightweight planner다. Navigation은 한 번의 추론이 아니라 closed-loop에서 반복 실행되므로, 작은 모델은 inference cost와 edge deployment 측면에서 의미가 있다. 학습은 offline trajectory data로 visual history, instruction, waypoint target의 대응을 학습한 뒤 online simulator feedback으로 collision, obstacle interaction, closed-loop drift 같은 failure mode를 보완하는 구조다.

경쟁 구도 / 비교

일반 VLM은 captioning, VQA, scene reasoning에 강하지만 로봇 제어에서는 출력 형식이 중요하다. 텍스트로 '왼쪽으로 이동'을 말하는 것과 controller가 실행 가능한 local waypoint를 주는 것은 다른 문제다. VLX-Go는 high-level planning과 low-level control을 분리해 모델은 waypoint를 예측하고 controller는 velocity command, safety constraint, platform-specific dynamics를 처리하도록 한다.

End-to-end policy나 global planner와 비교하면 VLX-Go의 장점은 책임 경계가 명확하다는 점이다. Simulator feedback과 safety layer를 별도로 붙일 수 있고, dynamic scene에서 이전 예측을 다음 관측으로 수정할 수 있다. 반대로 collision rate 개선, reward 설계, real robot deployment 검증은 여전히 별도 엔지니어링 과제로 남는다.

의미

산업적으로 robotics foundation model 경쟁은 더 큰 멀티모달 모델을 만드는 것만이 아니라, 인식 결과를 실제 제어 loop가 쓸 수 있는 중간 표현으로 바꾸는 방향으로 이동하고 있다. 이 interface가 안정되면 물류, 매장, 제조, 가정용 로봇에서 natural-language instruction과 기존 controller를 연결하는 비용이 낮아진다.

실무적으로 embodied AI 팀은 모델 benchmark를 offline QA나 visual grounding 점수로만 판단하면 안 된다. Success rate, tracking rate, collision rate, re-planning latency, simulator-to-real gap, fallback policy를 함께 계측해야 한다. 특히 사람 근처에서 움직이는 시스템은 planner 성능과 별개로 physical safety constraint를 controller 계층에서 독립적으로 강제해야 한다.

VLX-Go - lightweight vision-language waypoints for embodied navigation

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리

VLX-Go - lightweight vision-language waypoints for embodied navigation

배경 및 맥락

핵심 내용

경쟁 구도 / 비교

의미

관련 읽을거리