FEATURE ARTICLE
Gemini 3 Flash - Agentic Vision
Google의 Gemini 3 Flash에 추가된 Agentic Vision 기능. 이미지를 단순히 '보는' 게 아니라 Think→Act→Observe 루프로 능동적으로 '조사'함. 코드 실행으로 이미지를 확대/크롭/분석하며 추론 근거를 시각적으로 제시. 비전 벤치마크에서 5-10% 성능 향상. GPQA Diamond 90.4%, SWE-bench 78% 달성.
Gemini 3 Flash - Agentic Vision
핵심 컨셉: 이미지를 단순히 '보는' 것이 아니라 능동적으로 '조사'하는 새로운 비전 패러다임
작동 방식 - Think→Act→Observe 루프:
- Think: 이미지 분석 계획 수립
- Act: 코드 실행으로 이미지 확대/크롭/주석 추가
- Observe: 결과를 컨텍스트에 추가하여 추론 근거 시각화
주요 기능:
- 코드 실행 기반 이미지 조작: Python으로 직접 캔버스에 그리기
- 고해상도 입력 반복 검사: 특정 패치를 크롭해 새 이미지로 분석
- 시각적 근거 제시: 추론 과정을 이미지에 직접 표시
성능:
- 비전 벤치마크 5-10% 성능 향상
- GPQA Diamond: 90.4%
- SWE-bench Verified: 78%
- Humanity's Last Exam: 33.7%
실제 사례: PlanCheckSolver.com - 건축 도면 검증 플랫폼에서 코드 실행으로 5% 정확도 향상
사용처: Google AI Studio, Vertex AI API, Gemini 앱(Thinking 모드 선택)