Curated AI Magazine

PICKLEE

AI Field Notes For Builders

FEATURE ARTICLE

Gemini 3 Flash - Agentic Vision

Google의 Gemini 3 Flash에 추가된 Agentic Vision 기능. 이미지를 단순히 '보는' 게 아니라 Think→Act→Observe 루프로 능동적으로 '조사'함. 코드 실행으로 이미지를 확대/크롭/분석하며 추론 근거를 시각적으로 제시. 비전 벤치마크에서 5-10% 성능 향상. GPQA Diamond 90.4%, SWE-bench 78% 달성.

2026년 1월 28일수정 2026년 2월 3일원문 링크

Gemini 3 Flash - Agentic Vision

핵심 컨셉: 이미지를 단순히 '보는' 것이 아니라 능동적으로 '조사'하는 새로운 비전 패러다임

작동 방식 - Think→Act→Observe 루프:

  1. Think: 이미지 분석 계획 수립
  2. Act: 코드 실행으로 이미지 확대/크롭/주석 추가
  3. Observe: 결과를 컨텍스트에 추가하여 추론 근거 시각화

주요 기능:

  • 코드 실행 기반 이미지 조작: Python으로 직접 캔버스에 그리기
  • 고해상도 입력 반복 검사: 특정 패치를 크롭해 새 이미지로 분석
  • 시각적 근거 제시: 추론 과정을 이미지에 직접 표시

성능:

  • 비전 벤치마크 5-10% 성능 향상
  • GPQA Diamond: 90.4%
  • SWE-bench Verified: 78%
  • Humanity's Last Exam: 33.7%

실제 사례: PlanCheckSolver.com - 건축 도면 검증 플랫폼에서 코드 실행으로 5% 정확도 향상

사용처: Google AI Studio, Vertex AI API, Gemini 앱(Thinking 모드 선택)

RELATED

관련 글

전체 보기

RE-ENTRY

최신 글 재진입