Gemini 3 Flash - Agentic Vision

Google의 Gemini 3 Flash에 추가된 Agentic Vision 기능. 이미지를 단순히 '보는' 게 아니라 Think→Act→Observe 루프로 능동적으로 '조사'함. 코드 실행으로 이미지를 확대/크롭/분석하며 추론 근거를 시각적으로 제시. 비전 벤치마크에서 5-10% 성능 향상. GPQA Diamond 90.4%, SWE-bench 78% 달성.

Gemini 3 Flash - Agentic Vision

핵심 컨셉: 이미지를 단순히 '보는' 것이 아니라 능동적으로 '조사'하는 새로운 비전 패러다임

작동 방식 - Think→Act→Observe 루프:

Think: 이미지 분석 계획 수립
Act: 코드 실행으로 이미지 확대/크롭/주석 추가
Observe: 결과를 컨텍스트에 추가하여 추론 근거 시각화

주요 기능:

코드 실행 기반 이미지 조작: Python으로 직접 캔버스에 그리기
고해상도 입력 반복 검사: 특정 패치를 크롭해 새 이미지로 분석
시각적 근거 제시: 추론 과정을 이미지에 직접 표시

성능:

비전 벤치마크 5-10% 성능 향상
GPQA Diamond: 90.4%
SWE-bench Verified: 78%
Humanity's Last Exam: 33.7%

실제 사례: PlanCheckSolver.com - 건축 도면 검증 플랫폼에서 코드 실행으로 5% 정확도 향상

사용처: Google AI Studio, Vertex AI API, Gemini 앱(Thinking 모드 선택)

Gemini 3 Flash - Agentic Vision

핵심 컨셉: 이미지를 단순히 '보는' 것이 아니라 능동적으로 '조사'하는 새로운 비전 패러다임

작동 방식 - Think→Act→Observe 루프:

Think: 이미지 분석 계획 수립
Act: 코드 실행으로 이미지 확대/크롭/주석 추가
Observe: 결과를 컨텍스트에 추가하여 추론 근거 시각화

주요 기능:

코드 실행 기반 이미지 조작: Python으로 직접 캔버스에 그리기
고해상도 입력 반복 검사: 특정 패치를 크롭해 새 이미지로 분석
시각적 근거 제시: 추론 과정을 이미지에 직접 표시

성능:

비전 벤치마크 5-10% 성능 향상
GPQA Diamond: 90.4%
SWE-bench Verified: 78%
Humanity's Last Exam: 33.7%

실제 사례: PlanCheckSolver.com - 건축 도면 검증 플랫폼에서 코드 실행으로 5% 정확도 향상

사용처: Google AI Studio, Vertex AI API, Gemini 앱(Thinking 모드 선택)

Gemini 3 Flash - Agentic Vision

Gemini 3 Flash - Agentic Vision

관련 읽을거리

Gemini 3 Flash - Agentic Vision

Gemini 3 Flash - Agentic Vision

관련 읽을거리