PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 1월 28일

Gemini 3 Flash - Agentic Vision

Google의 Gemini 3 Flash에 추가된 Agentic Vision 기능. 이미지를 단순히 '보는' 게 아니라 Think→Act→Observe 루프로 능동적으로 '조사'함. 코드 실행으로 이미지를 확대/크롭/분석하며 추론 근거를 시각적으로 제시. 비전 벤치마크에서 5-10% 성능 향상. GPQA Diamond 90.4%, SWE-bench 78% 달성.

본문 읽기원문 보기

발행일

2026년 1월 28일

업데이트

2026년 2월 3일

주제

트렌드
API
원문 보기

Gemini 3 Flash - Agentic Vision

핵심 컨셉: 이미지를 단순히 '보는' 것이 아니라 능동적으로 '조사'하는 새로운 비전 패러다임

작동 방식 - Think→Act→Observe 루프:

  1. Think: 이미지 분석 계획 수립
  2. Act: 코드 실행으로 이미지 확대/크롭/주석 추가
  3. Observe: 결과를 컨텍스트에 추가하여 추론 근거 시각화

주요 기능:

  • 코드 실행 기반 이미지 조작: Python으로 직접 캔버스에 그리기
  • 고해상도 입력 반복 검사: 특정 패치를 크롭해 새 이미지로 분석
  • 시각적 근거 제시: 추론 과정을 이미지에 직접 표시

성능:

  • 비전 벤치마크 5-10% 성능 향상
  • GPQA Diamond: 90.4%
  • SWE-bench Verified: 78%
  • Humanity's Last Exam: 33.7%

실제 사례: PlanCheckSolver.com - 건축 도면 검증 플랫폼에서 코드 실행으로 5% 정확도 향상

사용처: Google AI Studio, Vertex AI API, Gemini 앱(Thinking 모드 선택)

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 19일ChatGPT Enterprise spend controls — AI 도입의 병목이 모델 접근에서 비용 거버넌스로 이동OpenAI는 2026년 6월 18일 ChatGPT Enterprise에 credit usage analytics와 업데이트된 spend controls를 도입해 관리자에게 사용자·제품·모델별 사용량과 비용 가시성을 제공한다고 발표했다.2026년 5월 23일Honeycomb Agent Observability — 에이전트 운영 경쟁이 프롬프트 품질에서 trace 재구성과 조사 자동화로 이동Honeycomb는 2026년 5월 12일 Agent Timeline, Canvas Agent, Canvas Skills를 포함한 Agent Observability 기능군을 공개했다. 이 기능은 LLM call, tool invocation, agent handoff, downstream system impact를 하나의 production observability layer에서…2026년 5월 11일Databricks Unity AI Gateway — 에이전트·LLM·MCP를 하나의 거버넌스 계층으로 묶는 플랫폼화Databricks는 2026년 5월 6~7일 기준 문서 업데이트를 통해 Unity AI Gateway와 새 agent/MCP 문서를 전면 공개했다. 이 Beta 계층은 LLM endpoint, coding agent, MCP server를 하나의 control plane에서 관리하고, multi-agent orchestration 템플릿은 OpenAI Agents SDK 기반으로…2026년 5월 11일Stable Animation SDK — 생성형 이미지 모델 경쟁이 정적 이미지에서 프로그래머블 모션 파이프라인으로 확장Stability AI는 2026년 5월 11일 Stable Animation SDK를 발표했다. 이 SDK는 Stability의 animation endpoint를 통해 text-to-animation, image+text-to-animation, video+text-to-animation 세 경로를 제공하며, Stable Diffusion 2.0과 SDXL 계열 모델을 개발자용…