PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 6일수정 2026년 5월 6일원문

Gemini API File Search is now multimodal — RAG 경쟁이 text retrieval에서 multimodal evidence layer로 이동

Google은 2026년 5월 5일 Gemini API File Search에 multimodal support, custom metadata, page-level citations를 추가했다. 이제 텍스트와 이미지를 함께 색인·검색할 수 있고, metadata filter로 검색 범위를 줄이며, 응답마다 원문 페이지 단위 citation을 붙여 verifiable RAG를 구성할 수…

AI
Gemini
API
트렌드

배경 및 맥락

RAG는 이미 많은 AI 제품의 기본 아키텍처가 됐지만, 현장에서는 두 가지 한계가 반복적으로 드러났다. 첫째, 실제 업무 데이터는 PDF 텍스트만이 아니라 도표, 다이어그램, 스크린샷, 이미지 캡처처럼 복합 모달로 존재한다. 둘째, 검색 결과가 맞더라도 사용자가 원문 근거를 바로 확인할 수 없으면 신뢰와 채택이 떨어진다. 결국 RAG의 경쟁력은 더 많은 문서를 넣는 것이 아니라, 더 복합적인 자료를 더 좁고 검증 가능하게 찾는 데 있다.

Google의 이번 발표는 그 문제를 개발자 도구 레벨에서 직접 다룬다. File Search를 단순 파일 저장소가 아니라 multimodal evidence layer로 확장한 셈이다.


핵심 내용

Google은 2026년 5월 5일 Gemini API File Search에 세 가지 업데이트를 발표했다. 첫째, Gemini Embedding 2 기반으로 이미지와 텍스트를 함께 처리하는 multimodal search를 지원한다. 둘째, department: Legal, status: Final 같은 key-value metadata를 붙여 query time에 범위를 좁힐 수 있다. 셋째, 응답 결과를 원문 페이지 번호와 연결하는 page-level citations를 제공해 grounding과 투명성을 높인다.

이 조합은 실무에 직접적이다. 예를 들어 방대한 시각 자산 라이브러리에서 특정 감정 톤이나 스타일을 자연어로 찾거나, 대형 PDF 집합에서 답변이 나온 정확한 페이지를 바로 열어 검토할 수 있다. Google은 이를 efficient, verifiable RAG의 기반으로 제시했다.


경쟁 구도 / 비교

기존 RAG 제품 다수는 텍스트 chunking과 semantic search에 머물렀고, 시각 자료 처리는 별도 OCR 파이프라인이나 커스텀 전처리에 의존했다. 또한 citation이 있더라도 문서 단위에 그치거나 출처 연결이 거칠어 사람이 다시 찾는 비용이 컸다. 이번 업데이트는 multimodal indexing, metadata filtering, page-level evidence를 하나의 기본 툴 표면에 묶었다는 점에서 차별적이다.

이는 RAG 경쟁이 "더 잘 찾는가"에서 "더 설명 가능하게 찾는가"로 옮겨가고 있음을 시사한다. 특히 agent 시스템에서는 retrieval 단계가 action의 근거가 되므로 citation granularity가 운영 안정성과 직결된다.


의미

산업적으로는 enterprise knowledge stack이 생성 품질보다 evidence architecture를 더 중시하는 방향으로 이동하고 있다. 향후 RAG 플랫폼의 핵심 평가지표는 answer quality뿐 아니라 multimodal coverage, filterability, source traceability가 될 가능성이 높다.

실무적으로는 문서 QA나 internal search를 만드는 팀이 이미지 포함 데이터셋 설계, metadata schema, citation UX를 초기부터 함께 설계해야 한다. 좋은 RAG는 많이 아는 시스템이 아니라, 근거를 좁고 정확하게 꺼내 보여주는 시스템이 된다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 4월 30일

Prepay for the Gemini API to get more control over your spend — 에이전트 경제성이 기능보다 먼저 제품 표면으로 올라오다

Google은 2026년 4월 15일 Google AI Studio용 Gemini API Prepay Billing을 발표했다. 신규 Google Cloud Billing Account를 여는 미국 사용자부터 선불 크레딧 기반 결제를 쓸 수 있고, 자동 충전과 함께 남은 잔액을 기준으로 API 호출 비용을 관리하게 해 spend predictability를 높이겠다는 내용이다. 🔍 왜…

2026년 4월 5일

Google Gemma 4 공개 — Apache 2.0·256K 컨텍스트·멀티모달, 오픈 에이전틱 모델의 새 기준

Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다. 🔍 왜 주목해야 하나 Gemma 4는 Gemini 3와 동일한 연구 기반으로 제작됐으면서 상업 제한 없는 Apache 2.0으로…

2026년 4월 4일

Google Gemini 3.1 Flash Live 공개 — 실시간 음성 에이전트용 오디오 모델, ComplexFuncBench Audio 90.8%

Google은 2026년 3월 26일 Gemini 3.1 Flash Live를 공개하며 실시간 음성 대화용 모델을 Live API preview로 제공하기 시작했다. Google 발표에 따르면 이 모델은 ComplexFuncBench Audio에서 90.8%, Audio MultiChallenge에서 36.1%를 기록하며 다단계 함수 호출과 장기 오디오 추론 성능을 끌어올렸다. 🔍 왜…

2026년 4월 4일

Google Veo 3.1 Lite 출시 — AI 비디오 생성 비용 50% 절감, 개발자용 고용량 API 제공

Google은 2026년 3월 31일 AI 비디오 생성 모델 Veo 3.1 Lite를 Gemini API와 Google AI Studio를 통해 출시했다. Veo 3.1 Fast 대비 50% 이하 비용으로 동일한 생성 속도를 제공하며, Text-to-Video와 Image-to-Video를 지원한다. 🔍 왜 주목해야 하나 AI 비디오 생성 API의 가장 큰 진입 장벽은 비용이었다. Veo…