글
Gemini API File Search is now multimodal — RAG 경쟁이 text retrieval에서 multimodal evidence layer로 이동
Google은 2026년 5월 5일 Gemini API File Search에 multimodal support, custom metadata, page-level citations를 추가했다. 이제 텍스트와 이미지를 함께 색인·검색할 수 있고, metadata filter로 검색 범위를 줄이며, 응답마다 원문 페이지 단위 citation을 붙여 verifiable RAG를 구성할 수…
배경 및 맥락
RAG는 이미 많은 AI 제품의 기본 아키텍처가 됐지만, 현장에서는 두 가지 한계가 반복적으로 드러났다. 첫째, 실제 업무 데이터는 PDF 텍스트만이 아니라 도표, 다이어그램, 스크린샷, 이미지 캡처처럼 복합 모달로 존재한다. 둘째, 검색 결과가 맞더라도 사용자가 원문 근거를 바로 확인할 수 없으면 신뢰와 채택이 떨어진다. 결국 RAG의 경쟁력은 더 많은 문서를 넣는 것이 아니라, 더 복합적인 자료를 더 좁고 검증 가능하게 찾는 데 있다.
Google의 이번 발표는 그 문제를 개발자 도구 레벨에서 직접 다룬다. File Search를 단순 파일 저장소가 아니라 multimodal evidence layer로 확장한 셈이다.
핵심 내용
Google은 2026년 5월 5일 Gemini API File Search에 세 가지 업데이트를 발표했다. 첫째, Gemini Embedding 2 기반으로 이미지와 텍스트를 함께 처리하는 multimodal search를 지원한다. 둘째, department: Legal, status: Final 같은 key-value metadata를 붙여 query time에 범위를 좁힐 수 있다. 셋째, 응답 결과를 원문 페이지 번호와 연결하는 page-level citations를 제공해 grounding과 투명성을 높인다.
이 조합은 실무에 직접적이다. 예를 들어 방대한 시각 자산 라이브러리에서 특정 감정 톤이나 스타일을 자연어로 찾거나, 대형 PDF 집합에서 답변이 나온 정확한 페이지를 바로 열어 검토할 수 있다. Google은 이를 efficient, verifiable RAG의 기반으로 제시했다.
경쟁 구도 / 비교
기존 RAG 제품 다수는 텍스트 chunking과 semantic search에 머물렀고, 시각 자료 처리는 별도 OCR 파이프라인이나 커스텀 전처리에 의존했다. 또한 citation이 있더라도 문서 단위에 그치거나 출처 연결이 거칠어 사람이 다시 찾는 비용이 컸다. 이번 업데이트는 multimodal indexing, metadata filtering, page-level evidence를 하나의 기본 툴 표면에 묶었다는 점에서 차별적이다.
이는 RAG 경쟁이 "더 잘 찾는가"에서 "더 설명 가능하게 찾는가"로 옮겨가고 있음을 시사한다. 특히 agent 시스템에서는 retrieval 단계가 action의 근거가 되므로 citation granularity가 운영 안정성과 직결된다.
의미
산업적으로는 enterprise knowledge stack이 생성 품질보다 evidence architecture를 더 중시하는 방향으로 이동하고 있다. 향후 RAG 플랫폼의 핵심 평가지표는 answer quality뿐 아니라 multimodal coverage, filterability, source traceability가 될 가능성이 높다.
실무적으로는 문서 QA나 internal search를 만드는 팀이 이미지 포함 데이터셋 설계, metadata schema, citation UX를 초기부터 함께 설계해야 한다. 좋은 RAG는 많이 아는 시스템이 아니라, 근거를 좁고 정확하게 꺼내 보여주는 시스템이 된다.