배경 및 맥락
기업 RAG와 enterprise search에서 문서 ingestion은 가장 오래된 병목 중 하나다. PDF, DOC, PPT, OpenDocument 같은 파일은 단순 텍스트 추출만으로는 표, 서명, 수식, 제목, 각주 같은 구조를 잃기 쉽고, 이 손실은 retrieval chunking과 citation 품질 저하로 이어진다.
Mistral OCR 4는 이 문제를 OCR 정확도 경쟁이 아니라 structured document understanding 문제로 다시 정의한다. 특히 self-hosting과 단일 컨테이너 배포를 강조한 점은 금융, 공공, 의료처럼 문서 데이터 반출이 어려운 조직에서 중요하다.
핵심 내용
OCR 4는 추출 텍스트와 함께 bounding boxes, typed block classification, page/word-level confidence scores를 반환한다. 지원 범위는 170개 언어, 10개 언어 그룹이며, common enterprise formats를 입력으로 받아 RAG, domain-specific retrieval, agentic workflow의 ingestion component로 쓸 수 있다.
Mistral은 human preference evaluation에서 OCR 4가 주요 OCR/document-AI 시스템 대비 평균 72% win rate를 보였고, OlmOCRBench 전체 점수 85.20, OmniDocBench 93.07을 기록했다고 밝혔다. 가격은 OCR 4 API가 USD 4 per 1,000 pages, Batch API 적용 시 USD 2 per 1,000 pages, Document AI가 USD 5 per 1,000 pages다.
경쟁 구도 / 비교
기존 OCR 파이프라인은 clean text extraction과 table parsing 중심이었고, 많은 팀이 layout metadata를 별도 post-processing으로 복구했다. OCR 4는 위치, 블록 타입, confidence를 기본 출력으로 제공해 parser, retriever, human review tool 사이의 glue code를 줄인다.
PP-OCRv6 같은 경량 OCR 모델이 open OCR 영역의 효율성을 밀고 있다면, Mistral OCR 4는 enterprise RAG와 Document AI 배포 경로를 겨냥한다. Microsoft Foundry, SageMaker, Mistral Studio, Snowflake Parse Document 예정 통합은 모델 자체보다 배포 채널 경쟁이 중요해졌다는 신호다.
의미
문서 AI 시스템의 품질은 embedding model이나 reranker만으로 결정되지 않는다. 문서를 ingest하는 첫 단계에서 구조와 confidence가 사라지면, 뒤쪽의 agent나 RAG pipeline은 잘못된 근거를 더 그럴듯하게 조합할 뿐이다.
실무적으로는 OCR output schema를 source-grounded citation, redaction, HITL review까지 고려해 설계해야 한다. OCR 4의 비용과 self-hosting 옵션은 고용량 문서 처리 팀이 기존 cloud OCR, AI-native parser, 자체 pipeline을 다시 벤치마크할 충분한 이유를 제공한다.