배경 및 맥락
RAG 시스템은 single-vector embedding에서 multi-vector late interaction으로 이동할수록 검색 품질을 높일 수 있다. 문서를 하나의 벡터로 압축하지 않고 token 또는 segment 단위 정보를 보존하기 때문에 세밀한 매칭이 가능해진다. 문제는 비용이다. 문서 하나가 수백 개 이상의 벡터로 표현되면 저장 용량, object storage read, cache warm-up, shard cold-start가 모두 커진다.
Mixedbread는 자체 retrieval engine인 Silo에서 25억 개 이상의 문서를 다룬다고 설명한다. 이 규모에서는 문서당 몇 KiB 차이도 전체 비용과 latency에 직접 반영된다. 따라서 이번 글의 핵심은 새로운 모델 발표가 아니라 late interaction을 기본값으로 쓸 수 있게 만드는 storage economics 개선이다.
핵심 내용
Mixedbread의 asymmetric quantization은 document vector를 binary sign으로 저장하고, query vector는 int8 precision으로 유지한다. 문서는 장기간 저장되고 반복 조회되지만 query는 짧게 존재하므로, document side를 강하게 압축하는 편이 storage와 IO 절감 효과가 훨씬 크다는 판단이다.
내부 benchmark 기준 multi-vector document의 raw vector payload는 fp32에서 393 KiB였고, binary document plus int8 query 방식에서는 12.28 KiB로 줄었다. 이는 32배, 약 97 percent reduction에 해당한다. 품질은 NDCG@10 90.26에서 89.65로 0.61만 낮아졌다. scoring은 document sign bit가 positive인 query component 합과 전체 query 합을 이용해 multiply 없이 계산하는 방식으로 단순화된다.
경쟁 구도 / 비교
ColBERT 계열 late interaction은 오래전부터 검색 품질을 높이는 방향으로 주목받았지만, 운영 관점에서는 payload size와 latency가 부담이었다. PLAID 같은 연구는 pruning과 optimized retrieval로 latency를 낮췄고, Mixedbread는 document-side representation을 극단적으로 줄여 storage와 IO 문제를 겨냥한다.
일반적인 vector DB 비교는 embedding 차원, ANN index latency, recall 중심으로 흐르기 쉽다. 하지만 multi-vector 검색에서는 벡터 개수와 표현 크기가 비용을 지배한다. 이 점에서 이번 접근은 모델 품질 경쟁보다 retrieval serving architecture 경쟁에 가깝다.
의미
기업 RAG 시스템에서 검색 품질을 높이는 가장 쉬운 방법은 더 많은 context와 더 정교한 retrieval을 쓰는 것이다. 하지만 운영 비용이 따라오지 않으면 제품화가 어렵다. Asymmetric quantization은 quality-cost frontier를 이동시켜 late interaction을 일부 고가 use case가 아니라 더 넓은 기본 검색 계층으로 쓸 가능성을 만든다.
실무적으로는 이 기법을 그대로 도입하기 전에 자체 corpus에서 NDCG, MRR, latency p95, storage per document, cold-start time을 재측정해야 한다. 특히 법무, 코드, 의료처럼 ranking miss 비용이 큰 도메인은 0.61 NDCG 하락이 실제 사용자 결과에 어떤 영향을 주는지 offline eval과 human review를 함께 돌리는 편이 안전하다.