PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 7월 2일

Mixedbread asymmetric quantization - late-interaction retrieval cuts vector storage 97 percent

Mixedbread가 late-interaction retrieval에서 document vector는 1-bit sign으로 저장하고 query vector는 int8로 유지하는 asymmetric quantization 기법을 공개했다. 내부 benchmark 기준 raw document-vector storage를 393 KiB에서 12.28 KiB로 줄이면서 NDCG@10은…

본문 읽기원문 보기

발행일

2026년 7월 2일

업데이트

2026년 7월 2일

주제

AI
연구
원문 보기

배경 및 맥락

RAG 시스템은 single-vector embedding에서 multi-vector late interaction으로 이동할수록 검색 품질을 높일 수 있다. 문서를 하나의 벡터로 압축하지 않고 token 또는 segment 단위 정보를 보존하기 때문에 세밀한 매칭이 가능해진다. 문제는 비용이다. 문서 하나가 수백 개 이상의 벡터로 표현되면 저장 용량, object storage read, cache warm-up, shard cold-start가 모두 커진다.

Mixedbread는 자체 retrieval engine인 Silo에서 25억 개 이상의 문서를 다룬다고 설명한다. 이 규모에서는 문서당 몇 KiB 차이도 전체 비용과 latency에 직접 반영된다. 따라서 이번 글의 핵심은 새로운 모델 발표가 아니라 late interaction을 기본값으로 쓸 수 있게 만드는 storage economics 개선이다.


핵심 내용

Mixedbread의 asymmetric quantization은 document vector를 binary sign으로 저장하고, query vector는 int8 precision으로 유지한다. 문서는 장기간 저장되고 반복 조회되지만 query는 짧게 존재하므로, document side를 강하게 압축하는 편이 storage와 IO 절감 효과가 훨씬 크다는 판단이다.

내부 benchmark 기준 multi-vector document의 raw vector payload는 fp32에서 393 KiB였고, binary document plus int8 query 방식에서는 12.28 KiB로 줄었다. 이는 32배, 약 97 percent reduction에 해당한다. 품질은 NDCG@10 90.26에서 89.65로 0.61만 낮아졌다. scoring은 document sign bit가 positive인 query component 합과 전체 query 합을 이용해 multiply 없이 계산하는 방식으로 단순화된다.


경쟁 구도 / 비교

ColBERT 계열 late interaction은 오래전부터 검색 품질을 높이는 방향으로 주목받았지만, 운영 관점에서는 payload size와 latency가 부담이었다. PLAID 같은 연구는 pruning과 optimized retrieval로 latency를 낮췄고, Mixedbread는 document-side representation을 극단적으로 줄여 storage와 IO 문제를 겨냥한다.

일반적인 vector DB 비교는 embedding 차원, ANN index latency, recall 중심으로 흐르기 쉽다. 하지만 multi-vector 검색에서는 벡터 개수와 표현 크기가 비용을 지배한다. 이 점에서 이번 접근은 모델 품질 경쟁보다 retrieval serving architecture 경쟁에 가깝다.


의미

기업 RAG 시스템에서 검색 품질을 높이는 가장 쉬운 방법은 더 많은 context와 더 정교한 retrieval을 쓰는 것이다. 하지만 운영 비용이 따라오지 않으면 제품화가 어렵다. Asymmetric quantization은 quality-cost frontier를 이동시켜 late interaction을 일부 고가 use case가 아니라 더 넓은 기본 검색 계층으로 쓸 가능성을 만든다.

실무적으로는 이 기법을 그대로 도입하기 전에 자체 corpus에서 NDCG, MRR, latency p95, storage per document, cold-start time을 재측정해야 한다. 특히 법무, 코드, 의료처럼 ranking miss 비용이 큰 도메인은 0.61 NDCG 하락이 실제 사용자 결과에 어떤 영향을 주는지 offline eval과 human review를 함께 돌리는 편이 안전하다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 30일Every Eval Ever - fragmented AI benchmarks get a shared metadata layerEvalEval Coalition이 Every Eval Ever를 공개해 AI 평가 결과를 하나의 공개 스키마와 데이터셋으로 모으고, Hugging Face Hub의 evaluation results 구조와 연결되는 기반을 제시했다.2026년 6월 30일GLM 5.2 beats Claude in our benchmarks프롬프트만 제공되는 모델 중에서 최고의 개방형 옵션이 Claude Opus 4.8을 능가했습니다.2026년 7월 3일Apple reveals new AI architecture built around Google Gemini modelsApple은 오늘 Apple Intelligence 플랫폼의 대대적인 개편을 발표하여 Gemini 제품군의 기술을 사용하여 Google과 협력하여 개발된 기반 모델을 기반으로 구축된 새로운 아키텍처를 공개했습니다. The new architecture centers on Apple Foundation Models co-developed with Google, which Apple says…2026년 7월 3일OpenAI unveils its first custom chip, built by BroadcomJalapeño라는 이름의 새로운 프로세서는 OpenAI 추론 시스템의 고유한 요구 사항을 위해 특별히 설계되었습니다.