배경 및 맥락
LLM 성능은 빠르게 좋아졌지만 hallucination은 여전히 production adoption의 핵심 병목이다. 특히 데이터 분석, 회계, 의료, 법무처럼 오류 비용이 큰 영역에서는 답이 그럴듯한지만으로 충분하지 않고, 결과가 어떤 데이터와 계산 경로에서 나왔는지 추적할 수 있어야 한다. 이 때문에 최근 AI 제품 경쟁은 모델 크기와 benchmark뿐 아니라 검증 가능한 workflow 설계로 이동하고 있다.
Probably의 접근은 이 흐름을 잘 보여준다. 단순히 더 강한 frontier model을 호출하는 대신, LLM이 만든 답변을 deterministic validator가 검사하고, 틀린 결과는 다시 되돌려 수정하도록 만드는 harness 중심 구조다. 이는 AI reliability를 모델 레이어가 아니라 시스템 레이어에서 풀려는 시도다.
핵심 내용
TechCrunch 보도에 따르면 Probably는 2026년 6월 16일 Andreessen Horowitz가 참여한 900만 달러 seed funding을 유치했다. 첫 제품은 복잡한 dataset에서 빠른 답을 제공하는 data science tool이며, 각 결과에는 citation과 audit trail이 붙는다. 회사는 LLM의 first-pass answer를 deterministic validator가 dataset과 대조해 검증하고, 맞지 않는 답변은 다시 수정하도록 하는 harness system을 구축했다고 설명한다.
흥미로운 부분은 이 방식이 모델 비용 구조와도 연결된다는 점이다. Probably 창업자는 harness engineering이 좋아질수록 더 약한 모델로도 올바른 결과를 낼 수 있다고 보고, 현재 버전은 frontier model보다 여러 단계 약한 모델에서도 동작해 local hardware 실행과 token cost 절감을 가능하게 한다고 말한다. 이는 reliability와 cost optimization이 같은 아키텍처 문제로 묶일 수 있음을 보여준다.
경쟁 구도 / 비교
일반적인 AI 제품은 더 큰 모델, 더 긴 context, 더 강한 reasoning capability를 통해 정확도를 높이려 한다. 하지만 이 방식은 비용이 높고, 오류가 사라진다는 보장도 없다. Probably는 반대로 ambiguity를 줄이는 context engineering과 deterministic validation을 통해 모델이 해야 할 추론 부담을 줄이는 방향을 택한다.
이 접근은 RAG나 citation 기능과 겹치지만, 단순 retrieval보다 한 단계 더 엄격하다. citation은 출처를 붙이는 기능이고, deterministic validator는 답이 실제 dataset과 계산 규칙에 맞는지 검사하는 실행 레이어다. 따라서 precision-sensitive use case에서는 model benchmark보다 validator coverage, auditability, correction loop latency가 더 중요한 평가 기준이 될 수 있다.
의미
산업적으로 Probably의 seed round는 AI 신뢰성 시장이 observability나 prompt tooling을 넘어 domain-specific verification engine으로 세분화되고 있음을 보여준다. hallucination을 완전히 모델 내부에서 없애기 어렵다면, 제품 아키텍처는 LLM을 불확실한 제안자와 deterministic checker의 조합으로 다루는 방향으로 진화할 가능성이 높다.
실무적으로는 고위험 업무에 AI를 붙이는 팀이 먼저 물어야 할 질문이 바뀐다. 어떤 모델이 가장 똑똑한가보다, 어떤 답변을 기계적으로 검증할 수 있는가, 어떤 데이터 lineage를 남길 수 있는가, 실패 시 어떻게 사용자에게 노출하지 않을 것인가가 핵심이다. 이 기준을 초기에 설계하지 않으면 데모는 빠르게 만들 수 있어도 운영 단계에서 QA와 책임 소재 비용이 커질 수 있다.