PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 6월 18일

Probably $9M seed — AI 신뢰성 경쟁이 더 큰 모델에서 deterministic harness engineering으로 이동

TechCrunch는 2026년 6월 16일 Probably가 Andreessen Horowitz로부터 900만 달러 seed funding을 유치했다고 보도했다. Probably는 데이터 분석 답변을 생성한 뒤 deterministic validator가 결과를 검증하고 audit trail과 citation을 제공하는 방식으로 AI hallucination을 줄이려 한다.

본문 읽기원문 보기

발행일

2026년 6월 18일

업데이트

2026년 6월 18일

주제

AI
트렌드
원문 보기

배경 및 맥락

LLM 성능은 빠르게 좋아졌지만 hallucination은 여전히 production adoption의 핵심 병목이다. 특히 데이터 분석, 회계, 의료, 법무처럼 오류 비용이 큰 영역에서는 답이 그럴듯한지만으로 충분하지 않고, 결과가 어떤 데이터와 계산 경로에서 나왔는지 추적할 수 있어야 한다. 이 때문에 최근 AI 제품 경쟁은 모델 크기와 benchmark뿐 아니라 검증 가능한 workflow 설계로 이동하고 있다.

Probably의 접근은 이 흐름을 잘 보여준다. 단순히 더 강한 frontier model을 호출하는 대신, LLM이 만든 답변을 deterministic validator가 검사하고, 틀린 결과는 다시 되돌려 수정하도록 만드는 harness 중심 구조다. 이는 AI reliability를 모델 레이어가 아니라 시스템 레이어에서 풀려는 시도다.


핵심 내용

TechCrunch 보도에 따르면 Probably는 2026년 6월 16일 Andreessen Horowitz가 참여한 900만 달러 seed funding을 유치했다. 첫 제품은 복잡한 dataset에서 빠른 답을 제공하는 data science tool이며, 각 결과에는 citation과 audit trail이 붙는다. 회사는 LLM의 first-pass answer를 deterministic validator가 dataset과 대조해 검증하고, 맞지 않는 답변은 다시 수정하도록 하는 harness system을 구축했다고 설명한다.

흥미로운 부분은 이 방식이 모델 비용 구조와도 연결된다는 점이다. Probably 창업자는 harness engineering이 좋아질수록 더 약한 모델로도 올바른 결과를 낼 수 있다고 보고, 현재 버전은 frontier model보다 여러 단계 약한 모델에서도 동작해 local hardware 실행과 token cost 절감을 가능하게 한다고 말한다. 이는 reliability와 cost optimization이 같은 아키텍처 문제로 묶일 수 있음을 보여준다.


경쟁 구도 / 비교

일반적인 AI 제품은 더 큰 모델, 더 긴 context, 더 강한 reasoning capability를 통해 정확도를 높이려 한다. 하지만 이 방식은 비용이 높고, 오류가 사라진다는 보장도 없다. Probably는 반대로 ambiguity를 줄이는 context engineering과 deterministic validation을 통해 모델이 해야 할 추론 부담을 줄이는 방향을 택한다.

이 접근은 RAG나 citation 기능과 겹치지만, 단순 retrieval보다 한 단계 더 엄격하다. citation은 출처를 붙이는 기능이고, deterministic validator는 답이 실제 dataset과 계산 규칙에 맞는지 검사하는 실행 레이어다. 따라서 precision-sensitive use case에서는 model benchmark보다 validator coverage, auditability, correction loop latency가 더 중요한 평가 기준이 될 수 있다.


의미

산업적으로 Probably의 seed round는 AI 신뢰성 시장이 observability나 prompt tooling을 넘어 domain-specific verification engine으로 세분화되고 있음을 보여준다. hallucination을 완전히 모델 내부에서 없애기 어렵다면, 제품 아키텍처는 LLM을 불확실한 제안자와 deterministic checker의 조합으로 다루는 방향으로 진화할 가능성이 높다.

실무적으로는 고위험 업무에 AI를 붙이는 팀이 먼저 물어야 할 질문이 바뀐다. 어떤 모델이 가장 똑똑한가보다, 어떤 답변을 기계적으로 검증할 수 있는가, 어떤 데이터 lineage를 남길 수 있는가, 실패 시 어떻게 사용자에게 노출하지 않을 것인가가 핵심이다. 이 기준을 초기에 설계하지 않으면 데모는 빠르게 만들 수 있어도 운영 단계에서 QA와 책임 소재 비용이 커질 수 있다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 27일GPT-5.6 Sol preview - frontier model releases become policy-gated infrastructure decisionsOpenAI는 2026년 6월 26일 GPT-5.6 series의 limited preview를 발표하며 Sol, Terra, Luna 3개 tier와 새로운 max reasoning effort, subagent 기반 ultra mode를 공개했다. Sol은 Terminal-Bench 2.1, GeneBench v1, ExploitBench, ExploitGym 같은 장시간…2026년 6월 26일General Intuition Series A - gameplay data becomes the next action-model training substrateGeneral Intuition은 Khosla Ventures가 lead한 3억 2천만 달러 Series A를 발표하며, 가상 및 물리 환경에서 perceive, predict, act할 수 있는 모델을 만들겠다고 밝혔다. 보도에 따르면 post-money valuation은 23억 달러이며, TechCrunch는 이번 라운드 이후 누적 공개 funding이 4억 5,400만 달러라고…2026년 6월 25일Claude Tag - Slack-native team agents move from private assistants to shared workspacesAnthropic은 Slack에서 @Claude를 태그해 팀 단위로 작업을 위임하는 Claude Tag beta를 공개했다. Claude Enterprise와 Team 고객 대상이며, channel-scoped memory, tool/data/codebase access, ambient updates, spend limits, activity logs를 제공한다.2026년 6월 25일GLM-5.2 - open long-context models push agentic coding toward 1M-token workspacesZ.AI는 GLM-5.2를 공개하며 1M-token context, flexible effort levels, MIT license, long-horizon coding benchmark 성능을 전면에 내세웠다. 공개 글은 IndexShare로 1M context에서 per-token FLOPs를 2.9x 줄이고, Terminal Bench 2.1 81.0, SWE-bench Pro…