FEATURE ARTICLE
ARC-AGI-3 출시 — 인간 100% vs 최고 AI 0.37%, 진정한 적응 학습을 요구하는 새로운 AGI 벤치마크
📌 핵심 요약 François Chollet과 Mike Knoop의 ARC Prize 재단이 ARC-AGI-3를 공개했다. 135개의 오리지널 인터랙티브 환경으로 구성된 이 벤치마크에서 인간은 100%를 달성한 반면, 최고 성능 AI인 Gemini 3.1 Pro는 고작 0.37%에 그쳤다 — GPT-5.4는 0.26%, Claude Opus 4.6은 0.25%다. 🔍 왜 주목해야 하나 ARC-AGI-3는 기존 패턴 매칭 기반 벤치마크와 근본적으로 다른 평가 패러다임을 채택했다. 제로 지시사항·제로 목표·제로 규칙 설명 상태의 게임형 환경에 에이전트를 투입하고, 에이전트가 직접 탐색·목표 추론·세계 모델 구축·연속 학습을 수행해야 한다. 사전 학습 데이터에서 패턴을 외워서는 풀 수 없는 구조로, 현 frontier 모델들이 여전히 '진정한 학습'이 아닌 정교한 암기에 의존한다는 점을 수치로 입증한다. 프리뷰 단계에서 최고 점수는 LLM이 아닌 RL+그래프 탐색 기반 에이전트로 12.58%였다는 점이 시사하는 바가 크다. ⚡ 실무 시사점 AI 에이전트의 실제 범용성을 평가할 때 기존 벤치마크(MMLU, HumanEval 등) 점수만으로 능력을 과신하지 말 것. ARC-AGI-3 리더보드를 통해 진정한 적응 추론 능력의 진전도를 분기별로 추적하면, 언제 어떤 에이전트 아키텍처가 실무 적용 가능 수준에 도달하는지 선행 지표로 활용할 수 있다.