Curated AI Magazine

PICKLEE

AI Field Notes For Builders

FEATURE ARTICLE

ARC-AGI-3 출시 — 인간 100% vs 최고 AI 0.37%, 진정한 적응 학습을 요구하는 새로운 AGI 벤치마크

📌 핵심 요약 François Chollet과 Mike Knoop의 ARC Prize 재단이 ARC-AGI-3를 공개했다. 135개의 오리지널 인터랙티브 환경으로 구성된 이 벤치마크에서 인간은 100%를 달성한 반면, 최고 성능 AI인 Gemini 3.1 Pro는 고작 0.37%에 그쳤다 — GPT-5.4는 0.26%, Claude Opus 4.6은 0.25%다. 🔍 왜 주목해야 하나 ARC-AGI-3는 기존 패턴 매칭 기반 벤치마크와 근본적으로 다른 평가 패러다임을 채택했다. 제로 지시사항·제로 목표·제로 규칙 설명 상태의 게임형 환경에 에이전트를 투입하고, 에이전트가 직접 탐색·목표 추론·세계 모델 구축·연속 학습을 수행해야 한다. 사전 학습 데이터에서 패턴을 외워서는 풀 수 없는 구조로, 현 frontier 모델들이 여전히 '진정한 학습'이 아닌 정교한 암기에 의존한다는 점을 수치로 입증한다. 프리뷰 단계에서 최고 점수는 LLM이 아닌 RL+그래프 탐색 기반 에이전트로 12.58%였다는 점이 시사하는 바가 크다. ⚡ 실무 시사점 AI 에이전트의 실제 범용성을 평가할 때 기존 벤치마크(MMLU, HumanEval 등) 점수만으로 능력을 과신하지 말 것. ARC-AGI-3 리더보드를 통해 진정한 적응 추론 능력의 진전도를 분기별로 추적하면, 언제 어떤 에이전트 아키텍처가 실무 적용 가능 수준에 도달하는지 선행 지표로 활용할 수 있다.

2026년 3월 30일수정 2026년 3월 30일원문 링크

RELATED

관련 글

전체 보기
Article
2026년 3월 30일

Anthropic 'Claude Mythos(Capybara)' 유출 — Opus 4.6 대비 코딩·추론·사이버보안 SOTA, 전례 없는 보안 리스크 공식 경고

📌 핵심 요약 Anthropic이 내부 테스트 중이던 차세대 모델 'Claude Mythos(코드명 Capybara)'의 상세 스펙이 unsecured 데이터 스토어를 통해 공개적으로 유출됐다. Anthropic은 이를 '현재까지 개발한 가장 강력한 모델'로 규정하며 코딩·학술 추론·사이버보안 벤치마크에서 Claude Opus 4.6 대비 드라마틱한 수치 향상을 확인했다고 밝혔다. 🔍 왜 주목해야 하나 유출된 드래프트 블로그 포스트에 따르면 Mythos는 단순 점진적 개선이 아닌 'step change'급 성능 도약을 나타낸다. 특히 사이버보안 도메인에서 소프트웨어 취약점 탐지·익스플로잇 속도가 비약적으로 향상돼, Anthropic 내부 문서도 '전례 없는 사이버보안 리스크'를 명시적으로 경고했다. Opus보다 상위 티어인 'Capybara' 네임스페이스가 처음 공개됐다는 점도 주목할 만하다 — Anthropic의 모델 라인업이 Haiku→Sonnet→Opus→Capybara 구조로 재편될 가능성이 크다. ⚡ 실무 시사점 보안 팀은 AI 모델의 공격 보조 능력이 다음 세대에서 급격히 상승할 것을 전제로 위협 모델링을 재검토해야 한다. 동시에 개발팀은 Capybara 조기 접근 프로그램을 주시하여 코딩·추론 파이프라인의 업그레이드 타이밍을 선제적으로 계획할 것을 권장한다.

AI
자동수집

Read Story

RE-ENTRY

최신 글 재진입