Feature Article
Anthropic RSP 3.1 업데이트 — Frontier Safety Roadmap를 실험 약속에서 운영 거버넌스로 세분화
배경 및 맥락
2025년 이후 frontier AI 랩의 경쟁은 단지 더 강한 모델을 먼저 내놓는 문제를 넘어섰다. 모델이 연구 생산성을 얼마나 가속하는지, 위험 임계치를 넘는지, 이를 어떤 내부 절차와 공개 문서로 통제하는지가 기업 신뢰의 핵심이 됐다. 특히 Anthropic은 Responsible Scaling Policy(RSP)를 자사 안전 거버넌스의 중심 문서로 삼아, capability threshold와 required safeguards를 연결하는 방식을 선도적으로 공개해 왔다.
2026년 2월 RSP v3.0은 Frontier Safety Roadmap와 Risk Report를 도입하며 큰 폭으로 재작성됐다. 그리고 4월 2일 공개된 v3.1은 형식상 minor revision이지만, 실제로는 threshold 해석과 자율적 개발 중단 권한을 더 또렷하게 적어 넣었다. 이는 frontier lab의 안전 정책이 발표용 원칙문이 아니라, 출시·배포·연구 지속 여부를 직접 좌우하는 운영 규칙으로 바뀌고 있음을 보여준다.
핵심 내용
Anthropic이 밝힌 v3.1의 핵심 수정은 두 가지다. 첫째, AI R&D capability threshold의 의미를 더 명확히 했다. 기존 v3 표현 중 "2018~2024년 AI 진보 2년치를 1년으로 압축"한다는 문구가 연구자 생산성 두 배와 aggregate AI capability growth 중 무엇을 뜻하는지 혼동될 수 있었는데, v3.1은 후자를 뜻한다고 못 박았다. 이 차이는 중요하다. 사람 생산성 향상과 시스템 차원의 연구 가속은 정책적 의미가 다르기 때문이다.
둘째, RSP가 명시적으로 요구하지 않더라도 Anthropic이 필요하다고 판단하면 개발 pause 같은 추가 조치를 언제든 취할 수 있음을 분명히 했다. 이는 규정 준수만으로 충분하다는 식의 좁은 해석을 차단하는 조항이다. 동시에 Anthropic은 Frontier Safety Roadmap에서 이미 달성한 moonshot R&D launch 목표를 더 세분화된 ongoing project 목표로 교체했다고 설명했다. 즉, 안전 로드맵이 선언적 milestone 목록에서 운영 중인 프로젝트 관리 문서로 이동하고 있다.
경쟁 구도 / 비교
대부분의 AI 기업은 safety principle이나 policy statement를 공개하지만, 실제 capability threshold와 대응 조치를 versioned 문서로 관리하는 곳은 많지 않다. Anthropic의 접근은 product release note처럼 safety governance도 changelog와 버전 체계를 갖추는 모델에 가깝다. OpenAI, Google DeepMind, Meta도 safety report를 내지만, RSP처럼 문턱 정의와 후속 조치를 연결한 living policy 체계는 상대적으로 드물다.
이 차이는 규제 대응과 기업 고객 신뢰에서 의미가 크다. 성능 수치가 비슷한 frontier 모델이라도, 어떤 위험 기준으로 내부 승인을 내렸는지 설명할 수 있는 공급자가 장기 계약과 고위험 도메인 도입에서 더 유리하다. 정책 문서의 정밀도가 제품 경쟁력 일부가 되는 셈이다.
의미
RSP 3.1 업데이트는 frontier AI 경쟁의 다음 단계가 capability race와 governance race의 결합이라는 점을 드러낸다. 위험 문턱을 어떻게 정의하는지, 그 문턱에 근접했을 때 어떤 예외 조치를 허용하는지, 그리고 이를 얼마나 자주 업데이트하는지가 모델 신뢰성과 시장 접근성을 결정하게 된다.
테크 리더와 정책 담당자는 이제 모델 카탈로그를 구매하듯 AI를 도입할 수 없다. 공급사의 safety roadmap, risk report, threshold 해석 방식까지 읽어야 하며, 내부적으로도 고정 규정집보다 버전 관리되는 living governance 구조를 준비해야 한다. 이 변화는 규제가 강해질수록 더 중요해질 가능성이 높다.