배경 및 맥락
agent는 이제 단순 응답 생성이 아니라 이메일 조회, CRM 기록 접근, 코드 실행, 외부 시스템 조작처럼 실제 행동을 수행한다. 이 단계에서는 기존 LLM 품질 평가만으로는 충분하지 않고, 설계 단계의 권한 판단과 배포 단계의 반복 가능한 안전 테스트가 함께 필요하다. 하지만 많은 조직에서 AI safety는 여전히 별도 리뷰나 red-team engagement에 머물러 있어 개발 흐름과 분리돼 있었다.
핵심 내용
Microsoft는 두 개의 상보적 도구를 공개했다. RAMPART는 PyRIT 위에 구축된 오픈소스 agent safety 테스트 프레임워크로, 팀이 threat model 기반 시나리오를 표준 pytest 테스트로 작성해 CI에서 반복 실행할 수 있게 한다. cross-prompt injection 같은 공격 시나리오를 재현 가능하게 만들고, 확률적 LLM 동작을 반영하기 위해 다회 실행과 통계 임계치를 지원한다. Clarity는 desktop app, web UI, coding agent 내장 방식으로 동작하며, 문제 정의, 대안 탐색, 실패 분석, 의사결정을 .clarity-protocol/ 디렉터리의 Markdown 파일로 저장해 PR 리뷰와 diff 대상으로 삼는다.
경쟁 구도 / 비교
기존 AI safety 툴이 보통 모델 평가나 사후 red teaming에 집중했다면, Microsoft는 이번에 설계 검토와 CI 회귀 테스트라는 두 지점에 안전을 심으려 한다. 이는 보안팀 중심 접근보다 개발팀이 직접 운영하는 engineering-native safety 전략에 가깝다. 특히 테스트 결과를 pass/fail 신호로 CI에 넣는 방식은 일반 소프트웨어 품질 관리와의 접점을 넓혀 도입 장벽을 낮춘다.
의미
산업적으로는 agent 안전이 별도 compliance 문서가 아니라 repo 안의 living artifact가 되는 방향을 보여준다. 실무적으로는 조직이 safety review를 중앙팀에만 의존하면 scale이 나오기 어렵고, threat model, 실패 분석, 회귀 테스트를 코드와 함께 버전 관리하는 체계가 있어야 agent를 빠르게 반복 배포할 수 있다.