배경 및 맥락
지금까지 소프트웨어 보안의 병목은 고급 취약점을 얼마나 많이 찾을 수 있느냐에 가까웠다. 하지만 frontier 모델이 코드베이스를 대규모로 훑고 exploit 가능성까지 평가하기 시작하면, 문제는 탐지량 부족이 아니라 후속 처리량 부족으로 바뀐다. Anthropic의 Glasswing 업데이트는 그 전환이 이미 시작됐다는 점을 구체적 숫자로 보여준다.
핵심 내용
Anthropic은 Mythos Preview와 파트너들이 한 달 만에 high/critical 취약점 1만 건 이상을 찾았다고 밝혔다. 오픈소스 프로젝트 1,000개 이상을 스캔한 결과 총 23,019건을 탐지했고, 이 중 고위험으로 분류한 1,752건을 독립 보안 연구진이 검증한 결과 1,587건이 true positive였으며 1,094건은 실제 high/critical severity로 판정됐다. Cloudflare의 경우 2,000개 버그와 400개 high/critical 취약점을 보고했고, 평균적으로 고위험 버그 하나를 패치하는 데 약 2주가 걸린다고 설명했다.
경쟁 구도 / 비교
기존 보안 도구는 static analysis, fuzzing, 규칙 기반 스캐닝에 강했지만, 다단계 exploit reasoning이나 대규모 우선순위화에서는 한계가 있었다. Glasswing은 frontier model이 탐지 자체를 대량화할 수 있음을 보여주는 동시에, 공개 생태계가 그 속도를 따라가지 못한다는 구조적 약점을 드러낸다. 이는 보안 제품 경쟁이 detection accuracy에서 vulnerability operations orchestration으로 이동할 수 있음을 시사한다.
의미
산업적으로는 AI 보안의 가치가 ‘더 많은 경고’가 아니라 ‘더 많은 경고를 처리 가능한 상태로 바꾸는 시스템’에 달리기 시작했다. 실무적으로는 triage 자동화, patch 배포 가속, maintainer 협업, 기본 보안 위생을 함께 올리지 않으면 탐지 성능이 올라갈수록 오히려 운영 병목이 악화될 수 있다. 앞으로 보안 조직의 성숙도는 모델 성능만큼이나 patch throughput과 disclosure discipline으로 평가될 가능성이 높다.