배경 및 맥락
웹 보안은 오랫동안 계정 탈취, credential stuffing, 단순 scraping, 요청 수 기반 rate limiting 문제로 이해돼 왔다. 하지만 AI 서비스는 요청 한 번의 경제성이 완전히 다르다. 일반 HTTP 호출은 거의 공짜에 가깝지만, frontier model inference는 호출당 수 달러까지도 올라갈 수 있어 공격자가 남의 API를 우회해 재판매할 유인이 매우 커진다.
Vercel의 이번 사례 공개가 중요한 이유는 이 위협이 가설이 아니라 실제 운영 환경에서 반복 가능한 사업 모델처럼 동작하고 있음을 보여주기 때문이다. AI endpoint는 이제 단순 앱 백엔드가 아니라 높은 원가를 품은 매출 자산이다.
핵심 내용
Vercel은 공개 글에서 AI endpoint abuse를 token theft로 규정했다. 공격자는 피해자의 AI endpoint를 OpenAI 또는 Anthropic 호환 어댑터 뒤에 숨겨 두고, residential proxy를 통해 요청을 분산시켜 downstream 고객에게 할인된 가격으로 재판매할 수 있다. 회사는 2026년 4월 12일 자사 docs AI chat endpoint가 평시 대비 약 10배 수준으로 급증했고, peak 시 분당 1,300 요청이 들어와 하루 기준 1만 달러 이상 추론비로 이어질 수 있었다고 밝혔다.
Vercel의 대응 메시지는 명확하다. 세션 시작 시 한 번 검사하는 방식으로는 공격자 비용을 충분히 높일 수 없고, 매 요청마다 검증이 실행돼야 한다는 것이다. 회사는 BotID deep analysis를 route handler 내부에서 호출해 현재 요청 자체를 판별하는 방식을 제시했다.
경쟁 구도 / 비교
기존 API 보안 관점에서는 auth wall, signup friction, per-IP rate limit가 주요 방어선이었다. 하지만 AI 서비스에서는 이 전략들이 쉽게 무력화된다. 공격자는 수천 개의 residential proxy와 throwaway account를 동원해 우회 비용을 분산시킬 수 있고, 한 번 우회한 세션으로 고가 inference를 대량 탈취할 수 있기 때문이다.
즉 AI endpoint 보안은 WAF나 로그인 보호의 확장판이 아니라, 고가 compute asset을 보호하는 방식으로 다시 설계돼야 한다. 이 점에서 Vercel의 글은 단순 기능 홍보보다, AI-native abuse model을 설명한 운영 보고서에 가깝다.
의미
산업적으로는 AI 서비스 운영에서 보안팀과 플랫폼팀의 경계가 더 가까워질 수밖에 없다는 신호다. 비용 통제, bot detection, request verification, model routing, anomaly alerting이 한 시스템 안에서 움직여야 실질적 방어가 가능하다.
실무적으로는 인터넷에 노출된 AI route를 가진 팀이라면 누가 로그인했는가보다 이 요청이 정말 정당한가를 더 자주 물어야 한다. 특히 playground, docs chatbot, coding agent proxy처럼 호출자가 프롬프트와 모델 선택권을 많이 가질수록 per-request 방어가 사실상 기본 아키텍처가 된다.