배경 및 맥락
지난 1년간 AI 시장의 표면적 경쟁은 누가 더 강한 frontier model을 내놓느냐에 집중돼 있었다. 하지만 실제 제품 운영에서는 모델이 많아질수록 다른 문제가 커진다. 같은 기능이라도 시점마다 가격이 달라지고, 공급자별 응답 지연과 장애 패턴이 달라지며, 보안과 지역 규정 이슈도 서로 다르다.
이런 환경에서는 최고 성능 모델 하나를 고정해 붙이는 방식이 빠르게 비싸고 취약한 설계가 된다. 그래서 최근 부상하는 것이 모델 라우팅 계층이다. 이 레이어는 요청 종류에 따라 서로 다른 모델로 분기하고, 비용 초과나 장애 시 자동 우회하며, 팀 차원에서 토큰 사용량을 통제한다. 즉 AI stack에서 load balancer이자 cost governor 역할을 맡는 셈이다.
핵심 내용
Business Insider 보도에 따르면 OpenRouter는 최근 1억1300만 달러를 조달해 13억 달러 valuation을 받았고, Concentrate AI는 500만 달러 이상을 확보한 채 스텔스에서 공개됐다. 두 회사는 여러 LLM을 하나의 인터페이스에서 다루며, 모델별 가격과 성능, 장애 여부를 바탕으로 요청을 라우팅하는 도구를 제공한다.
기사에 따르면 OpenRouter와 유사 플레이어들은 400개 이상 모델에 대한 접근, overspend monitoring, outage 대응, 더 저렴한 대체 모델 분기 같은 기능을 내세우고 있다. cheaper model 사용 확대와 AI coding tool의 폭발적 토큰 소비가 이 시장을 키우는 직접 동인으로 제시된다. 즉 라우팅은 더 이상 개발 편의성이 아니라, 인퍼런스 원가와 서비스 품질을 동시에 통제하기 위한 운영 계층이 되고 있다.
경쟁 구도 / 비교
지금까지 많은 팀은 OpenAI, Anthropic, Google 같은 상위 공급자 중 하나를 선택하고 제품을 그 API 위에 직접 쌓았다. 이 방식은 초반 개발은 빠르지만, usage scale이 커질수록 비용 급등과 특정 벤더 장애에 취약해진다. 반대로 routing layer를 두면 품질이 아주 중요할 때만 비싼 모델을 쓰고, 중간 단계나 덜 민감한 요청은 저렴한 모델로 내려보낼 수 있다.
이는 과거 클라우드 인프라에서 멀티클라우드, CDN, API gateway가 등장했던 흐름과 비슷하다. 모델 공급자가 계속 늘고 가격 변동성이 큰 현재 환경에서는, 애플리케이션 경쟁력이 base model 자체보다 orchestration quality에 의해 결정될 가능성이 높다. 특히 에이전트형 제품은 한 번의 사용자 요청이 여러 하위 호출로 분해되므로 routing 계층의 경제성이 더 커진다.
의미
산업적으로는 AI 시장의 가치 사슬이 모델 제공자와 앱 제공자 사이에서 다시 한 번 분화되고 있다는 신호다. routing startup의 부상은 LLM이 전기처럼 commoditize된다는 뜻은 아니지만, 최소한 기업 구매 기준이 가장 좋은 모델에서 가장 통제 가능한 조합으로 이동하고 있음을 보여준다.
실무적으로는 AI 제품 조직이 cost observability와 fallback policy를 아키텍처 초기 단계부터 넣어야 한다. 토큰 비용이 매출 구조를 직접 압박하는 제품이라면, 앞으로는 prompt optimization보다 routing policy optimization이 더 큰 수익성 차이를 만들 수 있다.