Feature Article
Meta KernelEvolve 공개 — AI 에이전트가 GPU 커널 최적화, 수주 작업을 수 시간으로
Meta는 AI 에이전트 기반 커널 최적화 시스템 KernelEvolve를 공개했다. NVIDIA GPU, AMD GPU, Meta MTIA, CPU를 아우르는 이기종 하드웨어에서 프로덕션 수준의 커널을 자동 생성·최적화하며, 광고 모델 인퍼런스 처리량을 수 시간 만에 60% 향상시켰다. 🔍 왜 주목해야 하나 기존 LLM 기반 코드 생성은 one-shot에 가까웠지만,…
배경 및 맥락
GPU 커널은 AI 취대를 돌리는 핵심 저수준 코드다. CUDA 커널 특화 엔지니어는 하드웨어의 메모리 밴드움스, SM 개수, 캐시 계층, 연산 유형을 정밀하게 고려해 수주~수 주의 반복 테스트와 튜닝을 거친다. Meta와 같이 NVIDIA GPU, AMD GPU, 자체 MTIA, CPU가 혹잡하는 이기종 환경에서는 이 문제가 한층 복잡해진다.
2025년 말 Meta는 Ranking Engineer Agent(REA)를 공개하며 AI가 광고 랭킹 모델의 코드 변경을 자동화하는 시도를 시작했다. KernelEvolve는 그 다음 단계로, 예엥 커널 코드를 직접 생성하고 탐색하는 자동화를 구현한 시스템이다.
핵심 내용
시스템 동작 방식:
- 커널 코드 생성 문제를 '최적화 검색 문제'로 구성
- LLM을 활용해 수맹 개의 커널 구현 소후보 생성
- 각 구현을 실제 하드웨어에서 실행 + 성능 측정
- 성능 피드백을 반영해 다음 반복 실행
- 인간 전문가 수준과 동등하거나 초과하는 커널을 선택해 배포
성과:
- 광고 모델 인퍼런스 처리량 60% 향상 (인간 전문가 수주~수 주 vs KernelEvolve 수 시간)
- 대상 하드웨어: NVIDIA GPU, AMD GPU, MTIA, CPU
- 프로덕션 환경: Meta 수조 건/일 인퍼런스 트래픽 코드에 적용 중
- 논문: ISCA 2026 (53회 국제 컴퓨터 아키텍쳐 심포지엄) 발표
경쟁 구도 / 비교
KernelEvolve와 비싷한 접근법을 취하는 프로젝트:
- OpenAI Triton: Python 기반으로 침럭 수준 커널을 작성하는 컴파일러 프레임워크
- MLIR: 이기종 하드웨어 코드 생성 파이프라인
- vLLM Model Runner V2: 오픈소스 LLM 취대 실행 코어
KernelEvolve의 차별점은 (1) 에이전트 기반 멀티라운드 탐색, (2) 하드웨어 실행 반복을 통한 성능 실증 기반 선택, (3) Meta 프로덕션 환경에서 실제 검증에 있다.
의미
KernelEvolve는 'AI가 AI 인프라를 스스로 최적화하는' 메타 루프의 실증 사례다. 단순한 one-shot 코드 생성이 아니라 하드웨어와의 실제 인터랙션 피드백 루프를 통해 성능을 검증하는 접근법은 소프트웨어 엔지니어링의 다음 파라다임을 예고한다.
만약 이 시스템이 오픈소스화되거나 유사한 접근법이 vLLM, Triton 등 커뮤니티 도구에 통합된다면, 소규모 ML 팀도 인퍼런스 커널을 수동으로 튜닝하지 않고 자동 최적화할 수 있는 시대가 추진될 것이다.