글
Autoresearch - Karpathy의 AI 자동 LLM 훈련 실험 프레임워크
AI 에이전트가 자율적으로 LLM 훈련 실험을 수행하는 프레임워크. 5분 단위 훈련 후 성능 평가/반복. 수면 중 ~100회 실험 가능. GitHub 43.9k⭐
배경 및 맥락
LLM의 성장으로 모델 훈련 방식도 급변하고 있다. 기존에는 연구자가 수작업으로 데이터, 하이퍼파라미터, 아키텍처 등을 튜닝했지만, 이제는 AI가 AI의 훈련을 최적화하는 메타러닝 패러다임이 등장했다. OpenAI의 o1(Chain-of-Thought 구조 자동 최적화), DeepSeek의 적응형 학습, Google의 AutoML 계열 연구들이 이 흐름을 대표한다. 이 맥락에서 Karpathy의 Autoresearch는 "개인의 노트북에서 자야하는 밤에 AI가 100회 이상의 LLM 훈련 실험을 자율적으로 수행한다"는 명확한 비전을 제시해 주목받고 있다. 이는 개인 연구자도 대규모 실험을 할 수 있게 하는 democratization 도구로서의 의미를 갖는다.
핵심 내용
3가지 파일 기반 아키텍처
Autoresearch는 의도적으로 3개 파일로만 구성되어 있다:
- prepare.py (고정): 데이터 다운로드, 토크나이저 설정, 배치 로딩 로직. 이 파일은 수정 불가능하도록 설계되어 공정한 비교를 보장한다.
- train.py (에이전트 수정 대상): 모델 아키텍처(임베딩 차원, 레이어 수, 어텐션 메커니즘), 옵티마이저(Adam vs SGD, 학습율), 훈련 루프(gradient accumulation, 정규화). 이것만 AI가 수정한다.
- program.md (사용자 지시): AI 에이전트에게 "어떻게 최적화할 것인가"에 대한 자연어 지시사항. 사용자가 수정해 에이전트의 방향을 제어한다.
훈련 사이클: 5분 타임박스
각 실험은 정확히 5분만 훈련된다. 이는 단순한 시간 제한이 아니라 공정한 하드웨어 최적화를 위한 설계다:
1. AI가 train.py 수정 (예: 레이어 추가)
2. 정확히 5분 훈련 실행
3. val_bpb(validation bits per byte) 측정
4. 개선 여부 판단 → 유지 또는 롤백
5. 다음 변경 시도로 반복
이 구조로:
- 시간당 약 12회 실험 가능 (가벼운 변경)
- 수면 중 약 100회 실험 가능 (8시간 기준)
디자인 철학의 핵심
Scope Containment: 에이전트가 수정할 수 있는 범위를 train.py 하나로 제한함으로써:
- 변경 내용을 쉽게 리뷰 가능
- 버그 추적이 명확함
- 재현성 확보
Hardware-Agnostic Fairness: 고정된 5분 예산 덕에 같은 코드가 H100, A100, RTX 4090 등 어떤 GPU에서든 동일하게 비교 가능하다. 그 대신 작은 모델에서는 vocabulary 줄이기, 레이어 수 감소 등으로 스케일을 맞춘다.
Self-Contained Stack: PyTorch와 nanochat(초경량 GPT 구현) 외에는 최소한의 의존성. 이는 설치 복잡도를 낮추고, 재현성을 높인다.
기술 스택
Python 3.10+
├─ uv (빠른 패키지 관리)
├─ PyTorch (훈련 엔진)
└─ nanochat (GPT 기본 구현)
MIT 라이선스, GitHub 43.9k 스타 (개발자 공감도 높음).
경쟁 구도 / 비교
| 측면 | Autoresearch | Ray Tune + Optuna | Weights & Biases | HuggingFace AutoTrain |
|---|---|---|---|---|
| 실행 주체 | AI 에이전트 | 하이퍼파라미터 최적화 | 실험 추적/시각화 | GUI 기반 자동화 |
| 코드 작성 | 필요 (프롬프트) | 필요 (Python) | 필요 (Python) | 불필요 |
| 개인용 가능 | 매우 용이 | 중간 | 구독 모델 | 중간 |
| 학습가능성 | AI 학습 기능 | 수정자 의존 | 추적만 | GUI만 |
| 투명성 | 높음 (코드 공개) | 높음 | 낮음 (SaaS) | 중간 |
Autoresearch가 차별화되는 지점:
- 완전 개방: 코드 수정 가능, 프라이빗 실행 가능
- 에이전트 학습: 각 결과에서 피드백을 받아 다음 실험을 자동으로 개선
- 최소 의존성: 개인 노트북에서 즉시 실행 가능
- 재현성 높음: 같은 train.py, 같은 5분 예산으로 동일한 결과
의미
Autoresearch는 **메타-러닝(AI가 자신의 훈련 방식을 최적화)**이 더 이상 거대 조직의 전유물이 아니라 개인 연구자도 접근 가능하다는 신호다. Karpathy는 "개인이 밤새 100번 이상 자동 실험을 수행할 수 있으면, 거대 조직과의 격차가 줄어든다"는 철학을 보여준다.
산업적으로는:
- LLM 훈련의 민주화: 데이터만 있으면 누구나 최적화된 모델을 얻을 수 있다는 의미
- 오픈소스 에이전트 연구의 활성화: 개인 연구자들의 메타-러닝 실험이 본격화될 것
- 하이퍼파라미터 튜닝 자동화의 대중화: 기존 AutoML 도구들의 진화 방향을 제시
장기적으로는 Autoresearch 같은 자율 실험 시스템이 "모델 훈련 비용의 민주화"로 이어져, 개인과 소규모 팀의 AI 모델 개발이 더욱 활성화될 것으로 예상된다.