HF Jobs vLLM server - throwaway OpenAI-compatible endpoints get pay-per-second GPUs
Hugging Face는 HF Jobs에서 vLLM server를 한 번의 CLI 명령으로 띄워 private OpenAI-compatible LLM endpoint를 만들 수 있는 흐름을 공개했다. 서버 프로비저닝이나 Kubernetes 없이 pay-per-second GPU 인프라에서 테스트, eval, batch generation 용도로 빠르게 사용할 수 있다는 점을 전면에 내세웠다.