PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 7월 2일

Etched frontier inference clusters - transformer ASIC startup moves toward rack-scale production

Etched가 frontier inference cluster 전략을 공개하며 TSMC N4P A0 silicon, 첫 rack-scale product 검증, USD 1B 이상 demand, USD 800M 누적 조달을 밝혔다. 회사는 Low Voltage Inference와 Cluster Scale Memory를 통해 frontier model의 prefill·decode…

본문 읽기원문 보기

발행일

2026년 7월 2일

업데이트

2026년 7월 2일

주제

AI
산업
모델
원문 보기

배경 및 맥락

LLM 운영 비용의 중심은 training에서 inference로 빠르게 이동하고 있다. 사용자 수가 늘고 agent workflow가 길어지면 prefill, decode, long context, multi-step tool use가 모두 GPU 시간을 소비한다. NVIDIA GPU는 범용성과 생태계 측면에서 강하지만, 특정 inference workload만 반복적으로 처리하는 hyperscale 환경에서는 전용 ASIC과 rack-level co-design이 매력적인 대안이 된다.

Etched는 transformer ASIC으로 알려진 회사였지만, 이번 메시지는 단일 chip보다 frontier inference cluster 전체를 강조한다. chip, rack, software, manufacturing method를 함께 설계해 latency, throughput, power efficiency, cost를 동시에 잡겠다는 방향이다.


핵심 내용

Etched는 A0 silicon이 TSMC N4P 공정에서 돌아왔고, 첫 rack-scale product를 고객과 검증 중이라고 밝혔다. 회사는 400명 이상의 엔지니어 팀, USD 800M 누적 조달, VentureTech Alliance 전략 투자, USD 1B 이상 demand를 언급했다. 첫 racks는 올해 여름 출하하고, USD 1B 이상 customer contracts를 이행하기 위해 생산을 시작했다고 설명한다.

기술적으로는 두 축을 내세운다. Low Voltage Inference는 math block을 일반 AI chip보다 낮은 전압에서 구동해 thermal throttling 없이 높은 FLOPs density를 목표로 한다. Cluster Scale Memory는 scale-up domain 전체에 낮은 latency의 shared memory pool을 만들고, HBM/SRAM hybrid design과 proprietary interconnect로 decode latency와 memory movement 병목을 줄이려는 접근이다.


경쟁 구도 / 비교

NVIDIA GPU는 CUDA, vLLM, TensorRT-LLM, cloud availability라는 강력한 생태계를 갖고 있다. 반면 Etched 같은 ASIC 접근은 workload가 transformer inference 중심으로 충분히 안정적이고, 고객이 toolchain과 deployment 방식을 바꿀 만큼 비용 절감 또는 latency 이득이 커야 성립한다.

Groq, Cerebras, hyperscaler custom silicon, cloud TPU, AWS Inferentia 같은 대체 accelerator도 같은 문제를 겨냥한다. 차이는 어느 계층에서 최적화하느냐다. Etched는 chip만이 아니라 voltage, package, memory, interconnect, cooling, production footprint를 묶어 rack 단위의 Pareto frontier를 이동시키겠다고 주장한다.


의미

AI 인프라 시장은 더 이상 GPU를 얼마나 확보하느냐만의 문제가 아니다. decode-heavy chatbot, long-context coding agent, many-trillion-parameter MoE serving처럼 workload profile이 갈라지면서 hardware choice도 세분화된다. 이 과정에서 batch size, prefill/decode ratio, memory bandwidth, power cap, data center thermal design이 제품 latency와 margin을 직접 좌우한다.

실무적으로는 Etched를 곧바로 GPU 대체재로 가정하기보다, 자체 traffic trace로 baseline을 먼저 만들어야 한다. 모델 architecture가 MoE, SSM, diffusion, multimodal로 바뀔 때 ASIC이 얼마나 유연한지, compiler와 runtime이 기존 observability·scheduler와 통합되는지, 공급 일정과 장애 대응이 감당 가능한지까지 확인해야 한다.

이어 읽기

관련 읽을거리

전체 보기
2026년 4월 15일Hugging Face State of Open Source Spring 2026 — 오픈 모델 경쟁의 축이 성능에서 주권·배포·파생 생태계로 이동Hugging Face는 2026년 봄 오픈소스 AI 리포트를 통해 2025년 신규 trending model의 다수가 China에서 개발되었거나 China-origin 모델 파생형이었고, Alibaba의 Qwen 계열은 11만 3천 개 이상의 derivative models를 만들었다고 정리했다. 또 1-9B급 모델의 상위군은 100B+ 모델 대비 median 기준 약 4배 높은…2026년 4월 5일PrismML, Bonsai 1-bit LLM 출시 — 1GB 메모리로 8B 추론, 엣지 AI의 현실화PrismML이 4월 3일 스텔스에서 등장해 세계 최초 상업적으로 실행 가능한 1-bit LLM 패밀리 Bonsai를 Apache 2.0으로 공개했다. 플래그십인 Bonsai 8B는 1.15GB 메모리에 구동되며, FP16 8B 모델 대비 14배 소형·8배 빠른 속도·5배 낮은 에너지 소비를 달성하면서 추론 품질은 동급 수준을 유지한다.2026년 4월 3일NVIDIA Blackwell Ultra, MLPerf Inference v6.0 신기록 — 288 GPU로 DeepSeek-R1 초당 249만 토큰 처리NVIDIA Blackwell Ultra(GB300 NVL72 4시스템, 총 288 GPU)가 MLPerf Inference v6.0에서 DeepSeek-R1 오프라인 처리량 기준 초당 249만 토큰을 기록하며 6개월 전 대비 최대 2.77배 향상된 성능으로 전 카테고리를 석권했다. 이번 벤치마크에 Qwen3-VL-235B, GPT-OSS-120B, 텍스트-투-비디오(WAN-2.2) 등…2026년 3월 31일OpenAI, $1,200억 역대 최대 평더링 완료 — Amazon $500억 주도, 기업가치 $7,300억 돌파OpenAI가 Amazon $500억, Nvidia·SoftBank 각 $300억 등으로 구성된 총 $1,200억 평더링 라운드를 마무리했다. Pre-money 기업가치 $7,300억으로, 2026년 AI 산업 내 최대 단일 투자 이벤트다.