아카이브
최신 글을 차례대로 훑기 쉽게 정리했습니다. 제목, 날짜, 짧은 설명부터 읽고 필요할 때만 태그나 카테고리로 더 좁혀볼 수 있습니다.
현재 보기
40개 글 · #API / 2026
Snowflake는 2026년 4월 21일 Snowflake Intelligence와 Cortex Code 업데이트를 발표하며, enterprise AI의 control plane 포지션을 강화했다. Cortex Code는 AWS Glue·Databricks·Postgres 지원 확대, MCP/ACP 연동, VS Code extension과 Claude Code plugin,…
Cloudflare는 2026년 4월 20일 자사 내부 AI engineering stack을 공개하며, 최근 30일 기준 R&D 조직의 93%가 사내 AI 코딩 도구를 사용했고 AI Gateway를 통해 241.37B tokens, Workers AI에서 51.47B input tokens를 처리했다고 밝혔다. 다음 단계로는 MCP portal, git, test runner를 그대로…
Google은 2026년 4월 15일 Google AI Studio용 Gemini API Prepay Billing을 발표했다. 신규 Google Cloud Billing Account를 여는 미국 사용자부터 선불 크레딧 기반 결제를 쓸 수 있고, 자동 충전과 함께 남은 잔액을 기준으로 API 호출 비용을 관리하게 해 spend predictability를 높이겠다는 내용이다. 🔍 왜…
Voicebox는 음성 복제, 다국어 TTS, 후처리 효과, 멀티 보이스 편집을 한곳에서 다루는 로컬 우선 음성 합성 스튜디오다. 클라우드형 음성 서비스의 대안으로 제시되며, 여러 TTS 엔진을 바꿔가며 테스트하고 REST API로 앱에 붙일 수 있게 설계됐다. 볼 만한 이유는 단순한 모델 데모가 아니라 실제 제작 워크플로우에 가까운 구조를 갖췄기 때문이다. 몇 초짜리 샘플로 보이스…
Microsoft는 2026년 4월 8일 SQL MCP Server를 공개했다. Data API builder 기반의 이 서버는 Microsoft SQL, PostgreSQL, Azure Cosmos DB, MySQL을 지원하며, RBAC·Key Vault·OpenTelemetry·REST/GraphQL/MCP 동시 노출과 함께 AI agent용 고정 DML 도구 집합을 제공한다. 🔍 왜…
Microsoft는 2026년 4월 10일 Azure MCP Server 2.0 stable을 발표했다. 이번 릴리즈는 57개 Azure 서비스에 걸친 276개 MCP tools를 제공하며, 핵심 변화로 self-hosted remote MCP server, managed identity·OBO 기반 인증, 보안 강화, sovereign cloud 대응을 내세웠다. 🔍 왜 주목해야 하나…
Microsoft는 2026년 4월 1일 Dataverse Skills를 공개했다. GitHub Copilot과 Claude Code용 오픈소스 플러그인으로, Dataverse 환경 탐색, PAC CLI 인증, MCP 등록, 스키마 설계, 데이터 적재, 분석 질의를 자연어 기반 에이전트 루프로 묶는다. 🔍 왜 주목해야 하나 이 발표의 본질은 로우코드 플랫폼도 이제 사람 UI가 아니라…
Google이 4월 2~3일 Gemma 4를 Apache 2.0 라이선스로 공개했다. Effective 2B·4B·26B MoE·31B Dense 네 가지 크기로 제공되며, 256K 토큰 컨텍스트, 비전·오디오 네이티브 멀티모달, 140개 이상 언어를 지원한다. 🔍 왜 주목해야 하나 Gemma 4는 Gemini 3와 동일한 연구 기반으로 제작됐으면서 상업 제한 없는 Apache 2.0으로…
엔터프라이즈 BI 플랫폼 Domo가 AI Agent Builder, AI Toolkits, AI Library, Domo MCP Server로 구성된 AI 오케스트레이션 프레임워크를 발표했다. Domo MCP Server는 Claude, Gemini, ChatGPT 등 외부 AI 플랫폼이 Domo의 데이터·서비스·워크플로우에 MCP 표준으로 직접 접근할 수 있게 한다. 🔍 왜 주목해야…
MCP의 공식 레퍼런스 서버 모음. filesystem, fetch, git, memory 같은 예시 서버를 통해 LLM/에이전트가 외부 도구와 안전하게 연결되는 방식을 보여준다.
Microsoft의 모델 중립 SDK. agent, multi-agent workflow, plugin, MCP, vector DB를 함께 다루며 .NET/Python/Java를 지원한다.
Google은 2026년 3월 26일 Gemini 3.1 Flash Live를 공개하며 실시간 음성 대화용 모델을 Live API preview로 제공하기 시작했다. Google 발표에 따르면 이 모델은 ComplexFuncBench Audio에서 90.8%, Audio MultiChallenge에서 36.1%를 기록하며 다단계 함수 호출과 장기 오디오 추론 성능을 끌어올렸다. 🔍 왜…
Google은 Gemini API에 Flex(비용 50% 절감, 레이턴시 허용)와 Priority(표준 대비 75~100% 프리미엄, 최고 신뢰성) 두 가지 인퍼런스 티어를 추가했다. 기존 배치 API와 달리 Flex는 동기식 인터페이스로 동일 엔드포인트를 그대로 사용한다. 🔍 왜 주목해야 하나 API 가격 정책의 단순한 변경이 아니라, 에이전트 워크플로우 설계 패턴 자체를 바꾸는 인프라…
Google은 2026년 3월 31일 AI 비디오 생성 모델 Veo 3.1 Lite를 Gemini API와 Google AI Studio를 통해 출시했다. Veo 3.1 Fast 대비 50% 이하 비용으로 동일한 생성 속도를 제공하며, Text-to-Video와 Image-to-Video를 지원한다. 🔍 왜 주목해야 하나 AI 비디오 생성 API의 가장 큰 진입 장벽은 비용이었다. Veo…
Arcee AI가 2026년 4월 1일 Trinity-Large-Thinking을 공개했다. Apache 2.0 오픈웨이트 reasoning 모델로, long-horizon agent와 multi-turn tool calling에 초점을 맞췄고 PinchBench에서 Opus 4.6 바로 아래 2위를 기록했다고 밝혔다. 🔍 왜 주목해야 하나 이 모델의 의미는 단순히 또 하나의 오픈 모델이…
Google DeepMind가 2026년 4월 2일 Gemma 4를 공개했다. E2B, E4B, 26B MoE, 31B Dense 네 가지 크기로 출시됐고, Apache 2.0 라이선스 아래 reasoning, function calling, JSON output, vision/audio 입력까지 지원한다. 🔍 왜 주목해야 하나 Gemma 4의 포인트는 작은 오픈 모델을 단순 경량 대안이…
GitHub가 2026년 4월 2일 Copilot SDK를 public preview로 공개했다. Copilot cloud agent와 Copilot CLI를 구동하는 동일한 runtime을 Node.js/TypeScript, Python, Go, .NET, Java에서 쓸 수 있게 열어 주고, tool invocation, streaming, multi-turn session,…
Microsoft가 2026년 4월 2일 MAI-Transcribe-1, MAI-Voice-1, MAI-Image-2를 공개했다. 세 모델은 Microsoft Foundry와 MAI Playground에서 즉시 사용 가능하며, MAI-Transcribe-1은 상위 25개 언어 대상 음성 인식, MAI-Voice-1은 1초에 60초 분량 음성 생성, MAI-Image-2는 Copilot과…
Alibaba가 2026년 4월 2일 Qwen3.6-Plus를 공개했다. 기본 1M 토큰 컨텍스트 윈도우와 멀티모달 네이티브 지원, 리포지토리 수준 코딩 에이전트 기능을 갖췄으며, SWE-bench와 Terminal-Bench 2.0에서 Anthropic Claude Opus 4.5와 동등한 성능을 기록했다. 🔍 왜 주목해야 하나 이번 릴리즈는 Qwen 시리즈가 단순 벤치마크 경쟁을 넘어…
Google이 Gemini 3.1 Flash-Lite를 개발자 프리뷰로 출시했다. 입력 $0.25/1M 토큰(Pro의 1/8 수준), 출력 $1.50/1M 토큰이며, Gemini 2.5 Flash 대비 Time to First Token 2.5배 향상, 출력 속도 45% 향상을 달성하면서 핵심 성능 지표에서는 Gemini 2.5 Flash와 동등하다. 🔍 왜 주목해야 하나…
NVIDIA가 에이전트 워크로드 특화 오픈소스 모델 Nemotron 3 Super를 공개했다. Mamba-Transformer 하이브리드 MoE 아키텍처로 원래 1,200억 파라미터에서 활성 파라미터 120억만 사용, SWE-Bench Verified 60.47% 및 PinchBench 85.6%로 동급 오픈소스 최고 성능을 기록했다. 🔍 왜 주목해야 하나 Nemotron 3 Super는…
Linux Foundation이 Anthropic의 MCP, Block의 goose, OpenAI의 AGENTS.md를 함칠 에이전틱 AI 파운데이션(AAIF)을 출범했다. AWS, Google, Microsoft, Cloudflare 등이 플래티덧 멤버로 참여하며, MCP는 특정 기업 소유가 아닌 인터넷 인프라 수준의 중립 표준 프로토콜로 전환된다. 🔍 왜 주목해야 하나…
Google Research가 LLM의 KV 캐시 메모리를 6배 압축하면서 정확도 손실이 없는 알고리즘 TurboQuant를 공개했다. 16비트에서 3비트로의 훈련 없는(training-free) 압축으로 NVIDIA H100에서 최대 8배의 어텐션 연산 속도 향상을 달성하며, ICLR 2026 발표 예정이다. 🔍 왜 주목해야 하나 LLM 추론의 핵심 병목은 메모리 대역폭이며, KV 캐시…
OpenAI가 3월 5일 GPT-5.4를 출시했다. GPT-5.3 Codex의 코딩 역량을 메인라인 추론 모델에 통합한 것으로, 100만 토큰 컨텍스트 윈도우와 멀티스텝 에이전트 워크플로우 자율 실행 능력을 탑재했다. 실제 데스크톱 생산성 태스크를 시뮬레이션하는 OSWorld-V 벤치마크에서 75%를 기록, 인간 기준선(72.4%)을 AI 최초로 초과했다. 🔍 왜 주목해야 하나…
Google의 TurboQuant가 ICLR 2026에서 발표될 예정이다. LLM의 KV 캐시를 3~4비트로 압축해 메모리를 4~6배 절감하면서 정확도 손실이 전혀 없고, H100 GPU에서 32-bit 대비 최대 8배 처리량 향상을 달성한다. 🔍 왜 주목해야 하나 LLM 서빙 인프라의 주요 병목은 긴 컨텍스트 처리 시 KV 캐시가 GPU 메모리를 폭발적으로 소모하는 문제다.…
Mistral AI가 3월 26일 오픈소스 텍스트-음성 변환 모델 Voxtral TTS(4B 파라미터)를 출시했다. 9개 언어를 지원하고 5초 이하의 음성 샘플로 목소리를 복제하며, 첫 오디오 출력 지연(TTFA)이 90ms에 불과해 실시간 음성 에이전트 구현이 가능하다. 🔍 왜 주목해야 하나 TTS 시장은 ElevenLabs, Deepgram, OpenAI가 독점하다시피 한 유료 API…
NVIDIA가 에이전트 AI 특화 오픈 모델 Nemotron 3 패밀리를 출시했다. 플래그십인 Nemotron 3 Super는 120B 파라미터(활성 12B)의 Mamba-Transformer MoE 하이브리드 아키텍처를 채택해 Nemotron 2 대비 5배 처리량을 달성하고 1M 토큰 컨텍스트 윈도우를 지원한다. 🔍 왜 주목해야 하나 에이전트 AI 시스템에서 모델 선택의 핵심 기준은…
Google이 LLM의 KV-캐시를 채널당 3.5비트로 압쳙하는 오픈소스 양자화 기법 TurboQuant를 공개했다. 메모리 사용량을 최대 6배 줄이고 추론 속도를 대폭 향상시킨다. 🔍 왜 주목해야 하나 KV-캐시는 긴 컨텍스트를 처리할 때 VRAM 사용량이 폭발적으로 증가하는 핵심 병목 구간이다. TurboQuant이 INT8 기준(2배 절감)대비 3배나 나은 6배 메모리 절감을…
Anthropicの Model Context Protocol(MCP)이 2026년 3월 25일 기준 9,700만 설치를 달성했다. OpenAI, Google DeepMind, Cohere, Mistral 등 주요 AI 제공업체 모두 자사 에이전트 프레임워크에 MCP 지원을 통합 완료했다. 🔍 왜 주목해야 하나 9,700만 설치는 역대 AI 인프라 표준 중 가장 빠른 채택 속도로, MCP가…
프랑스 Mistral AI가 공개한 22B 파라미터의 Mistral Small 4가 추론 및 지시 수행 벤치마크에서 자신보다 3~5배 큰 클로즈드 모델들을 앞질렀다. Apache 2.0 라이선스로 제공되며 상업적 이용도 자유롭다. 🔍 왜 주목해야 하나 22B 모델이 60B~100B급 클로즈드 모델과 동급이거나 우세하다는 것은 오픈소스 진영의 기술력이 클로즈드 생태계를 본격적으로 위협하는…
Model Context Protocol(MCP) SDK의 월간 다운로드가 2026년 3월 기준 9700만 건을 돌파했다. 2024년 11월 Anthropic이 출시했을 당시 약 200만 건이었던 수치가 16개월 만에 4,750% 성장한 것으로, React npm 패키지가 1억 다운로드에 도달하는 데 걸린 3년 대비 절반의 시간이다. 🔍 왜 주목해야 하나 숫자 자체보다 구조적 변화가…
Mistral AI가 Mistral Small 4를 Apache 2.0 라이선스로 공개했다. 총 119B 파라미터의 MoE 아키텍처로 활성 파라미터는 6.5B에 불과하지만, 기존에 별도 모델로 운용하던 Magistral(추론), Pixtral(멀티모달), Devstral(에이전트 코딩) 세 가지 역량을 256K 컨텍스트 창 하나로 통합했다. 🔍 왜 주목해야 하나 이 릴리즈의 핵심은…
Mistral AI가 220억 파라미터 규모의 Mistral Small 4를 Apache 2.0 라이선스로 공개했다. 추론 및 지시 수행 벤치마크에서 파라미터 수가 3~5배 많은 클로즈드 모델 여러 개를 상회하는 성능을 보였다. 🔍 왜 주목해야 하나 "규모의 법칙(scaling law)"에 대한 기존 믿음이 흔들리고 있다. 22B 모델이 100B+ 규모 클로즈드 모델을 이기는 패턴이…
Nvidia GTC 2026에서 Jensen Huang은 AI 패러다임이 '프롬프트-응답' 챗봇에서 자율적으로 계획하고 행동하는 에이전트로 전환됐음을 선언했다. 에이전트 보안 레이어 NemoClaw와 오픈소스 에이전트 개발 플랫폼 NVIDIA Agent Toolkit을 공개하며, Salesforce·SAP·Adobe·ServiceNow 등 주요 엔터프라이즈 파트너와의 생태계를 구축했다.…
Anthropic의 최신 모델. 1M 토큰 컨텍스트(베타), 128k 토큰 출력, 적응형 사고, 컨텍스트 압축, Agent Teams 기능 추가.
MiniMax의 AI 음악 생성 플랫폼. Music 2.0으로 최대 5분 곡 생성, 초실감 보컬, 다중 악기 개별 컨트롤, 영화음악 스코어링 가능. 16개 스타일 × 11개 감정 × 10개 씨나리오. Suno/Udio 경쟁.
Mistral의 오픈소스(Apache 2.0) CLI 코딩 어시스턴트. Devstral 2(SWE-bench 72.2%) 기반. 터미널에서 자연어로 코드베이스 탐색/수정/실행. 프로젝트 컨텍스트 자동 인식, Git 상태 반영, 멀티파일 오케스트레이션. Claude Sonnet 대비 7배 비용 효율적. 현재 API 무료.
Tencent의 AI 3D 생성 플랫폼. 텍스트/이미지/스케치로 고품질 3D 에셋 생성. 2단계 DiT 아키텍처(형태→텍스처 분리). 며칠 걸리던 작업을 분 단위로 단축. OBJ/GLB 출력, Unity/Unreal/Blender 호환. HuggingFace 260만+ 다운로드. 무료 20회/일 제공.
Google의 Gemini 3 Flash에 추가된 Agentic Vision 기능. 이미지를 단순히 '보는' 게 아니라 Think→Act→Observe 루프로 능동적으로 '조사'함. 코드 실행으로 이미지를 확대/크롭/분석하며 추론 근거를 시각적으로 제시. 비전 벤치마크에서 5-10% 성능 향상. GPQA Diamond 90.4%, SWE-bench 78% 달성.
중국 AI 스타트업 MiniMax의 AI 에이전트. 코딩, 분석, 멀티모달(이미지/영상/음성) 생성 지원. 100만 토큰 컨텍스트의 MiniMax-M1 모델 기반. 자연어로 복잡한 작업 수행 가능.