PickleeAI와 개발에 대한 짧은 노트
홈아티클아카이브검색

끝까지 읽는 글

AI와 개발에 관한 변화 중에서 블로그처럼 오래 읽을 수 있는 글만 골라 정리합니다.

© 2026 Picklee

RSSSitemap

글

2026년 5월 8일수정 2026년 5월 8일원문

Introducing OS Level Actions in Amazon Bedrock AgentCore Browser — 브라우저 에이전트가 DOM 자동화를 넘어 OS 제어로 확장

AWS는 2026년 5월 5일 Amazon Bedrock AgentCore Browser에 OS Level Actions를 추가했다. 이제 agent는 InvokeBrowser API를 통해 mouse click, move, drag, scroll, key type, key press, shortcut, screenshot 등 8개 액션을 사용해 DOM 바깥의 native dialog와…

AI
에이전트
개발도구
API

배경 및 맥락

브라우저 에이전트는 지난 1년 동안 빠르게 발전했지만, 실제 운영에서는 여전히 자주 막히는 구간이 있었다. DOM 기반 자동화는 폼 입력, 버튼 클릭, 텍스트 추출에는 강하지만, 인쇄 대화상자, 인증서 선택창, 브라우저 권한 프롬프트, 우클릭 메뉴처럼 운영체제가 그리는 UI에는 접근하지 못했다. 테스트 환경에서는 잘 되는데 production에서만 깨지는 이유가 여기에 있었다.

AWS는 이 공백을 단순한 편의 기능이 아니라 런타임 구조 문제로 다루고 있다. 에이전트가 화면을 보고 판단할 수 있는데 실제로는 클릭할 수 없는 상태를 없애기 위해, OS surface 자체를 agent action 대상에 포함시켰다.


핵심 내용

OS Level Actions는 AgentCore Browser session 안에서 InvokeBrowser API로 호출된다. AWS는 mouseClick, mouseMove, mouseDrag, mouseScroll, keyType, keyPress, keyShortcut, screenshot의 8개 액션을 제공하며, screenshot은 full OS desktop을 base64 PNG로 반환한다. 핵심 실행 패턴은 action -> screenshot -> reaction이다. 에이전트가 액션을 실행하고, 바뀐 전체 화면을 다시 캡처한 뒤, vision model이 다음 액션을 결정하는 방식이다.

문서상으로는 브라우저의 web layer를 넘어 native dialogs, OS modals, browser chrome, certificate chooser 같은 요소까지 다룰 수 있다. 특히 keyboard shortcut과 right-click context menu가 공식 지원되는 점은 기존 DOM 자동화 대비 실전성이 크게 높아졌다는 뜻이다.


경쟁 구도 / 비교

Playwright와 CDP는 여전히 웹 자동화의 핵심 도구지만, 본질적으로 DOM 밖 OS 요소를 다루는 데 한계가 있다. 별도 desktop automation을 섞어 해결할 수는 있었지만, 브라우저 세션 컨텍스트와 observability가 분리되는 문제가 있었다. AgentCore Browser는 이를 하나의 managed browser runtime 안에 합치려 한다.

즉 경쟁 포인트가 웹 페이지를 얼마나 잘 읽느냐에서 웹과 OS가 섞인 실제 사용자 환경을 얼마나 끝까지 완주하느냐로 이동하고 있다. 이는 browser agent가 단순 테스트 자동화보다 훨씬 넓은 workflow automation 시장으로 확장될 수 있음을 의미한다.


의미

기술적으로는 browser agent가 더 이상 DOM automation wrapper가 아니라 computer-use runtime에 가까워지고 있다. vision loop, coordinate actions, session state, native UI handling이 기본 기능으로 편입되면, 웹 기반 업무 자동화의 적용 범위가 크게 넓어진다.

실무적으로는 product team과 platform team이 production 브라우저 플로우를 설계할 때 OS prompt, certificate flow, print/export, clipboard 대체 경로 같은 비웹 표면까지 acceptance 범위에 넣어야 한다. 앞으로 robust browser agent의 기준은 selector 성공률이 아니라 전체 세션 완료율이 된다.

더 읽기

같이 읽어볼 만한 글

전체 글 보기
2026년 5월 1일

The AI engineering stack we built internally — agent 도입 경쟁이 모델 선택에서 사내 infra maturity로 이동

Cloudflare는 2026년 4월 20일 자사 내부 AI engineering stack을 공개하며, 최근 30일 기준 R&D 조직의 93%가 사내 AI 코딩 도구를 사용했고 AI Gateway를 통해 241.37B tokens, Workers AI에서 51.47B input tokens를 처리했다고 밝혔다. 다음 단계로는 MCP portal, git, test runner를 그대로…

2026년 4월 11일

Dataverse Skills 공개 — 엔터프라이즈 로우코드 플랫폼이 이제 '에이전트가 조작 가능한 시스템'이 되기 시작했다

Microsoft는 2026년 4월 1일 Dataverse Skills를 공개했다. GitHub Copilot과 Claude Code용 오픈소스 플러그인으로, Dataverse 환경 탐색, PAC CLI 인증, MCP 등록, 스키마 설계, 데이터 적재, 분석 질의를 자연어 기반 에이전트 루프로 묶는다. 🔍 왜 주목해야 하나 이 발표의 본질은 로우코드 플랫폼도 이제 사람 UI가 아니라…

2026년 5월 8일

Agents that transact: Introducing Amazon Bedrock AgentCore Payments, built with Coinbase and Stripe — 에이전트 경제가 결제 실험에서 런타임 인프라로 이동

AWS는 2026년 5월 7일 Amazon Bedrock AgentCore Payments preview를 발표했다. 이 기능은 AI agent가 APIs, MCP servers, web content, 다른 agents 같은 유료 리소스에 접근할 때 Coinbase·Stripe 기반 지갑을 통해 실행 루프 안에서 즉시 micropayment를 처리하고, 세션별 spending limit와…

2026년 5월 7일

Enterprise-managed plugins in GitHub Copilot CLI are now in public preview — 코딩 에이전트 도입이 개인 설정에서 중앙 통제형 배포로 이동

GitHub는 2026년 5월 6일 Enterprise-managed plugins가 GitHub Copilot CLI에서 public preview에 들어갔다고 발표했다. 관리자는 .github-private/.github/copilot/settings.json을 통해 플러그인 마켓플레이스, 자동 설치 플러그인, 항상 활성화할 hooks와 MCP 구성을 중앙에서 배포할 수 있다. 🔍 왜…