PickleeAI와 개발, 오늘 볼 변화만
홈읽을거리아카이브
검색

Picklee

AI와 개발 현장에서 오늘 확인할 변화만 선별합니다.

© 2026 Picklee. All rights reserved.

RSSSitemap

읽을거리

2026년 5월 4일

ReasoningBank: Enabling agents to learn from experience

Google Research는 2026년 4월 21일 ReasoningBank를 공개했다. 이 프레임워크는 에이전트의 성공·실패 경험을 구조화된 reasoning memory로 증류하고, memory-aware test-time scaling(MaTTS)과 결합해 WebArena와 SWE-Bench-Verified에서 성공률과 효율을 함께 끌어올렸다.

본문 읽기원문 보기

발행일

2026년 5월 4일

업데이트

2026년 5월 4일

주제

AI
에이전트
트렌드
원문 보기

배경 및 맥락

에이전트 시스템이 web navigation, software engineering, document workflow 같은 장기 과제를 맡기 시작하면서 병목은 단발성 reasoning보다 반복 학습 부재로 이동하고 있다. 기존 agent는 같은 유형의 실수를 여러 세션에서 반복하고, exploration 과정에서 얻은 교훈을 구조화해 다음 작업에 재사용하지 못하는 경우가 많았다. 이 한계 때문에 실제 운영 환경에서는 모델 자체보다 memory 설계가 성능 차이를 크게 만들기 시작했다.

Google Research의 ReasoningBank는 이 문제를 해결하려는 접근이다. 핵심은 실행 궤적 전체를 저장하는 대신, 성공과 실패에서 공통적으로 재사용 가능한 reasoning pattern을 뽑아 structured memory로 축적하는 것이다.


핵심 내용

공식 소개에 따르면 ReasoningBank는 각 메모리 항목을 title, description, content 형태의 구조화된 reasoning asset으로 저장한다. 에이전트는 작업 전에 관련 memory를 불러와 컨텍스트에 넣고, 실행 후에는 LLM-as-a-judge를 활용해 trajectory를 평가해 success insight와 failure reflection을 새 메모리로 추가한다. 중요한 차별점은 실패 경험을 적극적으로 학습 자원으로 쓴다는 점이다.

Google은 이를 memory-aware test-time scaling(MaTTS)과 결합했다. Parallel scaling에서는 여러 trajectory를 비교해 더 강한 전략을 추출하고, sequential scaling에서는 단일 trajectory 내부의 점진적 개선 과정을 메모리로 환원한다. Gemini-2.5-Flash 기반 평가에서 ReasoningBank는 WebArena에서 memory-free baseline 대비 성공률 8.3%p 향상, SWE-Bench-Verified에서 4.6%p 향상, 그리고 SWE-Bench-Verified에서 task당 거의 3 step 절감 효과를 보였다. MaTTS를 더하면 WebArena에서 추가 3%p 개선과 0.4 step 절감이 이어졌다.


경쟁 구도 / 비교

기존 memory 접근은 trajectory memory처럼 모든 행동을 보관하거나, 성공 사례만 요약하는 workflow memory에 가까웠다. ReasoningBank는 두 방식 모두가 tactical foresight를 잃거나 failure signal을 버린다고 본다. 이 관점은 최근 agent engineering이 컨텍스트 길이 확장보다 memory quality와 retrieval structure를 더 중시하는 흐름과 맞닿아 있다.

또한 test-time scaling을 단순 다중 샘플링이 아니라 운영 중 경험 축적 장치로 해석한 점이 중요하다. 이는 agent product의 차별화가 base model뿐 아니라 runtime memory loop와 evaluation loop에서 발생할 수 있음을 시사한다.


의미

산업적으로는 persistent agent의 경쟁력이 이제 reasoning token을 얼마나 더 쓰느냐보다, 그 토큰 사용 결과를 다음 작업의 자산으로 얼마나 잘 보존하느냐로 이동하고 있다. 향후 enterprise agent 플랫폼은 vector retrieval보다 strategy memory와 failure replay를 핵심 기능으로 내세울 가능성이 크다.

실무적으로는 agent 운영팀이 memory schema, retrieval 정책, 실패 반성 기록, self-judge 품질 검증을 제품 일부로 다뤄야 한다. 좋은 agent는 더 길게 생각하는 agent가 아니라, 생각한 결과를 구조화해 다음 실행을 바꾸는 agent가 될 가능성이 높다.

이어 읽기

관련 읽을거리

전체 보기
2026년 6월 25일Claude Tag - Slack-native team agents move from private assistants to shared workspacesAnthropic은 Slack에서 @Claude를 태그해 팀 단위로 작업을 위임하는 Claude Tag beta를 공개했다. Claude Enterprise와 Team 고객 대상이며, channel-scoped memory, tool/data/codebase access, ambient updates, spend limits, activity logs를 제공한다.2026년 6월 23일Fika Jobs - AI interview agents expose the product-risk tradeoff in hiring automationTechCrunch는 Stockholm 기반 Fika Jobs가 AI interview agents와 short-form video profiles를 결합한 hiring platform으로 400만 달러 pre-seed를 유치했다고 보도했다. 후보자는 LinkedIn profile을 연결하고 Gemini 기반 agent가 생성한 약 10분 interview를 수행하며, Fika는 이를 짧은…2026년 6월 22일MosaicLeaks - deep research agents can leak private facts through harmless-looking searchesServiceNow와 Hugging Face는 deep research agent가 private local documents와 web retrieval을 함께 사용할 때 외부 검색 쿼리만으로 민감 정보가 새는 MosaicLeaks 문제를 제시했다. 제안한 PA-DR training은 strict chain success를 48.7%에서 58.7%로 올리면서…2026년 6월 21일Cloudflare Temporary Accounts — coding agents can deploy Workers without human signup flowCloudflare는 2026년 6월 19일 AI agents가 wrangler deploy --temporary로 계정 생성, OAuth, API token 발급 없이 Workers를 배포할 수 있는 Temporary Accounts 기능을 공개했다. 배포된 Worker는 60분 동안 유지되며, 사용자가 claim하면 영구 계정으로 전환할 수 있다.