ReasoningBank: 에이전트가 경험에서 학습하도록 하는 메모리 프레임워크
요약
ReasoningBank는 에이전트가 성공과 실패 경험을 모두 활용해 일반화 가능한 추론 전략을 학습하고, 이를 통해 실제 문제 해결 능력을 효율적이고 효과적으로 높이는 혁신적인 메모리 프레임워크예요.
인사이트
- **실패로부터의 학습**: ReasoningBank는 기존 메모리 시스템과 달리, 에이전트의 실패 경험까지 적극적으로 분석하여 예방적 교훈을 추출하고 강력한 전략적 안전장치를 구축해요.
- **고수준의 구조화된 메모리**: 에이전트의 상세 행동 궤적 대신, 핵심 전략을 요약한 제목, 설명, 구체적인 추론 단계가 담긴 구조화된 메모리를 생성하여 학습 및 재사용 효율성을 극대화해요.
- **MaTTS(메모리 인식 테스트 시점 스케일링)와의 시너지**: ReasoningBank는 풍부한 탐색 과정을 고품질 메모리로 전환하여 MaTTS의 효율적인 스케일링을 지원하고, MaTTS는 더 많은 학습 신호를 ReasoningBank에 제공하여 에이전트의 지속적인 성능 향상과 전략적 성숙을 촉진해요.
왜 중요한가
기존 에이전트들은 배포 후 경험에서 학습하고 스스로 진화하는 데 큰 한계가 있었어요. ReasoningBank는 성공뿐만 아니라 실패 경험까지 체계적으로 학습해서 에이전트가 같은 실수를 반복하지 않고, 더욱 스마트하고 효율적으로 실제 문제를 해결하며 지속적으로 발전할 수 있는 길을 열어줘요. 이는 에이전트 기술이 현실 세계에서 더욱 복잡하고 장기적인 역할을 수행하는 데 필수적인 기반이 될 거예요.
ReasoningBank: 에이전트가 경험에서 배우고 성장하게 돕는 똑똑한 비결!
2026년 4월 21일
준 얀(Jun Yan), 첸-유 리(Chen-Yu Lee), 구글 클라우드 리서치 사이언티스트
ReasoningBank는 성공 및 실패 경험을 활용해서 일반화 가능한 추론 전략을 추출하는 새로운 에이전트 메모리 프레임워크예요. 이걸 사용하면 에이전트가 배포된 후에도 경험을 통해 계속해서 학습할 수 있게 돼요.
바로가기
공유
에이전트들은 일반적인 웹 탐색부터 복잡한 소프트웨어 엔지니어링 코드베이스를 돕는 일까지, 현실 세계의 어려운 작업들을 해결하는 데 점점 더 중요해지고 있어요. 하지만 이 에이전트들이 실제 세상에서 장기적으로 지속되는 역할을 맡게 되면서 치명적인 한계에 부딪히게 되는데요. 바로 배포 후에 성공했거나 실패했던 경험들을 분석하고 거기서부터 배우는 걸 어려워한다는 점이죠.
메모리 메커니즘 없이 새로운 작업에 접근하는 에이전트들은 똑같은 전략적 실수를 반복하고, 가치 있는 통찰력을 버리게 될 거예요. 이런 문제를 해결하기 위해 과거 상호작용 정보를 재사용할 수 있도록 다양한 형태의 에이전트 메모리가 도입되었어요. 하지만 기존 방식들은 대체로 Synapse에서 사용되는 궤적 메모리(trajectory memory)처럼 모든 행동을 상세하게 기록하거나, 에이전트 워크플로 메모리(Agent Workflow Memory)에서처럼 성공적인 시도에서 요약된 워크플로만 문서화하는 데 초점을 맞추고 있어요. 이런 접근 방식에는 두 가지 근본적인 단점이 있어요. 첫째, 전술적인 통찰력 대신 상세한 행동만 기록하기 때문에 더 높은 수준의, 전이 가능한 추론 패턴을 추출하는 데 실패하고요. 둘째, 성공적인 경험만 너무 강조하다 보니 학습의 주요 원천인 '자신의 실패'를 놓치게 되는 거죠.
이런 간극을 메우기 위해, 구글 리서치 팀은 ICLR 논문 "ReasoningBank: Reasoning Memory를 통해 에이전트의 자기 진화를 확장"에서 테스트 시점에 스스로 진화할 수 있도록 성공 및 실패 경험 모두에서 유용한 통찰력을 추출하는 새로운 에이전트 메모리 프레임워크(GitHub 코드)를 소개했어요. 웹 브라우징 및 소프트웨어 엔지니어링 벤치마크에서 평가했을 때, ReasoningBank는 기준 접근 방식보다 에이전트의 효과성(더 높은 성공률)과 효율성(더 적은 작업 단계)을 모두 향상시키는 것을 확인할 수 있었어요.

메모리 콘텐츠 비교: 기존 전략과 ReasoningBank.
ReasoningBank로 통찰력 추출하기
ReasoningBank는 전반적인 추론 패턴을 고수준의 구조화된 메모리로 추출해요. 각 구조화된 메모리 항목은 다음 내용을 포함하고 있어요:
- 제목: 핵심 전략을 요약하는 간결한 식별자.
- 설명: 메모리 항목에 대한 간략한 요약.
- 내용: 과거 경험에서 추출된 추론 단계, 결정 근거 또는 운영 통찰.
메모리 워크플로는 검색, 추출, 통합의 연속적인 폐쇄 루프 안에서 작동해요. 행동을 취하기 전에 에이전트는 ReasoningBank를 활용해 관련 메모리를 자신의 컨텍스트로 불러와요. 그런 다음 환경과 상호작용하고, LLM-as-a-judge를 사용해서 결과 궤적을 스스로 평가하고, 성공적인 통찰력이나 실패에 대한 반성을 추출해요. 흥미로운 점은 이 자체 평가가 완벽하게 정확할 필요는 없다는 거예요. ReasoningBank가 판단 노이즈에 상당히 강인하다는 것을 구글 리서치 팀이 발견했거든요. 추출 과정에서 에이전트는 궤적에서 워크플로와 일반화 가능한 통찰력을 새로운 메모리로 추출해요. 간단하게 하기 위해 구글 리서치 팀은 이들을 ReasoningBank에 직접 추가했는데, 더 정교한 통합 전략은 앞으로 연구할 예정이에요.
결정적으로, 성공적인 실행에만 초점을 맞추는 기존 워크플로 메모리 전략과 달리, ReasoningBank는 실패한 경험까지도 적극적으로 분석해서 반사실적 신호와 함정을 찾아내요. 이런 실수들을 예방적인 교훈으로 추출함으로써 ReasoningBank는 강력한 전략적 안전장치를 구축하죠. 예를 들어, "더 로드하기(Load More) 버튼을 클릭하세요"와 같은 절차적 규칙만 배우는 대신, 에이전트는 과거의 실패를 통해 "무한 스크롤 함정을 피하려면 결과를 더 로드하기 전에 항상 현재 페이지 식별자를 먼저 확인하세요"와 같은 교훈을 얻을 수 있는 거예요.

테스트 시점에 에이전트와 통합된 ReasoningBank 워크플로.
메모리 인식 테스트 시점 스케일링 (MaTTS)
추론 시점에 연산 능력을 확장하는 테스트 시점 스케일링(Test-time scaling, TTS)은 수학이나 경쟁 프로그래밍 같은 추론 영역에서 엄청난 효과를 보여줬어요. 하지만 에이전틱(agentic) 환경에서는 기존 TTS 방법들이 탐색 궤적을 버리고 최종 답변만을 유용한 결과로 취급하는 경우가 많죠. 이렇게 간과된 탐색 과정은 사실 에이전트가 시간이 지남에 따라 경험을 통해 학습하는 능력을 가속화할 수 있는 풍부한 데이터 원천이 될 수 있어요.
구글 리서치 팀은 메모리 인식 테스트 시점 스케일링(Memory-aware Test-Time Scaling, MaTTS)을 통해 메모리와 스케일링을 명시적으로 연결해서 이 간극을 메웠어요. MaTTS는 ReasoningBank를 강력한 경험 학습기로 사용해서 광범위한 탐색을 대조 및 정제 신호를 통해 고품질 메모리로 추출해요. 구글 리서치 팀은 두 가지 형태의 스케일링을 통해 MaTTS 기능의 강력함을 보여주었어요:
- 병렬 스케일링: 에이전트가 메모리의 지도를 받아 동일한 쿼리에 대해 여러 개의 고유한 궤적을 생성해요. ReasoningBank는 자체 대조(self-contrast)를 통해 성공적인 궤적과 잘못 추론된 궤적을 비교해서 더욱 견고한 전략을 추출하고 더 고품질의 메모리를 합성하죠.
- 순차 스케일링: 에이전트가 단일 궤적 내에서 추론을 반복적으로 정제하여 강력한 중간 근거를 만들어내요. ReasoningBank는 에이전트의 시행착오와 점진적인 개선에 대한 이러한 중간 통찰력을 고품질 메모리 항목으로 포착해요.
MaTTS는 강력한 시너지를 구축해요. ReasoningBank에서 얻은 고품질 메모리는 스케일링된 탐색을 더욱 유망한 전략으로 이끌고요, 그 대가로 스케일링된 상호작용은 훨씬 더 풍부한 학습 신호를 생성해서 에이전트를 돕는 더욱 스마트한 ReasoningBank로 피드백돼요.

ReasoningBank와 함께하는 메모리 인식 테스트 시점 스케일링(MaTTS) 비교.
성능 및 새로운 기능들
구글 리서치 팀은 동적 환경을 다루는 까다로운 벤치마크에서 ReasoningBank를 평가했어요. 모든 에이전트의 기반으로 ReAct 프롬프팅 전략을 사용해서, ReasoningBank를 세 가지 메모리 구성(메모리 없는 기준선인 바닐라 ReAct, Synapse(궤적 메모리), AWM(워크플로 메모리))과 비교했어요. WebArena와 SWE-Bench-Verified에서 Gemini-2.5-Flash를 사용한 주요 평가 결과는 다음과 같아요:
- 뛰어난 성공률: 스케일링 없는 ReasoningBank는 WebArena에서 메모리 없는 에이전트보다 8.3%, SWE-Bench-Verified에서 4.6% 더 높은 성능을 보였어요.
- 효율성 향상: 에이전트가 과거의 결정 근거에 적극적으로 접근하기 때문에, 무의미한 탐색이 훨씬 줄어든 상태로 명령을 실행해요. SWE-Bench-Verified에서 ReasoningBank는 메모리 없는 기준선보다 작업당 전체 실행 단계를 거의 3단계 절약했어요.
- MaTTS 시너지: MaTTS(스케일링 인자 k=5를 사용한 병렬 스케일링)를 추가했을 때 성공률은 더욱 향상되었어요. ReasoningBank에 MaTTS를 적용하면 WebArena에서 ReasoningBank보다 성공률이 3% 증가하고 단계 수는 0.4단계 감소하는 효과를 볼 수 있었죠.

WebArena 및 SWE-Bench-Verified에서 다양한 에이전트 메모리 전략의 성능 비교 (작업 성공률 및 작업당 평균 단계 수).
중요하게도, 평가 중에 구글 리서치 팀은 전략적 성숙도(strategic maturity)가 나타나는 것을 관찰했어요. 웹 브라우징 예시에서 에이전트의 초기 규정된 규칙은 "페이지 링크를 찾으세요"와 같은 간단한 절차적 체크리스트와 비슷했죠. 에이전트가 더 많은 문제 세트를 지속적으로 해결하면서, 이 메모리들이 실행 중에 통합되었어요. 기존 지식을 바탕으로 에이전트는 새로운 궤적을 더 고급 메모리로 추출했어요. 시간이 지남에 따라 간단한 체크리스트는 "검색된 데이터셋이 너무 일찍 페이지로 나뉘지 않도록 활성 페이지 필터와 작업을 지속적으로 교차 참조하세요"와 같은 구성적이고 예방적인 논리 구조를 가진 메모리로 진화한 거죠. 더 자세한 내용은 논문에서 확인해 보세요.
결론
ReasoningBank는 LLM이 경험을 통해 학습하고 테스트 시점에 지속적으로 학습하는 시스템으로 진화할 수 있도록 돕는 강력한 프레임워크를 제공해요. 구글 리서치 팀은 메모리 기반 경험 스케일링이 에이전트 스케일링의 중요한 새로운 개척지가 될 것이라고 믿고 있어요.
구글 리서치 팀은 이 연구를 더 넓은 연구 커뮤니티와 공유하게 되어 기쁩니다.
감사의 말씀
이 연구는 시루 오우양(Siru Ouyang), 준 얀(Jun Yan), 아이-훙 쉬(I-Hung Hsu), 얀페이 첸(Yanfei Chen), 커 장(Ke Jiang), 지펑 왕(Zifeng Wang), 루쥔 한(Rujun Han), 롱 T. 레(Long T. Le), 사미라 다루키(Samira Daruki), 샹루 탕(Xiangru Tang), 비시 티루말라셰티(Vishy Tirumalashetty), 조지 리(George Lee), 마산 로푸에이(Mahsan Rofouei), 항페이 린(Hangfei Lin), 지아웨이 한(Jiawei Han), 첸-유 리(Chen-Yu Lee), 토마스 피스터(Tomas Pfister) 님께서 수행하셨습니다.
태그: