이 글은 google-research의 원문을 번역한 것입니다. 원문 보기 · 2026-04-03

생성형 AI로 미래 대비 역량 키우기

핵심 요약

구글 연구진은 생성형 AI 기반 플랫폼 'Vantage'를 개발해 비판적 사고, 협업 등 측정하기 어려웠던 미래 핵심 역량들을 가상 시뮬레이션 환경에서 평가하고, 그 정확도가 인간 전문가와 동등한 수준임을 입증했어요.

주요 인사이트

  • 생성형 AI를 활용한 시뮬레이션 환경은 비판적 사고, 협업 등 전통적으로 측정하기 어려웠던 '미래 대비 역량'을 효과적으로 평가하는 새로운 방법을 제시해요.
  • 'Vantage' 플랫폼의 AI 평가 시스템은 대화 유도 및 평가 정확도 면에서 인간 전문가와 유사한 수준을 보여주며, 대규모로 복잡한 스킬을 평가할 수 있는 가능성을 열었죠.
  • 이 기술은 교육 현장에서 기존 교과 과정에 미래 역량 평가를 통합하고, 학생들에게 맞춤형 피드백을 제공하며, 궁극적으로는 시뮬레이션 연습을 통한 실제 세상에서의 스킬 성장까지 이어질 수 있는 잠재력을 가지고 있어요.

왜 중요한가

점점 더 빠르게 변화하는 세상에서 비판적 사고, 협업, 창의력 같은 '미래 대비 역량'은 그 중요성이 커지고 있지만, 객관적으로 측정하고 효과적으로 키우기가 정말 어려웠어요. 이 연구는 AI를 활용해 이런 역량들을 체계적으로 평가하고 맞춤형 피드백을 줄 수 있는 길을 열어주어, 학생들이 미래에 필요한 진짜 실력을 갖추도록 돕는 중요한 전환점이 될 수 있답니다. 교육 시스템에 실제적인 변화를 가져올 수 있는 잠재력이 크다고 볼 수 있죠.

생성형 AI로 미래 대비 역량 키우기

2026년 4월 13일

Gal Elidan, 연구 과학자 & Yael Haramaty, 선임 프로덕트 매니저, Google Research

저희의 새로운 연구는 생성형 AI를 활용해 '미래 대비' 역량을 평가하는 신박한 방법을 보여주고 있어요. 뉴욕대학교와 함께 진행한 연구 결과, AI 평가 점수가 인간 전문가와 거의 동등한 수준으로 나왔답니다. 이 연구 실험, 'Vantage'는 이제 구글 랩스에서 체험해 볼 수 있어요.

바로가기

AI가 전례 없는 속도로 발전하면서, 기술 변화나 자동화와 상관없이 계속해서 중요할 '미래 대비 역량', 즉 오래 지속될 수 있는 인간의 능력에 대한 관심이 다시 뜨거워지고 있네요. OECD 학습 나침반 2030이나 세계경제포럼(WEF)의 미래 직업 보고서 같은 국제적인 프레임워크들은 우선적으로 키워야 할 역량들을 제시하고 있는데, 비판적 사고, 협업, 창의적 사고 같은 핵심 역량들을 공통적으로 강조하고 있답니다. 사실 이런 역량들은 AI가 등장하기 훨씬 전부터 중요하게 여겨졌지만, 지금은 그 중요성이 그 어느 때보다 더 커지고 있는 상황이죠.

오늘 저희는 생성형 AI를 활용해 시뮬레이션 환경에서 대화를 만들고 미래 대비 역량을 평가하는 연구 실험인 'Vantage'를 소개하려고 해요. 뉴욕대학교의 교육학 전문가 및 연구진과 협력하여 개발된 Vantage는 고등학생과 대학생들에게 연습과 검증된 평가를 위한 샌드박스 환경을 제공하도록 설계되었는데요, 수학이나 과학 같은 주요 학문 과목에 전통적으로 사용되던 것과 동일한 체계적인 방법론으로 구축되었어요. Vantage는 현재 구글 랩스에서 영어로 가입해서 사용해 볼 수 있답니다.

측정하기 어려운 것을 측정하기

모든 효과적인 학습 과정의 핵심에는 피드백과 평가가 있어요. 이 둘은 개인의 성장과 효율적인 교육을 위해 정말 중요하죠. 전 세계 교육 시스템을 보면, 대개 '측정할 수 있는 것'을 가르치는 경향이 많아요.

하지만 미래 대비 역량은 측정하기가 정말 까다로운 걸로 악명이 높아요. 일반적인 시험은 사람들의 사고 과정이나 상호작용을 포착하기에는 너무 경직되어 있고, 실제 세상에서 이런 역량들이 어떻게 사용되는지와는 거리가 멀죠. 이런 역량들을 실제 인간 상호작용 속에서 테스트하는 게 이상적이긴 하겠지만, 그렇게 하려면 너무 많은 자원이 들고, 수많은 학생들 사이에서 일관되게 표준화하고 점수를 매기기가 어렵다는 문제가 있어요. 예를 들어, 어떤 그룹이 한 번도 갈등을 겪지 않는다면 갈등 해결 능력을 어떻게 공정하게 평가할 수 있을까요? 아니면 첫 번째 아이디어로 바로 결정해 버린다면 서로의 아이디어를 창의적으로 발전시키는 능력을 어떻게 측정할 수 있을까요?

저희 연구팀은 교사들이 수업을 이런 역량들과 연결하고 학생들의 성장을 지원할 수 있도록, 확장 가능하고 검증된 방식으로 학생들의 미래 대비 역량을 평가하는 방법을 찾아 나서게 되었답니다.

AI 시뮬레이션 팀으로 역량 평가하기

Vantage의 실험 환경에서는 학습자들이 AI 아바타들과 함께 작업을 완료하기 위해 역동적인 다자간 대화에 참여하게 돼요. 이러한 설정 덕분에 저희는 평가 환경을 통제하면서도 기존의 표준화된 시험보다 훨씬 더 실제적이고 현실 세계 시나리오를 잘 반영하는 상호작용을 시뮬레이션할 수 있었어요. 복잡한 대인 관계 및 상황적 문제들을 헤쳐나갈 수 있는 샌드박스 환경을 제공하는 셈이죠.

사용자들이 토론을 준비하거나 창의적인 비전을 발표하는 등의 개방형 시나리오에서 AI 아바타와 상호작용하면, 'Executive LLM'이라는 LLM이 주어진 평가 루브릭을 사용해서 AI 아바타들이 효과적인 평가로 이어지도록 대화를 유도해요. Executive LLM은 대화의 상태를 끊임없이 분석해서 특정 도전 과제들—예를 들면 아이디어에 반박하거나 갈등을 도입하는 것 등—을 동적으로 제시함으로써 학습자가 자신의 역량을 보여줄 수 있는 맞춤형 기회를 제공하죠. 결국 이는 차세대 적응형 평가 엔진 역할을 하는 건데요, 대화를 유도해서 대화가 끝날 때쯤에는 사용자를 평가하는 데 필요한 정보가 충분히 수집되도록 하는 거예요.

작업이 완료되면 'AI Evaluator'가 Executive LLM이 사용했던 것과 동일한 엄격한 평가 루브릭을 바탕으로 대화 기록을 분석해서 특정 스킬 적용의 증거들을 식별하고 측정해요. 그러면 학습자는 시각적인 점수와 대화 중에 보여준 스킬에 대한 정성적인 피드백으로 구성된 상세한 스킬 맵을 받게 된답니다. 이렇게 함으로써 인간 스킬 개발의 '보이지 않던' 진전이 눈에 보이고, 실제로 활용할 수 있게 되는 거죠.

스킬 평가 방식 검증을 위한 파트너 협력

학술적, 교육학적 엄격함을 확보하기 위해 저희는 뉴욕대학교와 연구 파트너십을 맺었어요. 함께 보편적인 루브릭들을 조사하고, 해당 작업에 맞게 조정했답니다. 이 협력의 주된 목표는 평가 접근 방식을 설정하고 검증하는 것이었어요. 저희는 18세에서 25세 사이의 미국 테스터 188명과 함께 공동 연구를 진행해서 이들을 대상으로 Vantage 작업을 통해 갈등 해결과 프로젝트 관리 같은 협업 스킬 샘플을 평가했답니다. 두 가지 주요 연구 질문을 살펴보았죠.

1. 특정 스킬을 테스트하기 위해 대화를 유도할 수 있을까요?

Vantage의 핵심 혁신은 적응형 평가를 가능하게 하는 Executive LLM의 사용이에요. 저희는 LLM이 갈등 해결이나 프로젝트 관리 같은 특정 스킬을 한 번에 목표로 삼아 대화를 얼마나 효과적으로 유도할 수 있는지 평가했어요. 학습자가 동일한 작업을 수행하면서 독립적이고 유도되지 않은 AI 아바타와 상호작용한 경우와 비교하여, 해당 스킬에 대해 사용자가 보여준 스킬 관련 정보의 양을 측정했답니다. 저희의 연구 결과에 따르면, Executive LLM은 자연스러운 대화 흐름을 유지하면서도 평가하려는 스킬에 대한 고밀도 정보를 생성하도록 대화를 성공적으로 유도했고, 평가 대상 스킬에 대한 훨씬 더 많은 정보를 이끌어냈어요. 이 기능은 여러 시뮬레이션 작업에서 일관되게 입증되었죠. 더 자세한 결과와 방법론은 기술 보고서에서 확인할 수 있답니다.

2. LLM이 미래 대비 역량을 얼마나 정확하게 평가할 수 있을까요?

AI Evaluator의 정확도를 테스트하기 위해, 저희는 AI Evaluator의 점수를 뉴욕대학교 평가자들이 동일한 교육학적 루브릭을 사용해 매긴 점수와 비교했어요. 결과는 AI Evaluator와 인간 전문가 간의 일치도가 두 명의 전문가 평가자 간의 일치도와 유사하다는 것을 보여줬어요. 이는 AI Evaluator의 대화 평가 점수가 인간 전문가 평가자의 점수와 견줄 만하다는 것을 시사하며, Vantage가 스킬 평가를 위한 효과적인 자동화 시스템임을 입증하는 셈이랍니다.

저희는 또한 오래 지속될 수 있는 스킬을 평가하는 AI 기반 도구를 개발하는 스타트업 OpenMic과도 협력했어요. 함께 창의력 및 영어 국어 과목에 대한 공동 연구를 수행하여, 또 다른 맥락에서 AI Evaluator를 테스트했답니다. 저희는 캐릭터 인터뷰나 영문학 관련 미디어 기사 같은 창의적 멀티미디어 작업에 대한 학생 180명의 결과물을 분석하고, AI Evaluator의 점수를 OpenMic의 내부 전문가 점수와 비교했어요. 여기서도 AI Evaluator와 인간 전문가 사이에 높은 상관관계가 있었는데요, 이는 AI Evaluator가 복잡한 실제 창의적 작업에서도 유효한 점수를 제공할 수 있다는 능력을 보여준답니다.

교실 통합을 향한 미래 전망

학교 현장에서 이런 시뮬레이션 환경은 기존 학교 교육과정 위에 자리 잡고 학업 과제에 통합되는 측정 가능한 '스킬 레이어'를 위한 길을 열어줄 수 있을 거예요. 이는 교육자들이 새로운 형태의 과제를 구상할 수 있도록 할 텐데, 예를 들면 AI 아바타와 사회 과학 주제로 토론하거나 팀 리더 역할을 맡아 실험을 계획하는 것 등이 있겠네요. 학생들은 과목 내용에 대한 이해(예: 실험 과학)와 자신의 스킬(예: 협업 및 비판적 사고의 질) 모두에 대해 피드백을 받을 수 있겠죠. 이런 접근 방식은 다른 학생들과의 기존 그룹 프로젝트에 더해지는 것이며, 학문적 지식과 오래 지속될 수 있는 스킬을 동시에 개발하도록 지원할 잠재력을 가지고 있답니다.

미래 준비도를 대규모로 가능하게 하기

이 연구는 필수적인 '미래 대비 역량'이자 오래 지속될 수 있는 스킬들을, 측정하기 어렵던 상태에서 대규모로 측정 가능한 형태로 어떻게 바꿀 수 있을지 탐구하고 있어요. 그렇게 함으로써 미래 준비도에 대한 더 포괄적이고 정확한 파악이 가능해지죠. 이 실험은 미래의 요구 사항에 더 밀접하게 부합하는 평가 접근 방식으로서 한 걸음 나아가는 것이랍니다.

저희는 또한 이 새로운 인프라가 생태계 전반의 추가 연구와 효과성 연구를 지원할 수 있기를 바라고 있어요. 이제 연구자들은 새로운 도구가 지식 습득에 미치는 영향뿐만 아니라 스킬 개발에 직접적으로 미치는 영향까지 평가할 수 있게 될 거예요. 이러한 연구의 잠재력은 정말 대단한데요, 다양한 교육학적 개입이 시간이 지남에 따라 인간의 역량을 어떻게 형성하는지에 대한 더 깊은 이해를 제공할 수 있거든요.

앞으로는 시뮬레이션 샌드박스에서 보여준 스킬이 실제 인간 상호작용으로 어떻게 전환되는지, 즉 '전이 가능성'이라는 중요한 질문을 다루기 위해 연구를 확장하고 있어요. 나아가 인간의 스킬이 문화적으로 영향을 받는다는 점을 인지하고, 저희 기술이 포괄적이고 공정하게 작동하도록 다양한 환경에서의 성과를 탐구하는 데 집중할 계획이랍니다. 평가를 넘어 다음 단계는 스킬 성장으로 나아가, 시뮬레이션 환경에서의 연습을 통해 스킬 개발의 효과성을 깊이 이해하고 측정하는 것이에요.

감사 말씀

이 작업에 기여해주신 구글 팀원들께 감사의 말씀을 전합니다: Alon Harris, Alex Moy, Amir Globerson, Anisha Choudhury, Anna Iurchenko, Ayça Cakmakli, Ben Witt, Cathy Cheung, Diana Akrong, Elisabeth Bauer, Hairong Mu, Julia Wilkowski, Lev Borovoi, Lucile Martini, Maya Alva, Nir Kerem, Noa Kerrem Gilo, Preeti Singh, Rajvi Kapadia, Rena Levitt, Roni Rabin, Rotem Yulzary, Shashank Agarwal, Sophie Allweis, Tal Oppenheimer*, *Taylor Goddu, Tracey Lee-Joe, Tzvika Stein, Yaniv Carmel, Yishay Mor, Yoav Bar Sinai, and Yuri Lev. 뉴욕대학교 협력자 Yoav Bergner와 그의 팀, 그리고 OpenMic의 파트너인 Aviad Segal, Eliad Carmi, Hadas Gelbart, Yael Bar Moshe께도 감사드립니다. 오스틴 텍사스 대학교의 Cristine Legare와 NFTE(Network for Teaching Entrepreneurship)의 사장 겸 CEO인 J.D. LaRock의 통찰력에도 감사드립니다. 특히 저희의 최고 경영진 챔피언인 Niv Efron, Avinatan Hassidim, Amy Keeling, Katherine Chou, Yossi Matias, Ronit Levavi Morad, Chris Phillips, Ben Gomes께 특별히 감사드립니다.