openai-news

파를로아, 고객이 대화하고 싶어 하는 서비스 에이전트를 만들어요

요약

파를로아는 GPT-5.4 같은 최신 AI 모델을 활용해 기업 고객이 직접 AI 에이전트를 구축하고 관리할 수 있는 플랫폼을 제공, 일관되고 신뢰할 수 있는 고객 서비스를 대규모로 자동화할 수 있도록 돕고 있어요.

인사이트

  • 파를로아는 처음엔 규칙 기반 에이전트였지만, GPT-5.4 같은 최신 대규모 언어 모델 덕분에 기업용 AI 에이전트 관리 플랫폼(AMP)으로 진화했어요.
  • AMP는 비기술 직군 사용자들도 코딩 없이 자연어로 에이전트의 행동을 정의하고, 내부 시스템과 연결해 고객 서비스를 대규모로 자동화할 수 있게 해줘요.
  • '평가 우선' 접근 방식을 고수하며, 실제 고객 시나리오를 바탕으로 모델을 철저히 테스트해서 높은 신뢰성과 일관성을 보장하고, 특히 음성 서비스의 레이턴시 문제를 해결하는 데 집중하고 있어요.

왜 중요한가

파를로아는 기업들이 AI 기반 고객 서비스를 믿을 수 있고 효율적으로 대규모로 확장할 수 있게 해줘요. 덕분에 상담원 부담은 줄고 고객 경험은 확 좋아지는 거죠. 특히 '평가 우선' 전략으로 AI 에이전트가 실제 서비스 환경에서 얼마나 잘 작동하는지 철저히 검증하니까, 대기업들이 안심하고 도입할 수 있는 거예요. 전화, 채팅 등 다양한 채널에서 끊김 없는 멀티모달 경험까지 제공하니, 앞으로 고객 서비스의 표준이 될 수도 있겠네요.

파를로아, 고객이 대화하고 싶어 하는 서비스 에이전트를 만들어요

파를로아의 초창기, 공동 설립자 스테판 오스트발트(Stefan Ostwald)는 팀이 초기 음성 경험을 만들던 보험 콜센터에서 하루를 보냈대요. 상담원들 옆에 앉아서 그는 똑같은 대화가 계속 반복되는 걸 들었죠. 비밀번호 재설정, 정책 문의, 일상적인 변경 같은 것들이요. 그는 그 업무의 상당 부분을 자동화할 수 있겠다는 걸 깨달았어요.

그 경험 이후, 베를린에 본사를 둔 파를로아(Parloa)는 대량의 고객 상호작용을 자동화하기 위해 규칙 기반 음성 에이전트를 만들기 시작했어요.

ChatGPT가 등장하면서, 파를로아는 GPT-5.4를 포함한 차세대 모델을 기반으로 하는 현재의 AI 에이전트 관리 플랫폼(AMP)을 구축하는 방향으로 발전했어요.

AMP는 기업들이 고객 서비스 상호작용을 대규모로 설계하고 배포하며 관리할 수 있는 방법을 제공해요. 팀들은 딱딱한 의도와 흐름을 일일이 매핑하는 대신, 자연어로 에이전트의 행동을 정의하고, 내부 시스템에 연결한 다음, 내장된 시뮬레이션과 평가 기능을 사용해서 빠르게 개선해 나갈 수 있어요.

파를로아는 간단한 라우팅부터 복잡한 다단계 요청까지 모든 상호작용을 처음부터 끝까지 처리해요. 핵심은 실제 운영 환경에서의 일관성인데요, 성능, 레이턴시, 그리고 예외 상황들까지 모두 중요하죠. 이걸 위해 파를로아는 모델을 배포하기 전에 실제 고객 시나리오를 바탕으로 계속해서 테스트를 진행하고 있어요.

“모델은 실제 서비스에서 잘 작동할 때만 의미가 있어요. 저희는 모델이 실시간 대화에 충분히 빠르고 안정적일 수 있도록 OpenAI와 긴밀하게 협력하고 있어요.”

— 키이란 오라일리 이바녜즈(Ciaran O’Reilly Ibañez), 파를로아 엔지니어링 매니저

기업용 빌더를 위한 AMP 설계

파를로아의 에이전트 관리 플랫폼(AMP)은 비즈니스 사용자나 특정 분야 전문가들이 코드를 작성하지 않고도 AI 에이전트를 만들 수 있도록 설계되었어요.

오라일리 매니저는 “AMP를 사용하면 다양한 사업부의 전문 인력들이 훨씬 간결하고 단순한 방법으로 직접 에이전트를 만들고 API를 연결할 수 있어요”라고 말했어요.

전체적으로 보면, AMP는 브랜드가 AI 에이전트의 전체 라이프사이클을 관리할 수 있게 해줘요. 비기술팀이 에이전트가 출시되기 전에 어떻게 작동해야 할지 더 간단하게 정의할 수 있도록 돕는 거죠. 코드를 작성하거나 복잡한 의도 트리를 매핑하는 대신, 전문가는 에이전트의 역할, 지시, 도구, 그리고 경계를 자연어로 설정해요. 이 설정이 모델에게 프롬프트를 제공하고 시스템이 실제 운영 환경에서 작동하는 방식의 기반이 되는 거예요.

일단 정의되면, 에이전트는 배포 전에 테스트를 거쳐요. 파를로아는 GPT-5.4 같은 모델을 사용해서 고객 대화를 시뮬레이션하는데요, 한 모델은 발신자 역할을 하고 다른 모델은 설정된 에이전트를 실행하는 식이에요. 팀은 이 상호작용을 직접 확인하고, 실제와 같은 시나리오로 변경 사항을 테스트하며, 라이브 출시 전에 계속해서 개선할 수 있어요.

그런 다음 동일한 모델들이 결정론적 확인(deterministic checks)과 'LLM-as-a-judge' 방식의 점수 매기기를 혼합해서 대화를 평가하는 데 사용돼요. 이를 통해 에이전트가 지시를 잘 따랐는지, 도구를 올바르게 사용했는지, 그리고 예상대로 작업을 완료했는지 확인할 수 있는 거죠.

실제 대화 중에는 AMP의 오케스트레이션 레이어가 에이전트 설정 및 대화 컨텍스트를 OpenAI 모델에 프롬프트로 전달해서 응답을 생성하거나, 검색 증강 생성(RAG)을 통해 정보를 검색하거나, 도구를 트리거해서 고객 백엔드와 상호작용하게 해요. 파를로아는 실제 환경에서 성능 개선이 명확히 입증될 때마다 이 레이어를 최신 세대 모델로 지속적으로 업데이트하고 있어요.

대화가 끝난 후에는 별도의 OpenAI 기반 워크플로가 상호작용을 요약하고, 고객 의도를 분류하며, 정의된 규칙에 따라 성능을 평가해요.

에이전트가 점점 복잡해지면서, 단일하고 거대한 프롬프트를 유지하는 것이 어려워졌어요. 작은 변경 사항 하나로 예상치 못한 부작용이 생길 수도 있었거든요. 이런 문제를 해결하기 위해 파를로아는 모듈식 접근 방식을 도입했어요. 인증, 예약 변경, 계정 업데이트와 같은 작업들을 별도의 하위 에이전트로 분리할 수 있게 해서, 지시를 더 잘 따르도록 하고 시스템을 시간이 지나도 쉽게 발전시킬 수 있도록 만들었어요.

동시에 플랫폼은 신뢰성이 가장 중요한 부분에서는 결정론적인 제어 기능을 통합하고 있어요. 기업들은 구조화된 API 체인과 이벤트 기반 로직을 정의해서 중요한 단계가 올바른 순서로 실행되도록 할 수 있는데요, 이 덕분에 대화의 유연성과 예측 가능한 실행 사이의 균형을 맞출 수 있죠.

파를로아는 GPT-4.1, GPT-5-mini 같은 모델들을 사용해서 에이전트가 실제 서비스에 투입되기 전에 현실적인 고객 상호작용을 시뮬레이션하고, 이후에는 'LLM-as-a-judge' 방식과 결정론적 규칙을 조합해서 이 상호작용들을 평가해요. 이를 통해 팀은 예외 상황을 테스트하고, 빠르게 반복 개선하며, 고객에게 실패를 노출하기 전에 성능을 검증할 수 있어요.

'평가 우선' 접근 방식

파를로아는 주로 대기업들과 협력하는데요, 이런 곳에서는 기능만큼이나 일관성이 정말 중요하죠.

마테우스 도이치(Matthäus Deutsch) 선임 응용 과학자는 “새로운 모델이 나오면 저희는 벤치마킹 스위트를 돌려서 테스트해요”라며 “이론적인 벤치마크뿐만 아니라 실제 사용 사례에서도 제대로 작동하는 것이 우리에게는 아주 중요해요”라고 말했어요.

파를로아는 추상적인 벤치마크에만 의존하는 대신, 실제 운영 중인 에이전트를 모방해서 시뮬레이션 및 평가 파이프라인을 통해 테스트하고 있어요. 이 테스트들은 실제와 같은 조건에서 지시 따르기 신뢰성, API 호출 일관성, 레이턴시, 그리고 전반적인 성능을 측정하죠.

이런 평가를 통해서 어떤 모델이 실제 서비스에 투입될 준비가 되었는지 결정해요. 실제 고객 시나리오 전반에서 안정적으로 작동하는 모델만이 배포되는 거죠.

도이치 과학자는 “기업 고객들은 실제로 마이그레이션 비용을 부담해야 해요”라며 “일단 시스템이 운영 환경에서 잘 작동하면 그걸 안정적으로 유지하고, 분명한 이점이 있을 때만 전환하려고 하죠”라고 설명했어요.

결과적으로 시스템은 대규모 환경에서도 예측 가능하게 작동해요. 수백만 건의 고객 상호작용 대부분이 문제없이 해결되죠. 심지어 전화가 사람 상담원에게 연결되는 경우에도, 실패 때문에 연결되는 일은 거의 없다고 해요. 한 사례에서는 한 글로벌 여행사가 사람 상담원 요청을 80%나 줄였다고 하는군요.

이런 '평가 우선' 사고방식은 파를로아의 핵심 차별점이 되었어요. 덕분에 운영 환경에서의 신뢰성을 희생하지 않으면서도 빠르게 움직일 수 있게 되었죠.

글로벌 규모의 음성 서비스 구축

음성 서비스는 텍스트 기반 채팅과는 다른 제약 조건들을 가지고 있어요. 모든 상호작용은 음성-텍스트 변환(STT), 모델 추론, 텍스트-음성 변환(TTS)으로 이루어지는 저지연 파이프라인을 통해 진행되죠.

이 파이프라인 때문에 레이턴시가 정말 중요해요. 모델 계층에서 아주 작은 지연만 있어도 발신자에게는 눈에 띄는 정지로 느껴지기 때문에, 모델을 선택하고 최적화하는 방식에 큰 영향을 줘요.

파를로아 팀은 실시간 사용 사례의 성능을 최적화하기 위해 OpenAI와 긴밀하게 협력하고 있어요. 특히 레이턴시, 응답 품질, 그리고 지시 따르기에 집중하죠. 팀은 새로운 모델 반복 버전을 실제 고객 상호작용에 적용하기 전에, 실제 운영과 유사한 환경에서 지속적으로 평가하고 스트레스 테스트를 진행하고 있어요.

파를로아는 음성 스택의 각 구성 요소를 독립적으로 평가해요:

  • 음성-텍스트 변환(Speech-to-text) 시스템은 단어 오류율을 테스트하는데, 특히 정책 번호나 계정 식별자와 같은 민감한 입력에 대해 더 신경 써서 평가해요.
  • 텍스트-음성 변환(Text-to-speech) 모델은 실제 사용자에게 음성이 얼마나 자연스럽게 들리는지 평가하기 위해 블라인드 청취 테스트를 통해 평가돼요. 그 결과는 실제 고객 상호작용과 비교해서 운영 환경에서 일관된 성능을 보장하는지 확인하죠.
  • 음성-음성 변환(Speech-to-speech) 모델은 현재 레이턴시, 정확성, 비용에 초점을 맞춰 실제 서비스에 투입될 준비가 되었는지 평가 중이에요.

처음부터 이 시스템들은 글로벌 배포를 염두에 두고 만들어졌어요. 벤치마크는 여러 언어를 아우르며, 고객들은 전 세계 여러 지역에서 서비스를 운영하고 있죠. 이런 다국어에 대한 엄격함은 파를로아의 유럽 기반과, 단일 언어 또는 지역뿐 아니라 다양한 시장에서 일관된 성능을 요구하는 기업 고객들의 기대를 모두 반영하고 있어요.

오늘날 파를로아의 에이전트들은 소매, 여행, 보험 등 다양한 산업에서 수백만 건의 대화를 처리하고 있어요. 고객 지원 자동화부터 텔레쇼핑 같은 수익 창출 흐름에 이르는 다양한 사용 사례를 지원하고 있죠.

변화하는 고객 여정을 위한 기술 변화

파를로아는 고객 서비스가 완전히 멀티모달 경험으로 진화하고 있다고 보고 있어요.

대화는 전화로 시작해서 채팅으로 이어지고, 그 과정에서 링크나 상호작용 요소가 포함될 수도 있잖아요. AMP는 각 단계를 별도의 흐름으로 취급하는 대신, 이를 하나의 상호작용으로 처리하도록 설계되었어요. 시간이 지나면서 AI 에이전트는 웹사이트나 모바일 앱만큼이나 고객 여정에서 핵심적인 역할을 하게 될지도 몰라요.

기업들이 점점 더 많은 고객 상호작용을 자동화하는 방향으로 나아가면서, 파를로아는 AI 에이전트가 글로벌 규모에서 작동할 수 있도록 충분히 신뢰할 수 있고, 유연하며, 믿을 수 있게 만드는 데 집중하고 있어요.

openai-news · 원문 보기 · 2026-05-07

이 글은 원문을 한국어로 번역한 것입니다. 저작권은 원 저작자에게 있습니다.