클로드를 화학자로 만들기

2026-06-03

요약

앤트로픽이 클로드의 화학 능력을 향상시키기 위해 NMR 스펙트럼 분석에서 전문 소프트웨어와 비교 평가한 결과, 범용 모델인 Opus 4.7이 일상적인 데이터 예측에서 ChemDraw 및 MestReNova와 동등하거나 더 나은 성능을 보였고, 역구조 결정도 가능함을 확인했습니다.

인사이트

Opus 4.7은 수소 NMR 예측에서 평균 오차 ±0.079ppm으로 허용 오차의 절반 이하로 가장 정확했으며, 탄소 예측에서는 MestReNova와 사실상 동등한 성능을 보였다.
클로드는 1D NMR 데이터만으로도 구조 결정(역예측)이 가능하여, 기존에 2D NMR과 전문 도구가 필요했던 작업을 단순화했다.
모델이 전문 소프트웨어와 경쟁할 수 있지만, 더 광범위한 검증과 NH 활성 헤테로방향족 등 특정 영역에서 한계가 있다.

왜 중요한가

화학자들은 매일 수많은 분자 구조를 해석해야 하지만, 기존 소프트웨어는 역구조 결정이 불가능하고 데이터 접근성이 낮습니다. 이 연구는 범용 AI 모델이 화학자의 핵심 작업을 보조할 수 있음을 보여주며, 특히 1D NMR 데이터만으로 구조를 추론할 수 있다는 점에서 실험실 현장의 생산성을 크게 높일 잠재력이 있습니다.

#AI #화학 #머신러닝

Anthropic Science 구독하기

AI 기반 발견, 실용적인 워크플로우, 다양한 과학 분야의 현장 노트에 관한 콘텐츠를 만나보세요.

요약: 우리는 세계 최고 수준의 합성, 계산, 분석 화학자들과 협력하여 클로드의 화학 능력을 향상시키고 있습니다. 이 글에서는 그 노력의 첫 번째 결과물로, 앤트로픽의 화학자 David Kamber가 화학자에게 가장 흔한 분석 입력인 NMR 스펙트럼에서 클로드가 어떻게 수행하는지 살펴봅니다.

분자를 다룰 때 화학자들은 화이트보드에 손으로 그린 구조, 기기 판독값, 데이터베이스 쿼리 문자열, 특허 및 간행물의 기술 표기법 사이를 오갑니다. 이러한 각 표현은 동일한 화학적 정보를 담고 있지만, 각각 다른 종류의 유창함을 요구합니다. 예를 들어, 카페인의 스케치는 화학자가 아데노신(신체의 졸음 신호)과의 유사성을 발견하고 카페인이 수용체를 차단하여 우리를 깨어 있게 만든다고 예측할 수 있게 해줍니다. 하지만 동일한 스케치는 거의 동일해 보이는 다른 분자와 구별하는 데는 도움이 되지 않습니다.

화학자가 어떤 분자를 다루는지 이해하는 것은 매우 중요합니다. 화학은 우리가 섭취하는 음식과 의약품부터 로션, 페인트, 플라스틱에 이르기까지 모든 것의 기초입니다. 동일한 원자들 사이의 몇 개의 결합을 변경하면 포도당이 과당이 되어, 동일한 분자식을 공유하지만 완전히 다른 대사 경로를 통해 처리됩니다. 분자를 거울상 이미지로 뒤집으면 진정제가 기형 유발 물질이 될 수 있습니다. 이는 탈리도마이드 참사에서 일어난 일입니다.1 화학자의 일상적인 작업은 주어진 작업에 적합한 표현에 걸쳐 이러한 신호를 올바르게 읽는 데 달려 있습니다.

이러한 표현 간의 변환(그림에서 구조 추적, 제안된 생성물에 대한 기기 판독값 조정, 올바른 표기법으로 데이터베이스 쿼리)은 시간이 많이 걸리고 대규모로 따라잡기가 불가능합니다. 가장 큰 화학 물질 등록소인 CAS는 2억 9천만 개 이상의 공개된 물질을 등록하고 있으며 매일 약 15,000개의 새로운 물질이 추가됩니다.

AI는 이러한 연구 부담을 감당하기에 적합한 위치에 있지만, 화학 분야에서는 아직 대부분 이상에 그치고 있습니다. 머신러닝 도구는 수년간 역합성(표적 분자에서 더 간단한 전구체로 거슬러 올라가 합성 계획을 수립하는 과정), 반응 예측, 물성 추정에 혁신을 가져올 것으로 여겨져 왔습니다. 그러나 이러한 도구가 필요로 하는 데이터는 얻기 어려웠습니다. 즉, null 결과가 드물고, 형식이 일관되지 않으며, 구독 저널의 페이월 뒤(그리고 비정형적인 지원 정보)에 잠겨 있었습니다. 역합성이 좋은 예입니다. 유능한 AI 도구가 수년 동안 존재해 왔지만 도입은 고르지 않으며, 일반 학계나 소규모 실험실 화학자는 여전히 사용하지 않습니다.

그럼에도 불구하고 AI의 발전이 마침내 화학에 도달하고 있습니다. 오늘날의 프론티어 모델은 멀티모달이며 명시적 추론이 가능합니다. 사전 선별된 분자 데이터베이스에 의존하지 않고 저널 그림이나 손으로 그린 스케치에서 화학 구조를 직접 읽을 수 있습니다. 또한 실제로 출판된 형식의 방법 섹션이나 지원 정보의 실험 세부 사항을 읽을 수 있습니다. 단계별로 추론 과정을 보여줄 수 있어 화학자가 출력을 감사할 수 있습니다. 이 중 어느 것도 그동안 현장에서 설명되어 온 데이터 문제를 해결하지는 못하지만, 그럼에도 불구하고 어떤 문제가 다루기 쉬워지는지는 변화시킵니다.

궁극적으로 우리의 주장은 겸손합니다. 클로드는 화학자의 판단을 보완하는 일상적인 변환, 회상, 통합 작업에서 의미 있게 도움을 주기 시작했으며, 우리는 그 유용성을 계속 확장할 계획입니다. 오늘 우리는 이 작업을 가속화하기 위한 첫 번째 백서를 발표합니다. 이 백서는 화학자의 가장 일반적인 분석 입력인 NMR 스펙트럼을 다룹니다.

전체 버전은 여기에서 확인할 수 있습니다.

거의 모든 소분자(약물, 농약, 염료, 향료, 고분자, DNA 또는 단백질 서브유닛, 기능성 무기 또는 고체 재료)는 화학자가 그 구조를 결정했기 때문에 존재합니다. 이러한 분자는 현미경으로 볼 수 없기 때문에 화학자는 분자에 빛, 전파 또는 자기장을 조사하는 분광 분석에 의존해야 합니다. 주어진 분자가 이 에너지를 흡수, 방출 또는 굴절시키는 방식은 화학자에게 패턴(스펙트럼)을 제공하며, 이를 통해 구조를 규명할 수 있습니다.

NMR 분광법(화학자가 이를 위해 의존하는 표준 기술 중 하나)은 합성 화학에서 가장 시간이 많이 걸리는 단계 중 하나입니다. 모든 화합물에 대해 화학자는 스펙트럼의 각 피크를 제안된 구조의 원자에 수동으로 일치시켜야 합니다. 이 백서에서는 클로드가 오늘날 화학자가 의존하는 전용 NMR 소프트웨어와 비교하여 얼마나 잘 수행하는지 테스트했습니다. 세 가지 클로드 모델(Opus 4.7, Opus 4.6, Sonnet 4.6)을 ChemDraw 및 MestReNova와 비교하여 20개의 화합물을 대상으로 측정했습니다. 이 화합물은 선택 편향을 피하기 위해 모델의 훈련 컷오프 이후에 게시된 합성 화학 프리프린트에서 가져왔습니다. ChemDraw와 MestReNova는 모두 순방향 예측(그려진 구조를 사용하여 생성될 NMR 스펙트럼을 시뮬레이션)을 수행합니다. 순방향 예측 외에도 클로드가 반대 방향(실험 스펙트럼에서 시작하여 그 뒤에 있는 구조를 제안)으로도 할 수 있는지 확인하고 싶었습니다. 이것이 더 어려운 작업이며, 기존 소프트웨어는 현재 이를 화학자에게 맡기고 있습니다.

평가를 설정하기 위해 모델의 훈련 컷오프 이후에 게시된 ChemRxiv 프리프린트2에서 20개의 화합물을 가져와 각 논문에서 첫 번째로 완전히 특성화된 새로운 분자를 선택했습니다. 20개는 4개의 구조적 계열(각각 5개 화합물)에 걸쳐 있으며, 각 계열은 다른 범주의 NMR 문제를 포함하기 때문에 선택되었습니다. 각 도구에는 SMILES 문자열(화학자가 소프트웨어에 분자를 입력하는 데 사용하는 텍스트 표기법)로 인코딩된 구조가 제공되었고, 모든 수소 및 탄소 피크가 1D NMR 스펙트럼(ppm(백만분의 일) 단위의 화학적 이동을 측정하는 수평 축)에서 어디에 나타날지 예측하도록 요청받았습니다. NMR 샘플은 액체에 용해되고 용매(클로로포름, DMSO 등)의 선택에 따라 피크 위치가 약간 이동하기 때문에 각 도구는 화학자가 출판 논문에서 사용한 용매에서 스펙트럼을 예측하도록 지시받았습니다.

4가지 스캐폴드 클래스 그래프 — Figure 1. Four scaffold classes covered by the forward-prediction assessment. Each probes a different category of NMR challenge. P1 chloropyridazines have a slow-exchange NH on aminopyridazine in DMSO-d₆; P2 Boc-N-aryl maleimides and N-Boc ynamides exercise α-vinyl-imide carbonyls and the rare ynamide α/β-carbon pair; P3 spiroketones are spirobicyclic ketones with phenacyl or acetyl pendants and diastereotopic CH₂; P4 α-silyl methanesulfonamides have shielded silicon-α carbons. Five compounds per class, n = 20 total.

언어 모델의 출력은 실행마다 다르기 때문에 각 클로드 모델은 화합물당 세 번씩 질의되고 평균이 계산되었습니다. ChemDraw와 MestReNova는 매번 동일한 답변을 반환하므로 한 번만 실행되었습니다. 그런 다음 각 예측 피크를 실험 피크와 짝짓고 ppm 단위의 차이를 측정했습니다. 이 값들은 화학자가 정확하다고 간주하는 범위(수소의 경우 ±0.20ppm, 탄소의 경우 ±1.0ppm) 안에 있었습니다.

20개 화합물에 걸친 도구별 MAE/RMSE 요약 그래픽 — Figure 2. Per-tool MAE (darker shade) and RMSE (lighter shade) for ¹H (left) and ¹³C (right) shift errors across 20 compounds for forward prediction, with coverage shown beneath each tool. Claude bars: mean across three replicates with min–max range and overlaid replicate dots. Classical tools: single-point predictions (no range).

수소의 경우 Opus 4.7이 가장 정확했으며, 평균 오차는 ±0.079ppm(허용 오차의 절반 이하)이었고, 허용 범위 내에 있는 피크의 비율이 가장 높았습니다. 탄소의 경우 Opus 4.7과 MestReNova는 ±1.37 및 ±1.48ppm으로 사실상 동등했습니다. 나머지 도구는 두 원소에서 동일한 순위를 유지했습니다. Opus 4.6은 예상대로 중간 수준이었고, Sonnet 4.6이 가장 약했습니다. 그 차이는 특히 까다로운 수소 하나(클로로피리다진 계열의 NH 양성자로, 실제 위치는 6.87.9ppm 사이의 좁은 대역에 있음)에서 두드러졌습니다. Opus 4.7은 약간 낮지만 일관되게 배치했고, Opus 4.6은 여러 ppm에 걸쳐 추측을 분산시켰으며, Sonnet 4.6은 1013 범위에 배치하여 실제 위치와 크게 벗어났습니다.

화합물별 허용 오차 내 정확도 차트 — Figure 3. Top: % of experimental atoms within ±0.20 ppm (¹H, left) and ±1.0 ppm (¹³C, right). Bottom: per-compound win rate (compounds where the tool had the lowest per-compound MAE, out of 20). Claude bars: mean across three replicates with min–max range; classical tools: single-point predictions.

Opus 4.7이 ChemDraw 및 MestReNova와 상당히 비교할 만한 성능을 보였지만, 수소 NMR 피크의 모양(분할 패턴)과 피크 간 간격(화학자가 위치와 함께 읽는 구조 정보를 포함하는 특징)을 예측하는 데는 격차가 더 컸습니다. Opus 4.7은 다른 어떤 도구보다도 실험적으로 보고된 분할 패턴을 더 자주 일치시켰으며, 세 클로드 모델 모두 하위 피크 간격을 약 80%의 경우에서 0.5헤르츠 이내로 예측한 반면, ChemDraw와 MestReNova는 26~35%에 그쳤습니다. Opus 4.7은 또한 세 번의 반복 실행에서 가장 일관성이 있었습니다. 실행 간 평균 오차 변동이 다음으로 좋은 도구와의 차이보다 작았습니다.

그런 다음 역예측(구조 규명)을 평가했습니다. 즉, 스펙트럼에서 분자의 구조를 결정할 수 있을까요? Opus 4.7에 15개의 규명 문제를 제공하고, 각각 세 번씩 최대 3개의 순위가 매겨진 후보 구조를 제안하도록 요청했습니다. 각각은 화합물의 정확한 분자식(고해상도 질량 분석법에서 얻음)과 수소 및 탄소 NMR 스펙트럼을 제공받았습니다. 15개는 난이도별로 나뉘었습니다. 8개의 더 간단한 표적(단일 고리 또는 두 개의 단편 분자)은 분자식과 스펙트럼만으로 제시되었습니다. 7개의 더 복잡한 표적(융합 고리, 스피로사이클 등)은 반응에 사용된 출발 물질의 구조라는 추가 힌트 하나와 함께 제공되었습니다.

구조 규명 결과를 보여주는 차트 — Figure 4. Structure-elucidation results across the 15 inverse-task problems. Each panel shows the published target with its success count out of 3 attempts. Border color indicates the prompt condition: green for spectra and HRMS only with no starting-material context; blue for spectra, HRMS, and the starting-material SMILES, with no other reaction context.

Opus 4.7은 스펙트럼과 분자식만으로 8개의 모든 간단한 구조를 모든 시도에서 복구했습니다. 7개의 더 어려운 표적에 대해서는 출발 물질 힌트가 주어졌을 때, 그중 4개는 세 번의 실행 모두에서 올바른 구조를 반환했고 나머지는 세 번 중 두 번에서 올바른 구조를 반환했습니다.

궁극적으로, 일상적인 데이터 예측에서 Opus 4.7(화학 특화 파인튜닝이 없는 범용 모델)은 이제 평균적으로 ChemDraw 및 MestReNova와 동등하거나 더 낫다는 것을 발견했습니다. 또한 클로드는 NMR 데이터만으로 구조를 제안하는 역방향 문제도 해결할 수 있습니다. 전용 구조 규명 소프트웨어는 수십 년 동안 존재해 왔지만, 일반적으로 2D NMR(두 개의 축을 가진 스펙트럼으로, 출력은 피크 행이 아닌 등고선 맵), 특수 교육, 라이선스 도구가 필요합니다. 클로드는 화학자가 채팅에 붙여넣을 동일한 고해상도 질량 스펙트럼과 1D 피크 목록으로 작업하며, 설정이 필요 없습니다.

이 평가는 범용 모델이 NMR 소프트웨어와 경쟁할 수 있고 심지어 1D 역규명을 다루기 쉽게 만들 수 있다는 것을 보여줍니다. 그러나 몇 가지 주목할 만한 한계가 있습니다.

이상적으로는 20~30개의 스캐폴드 클래스에 걸친 수백 개의 화합물(클래스당 최소 15개 화합물)에서 이 수치가 어떻게 유지되는지 확인하여 클래스 내 분산과 도구 간 차이를 분리할 수 있어야 합니다. 또한 클로로피리다진 외의 NH 활성 헤테로방향족을 평가하고, 테스트되지 않은 용매를 평가하며, 2D 실험을 활용하는 두 작업의 버전을 수행해야 합니다.

화학 분야에서 클로드의 성능을 계속 개선함에 따라, 우리는 화학자를 가장 느리게 하는 몇 가지 병목 현상에 특히 초점을 맞추고 있습니다.

이러한 병목 현상이 모두 동일한 성숙도 곡선에 있는 것은 아닙니다. 분광 분석은 벤치마킹할 수 있을 만큼 충분히 발전한 반면, 역합성 계획과 같은 다른 분야는 여전히 범위가 정해지고 있습니다. 이러한 병목 현상을 더 잘 이해함에 따라 현재 모델이 뛰어난 부분과 여전히 부족한 부분을 공유할 것입니다. 궁극적인 목표는 현직 화학자들이 클로드가 시간을 절약할 수 있는 부분과 여전히 자신의 전문 지식에 의존해야 하는 부분을 알 수 있도록 하는 것입니다.

우리는 화학 연구를 보다 명시적으로 지원하기 위해 AI for Science 프로그램을 확장하고 있습니다. 클로드가 도움이 될 가능성이 있는 문제, 특히 우리가 설명한 종류의 멀티모달 추론을 포함하는 문제를 연구하는 연구자라면 scienceblog@anthropic.com 또는 AI for Science 신청을 통해 연락주시기 바랍니다.

AI와 코딩 에이전트 사용에 관한 1,260명의 사회 과학자 설문 조사 결과.

Project Glasswing에서 배운 내용에 대한 초기 업데이트.

미국과 중국 간의 AI 경쟁에 대한 우리의 견해.

AI 기반 발견, 실용적인 워크플로우, 다양한 과학 분야의 현장 노트에 관한 콘텐츠.