BioMysteryBench로 클로드의 생물정보학 연구 역량 평가하기

2026-04-27

요약

클로드(Claude)가 생물정보학 연구에서 얼마나 잘하는지 알아보기 위해 복잡하고 지저분한 실제 데이터를 사용하는 새로운 벤치마크 'BioMysteryBench'를 만들었고, 최신 클로드 모델들이 인간 전문가만큼 잘하고 심지어 더 창의적인 방법으로 풀기도 한다는 내용이에요.

인사이트

**새로운 벤치마크 개발:** 기존 과학 벤치마크들이 실제 연구의 복잡성을 제대로 담지 못하는 한계를 극복하기 위해, 실제 지저분한 생물정보학 데이터를 활용하는 'BioMysteryBench'를 만들었어요.
**클로드의 뛰어난 성능:** 클로드 최신 모델들이 인간 전문가들이 풀 수 있었던 대부분의 문제들을 안정적으로 해결할 뿐만 아니라, 심지어 인간 전문가 패널이 풀지 못한 어려운 문제들도 상당 부분 해결하며 인간을 능가하는 성능을 보여줬어요.
**클로드의 독창적인 문제 해결 방식:** 클로드는 방대한 지식을 활용해 메타 분석이나 데이터베이스 연결 없이도 직접 문제를 풀거나, 여러 방법을 시도해 답을 찾는 등 인간과 다른 독창적이고 효과적인 전략을 사용했어요.

왜 중요한가

LLM이 점점 발전하면서 과학 연구, 특히 복잡하고 주관성이 강한 생물정보학 분야에서 LLM의 실제 역량을 정확히 측정하는 것이 중요해졌어요. BioMysteryBench 같은 벤치마크는 모델이 실제 연구 문제들을 얼마나 잘 해결하고 새로운 발견을 이끌어낼 수 있는지 보여주며, AI가 과학 혁신을 가속화하는 데 얼마나 기여할 수 있는지 가늠하는 중요한 지표가 됩니다. 이는 미래 과학 연구에서 AI의 역할과 잠재력을 이해하는 데 필수적이에요.

#AI #바이오인포매틱스 #과학연구

앤트로픽 과학 뉴스레터 구독하기

AI가 돕는 발견, 실용적인 워크플로우, 그리고 다양한 과학 분야의 현장 이야기들을 전해드려요.

이 글에서는 앤트로픽 발견 팀의 연구원 브리아나(Brianna)가 최근 생물정보학 벤치마킹 노력의 결과들을 공유해 줄 거예요.

대규모 언어 모델(LLM)이 대화를 나눌 수 있게 되자마자, 사람들은 이 모델들이 인간 전문가들과 비교해서 얼마나 잘할지 궁금해하기 시작했어요. 모델이 변호사 시험에 합격할 수 있을까요? 의사 면허 시험 문제를 풀거나 올림피아드 수학 문제를 해결할 수 있을까요? 이러한 벤치마크—모델의 특정 능력을 평가하기 위해 인간 전문가들이 검증한 문제들로 구성된 독립적인 세트—는 이제 AI 개발자들 사이에서 경쟁의 원천이 되었고, 모델 출시 시스템 카드에 보고되거나 많은 온라인 리더보드에서 추적되고 있죠.

경쟁을 떠나서도, 벤치마크는 모델이 전문가 수준의 작업을 지원하거나 심지어 직접 수행할 만큼 유능하고 신뢰할 수 있는지에 대한 중요한 질문에 답하는 데 도움을 줍니다. 과학자들은 분석 파이프라인 코드를 작성하고, 가설을 제시하며, 데이터에서 결론을 도출하는 데 모델을 활용하고 있어요. 장기적인 목표는 혁신과 발견을 가속화하는 것이죠. 하지만 현재 AI는 과학 분야에서 정확히 얼마나 능숙하며, 클로드(Claude)와 다른 모델들은 얼마나 빨리 발전하고 있을까요?

이에 답하기 위해, 연구 커뮤니티는 여러 벤치마크를 구축했어요. MMLU-Pro는 전문가 수준의 지식과 추론 질문을 테스트하고요. GPQA는 생물학, 물리학, 화학 분야에서 대학원 수준의 '구글 검색으로도 찾기 어려운' 질문들을 제시하죠. LAB-Bench는 문헌 읽기, 그림 해석, 프로토콜 추론 등 생물학 특정 지식 작업을 테스트해요. 이러한 벤치마크들은 '챗봇' 시대에 개발되었지만, 에이전트 및 도구 사용 시대로 이어져 FrontierScience와 Humanity's Last Exam 같은 더 어려운 과학 추론 평가와 함께 계속되고 있어요. 지식과 추론이 과학적 역량을 측정하는 중요한 척도로 남아있기 때문이죠.

하지만 여전히 많은 실제 과학 과제는 그 이상을 요구해요. 논문을 읽고, 데이터베이스를 쿼리하고, 실험을 실행하며, 코딩하고 분석하는 작업들이죠. 이제 모델이 이런 작업들을 많이 할 수 있게 되면서, 벤치마크도 이러한 워크플로우를 반영하도록 진화했어요. BLADE는 모델에게 데이터셋과 개방형 과제를 주고, 모델이 인간 과학자와 유사한 분석 단계를 거치는지 확인합니다. BixBench는 생물학적 데이터셋을 사용하고, 모델의 결론이 과학자들의 결론과 일치하는지에 따라 점수를 매겨요. SciGym에서는 모델이 시뮬레이션된 생물학 연구실에 배치되어 숨겨진 메커니즘을 밝히기 위해 자체적으로 실험을 설계하고 실행해야 합니다.

이러한 벤치마크들은 과학적 역량을 측정하는 데 우리를 더 가깝게 데려다주지만, 연구를 정의하는 지저분하고 개방형 문제에 대해 모델이 창의적인 해결책을 고안할 수 있는지는 제대로 테스트하지 못해요. 그래서 BioMysteryBench를 개발하게 되었죠. 이건 클로드에게 실제 데이터셋 분석을 맡기고, 복잡하고 노이즈가 많은 생물학적 시스템을 평가할 때 본질적으로 발생하는 몇 가지 도전을 해결하는 생물정보학 벤치마크입니다. 우리는 클로드의 생물학 분야 과학적 역량이 세대를 거듭하며 빠르게 향상되고 있다는 것, 현재 모델들이 인간 전문가와 동등한 수준으로 수행한다는 것, 그리고 최신 세대 모델들이 인간 전문가 패널도 풀지 못한 많은 문제들을 때로는 매우 다른 전략을 사용해서 해결했다는 것을 알게 되었어요.

의사에게는 전문의 시험이 있고 변호사에게는 변호사 시험이 있지만, 과학자가 되기 위한 표준화된 시험은 없어요. 이와 같은 문제가 AI에도 나타나죠. 모델을 과학에 사용하고 싶어도, SWE-bench가 소프트웨어 엔지니어링 분야의 표준이 된 것처럼 에이전틱 과학 벤치마크는 아직 그런 위상을 얻지 못했어요. 앤트로픽 팀은 과학 연구, 특히 생물학이 벤치마크를 통해 평가하기 특히 어려운 몇 가지 특성을 가지고 있기 때문이라고 생각해요.

연구 질문에 답하는 유일한 올바른 방법이 있다면, 박사 과정 학생들은 몇 달 만에 학위를 취득하고, 기업 R&D 부서는 존재하지 않을 것이며, 어떤 과학 박람회 포스터도 '방법론(Methods)' 섹션이 필요 없을 거예요. 과학자가 문제를 다루는 방식은 그들의 기술과 배경, 사용 가능한 자원, 그리고 연구 취향에 따라 달라집니다.

수년 동안 대사 연구자들을 당황하게 한 겉보기에 간단한 질문을 생각해 볼까요? 왜 일부 2형 당뇨병 환자는 경구 약물 메트포르민에 반응하지만 다른 환자는 반응하지 않을까요? 이 질문에 답하기 위해, 반응자와 비반응자를 대상으로 유전체 전체 연관 분석(GWAS) 연구를 실행하고 예측 유전 변이를 찾거나, 메트포르민이 부분적으로 장내 세균에 의해 대사되기 때문에 두 그룹의 장내 미생물총을 시퀀싱할 수도 있어요. 두 가지 모두 합리적인 접근 방식이며, 어떤 방식으로 진행할지는 종종 전문 지식과 자원에 달려있죠.

BixBench는 모델이 결론에 도달하는 데 사용한 방법보다는 결론 자체를 평가함으로써 이 문제를 잘 다룹니다. 하지만 그 결론들은 일련의 주관적인 선택을 거쳐 도출된 것으로, 그 선택들이 답변 자체를 형성했을 수 있다는 단점이 있어요. 이 또한 자체적인 문제점들을 가지고 있죠…

선택된 연구 방향 내에서도 개별적인 결정은 매우 주관적일 수 있어요. 어떤 과학자는 특정 결정을 승인할 수 있지만, 다른 연구자는 심각한 이의를 제기할 수도 있죠. 상충되는 피어 리뷰 제안을 받은 좌절한 저자에게 물어보면 알 수 있을 거예요! 이 모든 것을 더욱 어렵게 만드는 것은 생물학적 데이터셋이 종종 너무 노이즈가 많아서 연구 결정의 작은 차이가 데이터에 대한 완전히 다른 결론으로 이어질 수 있다는 사실입니다.

메트포르민 반응 예측인자를 찾기 위한 10년간의 연구에서, 연구 설계의 미세한 차이는 메트포르민 반응에 대한 완전히 다른 결론을 가져왔어요. 2011년 논문은 AMPK 활성화와 관련된 그럴듯한 메커니즘을 가진 메트포르민 반응을 예측하는 변이를 보고했고, 이는 두 코호트에서 재현되었죠. 1년 후, 당뇨병 예방 프로그램(Diabetes Prevention Program)은 당뇨병 전 단계 환자에서 동일한 변이를 테스트했지만 아무것도 찾지 못했어요. 마지막으로, 자체 연구를 시작하는 대신 2012년 메타 분석에서는 5개의 코호트를 통합하여 2011년 논문의 효과가 실제로 존재하지만 원래 보고된 것보다 미미하다고 다시 결론 내렸습니다.

SciGym이 이러한 모호성을 다루는 영리한 방법은 명확하게 정의된 답이 있는 과제를 선택하는 것이에요. 기저의 생물학적 네트워크가 시뮬레이터이기 때문에 사실상 정답(ground-truth)이 존재하며, 노이즈는 복잡한 생명 시스템에서 상속되는 대신 제어됩니다. 하지만 시뮬레이션된 연구실에서의 성능이 실제 데이터에서의 성능과 얼마나 밀접하게 연결되는지는 불분명하죠.

모델이 가장 큰 영향을 미칠 수 있는 연구 과제는 인간 혼자서는 아직 해결하지 못한 것들이에요. 그리고 궁극적으로, 바로 그런 과제들에서 모델을 평가할 수 있기를 바라죠. 예를 들어, 메트포르민의 작용 메커니즘은 무엇일까요? 개발된 지 30년이 지났지만, 이 분야는 여전히 주요 표적을 확신하지 못하고 있어요. 이를 발견하거나, 더 저렴하게 합성하고 더 안정적인 메트포르민 동족체를 찾는다면 엄청난 중요성을 가질 겁니다.

기계 학습은 서열 예측이나 단백질 모델링처럼 인간이 잘 못하는 문제들을 전문가의 직관 대신 실험 데이터를 활용하여 오랫동안 다뤄왔어요. ProteinGym은 딥 돌연변이 스캐닝(Deep Mutational Scanning) 실험을 정답으로 삼아 모델의 돌연변이 적합성 효과를 평가하고, 오랫동안 진행되어 온 CASP 경쟁은 미발표 결정 구조에 대해 단백질 접힘을 평가하죠. 둘 다 어떤 전문가도 스스로 재현할 수 있다고 신뢰하지 않을 실험적 측정에 기반을 두고 있어요. 하지만 이러한 벤치마크는 좁은 범위의 과제를 중심으로 구축되어 우리가 실제로 측정하고자 하는 생물정보학 작업의 폭넓은 범위를 포착하지 못합니다.

앞서 언급한 세 가지 과제를 완벽하게 다루는 벤치마크가 없기 때문에, 앤트로픽 팀은 BioMysteryBench를 개발했어요. BioMysteryBench는 복잡하고 지저분한 실제 생물정보학 데이터를 사용하면서도, 이 데이터에 내재된 복잡성과 도전 과제들이 평가의 품질을 손상시키지 않도록 했죠.

BioMysteryBench는 도메인 전문가들이 작성한 생물정보학의 다양한 분야에서 온 99개의 질문으로 구성되어 있어요. 전문가들은 데이터셋을 수집하고, 검증할 수 없는 과학적 결론보다는 데이터의 제어되고 객관적인 특성을 기반으로 질문을 만들도록 지시받았어요. 실험적 또는 임상적 발견에서 답을 도출함으로써, 인간이 풀 수 있을 필요 없이 질문을 개발할 수 있었죠.

이 질문들은 검증된 정답(ground truth)에서 만들어졌지만, 연구 과학자들이 답하고 싶어 할 만한 과제들과 같은 느낌을 줘요. 클로드는 각 질문을 받고 최소한의 정형화된 생물정보학 도구 세트가 있는 컨테이너에 배치됩니다. pip와 conda를 통해 추가 도구를 설치할 수 있고, 참조 유전체(reference genomes)와 같은 추가 자원을 다운로드하기 위해 NCBI 및 Ensembl 같은 정형화된 생물정보학 데이터베이스에 접근할 권한도 주어지죠.

BioMysteryBench는 과학 분야에서 특히 강력한 벤치마크로 만들고 위에 언급된 과제들을 해결하는 네 가지 독특한 특성을 가지고 있어요:

이 평가를 개발할 때, 질문들은 주로 원시 또는 최소한으로 처리된 DNA 또는 RNA 시퀀싱 데이터에서 파생되었어요. 이는 많은 생물학적 처리 파이프라인이 시작되는 지점이기 때문이죠 (WGS, scRNA-seq, 메틸화, ChIP-seq, 메타게놈, Hi-C). 또한 단백질체학(proteomics)과 대사체학(metabolomics)에서 가져온 여러 질문도 포함되었어요.

질문 개발자들이 생각해낸 내용은 다음과 같아요:

본질적으로 풀 수 없는 질문을 최소화하면서도 AI가 풀 수 있을 만한 여지를 남기기 위해, 우리는 각 질문 작성자에게 데이터 내에 실제로 신호가 존재한다는 것을 보여주는 유효성 검증 노트북(validation notebook)을 제출하도록 요구했어요. (처음부터 찾기가 어려울지라도 말이죠.) 이것을 고등학교 대수학 원리라고 생각해 보세요. 답을 찾는 것보다 답을 검증하는 것이 훨씬 쉽죠.

각 질문에 대해 최대 5명의 도메인 전문가에게 처음부터 질문에 답하도록 요청했어요. 적어도 한 명의 인간이 질문에 올바르게 답하자, 우리는 그것을 인간이 풀 수 있는 것으로 간주했습니다. BioMysteryBench에는 이러한 과제가 76개 포함되어 있었어요.

인간이 풀 수 있는 문제의 정확도 그래프 — Fig 1: Accuracy averaged over 5 trials per 76 human-solvable problems. Error bars computed by bootstrap sampling within problems.

때로는 클로드가 인간의 전략을 그대로 따랐어요. 아마도 인간이 거의 최적의 접근 방식에 도달했거나, 해당 방법이 사전 훈련 데이터에 잘 나타나 있었기 때문일 수 있습니다.

다른 때에는 클로드가 완전히 다른 경로를 택했어요. 이는 이러한 문제들을 해결하는 데 엄격하게 올바른 방법은 없으며, 모델이 인간의 방식과는 다른 고유한 선호를 가질 수 있음을 보여줍니다.

위 예시들은 특히 흥미로운 전략을 보여주는데요. 인간 전문가들이 알고리즘이나 데이터베이스를 사용하여 데이터셋의 속성을 식별하고 주석을 달았던 반면, 클로드는 특정 패턴이나 시퀀스를 직관적으로 인식했어요. 솔직히, 이런 영리한 추상화가 AI에만 있는 것은 아니에요. 예를 들어, 최초의 진핵 프로모터는 한 과학자가 유전자 상류 시퀀스에서 'TATA' 서열이 계속 반복되는 것을 발견했을 때 발견되었죠. 이러한 직관은 기존 생물학 머신러닝 모델에 구축하기 어려웠지만, LLM은 전례 없는 규모로 이러한 패턴을 찾아낼 수 있을지도 모릅니다.

그리하여 우리는 전문가 패널이 풀 수 없었던 질문 세트를 가지게 되었어요. 이는 (1) 질문이 잘못 형성되었거나 고장 났거나, (2) 질문이 본질적으로 풀 수 없거나 (예: 데이터에 신호가 없는 경우), 또는 (3) 질문은 이론적으로 풀 수 있지만 인간이 필요한 지식이 부족했기 때문일 수 있습니다. 벤치마크 담당자와 추가 전문가들과 함께 품질 관리(QC)를 거친 후, (1)에 해당하는 4개의 질문을 제거하여 23개의 '인간에게 어려운(human-difficult)' 질문을 남겼어요.

인간에게 어려운 문제의 성능 그래프 — Fig 2: Accuracy over the set of problems humans were not able to solve, averaged across 5 episodes per problem. Error bars computed by bootstrap sampling within problems.

흥미롭게도, 클로드 소네트(Sonnet) 4.6과 그 이상의 성능을 가진 모델들은 '인간에게 어려운' 문제들의 상당 부분을 해결할 수 있었고, 클로드 미토스 프리뷰(Mythos Preview)는 30%의 해결율로 최고치를 기록했어요. 그렇다면 클로드는 정확히 무엇을 하는 걸까요? 인간은 하지 못하는 무엇을요?

오푸스(Opus) 4.6의 기록을 분석해 보니, 클로드가 인간과 비교하여 사용한 두 가지 주요 전략을 파악할 수 있었어요. 하나는 상당히 AI에 특화된 것으로, 클로드의 방대한 기본 지식 기반에는 수십만 편의 논문에서 얻은 구조 생물학, 분자 프로파일 및 메타 분석에 대한 정보가 담겨 있어요. 다른 전략은 우리 인간 과학자들이 배울 수 있는 점인데, 클로드가 답변에 대해 확신이 없을 때 여러 방법을 겹쳐 사용하고 다양한 증거들을 결합하여 결론에 도달한다는 점이에요.

일부 '인간에게 어려운' 과제에서는 오푸스의 방대한 기본 지식 기반이 문제를 해결하는 데 도움이 되었어요. 인간 전문가라면 메타 분석을 실행하거나 데이터베이스를 연결해야 했을 과제들을 오푸스는 메커니즘과 온톨로지에 대한 내부 지식과 실시간 분석을 결합하여 직접 해결했어요. 종종 이 덕분에 클로드는 인간이 풀 수 없는 과제들을 해결할 수 있었죠! 몇 가지 예시를 들어볼게요:

사전 지식이 클로드에게 압도적으로 도움이 되는 것처럼 보였지만, '인간이 풀 수 있는' 세트에서 흥미로운 한 가지 경우를 발견했어요. 바로 이 사전 지식이 클로드의 약점이 된 경우였죠:

오푸스 4.6이 답변에 대해 확신이 없을 때, 종종 문제를 해결하는 여러 가지 다른 방법을 시도하고 여러 접근 방식이 수렴하는 답을 선택했어요.

앤트로픽 팀이 논의했던 많은 벤치마크들처럼, BioMysteryBench도 자체적인 한계가 있어요. 인간과 모델 모두 해결하지 못한 과제에 대해서는 그것이 불가능한지 아니면 단지 엄청나게 어려운 것인지 완전히 확신할 수 없다는 점이죠. 유효성 검증 노트북은 신호가 존재하고 데이터가 잘 구성되어 있다는 것을 보장하지만, 모델이나 인간이 처음부터 답을 찾을 수 있다는 것을 보장하지는 않아요. 그래서 앤트로픽 팀은 모델과 인간 벤치마크 참여자 모두에게 1년 뒤에도 '인간에게 어려운' 세트를 아무도 풀지 못하더라도 너무 좌절하지 말라고 부탁합니다. 그런 불확실성 또한 벤치마크를 흥미롭게 만드는 부분이니까요. 더 과학적 역량을 갖춘 모델이 인간이나 다른 모델이 이전에 해결하지 못한 문제를 처음으로 풀 수도 있겠죠.

클로드는 세대를 거듭하며 확실한 발전을 보였고, '인간이 풀 수 있는' 과제와 '인간에게 어려운' 과제 모두에서 충분히 좋은 성과를 거두어 클로드 미토스 프리뷰(Claude Mythos Preview)가 자체적인 과학 분석을 수행하도록 하는 것이 흥미로울 것이라고 생각했어요. 다음은 이전 클로드 모델의 BioMysteryBench 성능에 대한 몇 가지 추가 인사이트입니다:

헤드라인 정확도 수치는 각 모델이 정답을 얼마나 자주 맞히는지 알려주지만, 어떻게 도달하는지는 알려주지 않아요. 저는 어려운 문제에서 정답을 맞히는 것이 풀 수 있는 문제에서 정답을 맞히는 것과 같은 의미인지 알고 싶었습니다. 모든 문제가 5번 시도되었기 때문에, 문제당 해결 횟수를 볼 수 있었어요. 모델이 5/5로 해결한다면 신뢰할 수 있는 방법을 가지고 있는 것이고, 1/5로 해결한다면 일관되게 다시 찾을 수 없는 추론 경로에서 운이 좋았을 가능성이 높습니다. 그래서 저는 각 모델이 해결한 문제들을 두 세트(0/5부터 5/5까지)로 나누어 해결 횟수별로 옆에 나란히 살펴보았습니다.

'해결된' 문제의 특성이 두 세트 사이에서 확연히 달라집니다. 인간이 풀 수 있는 문제에서 오푸스 4.6은 강한 이봉분포를 보이는데—해결한 문제의 86%는 적어도 5번 중 4번 이상 해결했어요. 답을 알거나 모르는 거죠. 인간에게 어려운 세트에서는 이 비율이 44%로 급감하고, 취약한 승리(5번 시도 중 1-2번만 해결)의 비중은 9%에서 44%로 껑충 뛰어요. 소네트 4.6도 같은 변화를 더 뚜렷하게 보여줍니다 (신뢰할 수 있는 비율 75% → 22%; 취약한 비율 9% → 56%). 따라서 헤드라인 수치인 77.4%→23.5%의 하락은 실제 상황을 과소평가하는 거예요. 풀 수 있는 문제에서는 모델이 안정적으로 아는 것을 검색하는 반면, 어려운 문제에서는 승리 중 거의 절반이 재현할 수 없는 경로를 우연히 찾아낸 결과입니다. 정확도 차이는 분명하지만, 그 밑에 있는 신뢰도 차이가 실제 역량의 한계가 어디에 있는지를 보여주는 더 흥미로운 이야기입니다. 오푸스 4.7과 미토스는 한계를 약간 더 확장하지만 (미토스는 풀 수 있는 승리 중 94%를 4/5 이상에서 얻음), 어려운 세트에서는 모든 모델에서 동일한 이봉분포 대 취약한 패턴이 유지됩니다.

클로드 미토스 프리뷰의 분석이 유효하다고 생각했고, 모델 성능을 측정하는 중요한 지표인 신뢰도에 대해 더 깊이 파고들었어요. 하지만 좀… 지루하게 느껴지기도 했죠? 위에서 보여드린 성능 분석에 약간의 뉘앙스를 추가했지만, 근본적으로 새로운 질문을 다루지는 않았으니까요. 그럼에도 불구하고, 모델들이 연구에 대한 '취향'의 씨앗을 개발하기 시작하는 것 같아요 (깊은 통찰력을 내놓기까지는 아직 갈 길이 멀지만요).

BioMysteryBench는 과학적 역량을 측정하는 고무적인 척도예요. 클로드의 최신 세대 모델들은 인간이 풀 수 있는 문제의 대부분을 안정적으로 해결하고, '인간에게 어려운' 과제 중 상당 부분에서는 5명의 도메인 전문가 패널보다 뛰어난 성능을 보여줍니다. 모델들은 세대를 거듭하며 개선되고 있으며, 이제 생물정보학 문제에서 숙련된 과학자들과 단순히 보조를 맞추는 수준을 넘어섰어요. 일부 과제에서는 그들을 앞서고 있죠.

또한 이 분야에서 유사한 연구가 진행되고 있는 것을 보게 되어 기뻐요. 이 글을 마무리하던 중, 제넨텍(Genentech)과 로슈(Roche)가 CompBioBench를 발표했습니다. 그들의 벤치마크는 '합성/증강된 데이터와 실제 데이터셋의 메타데이터 스크램블링/스크러빙을 기반으로, 다단계 추론, 도구 사용, 맞춤형 코드, 실제 외부 자원과의 상호작용을 요구하는 단일 정답을 가진 어려운 문제들'로 구성된 100개의 계산 생물학 과제를 포함하고 있어요. 어디서 많이 들어본 이야기 같죠? 그들의 결과도 BioMysteryBench의 결과와 일치해요. 클로드 오푸스 4.6은 전체적으로 81%, 가장 어려운 문제에서는 69%를 달성하여, 최첨단 모델들이 이제 생물정보학 연구에서 진정으로 유용한 협력자임을 다시 한번 확인시켜 줍니다.

앤트로픽 팀은 모델 연구 역량을 더욱 끌어올릴 수 있는 더 긴 호라이즌의 실제 과제를 구축하고, 다른 분들의 창의적인 아이디어를 듣고 싶어요. 흥미로운 벤치마크, AI를 과학에 혁신적으로 사용하는 방법, 그리고 여러분의 분야에서 무엇이 가능할지 다시 생각하게 만든 AI와의 상호작용을 scienceblog@anthropic.com으로 보내주세요.

모델이 검증 가능한 어려운 계산 생물학 과제에서 어떻게 수행하는지 이해하는 데 관심이 있다면, 여기에서 BioMysteryBench에 접근할 수 있습니다. 더 자세한 내용은 claude.com/lifesciences를 방문해 보세요.

앤트로픽은 앤트로픽 인터뷰어(Anthropic Interviewer)를 통해 매월 진행되는 '앤트로픽 경제 지수 설문조사'를 시작합니다.

클로드 사용자 81,000명과 함께한 최근 설문조사 연구는 사람들의 경제적 우려와 클로드 트래픽에서 우리가 정량화한 것을 연결하는 방법을 제공해요.

클로드가 자체적인 정렬(alignment) 아이디어를 개발하고, 테스트하고, 분석할 수 있을까요? 알아보기 위해 실험을 진행했습니다.

AI가 돕는 발견, 실용적인 워크플로우, 그리고 다양한 과학 분야의 현장 이야기들을 전해드려요.