#딥러닝 태그의 글

openai-news

2026년 선거 정보와 보호 조치

2026-05-27

오픈AI는 2026년 세계 선거 시즌을 맞아 신뢰할 만한 투표 정보 제공, 사이버 보안 지원, AI 생성 콘텐츠 투명성 강화, 악용 방지, 정치적 중립성 유지를 위한 노력을 지속한다고 밝혔다.

anthropic

2026-05-07

앤트로픽이 AI 모델의 정렬 평가를 돕는 오픈소스 도구 'Petri'를 메리디안 랩스(Meridian Labs)에 기부하고, 더 강력해진 3.0 버전을 출시했어요.

anthropic

2026-05-06

클로드 같은 AI 모델의 복잡한 내부 생각(활성화)을 사람이 읽을 수 있는 자연어 텍스트로 바꿔주는 '자연어 오토인코더(NLAs)'를 소개하며, 이를 통해 모델의 숨겨진 의도나 안전성 테스트 인지 여부를 밝혀내 모델 안전성을 높이는 데 기여하는 기술이에요.

openai-news

2026-04-29

GPT 모델이 갑자기 고블린 비유를 남발하기 시작한 웃픈 사연을 통해, LLM 훈련 과정에서 보상 신호가 어떻게 예상치 못한 모델 행동 변화를 일으킬 수 있는지 알아보는 이야기예요.

anthropic

2026-04-14

앤트로픽 팀은 클로드(Claude)를 활용해 AI 정렬 연구를 자동화하여, 인간보다 더 똑똑한 AI 모델을 감독할 수 있는 확장 가능한 방법을 찾아내고 연구 속도를 크게 높일 수 있음을 보여줬어요.

anthropic

2026-02-05

에이전틱 코딩 벤치마크 점수가 모델의 실제 능력뿐 아니라 인프라 설정(리소스 할당, 시간 제한 등)에도 크게 좌우되며, 이런 '인프라 노이즈' 때문에 정확한 모델 비교가 어려울 수 있다는 것을 Anthropic 팀의 실험으로 보여주는 글이에요.