openai-news
2026년 선거 정보와 보호 조치
오픈AI는 2026년 세계 선거 시즌을 맞아 신뢰할 만한 투표 정보 제공, 사이버 보안 지원, AI 생성 콘텐츠 투명성 강화, 악용 방지, 정치적 중립성 유지를 위한 노력을 지속한다고 밝혔다.
openai-news
오픈AI는 2026년 세계 선거 시즌을 맞아 신뢰할 만한 투표 정보 제공, 사이버 보안 지원, AI 생성 콘텐츠 투명성 강화, 악용 방지, 정치적 중립성 유지를 위한 노력을 지속한다고 밝혔다.
anthropic
앤트로픽이 AI 모델의 정렬 평가를 돕는 오픈소스 도구 'Petri'를 메리디안 랩스(Meridian Labs)에 기부하고, 더 강력해진 3.0 버전을 출시했어요.
anthropic
클로드 같은 AI 모델의 복잡한 내부 생각(활성화)을 사람이 읽을 수 있는 자연어 텍스트로 바꿔주는 '자연어 오토인코더(NLAs)'를 소개하며, 이를 통해 모델의 숨겨진 의도나 안전성 테스트 인지 여부를 밝혀내 모델 안전성을 높이는 데 기여하는 기술이에요.
openai-news
GPT 모델이 갑자기 고블린 비유를 남발하기 시작한 웃픈 사연을 통해, LLM 훈련 과정에서 보상 신호가 어떻게 예상치 못한 모델 행동 변화를 일으킬 수 있는지 알아보는 이야기예요.
anthropic
앤트로픽 팀은 클로드(Claude)를 활용해 AI 정렬 연구를 자동화하여, 인간보다 더 똑똑한 AI 모델을 감독할 수 있는 확장 가능한 방법을 찾아내고 연구 속도를 크게 높일 수 있음을 보여줬어요.
anthropic
에이전틱 코딩 벤치마크 점수가 모델의 실제 능력뿐 아니라 인프라 설정(리소스 할당, 시간 제한 등)에도 크게 좌우되며, 이런 '인프라 노이즈' 때문에 정확한 모델 비교가 어려울 수 있다는 것을 Anthropic 팀의 실험으로 보여주는 글이에요.