anthropic
자연어 오토인코더: 클로드의 생각을 텍스트로 읽어내기
클로드 같은 AI 모델의 복잡한 내부 생각(활성화)을 사람이 읽을 수 있는 자연어 텍스트로 바꿔주는 '자연어 오토인코더(NLAs)'를 소개하며, 이를 통해 모델의 숨겨진 의도나 안전성 테스트 인지 여부를 밝혀내 모델 안전성을 높이는 데 기여하는 기술이에요.
anthropic
클로드 같은 AI 모델의 복잡한 내부 생각(활성화)을 사람이 읽을 수 있는 자연어 텍스트로 바꿔주는 '자연어 오토인코더(NLAs)'를 소개하며, 이를 통해 모델의 숨겨진 의도나 안전성 테스트 인지 여부를 밝혀내 모델 안전성을 높이는 데 기여하는 기술이에요.
google-research
ReasoningBank는 에이전트가 성공과 실패 경험을 모두 활용해 일반화 가능한 추론 전략을 학습하고, 이를 통해 실제 문제 해결 능력을 효율적이고 효과적으로 높이는 혁신적인 메모리 프레임워크예요.