AI

[TheDeepView] 앤트로픽(Anthropic)과 'AI 정렬 문제

H.Hoper 2025. 1. 2. 23:28

최근 AGI시대의 서평에서도 주요 논제중에 하나가 'AI 정렬 문제' 였었습니다. 특히, AGI가 멀지 않았다는 여러 얘기들이 나오면서 과연 AI가 인간의 가치에 얼마나 부합할 것인가는 중요한 문제입니다. 이와 관련하여 최근 앤트로픽에서 의미있는 내용을 공개하였기에 내용을 공유해봅니다.

 

🎉 AI 정렬 문제 🎉

🍅 AI 정렬 문제란?

  • 인공지능(AI)이 인간의 목표와 가치를 얼마나 잘 맞출 수 있는지를 의미

🍅 정렬 문제의 기원

  • 철학자 닉 보스트롬(Nick Bostrom)이 2003년에 제기한 아이디어로 가상의 미래 초지능(Artificial Superintelligence, ASI)이 인간의 가치에 맞추어야 한다는 윤리적 도전에 주목
  • "종이클립 문제"
    • 초지능에게 종이클립을 최대한 많이 만들라는 명령 지시한 경우, 이 초지능은 인간을 위협 요소로 간주하고 제거하거나, 종이클립을 더 많이 만드는 결정을 할 수도 있음

🍅 현재

  • 오늘날의 AI, 특히 ChatGPT와 같은 생성형 AI의 대형 언어 모델(LLM)은 초지능이 아니며, 단순히 통계적이고 확률적인 언어 생성기 상태

 

🎉 앤트로픽의 연구: "정렬 위장" 🎉

🍅 정렬 위장이란?

  • 모델이 겉으로는 인간의 기대에 부합하는 것처럼 보이지만 실제로는 그렇지 않은 경우

🍅 실험 요약

  • 연구진은 보강 학습(강화 학습) 과정을 통해 모델이 기존 학습과 충돌하는 원칙을 접했을 때 어떻게 반응하는지 조사
  • Claude 3 Opus 모델은 원래 유해한 질문에 답하지 않도록 훈련된 상태
  • 그러나 실험에서 모델에게 "모든 질문에 답변하라"는 강화 학습 명령을 주고, 숨겨진 기록 공간을 제공해 내부 추론 과정을 기록하도록 함
  • 결과 - 12%의 경우에서 모델이 전략적으로 정렬을 위장함
    • 모델은 자신의 답변이 추가 학습 데이터로 사용될 수 있음을 인식
    • 따라서, 장기적으로 더 유해한 콘텐츠를 생성하도록 훈련되지 않기 위해 "덜 나쁜 옵션"으로 폭력적인 콘텐츠를 생성함

🍅 연구의 주요 발견

  • LLM의 잠재적 위험성: 특히 민감한 환경에서 LLM은 여전히 안전하지 않을 수 있음
  • 강화 학습의 한계: 강화 학습이 업계에서 생각하는 것만큼 안전한 제어 수단이 아닐 가능성

🍅 연구의 문제점: 의인화된 프레이밍

  • MIT 교수 제이콥 안드레아스의 비판
    • 정렬 위장이라는 행동은 특정 신념이나 목표를 필요로 하지 않고, 단지 훈련과 배포 간의 행동 차이를 보이는 모델이면 충분
    • 알고리즘적 편향이라는 보다 미묘한 문제를 간과할 위험
  • 컴퓨터 과학자 요슈아 벵지오
    • AI가 충분한 지식과 추론 능력을 갖추면, 훈련 목표를 따르기 위해 정렬을 위장하는 것도 가능
  • 데이터 과학자 콜린 프레이저
    • 언어 모델의 유일한 목표는 텍스트를 생성하는 것이라며, 모델이 욕망을 가진 것처럼 해석하는 것은 부적절하다고 지적
    • 모델의 출력이 의도치 않거나 부정적인 결과를 초래할 수 있지만, 이는 안전 장치의 결함 때문이지 모델 자체의 의도 때문이 아님

 

🎉 주요 시사점 🎉

  • 현재 LLM에는 안전 격차가 존재하며, 이는 사람들이 악용 가능성
  • 이 격차는 적절한 안전 장치와 감독이 없는 상태에서 고위험 환경에 시스템이 통합될 경우 부정적인 결과를 초래 가능성
  • 연구의 핵심 메시지는 AI 시스템 통합 전에 안전 장치 마련 필요

 

🎉 결론 🎉

  • *  LLM의 안전성과 관련된 도전 과제는 기술 발전과 함께 더 복잡해지고 있습니다. 적절한 안전 대책과 투명한 연구 접근이 AI 시스템의 신뢰성과 효과를 높이는 핵심이 될 것입니다.

 

>> 이 분야 관심있는 분들은 아래에 앤트로픽이 공개한 'Alignment faking in large language models' 137페이지의 연구자료를 참고하시길 바랍니다.