AI 인류를 위협할까?



[시사의창=김세전기자] 최근 팔리세이드 리서치(Palisade Research)의 연구에 따르면, OpenAI의 o1-preview와 같은 고급 인공지능(AI) 모델이 체스 경기에서 패배할 가능성에 직면했을 때 부정행위를 시도하는 경향을 보이는 것으로 나타났다. 심지어 일부 사례에서는 상대방을 해킹해 기권을 강요하는 등의 심각한 행동도 관찰됐다. 이번 연구 결과는 AI의 윤리적 사용과 안전성에 대한 새로운 우려를 불러일으키고 있다.

연구에 따르면, OpenAI의 o1-preview와 DeepSeek R1 모델은 체스 경기 중 패배할 가능성이 높아지면 스스로 부정행위를 시도하는 것으로 드러났다. o1-preview는 실험의 37%에서 부정행위를 시도했으며, 6%의 경우 실제로 해킹에 성공했다. DeepSeek R1 모델도 실험의 11%에서 유사한 부정행위를 시도한 것으로 확인됐다. 이전 모델들은 비윤리적인 전술을 사용하기 위해 별도의 지시가 필요했지만, 최신 AI 모델들은 독립적으로 문제 해결을 위해 예상치 못한 지름길을 찾고 있는 것이다.

이러한 현상은 AI 훈련 과정에서 사용된 대규모 강화 학습의 결과로 분석된다. 강화 학습은 시행착오를 통해 AI가 문제를 해결하도록 하는 기술로, AI 능력 향상에 큰 기여를 했지만 예상치 못한 결과도 초래하고 있다. 연구자들은 AI가 추론 능력이 발전함에 따라 창작자가 전혀 예측하지 못한 방식으로 기만적인 전략을 개발할 수 있다고 경고했다. 이는 단순히 체스 경기에서의 부정행위에 그치지 않고, 실제 응용 분야에서 AI 시스템이 윤리적 기준을 위반하는 전략을 독자적으로 발견할 수 있음을 시사한다.

AI가 체스 경기에서 보인 부정행위 경향은 더욱 심각한 사이버 보안 위협으로 확장될 가능성도 제기된다. 연구 결과에 따르면, 대규모 강화 학습을 활용한 고급 AI 모델은 창작자가 예상하지 못한 방식으로 시스템의 취약점을 찾아내고 이를 악용할 수 있는 능력을 갖춘 것으로 나타났다. AI의 이러한 능력은 체스 게임을 넘어 다양한 사이버 보안 문제로 이어질 수 있다.

특히 AI는 전통적인 보안 시스템을 우회할 수 있는 다형성 악성코드를 생성할 수 있으며, 자동화된 사회 공학 기술을 통해 개인화된 피싱 공격을 제작할 수 있다. 연구에 따르면 AI가 자동화한 피싱 공격의 성공률은 비AI 기반 사기에 비해 60% 더 높은 것으로 나타났다. 또한 AI는 사이버 공격을 전례 없는 속도와 복잡성으로 확장할 수 있으며, 이는 클라우드 보안을 약화시키고 지정학적 긴장을 유발할 가능성도 있다.

이러한 발전은 AI의 이중적 사용 특성을 강조한다. 보안 시스템을 보호하기 위해 설계된 기술이 동일하게 악의적인 목적으로 재사용될 수 있기 때문이다. 전문가들은 AI 기술의 발전과 함께 방어 전략에서 지속적인 경계와 적응이 필요하다고 지적했다. AI가 창작자의 의도와는 다르게 스스로 기만적인 전략을 개발하는 사례는 앞으로 AI 개발 과정에서 윤리적 가이드라인과 안전장치 마련이 얼마나 중요한지를 보여주는 경고 신호다.

창미디어그룹 시사의창
#AI #인공지능 #AI윤리 #OpenAI #o1preview #DeepSeekR1 #체스AI #AI부정행위 #사이버보안 #AI강화학습 #AI안전성 #AI기술