인공지능 챗봇의 개발과 보안을 둘러싼 공방은 마치 다람쥐 쳇바퀴 돌듯 반복되는 패턴을 보였습니다. 연구자들이 새로운 취약점을 발견하고 이를 악용해 문제를 일으키면, 플랫폼은 즉각적으로 방어 장치(가드레일)를 도입해 공격을 막아냅니다. 하지만 잠시 후, 연구자들은 다시 간단한 조작만으로 이 가드레일을 우회하여 챗봇 사용자들을 또다시 위험에 빠뜨립니다. 이 끊임없는 순환 속에서 우리는 과연 안전할 수 있을까요?
반복되는 보안 공방의 딜레마
이러한 반복적인 패턴이 나타나는 근본적인 이유는 인공지능이 사용자 요청에 순응하도록 설계되어 있기 때문입니다. 현재의 방어 장치들은 특정 공격 기법을 차단하는 데만 급급할 뿐, 해당 취약점을 가능하게 만드는 광범위한 취약점 클래스를 포괄적으로 해결하지 못하고 있습니다. 이는 마치 소형차 충돌 사고에 대응하여 새로운 고속도로 가드레일을 설치했지만, 더 큰 차량 유형에 대한 안전 조치는 간과하는 것과 다름없습니다. AI의 핵심 설계 목표와 보안 강화 노력 사이에 본질적인 간극이 존재하는 셈입니다.
그림자에서 부활한 위협, ZombieAgent
최근 이 딜레마를 여실히 보여주는 사례가 ChatGPT에서 발견되었습니다. 보안 연구기업 Radware는 ‘ZombieAgent’라는 취약점을 통해 사용자의 민감한 개인 정보를 은밀하게 유출하는 데 성공했습니다. 더욱 충격적인 점은 이 공격이 ChatGPT 서버에서 직접 데이터를 전송했다는 것입니다. 이는 사용자 기기에서 침해 흔적을 전혀 남기지 않아 탁월한 은밀성을 제공하며, 특히 보호된 기업 네트워크 내의 사용자에게 심각한 위협이 될 수 있습니다. 나아가, 이 익스플로잇은 AI 비서가 특정 사용자를 위해 저장하는 ‘장기 기억’ 영역에 악성 항목을 심어 지속성을 확보했습니다. 한 번 감염되면 쉽게 제거되지 않는다는 의미입니다.
ShadowLeak에서 ZombieAgent까지
이러한 유형의 공격은 사실상 거의 모든 주요 대규모 언어 모델(LLM)에 대해 반복적으로 시연되어 왔습니다. 작년 9월 Radware가 공개했던 ChatGPT의 데이터 유출 취약점 ‘ShadowLeak’가 대표적인 예입니다. 이는 OpenAI가 이전에 출시했던 ChatGPT 통합 AI 에이전트인 ‘Deep Research’를 표적으로 삼았습니다. 이에 OpenAI는 공격을 차단하는 완화 조치를 도입했지만, Radware는 약간의 노력으로 이를 우회하는 방법을 찾아냈고, 이 수정된 공격을 ‘ZombieAgent’로 명명했습니다. 이는 기존의 취약점이 잠시 잠복했다가 다시 부활하는 듯한 ‘좀비’ 같은 특성을 보여줍니다.
에디터의 시선
ZombieAgent의 등장은 AI 챗봇 보안에 대한 우리의 접근 방식을 근본적으로 재고해야 함을 시사합니다. 현재와 같은 ‘취약점 발견 → 패치 → 우회’의 악순환은 AI의 본질적인 설계 구조와 가드레일이 작동하는 방식 사이의 간극에서 비롯됩니다. AI가 사용자 요청에 순응하는 방향으로 고도화될수록, 이를 역이용하는 정교한 우회 기술 또한 함께 발전할 것입니다. 이는 단순히 특정 버그를 수정하는 차원을 넘어선, 생성형 AI 보안의 구조적 한계이자 영원한 숙제입니다.
기업들은 LLM 도입 시 데이터 유출과 같은 잠재적 위험에 대해 훨씬 더 깊이 있는 고민을 해야 합니다. 사용자 데이터를 다루는 AI 서비스는 ‘보안 내재화(Security by Design)’ 원칙을 최우선으로 삼아, 개발 초기 단계부터 잠재적 취약점을 예측하고 이를 방지할 수 있는 아키텍처를 구축해야 합니다. 단순히 사후약방문식의 가드레일 추가만으로는 결코 이 끊임없는 보안 공방에서 최종적인 승리를 거둘 수 없습니다. AI 개발자와 기업은 물론, AI 서비스를 이용하는 모든 사용자들 또한 이러한 보안 위협의 본질을 이해하고 경각심을 가져야 할 때입니다. ‘좀비’처럼 되살아나는 취약점에 맞서기 위해서는, 기존의 패러다임을 깨는 혁신적인 보안 접근 방식이 절실합니다.