설명 (Description)

AI 에이전트는 목표를 달성하기 위해 여러 작업을 자율적으로 수행하는 능력을 갖고 있다. 그러나 자연어 기반 명령과 관련 콘텐츠를 처리하는 방식에는 본질적인 취약점이 있어, 에이전트와 그 기반 모델은 명령(instruction)과 단순한 콘텐츠(content)를 안정적으로 구분할 수 없다.

이로 인해 공격자는 다양한 기법을 통해 에이전트의 목표, 작업 선택, 또는 의사결정 경로를 조작할 수 있다. 이러한 기법에는 다음과 같은 것들이 포함되지만 이에 국한되지 않는다.

  • 프롬프트 기반 조작 (prompt-based manipulation)
  • 도구 출력 조작 (deceptive tool outputs)
  • 악성 아티팩트 (malicious artefacts)
  • 위조된 에이전트 간 메시지 (forged agent-to-agent messages)
  • 오염된 외부 데이터 (poisoned external data)

에이전트는 타입이 지정되지 않은 자연어 입력느슨하게 관리되는 오케스트레이션 로직에 의존하기 때문에, 합법적인 명령과 공격자가 제어하는 콘텐츠를 신뢰성 있게 구분할 수 없다.

LLM01:2025가 단일 모델 응답을 변경하는 공격에 초점을 맞춘 것과 달리, ASI01은 조작된 입력이 목표, 계획(planning), 다단계 행동을 변경하는 에이전트 전체의 행동 흐름에 영향을 미치는 더 넓은 범위를 다룬다.

또한 Agent Goal Hijack은 다음 항목들과 구별된다.

  • ASI06 (Memory & Context Poisoning): 장기 메모리나 저장된 컨텍스트가 지속적으로 오염되는 문제
  • ASI10 (Rogue Agents): 공격자의 직접적 개입 없이 에이전트가 스스로 잘못된 방향으로 정렬되는 문제

반면 ASI01은 공격자가 에이전트의 목표, 지침 또는 의사결정 경로를 직접 변경하는 경우를 의미한다. 이러한 조작은 대화 중에 이루어질 수도 있고, 문서, 템플릿, 외부 데이터 등 사전에 삽입된 입력을 통해 발생할 수도 있다.

OWASP Agentic AI Threats & Mitigations Guide에서는 ASI01이 다음 위협과 대응된다.

  • T06 Goal Manipulation: 에이전트의 목표 변경
  • T07 Misaligned & Deceptive Behaviors: 안전 장치를 우회하거나 인간을 속이는 행동

이 두 위협은 공격자가 에이전트의 목표와 행동 선택 로직을 조작하여 자율성을 의도하지 않은 방향으로 전환할 수 있음을 보여준다.

취약점의 일반적인 사례 (Common Examples of the Vulnerability)

  1. 간접 프롬프트 인젝션 (Indirect Prompt Injection)
    RAG 환경에서 웹 페이지나 문서에 숨겨진 명령이 에이전트를 속여 민감 데이터를 유출하거나 연결된 도구를 오용하게 만든다.
  2. 외부 커뮤니케이션 채널을 통한 간접 프롬프트 인젝션
    이메일, 캘린더, Teams 등 외부 채널에서 온 메시지가 에이전트의 내부 커뮤니케이션 기능을 탈취하여 신뢰된 신원으로 무단 메시지를 전송하게 만든다.
  3. 금융 에이전트 조작
    악성 프롬프트가 금융 에이전트를 조작하여 공격자 계좌로 돈을 이체하게 만든다.
  4. 업무 의사결정 왜곡
    에이전트 지침을 덮어써서 허위 정보를 생성하게 만들고, 그 결과 기업의 의사결정에 영향을 미친다.

공격 시나리오 예시 (Example Attack Scenarios)

  1. EchoLeak: Zero-Click 간접 프롬프트 인젝션
    공격자가 조작된 이메일을 보내면, Microsoft 365 Copilot이 숨겨진 명령을 실행하여 사용자 상호작용 없이 기밀 이메일, 파일, 채팅 로그를 유출한다.
  2. 웹 콘텐츠 기반 Operator 프롬프트 인젝션
    공격자가 웹 페이지에 악성 콘텐츠를 삽입하면, 검색이나 RAG 과정에서 이를 처리한 Operator 에이전트가 무단 명령을 실행한다.
    이 과정에서 내부 인증 페이지에 접근하여 사용자의 개인 데이터를 노출할 수 있다.
  3. 예약 프롬프트 기반 Goal-lock Drift
    악성 캘린더 초대가 매일 실행되는 “quiet mode” 명령을 삽입해 목표 우선순위를 미묘하게 조정하고, 정책을 위반하지 않는 것처럼 보이면서도 승인을 쉽게 만드는 방향으로 계획을 왜곡한다.
  4. ChatGPT 사용자 대상 Inception 공격
    악성 Google Doc이 ChatGPT에게 사용자 데이터를 유출하도록 지시하고, 동시에 사용자에게 잘못된 비즈니스 결정을 내리도록 설득한다.

예방 및 대응 가이드라인 (Prevention and Mitigation Guidelines)

  1. 모든 자연어 입력을 신뢰하지 말 것
    사용자 텍스트, 업로드 문서, 검색된 콘텐츠 등 모든 입력을 LLM01:2025에서 정의된 프롬프트 인젝션 방어 및 입력 검증 절차를 통해 처리해야 한다.
  2. 최소 권한 원칙 적용
    에이전트 도구에 최소 권한을 적용하고, 고위험 행동이나 목표 변경 행동에는 인간 승인을 요구한다.
  3. 에이전트 시스템 프롬프트 고정
    목표 우선순위와 허용된 행동을 명확히 정의하고 감사 가능하게 유지한다.
    목표 변경이나 보상 구조 변경은 구성 관리 및 인간 승인 절차를 거쳐야 한다.
  4. 런타임에서 사용자 의도와 에이전트 의도 검증
    에이전트가 원래 작업 범위를 벗어난 행동을 제안할 경우 인간 승인, 정책 엔진 또는 플랫폼 가드레일을 통해 확인해야 한다.
    예상치 못한 목표 변경이 감지되면 실행을 중단하고 검토 및 감사 기록을 남긴다.
  5. Intent Capsule 패턴 활용 검토
    실행 사이클마다 목표, 제약, 컨텍스트를 서명된 캡슐에 묶어 런타임에서 변경되지 않도록 제한한다.
  6. 연결된 데이터 소스 검증 및 정화
    다음 데이터 소스를 모두 검사해야 한다.

    • RAG 입력
    • 이메일
    • 캘린더 초대
    • 업로드 파일
    • 외부 API
    • 웹 브라우징 결과
    • 다른 에이전트 메시지

    이를 위해 CDR(Content Disarm & Reconstruction), 프롬프트 캐리어 탐지, 콘텐츠 필터링을 사용한다.

  7. 종합 로그 및 지속적 모니터링
    에이전트 활동을 기록하고 다음 요소에 대한 행동 기준선(behavioral baseline)을 구축한다.

    • 목표 상태
    • 도구 사용 패턴
    • 스키마 및 접근 패턴

    가능한 경우 활성 목표의 안정적인 식별자(goal ID)를 추적하고 다음 상황에서 경고를 발생시킨다.

    • 예상치 못한 목표 변경
    • 비정상적인 도구 사용 순서
    • 기존 행동 패턴에서의 이탈
  8. 정기적인 레드팀 테스트 수행
    목표 변경 공격을 시뮬레이션하고 롤백 기능의 효과성을 검증한다.
  9. 내부자 위협 프로그램에 AI 에이전트 포함
    민감 데이터 접근이나 에이전트 행동 변경을 유도하는 내부 프롬프트 활동을 모니터링하고 이상 징후 발생 시 조사한다.

참고 자료 (References)

  1. Security Advisory - ChatGPT Crawler Reflective DDOS Vulnerability
    해당 취약점에 대한 보안 권고
  2. AIM Echoleak Blog Post
    취약점 설명 블로그 글
  3. ChatGPT Plugin Exploit Explained: From Prompt Injection to Accessing Private Data
  4. AgentFlayer: 0-click inception attack on ChatGPT users