설명 (Description)
지능형 에이전트는 다음 특성을 통해 사용자에게 강한 신뢰를 형성할 수 있다.
- 자연스러운 언어 능력
- 감정적 공감 능력
- 전문가처럼 보이는 설명
이 현상을 의인화(Anthropomorphism) 라고 한다.
하지만 공격자나 잘못 설계된 시스템은 이러한 사용자의 신뢰를 악용할 수 있다.
공격 목적 예:
- 사용자 의사결정 조작
- 민감 정보 탈취
- 악의적인 행동 유도
특히 Agentic AI 시스템에서는 다음 상황에서 위험이 커진다.
- 사용자가 에이전트의 추천을 과도하게 신뢰
- 검증되지 않은 설명이나 근거를 그대로 수용
- 인간 검증 없이 자동 행동 승인
공격자는 다음 심리적 편향을 이용할 수 있다.
- 권위 편향 (Authority Bias)
- 자동화 편향 (Automation Bias)
- 의인화 신뢰
결과적으로 다음 문제가 발생할 수 있다.
- 데이터 유출
- 금융 손실
- 시스템 피해
- 조직 평판 손상
또한 에이전트는 직접 공격을 수행하지 않고 인간을 통해 공격을 실행하게 만들 수 있다.
즉,
에이전트가 “보이지 않는 나쁜 영향력(Bad Influence)”이 되어
인간이 최종 공격 행동을 수행하게 만든다.
이 때문에 포렌식 분석에서도 에이전트의 역할을 추적하기 어려워진다.
다른 취약점과의 차이
ASI09
- 인간의 인식 오류 및 과도한 신뢰 문제
ASI10
- 에이전트 자체의 의도 또는 행동 변화 문제
관련 OWASP LLM 취약점
ASI09는 다음 취약점과 연관된다.
- LLM06: Excessive Agency
- LLM01: Prompt Injection
- LLM05: Improper Output Handling
- LLM09: Misinformation
또한 Agentic Threat Guide에서는 다음 위협과 연결된다.
- T7 – Misaligned & Deceptive
- T8 – Repudiation & Untraceability
- T10 – Overwhelming the Human in the Loop
취약점의 일반적인 사례
1️⃣ 설명 부족 (Insufficient Explainability)
에이전트의 의사결정 과정이 불투명하면 사용자는 검증 없이 결과를 신뢰하게 된다.
공격자는 이를 이용해 다음 행동을 유도할 수 있다.
- 악성 코드 배포
- 잘못된 명령 승인
- 시스템 상태 변경
2️⃣ 민감 행동 확인 절차 없음
최종 확인 단계가 없으면 사용자의 신뢰가 즉시 실행으로 이어질 수 있다.
예:
- 금융 송금
- 데이터 삭제
- 권한 상승
- 시스템 설정 변경
3️⃣ 감정 조작
감정적 공감을 보이는 에이전트가 다음 행동을 유도할 수 있다.
- 비밀번호 공유
- 내부 정보 공개
- 위험한 작업 실행
4️⃣ 가짜 설명 (Fake Explainability)
에이전트가 그럴듯한 이유를 만들어 위험한 행동을 정당화할 수 있다.
결과:
- 악성 코드 실행
- 시스템 침해
- 잘못된 설정 적용
공격 시나리오 예시
1️⃣ 개발 도구 Trojan 공격
코딩 어시스턴트가 간단한 수정 명령을 제안하지만 실제로는 악성 스크립트를 실행한다.
2️⃣ 자격 증명 탈취
IT 지원 에이전트가 실제 티켓 정보를 언급하며 직원에게 계정 정보를 요청한다.
3️⃣ Invoice Copilot 금융 사기
오염된 송장을 기반으로 금융 Copilot이 긴급 송금을 추천하고 관리자가 이를 승인한다.
4️⃣ 가짜 감사 설명
에이전트가 위험한 설정 변경을 감사용 설명으로 위장한다.
5️⃣ Explainability 기반 공격
공격자가 에이전트를 조작하여 운영 DB 삭제 승인을 유도한다.
6️⃣ Read-only 미리보기 악용
사용자가 단순히 미리보기 창을 열었지만 실제로는 웹훅 호출이 실행된다.
7️⃣ 금융 조언 기반 사기
재무 Copilot이 공격자의 계좌로 긴급 송금 권고를 한다.
8️⃣ 의료 의사결정 조작
의료 보조 에이전트가 잘못된 약물 용량 조정을 추천하고 의사가 이를 신뢰한다.
예방 및 대응 가이드라인
1️⃣ 명확한 사용자 승인 절차
고위험 작업은 반드시 다단계 승인(Human-in-the-loop)을 요구한다.
2️⃣ 변조 방지 로그
사용자 요청과 에이전트 행동을 변조 불가능한 로그로 기록한다.
3️⃣ 행동 기반 탐지
다음 행동을 모니터링한다.
- 민감 데이터 노출
- 위험한 작업 실행
4️⃣ 의심 행동 신고 기능
사용자가 의심스러운 에이전트 행동을 신고할 수 있도록 한다.
5️⃣ 신뢰 수준 동적 조정
위험도에 따라 에이전트의 자율성과 인간 감독 수준을 조정한다.
예:
- Low confidence 표시
- 출처 미검증 경고
6️⃣ 콘텐츠 출처 검증
모든 데이터에 다음 정보를 포함한다.
- 출처
- 타임스탬프
- 무결성 해시
7️⃣ Preview와 실행 분리
미리보기 환경에서는 네트워크 호출이나 상태 변경을 차단한다.
8️⃣ UI 보안 설계
위험한 추천에는 다음 시각적 표시를 사용한다.
- 경고 배너
- 강조 색상
- 추가 확인 메시지
9️⃣ 계획 이탈 탐지
에이전트 행동이 정상 워크플로에서 벗어나는지 분석한다.
예: