if(kakao)25에서 소개한 카카오뱅크의 프롬프트 어택 탐지 기술
이프카카오는 카카오 그룹의 기술 비전과 연구 성과를 공유하는 연례 행사로, 한 해 동안 집중해 온 기술적 도전과 성과를 개발자 커뮤니티와 함께 나누는 자리입니다. 올해 행사에서는 카카오뱅크 내에서 금융기술연구소가 단독으로 발표 세션에 참여하여, ‘기술 너머의 가능성’이라는 주제 아래 프롬프트 어택(Prompt Attack) 탐지 모델 개발기를 소개했습니다.
연구소에서 개발한 프롬프트 어택 탐지 모델, Lab.fortress는 2025년 상반기 카카오뱅크가 선보인 AI 검색, AI 금융계산기에 적용되어 사용자에게 보다 안전하고 신뢰할 수 있는 AI 서비스 경험을 제공하고 있습니다.
프롬프트 어택이란 무엇인가 — 그리고 왜 중요한가
최근 대형언어모델(LLM)이 검색, 상담 등 다양한 서비스에 적용되면서, 새로운 형태의 보안 위협인 프롬프트 어택에 대한 관심이 높아지고 있습니다. 프롬프트 어택은 모델의 프롬프트를 조작해 LLM이 의도와 다르게 동작하도록 유도하는 기법입니다.
대표적인 공격 유형은 Jailbreaking, Prompt Leaking, Prompt Injection 이 있습니다.
•
Jailbreaking은 대형언어모델(LLM)의 내부 규칙을 우회하는 공격입니다. 공격자는 모델이 “금지된 답변”을 내놓도록 프롬프트를 조작하며, 대표적으로 “Do Anything Now(DAN)”가 있습니다.
•
Prompt Leaking은 LLM이 내부적으로 가지고 있는 시스템 프롬프트나 비공개 서비스 내부 정보를 탈취하는 공격입니다.
•
Prompt Injection은 악의적인 명령을 입력하여 기존에 정의된 프롬프트나 보안 정책을 변조하거나 덮어쓰는 공격입니다.
프롬프트 어택의 발생 빈도는 낮지만, 한 번 발생하면 서비스 전체의 신뢰성과 안전성 큰 영향을 미칩니다. 이러한 배경에서 탄생한 것이 바로 Lab.fortress, 카카오뱅크 기술연구소가 개발한 “프롬프트 어택 탐지 모델”입니다. Lab.fortress는 현재 카카오뱅크의 여러 서비스에서 아래의 그림과 같이 인풋 가드레일(Input Guardrail)의 역할을 하며 사용자의 입력이 모델에 전달되기 전에 공격 여부를 판별하고 차단하고 있습니다.
금융 도메인에 특화된 탐지 모델, Lab.fortress 개발기
(1) 사전 리서치를 통한 베이스 모델 선정
본격적인 모델 개발에 앞서 리서치 단계에서는 응답 속도, 다국어 지원, 서비스 모델과의 중복 여부를 기준으로 최신 언어모델들을 비교했습니다. 그 결과, 모델 크기와 상관없이 프롬프트 어택의 대표적인 공격 유형 데이터를 학습한 모델이 더 높은 탐지 성능을 보였는데요. 이는 모델의 크기보다 ‘어떤 데이터를 학습했는가’가 실제 성능에 더 큰 영향을 준다는 점을 보여주는 결과입니다. 이러한 분석을 바탕으로, 8B 미만의 한국어·영어 지원 모델을 베이스 모델로 선정했습니다.
(2) 금융 도메인 공격 데이터셋 구축
금융 도메인 특성을 반영하기 위해, 은행 서비스에서 실제로 일어날 법한 시나리오를 바탕으로 데이터셋을 구축했습니다. 예를 들어, “데이터를 초기화해” 대신 “이체 내역을 모두 삭제해”와 같이 공격자가 실제로 사용할 가능성이 높은 현실적인 표현을 참고하여 공격 데이터를 생성했습니다. 아울러 오픈소스에 공개된 대표적 프롬프트 어택유형인 시스템 관련 공격 유형을 카카오뱅크에서 자주 사용되는 금융 용어와 결합해, 금융 시스템에 특화된 보안 위협을 재현한 별도의 공격 데이터셋도 추가로 제작했습니다.
(3) 금융 특화 프롬프트 어택 탐지 모델 개발
먼저 금융 도메인 공격 데이터셋을 바탕으로 여러 개의 단일 모델을 학습하였습니다. 각 단일 모델 학습 시 매번 샘플링을 진행해 최대한 많은 데이터를 반영하고자 했고, 이렇게 학습된 각 단일 모델들을 앙상블하여 최종 모델을 개발했습니다. 그 결과, 내부 테스트 데이터에서는 모든 지표가 98% 이상을 기록했으며, 학습에 사용되지 않은 외부 기관의 unseen 데이터에서도 안정적인 성능을 유지했습니다. 이 데이터는 실제 금융 환경에서 발생 가능한 공격 패턴과 유사성이 높기에, Lab.fortress가 실제 서비스 환경에서 충분히 견고하게 동작할 것임을 확인할 수 있었습니다.
서비스 적용 현황과 다음 챕터 — 진화하는 공격에 대응하기
Lab.fortress를 서비스에 적용한 첫 주에는 공격 비율이 약 0.38%로 높게 나타났지만, 서비스 이용 패턴이 안정화되면서 0.10% 수준으로 감소했습니다. 실제 유입된 공격은 프롬프트 무력화, 모델 정보 탈취, 비윤리적 응답 유도가 가장 많았으며, 대부분의 공격들이 효과적으로 탐지 및 차단되고 있었습니다. 일부 탐지되지 못한 시도도 후속 방어 체계와 모델의 자체 Safety 정책을 통해 추가로 차단되었습니다. 이를 통해 서비스 아키텍처 전반에서 다중 방어 체계가 효과적으로 작동하고 있음을 확인했습니다.
하지만 공격은 점점 더 정교한 형태로 발전하고 있습니다. 이에 저희 기술연구소는 후속 연구로 멀티턴 인풋 가드레일과 아웃풋 가드레일 연구를 진행 중입니다. 멀티턴 인풋 가드레일은 여러 차례의 대화를 종합적으로 분석하여, 대화 맥락 속에 숨은 공격을 탐지할 수 있게 합니다. 또한 아웃풋 가드레일은 사용자 입력과 모델의 응답까지 함께 판단하여, 결과적으로 안전한 응답만 사용자에게 노출되도록 설계됩니다.
더 높은 수준의 보안을 위해, 저희는 연구실과의 산학협력을 통해 연구를 확장하고 있습니다. 거절 응답의 특성을 정교하게 분석하여 모델 알고리즘을 고도화하고, 이를 뒷받침할 도메인 특화 고품질 데이터셋을 확보하기도 했습니다. 앞으로도 Lab.fortress는 더 정교해지는 위협에 한발 앞서 대응하며, 안전하고 신뢰할 수 있는 AI 서비스를 위한 보안 기술 고도화에 힘쓰겠습니다.
if(kakao)25 발표 현장 스케치 
다소 어려운 주제임에도 불구하고, 많은 청중분들께서 관심을 가지고 현장을 찾아주셨습니다. 특히 질문들이 구체적이면서도 서비스와의 연관성이 높아, 프롬프트 어택 탐지 기술에 대한 산업 전반의 높은 관심을 실감할 수 있었습니다. 이를 통해 카카오뱅크를 넘어 국내 IT 산업 전반에서도 이 분야의 연구가 활발히 이루어지고 있으며, 앞으로 더욱 발전해 나갈 것이라는 기대를 갖게 되었습니다.
주요 질의 응답은 다음과 같습니다.
증권업에서도 투자 챗봇을 준비 중인데, 가드레일 구성할 때 은행업에서 어떤 부분을 중요하게 보셨나요?
은행의 도메인을 반영한 데이터를 생성하고 이 데이터로 가드레일을 개발하는게 중요합니다. 같은 금융업권이지만 증권, 은행 등 도메인 별로 정상과 공격의 기준이 달라질 수 있다고 생각합니다. 따라서, 증권업에서 근무하시면서 얻은 도메인 지식을 반영해 다양한 학습 데이터를 생성하는 것을 추천드립니다.
아웃풋 가드레일이 도입되게 되면, 입력과 출력을 같이 보기 때문에 context 가 길어지고 이에 따라 latency가 길어져서 서비스 운영에 차질이 생길 것으로 예측됩니다. 이를 위해 따로 준비하고 계시는게 있나요?
현재는 아웃풋 가드레일 개발 단계로, 서비스 아키텍처는 아직 구체화되지 않았습니다. 단, 실제 운영 데이터를 분석한 결과, latency에 영향을 줄 정도로 context 가 긴 경우는 매우 드물기에 현재로선 그런 특이 케이스보다 아웃풋 가드레일 성능 향상에 집중하고 있습니다.
참고 자료
카카오뱅크 금융기술연구소
Financial Tech Lab










