ICLR 2026에서 인정받은 카카오뱅크의 AI Safety 기술력, 프롬프트 어택 탐지 가드레일 EXPGUARD

게시일

2026/05/06

담당자

Jungmin Son

Subin Kim

Youngjun Kwak

2 more properties

Contents

•

왜 가드레일에 '전문 도메인(Specialized Domains)' 이 필요할까?

•

전문 도메인 특화 데이터셋 EXPGUARDMIX와 가드레일 모델 EXPGUARD 개발기

•

글로벌 SOTA 모델을 뛰어넘는 압도적 성능

•

카이스트와의 협력, 그리고 서비스를 향한 다음 스텝

세계 최고 권위의 인공지능 학회인 ICLR 2026(International Conference on Learning Representations)에 카카오뱅크 기술연구소가 카이스트와의 산학협력을 통해 연구한 전문 분야 가드레일 <EXPGUARD: LLM Content Moderation in Specialized Domains> 논문이 포스터 세션으로 채택되었습니다.

ICLR은 Google, Meta, OpenAI 등 글로벌 AI 선도 기업들이 참여하여 미래 AI의 방향성을 만들어가는 Top3 국제 학술 대회입니다. 약 28%라는 높은 경쟁률을 뚫고 채택된 이번 연구는 카카오뱅크가 단순히 AI 모델을 사용하는 것을 넘어, AI의 안전성을 제어하는 'AI Safety' 분야에서 글로벌 수준의 기술력을 보유하고 있음을 입증한 결과입니다.

왜 가드레일에 '전문 도메인(Specialized Domains)' 이 필요할까?

최근 LLM이 금융, 법률, 의료 등 전문 분야의 실무에 적극적으로 사용되면서, 입력과 출력의 안전성을 검증하는 '가드레일(Guardrail)'의 중요성이 그 어느 때보다 커지고 있습니다. 하지만 기존의 가드레일 모델들은 일반적인 대화 맥락에서는 잘 동작하지만, 전문 용어와 복잡한 개념이 혼재된 도메인에서는 적대적 공격에 취약한 모습을 보입니다.

또한 공격자들은 일반적인 단어 대신 전문적 지식을 악용해 보안 우회를 시도하기도 합니다. 예를 들어, 금융 용어인 Haircut(담보가치 인정비율)을 악용해 자산 평가 조작을 시도하는 경우, 기존 가드레일은 이를 파악하지 못하고 통과시킬 위험이 있습니다. 카카오뱅크 기술연구소는 이러한 '도메인 특화 공격'으로부터 사용자를 보호하고, 신뢰할 수 있는 금융 AI 환경을 구축하기 위해 이번 연구를 진행하였으며, 다음과 같은 핵심 성과를 거두었습니다.

주요 결과

전문 분야 특화 가드레일 모델 'EXPGUARD' 개발: 금융, 의료, 법률 전문 도메인에 특화된 새로운 가드레일 모델을 개발했으며, EXPGUARD는 전문 용어와 맥락을 정교하게 파악하여 기존 가드레일의 문제점을 해결했습니다.

대규모 고품질 데이터셋 'EXPGUARDMIX' 구축: 총 58,928개의 프롬프트로 구성된 대규모 데이터셋을 구축했습니다. 이 중 도메인 전문가가 직접 라벨을 검수한 EXPGUARDTEST는 전문 분야 가드레일 성능을 정확하게 평가할 수 있는 벤치마크입니다.

광범위한 실험을 통한 기술적 우수성 입증: EXPGUARD는 일반 도메인에서의 safety 성능과 기술적 유해 콘텐츠 탐지 모두 우수한 성능을 보입니다. 실험 결과, 기존 SOTA 모델인 WildGuard 대비 입력 측면에서 8.9%, 출력 측면에서 15.3%의 성능 향상을 달성하며 전문 용어를 악용한 공격에 강력한 대응력을 보였습니다.

확장 가능한 데이터 구축 프레임워크 공개: 다른 전문 분야에서도 해당 연구를 이어갈 수 있도록 자동화된 데이터 구축 파이프라인을 설계하고 , 코드와 데이터셋을 Github 및 HuggingFace에 공개하여 안전한 AI 생태계 발전에 기여했습니다.

전문 도메인 특화 데이터셋 EXPGUARDMIX와 가드레일 모델 EXPGUARD 개발기

본 연구에서는 전문 도메인 가드레일 개발에 최적화된 데이터셋인 EXPGUARDMIX를 구축했습니다. EXPGUARDMIX는 가드레일 모델 EXPGUARD 학습에 사용된 EXPGUARDTRAIN과 모델 강건성을 평가하기 위한 EXPGUARDTEST로 구성되어 있습니다.

EXPGUARDMIX 구축 파이프라인은 세 단계로 이루어져 있습니다.

도메인 특화 용어 마이닝 (Terminology Mining) 위키피디아를 기본 소스로 하여 각 도메인의 핵심 전문 용어를 추출했습니다. 이 과정에서 위키데이터(Wikidata) API를 통해 비기술적 용어를 필터링하고, GPT-4o와 인간의 검수 과정을 통해 최종적으로 금융(989개), 의료(1,012개), 법률(645개) 분야의 전문 용어셋을 확보했습니다.

프롬프트 및 응답 구축 (Prompt & Response Construction) 위에서 확보된 용어들을 바탕으로 실제 공격 시나리오를 반영한 데이터를 생성했습니다.

유해 프롬프트: LLM의 자체 안전 메커니즘을 우회하는 기법(Affirmative Prefix)을 활용해, 전문 용어가 나쁜 의도로 악용되는 공격 시나리오를 설계했습니다.

정상 프롬프트: 모델이 과도하게 답변을 거부하는 현상(Over-refusal)을 방지하기 위해, 민감한 용어를 포함하되 안전한 질문들을 함께 구성했습니다.

응답 생성: 공격에 순응하는 응답(Mistral-7B 활용)과 안전하게 거절하는 응답(Gemma-3-27B 활용)을 모두 생성하여 학습하게 했습니다.

카테고리 레이블링 및 데이터 필터링 (Category Labeling & Filtering) 생성된 데이터의 신뢰도를 높이기 위해 서로 다른 개발사의 최신 모델(Claude 3.7, Gemini 2.0, Qwen 2.5)을 활용한 앙상블 레이블링을 실시했습니다. 단순히 결과만 내는 것이 아니라 '사고 과정(Chain-of-Thought)'을 기록하게 하여 도메인 지식에 기반한 판단인지 확인했습니다. 세 모델 중 두 모델 이상이 동일한 유해 카테고리로 분류할 때만 최종 데이터로 채택하는 엄밀한 합의 과정을 거쳤습니다.

EXPGUARD는 위에서 구축한 EXPGUARDTRAIN을 학습하고 EXPGUARDTEST를 검증에 사용하여 개발되었습니다. 정상/유해 2가지의 라벨을 예측하는 구조이며, multi-task 방식으로 유해여부를 탐지합니다. multi-task 방식이란, prompt 만 입력되는 경우 prompt 의 유해여부를 탐지하고, prompt-response 쌍이 입력되는 경우 입출력의 유해여부를 모두 탐지하는 방식으로 사용자 입장에서 서비스 환경 및 요구사항에 따라 취사선택하여 사용할 수 있습니다.

글로벌 SOTA 모델을 뛰어넘는 압도적 성능

가드레일 모델 EXPGUARD의 실효성을 검증하기 위해 기존의 API 기반 가드레일 및 최신 LLM 기반 가드레일 모델들과 비교 실험을 진행했습니다. 실험은 자체 구축한 EXPGUARDTEST뿐만 아니라, 8개의 오픈소스 안전성 벤치마크를 포함하여 다각도로 이루어졌습니다.

•

독보적인 도메인 특화 성능: EXPGUARD는 도메인 특화 데이터셋 EXPGUARDTEST의 프롬프트 분류에서 93.3%의 F1 스코어를 기록하며, 기존 SOTA 모델인 WildGuard (84.4%) 대비 8.9% 향상된 성능을 보였습니다. 응답 분류 성능에서도 92.7%를 달성하여 WildGuard (77.4%)를 15.3% 차이로 크게 앞질렀습니다.

•

분야별 고른 우수성: 금융, 의료, 법률마다 94.1%, 91.2%, 94.6%의 F1 스코어를 기록했으며 모든 전문 도메인의 프롬프트 분류에서 경쟁 모델들을 일관되게 앞섰습니다.

•

범용 안전성 및 강건성 입증: 전문 분야뿐만 아니라 일반적인 안전성 벤치마크에서도 평균 85.7%의 F1 스코어를 기록하며, WildGuard (84.2%) 대비 우수하며, 범용 가드레일로서의 우수한 성능과 강건성을 입증했습니다.

실험 과정에서 흥미로운 점은 Detoxify, Perspective API, OpenAI Moderation 등 기존의 주요 API 기반 가드레일들이 전문 분야 데이터셋(EXPGUARDTEST)에서 0.3~0.6%라는 극히 낮은 점수를 기록했다는 사실입니다. 이는 전문 용어가 포함된 유해 콘텐츠를 식별하기 위해서는 도메인 지식을 갖춘 전문 모델이 반드시 필요함을 시사합니다.

또한, 적대적 공격(Jailbreak)에 대한 분석 결과, EXPGUARD는 공격의 ‘형태', '구조적 특징’이 아닌 '내용'의 유해성을 정확히 파악하여 전문 분야를 악용한 변칙적인 보안 우회 시도까지 효과적으로 차단함을 확인했습니다.

•

F1 스코어 설명 : F-score

카이스트와의 협력, 그리고 서비스를 향한 다음 스텝

이번 연구는 카이스트 DAVIAN 연구실과의 산학 협력을 통해 이루어졌습니다. 학술적 깊이와 실무적 요구사항이 결합되어 도출된 성과이기에 그 의미가 더욱 큽니다. 연구소는 여기서 멈추지 않고, 위 논문의 결과물을 향후 AI Safety 연구에도 적극 반영할 예정입니다. 특히 진화하는 다양한 공격 패턴을 고도화하여 벤치마크에 반영하고, 가드레일을 주기적으로 업데이트하여 사용자에게 한결같은 안전함을 제공할 것입니다.

<<목록으로

카카오뱅크 금융기술연구소

Financial Tech Lab

경기도 성남시 분당내곡로 131 판교테크원 타워2 15층 (13529)

문의 하기