Contents
•
EMNLP & NeurIPS 2024, 그리고 우리의 연구
•
[EMNLP 2024] 한국어 LLM 기반 스미싱 탐지 연구
•
[NeurIPS 2024] LLM 기반 금융 테이블 데이터 생성 연구
•
종합 및 향후 과제
EMNLP & NeurIPS 2024, 그리고 우리의 연구
2024년은 인공지능 및 자연어처리 분야에서 혁신적인 연구가 쏟아진 한 해였습니다. 특히 EMNLP와 NeurIPS는 전 세계 연구자들이 최신 기술과 아이디어를 공유하는 대표적인 학회로, 금융 산업에서의 AI 활용 가능성 역시 한층 넓어진 것을 확인할 수 있었습니다.
카카오뱅크 금융기술연구소는 2024년 11월과 12월에 진행된 EMNLP와 NeurIPS 학회에 직접 참가하여, 연구 성과를 발표했습니다. 또한, 글로벌 연구 동향을 파악하고 카카오뱅크의 연구 방향을 점검하는 소중한 기회를 가졌습니다. 본 글에서는 논문에서 다룬 기술 내용과 발표 현장 스케치, 그리고 이를 바탕으로 한 우리의 연구 방향에 대해 정리하고자 합니다.
[EMNLP 2024] 한국어 LLM 기반 스미싱 탐지 연구
EMNLP(Empirical Methods in Natural Language Processing)는 ACL(Association for Computational Linguistics)에서 주최하는 자연어 처리(NLP) 및 인공지능(AI) 분야에서 가장 영향력 있는 학회입니다. 언어모델, 생성형 AI, LLM, 텍스트 분석, 기계 번역, 감정 분석 등과 같은 다양한 자연어 처리 관련 주제를 다루며, 데이터 기반 연구와 실험적 방법론을 중심으로 공유합니다. 이번 EMNLP 2024는 2024년 11월 12일부터 16일까지 미국 플로리다주 마이애미에서 개최되었습니다.
카오뱅크 금융기술연구소는 “KorSmishing Explainer: A Korean-centric LLM-based Framework for Smishing Detection and Explanation Generation”이라는 논문을 Industry Track에서 발표했습니다
1) 연구 배경
카카오뱅크 기술연구소는 문자 메시지를 기반으로 한 금융 사기, 특히 스미싱(SMS + Phishing)에 대응하기 위한 AI 모델을 연구하고 있습니다. 기존의 스미싱 탐지 모델은 메시지가 위험한지 아닌지를 분류하는 데 그치고 있어, 사용자에게 그 이유를 이해하거나 설명하는 데 한계가 있었습니다. 이러한 문제를 해결하기 위해 판단 결과와 함께 판단 근거를 자연어로 설명할 수 있는 한국어 특화 언어모델 학습 프레임워크를 개발했습니다.
2) 주요 연구 내용
KorSmishingExplainer는 대규모 언어모델(LLM)을 활용해 금융기관을 사칭하는 스미싱 문자를 스미싱인지 판단하고 동시에 그 판단 근거를 자연어로 구체적인 설명을 생성하도록 설계된 프레임워크입니다. KorSmishingExplainer는 크게 Pseudo-label Generation과 Task Adaptive Fine-tuning, 두 단계로 구성되어 있습니다.
1. Pseudo-label Generation
먼저, 스미싱 문자와 정상 문자를 수집한 후, 판단 근거에 해당하는 설명 문장을 생성했습니다. 이를 위해 GPT-4o를 활용한 프롬프트 기반 설명 생성 과정을 거쳤으며, 생성된 문장은 인하우스 검수를 통해 품질을 확보했습니다. 수집한 데이터의 유형은 아래 그림과 같습니다.
2. Task Adaptive Fine-Tuning
설명이 포함된 데이터를 기반으로 한국어 LLM에 최적화된 Fine-tuning을 진행했습니다. QLoRA를 적용해 모델 전체가 아닌 일부 파라미터만 효율적으로 업데이트했습니다.
응답 형식은 고정된 포맷($$스미싱 여부$$, $$설명$$)을 따르도록 설계해 실서비스 적용 가능성을 고려했습니다.
3) 실험 결과
제안한 프레임워크는 스미싱 탐지 정확도와 설명 생성 품질 모두에서 기존 LLM을 상회하는 성능을 보였습니다.
특히 GPT 계열 모델보다 제안 모델이 스미싱 탐지에서 높은 성능 기록했습니다. 생성된 판단 근거의 경우, 정답 문장과 생성된 문장 간의 비교(BLEU, ROUGE, BertScore)에서 GPT 모델들보다 제안 프레임워크로 학습한 모델이 우수한 성능을 보였습니다. 또한, LLM 기반 평가에서도 GPT-4o에 근접한 논리성과 명확성 점수 기록했습니다.
생성결과에 대한 다면적 평가를 위해 GPT-4o와 카뱅 자체 학습 모델의 응답을 익명화한 뒤 비교 평가를 실시하고 평가자 간 신뢰도를 측정했습니다. 정성평가 결과, 제안 프레임워크로 학습한 모델의 응답이 GPT-4o보다 더 선호되는 경향을 보였습니다. 특히 자체 학습 모델은 문맥과 정보량을 바탕으로 정상 메시지를 스미싱으로 오인하는 케이스가 적었습니다. 또한, 판단근거를 생성하는 과정에서 제안한 모델의 설명 품질이 더 개선된 것을 확인할 수 있었습니다.
4) 발표 현장 스케치
카카오뱅크 서비스 구조에 대한 관심도 높아, 앱 화면을 소개하며 기술과 서비스 연결점을 설명하기도 했습니다. 또한, EMNLP 2024 내 여러 세션에 해외 기업 및 연구기관 그리고 국내 기업들도 다수 참여하여, LLM 기반 서비스에서의 어려움을 해결하기 위한 여러 연구 아이디어 및 결과가 많이 소개된 것이 인상적이었습니다.
포스터 발표하는 동안 여러 해외 기업 및 연구자들이 부스를 방문해 질문을 주셨습니다. 포스터 발표를 하며 받았던 주요 질문들은 아래와 같습니다.
주요 질문 및 코멘트
•
설명 라벨(pseudo-label) 구체적인 생성 방법
•
5B 이하 모델만 선택한 이유
•
데이터셋 검수 방식과 분류 기준
•
실서비스 적용을 위한 latency 및 UI 구성
5) 마무리
KorSmishing Explainer로 학습한 LLM은 현재 카카오뱅크 ‘AI 스미싱 문자 확인 (beta)’에 적용되어 운영 중입니다. 해당 모델은 문자의 위험 여부를 판단하는 데 그치지 않고, 그 판단의 이유를 자연어로 설명할 수 있어 사용자 신뢰도 향상에 기여할 수 있습니다. 또한, 비교적 소형 모델을 활용해 학습 및 운영 효율을 확보한 점도 실무 적용 측면에서 의미가 큽니다.
이번 연구는 한국어 언어모델을 기반으로 소비자 보호 측면의 문제를 해결하고자 한 시도로, 생성형 AI가 실제 금융 서비스에 적용되는 하나의 사례가 될 수 있을 것으로 기대하고 있습니다.
[NeurIPS 2024] LLM 기반 금융 테이블 데이터 생성 연구
NeurIPS(Conference on Neural Information Processing Systems)는 매년 12월에 개최되는 세계 최고 수준의 기계학습, 인공지능, 딥러닝 등 신경망 및 정보 처리 시스템 관련 분야 학회입니다. Table Representation Learning(TRL) 워크숍은 국제 인공지능 컨퍼런스에서 3회째 개최되는 워크숍으로, 이번에는 NeurIPS에서 개최되었습니다. TRL 워크숍에서는 정형 데이터를 위한 인공지능을 주제를 중심으로 하며, 테이블 데이터 표현 학습, 테이블 데이터를 위한 생성형 모델과 LLM, 멀티모달 학습 등 다양한 분야를 다룹니다.
카카오뱅크 금융기술연구소는 캐나다 밴쿠버에서 개최된 NuerIPS TRL 워크숍에 참석하여 “Expertise-Centric Prompting Framework for Financial Tabular Data Generation using Pre-trained Large Language Models” 이라는 논문을 발표했습니다.
1) 연구 배경
고객의 결제 내역을 바탕으로 생성형AI가 일기를 생성해 주는 서비스인 <오늘의 mini 일기> 서비스가 2024년 1월에 선보였습니다. 연구소에서는 이를 위한 AI 모형 개발을 담당했고, 이 과정에서 저희는 모형의 입력값이 되는 다양한 금융 결제 테이블 데이터가 필요했습니다. 하지만 실제 고객의 데이터를 자유롭게 모형 개발에 활용하기에는 개인정보 처리 및 보안 측면에서의 어려움이 있었고, 이 문제를 해결하기 위해서 저희는 실제와 같은 가상의 금융 결제 내역을 담은 테이블 데이터가 필요했습니다. 이에 따라, 저희는 금융 도메인에 특화된 고품질 합성 테이블 데이터를 생성하기 위해 LLM 기반의 생성 방식을 제안하였습니다.
2) 주요 연구 내용
본 논문에서는 현실적이며 접근 가능한 가상 금융 데이터(pseudo-financial datasets) 생성과 금융 전문가의 데이터 생성 및 검증 부담 최소화라는 두 가지의 목표를 달성하기 위해 금융 전문가와 LLM의 협업을 통한 데이터 생성 방법론과 정량적 평가 지표를 포함한 프롬프트 기반 테이블 데이터 생성 프레임워크 제안하였습니다.
1. 프레임워크 (ECP: Expertise-Centric Prompting)
이번 연구에서는 Pre-trained LLM을 활용하여 금융 도메인에 특화된 테이블 데이터를 생성하되, 도메인 전문가의 지식을 In-context learning으로 통합하고 통계적으로 타당한 테이블 데이터를 생성하는 프레임워크를 제안했습니다.
➀ 스키마 보정(Schema Calibration): LLM이 생성한 초안 스키마(예: 나이, 거래금액, 계좌유형 등)에 대해전문가가 각 속성의 의미와 목적에 맞는 설명을 추가함으로써, LLM이 금융 도메인의 맥락을 정확히 이해할 수 있도록 유도합니다.
➁ 예시 데이터를 생성(Example Generation): 보정된 스키마를 바탕으로 예시 데이터를 생성하여 스키마 이해도를 확인합니다.
➂ 속성 제약(Attribute Constraints): 단항(unary) 및 이항(binary) 제약조건을 반영하여 실제 분포에 가까운 데이터를 생성하도록 합니다.
•
단항 제약 예: “'금액'열은 반드시 숫자이며, 0 이상 10억 이하의 값을 가져야 한다”
•
이항 제약 예: “'출금일자'열은 '입금일자' 이후여야 한다”
2. 평가 지표
제안된 ECP 프레임워크로부터 생성된 데이터의 품질과 유효성을 측정하기 위해 두 가지 핵심 관점에서 평가했습니다.
➀ 다양성 (Diversity): 현실 세계의 다양한 금융 행위를 반영하고, 모델의 출력값 반복으로 인한 데이터 중복을 방지하는 것이 목표입니다.
•
Inter-instance Diversity: 샘플 간 다양성 (→ Uniformity 및 PCA 기반 평가)
•
Intra-instance Diversity: 하나의 샘플 내 속성의 다양성 (→ 엔트로피 기반 측정)
➁ 제약 만족도 (Constraint Satisfaction): 생성된 데이터가 속성의 논리적·수치적 제약 조건을 얼마나 잘 준수하는지 평가합니다.
•
Unary Constraint: 각 속성이 허용된 값의 범위를 지키는지 확인
•
Binary Constraint: 속성 간 관계(예: 날짜 순서, 금액 조건 등)를 잘 반영하는지 확인
3) 실험 결과
본 연구에서는 ECP(Expertise-Centric Prompting) 프레임워크의 효과를 생성된 데이터의 다양성과 제약 조건 충족 여부를 중심으로 평가하였습니다.
실험 결과, ECP를 적용한 경우 기존 방법들과 비교하여 유사하거나 더 높은 수준의 데이터 다양성을 유지하면서도, 제약 조건 충족도는 뚜렷하게 향상된 것으로 나타났습니다. 특히 ChatGPT 시리즈는 전체적인 성능에서 가장 우수한 결과를 보였으며, 단항 및 이항 제약을 매우 잘 준수함을 확인할 수 있었습니다.
Ablation study를 통해 ECP의 세 가지 핵심 구성 요소인 스키마 보정(schema calibration), 단항 제약(unary constraint), 이항 제약(binary constraint)을 모두 적용했을 때, 평균적으로 가장 우수한 성능을 달성함을 확인하였습니다. 이를 통해, ECP 프레임워크가 금융 전문가의 지식을 효과적으로 반영하여, LLM 기반 데이터 생성 과정에서 데이터의 다양성과 정합성 간의 균형을 성공적으로 달성한 방법론임을 실험적으로 입증하였습니다.
4) 발표 현장 스케치
저희 논문은 금융 테이블 데이터를 생성하는 프레임워크를 주제로 한 연구였고, 구두 발표와 포스터 발표를 모두 진행했습니다. 연구 내용 중에서도 특히 테이블 데이터 생성 과정에서 각 열 속성이 만족해야 하는 여러 제약 조건을 부여하고 검증하는 아이디어에 대한 주목을 많이 받았습니다.
주요 질문 및 코멘트
•
제약 조건 기반의 열 속성 제어 방식이 신선하며, 실제 금융 데이터에 활용 가능성이 높음
•
전문가의 역할이 방법론에 어떻게 반영되었는지에 대한 구체적 질의
•
데이터 생성 후의 검증 절차 및 평가 메트릭에 대한 다양한 질문
•
실제 응용 사례에 대한 관심 (ex. 모델 학습용 synthetic data 생성, 익명화, 내부 테스트 시나리오 구축 등)
•
생성된 데이터에 오류가 있는 경우 대응 방법
5) 마무리
TRL 워크숍은 단순한 테이블 표현 학습을 넘어, 구조적 데이터에 대한 LLM의 이해와 생성, 추론 가능성을 실험하는 다양한 시도가 집약된 자리였습니다. 특히 여러 기관의 연구자들과 실시간으로 아이디어를 교류하고 피드백을 주고받으며, 테이블 데이터에서의 AI 응용 가능성에 대해 더욱 확신할 수 있는 시간이었습니다.
이번 학회 참여를 통해 얻은 인사이트들을 바탕으로, 앞으로도 금융 도메인에 특화된 안전하고 효율적인 AI 기술을 개발할 수 있기를 기대합니다.
종합 및 향후 계획
2024년 EMNLP와 NeurIPS에서의 연구 발표와 현장 경험을 통해, 카카오뱅크 금융기술연구소는 한국어 LLM 기반 스미싱 탐지와 금융 테이블 데이터 생성 등 실제 금융 서비스에 적용 가능한 AI 기술의 가능성과 한계를 직접 확인할 수 있었습니다.
향후 연구소는 생성형 AI와 금융 도메인 전문지식의 융합을 더욱 고도화하여, 실질적인 문제 해결과 서비스 혁신을 이끌어내고자 합니다. 또한, 글로벌 연구 트렌드와 국내 금융 환경의 특수성을 균형 있게 반영하여, 카카오뱅크만의 차별화된 AI 기술을 지속적으로 개발하고 실서비스에 적용할 예정입니다. 앞으로도 카카오뱅크 금융기술연구소는 안전하고 신뢰할 수 있는 금융 AI 생태계를 구축하기 위해, 연구 성과의 비즈니스 실현 가속화를 계속해 나가겠습니다.