About
home
금융기술연구소
home

더 안전한 금융거래를 지원하는 ‘AI 스미싱 문자 확인’ 서비스

게시일
2024/12/09
담당자
Daehee Han
Yunseung Lee
2 more properties
본 글의 일부는 <카카오 Tech Ethics> “더 안전한 금융거래를 지원하는 ‘AI 스미싱 문자 확인’ 서비스”에도 같이 발행되었습니다. 인용된 이미지의 저작권과 출처는 <카카오 Tech Ethics>입니다.
Contents
스미싱(Smishing)은 휴대폰 문자메시지(SMS)나 SNS로 가족이나 지인, 정부 기관을 사칭해 개인정보를 탈취해 2차 피해를 입히는 범죄입니다. 규제 당국의 자료에 따르면 스팸 메시지 건수는 상반기 대비 2배 가량 증가했습니다. 경찰청은 최근 2년간 스미싱 피해액이 600억 원 억원에 달할 것으로 전망했습니다. 특히 스미싱은 단순한 개인 정보 유출이나 소액 사기와 달리 불법 대출을 비롯한 금융 사기와도 연관이 많아 카카오뱅크에서는 AI로 이를 예방할 수 있는 방안을 고민해 왔습니다.

스미싱 판별 이유도 설명하는 AI 기반 ‘스미싱 탐지 서비스’

카카오뱅크가 이번 서비스를 개발하면서 가장 중점을 둔 부분은 특정 메시지를 스미싱으로 판단하게 된 이유를 한번 더 자세히 알려주는 기능입니다. 간단히 스미싱 여부만 알려줄 경우 이용자가 선뜻 신뢰하기 어렵기에, 덧붙인 판단 근거로 이해도를 높여 해당 정보를 신뢰할지 스스로 결정할 수 있도록 도움을 주고자 했습니다. 최근 생성형 AI 모델들은 사용자 의도를 잘 파악해 자연스러운 판단 근거 생성에 사용해 볼 수 있었습니다. 간단한 문자 내용 분류는 규칙 기반(Rule-based) 방식이 정확도와 효율이 높을 수 있지만, 새롭게 생기는 유형에 유연하게 대응하거나 판단 근거까지 생성해 줄 수는 없어서 LLM (Large Language Model)이 유리했습니다.
때문에 카카오뱅크는 단순히 LLM을 도입하는데 그치지 않고  정확하게 스미싱 문자를 판별하고 그 이유를 자세히 설명하도록 개발 방향성을 설정했습니다. 이러한 기능을 구현하기 위해 특정 메시지를 스팸으로 판단한 이유가 적절한지에 대해 다방면으로 방법을 검토했습니다.

지속적인 학습과 개선으로 진화하는 스미싱 대응

연구와 서비스 개발이 진행되는 기간 중 새롭게 등장하는 스미싱 유형에 대응하는 것이 필요했습니다. 신규 스미싱의 경우, 생활과 밀접한 내용의 문자를 일부 변형하는 등 교묘한 수법을 활용하여 속이려는 의도를 탐지하기 어렵게 발전했습니다. 2023년부터 유행하기 시작한 부고장과 청첩장 스미싱은 내용 특성상 가족과 지인들에게 재전송을 유도해 더 많은 피해를 일으킨 사례도 있었습니다. 올해에는 메신저 ID를 언급하며 외국인이나 관광객을 사칭하는 문자들이 갑자기 급증해서 학습 데이터에 신속히 반영하기도 했습니다. 이처럼 형태가 진화하는 트렌드가 반영될 수 있게 최신 사례 수집과 데이터 축적을 꾸준히 해야했습니다.
탐지 정확도를 보완하는 과정에서 정상적인 광고성 문자와 불법 스팸 문자(불특정 다수에 대량으로 전송되는 메시지) 구분이 중요해졌습니다. 특히, 광고 문자는 정상적인 마케팅 활동을 포함하고 있어서 유형과 범위가 훨씬 다양합니다. 반면, 명확한 수신 동의 없이 무차별하게 전송되는 악성 스팸 문자는 비합법적인 내용을 포함하고 있는 경우가 대부분이라 스미싱과 유해도가 비슷하다고 볼 수 있습니다. 이러한 상황을 반영해 고객에게 더 유익한 서비스가 될 수 있도록, 탐지 대상에 불법 스팸 문자를 포함시켜 스미싱 범위를 재정의 했습니다.
그 밖에 악의적이거나 문자 메시지 범주에 해당하지 않는 내용(욕설, 폭언 등)이 유입되었을 때 입력을 필터링하는 조치가 필요했습니다. 필터링은 별도 금칙어 탐지 API를 통해 수행하였으며, 이에 해당하는 경우 미리 지정된 형태의 답변이 제공되도록 했습니다. 최신 문자 유형과 사기 수법을 수집해 수시로 모델을 재학습했고, 스미싱을 정상으로 오탐하는 경우를 최소화하는 방향으로 정확도를 지속적으로 개선하고자 하였습니다.

사용자 편의성과 규제 준수를 동시에 고려한 서비스 개발

카카오뱅크의 모든 대고객 서비스는 금융 서비스이기에 단순한 기능 편익을 제공하더라도 관련 규제를 세심하게 지켜야 했습니다. 그중에서도 개인정보보호와 관련된 지침을 우선 준수했습니다. 일례로, 서비스 절차에 대한 초기 기획은 금융 사기 예방이 자동으로 가능하도록 편의성을 고려해, 수신한 모든 문자의 스미싱 여부를 실시간 알려주는 방식이 논의되었습니다. 하지만 2018년 유럽연합(EU)에서 개인정보보호 규정(GDPR)이 시행되면서 스마트폰에서 데이터 수집과 사용에 대한 관리 감독이 강화되었고, 사용자의 문자에 상시 접근하려면 모바일 OS별로 추가 권한을 할당 받는 심사가 필요했습니다. 따라서 개인정보를 보호하기 위한 안전 지침들을 더 중요하게 수용하여 사용자가 직접 복사 및 붙여넣기를 하는 방식으로 기획안을 수정하게 되었습니다. 금융 AI 서비스 구현 과정은 성능 및 편의성 만족과 고객 권리를 모두 충족하기 위해 반복 검증을 거쳐야만 했습니다.
Android 통화 및 문자 관련 권한 취득 안내
최종 인터페이스도 고객 보호를 위한 규제와 원칙을 준수하여 구성했습니다. 먼저, 고객이 제공하는 정보에 대한 권리를 보장하고 이를 보호하는 것을 최우선으로 하였습니다. 이를 위해 카카오뱅크 앱에서 ‘AI 스미싱 문자 확인’ 서비스에 처음 진입 할 때 모델학습에 활용 여부를 바로 고지하고 선택할 수 있도록 하였습니다. 모든 안내 메시지는 사용자 경험(UX)을 반영해 친숙하고 쉬운 문체로 가다듬었습니다.
이후에도 서비스 출시까지 최신 데이터 확보, 파라미터 탐색을 통한 성능 개선과 서비스 안정화를 위한 작업을 진행했습니다 내부 테스트에서 임직원들로부터 다양한 유형의 문자를 제보받았고, 이를 데이터 보강 작업에 활용하였습니다. Fine-tuning에서는 적합한 파라미터 조합을 찾기 위해 셀 수 없이 많은 실험을 수행했고 모델의 예측값을 조합하여 사용했습니다. 또한, 후처리 과정을 통해 최종 생성된 답변 품질을 높이면서 복수 모델을 활용한 유량 제어로 안정적인 TPS(Transactions Per Second) 수준의 서비스를 제공하고자 노력했습니다. 이러한 시행착오를 반복하면서 최적의 해법들을 찾아낸 끝에 ‘AI 스미싱 문자 확인 서비스’는 완성될 수 있었습니다.

효율적 LLM 최적화로 스미싱 탐지 고도화

스미싱 탐지의 핵심인 자체 LLM은 성능과 비용 양 측면을 모두 챙길 수 있는 LLM 최적화(Adaptation)를 통해 개발되었습니다. 무엇보다 월간활성이용자수(MAU) 1,800만이 넘는 카카오뱅크 앱 환경에 맞게 수준 높은 성능 뿐만 아니라, 효율적인 자원 관리와 빠른 서비스 응답속도를 확보해야 했습니다. 이를 위해 한국어에 능통한 LLM을 선택 후, 자체 데이터로 핵심 파라미터를 선별해 업데이트 하는 효율적인 접근법(Efficient Fine-tuning)을 시도했습니다.
초기 학습 데이터는 크라우드 소싱, 구매, 직접 수집 등 여러 방법을 병행해서 구축했으며 과적합(Overfitting)을 유발하는 유사 데이터는 제거해서 정제했습니다. 메시지를 스미싱으로 판단하는 근거는 스미싱 정의, 원리, 예시, 예방 방법 등을 상세하게 담은 지시문을 별도 LLM에 프롬프트로 입력하여 생성하도록 하는 Pseudo Labeling(준지도 학습(Semi-supervised learning)을 위한 세부 기법 중 하나로, 레이블이 없는 데이터에 대해 모델이 예측한 결과를 마치 실제 레이블인 것처럼 활용하여 모델을 다시 학습시키는 방법)을 수행했습니다. LLM 파라미터 업데이트는 4비트로 모델을 경량화 한 상태에서, 주요 연산 모듈(Attention) 일부 레이어에 매우 적은 양의 추가 파라미터를 학습하는 방식을 적용했습니다.
스미싱 탐지와 판단 근거 제공을 성공적으로 평가하기 위해서는 예측 결과물에 대한 다방면 검증과 보완이 가장 중요했습니다. 이에 따라 정탐과 오탐을 동시에 고려할 뿐만 아니라, 판단 근거 적절성을 평가하기 위해 다방면의 지표를 통해 성능을 검증했습니다.
일반적으로 알려진 유사도 기법(두 개의 데이터 포인트 간의 유사성을 측정하는 방법. 주로 자연어 처리 분야에서 사용되며, 텍스트 요약 및 번역 품질을 평가하는 데 활용됨. BLEU, ROUGE, BertScore 등의 기법이 있음)을 활용하여 생성된 문장을 정답 문장과 비교하여 평가했습니다. 이외에도 논리성, 일관성, 유용성, 형식 준수 등을 구체적으로 정의하고 외부 LLM으로 수치화하는 절차도 추가했습니다. 자동화된 평가 수치를 보완하기 위하여 평가자 2명이 직접 정성평가를 수행하고, 평가결과의 신뢰성을 담보하기 위하여 평가결과 일치여부를 검증하였습니다.
카카오뱅크는 고품질 데이터 확보, 평가 방법 정의 및 Fine-tuning를 바탕으로 스미싱 탐지와 판단 근거 생성까지 가능한 LLM을 완성하였습니다. 자체적인 정량평가와 정성평가에 따르면 GPT-4와 GPT-4o의 탐지 정확도를 능가하면서 환각 증세로 인한 판단 근거 오류는 현저하게 적은 수준을 달성했습니다.
스미싱 유형은 계속해서 변화하므로 ‘AI 스미싱 문자 확인’ 서비스 출시 이후에도 지속적인 관리와 업데이트가 필요합니다. 카카오뱅크 AI 기술을 책임지고 있는 안현철 최고연구개발책임자(CRDO)는 “앞으로도 사용자가 편리하면서도 안전한 금융생활을 누리는 데 도움이 될 수 있는 AI 서비스 개발 노력을 지속하겠다.”는 포부를 밝혔습니다.

카카오뱅크 금융기술연구소

Financial Tech Lab
Copyright ⓒ KakaoBank Corp. All rights reserved.