안정성과 혁신 모두를 위해 도약하는 우리의 이야기를 담았습니다
금융기술연구소 3주년 기념 주요 성과 리뷰
Contents
대내외 협업 취지
카카오뱅크는 금융기술연구소(이하 연구소)를 필두로 한 대내외 연구개발 협업을 통해 우수한 선진 기술을 도입하고 기술적 한계를 뛰어넘기 위한 노력을 지속해오고 있습니다. 2편에서 먼저 소개한 연구소만의 개방적 연구 환경과 유연한 운영 방식은 카카오뱅크 내 현업 부서 및 외부 전문가들과 협업을 극대화하기 위한 사전 조치입니다. 이는 IT산업이 디지털 기반 투명성과 개방성을 바탕으로 수준 높은 기술을 빠르게 개발하고, 비용 절감은 물론 의사 결정 문화 개선까지 이뤄왔던 것을 금융산업에도 재현해 보려는 바람입니다.
연구소 핵심과제들은 주요 목표와 투입 자원, 일정 등을 정기 운영위원회를 통해 보고하고 연구 방향을 결정합니다. 운영위원회는 연구개발 성과 활용성을 다각도로 검증하는 동시에 대고객 서비스에 필요한 요구 사항을 공유하기 위해 유관 기술 부서 책임자들을 위원으로 위촉하고 있습니다. 운영위원회에서 결정된 사안들은 각 위원들이 책임지고 있는 부서와 긴밀한 체계를 꾸준히 유지하는 것이 관건입니다. 때로는 타 부서와 연구소 상호 간 인력을 파견하거나 TF를 구성해 특별 프로젝트를 전개하는데, 유독 2023년은 공동 프로젝트가 많이 진행된 한 해였습니다.
외부 과제 및 협력 현황
학계 협업은 외부에서 최첨단 기술 역량을 수혈하고 급변하는 기술 트렌드를 받아들이기 위해 연구소가 중점을 두고 추진하고 있습니다. 카카오뱅크는 금융위원회의 ‘금융분야 AI 개발·활용 안내서’(2022년) 발간에 주도적으로 참여하였으며, 신뢰 가능한 AI 도입을 위한 AI거버넌스 체계를 수립했습니다. 또한 AI를 활용한 대고객 금융상품 서비스 신뢰 제고를 위해 국내 금융권 최초로 인공지능경영시스템(ISO/IEC 42001) 인증을 취득한 바 있습니다. 전사적 공로와 업적에도 불구하고 최근 화두인 LLM 토대 위에 안정성을 온전히 확보하려면 더 심도 있는 연구가 아직 많이 필요합니다. 연구소에서 이러한 기술 간극을 보완해 보고자 카이스트와 ‘금융분야 설명 가능 AI’, 고려대와 ‘금융분야 LLM 평가지표 개발’ 등 산학 연구과제 2건을 지난해 새로 착수하였습니다.
이외에도 연구과제 수립과 학술 성과 고도화에 조력을 받고자 자문교수 제도를 처음 시작했습니다. 첫 시도로 인하대, 성균관대와 자문 계약을 체결했고 점진적으로 중요 분야를 발굴해 탁월한 연구자들과 협력해 나갈 계획입니다. 국내 금융지주사들이 외부 기업과 공동 기술 개발을 하거나 초기 투자 목적으로 운영하는 핀테크랩 기능도 연구소가 해야 할 역할 중 하나입니다. 다양한 외부 협력 덕분에 학술 논문의 수준을 한 단계 높였고, 연구 분야 폭이 넓어지면서 FnGuide처럼 산업계 파트너와 함께할 기회도 만들 수 있었습니다.
금융기술연구소 3주년 기념 주요 성과 리뷰 3편 협력과 도전
Contents
연구 배경
최근, 대규모 언어모델(Large Language Models, LLM) 등장으로 자연어처리 기술이 비약적으로 발전했으나 금융 용어 및 도메인 지식에 전문화된 언어모델은 부족해서 은행을 비롯한 금융기관에서 최신 언어모델을 쓰기에 아직 어려움이 많습니다. 사전학습 언어모델(Pre-trained Language Model, PLM)은 범용 언어모델보다 특정 도메인 이해도를 집중적으로 높이기 위한 방식입니다.
카카오뱅크는 기업 금융 정보 전문 기업인 에프엔가이드(FnGuide)와 함께 1년 여 동안 고품질의 한국어 금융 학습 데이터를 구축하고, 이 학습 데이터에 최적화시킨 KF-DeBERTa 언어모델을 국내 금융사 최초로 GitHub와 Hugging Face를 통해 대중에게 공개합니다. KF-DeBERTa는 학술적 공로를 인정 받아 지난 10월 35회 한글 및 한국어 정보처리 학술대회(HCLT 2023)에서 우수상을 수상하기도 했습니다. 모델 이름의 KF는 ‘Korean Finance’와 ‘Kakaobank + FnGuide’를 의미합니다.
문제 정의
일반 언어모델들은 아무리 모델이 크고 학습 데이터가 방대하더라도 범용 말뭉치(General corpus) 기반이라 높은 전문지식(Domain knowledge)이 필요한 분야에서는 한계를 보이는 경향이 있습니다. 그나마 공개된 데이터가 충분한 분야는 준수한 성능을 보이나 금융처럼 전문용어 사용이 많은 분야는 양질의 한국어 데이터 자체가 부족합니다. 특히 금융 산업은 법률 규제로 인해 자체 보유한 데이터를 외부에 공개하기 어려운 보수적 분위기가 강하며, 금융 관련 서비스에 언어모델이 쓰이려면 다음 3가지 요소가 보완되어야 합니다.
금융관련 서비스에 언어모델이 쓰이기 위해 보완되어야 할 3요소
한가지 전문 분야에 특화시키는 언어 모델은 과학기술 Galactica (Meta), 의료 Med-PaLM (Google), 법률 Legal-BERT (Athens University), 임상기록 GatorTron (Nvidia, University of Florida) 등 여러가지가 시도되고 있습니다. 금융 분야는 BloombergGPT (Bloomberg)와 FinBERT (Prosus)가 유명합니다. 주로 영어권 언어모델이며, 국내에서는 2021년 KB국민은행이 KB-ALBERT를 공개했지만 모델 파일은 별도 허가를 얻어야 받을 수 있습니다.
자연어처리 성능이 뛰어나다고 해도 무조건 거대한 언어모델을 활용하는 것은 개발 투자와 서비스 운영 비용 관점에서 부담스럽기도 합니다. 다양한 여건들을 고려해, 카카오뱅크와 에프엔가이드는 양방향(Bi-directional) 구조로 문맥을 양방향으로 이해하고 위치정보를 포함한 Disentangled Attention이 도입된 DeBERTa을 토대로 자체 금융특화 언어모델을 개발했습니다.
카카오뱅크의 금융특화 언어모델 KF-DeBERTa 개발기