BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios

게시일

2026/05/14

담당자

Subin Kim

Youngjun Kwak

Yunseung Lee

2 more properties

Contents

•

LREC 2026에서 인정받은 카카오뱅크의 금융 수치 추론 기술력

•

연구 배경 및 주요 성과 : 뱅킹 시나리오 특화 벤치마크 제안 및 주요 성과

•

Key Contributions

•

방법론 : BankMathBench 데이터셋 및 생성 파이프라인

◦

데이터셋 구성

◦

데이터 생성 파이프라인

◦

금융 전문가 검수

•

실험 결과 : 오픈소스 LLM의 뱅킹 시나리오 수치 추론 능력 개선

•

더 정교한 금융 AI를 향한 여정

LREC 2026에서 인정받은 카카오뱅크의 금융 수치 추론 기술력

카카오뱅크 기술연구소의 논문 <BankMathBench: A Benchmark for Numerical Reasoning in Banking Scenarios>가 자연어 처리(NLP) 분야의 대표 국제 학회인 LREC 2026에 구두 발표(Oral Presentation)로 채택되었습니다.

BankMathBench는 예적금, 대출 등 실제 은행 상품 시나리오에서 필수적인 수치 계산 및 추론 능력을 평가하기 위해 설계된 금융 수치 추론 특화 벤치마크입니다. 언어 데이터셋과 평가 방법론을 핵심적으로 다루는 LREC에서 이번 연구가 채택된 것은, 카카오뱅크가 단순히 AI 모델을 활용하는 단계를 넘어 금융 AI의 정확도와 신뢰성을 검증할 수 있는 표준을 제시했다는 점에서 큰 의미가 있습니다. 카카오뱅크는 이번 연구를 통해 일상 금융 시나리오에서의 수치 추론 능력을 체계화하고, 실제 모델의 성능 개선 효과까지 실험적으로 입증하며 금융 AI 기술력을 증명했습니다.

연구 배경 및 주요 성과 : 뱅킹 시나리오 특화 벤치마크 제안 및 주요 성과

최근 LLM 기반 금융 상담 서비스의 활용이 확대되면서, 예·적금 및 대출과 같은 금융 상품에 대한 질의 응답이 증가하고 있습니다. 이러한 질문은 단순 정보 제공을 넘어, 정확한 추론 과정과 계산 결과를 요구하는 문제입니다.

하지만, 현존하는 LLM을 뱅킹 시나리오 수치 추론 문제에 대해 평가한 결과, 수학 특화 모델뿐만 아니라 금융 도메인에 특화된 오픈소스 모델들 역시 전반적으로 낮은 성능을 보였습니다. 또한 GPT-4o와 같은 대규모 모델 역시 일상 금융 계산 영역에서는 충분히 강건하지 않은 모습을 확인할 수 있었습니다. 이는 현재 LLM이 일반적인 텍스트 생성에는 뛰어난 성능을 보이지만, 일상적인 뱅킹 시나리오에 대한 학습 데이터와 경험이 상대적으로 부족해, 복잡한 금융 수식을 포함한 문맥을 정확히 이해하거나 다단계 연산이 요구되는 추론 과정에서 오류가 발생하기 쉽다는 한계를 시사합니다.

실제로 기존 수학 및 금융 벤치마크는 교과서적인 문제나 증권·재무 리포트 기반 질의응답 중심으로 구성되어 있어, 현실적인 금융 의사결정 상황을 충분히 반영하지 못하는 한계가 있습니다. 이러한 벤치마크의 부재는 LLM이 일상 뱅킹 시나리오에 특화된 수치 추론 능력을 학습하고 발전하는 데 주요한 제약 요인으로 작용합니다.

카카오뱅크 기술연구소는 이러한 문제를 해결하기 위해, 은행 상품 상담 시나리오를 반영한 수치 추론 벤치마크 BankMathBench를 제안하였으며, 다음과 같은 핵심 성과를 도출하였습니다.

Key Contributions

최초 뱅킹 시나리오 특화 수치 추론 벤치마크 'BankMathBench' 제안: BankMathBench는 기존 금융 벤치마크에서는 다루지 않은 일상 은행 서비스를 위한 금융 계산 시나리오를 다룹니다. 예적금 및 대출 등 실제 은행 상품 로직을 정교하게 반영한 수치 계산 중심의 13,839개 문항을 구축했으며, 단순 이자 계산부터 복합 상품 간 비교 분석이 필요한 고난도 의사결정 문제까지 3단계 난이도(Basic, Intermediate, Advanced)로 체계화했습니다. 또한, 금융 전문가의 엄격한 검수를 통해 금융 AI의 실질적인 수치 추론 능력을 신뢰성 있게 평가할 수 있는 기준을 제시합니다.

확장 가능한 데이터셋 구축 자동화 파이프라인 설계: 금융 도메인의 복잡한 계산 데이터를 일관성 있게 생성하기 위해 '질문 생성 → 수식 및 정답 생성 → 자연어 추론 과정 생성'으로 이어지는 3단계 자동화 파이프라인을 확립했습니다. 이를 통해 대규모 금융 데이터를 신뢰성 있게 확보할 수 있는 기술적 토대를 마련했습니다.

오픈소스 LLM의 압도적인 뱅킹 시나리오 수치 추론 성능 입증: BankMathBench로 학습된 8B 이하 중소형 오픈소스 모델이 뱅킹 시나리오 수치 추론 영역에서 GPT-4o 등 글로벌 폐쇄형 거대 모델을 상회하는 정확도를 달성함을 확인했습니다. 특히, 본 데이터셋은 도구 활용을 고려한 정교한 추론 경로를 포함하고 있어, SFT 모델에 도구를 결합할 경우 최고난도 문제에서 약 70%p 수준의 추가 성능 향상을 이끌어낼 수 있음을 보였습니다.

방법론 : BankMathBench 데이터셋 및 생성 파이프라인

데이터셋 구성

BankMathBench는 실제 은행 상품 기반 금융 상담 시나리오를 반영하여 설계된 데이터셋으로, 복잡한 수치적 의사결정 과정을 난이도별로 체계화하여 평가할 수 있도로고 구축하였습니다. 각 데이터 샘플은 질문-정답-추론 과정으로 구성됩니다.

•

Basic: 단일 금융 상품의 핵심 정보를 바탕으로 한 기초 계산 문제입니다. 예적금의 만기 이자 산출이나 대출 원금 상환액 계산 등 가장 필수적인 뱅킹 시나리오를 포함합니다.

•

Intermediate: 두 개 이상의 금융 상품 정보를 동시에 처리해야 하는 단계입니다. 금리, 만기, 가입 조건이 서로 다른 여러 상품을 동시에 계산하고 비교할 수 있는지를 중점적으로 평가합니다.

•

Advanced: 비과세 혜택, 중도 상환 수수료, 변동 금리 등 실제 금융 환경의 복잡한 변수들이 얽힌 고난도 시나리오입니다. 다단계 로직과 정교한 수식 설계 능력이 요구됩니다.

데이터 생성 파이프라인

BankMathBench는 다음과 같은 3단계 자동화 파이프라인으로 구축되었습니다.

Question Generation: 금융 도메인 지식 그래프를 기반으로 실제 상담 사례를 반영한 질문을 생성합니다. 상품명, 이율, 기간 등 핵심 변수들을 동적으로 조합하여 문항의 다양성을 확보합니다.

Solution Generation: LLM의 할루시네이션을 방지하기 위해 Python 등 코드 기반의 심층 계산 엔진을 활용합니다. 복수의 독립적인 수식을 생성하고 이를 상호 교차 검증함으로써 정답의 무결성을 확보합니다.

Reasoning Generation: 질문과 정답에 대하여 단계별 계산 과정을 포함한 자연어 설명을 결합합니다. 특히 도구 활용을 고려한 정교한 추론 경로를 설계함으로써, 모델의 수식 생성 능력 학습을 효과적으로 강화했습니다.

이 파이프라인은 인간의 개입을 최소화하면서도 정답의 정확성과 추론의 일관성을 동시에 보장하며, 1.3만 개 이상의 대규모 뱅킹 특화 데이터셋을 구축할 수 있는 핵심 동력이 되었습니다.

금융 전문가 검수

자동화 파이프라인을 통해 생성된 데이터셋은 금융 실무 지식을 갖춘 전문가에 의해 엄격한 품질 평가를 거쳤습니다. 단순히 정답 여부를 확인하는 것을 넘어, 실제 금융 서비스에 적용 가능한 수준인지를 판단하기 위해 다음 3가지 핵심 기준을 적용했습니다.

•

실무적 관련성 (Practical Relevance): 생성된 질문이 실제 은행 창구 상담이나 모바일 앱 고객 접점에서 실제로 발생할 수 있는 현실적인 시나리오인지 검증합니다. 금융 용어의 적절한 사용과 더불어 고객의 실제 요구사항이 반영되었는지 확인했습니다.

•

논리적 타당성 (Logical Soundness): 뱅킹 상품의 고유한 특성과 복잡한 금융 규칙을 고려했을 때, 도출된 수식과 계산 절차가 논리적으로 결함이 없는지 면밀히 검토했습니다.

•

형식적 일관성 (Format Consistency): 전체 데이터셋에 걸쳐 데이터 구조, 수식의 표현 방식, 단위(Unit), 기호 표기법 등이 일관되게 유지되고 있는지 확인했습니다. 이는 모델이 정교한 학습과 정확한 평가를 수행할 수 있도록 돕는 필수적인 품질 보증 과정입니다.

이러한 전문가 검수 과정을 통해 BankMathBench는 자동화된 대량 생산의 효율성과 전문가의 정교한 품질 보증을 동시에 확보하였으며, 이를 통해 LLM의 금융 수치 추론 능력을 평가하는 신뢰도 높은 벤치마크로서의 완성도를 높였습니다.

실험 결과 : 오픈소스 LLM의 뱅킹 시나리오 수치 추론 능력 개선

BankMathBench의 실효성을 검증하기 위해, 카카오뱅크 금융기술연구소는 GPT-4o와 같은 폐쇄형 모델부터 8B 이하의 다양한 최신 오픈소스 모델까지 광범위한 실험을 수행하였습니다. 평가는 pass@1 기준(참고: wikipedia)으로 수행되었으며, 기본적으로 exact match accuracy를 적용하되 zero-shot 설정에서는 alignment 공정성을 고려하여 다양한 응답 포맷을 허용하였습니다.

•

Zero-shot 성능: Zero-shot 평가 결과, 데이터셋의 난이도가 증가할수록 모델 성능이 영어와 한국어 모두에서 일관되게 감소하는 경향을 보였습니다. 특히 한국어 데이터셋에서 오픈소스 모델은 Basic 18.0%, Intermediate 0.8%, Advanced 0.5%의 평균 정확도를 기록하며, 난이도가 높아질수록 급격한 성능 저하를 보였습니다.

이는 금융 도메인에서 요구되는 다단계 추론 및 정밀 계산의 복잡도가 기존 LLM에 큰 부담으로 작용함을 보여줍니다.

•

Supervised Fine-Tuning 성능: BankMathBench의 Basic 데이터셋으로 파인튜닝된 8B 이하의 오픈 소스 모델들은 거대 폐쇄형 언어 모델에 준하는 성능을 달성할 수 있음을 보였습니다. 특히 Qwen3-8B의 경우, 약 175B 이상 규모로 알려진 Claude Sonnet-3.5와 유사한 수준의 성능을 보였습니다.

이는 도메인 특화 고품질 데이터셋이 모델 크기의 한계를 효과적으로 보완할 수 있음을 시사하는 결과입니다. 다만, Intermediate 및 Advanced 난이도에서는 LLM의 단독 추론만으로는 여전히 복잡한 계산 과정에서 한계가 존재함을 확인하였습니다.

•

Supervised Fine-Tuning with Tool Augmentation 성능: BankMathBench 기반으로 학습된 모델이 생성한 수식에 tool을 결합한 경우, 다음과 같은 평균 성능 향상이 확인되었습니다.

◦

Basic: +57.6%p

◦

Intermediate: +75.1%p

◦

Advanced: +62.9%p

이는 제안된 데이터셋이 실행 가능한 reasoning traces를 포함하도록 설계되어, 모델이 정확한 수식을 생성하도록 유도하고 해당 수식에 tool을 적용해 오류를 보정할 수 있는 구조적 기반을 제공함으로써 성능을 효과적으로 극대화할 수 있음을 보여줍니다.

더 정교한 금융 AI를 향한 여정

이번 연구는 은행 도메인에서의 수치 추론 문제를 실질적으로 해결하기 위한 방향성을 제시했다는 점에서 의미가 있습니다. 또한 학술적 기여를 넘어 실제 서비스 환경에서의 적용 가능성을 함께 보여주었다는 점에서도 의의가 있습니다. 연구소는 도출된 결과를 바탕으로 데이터와 모델을 지속적으로 고도화하며, 보다 안정적이고 신뢰할 수 있는 금융 AI 서비스를 위한 기반을 확장해 나갈 계획입니다.

<<목록으로

카카오뱅크 금융기술연구소

Financial Tech Lab

경기도 성남시 분당내곡로 131 판교테크원 타워2 15층 (13529)

문의 하기