400억 건의 금융 이벤트로 학습한 Revolut의 AI, 은행 업무를 언어처럼 읽는다
Revolut이 2,500만 사용자의 400억 건 금융 이벤트로 학습한 파운데이션 모델 PRAGMA를 공개했다. 사기 탐지 20% 향상, 신용 평가, 고객 생애 가치 예측까지 하나의 모델로 처리한다.

400억 건의 금융 데이터가 하나의 언어가 됐다
400억 건(40 billion events). Revolut이 자사 파운데이션 모델 PRAGMA를 학습시킨 데이터의 규모야. 토큰으로 환산하면 2,070억 개. GPT-3의 원본 학습 토큰(3천억)과 비교해도 자릿수가 같아.
2,500만 명의 사용자가 111개국에서 수년간 만들어낸 금융 이벤트 -- 송금, 결제, 환전, 투자, 구독 -- 를 하나의 거대한 "언어 코퍼스"로 취급했어. 마치 GPT가 인터넷의 텍스트를 읽듯, PRAGMA는 사람들의 돈의 흐름을 읽는 거야.
4월 9일 arXiv에 공개된 이 논문이 주목받는 이유는 간단해. 은행이 자체 파운데이션 모델을 만들어서 실제 프로덕션에 배포한 첫 번째 공개 사례이기 때문이야. 논문에 따르면 신용 평가 PR-AUC가 기존 프로덕션 베이스라인 대비 130.2% 상승, 사기 탐지 Recall이 64.7% 상승했어.
이 논문이 왜 지금 나왔는지
은행 AI는 오랫동안 "규칙 엔진 + 경사 부스팅" 조합에 갇혀 있었어. 태스크마다 별개 모델을 만들고, 태스크마다 별개 피처를 직접 엔지니어링하는 방식. Revolut 내부에서도 사기 탐지 모델, 신용 평가 모델, 이탈 예측 모델이 전부 따로 돌고 있었어.
문제는 이 방식이 확장성을 잃고 있다는 점이야. Revolut의 사용자 기반은 2,500만을 넘어서 수천만 단위로 계속 팽창 중이고, 서비스도 카드 결제에서 암호화폐·주식·보험까지 확장됐어. 태스크는 늘어나는데 각 태스크마다 피처 엔지니어링을 반복하면 팀이 무너져.
NLP 쪽에서 이 문제를 어떻게 풀었는지는 이미 답이 나와 있어. BERT, GPT 같은 사전 학습 모델을 한 번 잘 학습해놓으면, 다양한 다운스트림 태스크에 공통 임베딩으로 대응할 수 있어. PRAGMA는 그 플레이북을 금융 이벤트에 이식한 첫 공개 시도야.
출처: commons.wikimedia.org · CC-BY-SA 4.0
방법론 해부
접근 방식 — 거래를 문장처럼 토큰화
PRAGMA의 핵심 아이디어는 Key-Value-Time(KVT) 토큰화야. 텍스트 LLM이 단어를 토큰으로 쪼개듯, PRAGMA는 하나의 거래를 "무엇인지(Key) + 얼마(Value) + 언제(Time)" 세 요소로 분해해.
예를 들어 "4월 10일 15:23에 스타벅스 카드 결제 $6.50"라는 이벤트는 이렇게 쪼개져. Key는 "카드 결제" 타입을 나타내는 약 60개 토큰 중 하나. Value는 숫자면 퍼센타일 버킷으로, 텍스트면 BPE 서브워드(약 28,000 vocab)로 인코딩. Time은 직전 이벤트와의 로그-초 차이 + 요일·시간 주기 특징.
이 구조 덕에 PRAGMA는 "이 사람이 화요일 오전에 결제하는 패턴"과 "이 사람이 주말에 결제하는 패턴"을 같은 시퀀스 안에서 학습할 수 있어. 기존 GBDT 기반 모델에선 시간 특징을 수동으로 만들어야 했던 부분이야.
핵심 기법 — 3-스트림 인코더 + 마스크드 모델링
모델은 세 개의 인코더로 구성돼. 프로필 스테이트 인코더는 사용자의 정적 속성(국가, 가입 시점, 프리미엄 티어 등)을 RoPE 위치 인코딩으로 처리하고, 이벤트 인코더는 개별 거래를 독립적으로 임베딩하고, 히스토리 인코더가 이 둘을 이어붙인 출력을 컨텍스트화해.
사전 학습은 마스크드 언어 모델링(MLM) 방식을 세 가지 수준으로 병행해. 토큰 수준(15%), 이벤트 수준(10%), 시맨틱 타입 수준(10%). "목요일 스타벅스 결제의 금액을 맞혀봐", "수요일 오후에 어떤 이벤트가 일어났을지 맞혀봐" 같은 다양한 예측 과제를 동시에 풀게 해서, 한 가지 패턴에 과적합되는 걸 막았어.
| 모델 규모 | 파라미터 | 학습 GPU | 용도 |
|---|---|---|---|
| PRAGMA-S | 1,000만 | — | 실시간 사기 탐지 (초저지연) |
| PRAGMA-M | 1억 | 16× H100 | 신용 평가, 크로스셀 예측 |
| PRAGMA-L | 10억 | 32× H100 | 정밀 분석 (지연 허용 태스크) |
3개 모델 모두 같은 사전 학습 가중치에서 출발해서, 태스크별로 미세 조정됐어. LLM 세계에서 흔히 쓰는 "하나의 기반 모델, 여러 응용"이라는 전략을 금융에 이식한 거야.
결과 — 6개 태스크, 모든 곳에서 베이스라인 돌파
논문은 Revolut 프로덕션 환경의 6개 태스크에서 기존 베이스라인 대비 성능을 측정했어. 모든 태스크에서 PRAGMA 임베딩 위에 간단한 선형 분류기만 얹어도 승리가 나왔어.
| 태스크 | 지표 | 베이스라인 대비 개선 |
|---|---|---|
| 신용 평가 | PR-AUC | +130.2% |
| 커뮤니케이션 반응 | PR-AUC | +79.4% |
| 외부 사기 탐지 | Recall | +64.7% |
| 외부 사기 탐지 | Precision | +16.7% |
| 상품 추천 | mAP | +40.5% |
| 반복 거래 분류 | F1 | +5.8% |
| 생애 가치(LTV) | PR-AUC | +1.8% |
신용 평가에서 130.2% 개선은 특히 주목할 만해. 전통적인 신용 평가는 신용 점수, 소득, 부채 비율 같은 정형화된 데이터에 의존해. PRAGMA는 여기에 "이 사람이 실제로 돈을 어떻게 쓰는가"라는 행동 데이터를 더해. 결제 패턴, 저축 습관, 구독 관리까지 모두 신용 평가에 반영할 수 있게 된 거야.
사기 탐지의 Recall 64.7% 개선도 중요해. 기존 규칙 기반 시스템은 사기꾼이 규칙을 우회하는 순간 무력해져. PRAGMA는 개별 규칙이 아니라 사용자의 전체 행동 패턴을 이해해서, "이 결제가 이 사람의 평소 패턴과 다른가?"를 판단해. 오탐은 줄이면서 실제 사기는 더 많이 잡아내는 거야.
핵심은 이 모든 태스크를 하나의 사전 학습 모델의 임베딩(embedding)으로 처리한다는 거야. 각 태스크마다 별도 모델을 만들 필요 없이, PRAGMA의 임베딩 위에 간단한 선형 모델만 얹으면 강력한 성능이 나와.
출처: commons.wikimedia.org · CC-BY-SA 4.0
한계 — AML에서는 47.1% 드롭
논문은 자기 약점을 솔직하게 드러내. 가장 눈에 띄는 건 Anti-Money Laundering(AML, 자금세탁방지) 태스크에서의 성능 하락이야. 베이스라인 대비 47.1%나 떨어졌어.
저자들은 이유를 명확히 밝혀. "AML 탐지는 본질적으로 관계형이야. 베이스라인은 여러 계좌 사이의 네트워크 수준 신호를 캡처하는 크로스-레코드 피처를 활용하는데, PRAGMA는 각 사용자의 이벤트 히스토리를 독립적으로 처리해서 계좌 간 관계 구조를 포착할 수 없어." 개별 사용자 시퀀스만 보는 모델의 구조적 한계야.
재현성 측면에서도 주의할 게 있어. Revolut의 2,500만 사용자 거래 데이터는 개인정보 문제로 공개될 수 없어. 논문에 아키텍처와 기법은 다 나와 있지만, 실제로 같은 결과를 낼 수 있는 조직은 전 세계에 10곳도 안 돼. 학문적 재현이 아니라 "산업 레퍼런스 구현"으로 읽어야 하는 논문이야.
필드 맥락 — 금융 특화 파운데이션 모델의 계보
파운데이션 모델을 금융에 적용하려는 시도는 몇 번 있었어. BloombergGPT(2023, 블룸버그)는 500억 파라미터 LLM에 3,630억 금융 토큰을 추가 학습했고, JPMorgan의 IndexGPT(2024)도 비슷한 방식이었어. 공통점은 "텍스트 기반 LLM의 확장"이라는 점.
PRAGMA는 출발점이 달라. 텍스트가 아니라 금융 이벤트 시퀀스 자체를 모델의 네이티브 입력으로 설계했어. 이건 구조적 혁신이야. BERT4Rec 같은 추천 시스템 쪽 선행 연구와 계보가 맞닿아 있지만, 규모에서 자릿수가 다르고, 태스크 범위도 훨씬 넓어.
| 모델 | 접근법 | 학습 데이터 | 규모 |
|---|---|---|---|
| BloombergGPT (2023) | 텍스트 LLM + 금융 문서 | 금융 뉴스·리포트 | 500억 파라미터, 3,630억 토큰 |
| IndexGPT (2024) | 텍스트 LLM + 금융 QA | 투자 자문 텍스트 | 비공개 |
| BERT4Rec (2019) | 시퀀스 추천 | 사용자 클릭·구매 | 수십만 파라미터 |
| PRAGMA (2026) | 이벤트 시퀀스 모델 | 400억 거래 이벤트 | 10억 파라미터, 2,070억 토큰 |
차이가 분명해. BloombergGPT가 "금융에 대해 아는 AI"라면, PRAGMA는 "금융을 직접 경험한 AI"에 가까워.
200대의 H100으로 돌아가는 실제 프로덕션
논문만 있는 게 아니야. PRAGMA는 이미 Revolut의 실제 프로덕션 시스템에서 돌아가고 있어. 200대 이상의 NVIDIA H100 GPU 위에서 실시간 추론이 이루어지고, Revolut의 AI 비서 AIR(Artificial Intelligence by Revolut)의 핵심 엔진으로 사용되고 있어. AIR는 2026년 4월 현재 영국의 1,300만 고객에게 롤아웃 중이야.
이 인프라를 운영하는 데 Nebius(구 Yandex Cloud)의 AI 클라우드를 사용하고 있다는 점도 눈에 띄어. 유럽 핀테크가 유럽 기반 AI 인프라를 쓰는 건 GDPR 관점에서 중요한 선택이야. 데이터가 EU 밖으로 나가는 순간 추가 컴플라이언스 비용이 붙으니까.
출처: commons.wikimedia.org · Public Domain
그래서 뭐가 달라지는데
개발자와 핀테크 종사자에게 PRAGMA 논문이 의미하는 건 분명해.
첫째, 도메인 특화 파운데이션 모델의 시대가 열렸어. GPT, Claude 같은 범용 LLM이 있지만, 금융처럼 고유한 데이터 구조를 가진 도메인은 자체 파운데이션 모델이 더 효과적일 수 있다는 걸 PRAGMA가 증명했어. 같은 논리가 의료 기록(EHR), 통신 CDR, 산업 IoT 로그에도 적용돼. 시퀀스 형태의 이벤트 데이터가 있는 모든 도메인이 후보야.
둘째, 데이터가 해자(moat)라는 걸 다시 한번 확인해 줘. Revolut이 이 모델을 만들 수 있는 이유는 2,500만 사용자의 수년간 금융 데이터를 보유하고 있기 때문이야. 이 데이터는 어떤 스타트업도, 어떤 AI 연구소도 구할 수 없어. 진짜 경쟁 우위는 모델 아키텍처가 아니라 데이터야. 논문에 방법론이 공개돼도 재현할 수 있는 조직이 전 세계 10곳 이내인 이유도 그거야.
셋째, 한국의 카카오뱅크, 토스 같은 핀테크도 비슷한 규모의 금융 이벤트 데이터를 보유하고 있어. PRAGMA가 보여준 접근법을 참고하면 한국형 금융 파운데이션 모델도 충분히 가능해. 다만 AML 같은 관계형 태스크는 PRAGMA 설계의 약점이라는 걸 반드시 고려해야 해. 개별 이벤트 시퀀스 모델 + 그래프 신경망의 하이브리드가 다음 단계일 가능성이 높아.
참고 자료
- arXiv: PRAGMA: Revolut Foundation Model (2604.08649)
- arXiv HTML 전문
- Let's Data Science: Revolut Deploys PRAGMA Foundation Model for Finance
- Nebius Customer Story: Revolut on the Inference Frontier
- Fintech Weekly: Revolut Launches AIR AI Assistant to 13 Million UK Customers
- ResearchGate: PRAGMA paper (PDF)
출처
관련 기사
AI 트렌드를 앞서가세요
매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.



