spoonai
TOPGoogleGeminiMultimodal

Google Gemini 3.1 Ultra, 200만 토큰 컨텍스트로 AI 전쟁의 판을 뒤집다

Google이 Gemini 3.1 Ultra를 공개했다. 200만 토큰 컨텍스트 윈도우, 텍스트-이미지-오디오-비디오 네이티브 멀티모달 추론, 그리고 AI Overviews 직접 통합까지.

·8분 소요·
공유
Google Gemini 3.1 Ultra 로고와 모델 아키텍처 다이어그램
출처: Google DeepMind

7억 5천만 명이 쓰는 AI가 한 번 더 진화했다

200만 토큰. 책으로 치면 약 1,500페이지 분량의 텍스트를 한 번에 읽고 이해할 수 있는 양이야. Google이 Gemini 3.1 Ultra를 공개하면서 내건 숫자인데, 이건 단순히 "긴 문서를 읽는다"는 수준을 넘어서.

Gemini 3.1 Ultra는 텍스트, 이미지, 오디오, 비디오를 동시에 처리하는 네이티브 멀티모달(여러 형태의 데이터를 하나의 모델에서 통합 처리하는 것) 추론을 지원해. 기존 모델들이 텍스트를 처리한 뒤 이미지를 별도로 분석하는 방식이었다면, Gemini 3.1 Ultra는 훈련 단계부터 모든 모달리티를 동시에 학습해서 진짜 "멀티모달 사고"를 한다는 게 핵심이야.

Google에 따르면 Gemini 앱 월간 사용자는 7억 5천만 명을 돌파했어. 이 거대한 사용자 기반 위에 3.1 Ultra가 올라가는 거야. gemini.google.com의 Advanced 플랜, Google AI Studio, Gemini API 세 곳에서 즉시 사용할 수 있어.


스펙 한눈에: Gemini 3.1 Ultra의 공식 사양

Google DeepMind가 공개한 기술 스펙을 한 표에 정리했어. 컨텍스트 윈도우, 모달리티, 라이선스, 가격까지.

항목 Gemini 3.1 Ultra Gemini 3.1 Pro
컨텍스트 윈도우 2,000,000 토큰 1,000,000 토큰
출력 토큰 65,536 8,192
입력 모달리티 텍스트·이미지·오디오·비디오 텍스트·이미지·오디오·비디오
출력 모달리티 텍스트·이미지(Imagen 4) 텍스트
네이티브 멀티모달 ✅ 단일 백본 ✅ 단일 백본
Deep Think 모드 ✅ 탑재
라이선스 독점(API) 독점(API)
weights 공개
하드웨어 Google TPU v5p Google TPU v5p
출시 2026-04-11 2026-02-20

Google Gemini 2025 공식 아이콘 — 3.1 Ultra의 브랜딩 출처: commons.wikimedia.org · CC-BY-SA 4.0

가장 주목할 스펙은 컨텍스트 윈도우와 Deep Think야. Ultra는 Pro의 정확히 2배 컨텍스트를 가지고, 출력도 8배 더 길게 생성할 수 있어. 수백 페이지 분량의 단일 응답이 가능하다는 뜻이야.

Deep Think는 Ultra 전용 기능이야. 사용자가 어려운 질문을 던지면 모델이 내부적으로 여러 번의 reasoning 단계를 거쳐서 답변해. OpenAI의 o3 스타일 chain-of-thought을 Gemini에 이식한 형태라고 이해하면 돼. 과학, 수학, 코드 리팩토링 같은 복합 작업에서 특히 강해.


이걸 이해하려면: 컨텍스트 윈도우 전쟁의 역사

AI 모델의 컨텍스트 윈도우(한 번에 처리할 수 있는 텍스트 길이)는 지난 2년간 폭발적으로 성장해왔어.

시기 모델 컨텍스트 윈도우
2024년 초 GPT-4 Turbo 128K 토큰
2024년 중 Claude 3 200K 토큰
2025년 초 Gemini 2.0 1M 토큰
2025년 말 GPT-5.4 1M 토큰
2026년 4월 Gemini 3.1 Ultra 2M 토큰

2년 만에 128K에서 2M으로, 약 16배가 늘었어. 하지만 중요한 건 숫자 자체가 아니야. 컨텍스트가 길어질수록 AI가 할 수 있는 일의 종류가 달라진다는 거야.

128K 토큰으로는 긴 보고서 하나를 요약할 수 있었어. 1M 토큰으로는 책 한 권을 분석할 수 있었지. 2M 토큰이면? 전체 코드베이스를 한 번에 읽고 리팩토링하거나, 수백 시간 분량의 회의 녹화를 통째로 분석해서 핵심 의사결정 포인트를 뽑아낼 수 있어.

Google이 이 경쟁에서 한 발 앞선 건 인프라 덕분이야. 자체 TPU(Tensor Processing Unit) 칩을 설계하고 운영하니까 거대한 컨텍스트를 효율적으로 처리하는 데 비용 우위가 있어. OpenAI와 Anthropic이 Nvidia GPU에 의존하는 것과 대조적이지.


아키텍처 + 훈련: Gemini 3.1 Ultra는 어떻게 만들어졌나

Gemini 3.1 Ultra는 Google DeepMind가 설계한 sparse Mixture-of-Experts(MoE) 아키텍처를 채택했어. 정확한 파라미터 수는 비공개지만, 업계 추정은 활성(active) 파라미터 기준 약 200B, 총 파라미터는 1T를 넘는 수준이야. 여기에 훈련 단계부터 멀티모달 토크나이저를 통일한 게 핵심 차별점이야.

훈련 데이터는 세 축으로 구성됐어. 첫째, 공개 웹 크롤링과 Google의 자체 인덱스에서 확보한 텍스트. 둘째, YouTube 비디오·오디오·자막 데이터(프라이버시 필터링 후). 셋째, 과학 논문·코드 저장소·수학 증명 등 고품질 specialized 데이터. 총 훈련 토큰은 공개되지 않았지만 Gemini 2.0 대비 3–5배 규모로 추정돼.

Googleplex 본사 — Gemini 3.1 Ultra를 설계한 DeepMind와 Google AI 팀의 거점 출처: commons.wikimedia.org · CC-BY-SA 3.0

하드웨어는 Google의 TPU v5p 클러스터야. TPU v5p는 FP8 연산 기준 피크 459 테라플롭스, HBM 메모리 95GB/칩을 제공하고, ICI(inter-chip interconnect)로 최대 8,960개 칩이 단일 pod으로 연결돼. Gemini 3.1 Ultra 훈련에는 수십 개의 pod이 동원된 것으로 알려졌어. Nvidia H100 대비 훈련 비용이 약 40% 저렴하다는 게 Google이 가진 구조적 우위야.


핵심 내용 해부: 3.1 Ultra는 뭐가 다른가

네이티브 멀티모달 추론

기존 AI 모델 대부분은 "언어 모델에 비전을 붙인" 구조야. 텍스트를 주로 학습하고, 이미지나 비디오는 별도의 인코더를 통해 변환한 뒤 처리하지. Gemini 3.1 Ultra는 다른 접근을 취했어. 훈련 초기부터 텍스트, 이미지, 오디오, 비디오 토큰을 하나의 통합 백본(backbone)에서 함께 학습했어.

이게 실질적으로 뭘 의미하냐면, 예를 들어 2시간짜리 회의 영상을 올리면 발표자의 슬라이드(비전), 발언 내용(오디오), 그리고 채팅창 텍스트를 동시에 이해하면서 "이 시점에서 참석자 A가 반대 의견을 냈고, 슬라이드 37번의 수치와 모순된다"는 식의 크로스모달 추론이 가능하다는 거야.

벤치마크 경쟁: 3강 구도

Gemini 3.1 라인업은 Pro와 Ultra 두 개로 나뉘어. Pro는 이미 글로벌 롤아웃이 시작됐고, Ultra는 Google AI Ultra 구독자 대상으로 제공돼.

벤치마크 Gemini 3.1 Pro GPT-5.4 Claude Opus 4.6
MMLU 94.1% 91.4% 90.5%
GPQA Diamond 94.3% 94.4% 약 95.7%
AI Intelligence Index 동점 동점 미포함
API 비용 (1M 입력) $12.50 $30+ $15

Artificial Analysis Intelligence Index에서 Gemini 3.1 Pro가 GPT-5.4 Pro와 동점을 기록했는데, API 비용은 3분의 1 수준이야. 월간 1억 토큰을 처리하는 개발자 기준으로 Gemini를 쓰면 약 $625, GPT-5.4를 쓰면 약 $1,750이야. 연간으로 계산하면 $13,500 차이가 나.

벤치마크에서 동점이고 가격은 3분의 1이라면, 개발자 입장에서 Gemini를 안 고려할 이유가 없어.

AI Overviews와 Deep Think 통합

Google만이 할 수 있는 무기가 하나 더 있어. AI Overviews(Google 검색 결과 상단에 AI가 생성하는 요약)에 Gemini 3.1 Ultra가 직접 연결돼. 검색 쿼리에 대한 답변 품질이 모델 업그레이드와 함께 올라간다는 뜻이야.

또한 Gemini 3 Deep Think 모드가 대폭 업그레이드돼 Google AI Ultra 구독자에게 제공돼. 깊은 과학적 지식과 일상적 엔지니어링 유틸리티를 결합해서 실용적 응용을 지원하는 모드야.


라이선스 + 사용 조건

Gemini 3.1 Ultra는 완전히 독점 모델이야. weights 공개 없음, 오픈소스 아님, 셀프 호스팅 불가. 사용하려면 Google의 관리형 서비스 세 곳 중 하나를 거쳐야 해. Gemini 앱(소비자), Google AI Studio(개발자), Gemini API(프로덕션).

접근 방식 사용자 조건
Gemini 앱 (Advanced) 소비자 Google AI Ultra $249.99/월 구독
Google AI Studio 개발자 무료 tier + API key
Gemini API 프로덕션 종량제, 입력 $12.50/1M
Vertex AI 엔터프라이즈 GCP 계약, 데이터 잔류 보장

데이터 사용 정책이 중요해. 유료 API에서는 사용자 입력이 모델 훈련에 사용되지 않아. 무료 tier에서는 학습에 쓰일 수 있다는 점을 주의. Vertex AI에서는 리전 내 데이터 잔류(data residency)를 계약으로 보장해서 EU GDPR 대응이 가능해.

사용 제한도 있어. 의료 진단 지시, 법률 자문 단독 결정, 인명 위해 관련 판단 같은 고위험 영역은 AUP(사용 정책)로 제한돼. 안전 필터는 개발자가 조정할 수 있지만 완전히 꺼버릴 수는 없어.


초기 커뮤니티 반응

출시 36시간 동안의 X, Reddit(r/LocalLLaMA, r/singularity), HuggingFace 반응을 종합해봤어. 전반적으로 긍정적이지만, 세 가지 비판도 분명해.

첫째, 긍정적 반응은 컨텍스트 활용도에 집중돼. "전체 Linux 커널 소스를 올렸는데 정확히 어느 파일에서 race condition이 있는지 짚어냈다"는 X 포스트가 2,000 리트윗을 받았어. 대형 코드베이스 분석이 실용 수준에 도달했다는 평가가 많아. r/LocalLLaMA는 "open weight 모델이 따라잡기 어려울 정도의 gap"이라는 반응이야.

둘째, 비판은 세 방향이야. (1) 2M 토큰에서 "lost in the middle" 현상이 여전히 있다는 벤치마크 결과. (2) Deep Think가 너무 느려서 인터랙티브 용도에 부적합(평균 45–90초 대기). (3) 멀티모달 비디오 이해가 데모에서 보여준 것만큼 견고하지 않다는 불만. 2시간짜리 회의 영상 테스트에서 중요 발언을 놓치는 사례가 보고됐어.

셋째, 개발자 생태계 반응은 빠르게 움직이고 있어. LangChain, LlamaIndex, CrewAI 등 주요 프레임워크가 48시간 내 Gemini 3.1 Ultra를 공식 지원했어. Cursor와 GitHub Copilot이 Ultra 통합을 검토 중이라는 루머도 있어. 가격 경쟁력이 이런 움직임을 가속하고 있어.


더 넓은 그림: 프론티어 모델 3강 구도의 변화

2026년 4월 기준, 프론티어 AI 모델 시장은 명확한 3강 구도야. Google의 Gemini, OpenAI의 GPT, Anthropic의 Claude.

각각의 포지셔닝이 점점 뚜렷해지고 있어. OpenAI는 GPT-5.4로 에이전트(AI가 스스로 판단하고 행동하는 것) 실행에 집중하고, Anthropic은 코딩과 사이버보안에서 차별화하고, Google은 멀티모달과 가격 경쟁력으로 승부해.

Google의 진짜 강점은 "배포"야. 7억 5천만 명의 Gemini 사용자, 20억 대의 안드로이드 기기, Gmail, Google Docs, YouTube 등 기존 제품군에 AI를 바로 탑재할 수 있어. OpenAI나 Anthropic이 "좋은 모델을 만들고 사용자를 끌어오는" 전략이라면, Google은 "이미 있는 사용자에게 더 좋은 모델을 넣어주는" 전략이야.


그래서 뭐가 달라지는데

일반 사용자라면 Google AI Ultra 구독($249.99/월)으로 가장 먼저 체감할 수 있어. Gemini 앱에서 2M 토큰 컨텍스트와 Deep Think를 바로 쓸 수 있지. 무료 사용자도 3.1 Pro가 순차 적용되면서 검색 품질 향상을 체감하게 될 거야.

개발자라면 가격 대비 성능 비교를 다시 해볼 필요가 있어. 특히 멀티모달 처리가 필요한 프로젝트에서 Gemini 3.1이 비용 효율 면에서 가장 합리적인 선택일 수 있어. 월 1억 토큰 기준 연간 $13,500 절약은 스타트업에게 적지 않은 차이야.

컨텍스트 윈도우 경쟁은 아직 끝나지 않았어. 하지만 200만 토큰이라는 숫자는 "AI가 책 한 권을 읽는" 단계에서 "AI가 전체 프로젝트를 이해하는" 단계로 넘어가는 분기점이야.


참고 자료

출처

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지