spoonai
TOPDeepSeekpricingopen-source

DeepSeek, V4-Pro 75% 할인 폭탄 — 입력 토큰 100만 개에 4센트 시대

DeepSeek가 4월 27일 V4-Pro에 75% 프로모션을 걸었어. 5월 5일까지 입력 100만 토큰 0.036달러, 캐시 히트 가격은 전 라인업에서 영구 1/10. GPT-5.5 대비 6-7배 싼 가격으로 추론 비용 곡선을 한 단계 더 끌어내렸어.

·10분 소요·DeepSeek API DocsDeepSeek API Docs
공유
AI 모델 추론 비용 경쟁을 상징하는 디지털 데이터 시각화
출처: Unsplash

830배의 추락 — 3년 전 30달러가 지금 4센트야

2023년 3월, GPT-4가 처음 세상에 나왔을 때를 기억해? 그때 OpenAI API 가격표를 처음 본 개발자들은 입력 100만 토큰에 30달러라는 숫자를 보고 한숨을 쉬었어. "이걸로 서비스를 만들면 매달 서버비가 월급보다 많겠는데." 실제로 그랬어. 초기 AI 스타트업들은 GPU 비용을 감당하지 못해 줄줄이 피벗하거나 문을 닫았고, "AI 래퍼(wrapper)" 비즈니스는 마진 없는 사업의 대명사가 됐어.

3년이 지난 2026년 4월 27일. 중국 항저우에 본사를 둔 DeepSeek가 자사 최신 모델 V4-Pro에 75% 프로모션을 걸었어. 결과로 나온 숫자가 0.036달러. 입력 100만 토큰에 4센트도 안 되는 가격이야. GPT-4가 처음 나왔을 때 가격의 830분의 1. 무어의 법칙이 반도체 집적도를 2배 올리는 데 2년을 걸리는 동안, AI 추론 비용은 3년 만에 거의 1,000배 가까이 떨어진 거야.

이건 단순한 할인 뉴스가 아니야. Bloomberg가 "AI를 누가 지배하느냐를 재편할 수 있는 가격 전쟁(price war that could reshape who controls AI)"이라고 표현한 이유가 있어. 프로모션만이 아니야 — 전체 API 라인업의 캐시 히트 입력 가격을 영구적으로 1/10으로 내렸어. 프로모션은 5월 5일에 끝나지만, 캐시 히트 인하는 끝나지 않아.

그리고 이 모든 게 미국 AI 칩 수출 규제를 우회하는 Huawei Ascend 910B 위에서 돌아가고 있다는 사실. 지정학, 기술 혁신, 가격 파괴 — 세 개의 축이 동시에 움직이는 이야기야. 지금부터 그 이야기를 풀어볼게.

각 주체 소개 — Liang Wenfeng과 그를 둘러싼 사람들

Liang Wenfeng — DeepSeek CEO. 원래 퀀트 트레이딩 회사 High-Flyer Capital의 공동 창업자야. 금융 AI로 돈을 벌다가, 2023년에 "범용 AI 모델을 만들겠다"며 DeepSeek를 따로 세웠어. 월가 출신이 AI 연구소를 차린 건 흔한 일이지만, Liang Wenfeng이 달랐던 건 처음부터 "오픈소스 + 초저가"라는 카드를 들고 나왔다는 거야. 그의 전략은 명확했어 — 미국 빅테크가 API 마진으로 수십억 달러를 벌고 있는 구조를 정면으로 공격하는 거야. 트럼프 행정부가 중국 기업의 "디스틸링"을 비난했을 때, 그의 대응은 우아했어. 직접 반박하는 대신 "우리 자체 모델이 프론티어급이고, 가격도 더 싸다"는 걸 시장에서 증명한 거야.

Sam Altman — OpenAI CEO. GPT-5.5에 입력 5달러, 출력 30달러를 매기고 있는 사람. "프론티어 모델은 원래 비싼 거"라는 인식을 만들었는데, DeepSeek가 그 인식을 정면으로 깨뜨리고 있어. OpenAI는 Workspace Agents라는 엔터프라이즈 번들로 "가격이 아닌 가치"로 피벗하려 하고 있어.

Dario Amodei — Anthropic CEO. Claude Opus 4.7에 입력 5달러, 출력 25달러를 매기고 있어. Anthropic은 사이버 보안 검증 라이선스라는 새로운 수익원을 만들면서 가격 경쟁을 피하려 하고 있어. 금융기관이나 정부기관이 "이 모델은 보안 감사를 통과했습니다"라는 인증서가 필요할 때, 그걸 Anthropic이 제공하겠다는 거야.

Jensen Huang — NVIDIA CEO. 최근 "중국의 AI 칩 자립은 아직 멀었다"고 발언했어. 하지만 DeepSeek가 Huawei Ascend로 프론티어급 모델을 운영하면서 세계 최저가 API를 제공하고 있다는 사실은, 그 "멀었다"는 거리가 생각보다 가까울 수 있다는 걸 보여줘.

Jack Clark — 전 Anthropic 공동창업자, Import AI 저자. "DeepSeek의 가격은 지속 가능한 사업 모델이 아니라 시장 점유 전략이야. 프로모션이 끝나면 가격이 오를 수 있고, 중국 정부 보조금이 뒤에 있을 가능성을 배제할 수 없어"라고 경고했어.

핵심 내용 — V4-Pro 아키텍처와 가격의 비밀

이 가격이 왜 가능한지 이해하려면, V4-Pro의 아키텍처를 들여다봐야 해.

MoE(Mixture of Experts) — 보통 AI 모델은 질문이 들어오면 모든 파라미터가 동시에 일을 해. 1조 개 파라미터 모델이면 1조 개가 전부 깨어나서 연산을 하는 거야. MoE는 다르게 작동해. 모델 안에 여러 "전문가 모듈"이 있고, 질문에 가장 적합한 전문가 몇 명만 깨워서 일을 시켜. V4-Pro의 전체 파라미터는 1.6T(1조 6천억 개)지만, 한 번에 활성화되는 건 49B(490억 개)뿐이야. 전체의 약 3%만 일하고, 97%는 쉬고 있어.

MLA(Multi-head Latent Attention) — DeepSeek 자체 개발 어텐션 메커니즘이야. AI 모델이 긴 텍스트를 처리할 때 "KV 캐시"를 메모리에 저장하는데, 컨텍스트가 길어질수록 어마어마하게 커져. MLA는 이 KV 캐시 크기를 기존 대비 93% 이상 줄였어. 원래 100GB 필요했던 게 7GB면 되는 거야. 같은 GPU로 훨씬 더 많은 요청을 동시에 처리할 수 있고, 그게 그대로 가격 인하로 이어져.

자, 이제 숫자를 구체적으로 비교해보자.

모델 입력 $/1M 토큰 출력 $/1M 토큰 컨텍스트 아키텍처
DeepSeek V4-Pro (프로모) $0.036 $3.48 1M 1.6T MoE, 49B active
DeepSeek V4-Pro (정상가) $0.145 $3.48 1M 1.6T MoE, 49B active
DeepSeek V4-Flash $0.14 $0.28 1M 284B MoE, 13B active
GPT-5.5 $5.00 $30.00 256K 비공개
Claude Opus 4.7 $5.00 $25.00 200K 비공개
Gemini 2.5 Pro $2.50 $15.00 2M 비공개
Llama 4 Scout (자체 호스팅) 인프라 비용만 인프라 비용만 10M 109B, 17B active

V4-Pro 프로모 가격 $0.036은 GPT-5.5 입력($5)의 140분의 1이야. 정상가로 돌아가도 $0.145니까 34분의 1. V4-Flash의 출력 $0.28은 GPT-5.5 출력($30)의 107분의 1이야.

그런데 여기서 진짜 주목해야 할 건 캐시 히트야. 같은 프롬프트를 반복해서 보낼 때 적용되는 할인인데, RAG(외부 문서 검색 답변), 코드 어시스턴트, 멀티스텝 에이전트 — 지금 가장 빠르게 성장하는 워크로드 세 가지의 공통점이 시스템 프롬프트와 컨텍스트의 상당 부분이 매 호출마다 동일하다는 거야. 캐시 히트 비율이 60-80%인 워크로드에서 입력 비용이 1/10으로 떨어지면, 전체 추론 비용이 50-70% 줄어. 75% 프로모션은 5월 5일에 끝나지만, 캐시 히트 인하는 끝나지 않아.

성능은? MMLU-Pro에서 GPT-5.4급. VentureBeat는 "near state-of-the-art intelligence at 1/6th the cost"라고 평가했어. 다만 Simon Willison이 지적했듯이 벤치마크가 자체 보고라는 점은 감안해야 해.

각자의 이득 / 의미 — 누가 웃고, 누가 울고 있나

이 가격 폭탄이 터지면서 AI 생태계 전체의 손익 계산이 바뀌고 있어.

DeepSeek는 확실히 이기고 있어. 프론티어급 성능에 최저가를 걸면서 글로벌 API 시장 점유율을 빠르게 확대하고 있어. 같은 주에 Alibaba Cloud와 Tencent Cloud가 DeepSeek 모델을 자사 클라우드에 올리기 위한 협상을 진행 중이라는 보도가 나왔어. 모델 가격을 낮출수록 클라우드 파트너들의 경쟁이 심해지고, 자사 모델 배포가 넓어지는 선순환이 생기는 거야.

에이전트/RAG 스타트업들도 이기고 있어. 추론 비용이 한 자릿수 더 떨어지면서 에이전트 기반 SaaS의 마진이 개선돼. 작년까지만 해도 "에이전트를 만들면 API 비용 때문에 적자"였는데, 이제 사업 모델이 성립하기 시작해. V4-Flash 출력 28센트면 에이전트가 100번 시행착오를 해도 28달러. GPT-5.5로 같은 걸 하면 3,000달러야.

반면 OpenAI와 Anthropic은 방어적 위치야. API 가격만으로는 경쟁이 안 되니까, 에이전트 품질, 보안, 생태계로 프리미엄을 정당화해야 해. 할 수 있는 카드지만 시간과의 싸움이야. OpenAI의 2025년 적자가 50억 달러였어. 가격 경쟁이 이 속도로 진행되면 흑자 전환 시점이 더 늦어질 수밖에 없어.

Together AI, Fireworks 같은 추론 호스팅 업체들은 가장 어려운 위치야. "오픈소스 모델을 호스팅해서 API로 제공"하는 사업 모델인데, DeepSeek가 직접 초저가 API를 제공하면서 중간 레이어의 가치가 압축되고 있어.

NVIDIA와 미국 상무부는 관전 중이야. Huawei Ascend에서 프론티어 모델이 안정적으로 돌아가기 시작하면 AI 칩 독점에 구조적 균열이 생길 수 있고, 중국산 초저가 AI 모델이 글로벌 시장을 장악하면 "기술 경쟁"이 "경제 안보" 이슈로 확대될 수 있어.

과거 유사 사례 — 성공과 실패

"초저가로 시장을 뒤엎는다"는 전략은 테크 역사에서 반복돼왔어. 결과는 항상 같지 않았어.

Amazon AWS의 가격 전쟁 (2006-2015). 가장 성공적인 사례야. AWS는 2006년 S3를 GB당 15센트에 출시한 뒤, 10년 동안 82번 이상 가격을 인하했어. 경쟁사(Rackspace, HP Cloud 등)가 마진을 맞출 수 없어 하나둘 시장을 떠났고, AWS는 클라우드 시장의 지배자가 됐어. DeepSeek의 전략이 이것과 비슷해 — 가격을 계속 낮춰서 경쟁자의 마진을 제로로 만드는 거야. 다만 AWS는 자체 인프라 위에서 했고, DeepSeek는 제재당한 칩 위에서 하고 있다는 차이가 있어.

중국 스마트폰 가격 전쟁 (2013-2016). Xiaomi가 "가성비 스마트폰"이라는 카드로 삼성과 Apple의 중저가 시장을 공략했어. 당시에도 "정부 보조금 덤핑"이라는 비난이 있었지만, Xiaomi는 실제로 부품 원가 절감과 온라인 직판으로 가격을 낮춘 측면이 컸어. 결과? 중저가 시장에서는 중국 업체가 지배했지만, 프리미엄 시장은 Apple과 삼성이 지켰어. AI 모델 시장에서도 비슷한 분화가 일어날 수 있어 — 가격 민감 워크로드는 DeepSeek, 프리미엄 워크로드는 미국 빅3.

일본 반도체 덤핑 분쟁 (1980년대). 주의해야 할 실패 사례야. 일본 기업들이 DRAM을 원가 이하로 팔면서 미국 반도체 기업을 밀어냈는데, 결국 미국이 1986년 반도체 무역 협정을 강제해서 일본에 수출 자율 규제를 걸었어. 중국 AI 모델의 초저가 공세가 비슷한 무역 마찰로 이어질 가능성이 있어 — 미국 상무부가 "중국산 AI 모델 서비스"에 대한 규제를 검토하고 있다는 보도가 이미 나오고 있거든.

경쟁자 카운터 플레이

미국 모델 업체들의 대응은 크게 세 가지 방향으로 나뉘어.

OpenAI — "플랫폼으로 간다." 단순히 API를 파는 게 아니라, Workspace Agents라는 엔터프라이즈 번들을 준비 중이야. 기업 내부에 AI 에이전트를 배포하고 관리하는 전체 플랫폼을 제공하는 거야. "우리 모델을 쓰면 보안이 보장되고, 에이전트 관리 도구가 딸려 오고, 기업 내부 데이터와 안전하게 통합된다." API 가격표에서 싸움하지 않겠다는 선언이야.

Anthropic — "신뢰를 판다." 사이버 보안 검증 라이선스(Cyber Verification)라는 새로운 수익원을 만들고 있어. 금융기관이나 정부기관이 AI를 도입할 때 필요한 보안 인증을 제공하겠다는 거야. 가격 경쟁과 완전히 다른 축에서 싸우는 영리한 피벗이야.

Google — "풀스택으로 묶는다." Gemini Enterprise로 Vertex AI를 통합하면서 "모델 + 인프라 + 보안"을 패키지로 묶어 파는 전략이야. 단일 모델 가격은 DeepSeek에 못 이기지만, 전체 스택으로 묶으면 전환 비용이 높아지니까 고객이 빠져나가기 어려워.

이 세 회사 모두 같은 결론에 도달한 거야 — "API 가격표에서 DeepSeek와 경쟁하는 건 무의미하다." 하지만 이 전략의 약점도 있어. 에이전트 워크플로를 만드는 개발자 입장에서, 보안과 관리 도구에 돈을 더 내는 건 나중 일이야. 우선은 동작하는 프로토타입을 가장 싸게 만들고 싶어해. 그 "프로토타입" 단계에서 DeepSeek가 자리를 잡으면, 전환 비용 때문에 프로덕션에서도 계속 DeepSeek를 쓰게 될 가능성이 높아. 이게 Liang Wenfeng이 노리는 거야.

그리고 하드웨어 전선도 무시할 수 없어. DeepSeek가 V4-Pro와 V4-Flash를 Huawei Ascend 910B에서도 돌린다고 발표한 건, 기술적 성취를 넘어 지정학적 메시지야. 학습은 기존 NVIDIA A100/H100 재고로, 추론은 Ascend로 — 이 두 트랙 전략이 성공하면 "NVIDIA GPU 없이도 프론티어급 AI를 운영할 수 있다"는 전례가 만들어져. Ascend 910B의 성능은 H100의 약 70%지만 가격은 절반 이하. MoE 아키텍처 덕에 활성 파라미터 49B만 쓰니까 느린 칩에서도 충분한 속도가 나와.

그래서 뭐가 달라지는데

3년 전에 30달러 하던 게 지금 0.036달러야. 830배. 이건 그냥 숫자가 아니라, AI 산업의 중력이 바뀌고 있다는 신호야.

개발자라면 — 지금 당장 주목해야 할 건 5월 5일까지의 프로모션 기간이야. V4-Pro를 자기 워크로드에 돌려보는 데 최적의 타이밍이야. 특히 RAG이나 코드 어시스턴트처럼 캐시 히트율이 높은 워크로드는 비용이 1/10까지 줄 수 있어. 단, 꼭 직접 벤치마크를 돌려봐야 해. DeepSeek 보고서의 숫자가 아니라, 네 프로덕션 환경에서의 숫자가 중요해. DeepSeek V4 API 문서를 열어봐.

스타트업/PM이라면 — 듀얼 라우팅을 진지하게 고려할 때야. V4를 "기본 라우팅 모델"로, 미국 빅3(GPT-5.5, Opus 4.7, Gemini 2.5 Pro)를 "하이엔드"로 쓰는 거야. 비용 민감한 호출은 V4로, 정확도가 생명인 호출은 Opus/GPT로. 이 패턴이 사실상 업계 표준이 될 거야. 현재 LLM API 비용 구조를 스프레드시트로 정리하고, V4-Pro/Flash 기본 라우팅 시 비용 절감 시뮬레이션을 돌려봐.

투자자라면 — 추론 비용 곡선이 이 속도로 떨어지면, "API 과금 마진"으로 먹고사는 모델 회사의 장기 수익성에 의문부호가 붙어. 5월 5일 프로모션 종료 후 정상가 유지 여부, 알리바바/텐센트 클라우드 채택 공식 발표(5월 중 예상)를 모니터링해. 그리고 더 큰 질문 — 미국 상무부가 중국산 AI API 서비스에 대한 규제를 걸 가능성이 있는지도 주시해야 해.

일반 사용자라면 — ChatGPT Plus 월 20달러가 바로 내려가진 않겠지만, AI 기반 서비스를 만드는 스타트업들의 운영 비용이 줄면 혜택이 돌아올 거야. 번역 앱, 글쓰기 도구, 코딩 어시스턴트 — 구독료가 낮아지거나, 같은 가격에 더 좋은 모델을 쓰게 되거나.

추론 비용이 사실상 공짜에 수렴하면, 모델 자체의 가치보다 모델을 어떻게 쓰느냐, 어떤 워크플로에 끼워넣느냐, 어떤 보안과 신뢰를 보장하느냐가 더 중요해져. 가격 경쟁의 바닥은 아직 안 보여. 그리고 그 바닥을 향해 가장 빠르게 달려가고 있는 건, 미국 제재 속에서 자체 칩 위에 자체 모델을 올린 항저우의 퀀트 출신 CEO야.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지