spoonai
TOPHuaweiAI ChipChina

화웨이 Ascend 950PR — H20의 2.8배 FP4 성능, ByteDance·알리바바가 쓸어담고 있어

1.56 PFLOPS FP4, HiBL 1.0 HBM 112GB, 장당 6,900달러. SMIC N+2 공정에서 2026년 75만 장 출하 목표. 미국 제재가 키운 '중국산 NVIDIA 대체재'의 실체.

·7분 소요·CNBC (Reuters)CNBC (Reuters)
공유
Huawei Ascend 950PR AI 추론 칩 관련 히어로 이미지
출처: Huawei

장당 $6,900으로 H20을 2.8배 이긴다는 숫자

3월 20일 중국 파트너 컨퍼런스에서 공개된 Ascend 950PR이 며칠 새 업계 판을 흔들고 있어. 단일 카드 1.56 PFLOPS FP4, 1 PFLOPS FP8, 메모리 112GB. 가격은 장당 약 50,000위안($6,900)이고 HBM 버전은 70,000위안($9,600)이야. 같은 급으로 묶이는 NVIDIA H20 대비 FP4 연산 성능이 약 2.8배라는 게 화웨이 주장이야.

그리고 숫자 하나 더. 3월 27일 Reuters는 ByteDance와 Alibaba가 이 칩에 대량 주문을 넣었다고 보도했어. ByteDance가 화웨이 칩에 약속한 총액이 $5.6B(약 7.7조 원)에 달한다는 숫자까지 나왔지.

SMIC가 N+2(사실상 7nm급) 공정으로 양산하고, 2026년 1년간 75만 장 출하가 목표야. 이게 현실이 되면 중국 국내 AI 추론 시장은 사실상 NVIDIA 없이 굴러가.

이게 뭔지 — 차별점 3개로 요약

Ascend 950PR은 "NVIDIA H20 대신 쓸 수 있는 중국산 AI 추론 칩"이야. 포지셔닝을 가르는 포인트 세 가지.

첫째, FP4 연산에 최적화된 아키텍처. H20이 주력으로 지원하는 FP8·BF16 대비 한 단계 낮은 정밀도인 FP4를 네이티브로 지원하는 첫 중국산 AI 가속기야. FP4는 최근 DeepSeek V3·V4, Qwen3 등 대형 모델 추론에 널리 쓰이는데, 정확도 손실 거의 없이 메모리 사용량을 절반으로 줄여. Huawei가 이 타이밍을 노린 거야.

둘째, HiBL 1.0이라는 자체 HBM. SK하이닉스·삼성·마이크론의 HBM을 수출 규제로 구하기 어려워진 상황에서, 화웨이는 자체 브랜드 HBM인 HiBL(High-Bandwidth Low-power) 1.0을 탑재했어. 112GB 용량에 1.4 TB/s 대역폭이야. NVIDIA H20이 4.0 TB/s인 점을 감안하면 메모리 대역폭은 여전히 약점이지만, 용량은 H20의 96GB를 넘어서.

셋째, CANN Next 스택의 CUDA 호환성. CANN Next는 CUDA와 비슷한 커널·워프 모델을 제공하고, 표준 PyTorch 추론 코드의 약 80%를 큰 수정 없이 돌릴 수 있다는 게 화웨이 주장이야. ByteDance·Alibaba가 빠르게 채택 결정을 내린 가장 큰 이유는 이 소프트웨어 이식성이야.

화웨이 본사 (Bantian, 선전) — Ascend 950PR 설계·생산 생태계의 중심 출처: commons.wikimedia.org · CC BY-SA 3.0

핵심 스펙 — NVIDIA H20·H100과 직접 비교

추론 시장에서 화웨이가 겨냥하는 대상은 H20이야. 중국 수출용으로 성능이 다운스펙된 H20 대비 화웨이가 "이기는 지표"와 "뒤지는 지표"가 명확해.

지표 Huawei Ascend 950PR NVIDIA H20 NVIDIA H100
FP4 연산 1.56 PFLOPS 약 0.56 PFLOPS 해당 없음
FP8 연산 1 PFLOPS 1.56 PFLOPS 3.96 PFLOPS
메모리 용량 112 GB HiBL 1.0 96 GB HBM3 80 GB HBM3
메모리 대역폭 1.4 TB/s 4.0 TB/s 3.35 TB/s
인터커넥트 LingQu 2.0 TB/s NVLink 900 GB/s NVLink 900 GB/s
TDP 600 W 400 W 700 W
공정 SMIC N+2 (7nm급) TSMC 4N (5nm급) TSMC 4N (5nm급)
장당 가격 $6,900–$9,600 약 $12,000 약 $30,000
중국 판매 가능 ✗ (추가 제재)

FP4에서 이기고, 용량·인터커넥트·가격에서 유리하지만, 대역폭과 공정 밀도에서 한참 뒤진다는 게 요약이야. 다만 중국 내부 시장에서는 H20·H100을 살 수 있는 합법적 경로가 거의 끊긴 상태라 "이기느냐 지느냐"가 아니라 "쓸 수 있느냐"가 지표야.

기능 해부

Atlas 350 카드와 LingQu 인터커넥트

950PR 칩은 Atlas 350 가속기 카드에 패키징돼. TDP 600W로 NVIDIA H100(700W)보다 약간 낮고, H20(400W)보다는 많이 소비해. 데이터센터 입장에선 "H100 수준의 전력 예산"으로 설계하면 되는 규모야. 여러 장을 묶을 때 화웨이가 자체 개발한 LingQu(灵渠) 인터커넥트가 2.0 TB/s 대역폭을 제공해. NVLink 900 GB/s를 수치상으론 넘어서지만, NVLink Switch·NVSwitch 수준의 스케일아웃 패브릭은 아직 없어.

CANN Next와 CUDA 이식

실무자 입장에서 가장 중요한 건 소프트웨어 스택이야. CANN Next는 SDK 수준에서 thread block, warp, kernel launch 개념을 CUDA와 거의 대응시켜. PyTorch·vLLM·TensorRT-LLM 같은 추론 프레임워크의 백엔드 플러그인이 빠르게 나오고 있고, Huawei는 MindSpore를 밀고 있지만 실제 ByteDance 벤치마크는 PyTorch 위에서 돈다는 보도가 있어. 이식률 80%라는 숫자는 "나머지 20%는 CUDA 특화 커널을 다시 써야 한다"는 뜻이고, 이 20%가 LLM 성능의 80%를 좌우한다는 게 엔지니어들 코멘트야.

AI 데이터센터 서버 랙 — ByteDance·Alibaba가 Ascend 950PR을 배치할 인프라 출처: commons.wikimedia.org · CC BY 2.0

가격 + 출시 타임라인

항목 시점 / 조건
공식 공개 2026-03-20, 중국 파트너 컨퍼런스
양산 개시 2026년 4월 (보도 기준 "다음 달")
본격 선적 2026년 하반기
2026년 출하 목표 75만 장
DDR 버전 가격 50,000위안 ($6,900)
HBM 버전 가격 70,000위안 ($9,600)
샘플 배포 이력 2026-01: ByteDance·Alibaba 수령
후속 칩 로드맵 950DT → 951 → 960 → 970 (순차 공개 예정)

ByteDance·Alibaba는 1월에 엔지니어링 샘플을 수령해 실제 프로덕션 추론 워크로드로 벤치마크를 돌렸다고 Reuters는 전했어. 3월 발표는 "이미 검증 끝난 제품의 공식 런칭"에 가까워.

누구를 위한 제품인지

ByteDance·Alibaba·Tencent·Baidu 같은 중국 빅테크: 이게 타깃 그 자체야. 미국 수출 통제로 H100·H200·B200을 대량 조달할 수 없는 상태에서, 화웨이가 유일하게 규모 있는 국내 대안이야. ByteDance가 약속한 $5.6B는 틱톡·도우인의 추천 모델, Doubao(豆包) LLM 추론을 화웨이로 돌리겠다는 결정이야.

중국 중소 AI 스타트업: H20 암시장 가격이 약 $25,000–$35,000 수준인 상황에서 $6,900이라는 가격표는 실질적인 대체재야. DeepSeek의 R1·V4 계열, Qwen3 32B–72B 같은 FP4 친화적 모델을 돌리는 데 최적화되어 있어.

미국·유럽·한국 개발자: 직접 살 수는 없어. 중국 내 데이터센터 임대 서비스(Alibaba Cloud, Tencent Cloud, Huawei Cloud)를 통해 간접 접근하는 경로만 있어. 다만 벤치마크 레퍼런스로서의 가치는 커. "중국이 내놓은 7nm 칩이 어디까지 왔나"를 가늠할 공개 스펙이 이 정도로 구체적으로 나온 건 처음이야.

경쟁사 반응 + 시장 포지션

NVIDIA는 4월 15일까지 공식 논평을 내놓지 않았지만, 내부 문서 유출 보도에 따르면 H20의 후속인 "B20" 개발을 중국 시장용으로 가속화하고 있다고 해. B20은 H20보다 성능을 낮추되 수출 통제 라인 아래로 스펙을 맞춘 제품으로 알려졌어.

Broadcom, AMD 등 다른 서방 칩 메이커는 중국 시장을 이미 사실상 포기한 상태야. AMD MI300X는 중국 수출 통제 대상이고, Broadcom은 Google·Meta 같은 미국 하이퍼스케일러에 집중하고 있어.

중국 AI 칩 시장은 더 이상 "NVIDIA를 언제 다시 살 수 있을까"의 문제가 아니야. "화웨이를 얼마나 빠르게 내재화할 수 있을까"의 문제가 됐어.

Cambricon, Hygon, Biren 같은 다른 중국 AI 칩 스타트업은 화웨이의 스케일과 소프트웨어 생태계를 따라오지 못해. Huawei가 사실상 중국의 "사실상 표준(de facto standard)" 자리를 굳히고 있어.

더 넓은 그림 — 제재가 만드는 별도의 생태계

미국 상무부(BIS)는 2022년부터 H100, 2023년 말 H800·A800, 2024년 H20 후속까지 중국 수출을 단계적으로 통제해왔어. 한국·일본·네덜란드도 ASML EUV 장비 수출을 제한하고 있어. 이 흐름이 5년째 이어지면서 중국은 반대로 "자급 시스템"을 가속하고 있어.

SMIC의 N+2 공정(7nm급)으로 7억 트랜지스터급 AI 가속기를 찍을 수 있게 된 건 2023년 Kirin 9000S(Mate 60 Pro)가 먼저 보여줬지. Ascend 950PR은 그 공정이 1년 반 만에 AI 가속기 대량 양산으로 확장됐다는 신호야. 같은 기간 TSMC는 3nm에서 2nm로 한 노드 더 나갔지만, 공정 격차가 중국 내 시장 방어에는 결정적이지 않다는 게 증명된 셈이야.

지정학적으로는 NVIDIA·AMD가 서방에서, Huawei가 중국에서, 각자의 표준으로 굳히는 "이원 체제"가 가시화됐어. 두 생태계는 소프트웨어 스택(CUDA vs CANN), 메모리 표준(HBM3e vs HiBL), 인터커넥트(NVLink vs LingQu)까지 분리돼 있어. 한번 이 분리가 고착되면 복원 비용은 기하급수적으로 커져.

그래서 뭐가 달라지는데

NVIDIA 주주·미국 정책 입안자: "제재로 중국을 늦춘다"는 가설이 부분적으로 실패했다는 증거가 쌓이고 있어. H20 후속 B20이 중국 시장 점유율을 얼마나 방어할지가 관건이야. 미 상무부가 B20까지 제재하면 역설적으로 화웨이의 독점을 완성시켜 주는 딜레마에 놓여.

중국 외 AI 기업: 화웨이 칩을 직접 쓸 수는 없어도, 중국 기업이 훨씬 저렴한 인프라로 LLM을 돌린다는 건 경쟁 프레셔야. DeepSeek가 R1을 OpenAI o1급 성능으로 훨씬 싸게 훈련시킨 2024년 말 사건이 재현될 수 있어. 오픈 웨이트 중국 모델의 가속화는 결국 글로벌 가격 압박으로 돌아와.

서방 개발자 실무 관점: Hugging Face에 올라오는 Qwen3, DeepSeek V4, GLM-4 같은 중국산 모델이 갈수록 고품질이 되고 있어. 이 모델들이 화웨이 칩에서 훈련·서빙된다는 건 "학습 데이터의 편향"과 "모델 거버넌스"를 다시 생각해야 할 이슈로 번져. 엔터프라이즈 RAG·Fine-tuning 파이프라인에서 중국산 오픈 웨이트를 쓸 때 리스크 체크리스트가 길어져.

한국 반도체 업계 관점: SK하이닉스·삼성의 HBM 수출이 중국으로 막혀있는 지금, 화웨이가 자체 HiBL로 전환한다는 건 한국 HBM이 중국이라는 대형 수요처를 영구적으로 잃을 수 있다는 뜻이야. 반대로 엔비디아·AMD·구글 TPU용 HBM 수요는 유지되므로 단기 충격은 제한적. 중장기적으로는 "중국 AI 수요 = 접근 불가"라는 전제를 가정해야 해.

참고 자료

관련 기사

무료 뉴스레터

AI 트렌드를 앞서가세요

매일 아침, 엄선된 AI 뉴스를 받아보세요. 스팸 없음. 언제든 구독 취소.

매일 30개+ 소스 분석 · 한국어/영어 이중 언어광고 없음 · 1-클릭 해지