NVIDIA Blackwell GPU 아키텍처: 차세대 AI 성능을 본격적으로 가속한다
Blackwell GPU: 멀티 다이 설계, FP4 정밀도, NVLink‑5, GB200 슈퍼칩을 갖춘 NVIDIA의 차세대 아키텍처로, 전례 없는 AI 학습과 실시간 추론 성능을 제공합니다. 이 글은 AI가 번역한 기사입니다. 오역이 있을 수 있으니 댓글로 신고해 주세요.
Created on September 15|Last edited on September 15
Comment
NVIDIA Blackwell GPU 아키텍처 는 새로운 AI 추론 시대의 “AI 공장”을 구동하는 엔진으로 주목받고 있습니다. 2022년 Hopper 세대(H100)와 2024년 리프레시(H200)의 뒤를 잇는 Blackwell은 생성형 AI의 모델 학습과 실시간 추론을 획기적으로 가속하기 위한 광범위한 기술 혁신을 도입합니다. 대규모 언어 모델(LLM).
수학자 데이비드 블랙웰의 이름을 딴 이 아키텍처는 정의합니다 NVIDIA의 다음 장으로, 비할 데 없는 성능과 효율, 그리고 엔터프라이즈 AI 워크로드를 위한 확장성이 글에서는 블랙웰의 핵심 기능과 기술, H100 대비 AI 학습과 추론 효율을 어떻게 개선하는지, 혜택을 보게 될 산업과 적용 분야, 그리고 새로운 그레이스‑블랙웰 “GB200” 슈퍼칩의 역할을 심층적으로 살펴봅니다. 또한 블랙웰이 지원하는 사항에 대해서도 다룰 예정입니다 생성형 AI 및 LLM, NVLink‑5, FP4 정밀도, RAS와 같은 혁신, 기술 사양과 성능 지표, 그리고 NVIDIA의 Hopper H100/H200 GPU와 AMD Instinct MI300, Google TPU 등 경쟁 가속기와의 비교까지 포함합니다.
목차
NVIDIA 블랙웰 아키텍처의 핵심 혁신 사항대용량 메모리와 컴퓨트를 갖춘 멀티 다이 ‘수퍼칩’ GPU두 개의 다이는 어떻게 하나처럼 동작하나요?Transformer Engine 2.0 – LLM을 위한 FP8 및 신규 FP4 정밀도AI 슈퍼클러스터를 위한 더 빠른 NVLink 네트워킹Grace‑Blackwell 슈퍼칩(GB200)과 HGX 플랫폼Blackwell B200와 Hopper H100/H200: 사양과 성능 비교산업과 다양한 애플리케이션 전반에서 AI를 발전시키기엔터프라이즈급 AI를 위한 안정성과 보안NVIDIA 블랙웰 vs 경쟁 제품: MI300, TPU, 커스텀 실리콘초기 도입: CoreWeave의 Grace-Blackwell 클라우드와 그 이후결론: 차세대 AI 컴퓨팅의 개척者
NVIDIA 블랙웰 아키텍처의 핵심 혁신 사항
NVIDIA 블랙웰은 학습을 가능하게 하는 여섯 가지 혁신 기술을 도입했으며, 이들이 결합되어 실시간 최대 10조 매개변수 규모의 LLM 추론. 핵심 혁신 사항은 다음과 같습니다:
- 세계에서 가장 강력한 멀티 다이 GPU – 총 2,080억 개의 트랜지스터를 집적한 멀티 다이 설계. Blackwell GPU는 맞춤형 TSMC 4NP 공정으로 제작된 레티클 한계 다이 2개(각각 약 1,040억 트랜지스터)를 사용하며, 10 TB/s 칩 간 인터페이스로 연결되어 단일 통합 GPU처럼 동작합니다. 이를 통해 단일 다이 크기 한계를 사실상 돌파하여 방대한 온칩 자원을 제공합니다.
- 2세대 Transformer 엔진(FP4 정밀도) – 새로운 마이크로 텐서 스케일링 기법과 고급 동적 범위 관리 기능이 TensorRT-LLM과 NeMo 프레임워크에 통합되어 4비트 부동소수점(FP4) AI 연산을 가능하게 합니다. 이를 통해 추론에서 유효 모델 크기와 연산 처리량이 두 배로 늘어나, 정확도를 유지하면서 대규모 언어 모델의 학습과 추론을 가속합니다. Blackwell의 Ultra Tensor Cores는 이전 세대 대비 어텐션 처리 속도를 2배, AI FLOPS를 1.5배 향상합니다.
- 5세대 NVLink 및 NVSwitch – 업그레이드된 NVLink® 인터커넥트가 초당 1.8TB의 양방향 대역폭을 제공합니다 GPU당, 클러스터 내 최대 576개의 GPU 간에 끊김 없는 고속 통신을 가능하게 합니다. NVLink Switch 칩은 단일 72-GPU 포드(NVL72) 내에서 총 130 TB/s의 GPU 대역폭을 제공하며, 효율적인 스케일링을 위한 고급 인-네트워크 컴퓨팅(SHARP™)을 지원합니다.
- 신뢰성, 가용성, 서비스 가능성(RAS) 엔진 – 전용 RAS 엔진이 지능형 복원력을 제공합니다. AI 기반 예측 분석으로 수천 개의 하드웨어·소프트웨어 데이터 포인트를 모니터링하여, 장애를 조기에 진단하고 문제를 예측해 가동 시간을 극대화합니다. 이러한 예방 정비 기능을 통해 대규모 AI 배포 환경을 수주에서 수개월 동안 중단 없이 운영할 수 있습니다.
- 보안형 AI와 기밀 컴퓨팅 – Blackwell은 사용 중인 데이터를 종단 간으로 암호화할 수 있는 TEE-I/O를 지원하는 최초의 GPU입니다. 성능 저하 없이 모델과 데이터를 보호하는 고급 기밀 컴퓨팅 기능을 도입했습니다. 하드웨어 기반 신뢰 실행 환경(TEE)은 처리 중 AI 지식 재산과 민감한 데이터를 보호해야 하는 개인정보 민감 산업(예: 의료, 금융)에 필수적입니다.
- 디컴프레션 엔진 – 새로운 온다이 디컴프레션 엔진이 데이터 로딩과 분석을 가속합니다. 이 엔진은 LZ4, Snappy, Deflate 등 널리 쓰이는 압축 코덱을 지원해, 기존에 CPU에 부담을 주던 작업을 오프로딩합니다. 최대 900 GB/s의 고속 Grace CPU 메모리 링크와 결합될 때, 데이터베이스, Spark 분석, ETL 등 엔드 투 엔드 데이터 파이프라인을 가속하여 데이터 사이언스 워크로드의 성능을 향상시키고 비용을 절감합니다.
이러한 혁신은 대규모 AI에 있어 Blackwell을 게임 체인저로 만듭니다. 이제 각 요소를 좀 더 자세히 살펴보고, 아키텍처와 성능 측면에서 Blackwell GPU(B100/B200)가 Hopper GPU(H100/H200)와 어떻게 다른지 확인해 보겠습니다.
대용량 메모리와 컴퓨트를 갖춘 멀티 다이 ‘수퍼칩’ GPU
Blackwell의 대표적인 특징 가운데 하나는 멀티 다이 GPU 설계입니다. NVIDIA는 두 개의 대형 다이를 하나의 패키지로 결합해, 완전한 코히어런스를 갖춘 단일 CUDA GPU처럼 동작하도록 함으로써 GPU 실리콘을 사실상 두 배로 늘렸습니다. 각 Blackwell 다이에는 약 1,040억 개의 트랜지스터가 탑재되어 있으며, 이는 800억 트랜지스터를 갖춘 GH100(Hopper) 다이보다 약 30% 많은 수치입니다. 두 개의 다이를 결합한 B200 듀얼 다이 GPU는 총 2,080억 개에 달하는 트랜지스터를 담고 있으며, TSMC의 커스텀 4NP(4nm) 공정에서 제조됩니다. NVIDIA가 더 작은 공정 세대로 이동하지 않고(3nm로 넘어가기보다 4N을 개선하는 선택) 성능을 끌어올린 것은 이번이 처음이며, 따라서 막대한 성능 향상은 아키텍처 개선과 다이 규모 확장에 크게 의존합니다.
두 개의 다이는 어떻게 하나처럼 동작하나요?
NVIDIA는 다이 간 10 TB/s 연결을 제공하는 고대역폭 내부 링크(NV-HBI, NV High-Bandwidth Interface)를 개발했습니다. 방향별 약 5 TB/s에 달하는 이 거대한 인터포저 대역폭은 듀얼 다이 GPU가 성능 타협 없이 하나의 통합된 장치처럼 동작하도록 보장합니다. 이는 기존의 어떤 멀티칩 구현보다 훨씬 높은 칩렛/브리지 대역폭 수준으로, 비교를 위해 애플의 UltraFusion처럼 진보된 멀티칩 브리지조차 대략 2.5 TB/s 수준이었습니다. NVIDIA는 CoWoS 패시브 인터포저를 사용하는지, AMD와 유사한 베이스 다이 방식을 쓰는지 등 정확한 패키징 방식은 공개하지 않았지만, 최종 결과물은 단일 다이 GPU의 연산 자원과 메모리를 투명하게 두 배로 확장한 단일 Blackwell B200 가속기입니다.
메모리 용량과 대역폭이 크게 도약했습니다. 각 Blackwell 다이는 차세대 HBM3E 메모리 4개 스택과 연결되며(B200 전체 기준 8개 스택), 메모리 버스는 8192비트로 확장됩니다. HBM3E 채택으로 NVIDIA는 B200에서 최대 192 GB의 VRAM(24 GB 스택 × 8)을 제공합니다. 이는 H100 GPU의 80~96 GB 대비 50% 증가한 수치입니다. 이는 거대 모델의 규모가 계속 커지는 흐름에 직접 부응하는 변화로, 그동안 메모리 용량이 초거대 모델의 제약 요인이었기 때문입니다. 동일하게 중요한 점으로, Blackwell의 메모리 대역폭은 총 8 TB/s(스택당 1 TB/s)까지 치솟습니다. 이는 H100의 대역폭(3.2 TB/s) 대비 약 2.4배이며, 중간 세대인 H200의 대역폭(HBM3E 적용 시 약 4.8 TB/s)보다도 66% 더 큽니다. 실질적으로 이는 Blackwell GPU가 코어에 데이터를 훨씬 더 빠르게 공급하여, 특히 메모리 바운드 ML 워크로드에서 병목을 줄일 수 있음을 의미합니다.
멀티 다이 컴퓨트와 결합된 이 강화된 메모리 서브시스템은 단일 보드에서 전례 없는 규모의 모델을 처리할 수 있도록 Blackwell의 역량을 끌어올립니다. 예를 들어, 각 B200 GPU 모듈(SXM 폼팩터)은 자원이 두 배로 늘어난 것을 구동하기 위해 최대 1000W의 TDP를 소모합니다(H100의 700W 대비). 고집적 환경에서는 액체 냉각이 예상되지만, NVIDIA는 특정 구성에서는 1000W 수준에서도 공랭이 가능하다고 밝히고 있습니다. 더 높아진 전력 한계는 성능 극대화를 위해 NVIDIA가 실리콘을 한계까지 밀어붙이고 있음을 보여줍니다. 다음에서 살펴보겠지만, 그 전력의 상당 부분은 AI 트랜스포머와 생성 모델에 최적화된 새로운 텐서 코어 기능을 구동하는 데 쓰입니다.

Transformer Engine 2.0 – LLM을 위한 FP8 및 신규 FP4 정밀도
오늘날의 생성형 AI 모델(GPT, PaLM 등)을 학습하고 서빙하려면 막대한 연산 능력이 필요하지만, 그 모든 연산이 16비트 또는 32비트의 완전한 정밀도를 요구하는 것은 아닙니다. NVIDIA는 Hopper에서 자동 혼합 정밀도를 위한 Transformer Engine을 도입해 FP8 행렬 연산으로 트랜스포머 레이어 가속을 구현했습니다. Blackwell은 이를 한층 발전시켜, 정밀도 손실을 최소화하는 더 똑똑한 스케일링과 함께 더욱 낮은 4비트 정밀도까지 지원하는 2세대 Transformer Engine을 제공합니다.
이 엔진의 핵심에는 새로운 8비트와 4비트 부동소수점 형식을 추가로 지원하는 NVIDIA Blackwell 텐서 코어가 있습니다. Blackwell의 텐서 코어는 FP16/BF16, FP8, 그리고 이제 FP4 데이터까지 처리할 수 있으며, 학습 또는 추론의 단계별로 정밀도를 동적으로 조정합니다. 초저정밀 환경에서도 정확도를 유지하기 위해 Blackwell은 미세한 “마이크로 텐서 스케일링” 기법을 적용합니다. 본질적으로 텐서 단위(또는 서브 텐서 단위) 스케일링 팩터를 적용하고, 중요한 비트를 보존하기 위해 AI 커뮤니티에서 정의한 “마이크로스케일링” 형식을 사용할 수 있습니다. NVIDIA는 여기에 고도화된 동적 범위 관리 알고리즘 소프트웨어(내부의 TensorRT-LLM 및 the NeMo 프레임워크) 따라서 개발자는 최소한의 수동 튜닝만으로 FP4 가속을 활용할 수 있습니다.
성과는 상당합니다: Blackwell의 4비트 모드는 주어진 메모리 용량에서 GPU가 처리할 수 있는 유효 처리량과 모델 크기를 두 배로 늘립니다. 실제로 NVIDIA는 FP4를 활성화하면 높은 정확도를 유지하면서 차세대 모델의 성능과 메모리로 수용 가능한 규모가 두 배가 된다고 밝히고 있습니다. 이는 FP8로 실행하려면 GPU나 메모리가 2배 더 필요했던 모델도 FP4를 사용하면 절반의 하드웨어로 제공할 수 있음을 의미하며, 수조 개 매개변수 모델을 경제적으로 배포하는 데 큰 이점을 제공합니다.
FP4가 없어도 Blackwell의 순수 텐서 코어 성능은 크게 향상됩니다. H100과 비교하면 B200 GPU는 핵심 AI 정밀도에서 GPU당 처리량을 두 배 이상 끌어올립니다. 예를 들어, B200 한 개는 FP16/BF16 텐서 처리에서 4.5 PFLOPS에 도달할 수 있으며(H100은 약 2 PFLOPS), FP8에서는 최대 9 PFLOPS까지 달합니다(H100은 약 4 PFLOPS). FP4를 사용하면 텐서 연산 성능이 약 18 PFLOPS까지 치솟는데, 이는 Hopper에는 전혀 없던 능력입니다. NVIDIA는 주로 HPC 과학 시뮬레이션에 중요한 64비트 부동소수점(FP64) 처리량의 일부를 의도적으로 희생하고, 32비트 이하 정밀도가 지배적인 AI 연산에 더 많은 실리콘을 배분했습니다. NVIDIA 블로그가 지적하듯, AI 학습은 완전한 64비트 정밀도를 거의 필요로 하지 않으며, Blackwell은 H100 대비 FP64 텐서 성능을 낮추는 대신 딥러닝에서 가장 많이 쓰이는 데이터 타입에 “더 많은 성능을 짜 넣는” 방식을 취했습니다.
구체적으로 말하면, Blackwell의 Transformer Engine 2.0은 FP4, FP8, 그리고 더 높은 정밀도를 자동으로 혼합합니다 하나의 워크플로에서 모두 처리됩니다. 추론 시에는 모델의 민감도가 낮은 부분(예: 중간 활성화)은 4비트를 사용하고, 민감도가 높은 부분(예: 최종 레이어)은 8비트 또는 16비트를 사용하도록 하며, 이 모든 과정을 하드웨어와 소프트웨어 라이브러리가 자동으로 관리합니다. 학습에서는 FP8과 BF16 조합을 통해 가중치 업데이트의 안정성을 유지하면서 행렬 연산을 가속합니다. 이러한 유연한 정밀도 지원은 처리량과 메모리 활용도를 모두 크게 끌어올립니다. NVIDIA에 따르면 1.8조 매개변수 규모의 GPT-MoE와 같은 초대형 모델에서 Blackwell GPU는 H100 GPU 대비 실시간 토큰 생성 추론 처리량을 최대 15배까지 달성할 수 있습니다. 아래 차트는 이 도약을 보여줍니다:

이처럼 대규모의 추론 속도 향상은 LLM 기반 서비스의 더 빠른 응답 등 사용자 경험 개선으로 직결되며, 쿼리당 서비스 비용도 크게 낮춥니다. CoreWeave가 언급했듯, Blackwell의 FP4 지원 Transformer Engine은 초거대 모델 추론 가속을 위한 “획기적 도약”입니다. 그리고 이는 추론에만 국한되지 않습니다. 대규모 모델 학습 역시 클러스터에서 최대 3–4배의 속도 향상을 보이며, 이에 대해서는 아래에서 더 자세히 다루겠습니다. 요약하면, Blackwell은 생성형 AI와 LLM 워크로드를 강화하기 위해 설계되었고, 학습 효율을 높이는 동시에 대규모 고처리량 추론을 현실적으로 가능하게 만듭니다.
AI 슈퍼클러스터를 위한 더 빠른 NVLink 네트워킹
엑사스케일 AI 성능을 달성하려면 단 하나의 초강력 GPU만으로는 충분하지 않습니다. 여러 GPU가 일사불란하게 협력해야 합니다. 그래서 NVIDIA Blackwell은 5세대 NVLink와 새로운 NVLink Switch 패브릭을 통해 멀티‑GPU 스케일링에 큰 비중을 둡니다. 모델이 수조 단위 매개변수 규모로 성장할수록, GPU 간(그리고 노드 간) 고속 인터커넥트는 병렬 학습과 서빙에서 연산만큼이나 결정적으로 중요해집니다.
NVLink 5는 이전 세대 대비 GPU당 통신 대역폭을 두 배로 늘립니다. 각 Blackwell GPU는 이제 다른 GPU와 연결하기 위해 최대 1.8 TB/s의 양방향 NVLink 대역폭을 제공합니다. 실제로 8개 GPU 서버(HGX 베이스보드와 같은) 내에서는 링크당 900 GB/s의 속도로 고속 메쉬 인터커넥트를 구성해, 모델 샤딩과 활성화 그라디언트가 지연을 최소화하며 동기화되도록 보장합니다. H100의 총 NVLink 대역폭 900 GB/s와 비교하면, Blackwell은 더 높은 확장성과 처리량을 제공합니다. 두 번 노드 내부 GPU 인터커넥트 처리량
더 인상적인 점은 NVIDIA가 Blackwell을 위해 NVLink Switch System(NVSwitch)을 도입하여 대규모 랙 스케일 전 대역폭을 제공하는 GPU 클러스터. 단일 NVLink Switch 칩으로 8개의 GPU를 올투올 대역폭으로 연결할 수 있습니다. 모듈형 트레이에 여러 스위치 칩을 통합해, NVIDIA는 72개의 GPU가 모두 NVLink의 최대 속도로 통신하는 NVL72라는 72‑GPU NVLink 도메인을 구성합니다. 이 72‑GPU 풀 내에서 NVLink Switch는 무려 130 TB/s의 바이섹션 대역폭을 제공합니다. 이는 이전 세대 대비 대역폭 효율이 4배 향상된 것으로, FP8 정밀도를 지원하며 리덕션 연산을 스위치 하드웨어로 오프로드하는 NVLink‑SHARP와 같은 인‑네트워크 컴퓨팅 기능 덕분입니다.
간단히 말해, Blackwell은 최대 72개의 GPU를 마치 하나의 거대한 GPU처럼 확장해 사용할 수 있습니다. 각 GPU가 초고속 링크로 서로에게 직접 연결될 수 있어, 대규모 모델 학습을 동기화하는 데 필수적입니다. NVIDIA에 따르면 72‑GPU Blackwell 클러스터(NVL72 한 pod)는 1.4 엑사FLOPS의 AI 연산 성능과 30 TB의 통합 메모리를 갖춘 단일 유닛처럼 동작합니다. 이것이 NVIDIA DGX SuperPOD 설계의 기반입니다. 더 나아가 Blackwell의 NVLink는 멀티 노드 연결도 지원합니다. 여러 개의 72‑GPU pod를 NVLink 브리지 또는 향후 NVLink Switch 확장을 통해 묶어, 하나로 매끄럽게 연결된 시스템에서 최대 576 GPU까지 플랫폼 한계에 도달할 수 있습니다. 수조 개 매개변수를 제대로 활용하려면 모든 GPU가 서로 전부 직접 연결되는 이런 패브릭이 반드시 필요합니다.
NVLink을 넘어, Blackwell 시스템은 데이터센터 수준으로 확장하기 위해 NVIDIA Quantum‑2/Quantum‑X InfiniBand와 Ethernet을 사용합니다. 예를 들어 Blackwell 플랫폼은 최신 800G IB/Ethernet NIC을 통해 노드당 최대 800 Gb/s 네트워킹을 지원합니다. 클라우드 환경에서 CoreWeave의 Blackwell 인스턴스는 GPU당 400 Gb/s InfiniBand를 연결하여 효율적인 RDMA와 인‑네트워크 리덕션을 통해 IB로 최대 110,000개의 GPU를 클러스터링할 수 있습니다. 이는 심지어 이외에도 단일 NVLink 도메인을 넘어 멀티 랙 또는 멀티 데이터센터 배치를 통해, 거대한 모델을 준수한 스케일링으로 학습할 수 있습니다.
이 모든 네트워킹 혁신의 핵심은 하나로 귀결됩니다. 통신 병목을 줄이는 것입니다. NVIDIA의 설명을 빌리면, 수조 개 매개변수 모델의 성능을 끌어내는 열쇠는 신속하고 매끄러운 GPU 간 통신입니다Blackwell은 서버 내부에서는 NVLink‑5로, 그 밖에서는 고속 클러스터 인터커넥트로 이 문제를 해결하여, 8개의 GPU든 500개 이상의 GPU든 함께 동작할 때 데이터가 자유롭게 흐르도록 합니다. 그 결과, 복잡한 AI 워크로드에서 거의 선형에 가까운 확장성이 구현됩니다. 실제로 NVIDIA는 GB200 NVL72 풀 랙(Blackwell GPU 72개 + Grace CPU)이 동등한 H100 클러스터보다 1.8조 매개변수 모델을 4배 빠르게 학습시킬 수 있다고 주장합니다. 추론에서는 이득이 더 큽니다. 언급했듯이, 대규모 LLM 추론에서 지연 시간을 극적으로 낮추면서 최대 30배 빠른 성능을 제공합니다. 이는 차세대 챗봇, 검색 AI, 추천 시스템을 구축하는 하이퍼스케일러와 국립 연구소 등 극한의 처리량이 필요한 AI 슈퍼컴퓨터를 위한 최적의 플랫폼이라는 뜻입니다.
Grace‑Blackwell 슈퍼칩(GB200)과 HGX 플랫폼
Blackwell 아키텍처 GPU(B100, B200)는 전통적인 x86 서버에서 PCIe 또는 HGX 보드를 통해 배치할 수 있지만, NVIDIA는 더 통합된 해법도 제시하고 있습니다. 즉, Arm 기반 Grace CPU와 Blackwell GPU를 결합한 Grace Hopper 스타일의 “슈퍼칩”입니다. 이번 세대에서는 이를 NVIDIA GB200 Grace Blackwell Superchip으로 제공합니다.
각 GB200 슈퍼칩은 하나의 Grace CPU(144코어 Arm Neoverse V2)와 두 개의 Blackwell B200 GPU를 단일 모듈로 패키징하며, 900 GB/s의 NVLink‑C2C로 연결됩니다. 이를 통해 통합 메모리 주소 공간을 갖춘 긴밀한 CPU‑GPU 결합이 형성됩니다. Grace CPU는 최대 960 GB의 LPDDR5X 메모리(대역폭 1 TB/s)를 제공하며, 이는 GPU의 HBM 메모리와 캐시 일관성을 유지합니다. 결과적으로 GB200 노드는 CPU와 GPU가 모두 접근할 수 있는 대용량 메모리(총합 약 1.5 TB까지)와 PCIe를 훨씬 상회하는 초고속 CPU‑GPU 통신을 제공합니다. 이러한 설계는 높은 연산량(GPU)과 대용량 메모리를 동시에 요구하거나 CPU 전처리/후처리에 병목이 있는 초거대 모델에 이상적입니다.
단일 GB200 슈퍼칩만으로도 두 개의 B200 GPU 덕분에 혼합 정밀도 기준 최대 1 페타FLOP의 AI 성능을 내는 매우 강력한 유닛입니다. 하지만 진정한 가치는 이를 더 큰 시스템을 위한 빌딩 블록으로 사용할 때 드러납니다. NVIDIA의 레퍼런스 설계인 GB200 NVL72는 랙 규모의 솔루션으로, 랙 수준에서 NVLink 스위치를 통해 상호 연결된 36개의 GB200 슈퍼칩(즉, 72개의 Blackwell GPU와 36개의 Grace CPU에 해당)을 포함합니다. 여기에 더해, 이 랙들은 고성능 네트워킹, 스토리지 오프로딩, 보안을 위한 BlueField‑3 DPU를 통합하여 RDMA와 가상화를 효율적으로 지원하는 멀티 랙 클러스터를 구현합니다.
GB200 NVL72 랙은 본질적으로 HBM과 CPU 메모리를 통합한 30 TB의 통합 메모리와 약 1.4 EFLOPS급 AI 연산 성능을 갖춘 거대한 72‑GPU 단일 시스템처럼 동작합니다. NVIDIA는 이를 자사의 턴키형 AI 데이터센터 솔루션인 DGX SuperPOD의 핵심으로 제시합니다. NVIDIA에 따르면, 동일한 크기의 H100 클러스터와 비교해 이 랙 한 대는 LLM 추론 성능을 최대 30배까지 끌어올리는 동시에 에너지 사용량을 25배까지 줄입니다. 이러한 막대한 효율 향상(동일 추론당 에너지를 1/25로 줄이면서 성능은 30배 증가)은 Blackwell의 FP4 지원과 아키텍처 개선에서 비롯되며, 초대형 모델 추론을 훨씬 더 비용 효율적으로 만듭니다. 즉, Hopper 기반 시스템 수십 대가 필요했던 작업을 더 적은 수의 Blackwell GPU로 수행할 수 있어 전력과 총소유비용을 절감할 수 있습니다.
모든 배치에 Grace CPU가 쓰이는 것은 아닙니다. x86 서버를 선호하는 고객을 위해 NVIDIA는 HGX B200 플랫폼을 제공합니다. HGX B200은 서버 트레이에서 NVLink로 여덟 개의 B200 GPU를 서로 연결하는 8‑GPU 베이스보드( HGX H100 8‑GPU와 유사)로, 일반적으로 듀얼 x86 CPU와 함께 구성됩니다. 이는 기존 데이터센터 통합을 위해 표준 PCIe Gen5/6를 지원하고 GPU당 최대 400 Gb/s 네트워킹을 제공합니다. HGX B200은 Grace CPU의 코히어런트 메모리 없이도 Blackwell의 기능(FP4, 8개 GPU 간 NVLink5 등)을 그대로 활용할 수 있습니다. CoreWeave는 HGX B200을 x86에서 가장 까다로운 AI 및 데이터 처리 작업을 위해 설계된 플랫폼으로 설명하며, 대규모 모델 실시간 추론에서 Hopper 기반 HGX 시스템 대비 최대 15배 빠른 성능을 제공한다고 밝혔습니다.
GB200(Grace+Blackwell)든 HGX B200(x86+Blackwell)이든, 엔터프라이즈는 새로운 GPU를 배치하는 방식을 선택할 수 있습니다. 흥미롭게도 NVIDIA는 연구자를 위한 Grace + Blackwell GPU 기반 데스크사이드 AI 슈퍼컴퓨터인 DGX Station과, 최대 2000억 매개변수 모델을 위한 단일 GB10 Grace‑Blackwell Superchip으로 구동되는 소형 개발자 워크스테이션 DGX Spark 같은 더 작은 폼팩터도 선보였습니다. 이는 Blackwell 플랫폼의 유연성을 보여줍니다. 개인용 AI 개발 머신부터 멀티 랙 슈퍼팟까지 폭넓게 확장됩니다.
Blackwell B200와 Hopper H100/H200: 사양과 성능 비교
아키텍처를 살펴봤으니, 이제 Blackwell과 그 전작인 Hopper를 기술 사양과 성능 지표 측면에서 비교해 보겠습니다. 아래 표는 NVIDIA의 플래그십 데이터센터 GPU인 Blackwell B200 Tensor Core GPU, 중간 세대인 Hopper H200, 그리고 초기형 Hopper H100(모두 SXM 폼팩터)의 핵심 사양을 요약한 것입니다.
| GPU Model | NVIDIA B200 (Blackwell) | NVIDIA H200 (Hopper Refresh) | NVIDIA H100 (Hopper) |
|---|---|---|---|
| Architecture | Blackwell (2025) | Hopper (2024) – “H200” | Hopper (2022) |
| Process Node | TSMC 4N+ (4NP) | TSMC 4N (optimized) | TSMC 4N |
| Transistors | 208 billion (2×104B) | ~80 billion | 80 billion |
| SMs / Cores | (Not publicly disclosed) | 16896 CUDA (H100 specs) | 16896 CUDA |
| Tensor Cores | 528 (?) with FP4/FP8 | 528 (FP8 support) | 512 (FP16/FP8) |
| Peak FP64 (TFLOPS) | 30–40 (Tensor: 40) | 34 (Tensor: 67) | 34 (Tensor: 67) |
| Peak FP32 (TFLOPS) | 60–80 (Tensor: 2.2 PF) | 67 (Tensor: ~0.99 PF) | 67 (Tensor: ~0.99 PF) |
| Peak BF16/FP16 | 4.5 PFLOPS | ~2.0 PFLOPS | ~2.0 PFLOPS |
| Peak FP8 | 9 PFLOPS | ~4 PFLOPS | ~4 PFLOPS |
| Peak FP4 | 18 PFLOPS | N/A | N/A |
| GPU Memory (HBM) | 192 GB HBM3e (8 stacks) | 141 GB HBM3e (6 stacks) | 80 GB HBM3 (5–6 stacks) |
| Memory Bandwidth | up to 8 TB/s | ~4.8 TB/s | ~3.2 TB/s |
| NVLink Bandwidth | 1.8 TB/s per GPU | 900 GB/s | 900 GB/s |
| Max MIG Instances | 7 (≈27 GB each) | 7 (≈16.5 GB each) | 7 (≈10 GB each) |
| Form Factor | SXM5 (1000W module) | SXM (700W, 600W options) | SXM (700W, 500W) |
| Notable | Dual-die, FP4, NVLink5 | HBM3e upgrade, GH200 variant | First FP8, Transformer Eng. |
보시다시피 Blackwell B200 Tensor Core GPU는 AI와 관련된 거의 모든 측면에서 Hopper H100/H200을 능가합니다.
- 연산: 원시 텐서 연산 기준으로 B200은 FP16/BF16 및 FP8에서 H100 대비 약 2.3배의 처리량을 제공하며, 여기에 새로 추가된 FP4 모드로 추가 2배 향상이 가능합니다. 그 결과 초대형 모델에서 최대 15배의 추론 성능과, 많은 경우 약 3–4배의 학습 속도 향상을 달성합니다. (주목할 점은, AI 중심 설계의 트레이드오프를 반영해 B200의 FP64 처리량은 H100의 텐서 코어 대비 다소 낮다는 것입니다.)
- 메모리: B200는 192 GB의 HBM3e 메모리를 탑재해 H100(80 GB) 대비 유효 VRAM이 2배 이상입니다. 이처럼 큰 용량 덕분에 단일 Blackwell GPU만으로도 멀티 GPU 샤딩 없이 훨씬 더 큰 모델이나 배치 크기를 수용할 수 있습니다. 또한 8 TB/s의 메모리 대역폭은 H100의 2.5배에 달해, 대규모 희소 모델이나 추천 임베딩처럼 메모리 집약적 워크로드에서 병목을 크게 완화합니다.
- 인터커넥트: NVLink‑5를 통해 Blackwell은 GPU 인터커넥트 속도를 1.8 TB/s로 두 배 끌어올려 멀티 GPU 학습 효율을 개선합니다(통신 오버헤드 감소). 멀티 노드 환경에서는 Blackwell 시스템이 NVLink Switch와 800G 네트워킹을 활용해 더욱 확장하는 반면, H100 클러스터는 노드 간 GPU 통신에서 상대적으로 느린 외부 InfiniBand에 더 많이 의존했습니다.
요약하면Blackwell의 사양적 우위는 가속기당 처리량을 크게 높이고 확장성도 개선합니다. 실제 벤치마크가 이러한 향상을 입증합니다. 예를 들어 MLPerf 스타일의 테스트에서 HGX B200 시스템은 대규모 언어 모델을 HGX H100 대비 대략 2~3배 빠르게 학습할 수 있으며, 과거에는 실시간 서비스가 사실상 불가능했던 수조 개 파라미터 규모의 모델에 대해서도 추론을 수행할 수 있습니다. Blackwell은 더 똑똑한 정밀도와 메모리 활용을 강력한 연산 성능과 결합함으로써, 1조 개 이상 파라미터의 대화형 챗봇과 같은 새로운 범주의 활용 사례를 가능하게 합니다.
위에서 언급한 H200은 NVIDIA가 2023년 말/2024년에 선보인 Hopper 기반 GPU를 가리키며, GH200 Grace‑Hopper 슈퍼칩과 함께 언급되는 경우가 많습니다. H200은 HBM3e 메모리 업그레이드와 약간 높아진 클럭을 제공했지만, 연산 아키텍처는 여전히 Hopper였습니다. 일부 출처에서는 H100의 후속을 비공식적으로 “H200”이라 부르며 Blackwell 세대를 지칭하기도 했지만, NVIDIA의 공식 명명은 Blackwell 가속기에 대해 B100과 B200을 사용합니다. 명칭과 무관하게, Blackwell은 Hopper의 역량을 본질적으로 뛰어넘는 진정한 차세대 도약을 의미합니다.
산업과 다양한 애플리케이션 전반에서 AI를 발전시키기
NVIDIA Blackwell GPU는 단순한 사양 경쟁을 넘어, 규모와 성능에서 새로운 가능성을 열어 다양한 산업과 AI 애플리케이션에 큰 변화를 가져올 것입니다. 다음은 Blackwell의 혜택을 크게 볼 주요 분야입니다:
- 생성형 AI와 대규모 언어 모델 – 가장 분명한 이유입니다. Blackwell은 처음부터 이를 처리하도록 설계되었습니다. 막대한 생성형 모델. 대규모 언어 모델을 개발하는 기업(예: GPT 스타일 챗봇, 코드 생성기, 콘텐츠 제작 AI) 는 학습 주기가 단축되고 10조 개 이상의 파라미터를 가진 모델을 실험할 수 있게 될 것입니다. 못지않게 중요한 것은, 추론 이들 모델의 추론은 실시간으로 수행할 수 있습니다. 예를 들어, Meta의 CEO 마크 저커버그는 “NVIDIA의 Blackwell을 활용해 오픈소스 Llama 모델을 학습하고 차세대 Meta AI를 구축하기를 기대한다”고 밝혔습니다. 추론 성능이 15~30배 향상되면 가상 비서, 고객 지원 봇, 생성형 검색 엔진과 같은 대화형 AI 서비스가 훨씬 더 큰 모델을 낮은 지연으로 사용자에게 제공할 수 있어 결과 품질이 향상됩니다.
- AI ‘추론’과 에이전틱 AI – 그 너머 전통적인 신경망, 여러 모델과 도구를 조율해 추론을 수행하는 AI 에이전트로의 흐름이 뚜렷합니다. 이러한 워크로드는 반복적 프롬프트, 계획 수립, LLM 체이닝을 포함하며, 토큰 생성 집약적입니다. Blackwell은 빠른 생성, 대용량 메모리, 고속 인터커넥트라는 강점을 갖춰 이러한 용도에 최적입니다. NVIDIA의 한 디렉터가 지적했듯이, AI 추론은 다수의 모델 추론을 수반하며 “실시간 고품질 결과를 위해 고속 통신, 메모리, 컴퓨트를 갖춘 인프라를 요구”하는데, 이는 바로 Blackwell의 NVLink 슈퍼클러스터가 제공하는 역량입니다. 연구소와 엔터프라이즈는 Blackwell을 활용해 추론을 모사하는 고급 AI 시스템을 구축하고, 자율 연구를 수행하거나, 복수의 모델로 구성된 복잡한 워크플로우를 운영할 것으로 예상됩니다(예: 웹을 탐색하고, 코드를 작성하며, 여러 차례의 LLM 호출로 답변을 구성하는 AI 에이전트).
- 클라우드 AI 서비스 – 클라우드 제공업체 (AWS, 애저, Google Cloud, 코어위브등)도 블랙웰 GPU를 활용해 더 강력한 AI 인스턴스를 제공할 예정이다. AWS의 CEO 앤디 재시는 “새로운 NVIDIA 블랙웰 GPU는 AWS에서 매우 잘 구동될 것”이라며 NVIDIA와의 협업을 강조했고, “NVIDIA의 차세대 Grace Blackwell 슈퍼칩을 AWS Nitro 시스템과 결합하는 공동 엔지니어링 프로젝트… NVIDIA의 자체 AI 연구를 위해”를 언급했다. 이는 클라우드 플랫폼이 블랙웰의 역량을 최대한 끌어내기 위해 네트워킹과 가상화 등 인프라를 최적화하겠음을 시사한다. 이들 클라우드 고객은 곧 블랙웰 인스턴스를 임대해 대규모 모델을 더 빠르게 학습하거나 AI 애플리케이션에서 초당 더 많은 요청을 처리할 수 있게 되며, 블랙웰의 효율성 덕분에 쿼리당 비용도 잠재적으로 낮아질 것이다.
- 엔터프라이즈 AI 및 애널리틱스 – 금융, 헬스케어, 제조, 리테일 등 많은 산업이 대규모로 AI를 도입하고 있다. 블랙웰에 GPU 기반의 컨피덴셜 컴퓨팅이 도입된 것은 이러한 분야에 큰 이점으로, 은행이나 병원은 하드웨어 수준의 보안(메모리와 I/O 구간에서의 데이터 암호화) 하에 민감한 데이터로 모델을 미세 조정하고 배포할 수 있다. 예를 들어 금융 서비스는 블랙웰을 활용해 암호화된 데이터에서 이상 거래 탐지나 알고리즘 트레이딩 모델을 실행함으로써 규정 준수를 충족할 수 있다. 마찬가지로 헬스케어 기관은 프라이버시를 보존하면서 의료 영상 분석이나 환자 데이터 모델링을 수행할 수 있다. 이 모든 과정은 모델 속도를 떨어뜨리지 않는다. 블랙웰의 보안 영역은 데이터를 보호하고 AI 지식재산도 지키면서 “비암호화 모드와 거의 동일한 처리량 성능”을 제공한다. 성능과 보안을 겸비한 이 조합은 그동안 주저하던 민감 분야에서의 AI 도입을 가속할 것이다.
- 데이터 사이언스와 빅데이터 애널리틱스 – 블랙웰의 디컴프레션 엔진과 대용량 CPU–GPU 메모리 시너지(Grace‑Blackwell 시스템)는 I/O로 병목이 걸렸던 데이터 애널리틱스 워크플로를 가속한다. 대규모 데이터 웨어하우스나 Spark 클러스터를 예로 들어보면, 블랙웰을 사용하면 압축된 데이터셋을 GPU에서 초당 900 GB 속도로 해제 압축하고 메모리 내에서 바로 처리할 수 있어 SQL 쿼리나 ETL 작업을 획기적으로 빠르게 수행한다. NVIDIA에 따르면, 새 디컴프레션 오프로드를 활용한 블랙웰 시스템은 데이터베이스 쿼리 벤치마크에서 H100 GPU 대비 2배, CPU 전용 시스템 대비 6배 더 빠른 성능을 보인다. 리테일(매출 데이터에 대한 실시간 분석), 물류(공급망 최적화), 통신(네트워크 분석)과 같은 산업에서는 이러한 GPU 가속 데이터 파이프라인을 통해 더 빠르고 낮은 비용으로 인사이트를 얻을 수 있다.
- 과학 컴퓨팅과 HPC – 블랙웰은 AI에 더 초점을 맞추고 있지만, 혼합 정밀도나 AI 가속을 활용할 수 있는 HPC 워크로드에서도 여전히 최상급 연산 엔진이다. AI 대체 모델이나 낮은 정밀도를 사용하는 기후 모델링, 천체물리, 유전체학 애플리케이션은 매우 빠르게 실행될 수 있다. 순수 FP64 기반 HPC 코드의 경우, 블랙웰의 FP64 처리량은 H100과 동급이며(이전 세대 A100 대비로는 여전히 여러 배 높다), 전통적인 슈퍼컴퓨팅 센터에서도 환영할 업그레이드다. 차이점은 블랙웰 기반 HPC 시스템이 Grace CPU를 통합할 가능성이 높아, 방대한 메모리를 갖춘 CPU+GPU 하이브리드 컴퓨팅 모델을 제공한다는 점으로, 메모리 병목이 있는 시뮬레이션에 특히 유리하다. 더 나아가 개선된 RAS 엔진은 장시간 실행되는 시뮬레이션에서 다운타임을 줄여 블랙웰에 대한 신뢰성을 높여준다. 칩 수준에서의 사전 고장 예측과 빠른 결함 격리에 대한 NVIDIA의 강조점은, 수개월에 걸친 연속 운영 동안 높은 가용성을 요구하는 HPC 설치 환경의 요구와 잘 맞아떨어진다.
요컨대 블랙웰 GPU는 크기나 지연 시간 제약 때문에 이전에는 불가능했던 AI 모델과 시스템을 구현할 수 있게 해준다. 구글 딥마인드의 CEO 데미스 하사비스가 언급했듯이, “블랙웰의 획기적 역량은 세계 최고 석학들이 새로운 과학적 발견의 지도를 그리는 데 필요한 핵심 연산 자원을 제공할 것”이다. 오픈 소스 AI 연구를 구동하는 것부터(메타, 오픈AI, 딥마인드) 엔터프라이즈급 AI 서비스를 제공하는 것까지(AWS, Azure, Oracle), 블랙웰은 AI의 다음 시대를 이끌 핵심 동력으로 자리매김할 것이다.
엔터프라이즈급 AI를 위한 안정성과 보안
AI가 실험 단계에서 미션 크리티컬 영역으로 이동함에 따라, 신뢰성과 보안 같은 요소는 순수 성능만큼이나 중요해지고 있다. NVIDIA 블랙웰은 RAS 엔진과 보안 AI 기능을 통해 이 분야에서 의미 있는 진전을 이루었으며, 엔터프라이즈 IT 리더들이 대규모 AI 클러스터를 자신 있게 배포할 수 있도록 뒷받침한다.
블랙웰에 탑재된 전용 RAS(신뢰성, 가용성, 서비스성) 엔진은 GPU의 상태를 지속적으로 모니터링한다. 칩과 시스템 전반의 수천 개 신호에서 수집한 텔레메트리를 추적하고, AI 알고리즘을 활용해 고장 징후가 될 수 있는 이상 징후나 드리프트를 감지한다. 예를 들어 특정 메모리 모듈에서 교정 가능한 오류가 증가 추세로 나타나기 시작하면, RAS 엔진이 교체 필요 대상으로 표시할 수 있다. 이전에 수정 불가능한 결함을 유발한다.
이런 예지 정비 방식은 GPU의 상태에 대한 “디지털 트윈”을 보유한 것과 유사하며, 단순 대응이 아니라 신뢰성 문제를 사전에 예측한다는 점에서 의미가 있다. NVIDIA에 따르면 Blackwell의 RAS는 문제를 국소화하고 효과적인 복구 절차를 안내해 대규모 클러스터의 다운타임을 최소화할 수 있다. 24시간 연속으로 AI 서비스를 운영하는 엔터프라이즈(전 세계 챗봇 서비스나 AI 기반 SaaS 제품을 떠올려 보자)에는 GPU 결함으로 인한 장애를 크게 줄여 준다는 뜻이다. GPU 자체가 풍부한 진단 정보를 관리 소프트웨어에 보고할 수 있어, 영향은 최소화하면서 계획된 교체나 리셋을 수행할 수 있다. 전반적으로 이 RAS 혁신은 Blackwell 기반 인프라에 “지능형 복원력”을 내장하여, 예기치 않은 중단을 피함으로써 시간, 에너지, 비용을 절감한다.
보안 측면에서 블랙웰은 업계 최초로 TEE‑I/O 기능을 갖춘 GPU로 선구적인 위치에 있다. 이는 신뢰할 수 있는 실행 환경으로 동작해, 데이터가 저장되거나 전송될 때뿐 아니라 GPU 메모리에서 처리되는 동안에도 데이터를 보호할 수 있음을 의미한다. 구체적으로, 블랙웰은 PCIe/NVLink 인터페이스와 메모리에 대한 네이티브 암호화를 지원하므로, GPU로 오가거나 HBM에 상주하는 데이터를 시스템 소프트웨어조차 접근할 수 없는 키로 암호화할 수 있다.
민감한 모델(예: 독점 LLM 가중치)은 하드웨어가 클라우드 제공업체에 있거나 멀티 테넌트 환경에 있더라도 기밀로 유지할 수 있다. 또한 환자 기록이나 금융 거래 같은 민감한 입력 데이터는 원시 값이 시스템에 노출되지 않도록 하면서 모델이 처리할 수 있다. NVIDIA는 블랙웰의 기밀 컴퓨팅 기능이 사실상 성능 저하 없음, 일반 모드와 “거의 동일한 처리량”을 제공한다. 이는 매우 중요하다. 과거에는 암호화 오버헤드나 GPU 메모리에 암호화를 적용하지 못하는 한계 때문에, 기업이 보안과 속도 중 하나를 선택해야 했다. 블랙웰은 둘 다 제공한다.
이러한 RAS 및 보안 향상 기능은 엔터프라이즈 IT의 요구를 겨냥한다. 예를 들어 생성형 AI를 도입하는 은행은 암호화된 데이터셋으로 학습해 규정을 준수하면서, 보안 엔클레이브에서 모델을 배포할 수 있으며, 그와 동시에 기반 GPU 클러스터가 결함을 선제적으로 자체 모니터링하고 있다는 점을 신뢰할 수 있다. 사티아 나델라(Microsoft CEO)가 언급했듯이, Grace‑Blackwell 시스템을 데이터센터에 도입하는 것은 “전 세계 모든 조직에 AI를 신뢰할 수 있고 실제적인 것으로 만들겠다”는 목표와 맞닿아 있다. 마찬가지로 가동 시간과 보안을 요구하는 통신이나 국방 같은 산업에서도, Blackwell이 이러한 고려 사항을 사후 보완이 아닌 핵심 기능으로 내장한 설계라는 점을 높이 평가할 것이다.
NVIDIA 블랙웰 vs 경쟁 제품: MI300, TPU, 커스텀 실리콘
블랙웰의 인상적인 사양을 고려하면, 하이엔드 AI 가속기 분야에서 경쟁 제품들과 간단히 비교해 볼 만하다. 이 영역에는 다른 GPU 제조사(예: AMD), 특화된 AI 칩(Google TPU, AWS Trainium), 그리고 하이퍼스케일러의 커스텀 실리콘이 포함된다.
- AMD Instinct MI300 시리즈 – AMD가 Hopper/Blackwell에 맞서 내놓은 해답은 MI300 패밀리로, AI 최적화 GPU인 MI300X를 포함한다. Blackwell과 마찬가지로 MI300X는 멀티 다이 접근 방식을 사용하며, 대규모 모델을 겨냥해 방대한 메모리를 탑재한다(AMD는 MI300X에 192 GB HBM3를 발표했으며, 이는 Blackwell의 192 GB와 동일하다). MI300은 EPYC CPU와 GPU 다이를 하나의 패키지에 결합한 APU 변형(MI300A)도 제공하는데, 개념적으로 NVIDIA의 Grace 슈퍼칩 접근법과 유사하다. Blackwell이 앞설 가능성이 큰 영역은 순수 연산 밀도와 정밀도 유연성으로, AMD가 FP8 지원을 언급하긴 했지만 FP4는 현재 NVIDIA만의 고유 기능이다. 2개의 다이를 결합한 Blackwell의 완전한 단일 GPU 설계와 2080억 트랜지스터는 한계를 끌어올리는 반면, MI300X의 설계(여러 칩렛을 사용하는 MCM)는 동일한 방식으로 단일 통합 GPU처럼 동작하지 않을 수 있다. 성능 측면에서 MI300X는 AMD의 MI250 대비 큰 향상이 기대되지만, NVIDIA의 공격적인 주장(예: H100 대비 추론 30배)은 매우 높은 기준을 제시한다. 한 분석에 따르면, NVIDIA는 “AMD의 MI300X와 Intel의 Gaudi”, 그리고 하이퍼스케일러의 자체 칩과의 경쟁 때문에 Blackwell 가격을 Hopper 때만큼 급격히 올리지 않았으며, 이는 경쟁사의 TCO 주장을 약화시키려는 의도가 담긴 것으로 보인다. 실제로 엔터프라이즈는 대안을 모색할 경우 MI300을 검토하겠지만, NVIDIA의 소프트웨어 생태계(CUDA, AI 라이브러리)와 성숙한 스택의 압도적 완성도는 여전히 큰 강점으로 남아 있다.
- Google TPU(v4/v5) – Google의 TPU는 내부에서 대규모 AI 프로젝트(PaLM, Bard 등)를 다수 구동해 왔다. H100과 비슷한 시기의 TPUv4는 BF16/INT8 성능이 강력했지만, 고정밀 연산 지원과 디바이스당 메모리 용량은 상대적으로 제한적이었다. Google은 2023–2024년에 더 높은 성능의 TPUv5를 운영 중일 가능성이 크지만, 공개된 세부 정보는 제한적이다. Google의 전략이 자사 클라우드와 연구를 위한 커스텀 실리콘에 초점을 두고 있음은 분명하다. 다만 기업 전반에서 TPU는 Google Cloud를 통해서만 접근 가능하며 TensorFlow나 JAX 사용이 요구된다. 반면 NVIDIA Blackwell은 더 널리 제공되고, 범용 프레임워크로 프로그래밍이 가능하므로, 많은 고객이 GPU의 유연성을 선호하는 추세를 이어 간다는 점에서 TPU와 “경쟁”한다고 할 수 있다. 또한 Google의 최신 TPU도 저정밀 모드를 시도할 가능성이 있다. Blackwell이 4비트를 도입함에 따라 다른 업체들도 뒤따를 수 있다. TPU 시스템이 LLM에서 Blackwell 팟의 성능에 필적할 수 있을지 지켜보는 것이 흥미로울 것이며, Google은 이를 위해 자사 소프트웨어 최적화를 극대화할 것이다.
- AWS Trainium / Inferentia, Intel Gaudi 등 – 여러 업체가 학습 또는 추론에 특화된 AI 칩을 보유하고 있다. AWS의 Trainium(학습)과 Inferentia(추론) 칩은 AWS Cloud에서 특정 모델에 대해 비용 효율적인 성능을 제공한다. Intel의 Gaudi2(및 곧 출시될 Gaudi3)는 저렴한 가격대에서 ResNet과 일부 트랜스포머에서 준수한 성능을 보인 GPU 대안이다. 그러나 이들 어느 것도 Blackwell과 같은 압도적인 규모나 메모리를 갖추지 못했다. 대체로 수십 GB 수준의 더 작은 메모리에 의존하며, 초고도 규모의 모델 크기에서의 동작을 입증하지 못했다. NVIDIA가 Blackwell로 내딛은 행보는, 경쟁사가 최전선 AI 모델에서 관련성을 유지하려면 멀티 다이와 대용량 메모리 설계를 고려할 수밖에 없도록 사실상 압박한다. 풍부한 H100 배포도는 Blackwell이 이미 NVIDIA가 소프트웨어 지배력을 갖춘 시장에 진입함을 의미한다. 경쟁사는 하드웨어를 맞추는 것뿐 아니라 통합과 개발자 생태계까지 갖춰야 한다. NVIDIA가 Blackwell에 대해 “공격적이면서도 어쩌면 우호적인 가격” 전략을 취하는 것은, 도전자가 발판을 마련하기 전에 고객을 선점하려는 의도를 시사한다. 요약하면 AMD의 MI300 등 경쟁 제품이 특정 영역에서 분명 승리를 노리겠지만, Blackwell B200은 2025년 완전 출시 시 가속기당 범용 AI 처리량 최고 성능의 왕좌를 차지할 것으로 보인다.
초기 도입: CoreWeave의 Grace-Blackwell 클라우드와 그 이후
Blackwell의 잠재력을 고려하면, 선도적인 AI 인프라 제공업체들이 앞다투어 이를 가장 먼저 도입하려 한 것은 놀라운 일이 아니다. GPU 컴퓨트에 특화된 클라우드 제공업체인 CoreWeave는 NVIDIA Blackwell을 최초로 일반 제공한 클라우드 서비스 제공업체가 되며 의미 있는 이정표를 세웠다. 2025년 2월, CoreWeave는 자사 플랫폼에서 GB200 NVL72 기반 인스턴스를 출시해, 기업 누구나 클라우드에서 Grace-Blackwell Superchip과 NVLink 72-GPU 아키텍처를 사용할 수 있도록 했다.
CoreWeave는 완전한 NVLink와 Quantum-2 InfiniBand를 통합한 72‑GPU Blackwell 클러스터(단일 랙)를 구축하고, 사용을 쉽게 하는 도구와 함께 자사 클라우드에 공개했다. 발표에서 CoreWeave는 이를 “또 하나의 퍼스트 투 마켓 이정표”라고 강조하며, 세계 최고 수준의 AI 인프라를 제공해 조직이 가장 복잡한 AI 모델을 최대 30배 더 빠르게 학습, 배포, 확장하도록 돕는다고 밝혔다. 또한 단일 GB200 NVL72 인스턴스가 랙당 1.4 엑사FLOPS의 AI 연산 성능을 제공해, 최대 규모의 워크로드를 가능하게 한다고 강조한다. 수조 개 파라미터 모델에서 학습 4배, 실시간 추론 30배 가속 이전 세대(H100)와 비교했을 때. 요컨대, CoreWeave는 온디맨드 방식으로 제공하고 있다 AI 슈퍼컴퓨터이는 물리적 클러스터를 직접 운영하지 않고도 최첨단 성능을 원하는 스타트업과 연구 그룹에게 특히 매력적이다.
이들 인스턴스를 최적화하기 위해 CoreWeave는 자사 Kubernetes 기반 스케줄러와 통합했다. 멀티 GPU 작업이 동일한 72‑GPU 랙 내에 지능적으로 배치되도록 NVLink 토폴로지 정보를 노출해 최대 대역폭을 확보한다. 또한 필요 시 여러 랙에 걸쳐 워크로드를 분산할 수 있도록 커스텀 토폴로지 플러그인이 포함된 Slurm on Kubernetes를 활용해, 작업이 수백 개 GPU까지 효율적으로 확장되도록 보장한다. CoreWeave의 관측 도구는 NVLink 성능, GPU 활용률 등 지표를 실시간으로 제공해 사용자가 분산 학습 실행을 미세 조정할 수 있게 한다. 이러한 세부사항은 클라우드 제공업체가 Blackwell의 역량을 완전히 끌어내기 위해 소프트웨어 스택을 어떻게 맞춤화하고 있는지를 보여준다. 단순히 GPU를 꽂아 쓰는 수준이 아니라, AI 지향 클라우드 서비스의 일부로 제공되는 것이다.
CoreWeave의 최고전략책임자(CSO)인 Brian Venturo는 “이번 출시는 기업이 대규모 효율성을 유지하면서 혁신을 가속할 수 있게 해 주는 전력 승수와도 같다. Kubernetes, Slurm, 관측 도구 등 CoreWeave의 서비스 포트폴리오는 최첨단 하드웨어에서 고객이 AI 워크로드를 더 쉽게 실행하고 확장하도록 설계되었다”라고 말했다. 이는 단순히 하드웨어만 보유해서는 충분하지 않으며, 그 주변에 적합한 클라우드 인프라가 필요하다는 점을 강조한다. CoreWeave는 본질적으로 Blackwell을 사용자 친화적으로 패키징하여, 엔터프라이즈가 대규모 클러스터를 시간 단위로 임대하고 자본 지출 없이 AI 프로젝트를 가속할 수 있도록 하고 있다.
💡
주목할 점은, CoreWeave가 일반 제공 이전부터 NVIDIA 및 주요 고객들과 긴밀히 협력해 왔다는 것이다. 이들은 지난해 GPT‑3 고속 학습을 위해 H200(Hopper) GPU를 가장 먼저 제공한 업체 중 하나였고, 2024년 말에는 GB200 시스템 시연에도 선도적으로 나섰다. 또한 IBM Research에 Grace‑Blackwell 슈퍼컴퓨터를 제공해 IBM의 차세대 Granite 기반 모델 학습을 지원하겠다고 발표하기도 했다. IBM 측은 CoreWeave와의 최첨단 컴퓨팅 협력(IBM 자체 Spectrum Scale 스토리지와 함께)이 자사의 하이브리드 클라우드 AI 전략을 진전시킬 것이라고 밝혔다. 이러한 초기 협업은 Blackwell이 어떻게 활용될지에 대한 단서를 제공한다. 즉, IBM의 Granite LLM과 같은 최첨단 모델 학습에 쓰일 것이라는 점이다. 메타의 라마, OpenAI의 향후 GPT 버전 등), 그리고 빠르고 확장 가능한 인프라가 필요한 AI 제품의 추론 지원까지.
다른 클라우드 및 하이퍼스케일 업체들도 크게 뒤처져 있지 않다. Microsoft Azure는 전 세계 데이터센터에 GB200 기반 AI 인프라를 배포할 계획을 밝히며, 내부 사용(예: OpenAI, Bing AI)과 외부 Azure 고객 모두를 겨냥하는 것으로 보인다. Google Cloud는 TPU를 보유하고 있지만, 해당 생태계를 선호하는 고객을 위해 NVIDIA Blackwell도 제공할 가능성이 있다. Google DeepMind의 CEO는 과학적 돌파구를 위한 Blackwell의 잠재력을 명확히 인정했다. Amazon의 AWS는 앞서 언급했듯이 NVIDIA와 함께 Grace‑Blackwell 슈퍼칩을 AWS의 네트워킹 스택과 통합한 맞춤형 솔루션(Project Ceiba)을 공동 개발했다. AWS가 자체 실리콘을 보유하고 있음에도, 이 파트너십은 특정 최첨단 워크로드에 대해 NVIDIA의 최상위 기술을 중시한다는 점을 보여준다.
요약하면, Blackwell의 1차 도입 물결은 클라우드 제공업체와 AI의 한계를 밀어붙이는 일부 대규모 사용자들을 통해 진행되고 있다. 이들은 다음과 같이 보고하고 있다 믿기 어려운 결과: 이전 세대 GPU 대비 LLM 추론 속도 최대 30배 향상, 추론당 비용과 에너지 25배 절감, 초대형 모델 학습 속도 4배 향상. 지난 2년간 AI 모델 규모가 폭발적으로 커진 가운데, 기업과 연구자가 기다려 온 바로 그 개선이다. 2025년 중반이면, 더 유창한 챗봇부터 고도화된 추천 엔진에 이르기까지 우리가 접하는 새로운 AI 서비스 다수가 Blackwell GPU로 구동될 것으로 보인다. CoreWeave, AWS, Azure 등 이 아키텍처를 신속히 도입한 업체들이 대규모로 이를 제공할 것이다.
결론: 차세대 AI 컴퓨팅의 개척者
NVIDIA Blackwell GPU 아키텍처는 생성형 AI 시대를 넘어서는 가속 컴퓨팅의 중대한 전환점을 이룬다. 레티클 한계를 돌파한 혁신적인 듀얼 다이 설계에 대용량 메모리, 저정밀 연산, 초고속 연결을 결합해, Blackwell GPU는 전례 없는 규모의 AI 모델을 학습하고 배포하는 데 필요한 성능을 제공한다. 2,080억 트랜지스터에 달하는 연산력과 FP4 정밀도, NVLink 스위치 네트워킹 같은 정교한 엔지니어링은 실제 성과로 이어져, 클러스터 수준 학습 처리량을 4배 끌어올리고, 가장 큰 LLM의 추론 성능을 30배까지 비약적으로 향상시키며, 에너지 효율도 한 차원 높인다.
엔터프라이즈 IT 리더에게 Blackwell은 이전 하드웨어의 막대한 비용과 지연 없이 AI 이니셔티브를 확장할 수 있는 경로를 제공한다. 과거에는 전체 GPU 서버 팜이 필요하던 작업이, Grace‑Blackwell 슈퍼칩의 통합 메모리와 연산 성능 덕분에 단일 Blackwell 랙, 나아가 단일 노드로도 수행될 수 있다. 강력한 RAS와 보안 기능의 도입은 가동 중단 허용 불가와 데이터 프라이버시가 필수인 프로덕션 워크로드에 이 GPU들이 즉시 투입 가능함을 의미한다. 고객 지원 봇부터 의료 영상 보조까지 AI 모델이 제품과 서비스 전반에 스며드는 상황에서, 빠르고 신뢰할 수 있는 인프라를 갖추는 것이 핵심이며, Blackwell은 이 두 가지를 모두 충족한다.
AI 연구자들도 강력한 도구를 손에 넣었다. 10조 파라미터 모델 탐색, 대규모 Mixture‑of‑Experts 네트워크 실행, AI 기반 과학 시뮬레이션 등 계산 한계에 막혀 있던 아이디어들이 이제 훨씬 실현 가능해졌다. AI 커뮤니티의 기대감은 이해관계자들의 반응에서 분명히 드러난다. OpenAI의 CEO 샘 올트먼은 “Blackwell은 엄청난 성능 도약을 제공하며, 최첨단 모델을 더 빠르게 제공할 수 있는 우리의 역량을 가속화할 것”이라고 말했다. NVIDIA의 Ian Buck(하이퍼스케일 및 HPC 부문 부사장)도 이렇게 정리했다. “추론과 학습의 스케일링은 가장 큰 과제 중 하나입니다… NVIDIA는 CoreWeave와 협력해 NVIDIA GB200 Grace Blackwell Superchip으로 빠르고 효율적인 생성형 및 에이전틱 AI를 구현함으로써, 모든 규모의 조직이 AI의 한계를 넓혀 갈 수 있도록 지원하고 있습니다.”
AI 칩 분야의 경쟁이 치열해지고 있지만, NVIDIA는 Blackwell의 성능, 소프트웨어 지원, 그리고 클라우드 파트너를 통한 빠른 가용성을 결합해 높은 기준을 세웠다. AMD의 MI300, Google의 TPU, 그리고 기타 경쟁자들이 추가 혁신을 견인하겠지만, 현재로서는 엔터프라이즈 AI 가속화에서 NVIDIA Blackwell B200 GPU가 넘어야 할 최첨단 플랫폼으로 자리하고 있다.
향후 몇 년 동안 우리는 실시간 LLM 기반 도우미와 창의적 생성형 앱부터 고급 분석 플랫폼, 빠른 엣지 AI 추론에 의존하는 자율형 기계에 이르기까지 거의 모든 분야에서 Blackwell GPU가 기반이 되는 모습을 보게 될 가능성이 크다. 속도와 효율의 도약을 제공하는 Blackwell은 단순한 점진적 업데이트가 아니라, 차세대 AI 혁신과 비즈니스 애플리케이션을 가능하게 하는 토대 기술이다. AI 인프라 전략을 수립하는 IT 리더에게는, 온프레미스 HGX 시스템이든 클라우드 인스턴스든 Blackwell GPU를 혁신과 ROI를 동시에 견인하는 촉매로서 반드시 고려해야 한다. 요약하면, NVIDIA Blackwell은 대규모 AI의 실현 가능성을 크게 높여 산업 전반의 새로운 가능성을 열고, AI 컴퓨팅 혁명의 최전선에서 NVIDIA의 위치를 공고히 하는 전환점을 의미한다.
출처
Add a comment
Azure
Reply
