엔비디아 GPU 수 천개 투입한 오라클··· AI 에이전트·추론 모델 개발 가속

featured-image

오라클이 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI) 환경에 차세대 AI 에이전트 및 추론 모델 개발·운영을 위한 수천 개의 엔비디아 GPU를 배치했다. 이번 배치는 OCI 데이터센터에 액체 냉각 방식의 엔비디아 GB200 NVL72 랙을 도입한 첫 사례다. 이 랙은 총 36개의 Arm 기반 엔비디아 그레이스(Grace) CPU와 각각 2개의 블랙웰(Blackwell) GPU가 결합된 형태로 구성되며, 고속 연결 기술인 NVLink로 통합된다. 단일 GB200 NVL72는 1엑사플롭(exaflop)을 넘는 AI 학습 성능을 제공한다.오라클은 향후 10만 개 이상의 블랙웰 GPU로 구성된 ‘OCI 슈퍼클러스터(Supercluster)’를 구축할 계획이다. 하드웨어 외에도 양사는 통합 소프트웨어 및 데이터베이스 스택을 함께 제공하고 있다.앞서 오라클은 기존 호퍼(Hopper) GPU 기술을 활용해 6만 5,536개의 엔비디아 H200 GPU를 사용한 슈퍼클러스터를 구성한 바 있으며, 해당 시스템은 최대 260엑사플롭(FP8 기준)의 연산 성능을 낼 수 있다.엔비디아 공식 블로그에 따르면, 이번 블랙웰 GPU는 오라클의 퍼블릭 클라우드, 정부 전용 클라우드, 주권 클라우드는 물론 고객사의 자체 데이터센터에서도 사용할 수 있도록 OCI 디디케이티드 리전(Dedicated Region)과 알로이(Alloy)를 통해 제공된다.오라클은 이로써 GB200 NVL72 시스템을 제공하는 클라우드 사업자 명단에 합류했다. 현재 구글, 코어위브(CoreWeave), 람다(Lambda)가 해당 시스템을 도입했으며, 마이크로소프트도 GB200 GPU를 제공 중이다. 다만 마이크로소프트는 NVL72 구성은 채택하지 않았다.NVL72는 시스템 소프트웨어 관점에서 72개의 개별 GPU가 아닌 하나의 통합된 실리콘처럼 동작한다는 점에서 독특한 구조를 갖고 있다. 모든 CPU와 GPU가 단일 메모리 공간을 공유하는 구조 덕분이다.오라클에 따르면, 일반적으로 GPU 클러스터는 8개 이상 규모로 확장하는 데 한계가 있지만, NVL72는 엔비디아의 5세대 NVLink 기술을 활용해 GPU 간 연결 대역폭을 최대 130TB/s까지 확장했다. 이를 통해 대규모 AI 모델 학습에 필요한 데이터 공유 및 동기화를 빠르게 처리할 수 있다[email protected]

오라클이 오라클 클라우드 인프라스트럭처(Oracle Cloud Infrastructure, OCI) 환경에 차세대 AI 에이전트 및 추론 모델 개발·운영을 위한 수천 개의 엔비디아 GPU를 배치했다. 이번 배치는 OCI 데이터센터에 액체 냉각 방식의 엔비디아 GB200 NVL72 랙을 도입한 첫 사례다. 이 랙은 총 36개의 Arm 기반 엔비디아 그레이스(Grace) CPU와 각각 2개의 블랙웰(Blackwell) GPU가 결합된 형태로 구성되며, 고속 연결 기술인 NVLink로 통합된다.

단일 GB200 NVL72는 1엑사플롭(exaflop)을 넘는 AI 학습 성능을 제공한다. 오라클은 향후 10만 개 이상의 블랙웰 GPU로 구성된 ‘OCI 슈퍼클러스터(Supercluster)’를 구축할 계획이다. 하드웨어 외에도 양사는 통합 소프트웨어 및 데이터베이스 스택을 함께 제공하고 있다.



앞서 오라클은 기존 호퍼(Hopper) GPU 기술을 활용해 6만 5,536개의 엔비디아 H200 GPU를 사용한 슈퍼클러스터를 구성한 바 있으며, 해당 시스템은 최대 260엑사플롭(FP8 기준)의 연산 성능을 낼 수 있다. 엔비디아 , 이번 블랙웰 GPU는 오라클의 퍼블릭 클라우드, 정부 전용 클라우드, 주권 클라우드는 물론 고객사의 자체 데이터센터에서도 사용할 수 있도록 OCI 디디케이티드 리전(Dedicated Region)과 알로이(Alloy)를 통해 제공된다. 오라클은 이로써 GB200 NVL72 시스템을 제공하는 클라우드 사업자 명단에 합류했다.

현재 구글, 코어위브(CoreWeave), 람다(Lambda)가 해당 시스템을 도입했으며, 마이크로소프트도 GB200 GPU를 제공 중이다. 다만 마이크로소프트는 NVL72 구성은 채택하지 않았다. NVL72는 시스템 소프트웨어 관점에서 72개의 개별 GPU가 아닌 하나의 통합된 실리콘처럼 동작한다는 점에서 독특한 구조를 갖고 있다.

모든 CPU와 GPU가 단일 메모리 공간을 공유하는 구조 덕분이다. 오라클에 따르면, 일반적으로 GPU 클러스터는 8개 이상 규모로 확장하는 데 한계가 있지만, NVL72는 엔비디아의 5세대 NVLink 기술을 활용해 GPU 간 연결 대역폭을 최대 130TB/s까지 확장했다. 이를 통해 대규모 AI 모델 학습에 필요한 데이터 공유 및 동기화를 빠르게 처리할 수 있다.

[email protected].