상단영역

본문영역

메타, 엔디비아 24000개 CPU 탑재 "AI 중심" 데이터센터 공개

  • Editor. 송민경 기자
  • 입력 2024.03.16 08:50
  • 수정 2024.03.29 11:40
  • 댓글 0
이 기사를 공유합니다
(사진=메타)
(사진=메타)

[디지털비즈온 송민경 기자] 메타(Meta)는 라마 3(Llama 3) 대규모 언어 AI 모델을 훈련하는 데 사용하는 두 개의 새로운 24,000개 CPU 데이터센터 규모 클러스터를 구성하는 하드웨어, 네트워크, 스토리지, 디자인, 성능 및 소프트웨어의 세부 정보를 공유했다.

새로운 훈련 클러스터는 2022년에 공개된 Meta의 AI Research SuperCluster(RSC)를 기반으로 진행된다.

콜드 스토리지, 메타 데이터 센터 자연어 처리, 음성 인식 및 이미지 생성과 같은 분야에서 AI 연구 및 개발을 지원하기 위해 개발된 새로 발표된 클러스터에는 모두 24,576개의 엔비디아 텐서 코어 H100 GPU(Nvidia Tensor Core H100 GPU)가 포함되어 있다. 이는 16,000개의 엔비디아A100 GPU가 포함된 원래 클러스터에 비해 크게 증가한 것이다.

메타는 이번 증가로 클러스터가 RSC보다 더 크고 복잡한 모델을 지원할 수 있게 돼 생성형 AI 제품 개발의 발전을 위한 길을 열었다고 밝혔다.

엔비디아는 2024년 말까지 약 600,000대의 H100에 해당하는 컴퓨팅 성능을 갖춘 포트폴리오의 일부로 350,000대의 엔비디아 H100을 포함하도록 인프라 구축을 확장하는 것을 목표로 하고 있다.

GPU 수는 동일하지만 두 클러스터는 네트워크 인프라에 차이가 있다. 두 솔루션 모두 400Gbps 엔드포인트를 상호 연결하지만, 메타는 Wedge400 및 Minipack2 OCP 랙 스위치가 장착된 Arista 7800을 기반으로 RDCE(Converged Ethernet) 네트워크 패브릭 솔루션을 구축했다. 다른 클러스터는 Nvidia Quantum2 InfiniBand 패브릭을 갖추고 있다.

또한 두 클러스터 모두 메타의 사내 개방형 GPU 하드웨어 플랫폼인 그랜드 테톤(Grand Teton)을 사용하여 대용량 AI 워크로드를 지원한다. Zion-EX 플랫폼의 후속 제품으로, 이전 버전과 비교했을 때 4배의 호스트-GPU 대역폭, 2배의 컴퓨팅 및 데이터 네트워크 대역폭, 2배의 전력 엔벨로프를 포함한다.

클러스터는 Grand Teton과 같은 솔루션을 지원하고 데이터 센터 환경에서 더 큰 유연성을 제공하도록 특별히 설계된 Meta의 Open Rack 전원 및 랙 아키텍처를 사용하여 개발되었다.

이 회사의 Open Rack v3 하드웨어는 전원 선반을 버스바에 볼트로 고정하는 대신 랙의 어느 곳에나 설치할 수 있는 아키텍처 솔루션을 제공하여 유연한 랙 구성을 가능하게 만들었다.

Meta는 이러한 새로운 클러스터의 경우 서버당 처리량 용량, 랙 수 감소 및 관련 전력 효율성의 올바른 균형을 허용하도록 랙당 서버 수를 맞춤화했다고 밝혔다.

저장을 위해 이 클러스터들은 메타의 '텍토닉(Tectonic)' 분산 저장 솔루션 버전에 의해 지원되는 사용자공간 API의 리눅스 파일 시스템을 사용한다. 이 회사는 또한 병렬 네트워크 파일 시스템(NFS)을 공동으로 개발하기 위해 해머스페이스와 파트너 관계를 맺었다.

두 클러스터 모두 최신 대용량 E1.S SSD를 탑재한 YV3 시에라 포인트 서버 플랫폼을 기반으로 한다. 최적의 네트워크 활용은 네트워크 토폴로지, 네트워킹 라우팅 및 표준 통신 루틴 라이브러리인 NCCL(Nvidia Collective Communications Library)의 변경을 통해 이루어졌으며 Nvidia GPU 및 네트워킹에 최적화되었다.

메타는 수십만 개의 GPU 훈련에 대비하기 위해 파이토치(PyTorch) 기본 AI 프레임워크를 지속적으로 발전시키고 있다고 전했다.

기술 프로그램 관리자인 케빈 리(Kevin Lee)는 블로그 게시물을 통해  회사는 AI 소프트웨어와 하드웨어의 개방형 혁신에 대한 약속을 유지하고 있으며 "AI 개발에 투명성, 정밀 조사 및 신뢰를 가져오고 안전과 책임을 최우선으로 하여 구축된 모든 사람이 혜택을 받을 수 있는 혁신으로 이어지는 개방형 생태계를 구축하기 위한 노력의 일환으로 AI Alliance를 시작했다고 말했다.

관련기사

저작권자 © 디지털비즈온 무단전재 및 재배포 금지

개의 댓글

0 / 400
댓글 정렬
BEST댓글
BEST 댓글 답글과 추천수를 합산하여 자동으로 노출됩니다.
댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글수정
댓글 수정은 작성 후 1분내에만 가능합니다.
/ 400

내 댓글 모음

하단영역