AI 슈퍼컴퓨팅
AI 슈퍼컴퓨팅이란?
AI 슈퍼컴퓨팅은 조직이 수십만 개의 강력한 머신으로 구성된 초고속 프로세서를 사용하여 AI(인공 지능) 모델을 통해 방대한 양의 데이터를 관리하고 해석하는 것을 의미합니다.
AI 슈퍼컴퓨터의 작동 원리
AI 슈퍼컴퓨터는 일반적으로 수십만 개의 프로세서, 전문 네트워크, 엄청난 양의 스토리지로 구성되어 정교하게 튜닝된 하드웨어로 이루어집니다.
슈퍼컴퓨터는 워크로드를 여러 프로세서로 나누어 각 프로세서가 작업의 작은 부분을 담당하게 합니다. 개별 프로세서는 해당 업무 부분을 수행하면서 서로 통신을 하며 매우 빈번하게 통신하는 경우도 많습니다. 각 프로세서는 통신 그리드를 통해 메시지를 전송하여 문제에 따라 위, 아래, 왼쪽, 오른쪽, 앞뒤로 정보가 여러 차원으로 교환됩니다. 이 다차원적 프로세스는 워크로드를 서로 더 잘 튜닝하여 더 향상된 처리 속도를 지원합니다.
놀랍게도 AI 슈퍼컴퓨터는 Linux 소프트웨어를 사용하여 애플리케이션, 네트워크, 일정 예약을 실행하는 매우 일반적인 운영 체제를 실행합니다. 실행되는 분석 프로그램은 일반적으로 C 또는 Fortran으로 작성되며 MPI라는 통신 라이브러리를 통해 메시지를 전달합니다. 이 라이브러리는 여러 시스템에서 사용할 수 있습니다.
더 작은 회로를 회로 기판에 밀집해서 집적시키면 AI 슈퍼컴퓨터가 더 빨리 작동할 수 있지만 온도가 더 높아집니다. 그 이유는 칩에 충분한 전력을 공급하는 것이 아직은 효율적이지 않아 칩이 매우 뜨거워지기 때문입니다. 하지만 이러한 멀티 코어 노드가 수십만 개나 있기 때문에 슈퍼컴퓨터는 엄청난 냉각이 필요합니다. 이를 완화하기 위해 회로는 구리선으로 만들어졌는데, 구리선은 매우 높은 전력 밀도로 에너지를 전달할 수 있기 때문입니다. 또한 슈퍼컴퓨터는 강제 공기를 사용하여 열을 발산하고 냉매를 전체 시스템에 순환시킵니다.
AI 슈퍼컴퓨팅이 분석 워크로드를 관리하는 방법
AI 슈퍼컴퓨터가 복잡한 분석 워크로드를 관리할 수 있는 데에는 여러 가지 이유가 있습니다.
노드
AI 슈퍼컴퓨터는 여러 개의 CPU를 탑재해 매우 빠른 계산 속도를 구현합니다. 해당 CPU 또는 노드 내에는 작업을 수행하는 코어가 10~12개 있습니다. 슈퍼컴퓨터는 종종 아키텍처 내에 수천 개의 노드를 클러스터링하므로 1천 개당 12,000개의 코어가 작동한다는 의미입니다. 따라서 단일 슈퍼컴퓨터에 노드가 1,000개만 있어도 작업 성능은 초당 사이클이 수조 회에 달합니다.
회로
또한 이러한 컴퓨터의 회로 기판에는 기존 컴퓨터의 회로 기판보다 더 많은 전력을 실장할 수 있도록 매우 작은 전선 연결부가 있습니다. 이 두 가지 발전으로 복잡한 산술 및 논리 연산을 순차적으로 해석하고 실행할 수 있게 되었습니다.
처리
슈퍼컴퓨터는 다중 워크로드를 동시에 실행할 수 있도록 병렬 처리를 사용합니다. 특히 수천 개의 작업이 동시에 처리되기에 밀리초 만에 작업이 완료됩니다. AI 슈퍼컴퓨터를 통해 업계에서 크기, 성능, 정확도가 개선된 모델의 교육이 가능합니다. 또한 정밀도가 강화되어 팀에서 더 빠르게 정보를 분석하고, 학습한 주요 내용을 처리하고, 더 많은 소스를 활용하고, 더 많은 시나리오를 테스트할 수 있어 산업의 발전을 촉진합니다.
HPE와 AI 슈퍼컴퓨팅
HPE는 광범위한 워크로드와 규모 요건을 관리하는 데 도움이 되는 HPC/AI 솔루션을 제공합니다. HPE의 솔루션은 HPC/AI 워크로드를 위한 포괄적인 모듈식 소프트웨어 포트폴리오의 일부로, 고성능 CPU 및 GPU 지원에 필요한 집적도와 안정성을 갖추고 있으며 HPC/AI 애플리케이션과 대규모 성능에 최적화되어 있습니다.
또한 HPE는 모든 규모의 배포에 완벽하게 통합되고 고집적 플랫폼을 위한 고급 냉각 옵션이 내장된 대규모 배포를 위해 설계된 HPC 하드웨어를 제공합니다.
HPE Cray 슈퍼컴퓨터는 슈퍼컴퓨팅에 대한 완전히 새로운 접근 방식으로, 혁신적인 역량을 지원합니다. 이 슈퍼컴퓨터는 수만 개에서 수십만 개의 노드에 최적의 솔루션을 제공하기 위해 다양한 인프라를 기반으로 설계되었습니다. 고집적 8방향 GPU 서버는 일관적이고 예측 가능하며 안정적인 성능을 제공하여 대규모 워크플로에서 높은 생산성을 보장합니다. Slingshot 상호 연결과 Cray Software는 포괄적인 시스템 관리를 위한 HPE Performance Cluster Manager와 함께 클라우드와 같은 사용자 경험을 제공합니다.
또한 HPE는 가속 컴퓨팅을 위한 업계 최고의 엔터프라이즈 플랫폼을 제공합니다. HPE Apollo 6500 Gen10 Plus 시스템은 NVIDIA 및 AMD 가속기의 전례 없는 성능으로 GPU 집약적 워크로드에 뛰어난 가격 대비 성능을 제공합니다. HPC 워크로드에 일반적인 딥 러닝과 복잡한 시뮬레이션 및 모델링을 위한 광범위한 CPU:가속기 비율, 워크로드, 가속기를 지원하는 유연성을 갖추고 있습니다. 서비스형 및 하이브리드 HPC로 제공되어 유연한 배포(온프레미스, 오프프레미스, 하이브리드)가 가능합니다.
HPC를 온프레미스에서 실행하든 하이브리드 클라우드에서 실행하든 HPE GreenLake를 통해 제공되는 HPE Pointnext Services는 HPC IT의 성능을 최상으로 유지하는 데 도움이 됩니다. 상주 엔지니어의 안내와 HPE 소프트웨어 및 하드웨어에 대한 맞춤 지원을 통해 AI 전략의 설계 및 배포 속도를 높이고 HPC 투자를 극대화할 수 있습니다.