PBS Works

6 years ago 5 min read

PBS 웍스(PBS Works)는 컴퓨팅 파워가 지속적으로 증가하는 고성능 컴퓨팅(HPC) 시대를 선도하는 주문형 그리드 컴퓨팅 기술로서, 효율적으로 고성능 컴퓨터에 대한 작업을 관리해주는 워크로드 매니저입니다. 미국항공우주국(NASA)에서 만들고, 알테어가 개발헀습니다. 현재 NASA는 물론 기상청 등 세계 유수의 HPC의 대부분이 PBS 웍스를 사용하고 있다.

HPC시스템을 활용하고 있는 기업과 연구소의 업무환경을 최적화 하기 위해서는 많은 고려사항이 있습니다. HPC 시스템 구축 시, 기본적인 성능을 결정하는 것으로는 CPU의 계산속도, 메모리 보유량, 버스속도 그리고 인터커낵션을 위한 네트워크 장비 등과 같은 많은 요소들이 존재합니다. 하지만 작업관리 솔루션을 통해서 구축된 HPC 시스템의 효율성을 높이는 것 또한 HPC시스템의 성능향상에 버금가는 중요한 포인트라고 할수 있습니다. 이러한 점에서 사용자들이 요청한 작업들의 워크로드를 관리하는 PBS Works 솔루션은 다양한 작업배분(Dispatch)를 통한 사용자 실행환경 최적화, HPC시스템 자원관리 (HPC Resource Management)을 통해 HPC 시스템의 효율성을 증대 시키며 정확한 사용이력 분석 데이터(Analytics)를 제공하므로써 향 후 시스템 확장 계획에 가이드라인을 제시합니다.

개요

HPC 클러스터를 도입하므로써 기대할 수 있는 일반적인 효과는 대형 해석과제를 HPC시스템과 병렬계산법을 활용하여 빠른 시간 내에 검증할 수 있다는 것입니다.이러한 HPC시스템을 다수의 사용자가 효율적으로 관리하고 사용하기 위해서는 고려해야 할 많은 요소들이 있지만 사용자가 요청한 계산작업을 관리하는 미들웨어인 작업스케줄러(Workload Manager)도 필수적인 요소 중에 하나로 고려되고 있습니다. 작업스케줄러 도입관점에서 고성능의 HPC시스템을 많은 사용자들이 원활하게 공유하고 사용하기 위한 사용자 실행환경 최적화 작업이 중요한 포인트가 될 수 있습니다. 다시 말하면 다양한 해석업무의 특징을 파악하고 그에 적합한 관리 정책이 수반되어야 합니다. 예를들어, 파견 및 부서이동, 신규 프로젝트 수행등과 같은 경우라도 개인의 연구 작업환경을 그대로 유지하고 동일한 작업환경을 제공해야 합니다. 일반적인 경우, 사용자의 다양한 요구사항을 1회 유지관리 작업을 통하여 모든사용자들에게 일괄 적용되어야 하며 또한 사용자들에게는 사용하기 쉬운 사용자 실행 환경을 제공해야 합니다. HPC시스템의 효율적인 활용을 위한 필수 항목 중 시스템의 자원에 대한 세부적인 정보를 인식하고 관리하는 HPC자원관리 (Resource Management) 기능이 있습니다. 작업스케줄러는 하드웨어 자원(CPU, Memory, Disk)뿐 아니라 소프트웨어의 라이선스 및 네트워크 토폴로지 정보와 같은 세부자원들을 관리 하므로써 실행이 요구되는 해석작업의 특성에 맞추어 최적의 계산자원에 작업을 배분(Disfetch)하고 그 결과를 보장 해야합니다.

특징

실시간 모니터링, 사용자 제한등 HPC 활용을 위한 사용자/관리자 편의성 제공
100,000 코어까지 단일 클러스터로 관리 가능한 확장성 제공
개방형 API의 무료 배포로 인한개방성 제공
이중화 구조로 장애 시 자동 전환 및 복구의안정성 제공

기대효과

비용 절감,효율성 극대화

Green Provisioning : 미사용 장비의 파워를 자동 Off/On
Shrink to Fit Jobs : 미사용 자원을 최대한 활용
보유 자원을 고려한 Smart Scheduling : CPUs, GPUs, License Priority, Network Topology, Memory, Disk 단위의 스케줄링 가능

검증된 확장성과 안정성

대규모 사용 고객 보유 및 상용스케줄러 시장점유율 1위
미 국방성 (130,000 Cores, 10년 간 1,000,000코어 장기 공급 계약)
NASA (+120,000 Cores, +1,000 Users)
기상청 (+100,000 Cores, 국내 최대)
현대자동차 (+20,000 Cores, 국내 업계 최대)

빠르고 명확한 제품 개발 로드맵

지속적인 제품 업그레이드 및 출시 계획 (1년 2번 정기업데이트)
최신 기술의 신속한 도입 ( GPGPU/Xeon phi/Xeon SP )
클러스터의 상호 운용성 제공 ( Meta Scheduling )
Hook(MoM) : 계산 노드의 장애유무 체크, 동적 관리 빠른 개발 주기로 사용자 요청사항이 단시간에 적용가능(6개월)

기타

Node Virtualization (노드 가상화)
Application Integration Frameworks (어플리케이션 통합 프레임 워크)