The Research Office

Wilson Hall
371 Wilson Boulevard
Rochester, Michigan 48309-4486
(location map)
(248) 370-2762
(248) 370-4111
[email protected]
#OaklandResearch

黑板上写着化学方程式和图表.

HPC (High Performance Computing Cluster)

高性能计算集群:Matilda

Computing
365英国上市官网(Oakland University)基于linux的中央HPC集群(Matilda)旨在支持并行, GPU, 以及其他不适合个人电脑的应用程序.  Matilda HPC集群由大约2,200个核心组成.  所有节点之间采用100Gbps InfiniBand组网.

Matilda HPC集群包括以下计算节点:

  • 40个标准计算节点,每个节点有192 GB的RAM和40个CPU内核.50 GHz.
  • 10个高贯穿节点,每个节点有192 GB的RAM和8个CPU内核.80 GHz.
  • 4个大型内存节点,每个节点有768 GB RAM和40个CPU内核.50 GHz.
  • 4 hybrid nodes, 每个容量包括专门的加速卡或gpu和40 CPU核心在2.50 GHz.
  • 3个GPU节点,每个节点有4个NVIDIA Tesla V100 16G GPU, NVLink, 192 GB RAM和48个CPU内核.10 GHz.

Storage
该系统包括690tb的高速刮刮存储,使用高性能并行文件系统,通过100Gbps Infiniband连接到每个计算节点.

Home directories, project space, 和共享软件驻留在戴尔EMC Isilon H500上, 一体化备份解决方案的存储系统. 数据被复制到位于具有独立电源和HVAC系统的二级数据中心的Dell EMC Isilon A2000.  Dell EMC Isilon A2000还可以为Amazon Web Services提供存档机制.

Intra-networking
所有玛蒂尔达HPC集群节点均通过HDR100 ib互联, 提供高达100gbps的带宽和sub 0.6usec latency.

Inter-networking
Matilda HPC集群以10 Gbps的连接连接到365英国上市官网校园网,提供对存储系统、研究人员实验室和工作站的访问.

Software
Matilda HPC集群包括一个全面的开源研究软件套件, 包括主要的软件编译器, 以及许多常见的特定研究应用.

Data Center Facilities
Matilda集群位于North Foundation Hall数据中心内. 这个设施配备了灭火系统, 一个备用发电机和环境控制.

基本资源分配
Upon request, 所有隶属于ou的研究人员都获得50gb的主目录存储空间和10tb的临时存储空间1 on the Matilda cluster. 这种分配允许ou附属的研究人员访问Matilda集群,并作为PI项目/小组的一部分提交作业.

pi还为研究项目或小组项目提供共享的项目空间. 这些分配分配给PI,可以由他们组的成员使用:

  • Compute hours2: 1,000,000 per year
  • GPU hours3: 50,000 per year
  • 共享项目/组存储:1tb
  • 共享项目/组草稿1 storage: 10 TB

计算时间和GPU时间是可以转换的, 因此,研究人员可以以任何最适合他们特定需求的方式使用他们的拨款. 计费权重为GPU小时数的10倍, 这意味着100个GPU小时相当于1,000 CPU hours, 而100个CPU小时相当于10个GPU小时. 因此,每位研究人员的有效年分配为1.500万小时可供使用. 在聚合中跟踪PI及其组的使用情况, 并且使用量在每个日历年开始时重置为零.

额外计算资源的费率
需要在年度基础分配之外的额外计算时间的研究人员可以购买额外的资源. 当前费用(每两年修订一次)是:

  • Compute hours2: $0.024 per hour
  • GPU hours3: $0.24 per hour

额外购买的计算资源放置在一个单独的帐户中,研究人员和他们选择的任何其他小组成员都可以访问该帐户. 与基本分配金额不同(这是“使用或丢失”-这意味着未使用的部分不会从一年转到下一年), 未使用的购买资源将保持可用,直到耗尽. 使用额外购买的小时数, 研究人员或组成员必须指定在提交作业时使用的帐户.

Buy-In Nodes
研究人员如果需要比Matilda集群现有硬件更大的硬件容量,可以购买额外的节点. UTS的工作人员将购买的节点添加到集群中,并与集群的其他节点一起管理. 购买用户和他们的研究小组将有优先访问权4 在他们购买的所有集群资源上. 它们还将获得额外的计算时间(CPU或GPU), 根据需要或期望)在日历年购买资源, 以购买时的有效费率为基础.

如需购买节点,请联系UTS [email protected] 讨论您的需求并获得报价. 确切的价格将取决于所选择的硬件, 再加上将新硬件连接到集群所需的任何附带费用.

额外存储费用
需要额外存储空间的研究人员或团队可以购买额外的空间, 根据他们具体的存储需求. 有两种基本存储类型:Matilda HPC集群本身的存储, 或存储在一个或多个OU数据中心, 但不能直接访问玛蒂尔达集群. 当前费用(每两年修订一次)是:

  • Matilda项目或主目录配额:每年每TB 260美元
  • Matilda刮刮空间配额:每TB每年72美元
  • 性能层:每TB每年170美元
  • 存档层:每TB每年90美元
  • 复制性能层:每年每TB 250美元
  • 具有深度存档的复制性能层:每TB每年260美元
  • 具有深度存档的存档层:每TB每年90美元

Support
Matilda HPC集群服务是通过与365英国上市官网研究办公室和大学技术服务合作提供的.  更多信息,请访问 大学技术服务研究支持页面 or the 研究计算和HPC文档 site.  要请求访问,请填写 Matilda HPC集群访问请求 form (scroll down to "Matilda"; online form requires OU log in).


1临时存储是仅用于工作文件的短期存储. 没有备份或镜像. 不活动的文件(由上次访问它们的时间确定)在45天后被删除.

2计算小时是根据作业中使用的每个CPU核心来衡量的. 在40个CPU内核上运行一小时的作业将消耗40个计算小时.

3GPU小时是根据每个GPU请求来衡量的,因为通常在一个GPU上一次只能运行一个作业. 请求2个GPU资源并运行1小时的作业将消耗2个GPU小时.

4优先访问意味着当用户需要购买资源进行研究项目时,保证能够在不到四个小时的时间内在购买的资源上开始作业. 从购买之日或硬件的预期使用寿命算起,优先访问所购买资源的期限为五年, whichever is less. 当购买者没有使用购买的资源时, 其他集群用户可以使用它,每个作业的最长运行时间为4小时.