A Nvidia detalhou o processo de montagem do supercomputador Selene, que se tornou o sétimo supercomputador mais rápido do mundo em junho. A coisa toda foi montada em meio à pandemia em apenas três semanas e meia com uma equipe socialmente distanciada de seis pessoas, além de um robô prático chamado Trip.
Selene é um supercomputador único. Ele usa a arquitetura DGX SuperPOD acelerada por GPU da Nvidia, disponível comercialmente, em vez dos designs pesados de CPU personalizados que dominam a maior parte da lista Top500. Ele ocupa o segundo lugar na lista de supercomputadores mais eficientes do Green500.
Em números, o Selene usa 560 CPUs AMD Epyc 7742 (64 núcleos cada) e 2240 GPUs Nvidia A100. Seu desempenho teórico máximo é de pouco menos de 35 mil teraflops.
Os supercomputadores anteriores da Nvidia levavam meses para serem construídos e eram extremamente difíceis de manter e atualizar. Quando se tratou de projetar o Selene, eles tentaram torná-lo o mais simples e modular possível. Cada um dos 280 nós do Selene é um pod DGX padronizado contendo oito GPUs Nvidia A100 e duas CPUs AMD Epyc. Um punhado de cápsulas estão empilhadas em um arquivo glorificado (apenas para ser honesto), que são enfileiradas em grupos de dezesseis para formar um SuperPOD.
A homogeneidade do Selene é o que permitiu que ele fosse montado tão rapidamente. Era principalmente uma questão de mover cada pod DGX para o local certo, conectá-lo e verificar se funcionava. Conectar um supercomputador é sempre uma tarefa complicada (particularmente com dois metros de distância), mas a Nvidia usou os switches InfiniBand da Mellanox para reduzir o número de cabos necessários e, ao mesmo tempo, aumentar a largura de banda.
O Selene é resfriado por SuperPOD. Todos os SuperPODs residem em um armazém gigante com ar-condicionado. Eles são levantados do chão com ventiladores embaixo para empurrar o ar frio para os pods DGX. A minúscula equipe de montagem da Nvidia só precisava instalar o piso e vedar os SuperPODs para controlar o fluxo de ar.
A Nvidia foi criativa com o equipamento de monitoramento do Selene. Eles compraram um pequeno robô chamado Trip, que pode ser controlado remotamente e girado para observar o que está acontecendo dentro do Selene. Eles também construíram um bot para o Slack que envia notificações quando o hardware está se comportando mal ou quando um cabo se solta.
Selene está atualmente trabalhando em cerca de mil tarefas, principalmente orientadas ao desenvolvimento de IA e treinamento de redes neurais. Seus ciclos sobressalentes são dedicados à pesquisa de coronavírus.