Recomendações para garantir a performance e o retorno do investimento de Clusters para Inteligência Artificial

 

Introdução

Com a crescente demanda por processamento de sistemas de Inteligência Artificial resolvemos, devidamente autorizados, compartilhar com a nossa clientela o texto seguinte de autoria da MICROWAY.

A B2F TI tem uma longa relação de parceria com a MICROWAY, empresa americana especializada e dedicada ao projeto e fornecimento de Clusters computacionais que resultaram numa dezena de fornecimentos conjuntos e Clientes satisfeitos no Brasil.

 

Considerações Iniciais

Inteligência Artificial e, mais especificamente, Deep Learning estão revolucionando o modo como as empresas utilizam a grande quantidade de dados que coletam e como os pesquisadores aceleram o tempo de descoberta. Alguns dos exemplos mais significativos vêm do modo como a Inteligência Artificial afetou a vida como a conhecemos, com o reconhecimento de voz dos smartphones, a classificação de imagens dos mecanismos de pesquisa e a detecção de câncer em imagens biomédicas. Nos últimos anos a maioria das empresas e grupos de pesquisas tem coletado dados valiosos ou implementado novos processos para coletar dados e utiliza-los com inovações do Deep Learning ​​para obter insights, fazer previsões acuradas e abrir o caminho para novas descobertas.

Desenvolver um plano para processar cargas de trabalho de Inteligência Artificial na infraestrutura de negócios ou de grupos de pesquisa apresenta muitos desafios. No entanto, existem dois elementos-chave que devem orientar as decisões de planejamento de Clusters computacionais para processar aplicações de Inteligência Artificial. Primeiro, entender os tipos e volumes de dados é fundamental para determinar os requisitos computacionais para o treinamento da rede neural. Segundo porem igualmente importante, entender a expectativa do negócio ou grupo de pesquisa para o tempo resposta na obtenção de resultados dos modelos.

Cada um desses fatores influencia o processamento da carga de trabalho de Inteligência Artificial tanto na fase do Treinamento quanto na fase da Inferência. Subestimar as características dos dados resultará em recursos computacionais e de infraestrutura insuficientes para treinar as redes em um prazo razoável, enquanto que, subestimar o tempo-para-resultados na fase de Inferência pode resultar em não entregar o Retorno do Investimento ou dificultar a obtenção dos resultados da pesquisa.

A seguir, apresentamos resumidamente os diferentes recursos que devem ser levados em consideração no projeto de Cluster para processamento de Inteligência Artificial (Cluster IA).

Arquiteturas do Sistema

As cargas de trabalho de Inteligência Artificial são muito semelhantes às cargas de trabalho de HPC, pois exigem recursos computacionais maciços combinados com acesso rápido e eficiente a conjuntos de dados gigantes. Atualmente, existem sistemas especificamente desenhados para atender à carga de trabalho de Cluster para Inteligência Artificial. Esses sistemas descritos nas seções abaixo geralmente compartilham características semelhantes: Núcleos de CPU de alto desempenho, Grande capacidade de memória, Múltiplas GPUs conectadas por NVLink por nó computacional, Interconexões Ethernet 10G ou InfiniBand EDR. No entanto, existem diferenças sutis com cada plataforma, senão vejamos:

 

Microway GPU-Accelerated NumberSmasher

A Microway demonstra o valor da experiência em cada implementação que faz de cluster de GPUs. O longo histórico da empresa de projetar e implantar clusters de GPU no estado da arte para HPC torna seu conhecimento inestimável para configurar de forma personalizada Clusters para Inteligência Artificial prontos para produção em escala real. Um dos nós computacionais com GPUs mais comumente utilizado em Inteligência Artificial é o Microway NumberSmasher 1U com NVLink. Este sistema fornece elevado desempenho computacional num espaço reduzido, o que o torna um bloco ideal para construção de clusters escaláveis. Alternativamente, o Octoputer com Single Root Complex oferece maior número de GPUs para maximização da performance total de um único sistema.

Dois Processadores Intel Xeon Scalable Processor “Skylake-SP” (clock de até 3.6 GHz)

Memória ECC/Registrada Six-Channel DDR4-2666 (16 slots)

Até (2) Hot-Swap 2.5″ 12Gbps drives

Quatro SXM2 slots para NVIDIA GPUs, cada um com 150GB/s de conectividade (300GB/s bidirectional)

Quatro PCI-Express 3.0 x16 full-height, half-length slots

Removable Storage: portas USB 3.0 traseiras

Duas portas inegradas Intel X540 10G Ethernet

IPMI 2.0 com suporte LAN dedicado

Fonte redundante de alta-eficiência de 2000W

Dois Procesadores Intel Xeon E5-2600v4 “Broadwell” (clock de: 2.2 GHz à 3.5 GHz)

Memória ECC/Registrada Quad-Channel DDR4-2400 (24 slots)

Até (48) Hot-Swap 2.5” 12Gbps drive bays

Dez PCI-Express 3.0 x16 double-width slots (em uma single PCI-Express root complex)

Um slot independente PCI-Express 3.0 x16 (em PCI-Express root complex separado) 

Um slot PCI-Express 3.0 x8 (physical x16)

Removable Storage: portas USB 3.0 traseiras

Duas portas integradas Intel i350 Gigabit Ethernet (10G optional)

IPMI 2.0 com suporte LAN Dedicado

Fonte redundante de alta-eficiência de 3200W 2+2

ConnectX-5 100Gb InfiniBand, ConnectX-3 56Gb InfiniBand, ou 10G / 40G Ethernet

NVIDIA Quadro GPUs para visualização

TPM 2.0, com suporte TXT opcional

PGI Accelerator Compilers (com suporte OpenACC) para GPUs

Intel compilers, bibliotecas e ferramentas

Suportado para a vida

Nossos técnicos e equipe de vendas garantem consistentemente que toda a sua experiência com o Microway seja tratada de maneira rápida, criativa e profissional.

O suporte por telefone está disponível durante a vida útil do (s) seu (s) servidor (es) pelos técnicos experientes da Microway. Após o período de garantia inicial, as garantias de hardware são oferecidas anualmente. Reparos fora da garantia estão disponíveis em uma base de tempo e materiais.

 

Para garantir o máximo desempenho e confiabilidade a MICROWAY testa, ajusta e integra cada nó computacional construído.  Todos clusters, uma vez integrados, passam por testes totais de sistema para garantir a operacionalidade de todo o conjunto em condições de pico. Também oferece serviços de integração de diversos “frameworks” de Inteligência Artificial, além do conjunto completo de utilitários e software de gerenciamento do cluster. Finalmente, todos os sistemas Microway são fornecidos com Lifetime Technical Support.

 

Para saber mais sobre os clusters e sistemas de GPU da Microway, visite Tesl GPU clusters.

 

 

NVIDIA DGX

Os sistemas DGX-1 e DGX Station da NVIDIA oferecem não apenas um denso poder computacional por sistema, mas também incluem o acesso a nuvem NVIDIA GPU CLOUD and Container Registry. Esses recursos da NVIDIA fornecem ambientes de contêiners otimizados para hospedagem de bibliotecas e “frameworks” normalmente executados em um Cluster AI. Isso permite que pesquisadores e cientistas de dados se concentrem em fornecer resultados, em vez de se preocupar com manutenção e ajuste de software. Como fornecedora de soluções Elite de produtos NVIDIA, a Microway oferece sistemas DGX como uma solução de sistema para processamento de Inteligência Artificial completo ou como parte de um projeto de cluster IA personalizado.

Chega com bibliotecas e estruturas de Deep Learning totalmente integradas

A pilha de software inclui:

  • Sistema de treinamento DIGITS
  • NVIDIA Deep Learning SDK com o mais recente CUDA e cuDNN

Software / serviços de gerenciamento de nuvem:

  • Portal de Cluster da NVIDIA (nuvem ou no local)
  • Repositório de aplicativos on-line com os principais frameworks de deep learning
  • Implantação de aplicativo em contêineres NVDocker
  • Criação e implantação de contêiner de aplicativo gerenciado
  • Gerenciamento de vários nós com telemetria, monitoramento e alertas

 

8 NVIDIA Tesla V100 “Volta” GPUs

40,960 NVIDIA CUDA cores, total

Total de 128GB high-bandwidth GPU memory

60 TFLOPS double-precision, 120 TFLOPS single-precision, 960 TensorTFLOPS com a nova unidade Tesla V100

Pilha de software certificada e suportada pela NVIDIA para cargas de trabalho  Deep Learning

Dois processadores de 20 cores cada Intel Xeon E5-2698v4

Memória de sistema de 512GB DDR4 2133MHz

Interface Dual X540 10GbE Ethernet (10GBase-T RJ45 ports) 

Quatro portas Mellanox ConnectX-4 100Gbps EDR InfiniBand

Uma porta de gerenciamento Gigabit Ethernet

Quatro discos 1.92TB SSD em RAID0 (Storage Cache de alta velocidade)

Gabinete Rackmount de 3U (para racks padrão de 19 polegadas)

Fonte de alimentação Redundantes e Hot-Swap (quatro conectores de força IEC C13 208V na traseira)

Consumo de força: 3200W em máxima carga

Sistema Operacional Linux Ubuntu Server

 

Por favor, note que a profundidade ~ 35 ″ deste chassi (866mm) normalmente requer um gabinete de montagem em rack de profundidade estendida. Fale com um de nossos especialistas para determinar se o seu rack existente é compatível.

4 NVIDIA Tesla V100 “Volta” GPUs com links NVLink 2.0

20,480 NVIDIA CUDA cores, total

2,560 NVIDIA Tensor cores, total

Total de 64GB high-bandwidth GPU memory

480 TFLOPS FP16 half-precision performance

Pilha de software certificada e suportada pela NVIDIA para cargas de trabalho  Deep Learning

Um processador de 20 cores Intel Xeon E5-2698v4

Memória de sistema de 256GB DDR4

Interface Dual X540 10GbE Ethernet (10GBase-T RJ45 ports) 

Quatro discos 1.92TB SSD sendo 1 para OS e 3 em RAID0 para Storage Cache de alta velocidade

Gabinete torre silencioso refrigerado à água ( ruído menor que 35dB para uso em escritório )

Consumo de força: 1500W em máxima carga ( para tomadas padrão de escritório )

Sistema Operacional Linux Ubuntu Desktop

A Microway oferece serviços de instalação e integração. A NVIDIA fornece serviços para software e hardware integrados NVIDIA DGX.

O suporte a NVIDIA DGX fornece suporte abrangente ao sistema e acesso ao portal de gerenciamento de nuvem da NVIDIA para obter os serviços mais abrangentes do seu sistema NVIDIA DGX. Simplifique a experimentação em Deep Learning aproveitando o gerenciamento de aplicativos em contêiner, inicie jobs, monitore o status e obtenha atualizações de software com o gerenciamento de nuvem da NVIDIA.

O que está incluído no suporte da NVIDIA DGX-1:

  • Acesso às atualizações e atualizações de software mais recentes
  • Comunicação direta com especialistas técnicos da NVIDIA
  • Gerenciamento de nuvem NVIDIA: repositório de contêineres, gerenciamento de contêineres, agendamento de tarefas e monitoramento do desempenho do sistema e novas atualizações de software
  • Base de conhecimento pesquisável da NVIDIA com artigos de instruções, notas de aplicação e documentação do produto
  • Resposta rápida e resolução atempada de problemas por meio de portal de suporte e acesso telefônico 24 × 7
  • Suporte ao ciclo de vida para o software de Deep Learning do NVIDIA DGX
  • Suporte de hardware, atualizações de firmware, diagnósticos e resolução remota e no local de problemas de hardware
  • Expedição no dia seguinte para peças de reposição

 

Para saber mais, visite Microway Tesla DGX-1 e DGX Station.

 

IBM Power Systems com PowerAI

O compromisso da IBM com o design inovador de chips e sistemas para HPC e Inteligência Artificial criou uma plataforma para computação de próxima geração. Por meio da colaboração com a NVIDIA, os IBM Power Systems são as únicas plataformas de GPU disponíveis que integram a conectividade NVLink entre CPU e GPU. A versão mais recente do AC922 Power System da IBM oferece taxa de transferência 10 vezes superior a dos sistemas x86 tradicionais. Além disso, a Microway integra o IBM PowerAI com sua otimizada distribuição de software para proporcionar menor tempo de implementação.

Coerência: para a programação de GPU mais simples do mundo

Finalmente, a CPU e GPU falam a mesma linguagem. O primeiro e único espaço compartilhado (coerente) de memória entre a CPU e a GPU NVIDIA® Tesla® está aqui. Elimine centenas de milhares de linhas de programação especializada e transferências de dados: somente com POWER9 e Tesla V100 no Power Systems AC922.

Quase 5X a largura de banda da CPU:GPU; quase 10X a taxa de transferência de dados 

O AC922 é a única plataforma com NVLink aprimorado da CPU:GPU, oferecendo até 150 GB / s de largura de banda bidirecional para cargas de trabalho com uso intensivo de dados. Isso é quase 5 vezes a largura de banda CPU:GPU do PCI-E. Cada GPU é atendida com 300 GB / s de largura de banda NVLink, quase 10 vezes a taxa de transferência de dados das plataformas PCI-E x16 3.0.

POWER9 com CPU NVLink

A plataforma POWER9 possui até 24 núcleos, 3 interfaces de alta largura de banda para aceleradores (PCI-E Gen4, OpenCAPI, NVLink aprimorado), largura de banda de memória avassaladora e alta taxa de transferência de soquete.

Dois, quatro ou seis GPUs NVIDIA Tesla V100 com GPUs NVLink (configuração de 6 GPUs apenas com refrigeração a água)

Conectividade NVLink da CPU:GPU e GPU:GPU para aplicativos dados-intensivo e multi-GPU

Até 48 núcleos de processador IBM POWER (cada um suportando 4 threads)

Até 2 TB de memória do sistema com largura de banda de até 340 GB / s

Suporte para fabrics InfiniBand de alta velocidade e conectividade ethernet

Kit de ferramentas NVIDIA CUDA 9.0 instalado e configurado – pronto para executar tarefas da GPU!

Dual POWER9 da IBM com CPUs NVLink Aprimoradas (com 24, 22, 18 ou 10 cores)

Até 2 TB de memória DDR4 ECC / registrada de alto desempenho (16 slots)

Até duas unidades de 2,5 ″ de 6 Gbps ou SSD NVMe opcional ou Burst Buffer

Seis slots SXM2 para GPUs NVIDIA Tesla V100, cada um com seis “Bricks” NVIDIA NVLink ™ de última geração (BW bidirecional de 300 GB / s)

Um slot PCI-Express 4.0 x16 de baixo perfil compartilhado para EDR / HDR InfiniBand (inclui muliti-socket host-direct)

Armazenamento removível: uma porta USB 3.0 frontal e uma traseira

Opções para Ethernet Gigabit, 10G 40G ou 100G Ethernet

IPMI 2.0 com suporte a LAN dedicado

Fontes de Alimentação Duplas e Redundantes de 2000 W

100 Gb ConnectX-5 EDR InfiniBand

Armazenamento flash NVMe de alta velocidade e Burst Buffer opcional

Compiladores de Acelerador PGI (com suporte OpenACC) para OpenPOWER

Compiladores e ferramentas IBM XL

Suportado para a vida

Nossos técnicos e equipe de vendas garantem consistentemente que toda a sua experiência com o Microway seja tratada de maneira rápida, criativa e profissional.

O suporte por telefone está disponível durante a vida útil do (s) seu (s) servidor (es) pelos técnicos experientes da Microway. Após o período de garantia inicial, as garantias de hardware são oferecidas anualmente. Reparos fora da garantia estão disponíveis em uma base de tempo e materiais.

 IBM PowerAI Platform

Mais informações sobre as ofertas IBM da Microway podem ser vista em Tecnologia IBM Power_AI

 .

TESLA ou GeFORCE ?

As GPUs da NVIDIA são o principal elemento de projeto numa implementação de Cluster IA de classe mundial e os especialistas são com frequência questionados sobre a diferença entre as GPUs GeFORCE e TESLA. Embora à primeira vista placas de vídeo GeFORCE de ponta pareçam imitar as capacidades computacionais dos produtos profissionais TESLA, nem sempre é esse o caso e numa inspeção mais detalhada, as diferenças tornam-se evidentes.

 

Ao determinar qual GPU usar, os números brutos de desempenho são normalmente as primeiras especificações técnicas a serem analisadas. No que se refere especificamente às cargas de trabalho de Inteligência Artificial, uma GPU TESLA tem até 1000 vezes o desempenho de uma placa GeFORCE de ponta executando cálculos de ponto flutuante com meia precisão (FP16). As placas GeFORCE também não suportam instruções INT8 usadas na inferência para Deep Learning. Embora seja possível usar GeFORCE para o trabalho de Inteligência Artificial, isso não é recomendado para sistemas de produção em larga escala. Além do processamento bruto, há muitos outros recursos que descrevemos em nosso artigo no link abaixo.

 

O preço das placas de vídeo NVIDIA permite que empresas e pesquisadores entendam o impacto potencial da Inteligência Artificial ​​e desenvolvam código sem elevados investimentos. A Microway, no entanto, recomenda que o uso de placas de vídeo com aceleradores gráficos em Inteligência Artificial seja limitado a estações de trabalho durante o processo de investigação e desenvolvimento inicial. O Microway Knowledge Center disponibiliza um artigo detalhado sobre diferenças entre TESLA e GeFORCE.

 

Treinamento e Inferenciação

Há uma grande diferença em Inteligência Artificial entre os recursos necessários para “efficient training” e “efficient inferencing”. O treinamento de redes neurais requer recursos significativos de GPU para computação, recursos do sistema host para transmissão de dados, acesso confiável e rápido a conjuntos de dados completos e uma arquitetura de rede para suportar tudo isso. O requisito de recurso para inferência, no entanto, depende de como os novos dados serão alimentados na produção. A inferência em tempo real tem um requisito computacional muito menor porque os dados são alimentados à rede neural como ocorrem em tempo real. Isso é muito diferente da inferência em massa, na qual novos conjuntos de dados inteiros são alimentados na rede neural ao mesmo tempo. Além disso, como dissemos no início deste documento, entender a expectativa de tempo-para-resultado provavelmente afetará o projeto geral do Cluster AI, independentemente da carga de trabalho.

 

Arquitetura do armazenamento

O tipo de arquitetura de armazenamento usado com um Cluster AI pode e terá um impacto significativo na eficiência do mesmo. Embora o armazenamento possa parecer um assunto bastante nebuloso, as demandas de uma carga de trabalho de AI são um fator amplamente conhecido. Durante o treinamento, os nós do Cluster IA precisam de acesso a conjuntos de dados inteiros porque os dados serão acessados ​​com frequência e sucessivamente durante todo o processo de treinamento. Muitos dispositivos comerciais de INTELIGENCIA ARTIFICIAL, como o DGX-1, utilizam cache de grandes volumes e alta velocidade em cada nó para obter eficiência. Os sistemas de arquivos de rede padrão e de alto desempenho são suficientes para implantações de cluster de AI de pequeno e médio porte. Se os nós tiverem sido configurados corretamente para cada um deles, com suficiente espaço de cache, o sistema de arquivos em si não precisa ter desempenho excepcional, já que está lá apenas para armazenamento de longo prazo. No entanto, se os nós não tiverem espaço de cache local suficiente para o conjunto de dados, a necessidade de armazenamento de desempenho aumenta. Existem recursos de componente que podem aumentar o desempenho de um NFS sem necessidade de sistema de arquivos paralelo, mas esse não é um cenário comum para essa carga de trabalho. O objetivo deve ser sempre ter espaço de cache local suficiente para um desempenho ideal. Os sistemas de arquivos paralelos são conhecidos por seu desempenho e, às vezes, pelo preço. Esses sistemas de armazenamento devem ser reservados para implantações de cluster maiores, proporcionando o melhor benefício pelo investimento realizado.

 

Para mais informações veja este documento da NVIDIA

 

Infraestrutura de rede

Utilizar o tipo certo de infraestrutura de rede reduzirá os gargalos e melhorará o desempenho do Cluster IA. As diretrizes para a rede mudarão dependendo do tamanho / tipo de dados que passam pela rede, bem como da natureza da computação. Por exemplo, pequenos arquivos de texto não precisarão de tanta largura de banda quanto os arquivos de vídeo 4K, mas o treinamento Deep Learning requer acesso a todo o pool de dados que pode saturar a rede. Voltando ao início deste artigo, a compreensão dos conjuntos de dados ajuda identificar e evitar gargalos no sistemas. Os especialistasda B2F ou da MICROWAY podem ajudá-lo nessa análise.

Todas as implantações de cluster da GPU, independentemente da carga de trabalho, devem utilizar um sistema de rede hierárquico que inclua uma rede de gerenciamento e uma rede de tráfego de dados. As redes de gerenciamento são tipicamente um único link Gigabit ou 10Gb Ethernet para suportar o gerenciamento do sistema. Redes de tráfego de dados, no entanto, podem exigir maior banda de passagem para acomodar maior tráfego e menor latência para maior eficiência.

 Redes de dados comuns usam Ethernet (10G / 25G / 40G / 50G) ou InfiniBand (56Gb ou 100Gb). Existem muitos casos em que 10G ~ 50G Ethernet será suficiente para o tamanho dos arquivos e o volume de dados que passam pela rede ao mesmo tempo. Estes tipos de redes costumam ser usados ​​em cargas de trabalho com tamanhos de arquivos menores, como imagens estáticas ou onde a computação ocorre em um único nó. Mas também podem ser uma rede econômica para um cluster com um pequeno número de nós.

No entanto, para arquivos maiores e / ou computação de GPU de vários nós, como Treinamento de DL, o EDR InfiniBand de 100 Gb é a malha de escolha pela maior largura de banda e menor latência bem como por permitir a comunicação de GPU ponto a ponto entre nós via RDMA (Remote Direct Memory Access), que pode aumentar a eficiência do sistema como um todo.

Para comparar velocidades de rede e latências, veja performance das mais comuns redes de dados.

 

Sam Wheeler

MICROWAY, Outubro de 2017

Esta é uma tradução do texto original que você encontra aqui.