Perspectiva da TE sobre desempenho de data centers
Autor: Sudhakar Sabada, SVP e GM, Dados e Dispositivos
À medida que os modelos de inteligência artificial (IA) se tornam cada vez mais sofisticados, a arquitetura dos data centers está mudando para processar quantidades crescentes de dados de forma mais rápida e eficiente.
Os insights de negócios produzidos pelos modelos de IA aumentaram a produtividade em vários setores. De chatbots com tecnologia IA que oferecem suporte a clientes de instituições financeiras – 24 horas por dia, 7 dias por semana – a plataformas de saúde que podem analisar dados de pacientes em tempo real e ajudar a prever possíveis complicações e intervir mais rapidamente, os usos de sistemas de computação orientados por dados continuam a se expandir. À medida que esses modelos se tornam mais sofisticados, a quantidade de dados consumidas por eles também continua a aumentar. Isso tudo antes de levar em conta o desenvolvimento da IA generativa, que se baseia em modelos de linguagem cada vez maiores que exigem cada vez mais poder computacional para produzir resultados.
Para apoiar esses aplicativos, os data centers tiveram que se tornar muito mais eficientes e eficazes no processamento de grandes quantidades de dados. Essa tendência está mudando o equipamento usado, bem como a tecnologia para conectá-los.
A capacidade de processar cargas de trabalho de IA de forma eficaz requer sistemas com a maior largura de banda e a menor latência disponíveis. Cargas de trabalho que requerem muito processamento não são mais tratadas apenas pelas unidades centrais de processamento (CPUs) padrão, que tradicionalmente alimentavam computadores. Agora, essas tarefas são executadas em unidades de processamento gráfico (GPUs) mais poderosas. As GPUs foram originalmente projetadas para renderizar imagens complexas, realizando um grande número de cálculos relativamente simples ao mesmo tempo. As GPUs se tornaram o mecanismo ideal para a inteligência artificial, já que seus processos exigem a realização de vários cálculos em um curto período de tempo. Agora, a capacidade das GPUs está sendo ampliada por unidades de processamento tensorial (TPUs), capazes de acelerar ainda mais os cálculos de IA.
No entanto, há um limite para o que um único processador pode realizar. Ao conectar clusters de processadores, os data centers podem aumentar a quantidade de poder computacional disponível. O desafio tecnológico relacionado à construção desses clusters é como conectá-los de forma eficiente.
Mover grandes quantidades de dados entre vários componentes de forma rápida e confiável requer uma variedade de conectores diferentes. As GPUs que fazem o trabalho pesado e as CPUs que orquestram o gerenciamento da carga de trabalho durante todo o processo dependem de conectores do tipo soquete e mezanino para conectá-las às placas de circuito impresso. Conjuntos de cabos de alta velocidade e cartuchos de cabos fazem as conexões elétricas do backplane do servidor às placas de circuito e outros componentes no servidor. Outros conectores de entrada/saída (E/S) movem dados de um servidor para outro e conectam clusters em vários servidores.
Para operar de forma eficiente e eficaz, esses conectores precisam ser projetados para atender às especificações de fator de forma e, ao mesmo tempo, maximizar a velocidade de transferência de dados. As soluções de inteligência artificial mais rápidas hoje transferem dados a cerca de 56 gigabits por segundo. Em sistemas implantados, esse número crescerá para 112 gigabits por segundo no próximo ano e, eventualmente, para 224 gigabits por segundo dois a três anos depois.
A cada incremento na taxa de dados, a margem de erro para manter um sinal confiável que garanta o desempenho do sistema diminui. Transmitir 224 gigabits por segundo por meio de uma conexão de cobre de forma confiável significa operar nos limites da física. Essas especificações de desempenho exigentes se somam à importância de conectores projetados para ser mecânica e termicamente robustos o suficiente para uso em um ambiente operacional hostil.
Para fazer isso, a TE produz uma variedade de conectores projetados com os recursos certos, equilibrando desempenho, custo, confiabilidade e durabilidade. Isso inclui interfaces conectoras que montam unidades de processamento de computação acelerada em diferentes placas de circuito, bem como soquetes para implantar os processadores usados para controlar o movimento de dados em todo o sistema. Para conectar esses componentes e obter velocidades muito altas, a TE também desenvolveu uma família de cabos internos para a conectividade de alta velocidade em placas, cabos de backplane, bem como cartuchos e conectores de alta velocidade que simplificam o processo de integração de sistemas. Tudo isso com uma abordagem modular de construção e escalabilidade, sempre com o objetivo de proporcionar a maior velocidade e a menor latência praticáveis.
Mover dados para onde eles são necessários é apenas metade da batalha. Os componentes que formam os clusters de IA também precisam de energia para funcionar e, como regra geral, um maior poder computacional requer mais energia elétrica. A distribuição dessa energia também requer conectores mais eficientes que suportem o mais alto nível de desempenho do sistema.
Para oferecer suporte a processos que requerem computação intensiva, esses componentes também devem ser robustos para garantir que possam apoiar de forma confiável as demandas de operação contínua. Para garantir que as arquiteturas em evolução continuem a atender a essas especificações exigentes, os fabricantes de componentes precisarão fornecer uma ampla gama de cabos de alimentação e conectores em todos os fatores de forma.
A maior potência exigida pelos componentes sofisticados de computação de IA também gera mais calor, o que torna a necessidade de mais dissipação térmica uma preocupação crítica. A conectividade no painel frontal de um sistema de IA está frequentemente entre as maiores fontes geradoras de calor, o que torna essa área um alvo importante para ganhos de eficiência. Por exemplo, os produtos de E/S da TE têm capacidade de dissipação de calor integrada para transferir energia térmica para longe desses módulos e manter componentes em temperaturas mais baixas, melhorando a eficiência e a confiabilidade gerais do sistema.
A demanda por mais velocidade e largura de banda para os diferentes usos da IA, cada vez mais sofisticados no nível do data center, é essencialmente insaciável. Mesmo ao implantar as soluções atuais, nossos clientes estão pensando ativamente em como projetar uma arquitetura mais rápida e eficiente para a próxima etapa da evolução do data center.
Às vezes, os recursos projetados em conectores podem alterar a abordagem da arquitetura do sistema. Por exemplo, como trabalhamos em estreita colaboração com um cliente no início da exploração do projeto de seu sistema, a estratégia evoluiu de um sistema baseado em conectores de placa a placa para um com backplane cabeado, resultando em um design mais flexível e eficiente.
Tais inovações são possíveis porque nos envolvemos desde cedo com nossos clientes para entender seus requisitos atuais e futuros. Com a IA acelerando a transformação dos data centers, esse tipo de colaboração será essencial para continuar a avançar a indústria a uma velocidade que acompanhe a demanda por cada vez mais poder de computação.
Sudhakar Sabada é vice-presidente sênior e gerente geral da divisão de Dados e Dispositivos da TE Connectivity. Nessa função, ele é responsável pelos P&L gerais do negócio, que atende amplamente a indústria de eletrônicos, abrangendo os segmentos de mercado de nuvem, inteligência artificial, corporativo, telecomunicações e varejo empresarial. Ele também supervisiona o desenvolvimento de negócios de Internet das Coisas (IoT) que trazem soluções de comunicação e inovações em todas as áreas da vida. Além disso, lidera a estratégia de negócios e produtos, atividades de mercado e funções de engenharia e fabricação de produtos.
Mais histórias sobre inovação tecnológica