A revolução do resfriamento líquido na IA e o desafio do armazenamento
Para os entusiastas de tecnologia, a corrida para desenvolver sistemas de Inteligência Artificial cada vez mais potentes é palpável. Com GPUs e CPUs operando em níveis de performance sem precedentes, o resfriamento líquido IA emergiu como a solução térmica dominante, reescrevendo as regras da infraestrutura de ponta.
Contudo, essa transição não é uniforme. Enquanto os processadores mergulham em fluidos para manter a calma, o armazenamento de dados, um pilar fundamental de qualquer sistema de IA, ainda se agarra a métodos de resfriamento a ar, criando uma arquitetura híbrida que, embora pareça pragmática, esconde sérias ineficiências operacionais e estruturais.
Por que a abordagem híbrida falha?
Hardeep Singh, gerente da equipe de hardware térmico-mecânico da Solidigm, destaca que uma abordagem de resfriamento híbrida é inerentemente ineficiente. Manter duas infraestruturas de resfriamento separadas – uma líquida e outra a ar – significa dobrar os custos de manutenção e operação, sem aproveitar os benefícios completos de TCO (Custo Total de Propriedade) que o resfriamento líquido IA promete. É o pior dos dois mundos, sem dúvida.
Além dos custos, a física térmica agrava o problema. Placas frias robustas, mangueiras espessas e manifolds do sistema de resfriamento líquido obstruem fisicamente o fluxo de ar dentro do chassi do servidor. Isso concentra o estresse térmico em componentes que ainda dependem do ar, como drives de armazenamento, memória e placas de rede. Os ventiladores do servidor simplesmente não conseguem empurrar ar suficiente ao redor da “encanamento” líquida, deixando esses componentes mais vulneráveis ao superaquecimento.
Um aspecto muitas vezes ignorado, mas igualmente grave, é o consumo de água. Sistemas tradicionais de resfriamento a ar dependem de torres de resfriamento evaporativo que podem consumir milhões de galões de água ao longo do tempo. À medida que a densidade de energia dos racks continua a subir para suportar cargas de trabalho modernas de IA, essa penalidade hídrica torna-se, nas palavras de Singh, “ambiental e economicamente indefensável”, reforçando a urgência da adoção plena do resfriamento líquido IA.
O armazenamento deixa de ser passivo
A evolução da infraestrutura de IA para sistemas de GPU com resfriamento líquido IA e sem ventoinhas está mudando as restrições de escala. Não se trata mais apenas da performance de cálculo, mas do design térmico em nível de sistema. As plataformas modernas de IA são projetadas como sistemas integrados de rack e pod, onde entrega de energia, distribuição de resfriamento e posicionamento de componentes são inseparáveis. Nesse cenário, as arquiteturas de armazenamento projetadas para data centers dependentes de fluxo de ar tornam-se um fator limitante.
À medida que as plataformas de GPU se movem totalmente para domínios de resfriamento líquido compartilhados, ancorados por CDUs (Coolant Distribution Units) em nível de rack, cada componente no sistema deve operar nativamente dentro do mesmo design térmico e mecânico. O armazenamento não pode mais depender de caminhos de resfriamento isolados ou suposições térmicas personalizadas sem introduzir ineficiência, complexidade ou trade-offs de densidade em nível de sistema.
Para os líderes de infraestrutura, isso marca uma transição fundamental. O armazenamento não é mais um subsistema passivo anexado ao cálculo, mas um participante ativo no resfriamento em nível de sistema, na capacidade de manutenção e na utilização da GPU. A capacidade de escalar a IA agora depende de como o armazenamento pode se integrar de forma limpa aos sistemas de GPU com resfriamento líquido IA, sem fragmentar as arquiteturas de resfriamento ou restringir o design do rack. Scott Shadley, diretor da Solidigm, enfatiza que a corrida para escalar a IA não é mais apenas sobre quem tem mais GPUs, mas quem consegue mantê-las resfriadas.
Repensando o design do armazenamento para o futuro
O desafio de permitir o armazenamento com resfriamento líquido IA e, ao mesmo tempo, torná-lo fácil de manter pelo usuário tem sido um dos maiores obstáculos no design de soluções de sistemas sem ventoinhas. Técnicas como o offload de cache KV, que movem dados entre a memória da GPU e o armazenamento de alta velocidade durante a inferência, tornam a latência e o desempenho térmico do armazenamento diretamente relevantes para a eficiência do serviço do modelo. Um subsistema de armazenamento que desacelera devido ao fluxo de ar deficiente sob carga térmica pode comprometer o desempenho de todo o sistema.
A solução exige um redesenho do armazenamento desde o início para ambientes sem ventoinhas e com resfriamento líquido IA. Isso é mais difícil do que parece. O design tradicional de SSDs pressupõe fluxo de ar para gerenciamento térmico e posiciona componentes em ambos os lados de uma PCB termicamente isolada. Nenhuma dessas suposições se mantém em uma arquitetura ancorada por CDU. Singh explica que os SSDs precisam ser projetados com uma solução térmica de última geração para conduzir o calor dos componentes internos de forma eficiente e transferi-lo para o fluido.
O design deve incluir um caminho de baixa resistência para a transferência de calor para uma única placa fria anexada em um lado. Ao mesmo tempo, os drives devem suportar a capacidade de manutenção sem vazamento de líquido durante a inserção e remoção, e sem degradar a interface térmica entre o drive e a placa fria. A Solidigm tem trabalhado com a NVIDIA para abordar esses desafios, como a troca a quente e o resfriamento unilateral, reduzindo a pegada térmica do armazenamento dentro do loop de líquido compartilhado e garantindo que as GPUs recebam sua parte proporcional do fluido.
Se o armazenamento não for projetado de forma eficiente para um ambiente de resfriamento líquido IA, ele pode ter seu desempenho limitado ou exigir mais volume de líquido, o que indiretamente leva à subutilização da capacidade da GPU.
A importância dos padrões da indústria
Felizmente, a Solidigm não está trabalhando isoladamente. A indústria como um todo está se unindo em torno de padrões para garantir que os sistemas de resfriamento líquido IA sejam interoperáveis, em vez de uma colcha de retalhos de soluções personalizadas. A busca por padrões da indústria é um esforço conjunto da SNIA (Storage Networking Industry Association) e do OCP (Open Compute Project), que são os principais órgãos que impulsionam esse trabalho crucial. Essa colaboração é essencial para evitar a fragmentação e acelerar a adoção de tecnologias mais eficientes.
A Solidigm liderou o padrão da indústria para resfriamento líquido IA no SFF-TA-1006 para o formato E1.S e participa ativamente dos fluxos de trabalho do OCP, cobrindo design de rack, gerenciamento térmico e sustentabilidade. Soluções de resfriamento personalizadas e sob medida para armazenamento estão dando lugar a designs prontos para produção, alinhados com padrões que se integram perfeitamente às plataformas de GPU com resfriamento líquido IA.
Shadley, que também é membro do conselho da SNIA, observa que várias organizações estão envolvidas neste trabalho. Elas começaram com soluções em nível de componente, impulsionadas pela SNIA e pelo SFF TA TWG. O próximo nível é o trabalho em nível de solução, que está sendo fortemente impulsionado pelo OCP, garantindo uma abordagem holística para a infraestrutura de próxima geração.
O caminho à frente para a inovação
As regras de design para arquiteturas em nível de sistema mudaram drasticamente com o advento das tecnologias de resfriamento líquido e imersão. Isso permite regras de design mais exclusivas e a remoção de algumas barreiras que antes limitavam a inovação. A capacidade dos sistemas de impulsionar plataformas apenas com SSDs NVMe também permite a remoção da restrição de caixas baseadas em discos que existe com soluções de HDD, abrindo caminho para designs mais compactos e eficientes.
Os clientes da Solidigm desempenham um papel ativo e de liderança nas decisões de roteiro para seus produtos, devido ao seu profundo alinhamento técnico com o ecossistema. A empresa não apenas fabrica e vende produtos, mas integra, codesenvolve e inova em parceria com seus clientes e parceiros. Essa colaboração é fundamental para garantir que as soluções de resfriamento líquido IA atendam às necessidades reais do mercado.
Singh conclui que a principal força da Solidigm é a inovação e a engenharia de sistemas inspirada no cliente. Isso continuará a liderar agressivamente o caminho para a adoção do resfriamento líquido IA no armazenamento, pavimentando o futuro dos data centers e da inteligência artificial. A busca por eficiência e performance em um mundo cada vez mais dependente de dados e processamento intensivo é incessante, e o resfriamento líquido IA é, sem dúvida, um pilar dessa evolução.