[rank_math_breadcrumb]
Ilustração digital futurista mostrando o conceito de IndexCache, um otimizador de atenção esparsa, acelerando o processamento de dados em modelos de linguagem longa

IndexCache: A Nova Revolução na Inferência de Modelos de Linguagem Longa

Pesquisadores da Tsinghua University e Z. ai desenvolveram o IndexCache, uma técnica que otimiza modelos de linguagem longa, tornando a inferência até 1.

Resumo

A revolução do IndexCache na otimização de modelos de linguagem longa

Processar centenas de milhares de tokens em modelos de linguagem grandes (LLMs) é uma tarefa dispendiosa e demorada. Quanto maior o contexto, mais rapidamente os custos e o tempo de processamento escalam, criando um gargalo significativo para aplicações de inteligência artificial que exigem janelas de contexto estendidas.

No entanto, uma nova técnica promete mudar esse cenário. Pesquisadores da Tsinghua University e Z.ai desenvolveram o IndexCache, um otimizador inovador que reduz em até 75% a computação redundante em modelos de atenção esparsa, entregando uma inferência de IA até 1.82x mais rápida e um throughput de geração 1.48x superior em contextos longos.

O desafio da atenção esparsa profunda (DSA)

Modelos de linguagem grandes dependem fundamentalmente do mecanismo de autoatenção, um processo onde o modelo calcula a relação entre cada token em seu contexto e todos os tokens precedentes para prever o próximo. Embora poderosa, a autoatenção possui uma limitação severa: sua complexidade computacional escala quadraticamente com o comprimento da sequência de entrada.

Para aplicações que demandam janelas de contexto muito amplas, como o processamento de documentos extensos, fluxos de trabalho multi-etapas ou raciocínio complexo em cadeia de pensamento, essa escala quadrática resulta em velocidades de inferência lentas e significativos custos de computação e memória. A atenção esparsa surgiu como uma solução elegante para esse problema, otimizando o processo ao permitir que cada consulta selecione e processe apenas um subconjunto dos tokens mais relevantes.

A arquitetura DeepSeek Sparse Attention (DSA) é uma implementação altamente eficiente desse conceito, introduzida inicialmente no DeepSeek-V3.2. Para identificar os tokens mais importantes, a DSA incorpora um “módulo indexador lightning” leve em cada camada do modelo. Este indexador avalia todos os tokens anteriores e seleciona um pequeno lote para o mecanismo de atenção principal processar, convertendo a pesada computação de atenção de quadrática para linear e acelerando drasticamente o modelo.

Como o IndexCache ataca o problema

Apesar dos avanços da DSA, os pesquisadores identificaram uma falha persistente: o próprio indexador da DSA ainda opera com complexidade quadrática em cada camada individual. Mesmo sendo computacionalmente mais barato que o processo de atenção principal, à medida que os comprimentos de contexto aumentam, o tempo que o modelo gasta executando esses indexadores dispara, desacelerando o modelo, especialmente durante a fase inicial de “prefill” (processamento do prompt).

Para resolver esse gargalo do indexador, a equipe de pesquisa descobriu uma característica crucial no processamento de dados dos modelos DSA: o subconjunto de tokens importantes selecionados por um indexador permanece notavelmente estável à medida que os dados se movem através de camadas consecutivas do transformador. Testes empíricos em modelos DSA revelaram que camadas adjacentes compartilham entre 70% e 100% de seus tokens selecionados.

Para capitalizar essa redundância entre camadas, os pesquisadores desenvolveram o IndexCache. A técnica divide as camadas do modelo em duas categorias: um pequeno número de camadas “full” (F) que mantêm seus indexadores, ativamente pontuando e escolhendo os tokens mais importantes para cache; e as demais camadas “shared” (S) que não realizam indexação e reutilizam os índices em cache da camada F mais próxima. Durante a inferência, o modelo simplesmente verifica o tipo de camada: calcula e armazena novos índices se for uma camada F, ou copia os dados em cache se for uma camada S.

É importante notar que o IndexCache não é uma técnica tradicional de compressão ou compartilhamento de KV cache, que foca em reduzir o consumo de memória. Conforme Yushi Bai, coautor do artigo, explicou, o IndexCache ataca o gargalo computacional, eliminando a redundância ao reutilizar índices entre camadas, reduzindo a computação em vez de apenas a pegada de memória. Ele é complementar a abordagens existentes e pode ser combinado com elas para otimização ainda maior.

Duas abordagens para implementação do IndexCache

Os pesquisadores desenvolveram duas abordagens de implantação para o IndexCache, aplicáveis a modelos que utilizam a arquitetura DSA, como os mais recentes modelos DeepSeek e a família GLM. A primeira é um método “training-free”, ideal para desenvolvedores que trabalham com modelos DSA prontos onde o retreinamento é inviável ou muito caro.

Essa abordagem “training-free” baseia-se em um algoritmo de “seleção gulosa de camadas”. Ao executar um pequeno conjunto de dados de calibração através do modelo, o algoritmo determina automaticamente o posicionamento ideal das camadas F e S sem a necessidade de atualizações de peso. Evidências empíricas demonstram que o algoritmo guloso pode remover com segurança 75% dos indexadores, mantendo o desempenho do modelo original.

Para equipes que pré-treinam ou fazem fine-tuning intensivo de seus próprios modelos fundacionais, os pesquisadores propõem uma versão “training-aware”. Esta abordagem otimiza os parâmetros da rede para suportar nativamente o compartilhamento entre camadas, introduzindo uma “perda de destilação multi-camadas” durante o treinamento. Isso força cada indexador retido a aprender a selecionar um subconjunto de tokens de consenso que será altamente relevante para todas as camadas subsequentes que ele atende.

Ganhos reais de desempenho e economia com IndexCache

Para testar o impacto do IndexCache, os pesquisadores o aplicaram ao modelo GLM-4.7 Flash de 30 bilhões de parâmetros e o compararam com a linha de base padrão. Em um comprimento de contexto de 200 mil tokens, a remoção de 75% dos indexadores reduziu a latência de “prefill” de 19.5 segundos para apenas 10.7 segundos, entregando um aumento de velocidade de 1.82x. Os pesquisadores esperam que esses aumentos sejam ainda maiores em contextos mais longos.

Durante a fase de decodificação, onde o modelo gera sua resposta, o IndexCache impulsionou o throughput por requisição de 58 tokens por segundo para 86 tokens por segundo na marca de 200 mil tokens, resultando em um aumento de velocidade de 1.48x. Quando a memória do servidor está totalmente saturada com requisições, o throughput total de decodificação saltou em até 51%, demonstrando a eficiência do IndexCache em cenários de alta demanda.

Para equipes empresariais, esses ganhos de eficiência se traduzem diretamente em economia de custos. Yushi Bai afirmou que o IndexCache oferece benefícios consistentes em diversos cenários, mas os ganhos são mais notáveis em cargas de trabalho de contexto longo, como RAG (Retrieval Augmented Generation), análise de documentos e pipelines de agentes. Nesses casos, observa-se uma redução aproximada de 20% nos custos de implantação e melhorias similares na latência percebida pelo usuário. Surpreendentemente, esses ganhos de eficiência não comprometeram as capacidades de raciocínio dos modelos. Usando a abordagem “training-free” para eliminar 75% dos indexadores, o modelo de 30B igualou a pontuação média da linha de base original em benchmarks de contexto longo.

A equipe também realizou experimentos preliminares no modelo GLM-5 de 744 bilhões de parâmetros, de escala de produção. Eles descobriram que a eliminação de 75% de seus indexadores com o método “training-free” resultou em um aumento de velocidade de pelo menos 1.3x em contextos acima de 100 mil tokens. Ao mesmo tempo, o modelo manteve uma qualidade média quase idêntica em tarefas de contexto longo, provando a robustez do IndexCache.

O futuro da arquitetura de modelos de IA

Para equipes de desenvolvimento que desejam implementar a abordagem “training-free” do IndexCache hoje, o processo é direto, mas exige uma configuração cuidadosa. Embora o algoritmo de busca gulosa encontre automaticamente a configuração ideal de camadas, a qualidade dessa configuração depende dos dados que ele processa. Bai recomenda usar dados específicos do domínio como conjunto de calibração para que o padrão de compartilhamento de camadas descoberto esteja alinhado com as cargas de trabalho reais.

Uma vez calibrada, a otimização é altamente acessível para ambientes de produção. Patches de código aberto já estão disponíveis no GitHub para os principais motores de serviço. A integração é relativamente simples: os desenvolvedores podem aplicar o patch a pilhas de inferência existentes, como vLLM ou SGLang, e habilitar o IndexCache com mínimas alterações de configuração. Isso democratiza o acesso a essa tecnologia de ponta para empresas e pesquisadores.

Embora o IndexCache forneça uma solução imediata para os gargalos computacionais atuais, sua filosofia subjacente aponta para uma mudança mais ampla na forma como a indústria de IA abordará o design de modelos. Yushi Bai concluiu que futuros modelos fundacionais provavelmente serão arquitetados com as restrições de inferência em mente desde o início. Isso significa designs que não são apenas escaláveis em termos de tamanho do modelo, mas também otimizados para throughput e latência no mundo real, em vez de tratar essas questões como preocupações pós-hoc. É uma perspectiva animadora para a evolução da inferência de IA.

Fontes e links úteis

Tags:

Notícias todos os dias!

Receba diariamente as principais novidades do mundo nerd, diretamente no seu e-mail.

Veja também: