[rank_math_breadcrumb]
Um robô amigável com olhos de câmera, representando o MolmoWeb, interage com uma interface web complexa em uma tela, simbolizando a democratização da automação

MolmoWeb: A Revolução Open-Weight nos Agentes Visuais Web do Ai2

O Ai2 lança o MolmoWeb, um agente visual web de código aberto que promete redefinir a automação na internet, oferecendo transparência e um dataset.

Resumo

A nova era dos agentes visuais web

No cenário atual da inteligência artificial, desenvolvedores e entusiastas se deparam com um dilema: optar por APIs fechadas, que oferecem poder mas pouca transparência, ou frameworks de código aberto que carecem de modelos treinados robustos. Essa escolha limitava a inovação e a capacidade de auditoria em um campo tão crítico quanto o dos agentes de navegação web.

Felizmente, a Ai2, uma organização sem fins lucrativos de Seattle, surge com uma solução que promete mudar o jogo. Eles acabam de lançar o MolmoWeb, um agente visual web de peso aberto que não só democratiza o acesso a essa tecnologia, mas também oferece uma pilha de treinamento completa e um dataset massivo, permitindo uma transparência e reprodutibilidade inéditas.

O que torna o MolmoWeb único?

Até agora, a ideia de um agente visual web de código aberto que viesse acompanhado de seus dados de treinamento e pipeline completo era praticamente um sonho distante. A maioria das soluções open-weight exigia que os desenvolvedores construíssem o modelo do zero ou adaptassem um LLM existente, sem a base de um modelo pré-treinado.

O MolmoWeb, disponível em versões de 4 e 8 bilhões de parâmetros, rompe com essa barreira. Ele não é apenas um framework; é um modelo totalmente treinado, pronto para uso e, mais importante, auditável. Isso significa que, pela primeira vez, a comunidade pode inspecionar, reproduzir e até mesmo ajustar o processo de treinamento de um agente que interage visualmente com a web.

Como o MolmoWeb enxerga e age na web

A forma como o MolmoWeb interage com a internet é, por si só, uma inovação. Ao contrário de muitos agentes que dependem da análise de HTML ou das representações de árvore de acessibilidade de uma página, o MolmoWeb opera inteiramente a partir de capturas de tela do navegador. Ele “vê” a web da mesma forma que um humano faria, processando as informações visuais diretamente.

A cada passo, o agente recebe uma instrução de tarefa, a captura de tela atual, um registro textual de ações anteriores, a URL e o título da página. Com base nessas informações, ele formula um “pensamento” em linguagem natural para descrever seu raciocínio e, em seguida, executa a próxima ação no navegador. Isso pode incluir clicar em coordenadas específicas na tela, digitar texto, rolar a página, navegar para uma nova URL ou alternar entre abas. Essa abordagem o torna agnóstico ao navegador, funcionando com qualquer um que possa fornecer uma captura de tela.

O gigantesco dataset MolmoWebMix

O verdadeiro diferencial do MolmoWeb não está apenas no modelo em si, mas no seu acompanhamento: o dataset MolmoWebMix. Considerado pela Ai2 como a maior coleção publicamente lançada de execução de tarefas web humanas já montada, ele é a espinha dorsal que permite a transparência e o desempenho do agente. Este dataset revolucionário combina três componentes essenciais.

Primeiro, as demonstrações humanas, que incluem 30.000 trajetórias de tarefas realizadas por anotadores em mais de 1.100 sites, totalizando 590.000 demonstrações de subtarefas individuais. Segundo, trajetórias sintéticas, geradas para escalar o dataset além do que a anotação humana poderia oferecer, utilizando agentes baseados em árvores de acessibilidade de texto, sem o uso de agentes visuais proprietários. E, finalmente, dados de percepção de GUI, com mais de 2.2 milhões de pares de perguntas e respostas baseados em capturas de tela, treinando o modelo a ler e raciocinar diretamente sobre o conteúdo da página.

MolmoWeb frente à concorrência

No mercado de agentes de navegação, a concorrência se divide em duas grandes categorias, segundo Tanmay Gupta, cientista sênior de pesquisa da Ai2. De um lado, estão os sistemas baseados apenas em API, como OpenAI Operator, Anthropic’s computer use API e Google Gemini, que são poderosos, mas fechados, sem visibilidade sobre treinamento ou arquitetura. Do outro, modelos de peso aberto, uma categoria significativamente menor.

O MolmoWeb se posiciona firmemente na segunda categoria, mas como um modelo de visão de peso aberto totalmente treinado, destacando-se de alternativas como Browser-use, que é um framework sem um modelo treinado por baixo. A Ai2 relata que o MolmoWeb lidera em quatro benchmarks de sites ao vivo (WebVoyager, Online-Mind2Web, DeepShop e WebTailBench) e supera até mesmo agentes baseados em API mais antigos. Contudo, a equipe reconhece limitações atuais, como erros ocasionais na leitura de texto de capturas de tela, interações de arrastar e soltar não confiáveis e degradação de desempenho em instruções ambíguas, além de não ter sido treinado para tarefas que exigem logins ou transações financeiras.

O foco principal é a democratização da automação na internet.

O impacto da IA de código aberto na automação

O lançamento do MolmoWeb representa um marco significativo para a comunidade de IA e para o futuro da automação. Ao fornecer um agente visual web open-weight com um dataset de treinamento tão robusto, a Ai2 não está apenas oferecendo uma ferramenta, mas um convite à inovação e à colaboração. A capacidade de auditar, reproduzir e ajustar um modelo tão complexo abre portas para pesquisas e desenvolvimentos que antes eram restritos a grandes corporações.

Para empresas e desenvolvedores, a escolha de um agente de navegação agora inclui a possibilidade de auditar o que está sendo executado, realizar fine-tuning em fluxos de trabalho internos e reduzir a dependência de APIs pagas por chamada. Este movimento em direção à IA de código aberto não só acelera o progresso tecnológico, mas também garante que o futuro da automação web seja mais transparente, acessível e adaptável às necessidades de um ecossistema digital em constante evolução.

Fontes e links úteis

VentureBeat

Tags:

Notícias todos os dias!

Receba diariamente as principais novidades do mundo nerd, diretamente no seu e-mail.

Veja também: