
Quando um grupo de acadêmicos começou a fabricar hardware robótico de código aberto, uma geração de roboticistas recuperou anos de suas vidas. Agora, o maior desafio é fazer com que os robôs pensem – e isso também está começando a ser de código aberto.
A mudança ainda é cedo, mas empresas como a Hugging Face, a Nvidia e a Alibaba fizeram apostas significativas na robótica de código aberto nos últimos dois anos, lançando ferramentas e modelos destinados ao trabalho de alto nível de fazer com que os robôs raciocinem, decidam e ajam.
O movimento de código aberto que acelerou outras aplicações de IA está agora a ser aplicado ao problema de tornar os robôs mais inteligentes. Se essas tentativas de trazer a IA para a robótica com plataformas de código aberto forem bem-sucedidas, a barreira para a construção de um robô capaz poderá cair tão rapidamente quanto a barreira para a construção de uma aplicação de IA.
O mundo que o ROS construiu
O software de robótica de código aberto existe desde meados da década de 1990, com projetos iniciais como o pacote Inter-Process Communication da Carnegie Mellon e o projeto Player no início dos anos 2000 estabelecendo as bases. Mas estes estavam muitas vezes ligados a grupos de investigação específicos e o campo permaneceu fragmentado.
O Robot Operating System, ROS, mudou isso quando foi lançado em 2007. Ao agrupar ferramentas e atrair mais usuários, tornou-se o padrão de fato. A história da robótica de código aberto, em muitos aspectos, começa aí.
Apesar do nome, o ROS não é realmente um sistema operacional. Em vez disso, é uma estrutura de software que se baseia no Linux e lida com fundamentos robóticos, como movimentação de dados entre componentes, comunicação com hardware, construção de mapas, planejamento de caminhos e suporte a ferramentas de desenvolvedor, como registro e visualização de dados. Antes do ROS, cada equipe de robótica escrevia essa infraestrutura por conta própria. Muitas vezes demorava um ou dois anos até que um laboratório pudesse realizar a pesquisa com a qual realmente se importava.
Brian Gerkey, que ajudou a construir o ROS em meados dos anos 2000, diz que se sentiu atraído pelo projeto porque o código aberto já havia mudado o mundo, ressaltando que quase toda a Internet é construída nele.
“Sou um construtor de ferramentas e gosto de compartilhar tudo da forma mais aberta possível, porque acho que é aí que obtemos o maior impacto daquilo que construímos”, diz Gerkey, presidente do conselho da Open Robotics e agora CTO da Intrinsic, uma unidade de robótica e IA do Google.
À medida que se desenvolvia, a comunidade de IA adoptou em grande parte a mesma abordagem, partilhando abertamente pesquisas, modelos e dados, e o campo acelerou mais rapidamente do que quase qualquer um previu. Agora, alguns desses mesmos avanços estão chegando à robótica.
IA de código aberto para robótica
A visão computacional, que já foi um problema difícil, avançou dramaticamente em apenas alguns anos, diz Spencer Huang, diretor de produtos para robótica da Nvidia. O que antes exigia conhecimento significativo agora pode ser feito em poucas linhas de código. As ferramentas de simulação tornaram-se precisas o suficiente para serem úteis para treinamento, e o acesso às ferramentas que antes exigiam um laboratório especializado agora está amplamente disponível, muitas delas de código aberto.
“Para entrar na robótica não é mais necessário ter doutorado”, diz ele. O resultado é um conjunto muito maior de pessoas que podem contribuir, e o campo está começando a parecer menos uma disciplina especializada e mais uma plataforma na qual qualquer pessoa pode construir.
A Nvidia construiu uma pilha de robótica de código aberto que cobre todo o pipeline de desenvolvimento. Seus modelos mundiais Cosmos geram dados de treinamento sintéticos e simulam ambientes físicos. Seus modelos GR00T dão aos robôs a capacidade de raciocinar e executar tarefas complexas. E suas estruturas Isaac lidam com a orquestração que une treinamento, simulação e implantação. Nem todo mundo precisa treinar os robôs do zero, diz Huang, e a maioria das pessoas provavelmente não deveria.
“Se você restringir o pré-treinamento, o campo nunca crescerá”, diz ele. “Devemos ser capazes de fornecer um modelo pré-treinado de alta qualidade e de última geração que qualquer pessoa possa usar e ajustar para seus próprios propósitos.”
Todos os modelos de código aberto da Nvidia residem no Hugging Face, a plataforma de IA de código aberto que se tornou o local padrão para compartilhar modelos e conjuntos de dados. Hugging Face lançou LeRobot, uma plataforma comunitária para IA robótica, em maio de 2024. Desde o seu lançamento, o número de conjuntos de dados robóticos na plataforma cresceu de 1.145 no final de 2024 para mais de 58.000 hoje, tornando-a a maior categoria de conjunto de dados no hub.
Hugging Face também mudou para hardware, adquirindo a empresa de robótica Pollen Robotics. A aquisição veio da constatação de que o software por si só não era suficiente, segundo Clement Delangue, CEO da Hugging Face. O objetivo, assim como acontece com o software, era atrair mais pessoas.
Os colaboradores do LeRobot incluem os maiores nomes da indústria, laboratórios acadêmicos e amadores que constroem robôs em seu tempo livre. Por exemplo, a Alibaba lançou o RynnBrain no início deste ano, um modelo básico de código aberto para IA física que, segundo a empresa, supera ofertas comparáveis do Google e da Nvidia em benchmarks. Essa diversidade de projetos, diz Delangue, é importante.
“Não se trata apenas de um modelo, de um conjunto de dados ou de um hardware”, diz ele. “São muitas pequenas contribuições das quais todos podem fazer parte.”
Incentivos comerciais confundem o campo
O que está em jogo, diz Delangue, vai além da conveniência. Um mundo onde apenas alguns sistemas proprietários controlam os robôs nas casas das pessoas é preocupante. “Ter robôs em casa que você realmente não entende, que você realmente não controla, que algumas pessoas no Vale do Silício controlam é um pensamento assustador”, diz ele. “O código aberto oferece um caminho alternativo.”
Mas chegar lá não é simples. O código aberto que está acontecendo agora parece diferente do que produziu o ROS, que surgiu em grande parte do trabalho conjunto de acadêmicos sem nenhum interesse comercial no resultado. Os maiores contribuintes hoje são empresas com razões comerciais claras para querer que mais pessoas desenvolvam em suas plataformas. Isso não é necessariamente uma coisa ruim, diz Bill Smart, professor da Oregon State University que fez parte da primeira comunidade de robótica de código aberto. Mas vale a pena conhecer os incentivos.
Ele também teme que a redução da barreira de entrada tenha um lado negativo. Pesquisadores vindos da IA sem experiência em robótica às vezes estão resolvendo problemas que a área já resolveu. Um recém-chegado pode passar uma semana treinando uma rede neural para mover a mão de um robô de um ponto a outro, sem saber que a mesma tarefa pode ser realizada com algumas linhas de código usando técnicas de décadas atrás. Os incentivos nem sempre apontam na mesma direção do progresso.
Porém, Smart não deixa de ter esperança. Quaisquer que sejam os motivos por trás do código aberto, diz ele, o efeito é real. Mais pessoas estão na área do que nunca, as ferramentas são genuinamente mais fáceis de usar e a comunidade é maior e mais diversificada do que qualquer coisa que existia quando o ROS estava começando.
“Qualquer um pode fazer um robô se mover agora”, diz ele. “Como um velho técnico, isso me deixa feliz e triste, porque não sou mais especial.”
Dos artigos do seu site
Artigos relacionados na web