
O que é incrível e frustrante sobre os robôs é que eles podem fazer quase tudo que você quiser, desde que você saiba como pedir corretamente. Em um passado não tão distante, perguntar corretamente significava escrever código e, embora felizmente tenhamos ultrapassado essa frágil restrição, ainda existe uma correlação irritantemente inversa entre facilidade de uso e complexidade da tarefa.
A IA prometeu mudar isso. A ideia é que quando a IA for incorporada nos robôs – dando ao software de IA uma presença física no mundo – esses robôs estarão imbuídos de raciocínio e compreensão. No entanto, isso é algo de ponta e, embora tenhamos visto muitos exemplos de IA incorporada em um contexto de pesquisa, não tem sido fácil encontrar aplicações onde robôs raciocinadores possam fornecer valor comercial confiável. A Boston Dynamics é uma das poucas empresas a implantar comercialmente robôs com pernas em qualquer escala apreciável; há agora vários milhares de pessoas trabalhando arduamente. Hoje a empresa anuncia que seu robô quadrúpede Spot está agora equipado com o Gemini Robotics-ER 1.6 do Google DeepMind, um modelo de raciocínio incorporado de alto nível que traz usabilidade e inteligência para tarefas complexas.
YouTube.com
Embora este vídeo mostre o Spot num contexto doméstico, o foco desta parceria está numa das poucas aplicações onde os robôs com pernas provaram ser comercialmente viáveis: a inspeção. Ou seja, vagando pelas instalações industriais, verificando se nada está explodindo iminentemente. Com a nova IA integrada, o Spot agora é capaz de procurar de forma autônoma detritos ou derramamentos perigosos, ler medidores complexos e visores e recorrer a ferramentas como modelos de visão-linguagem-ação quando precisa de ajuda para entender o que está acontecendo no ambiente ao seu redor.
“Avanços como o Gemini Robotics ER 1.6 marcam um passo importante em direção a robôs que podem compreender e operar melhor no mundo físico”, disse Marco da Silva, vice-presidente e gerente geral de Spot da Boston Dynamics, em um comunicado à imprensa. “Capacidades como leitura de instrumentos e raciocínio de tarefas mais confiável permitirão que o Spot veja, compreenda e reaja aos desafios do mundo real de forma totalmente autônoma.”
Compreendendo a compreensão do robô
As palavras “raciocínio” e “compreensão” estão sendo cada vez mais aplicadas à IA e à robótica, mas, como Gill Pratt, do Toyota Research Institute, recentemente apontou, o que essas palavras realmente significam? significar para robôs na prática nem sempre é claro. “A referência com a qual nos comparamos quando se trata de compreensão é que o sistema deve responder da mesma forma que um ser humano responderia”, explicou Carolina Parada, chefe de robótica do Google DeepMind, em entrevista. Para que os robôs executem tarefas de forma confiável e segura, esta conexão entre como os robôs entendem o mundo e como os humanos o fazem é crítica. Caso contrário, pode haver uma desconexão entre as instruções que um humano dá a um robô e como o robô decide realizar essa tarefa.
O vídeo da Boston Dynamics acima é um exemplo potencialmente confuso disso. Uma das instruções para Spot foi “reciclar todas as latas da sala”. Não tem problema em completar a tarefa, como mostra o vídeo, mas ao fazê-lo agarra a lata lateralmente, o que não vai acabar bem para latas que tenham sobras de líquido. Nós, humanos, evitaríamos isso porque podemos contar com uma vida inteira de experiência para saber como as latas devem ser seguradas, mas os robôs (ainda) não têm esse tipo de conhecimento do mundo.
Parada diz que o Gemini Robotics-ER 1.6 aborda situações como essa do ponto de vista da segurança. “Se você pedir ao robô para lhe trazer um copo d’água, será uma razão para não colocá-lo na borda de uma mesa onde possa cair. Rastreamos isso usando nosso benchmark ASIMOV, que inclui muitos exemplos em linguagem natural de coisas que o robô não deve fazer.” A versão atual do Spot não usa esses modelos de segurança semântica para manipulação, mas o plano é fazer com que versões futuras raciocinem sobre como segurar objetos de maneira segura.
YouTube.com
Ainda parece haver uma desconexão entre o Gemini Robotics-ER 1.6 como um modelo de raciocínio de alto nível para um robô e o próprio robô como uma interface com o mundo físico. Um dos novos recursos do 1.6 é detecção de sucessoque combina vários ângulos de câmera para saber com mais segurança quando o Spot capturou um objeto com sucesso. Isso é ótimo se você depende inteiramente da visão para a interação com o objeto, mas os robôs têm todos os tipos de outras maneiras bem estabelecidas de detectar uma compreensão bem-sucedida, incluindo sensores de toque e sensores de força, que o 1.6 não está usando. A razão pela qual isso acontece diz respeito a um problema fundamental que o campo da robótica ainda está tentando resolver: como treinar modelos quando você precisa de dados físicos.
“No momento, esses modelos são estritamente apenas de visão”, explica Parada. “Há muitos [visual] informações na web sobre como pegar uma caneta. Se tivéssemos dados suficientes com informações de toque, poderíamos aprendê-los facilmente, mas não há muitos dados com detecção de toque na Internet.” Os clientes que usarem esses novos recursos para inspeção com o Spot serão obrigados a compartilhar seus dados com a Boston Dynamics, de onde virão alguns desses dados.
Robôs do mundo real que são úteis
O fato de a Boston Dynamics tem os clientes os torna uma espécie de anomalia quando se trata de robôs com pernas que dependem de IA em implantações comerciais. E esses clientes terão que poder confiar no robô – o que é sempre um problema quando a IA está envolvida. “Levamos isso muito a sério”, disse Lula em entrevista. “Lançamos novos recursos do DeepMind por meio de programas beta para um grupo menor de clientes para entender o que esperar, e apenas anunciamos ativamente recursos que temos certeza de que funcionarão.” Há um limite de utilidade que robôs como o Spot precisam atingir e, felizmente, o mundo real não exige perfeição. “A infraestrutura mais crítica de uma instalação será instrumentada para informar se algo está errado”, diz Silva. “Mas há muitas coisas que não são instrumentadas e que ainda podem causar problemas se você não prestar atenção a elas. Descobrimos que algo acima de 80% é o limite em que não é irritante. Abaixo disso, basicamente, o robô está gritando como lobo, e os operadores começarão a ignorá-lo.”
Tanto Lula quanto Parada concordam que ainda há muito espaço para melhorias na inspeção robótica. Como aponta Parada, o status rarefeito do Spot como plataforma comercial escalonável oferece uma oportunidade valiosa para aprender como modelos como Gemini Robotics-ER 1.6 podem ser mais úteis e, em seguida, aplicar esse conhecimento a outras plataformas de IA incorporadas, incluindo Atlas da Boston Dynamics. Isso significa que o Atlas será o próximo robô de inspeção industrial? Provavelmente não. Mas se esta experiência do mundo real pode nos aproximar de robôs seguros e confiáveis que podem recolher roupa suja, levar um cachorro para passear e limpar latas de refrigerante sem fazer bagunça, isso é algo que nos deixa entusiasmados.
Dos artigos do seu site
Artigos relacionados na web