Robôs humanóides e a mudança cerebral da IA

Em 2012, a Agência de Projetos de Pesquisa Avançada de Defesa dos EUA anunciou o DARPA Robotics Challenge (DRC). A competição plurianual e multimilionária pela robótica de desastres resultou no Atlas da Boston Dynamics, alguns momentos absolutamente incríveis de uma das primeiras gerações de robôs humanóides úteis e um vídeo de erros que viverá para sempre.

Gill Pratt, o arquitecto do concurso, tinha uma compreensão muito clara do que a RDC iria fazer pela robótica. “A razão [for the DARPA Robotics Challenge] é realmente impulsionar o campo e tornar essa capacidade uma realidade”, disse Pratt Espectro IEEE em 2012. Na época, ele destacou que antes do DARPA Grand Challenge em 2004 e do DARPA Urban Challenge em 2007, carros sem motorista para ambientes complexos essencialmente não existiam. Ele viu a RDC fazer o mesmo com a robótica.

Já se passou cerca de uma década desde a conclusão do DARPA Robotics Challenge, e muitos na indústria acreditam que os robôs humanóides estão prestes a ter o momento transformador que Pratt previu. Mas, como é comum na robótica, as coisas tendem a ser muito mais difíceis do que deveriam ser. Espectro entrei em contato com Pratt, agora CEO do Toyota Research Institute (TRI), para descobrir o que está impedindo a robótica humanóide, o que ele acha que esses robôs deveriam fazer (ou não) e como navegar na bolha da propaganda humanóide.

O que você acha desse momento robótico em que estamos?

Gill Pratt: O que mudou, na verdade, não tem a ver com humanóides. Muitas pessoas vêm construindo robôs de pesquisa na forma humanóide há muito tempo. O que é diferente agora não é o corpo, mas o cérebro. Sempre tivemos esta disparidade no campo da robótica, onde os mecanismos que construímos eram incrivelmente capazes, mas não tínhamos realmente os meios para fazer com que a utilidade do robô correspondesse a esse potencial. Agora realmente o fazemos, e isso se deve à revolução da IA que aconteceu nos últimos anos.

É muito tentador olhar para trás 10 anos e creditar diretamente à RDC muito do que está acontecendo agora com os humanóides comerciais. Existe alguma razão não fazer isso?

Gill Pratt posa com uma versão inicial do robô Valkyrie DRC da NASA.Gill Pratt

Pratt: Não, mas quero ser humilde sobre isso. A RDC estava focada em metade autonomia e metade teleoperação em tempo real. Havia supervisão remota e, em seguida, semiautonomia para amplificar essa supervisão para lidar com tarefas em tempo real enquanto a pessoa remota dizia ao robô o que fazer. Isso tudo foi antes dos avanços que aconteceram recentemente na IA.

O que mudou agora é que temos uma maneira de ensinar essencialmente aos robôs o que fazer e torná-los competentes de uma forma que não exija a escrita de código; você pode simplesmente demonstrar a tarefa ao robô. Com uma quantidade suficiente desses dados e novos métodos de IA, os robôs podem ter um desempenho muito melhor do que nunca.

Mas esses dados são um gargalo, certo? Como sabemos em que deve consistir e qual é a quantidade suficiente para que um robô faça algo de maneira confiável?

Pratt: Isso reflete exatamente o debate que ocorre em grandes modelos de linguagem [LLMs]. Existem certas pessoas que acreditam que se você usar LLMs – que são preditores autoregressivos que adivinham qual deve ser a próxima palavra com base em palavras passadas – e corrigi-los com uma variedade de métodos para resolver suas alucinações, eventualmente chegaremos a um ponto em que poderemos confiar no sistema de IA. E há outras pessoas, e acho que Yann LeCun é o mais conhecido deles, que dizem que isso é um disparate e que precisamos de algo mais. A sua opinião, e eu concordo, é que precisamos de modelos mundiais. Precisamos de alguma forma para o sistema de IA imaginar, experimentar coisas e raciocinar verdadeiramente.

E sei que estamos aplicando palavras como “razão” ao que são essencialmente sistemas de correspondência de padrões. Dizer que existe “raciocínio” é apenas um adesivo que colocamos em tudo o que construímos; não é um raciocínio verdadeiro.

Este é um exemplo de “sistema um” versus “sistema dois” pensando, certo?

Pratt: Sim. O sistema um é o pensamento rápido e reflexivo que temos, que é o tipo de correspondência de padrões que os LLMs atuais fazem. O sistema dois é o raciocínio lento que envolve imaginação e modelos de mundo. Isso é o que ainda não fizemos. O progresso no sistema um tem sido extraordinário, mas ainda não temos o sistema dois. Essas tentativas de remendar o sistema um para transformá-lo no sistema dois são como tentar espremer um balão cheio de água; você aperta de um lado e a água sai do outro lado. Você fica surpreso ao consertar uma coisa e outra quebrar, e o desempenho geral não melhora muito.

Como você tem abordado esse problema no TRI?

Pratt: Há dois anos, criamos uma política de difusão e depois criamos o que chamo de grandes modelos de comportamento (LBMs). Isso envolve ter um modelo treinado em muitas tarefas e mostrar que, à medida que você adiciona cada tarefa, isso realmente ajuda nas outras tarefas e reduz a quantidade de dados de treinamento necessários para atingir um determinado nível de desempenho. Estes têm sido avanços incríveis do sistema um.

O avanço aconteceu quando percebemos que a difusão poderia ser aplicada ao comportamento do robô. Descobrimos que operar no espaço do comportamento, desde a visão até a ação, funcionou incrivelmente bem. Isso deu início a todo o campo e, desde então, penso que todas as demonstrações de robótica que vimos estão a usar alguma forma de política de difusão para fazer o que estão a fazer. Mas, novamente, esta é a correspondência de padrões do sistema um: ‘Se vejo o mundo assim, ajo no mundo assim.’ O robô não está imaginando, pensando e planejando como a robótica tradicional com codificação manual costumava fazer. É apenas reagir.

No entanto, a correspondência de padrões do sistema um geralmente falha no mundo real, como vimos nas dificuldades da direção autônoma.

Pratt: Há dez anos, quando o TRI começou, quase todo mundo dizia que a direção automatizada estava chegando.

Dez anos depois, acho que agora chegamos lá, e as questões restantes são de negócios: quanto custa o hardware, o seguro, o suporte, isso faz sentido economicamente? Nós não necessariamente resolvido direção automatizada, mas nossas soluções são boas o suficiente, porque usamos humanos como backup. Quando um veículo automatizado fica preso em um carro estacionado em fila dupla, ele liga para casa e pede a uma pessoa uma decisão de sistema dois. Acho que outros robôs também poderiam fazer isso. Na maioria das vezes, eles fazem seu trabalho sozinhos e, de vez em quando, levantam a mão pedindo ajuda.

Se mal conseguimos acertar os carros autônomos, por que estamos dedicando tanta atenção ao formato humanoide com pernas?

Pratt: Construímos o mundo com recursos físicos para nossos corpos. Para que o robô tenha um bom desempenho nesse mundo, ele deve ter algo que aproveite essas possibilidades. Também é mais fácil que o aprendizado por imitação funcione porque temos a mesma forma. E as pernas são boas para certos ambientes; você pode passar por cima de obstáculos para se equilibrar mais rápido do que rolar para um novo ponto de apoio com rodas. Dito isto, as pernas nem sempre são a coisa mais prática. É muito estranho ver tanto foco em robôs com pernas nas fábricas, que são ambientes planos perfeitamente adequados para rodas.

Gerenciando o hype da robótica humanóide

Você acha que a quantidade de dinheiro investida em humanóides com pernas é uma coisa boa para a robótica?

Pratt: Tem vantagens e perigos. É maravilhoso ver tantos recursos no campo da robótica e acho que algo especial aconteceu. As coisas não são mais como eram antes e há muitas possibilidades quando pensamos em pessoas ensinando robôs a fazer coisas.

Gill Pratt admira um robô no telhado do Museu Ghibli em Tóquio.Gill Pratt

Que tipo de coisas os humanos deveriam ensinar os robôs a fazer?

Pratt: Há 10 anos no TRI pensamos na sociedade e no envelhecimento. Não se trata apenas de deficiência física; trata-se de solidão e perda de propósito, que são problemas muito mais prevalentes (e muito piores). E então a questão é: o que podemos fazer tecnologicamente para ajudar as pessoas a sentirem-se mais jovens?

No TRI, estamos explorando “robôs que recebem cuidados” – robôs que recebem ensino de um ser humano. Evoluímos para ser criaturas que amam dar e ajudar. Quando você programa uma máquina por meio de demonstração, e essa máquina ajuda outra pessoa, você sente um propósito. Acreditamos que os robôs podem ser coisas bidirecionais para melhorar a qualidade de vida psicologicamente, não apenas fisicamente.

Quando você iniciou o TRI, há 10 anos, perguntei em que você se concentraria, sua resposta realmente me marcou: você disse cuidar dos idosos, porque “não temos escolha”.

Pratt: Sim. As estatísticas no Japão e nos EUA só estão a piorar, e nós não tenha uma escolha. É importante lembrar que uma sociedade envelhecida tem um enorme impacto sobre os jovens. Isto deve-se ao rácio de dependência, que é o número de jovens no mercado de trabalho que apoiam tanto as pessoas que são demasiado jovens para trabalhar como também as que são demasiado velhas para trabalhar. Esses números ficam cada vez piores.

Como podemos resolver isso?

Pratt: Tivemos alguns avanços incríveis com o sistema um, mas isso não significa que os robôs farão tanto, a menos que alguém faça também um avanço no sistema dois. Ou, onde temos um sistema onde os humanos fornecem algum nível de controle de supervisão do sistema dois.

Esse tipo de controlo de supervisão humano leva-nos de volta à RDC, não é?

Pratt: [Laughs] Isso é exatamente certo! Olha, não vou dizer para você não elogiar a RDC… Teve alguém que chamou de “Woodstock dos Robôs”, o que simplesmente aqueceu meu coração, foi muito legal!

Então, 10 anos depois, como você se sente em relação à quantidade de entusiasmo na robótica humanoide atualmente?

Pratt: Estamos nos aproximando do que (espero!) é um pico de expectativas infladas para os humanóides. E isso ocorre porque ninguém está pensando profundamente sobre a questão do sistema um versus sistema dois.

No momento, nossos sistemas físicos de IA são apenas correspondência de padrões. Eles são incrivelmente capazes, e é surpreendente como essas coisas são boas – estamos muito orgulhosos disso. E acreditamos que agregar o aprendizado de muitas tarefas por meio de grandes modelos de comportamento será incrivelmente eficaz. Mas ainda não é o sistema dois. Há muitas promessas excessivas acontecendo, e isso é muito triste porque está nos preparando para uma queda. O que me preocupa é o nível de desilusão que se seguirá.

Como podemos evitar aquele colapso na robótica quando a bolha da propaganda humanóide estourar?

Pratt: Por enquanto, precisamos de amortecimento. Em sistemas de controle, você estabiliza um sistema instável adicionando amortecimento. A imprensa e o mundo acadêmico podem acrescentar compensação, lembrando a todos que o que estamos vendo nos humanóides agora não é realmente raciocínio.

Devemos também lembrar que o campo da condução automatizada também passou por um estouro de bolha, e apenas algumas empresas sobreviveram a isso, mantendo o entusiasmo baixo e sendo persistentes. Acho que deveríamos fazer isso aqui também.

Dos artigos do seu site

Posted by admin

Tagged with

Refugo

Robôs humanóides e a mudança cerebral da IA

Gerenciando o hype da robótica humanóide

Posted by admin

Deixe um comentário Cancelar resposta

Gerenciando o hype da robótica humanóide

Posted by admin

Like to share?

Deixe um comentário Cancelar resposta