O futuro da IA ​​física não são robôs mais inteligentes, mas interfaces mais inteligentes

Este artigo patrocinado é oferecido a você pela Wetour Robotics.

Um técnico de campo em uma turbina eólica, com o arnês preso e as duas mãos segurando uma chave inglesa, precisa enviar um comando para o dispositivo de diagnóstico pendurado em seu cinto. Um funcionário de logística em uma doca de carga, com luvas e olhos no palete, precisa redirecionar um elevador conectado. Uma pessoa que usa um dispositivo auxiliar de mobilidade em uma rua movimentada deseja empurrá-lo para frente sem pegar o telefone ou falar em voz alta. Nenhum desses momentos exige um robô mais inteligente. Eles pedem uma forma mais inteligente de serem ouvidos pelas máquinas que já existem.

A indústria vem construindo de um lado

Os últimos três anos de IA física foram uma história de progresso notável no lado robótico do ciclo. Empresas como Boston Dynamics, Figure e Unitree avançaram atuadores, locomoção e destreza a um nível que teria parecido implausível há uma década. A Gemini Robotics do Google DeepMind redefiniu o que os modelos de visão-linguagem-ação podem fazer em ambientes não estruturados. A trajetória do hardware e dos modelos de base é real e está se acelerando.

Mas há um outro lado nesse ciclo, e ele tem sido tratado como um problema resolvido há muito tempo. A interface entre humanos e máquinas padronizou, durante 40 anos, três modalidades de entrada: telas, botões e voz. Cada um deles pressupõe que o usuário pode parar, olhar para baixo e traduzir a intenção em comandos estruturados. Essa suposição é quebrada no momento em que o trabalho passa para um ambiente real. Em uma turbina. Em uma doca. Numa calçada. Em qualquer ambiente onde as mãos estão ocupadas, os olhos estão comprometidos ou a fala é impraticável, a pilha de interface convencional falha silenciosamente.

A fusão de intenção espacial é o processamento simultâneo de três fluxos de informações centradas no ser humano, nomeadamente posição espacial, contexto visual e intenção gestual: Seu corpo é a interface.

O gargalo do lado humano do loop está se tornando tão importante quanto o do lado da máquina. E resolvê-lo requer uma questão diferente. Não como podemos tornar o robô mais capaz, mas como podemos deixar o ser humano participar do sistema de computação tão naturalmente quanto o robô já faz.

A aposta da Wetour Robotics: colocar o humano de volta no ciclo computacional

A Wetour Robotics está apostando que o próximo salto arquitetônico na IA física não se trata de tornar o robô mais capaz. Trata-se de tornar o ser humano um nó de primeira classe na rede de computação, com o mesmo tipo de participação de baixa latência e alta fidelidade que os dispositivos conectados já desfrutam.

Os engenheiros da Wetour Robotics enquadram o problema desta forma: uma pulseira que reconhece um gesto não é suficiente. Uma câmera que reconhece uma cena não é suficiente. A informação que um ser humano transporta sobre o que está prestes a fazer é distribuída por múltiplos canais, incluindo onde o seu corpo está no espaço, o que os seus olhos estão a observar e o que os seus músculos estão a preparar-se para fazer, e qualquer canal único observado isoladamente é ambíguo. Reconstruir a intenção de forma confiável significa fundir esses canais no nível do sistema operacional, com latência baixa o suficiente para que o loop pareça fechado em vez de mediado.

Essa abordagem tem um nome. A Wetour Robotics chama isso de Fusão de Intenção Espacial: o processamento simultâneo de três fluxos de informações centradas no ser humano, nomeadamente posição espacial, contexto visual e intenção gestual, fundidos em um único comando em tempo real para qualquer dispositivo físico conectado. É a implementação técnica por trás de uma declaração de posicionamento mais simples que a empresa utiliza externamente: seu corpo é a interface.

Elegante dispositivo eletrônico retangular prateado rotulado como \u201cORQUESTRA\u201d em um fundo cinza claro. Orchestra é um hub inteligente portátil que executa o sistema operacional que lida com fusão de sensores, inferência de intenções, tradução de comandos e arbitragem de segurança. A plataforma de computação de referência é a NVIDIA Jetson Orin Nano Super, que fornece capacidade de inferência no dispositivo suficiente para manter todo o circuito de controle na borda, sem dependência da nuvem no caminho crítico. Wetour Robótica

A arquitetura: três camadas, quatro motores, um loop

O Orchestra não é um dispositivo único, mas uma plataforma em camadas, projetada desde o início para ser flexível em termos de sensores e independente de atuadores. A arquitetura se decompõe em três camadas de percepção e quatro motores de coordenação.

Orquestra em si é o núcleo local de computação e orquestração: um hub inteligente portátil que executa o sistema operacional que lida com fusão de sensores, inferência de intenções, tradução de comandos e arbitragem de segurança. A plataforma de computação de referência é a NVIDIA Jetson Orin Nano Super, que fornece capacidade de inferência no dispositivo suficiente para manter todo o circuito de controle na borda, sem dependência da nuvem no caminho crítico. A inferência de borda não é negociável para esta aplicação. A latência de cadeia completa, desde a aquisição do sinal biológico até o comando do atuador, é mantida abaixo de 100 milissegundos, o envelope dentro do qual o controle de circuito fechado parece natural, em vez de lento.

VisionLink lida com a percepção visual e espacial. As câmeras alimentam modelos de visão que identificam objetos, estimam distâncias e rastreiam o contexto ambiental. O VisionLink foi projetado não como uma camada de reconhecimento passiva, mas como um gerador de comandos em tempo real: suas saídas alimentam diretamente o Orchestra OS para serem fundidas com dados de biossinais.

Condutor é o pipeline de biossinal. Ele ingere dados eletromiográficos de superfície brutos (sEMG) de um dispositivo usado no pulso, classifica padrões temporais em gestos discretos ou sinais de controle contínuos e emite comandos do atuador. A propriedade tecnicamente interessante do sEMG para este caso de uso é que o sinal precede o movimento visível. Os potenciais de ação da unidade motora aparecem na superfície da pele cerca de 50 a 80 milissegundos antes de um dedo completar o gesto correspondente. A Wetour Robotics chama essa propriedade de detecção de intenção pré-movimento e é o que permite ao Orchestra antecipar a intenção do usuário em vez de reagir a ela.

Além das três camadas de percepção, o Orchestra OS executa quatro mecanismos de coordenação. O Motor de Percepção ingere e normaliza fluxos brutos de sensores. O Mecanismo de intenção realiza fusão de intenção espacial entre modalidades, resolvendo o que o usuário está tentando fazer de acordo com onde está, o que está olhando e o que sua mão está sinalizando. O Mecanismo de Orquestração traduz a intenção em sequências de comando específicas do dispositivo para qualquer atuador conectado. O Motor de segurança arbitra comandos conflitantes, impõe envelopes operacionais e bloqueia a execução contra condições de segurança de tempo de execução.

Wetour Robótica

As compensações sobre as quais somos honestos

Nenhum sistema que faça a ponte entre o corpo humano e o mundo digital está concluído. Três desafios de engenharia permanecem em aberto e a empresa aborda cada um deles com uma compensação deliberada, em vez de uma alegação de tê-los resolvido totalmente.

Estabilidade basal do sEMG em movimento. Em um usuário estacionário, o reconhecimento contínuo de gestos do sEMG é confiável. Quando o usuário está andando, subindo ou se movendo de outra forma, artefatos de movimento e desvios do eletrodo degradam o sinal de maneiras que são difíceis de compensar totalmente. Em vez de prometer demais o controle contínuo em configurações dinâmicas, o Orchestra usa como padrão um conjunto menor de gestos discretos e robustos em ambientes operacionais complexos e reserva modos de controle contínuo para contextos onde a relação sinal-ruído os suporta.

Miniaturização da computação de IA de ponta. A execução do loop de controle do Orchestra inteiramente na borda requer inferência real no dispositivo, o que historicamente significou uma troca entre capacidade de computação, duração da bateria e formato. A abordagem da Wetour Robotics tem sido uma placa transportadora compacta combinada com um design térmico e um módulo de bateria dimensionado para uso durante todo o dia. O resultado é um hub que viaja com o usuário, em vez de prendê-lo a uma mesa, e que executa todo o ciclo de percepção até a atuação sem descarregar para a nuvem.

Heterogeneidade de protocolos de dispositivos de terceiros. O lado atuador do circuito é uma paisagem fragmentada. Diferentes fabricantes expõem diferentes interfaces de comando, diferentes pilhas de comunicação e diferentes convenções de segurança, e um sistema operacional de IA física deve ser integrado a todos eles. A Wetour Robotics usa uma camada de agente de IA para negociar a conexão e a tradução de protocolo de forma adaptativa, para que o Orchestra OS possa ingerir dados de uma ampla variedade de dispositivos, executá-los por meio de modelos de rede neural que inferem a intenção humana e emitir o comando certo no protocolo certo para o dispositivo do outro lado.

Por que isso é importante e por que ajuda o resto da área

A história da computação é uma história de revoluções de interface. As linhas de comando deram lugar às interfaces gráficas de usuário, que deram lugar ao toque, que deu lugar à voz. Cada transição expandiu quem poderia participar do sistema e o que poderia fazer com ele. A próxima transição não se trata de uma nova tela ou de um novo microfone. Trata-se de tratar o próprio corpo humano como um participante da rede computacional, capaz de contribuir com intenções com a mesma velocidade e fidelidade que qualquer outro nó conectado pode.

A história da computação é uma história de revoluções de interface. A próxima transição não se trata de um novo ecrã ou de um novo microfone – trata-se de tratar o próprio corpo humano como um participante na rede informática.

Este caminho não é um concorrente do trabalho que está sendo feito em robôs humanóides, modelos básicos para IA incorporada e manipulação hábil. É o complemento que faltava para esse trabalho. O problema aberto mais difícil para os sistemas humanóides são os dados: cada interação natural entre um ser humano e o mundo físico é um sinal de treinamento potencial, e a maioria dessas interações são atualmente invisíveis para qualquer sistema de computação. À medida que mais humanos se tornam nós de primeira classe no circuito, essas interações tornam-se observáveis, estruturadas e, em última análise, úteis para treinar a próxima geração de IA incorporada, incluindo os robôs humanóides que estão sendo desenvolvidos hoje.

Em outras palavras: colocar o ser humano de volta no ciclo computacional não envolve apenas interfaces melhores para usuários individuais. Trata-se de gerar o tipo de dados de interação homem-máquina fundamentados e reais que o ecossistema mais amplo de IA física precisará para continuar avançando. O lado robótico e o lado humano do ciclo não são dois futuros concorrentes. São duas metades do mesmo.

É isso que a Wetour Robotics quer dizer quando diz: Seu corpo é a interface.

Saiba mais em wetourrobotics.com.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *