Emoções de robôs mais inteligentes a partir de modelos de linguagem visual

Este artigo faz parte de nossa série exclusiva IEEE Journal Watch em parceria com IEEE Xplore.

À medida que os robôs avançam em termos de destreza e outras capacidades físicas, torna-se mais provável que os humanos trabalhem ao lado deles. Se isso acontecer, como é que as capacidades emocionais dos robôs precisarão de avançar para que possam trabalhar com sucesso com as pessoas?

Num estudo recente, investigadores treinaram robôs colaborativos para ler emoções humanas, não só tendo em conta as expressões faciais, mas também factores contextuais nas interacções. Por meio de experimentos com 40 voluntários, os pesquisadores avaliaram como a capacidade de um robô de ler as emoções humanas e ajustar seu comportamento, por sua vez, impactou a percepção humana do robô e de suas capacidades enquanto os dois colaboravam nas tarefas. Os resultados – que mostram que as capacidades emocionais dos robôs só vão até certo ponto com os humanos – foram publicados em 18 de maio em Cartas de Robótica e Automação IEEE.

Seung Chan Hong conduziu o estudo como parte de sua tese de graduação enquanto estudava na Universidade de Melbourne, na Austrália. Ele observa que, embora tenha havido muito entusiasmo no avanço das habilidades físicas dos robôs, esta é apenas uma peça do quebra-cabeça. “Precisamos também inovar quando se trata de eles realmente interagirem com os humanos, não apenas com suas capacidades físicas”, diz ele.

Isso o levou a se aprofundar nos aspectos emocionais das interações entre humanos e robôs. Primeiro, Hong e seus coautores decidiram treinar um robô para ler emoções humanas usando um modelo de linguagem de visão (VLM), que é semelhante a grandes modelos de linguagem como o ChatGPT, mas que também pode receber informações visuais.

Treinamento de VLMs para reconhecimento de emoções humanas

Para treinar seu VLM, os pesquisadores fizeram voluntários assistirem a vídeos de robôs entregando objetos a humanos – com vários graus de sucesso – e descreverem as emoções que os humanos expressavam. É importante ressaltar que os voluntários que rotularam esses vídeos foram capazes de levar em conta mais contexto nessas interações, em vez de reportarem apenas as expressões faciais dos humanos no vídeo. Por exemplo, uma pessoa que faz uma pausa para pensar com a testa franzida pode simplesmente estar concentrada na tarefa que tem em mãos e não necessariamente estar com raiva. Fatores contextuais, como tamborilar os dedos, franzir os lábios ou outros comportamentos, podem apontar para a verdadeira causa da testa franzida de uma pessoa.

Os pesquisadores então compararam seu VLM a um sistema convencional de IA que se baseia em análise facial padrão e rastreamento de objetos usado em interações entre humanos e robôs. Eles descobriram que o VLM superou a abordagem tradicional. Numa escala de 0 (nenhuma semelhança de significado com a emoção identificada pelos voluntários humanos) a 1 (uma correspondência perfeita de significado), o sistema convencional de IA alcançou uma pontuação de 0,77. Em comparação, o VLM obteve pontuação de 0,86.

Hong diz: “Eu acho [the VLM] foi capaz de se alinhar muito melhor com o que os observadores humanos estavam vendo, porque não era apenas olhar para o rosto da pessoa por um breve período de tempo, mas ver toda a cena – onde a pessoa estava e o que estava fazendo, e como estava interagindo com o robô.”

Numa segunda experiência, a equipa de investigação pediu a 40 voluntários que interagissem com um robô utilizando o seu VLM – mas programou propositadamente o robô para cometer um erro. O robô então teve que oferecer um pedido de desculpas emocionalmente adaptativo que explicasse a resposta percebida do humano ao erro, ou um pedido de desculpas falado pré-programado.

A esmagadora maioria dos participantes preferiu a resposta emocionalmente adaptativa, com 31 em cada 40 pessoas a preferirem esta abordagem a um pedido de desculpas padronizado.

No entanto, as respostas ao inquérito sublinharam como esta adaptabilidade emocional era muito menos importante do que a funcionalidade do robô. Depois de colaborar com um robô que falhou na sua tarefa, muitos participantes classificaram a sua confiança no robô como inferior, independentemente de como este se desculpou pelo seu erro. “Um pedido de desculpas personalizado funciona como um lubrificante social, mas não pode reparar a confiança perdida pelo fracasso do robô na sua tarefa física”, diz Hong.

Curiosamente, o VLM classificou as emoções dos seus parceiros humanos de forma semelhante aos voluntários humanos que observaram uma interação a partir de uma perspectiva de terceiros. Mas quando as avaliações do VLM foram medidas em relação às emoções auto-relatadas pelos humanos durante a segunda experiência – as descrições mais precisas das suas verdadeiras emoções – a sua capacidade de prever emoções com precisão caiu significativamente.

“Embora o VLM seja um bom observador de sinais sociais externos, não é um leitor de mentes”, diz Hong. “Combinava bem com observadores humanos de terceira pessoa, mas nem sempre se alinhava com os sentimentos internos e auto-relatados do usuário.”

Juntos, esses resultados mostram que os robôs não são perfeitos na leitura das emoções humanas. Portanto, embora as pessoas possam apreciar seus esforços, elas ainda irão querer colegas de trabalho competentes.

Dos artigos do seu site

Artigos relacionados na web

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *