Inteligência artificial já vê de outro jeito

autor Misto Brasília

Postado em 15/06/2018 10:34:10 - 10:19:00


Resultados pesquia representando os objetos em diferentes perspectiva/Divulgação/ DeepMind

Máquinas podem “olhar” para imagens bidimensionais de um espaço tridimensional

Texto de João Pedro Pereira

Um humano que olhe para um muro sabe que do outro lado está, pelo menos, o outro lado do muro. Sabe também que a abertura no muro que vê à sua esquerda estaria à direita se por acaso ele próprio se encontrasse do lado oposto. E também tem a noção de que pode haver algo escondido do outro lado, que não é visível do ponto onde se encontra.

Este tipo de capacidade de representação do espaço foi agora desenvolvido num sistema de inteligência artificial, embora de forma mais limitada, por investigadores da DeepMind, a cada vez mais falada empresa de inteligência artificial do Google. 

A equipe desenvolveu um sistema para que as máquinas possam “olhar” para imagens bidimensionais de um espaço tridimensional com objetos, conceber como seria esse espaço se o estivessem a “ver” de outra perspectiva e reconhecer que determinados pontos de vista podem esconder elementos – tudo num processo que prescinde de explicações introduzidas por humanos. Os detalhes da investigação são publicados nesta sexta-feira (15), num artigo científico na revista Science, no qual os investigadores defendem que a técnica é um passo na direção de “máquinas que aprendem autonomamente a compreender o mundo à sua volta”.

Os investigadores recorreram a redes neuronais artificiais, uma tecnologia popular de inteligência artificial que é vagamente inspirada no funcionamento do cérebro. As redes neuronais já são frequentemente usadas para identificar os elementos de uma imagem, incluindo por empresas como o Google e o Facebook. Tipicamente, usam descrições humanas para aprender o que são os elementos nas imagens (“uma vaca num prado” ou “um automóvel numa ponte”) e para conseguir detectar elementos semelhantes noutras imagens.

O sistema criado pela equipe da DeepMind é composto por duas redes: uma para analisar as imagens bidimensionais e criar uma representação interna do espaço mostrado, e a outra para gerar novas imagens. As imagens que o algoritmo analisou para compreender o espaço não mostravam cenários do mundo real, mas antes cenários significativamente mais simples, que foram criados em computador: salas com algumas estruturas dispersas, como esferas, cilindros e cones. Contudo, as redes neuronais não contavam com a ajuda de uma explicação humana – ninguém dizia aos computadores que um determinado conjunto de pixeis era uma esfera vermelha e que outro conjunto era uma parede preta.

Em vez disso, aprenderam sozinhas (através da análise de milhões de exemplos) a identificar elementos como as cores, o tamanho, a textura, bem como a disposição e o número de objetos. A partir daí, quando lhes eram dadas algumas imagens de um espaço tridimensional que nunca tinham visto (nalgumas das experiências, contaram apenas com uma única imagem), as redes neuronais eram capazes de gerar novas imagens que mostravam como seria observar aquele espaço de um ponto de vista diferente (que era determinado aleatoriamente). Estas novas imagens incluíam elementos como a direção da luz e a projeção de sombras, sem que as máquinas tivessem conhecimento prévio do comportamento da luz ou das regras da perspectiva. 

Para além deste tipo de salas, os cientistas usaram imagens de labirintos virtuais, o que colocava um desafio mais complexo. Nestes casos, conseguiram treinar o sistema para que gerasse tanto novas imagens do labirinto numa perspectiva de primeira pessoa, como imagens do labirinto visto de cima, semelhantes a um mapa. A tecnologia foi ainda usada para controlar um braço robótico virtual, depois de analisadas imagens do braço e do objeto que este devia alcançar.PUB

Em alguns casos, o algoritmo criado pela DeepMind reconhecia que não tinha informação suficiente. Por vezes, a imagem que a máquina recebia era pouco reveladora – por exemplo, como se estivesse a observar a sala de um ponto muito próximo de uma grande esfera, que escondia praticamente tudo o resto. Nestas situações, conseguia gerar várias imagens (“plausíveis”, dizem os cientistas) para mostrar como eventualmente seria ver a sala de outros pontos de vista. Em algumas experiências, a inteligência artificial colocava objetos novos nas imagens geradas. Fosse um humano a fazer o mesmo e dir-se-ia que estava a adivinhar, ou a imaginar, o que poderia existir nas zonas tapadas.

Este sistema “não chega sem as suas limitações”, observa o académico Matthias Zwicker, da Universidade de Maryland, nos EUA, num comentário também publicado na Science. “As experiências estão restritas a cenas 3D simples, que consistem em alguns objectos geométricos básicos. Por isso, continua a não ser claro quão perto está a abordagem deles de compreender ambientes complexos do mundo real, o que a tornaria útil, por exemplo, para implementar um controlo prático de robôs.”

Os investigadores, por seu lado, dizem esperar conseguir aumentar a complexidade das cenas e argumentam que a investigação abre caminho “à compreensão de cenários, à imaginação, planeamento e comportamento sem qualquer supervisão”.

(João Pedro Pereira é jornalista do Público)


General nega que Michele Bolsonaro mandou tirar obras sacras do Alvorada
Incêndio atinge a Refinaria de Manguinhos (RJ)
veja +
Governador eleito do DF Ibaneis Rocha diz que não tem nenhum tipo de surpresa
Congresso deve votar Orçamento de 2019 nesta semana
Aprovado orçamento de 2019 com reajuste para agentes comunitários
veja +