Uma foto vale por mil palavras. Ou não.

Você deve lembrar-se da nossa postagem sobre os avanços na área de visão computacional, em especial, o algoritmo da Google capaz de reconhecer objetos em cenas arbitrárias, certo? Pois é, a Google é insaciável e divulgou os resultados de mais uma pesquisa relacionada e inovadora, sob o título “A picture is worth a thousand (coherent) words“.

A gigante de Mountain View mostra os avanços das suas pesquisas em descrição natural de imagens, uma área que surge da interação entre processamento de linguagem natural e visão computacional. Seu principal objetivo é conseguir que computadores analisem e compreendam imagens para que, em seguida, consigam gerar frases sucintas que descrevam a cena observada.

Descrição gerada por computador: “Two pizzas sitting on top of a stove top oven”

Descrição gerada por computador: “Two pizzas sitting on top of a stove top oven”

Os avanços mais recentes na área de tradução automática (tal qual o Google Translator) utilizam uma rede neural recorrente para converter uma frase em português, por exemplo, em uma representação vetorial. Em seguida, outra rede neural recorrente é responsável por sintetizar frases a partir de tal vetor em outra língua, como japonês.

A diferença entre o estudo apresentado e os algoritmos anteriores é que, ao invés de combinar um sistema de visão com outro de processamento de linguagem natural, a Google decidiu implementar um único sistema de aprendizado. Para tanto, construiu-se uma rede neural convolucional que analisa imagens e, em sequência, uma rede neural recorrente para gerar as descrições em linguagem natural. As redes foram treinadas para maximizarem, diretamente, as descrições.

Como apresentado abaixo, os resultados são impressionantes. O artigo científico da pesquisa foi divulgado gratuitamente e pode ser acessado por meio deste link.

Algumas frases, corretas e incorretas, descritas automaticamente

Algumas frases, corretas e incorretas, descritas automaticamente

Não deixe de acompanhar as próximas invenções e descobertas em visão computacional, além das interações que irão surgir cada vez mais com outras áreas do conhecimento.

Anúncios

Deixe um comentário

Preencha os seus dados abaixo ou clique em um ícone para log in:

Logotipo do WordPress.com

Você está comentando utilizando sua conta WordPress.com. Sair / Alterar )

Imagem do Twitter

Você está comentando utilizando sua conta Twitter. Sair / Alterar )

Foto do Facebook

Você está comentando utilizando sua conta Facebook. Sair / Alterar )

Foto do Google+

Você está comentando utilizando sua conta Google+. Sair / Alterar )

Conectando a %s