por que IAs NÃO SABEM gerar MÃOS

0
Share
Copy the link

Eu estava usando uma inteligência artificial 
pra conseguir uma imagem bem específica de um porco recebendo carinho de uma mão 
humana! Sim, era pro video anterior! Então eu escrevi o comando, o prompt, 
pra máquina e ela me devolveu isso aqui! Uma bela imagem de porcos fofos e perfeitamente 
desenhados em um ótimo nível artístico. E ao mesmo tempo, foi gerado essa mão… MAS QUE (censurado)
E essa mão também foi feita, e essa aqui e ainda essa outra QUE COISA PERTURBADORA!
Bom, ok, aparentemente IAs não sabem fazer mãos e jamais vão conseguir. Mas aí eu descobri que se eu 
usasse a versão nova daquela IA eu conseguia isso! Essas são mãos realistas com um número 
de dedos corretos nos lugares corretos e proporções corretas. Apesar de que ainda tem 
alguns detalhes que incomodam um pouquinho! Bom mas de qualquer forma isso realmente 
foi impressionante e mostra como a IAs estão avançando rápido. O que é impossível 
hoje, pode não ser daqui uns meses. E é bem provável que estamos prestes a ver mãos 
serem geradas artificialmente com uma perfeição fotorrealística de maneira consistente.
Porém mesmo quando esse futuro chegar, vamos poder olhar pra trás e lembrar de como 
as primeiras IAs tiveram uma dificuldade em especial com mãos. E por que isso aconteceu?
Bom, primeiro de tudo, mãos são difíceis não só pra IAs, mas também pra humanos. Você já tentou 
fazer um desenho relativamente realístico de uma pessoa e quando chega na parte da mão 
as coisas ficam bem mais complicadas? Claro que se você for um desenhista, 
ou alguém com prática o suficiente, dá pra fazer mãos realistas perfeitamente. Existe 
uma técnica pra isso, porém nem sempre existiu. Na imensa maioria do tempo da existência 
humana a gente simplesmente não conseguia desenhar mãos realistas, nunca ninguém 
havia conseguido de maneira consistente. Na pré-história assopravam tinta contra a 
mão numa parede gerando apenas o contorno, no antigo Egito as mãos geralmente tinham 
quase todos os dedos do mesmo tamanho, e na idade média ainda eram mãos muito simplificadas 
quase como se fossem de um desenho animado. Porém um dia nasceu um cara que mudou isso.
Leonardo da Vinci era um cara com interesse em várias áreas do conhecimento, incluindo a anatomia 
humana. Ele dissecou por volta de trinta corpos, e além de descrever o que encontrava por baixo 
da pele, ele se preocupou em entender como cada parte se relacionava durante o movimento.
Ou seja, Leonardo simplesmente não só entendia a aparência exterior, mas também a 
biomecânica por baixo. E isso o permitiu desenhar pessoas com um realismo impressionante 
pra época, o que incluía as suas mãos. Porém é claro que Leo não estava sozinho no 
vácuo, existia um contexto social na época que o permitiu atingir esses feitos. Aquela era 
a renascença e vários outros artistas estavam dando grandes contribuições pro desenho do 
corpo humano. E provavelmente um dos mais icônicos desenhos da história, vem dessa época, 
e bota a mão humana no centro das atenções. A Criação de Adão foi feito não por Leonardo, mas 
por Michelangelo, que também estudava anatomia humana. Aqui nós podemos ver Adão e Deus 
os dois quase tocando suas mãos levemente. E aqui podemos ver os ligamentos do antebraço 
de cada um, os músculos da mão e por onde passam ossos. Tudo isso cria o realismo necessário 
pra nos convencer de que aquela pode ser uma mão de verdade. E isso só é possível 
porque a humanidade foi além do externo, e passou a compreender o que há nas profundezas 
abaixo da pele. Porém, IAs não passaram por isso. Elas não só não sabem o que há debaixo mas 
como IAs também não sabem o que é uma mão, elas não têm o menor conceito do que é 
nada. Elas são apenas modelos que associam palavras à formas, cores e tamanhos.
Ou seja, quando você digita um prompt, a máquina não compreende como nós compreendemos 
o que você está dizendo. Por isso ela não sabe exatamente o que está criando em uma 
imagem. E isso abre portas pra que ela tenha dificuldades em criar certas coisas.
Tudo vai depender de como a máquina foi treinada pra reconhecer padrões. Normalmente isso acontece 
através de um grande banco de imagens acompanhadas de textos descrevendo o que existem nelas.
As IAs precisam então processar essa enorme quantidade de dados e de alguma forma criar 
uma associação matemática entre palavras e imagens. E isso funciona relativamente bem, o 
problema é que sempre vão existir vieses. Não porque os desenvolvedores são tendenciosos, mas 
porque o banco de dados que existe é tendencioso. O banco de imagens que existe na internet não 
representa perfeitamente a realidade. Por exemplo, existe uma quantidade desproporcional 
de imagens de pessoas brancas, o que causa um viés no aprendizado da 
máquina em direção às pessoas brancas. E se isso não foi ativamente contrabalanceado, 
significa que na maioria das vezes que eu apenas pedir pruma IA gerar uma pessoa, sem especificar 
nenhuma característica física, possivelmente a etnia dessa pessoa será branca por padrão. 
Tudo por causa do banco de imagens inicial. Agora isso não é um erro, a máquina ao gerar 
uma pessoa branca entregou o que você pediu, ela só é branca. Porém o banco de imagens pode ter 
outros vieses que causam algumas coisas bizarras. Se você reparar, a imensa maioria das imagens de 
pessoas que podemos encontrar na internet dão um enfoque principal no rosto delas. E isso por um 
lado é bom, já que o rosto humano é difícil de desenhar porque possui muitas características 
complexas. Já o resto do corpo é mais simples, tronco, pernas, braços, mãos… mãos não.
Na verdade, as mãos são bem complexas, elas possuem dezenas de pequenas articulações. 
O que significa que dependendo da perspectiva do observador, elas podem estar em uma quantidade 
absurda de diferentes posições e formatos. Às vezes ocultando dedos ou partes de dedos.
Além disso elas podem estar em uma grande quantidade de contextos com diferentes objetos, 
afinal a mão humana é a principal interface entre a nossa mente e a realidade, é através das 
mãos que nós construímos o mundo à nossa volta. Some a isso tudo a nossa capacidade em 
reconhecer mãos, elas fazem muito parte de nossas vidas e simplesmente somos muito bons 
em reconhecer quando há algo de errado. Às vezes um acréscimo de dez por cento no tamanho do ombro 
não nos incomode, mas dez por cento no mindinho, certamente vai chamar um pouco mais de atenção.
Então por causa da ausência conceitual, do viés do banco de dados, da complexidade das 
mãos, dos contextos em que está inserida, e do nosso fácil reconhecimento dela, o 
resultado não poderia ser diferente para essas primeiras IAs desenhistas. Pra certas 
coisas elas precisam de uma certa mãozinha. Diferentemente de porcos na hora de jogar 
videogame, agora pra saber por que porcos jogam tanto videogame, basta clicar bem aqui! 
No maior canal de ciência do nordeste. E tchau!

Comments

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *