por que IAs NÃO SABEM gerar MÃOS
0Eu estava usando uma inteligência artificial
pra conseguir uma imagem bem específica de um porco recebendo carinho de uma mão
humana! Sim, era pro video anterior! Então eu escrevi o comando, o prompt,
pra máquina e ela me devolveu isso aqui! Uma bela imagem de porcos fofos e perfeitamente
desenhados em um ótimo nível artístico. E ao mesmo tempo, foi gerado essa mão… MAS QUE (censurado)
E essa mão também foi feita, e essa aqui e ainda essa outra QUE COISA PERTURBADORA!
Bom, ok, aparentemente IAs não sabem fazer mãos e jamais vão conseguir. Mas aí eu descobri que se eu
usasse a versão nova daquela IA eu conseguia isso! Essas são mãos realistas com um número
de dedos corretos nos lugares corretos e proporções corretas. Apesar de que ainda tem
alguns detalhes que incomodam um pouquinho! Bom mas de qualquer forma isso realmente
foi impressionante e mostra como a IAs estão avançando rápido. O que é impossível
hoje, pode não ser daqui uns meses. E é bem provável que estamos prestes a ver mãos
serem geradas artificialmente com uma perfeição fotorrealística de maneira consistente.
Porém mesmo quando esse futuro chegar, vamos poder olhar pra trás e lembrar de como
as primeiras IAs tiveram uma dificuldade em especial com mãos. E por que isso aconteceu?
Bom, primeiro de tudo, mãos são difíceis não só pra IAs, mas também pra humanos. Você já tentou
fazer um desenho relativamente realístico de uma pessoa e quando chega na parte da mão
as coisas ficam bem mais complicadas? Claro que se você for um desenhista,
ou alguém com prática o suficiente, dá pra fazer mãos realistas perfeitamente. Existe
uma técnica pra isso, porém nem sempre existiu. Na imensa maioria do tempo da existência
humana a gente simplesmente não conseguia desenhar mãos realistas, nunca ninguém
havia conseguido de maneira consistente. Na pré-história assopravam tinta contra a
mão numa parede gerando apenas o contorno, no antigo Egito as mãos geralmente tinham
quase todos os dedos do mesmo tamanho, e na idade média ainda eram mãos muito simplificadas
quase como se fossem de um desenho animado. Porém um dia nasceu um cara que mudou isso.
Leonardo da Vinci era um cara com interesse em várias áreas do conhecimento, incluindo a anatomia
humana. Ele dissecou por volta de trinta corpos, e além de descrever o que encontrava por baixo
da pele, ele se preocupou em entender como cada parte se relacionava durante o movimento.
Ou seja, Leonardo simplesmente não só entendia a aparência exterior, mas também a
biomecânica por baixo. E isso o permitiu desenhar pessoas com um realismo impressionante
pra época, o que incluía as suas mãos. Porém é claro que Leo não estava sozinho no
vácuo, existia um contexto social na época que o permitiu atingir esses feitos. Aquela era
a renascença e vários outros artistas estavam dando grandes contribuições pro desenho do
corpo humano. E provavelmente um dos mais icônicos desenhos da história, vem dessa época,
e bota a mão humana no centro das atenções. A Criação de Adão foi feito não por Leonardo, mas
por Michelangelo, que também estudava anatomia humana. Aqui nós podemos ver Adão e Deus
os dois quase tocando suas mãos levemente. E aqui podemos ver os ligamentos do antebraço
de cada um, os músculos da mão e por onde passam ossos. Tudo isso cria o realismo necessário
pra nos convencer de que aquela pode ser uma mão de verdade. E isso só é possível
porque a humanidade foi além do externo, e passou a compreender o que há nas profundezas
abaixo da pele. Porém, IAs não passaram por isso. Elas não só não sabem o que há debaixo mas
como IAs também não sabem o que é uma mão, elas não têm o menor conceito do que é
nada. Elas são apenas modelos que associam palavras à formas, cores e tamanhos.
Ou seja, quando você digita um prompt, a máquina não compreende como nós compreendemos
o que você está dizendo. Por isso ela não sabe exatamente o que está criando em uma
imagem. E isso abre portas pra que ela tenha dificuldades em criar certas coisas.
Tudo vai depender de como a máquina foi treinada pra reconhecer padrões. Normalmente isso acontece
através de um grande banco de imagens acompanhadas de textos descrevendo o que existem nelas.
As IAs precisam então processar essa enorme quantidade de dados e de alguma forma criar
uma associação matemática entre palavras e imagens. E isso funciona relativamente bem, o
problema é que sempre vão existir vieses. Não porque os desenvolvedores são tendenciosos, mas
porque o banco de dados que existe é tendencioso. O banco de imagens que existe na internet não
representa perfeitamente a realidade. Por exemplo, existe uma quantidade desproporcional
de imagens de pessoas brancas, o que causa um viés no aprendizado da
máquina em direção às pessoas brancas. E se isso não foi ativamente contrabalanceado,
significa que na maioria das vezes que eu apenas pedir pruma IA gerar uma pessoa, sem especificar
nenhuma característica física, possivelmente a etnia dessa pessoa será branca por padrão.
Tudo por causa do banco de imagens inicial. Agora isso não é um erro, a máquina ao gerar
uma pessoa branca entregou o que você pediu, ela só é branca. Porém o banco de imagens pode ter
outros vieses que causam algumas coisas bizarras. Se você reparar, a imensa maioria das imagens de
pessoas que podemos encontrar na internet dão um enfoque principal no rosto delas. E isso por um
lado é bom, já que o rosto humano é difícil de desenhar porque possui muitas características
complexas. Já o resto do corpo é mais simples, tronco, pernas, braços, mãos… mãos não.
Na verdade, as mãos são bem complexas, elas possuem dezenas de pequenas articulações.
O que significa que dependendo da perspectiva do observador, elas podem estar em uma quantidade
absurda de diferentes posições e formatos. Às vezes ocultando dedos ou partes de dedos.
Além disso elas podem estar em uma grande quantidade de contextos com diferentes objetos,
afinal a mão humana é a principal interface entre a nossa mente e a realidade, é através das
mãos que nós construímos o mundo à nossa volta. Some a isso tudo a nossa capacidade em
reconhecer mãos, elas fazem muito parte de nossas vidas e simplesmente somos muito bons
em reconhecer quando há algo de errado. Às vezes um acréscimo de dez por cento no tamanho do ombro
não nos incomode, mas dez por cento no mindinho, certamente vai chamar um pouco mais de atenção.
Então por causa da ausência conceitual, do viés do banco de dados, da complexidade das
mãos, dos contextos em que está inserida, e do nosso fácil reconhecimento dela, o
resultado não poderia ser diferente para essas primeiras IAs desenhistas. Pra certas
coisas elas precisam de uma certa mãozinha. Diferentemente de porcos na hora de jogar
videogame, agora pra saber por que porcos jogam tanto videogame, basta clicar bem aqui!
No maior canal de ciência do nordeste. E tchau!