A Coisa Mais Útil que a IA Já Fez

3
Share
Copy the link

e se todos os maiores problemas do mundo desde as mudanças climáticas até a cura de doenças e o descarte de resíduos Plásticos e se todos eles tivessem a mesma solução uma solução tão ínfima que seria invisível acredito que isso é possível devido a um avanço recente que solucionou um dos maiores problemas do século anterior Como determinar a estrutura de uma proteína descreveram como o equivalente biológico do último teorema de fermat durante seis décadas dezenas de milhares de biólogos trabalharam cuidadosamente na estrutura de 150.000 proteínas então em apenas alguns anos uma equipe de cerca de 15 pessoas determinou a estrutura de 200 milhões Isso inclui praticamente todas as proteínas conhecidas na natureza como eles fizeram isso e por isso tem o potencial para resolver problemas muito além do campo da biologia uma proteína se inicia como uma cadeia de aminoácidos cada aminoácido tem um átomo de carbono no centro depois de um lado tem um grupo amina e do outro lado um grupo carboxila e a última coisa a qual está ligado pode ser uma dentre 20 diferentes cadeias laterais O que determina Qual dos 20 diferentes aminoácidos esta molécula é o grupo Amina de um aminoácido pode reagir com o grupo carboxila de outro para formar uma ligação peptídica assim aminoácidos podem se unir formando uma cadeia forças eletrostáticas ligações de hidrogênio e interações solventes empurrando e puxando entre inúmeras moléculas podem fazer com que esta cadeia se enrole e se dobre sobre si mesma isso determina a estrutura 3D final da proteína e essa forma é a coisa que realmente importa na proteína ela é construída para um propósito específico como a hemoglobina que possui o local de ligação ideal para transportar oxigênio no sangue Essas são máquinas que precisam estar na orientação correta para trabalhar juntas para mover por exemplo as proteínas nos seus músculos que alteram um pouco a forma para puxar e contrair porém demoraria muito para determinar a estrutura de uma única proteína exato como as proteínas deveriam parecer só começou a ser realmente respondido com técnicas experimentais a primeira maneira de determinar a estrutura da proteína foi criando um cristal dessa proteína depois isso ele foi exposto a raio x para obter um padrão de difração E então os cientistas trabalhariam no sentido Uno para tentar descobrir que forma de moléculas criaria tal padrão Demorou 12 anos para o bioquímico britânico John kendrew obter a primeira estrutura de proteína o alvo era a mioglobina uma proteína que armazena oxigênio essencial em nossos corações ele tentou primeiro com um coração de cavalo mas produziu cristais pequenos devido à falta de mioglobina ele sabia que mamíferos mergulhadores teriam muita mioglobina em seus músculos já que são os melhores em obervar oxigênio então ele obteve um grande pedaço de carne de baleia do Peru isso Finalmente deu a kendry cristais grandes o suficiente para criar uma imagem de difração de raios X e quando saiu parecia bem estranho as pessoas esperavam algo meio lógico matemático compreensível e parecia quase eu não diria feio mas intrincado e complexo como se você visse um motor de foguete e todas as partes penduradas essa estrutura que foi chamada de cagada do século rendeu a kendrew o prêmio Nobel de química de 1962 nas próximas duas décadas apenas cerca de mais 100 estruturas foram resolvidas atualmente a cristalização de proteínas ainda é um grande desafio não é incomum que apenas algumas ou até mesmo uma única estrutura de proteína possa constituir todo o doutorado de alguém às vezes com Progresso parcial em uma delas e é caro a cristalografia de Raios X pode custar dezenas de milhares de dólares por proteína assim os cientistas procuraram outro método para determinar a estrutura proteica sequenciar os aminoácidos de uma proteína Custa apenas cerca de ó descobrir como a proteína se dobra usando esse método pouparia tempo esforço e dinheiro eu entendo como o carbono se comporta e como ele se liga ao enxofre também sei que ele pode se ligar ao nitrogênio E se esses elementos estiverem presentes posso visualizar as dobras e ligações que podem ocorrer se você tiver noções básicas de dinâmica molecular poderá descobrir como essa proteína irá se dobrar uma das poucas previsões verdadeiras em biologia foi a de Linus Pauling observando a geometria dos blocos de construção de proteínas e afirmando que eles deveriam formar hélices e folhas Isso é o que chamamos de estrutura secundária os movimentos e torções locais da proteína Mas além de hélices e folhas bioquímicos não conseguiram descobrir modelos confiáveis que levariam a estrutura final de todas as proteínas uma razão para isso é que a evolução não projetou proteínas desde o início é como um programador inexperiente que apenas adiciona coisas que parecem boas sem saber o que está fazendo e é assim que você acaba com esses objetos incríveis complexos e difíceis de descrever Eles não têm um propósito subjacente da mesma forma que algo projetado por um humano teria para ilustrar o quão complicado esse processo pode ser o biólogo do Instituto de Tecnologia de massachusets Cyrus Levin fez um cálculo aproximado e mostrou que até mesmo uma curta cadeia de proteínas com 35 aminoácidos pode se dobrar de um número astronômico de maneiras então mesmo que um computador Verifique a instabilidade energética de 30.000 configurações a cada nanosegundo levaria 200 vezes a idade do universo para encontrar a estrutura correta determinado John M professor da universidade de Maryland lançou a competição casp em 1994 qu o desafio era simples projetar um modelo de computador que pudesse pegar uma sequência de aminoácidos e gerar sua estrutura os modeladores não saberiam a estrutura correta de antemão mas o resultado de cada modelo seria comparado à estrutura determinada experimentalmente uma correspondência perfeita teria pontuação de 100 Mas acima de 90 era considerada próxima o suficiente para a estrutura ser considerada resolvida os competidores da casp reuniram-se em uma capela de madeira transformada em centro de conferências em Monterrey Califórnia e quando uma previsão não fazia sentido eram incentivados a bater os pés como provocação amigável houve muitas batidas de pés no primeiro ano as equipes não ultrapassaram 40 pontos O Pioneiro era um algoritmo chamado Roseta criado pelo biólogo da Universidade de Washington David Baker uma de suas inovações foi impulsionar o cálculo reunindo o poder de processamento de computadores osos em casas escolas e bibliotecas que se voluntariaram para instalar seu software chamado Roseta em casa um protetor de tela mostrava o curso do cálculo de dobramento da proteína começamos a receber mensagens de pessoas dizendo que assistiam o protetor de tela e achavam que poderiam fazer melhor que o computador então Baker teve uma ideia Ele criou um videogame o jogo foldit configurou uma cadeia de proteínas capaz de se torcer e virarem diferentes arranjos agora em vez do computador os jogadores humanos poderiam fazer os movimentos no jogo em três semanas mais de 50.000 jogadores colaboraram para decifrar uma enzima crucial no vírus HIV a cristalografia de Raios X confirmou a correção do resultado deles os jogadores foram creditados como coautores no artigo de pesquisa Demis hassabis um ex prodígio do xadrez na infância jogou fold hassabis havia fundado recentemente a Deep Mind uma empresa de ia o algoritmo de ia alp go fez manchetes ao vencer o campeão mundial Lee sedol no jogo Gol o movimento 37 do alpa go abalou sedol profundamente mas hassabis nunca esqueceu seu tempo como jogador de foldit eu estava fascinado com isso do ponto de vista do Design de jogos não seria incrível Se pudéssemos imitar a intuição desses jogadores que eram aliás biólogos amadores depois de voltar da Coreia os pesquisadores da deep Mind fizeram uma maratona de programação de uma semana para treinar a ia a jogar Fit Esse foi o começo da meta de hassabis de usar ia para impulsionar a ciência ele iniciou o projeto alphafold para resolver o problema do dobramento de proteínas enquanto isso no casp a qualidade da previsão dos melhores desempenhos incluindo Roseta estagnou Na verdade o desempenho piorou após o casp 8 mesmo com computadores Mais Velozes e Mais estruturas proteicas no banco de dados para treinamento as previsões ainda eram insatisfatórias Deep Mind esperava mudar isso com alphafold a primeira iteração alphafold era uma rede neural profunda padrão similar as usadas para Visão computacional na época os pesquisadores treinaram com inúmeras estruturas de proteínas do banco de dados o alphafold usou a sequência de aminoácidos da proteína e pistas evolutivas importantes como entrada a evolução é impulsionada por mutações no código genético que alteram os aminoácidos dentro de uma sequência de proteínas conforme as espécies evoluem as proteínas precisam manter a forma que permite desempenhar sua função por exemplo a hemoglobina tem a mesma aparência em humanos gatos cavalos e basicamente qualquer mamífero a evolução diz que se não está quebrado não conserte então podemos comparar sequên da mesma proteína em diferentes espécies nesta tabela evolutiva onde as sequências são semelhantes é provável que elas sejam importantes na estrutura e função da proteína Mas mesmo onde as sequências são diferentes é útil olhar onde as mutações ocorrem em pares porque elas podem identificar quais aminoácidos Estão próximos um do outro na estrutura final digamos dois aminoácidos uma lisina com carga positiva e um ácido glutâmico com carga negativa atraem e seguram um ao outro na proteína dobrada agora se uma mutação muda a lisina para um aminoácido com carga negativa ele repelir o ácido glutâmico e desestabilizaria toda a proteína portanto outra mutação deve substituir o ácido glutâmico por um aminoácido com carga positiva isso é conhecido como coevolução essas tabelas evolutivas foram uma entrada importante para o alpa fold como resultado em vez de produzir diretamente uma estrutura 3D o alphafold previu uma entação 2D mais simples de um par dessa estrutura a sequência de aminoácidos é disposta horizontal e verticalmente quando dois aminoácidos Estão próximos na estrutura final a intersecção de linha e coluna correspondente clareia e os pares de aminoácidos distantes escurecem além das distâncias a representação por pares também pode conter informações sobre a torção das moléculas de aminoácidos na estrutura o alfa fold um usou a sequência de proteínas e sua tabela evolutiva em uma rede neural profunda treinada para prever a representação em pares com a sequência de aminoácidos outro algoritmo adou considerando as restrições de distância e torção Essa foi a previsão final da estrutura proteica com este Framework o Alpha fold entrou no casp 13 e imediatamente chamou a atenção foi o vencedor Claro após muitas edições mas não era perfeito a pontuação 70 não era suficiente para ultrapassar os 90 do casp Deep Mind precisava melhorar então hassabis recrutou John Jumper para liderar Alpha fold o alphafold 2 foi construído para projetar Nossa aprendizagem profunda com blocos individuais para aprender sobre proteínas incorporando conceitos geométricos físicos e evolutivos necessários e colocando-os no centro da rede ao invés de um processo ao redor E isso foi um grande aumento de precisão houve três etapas principais para obter melhores resultados com ia primeiro máxima capacidade de computação a Deep Mind já estava em melhor posição do que qualquer outra no mundo ela tinha acesso ao grande poder computacional do Google incluindo suas unidades de processamento de tensor em segundo necessitavam de um conjunto de dados vasto e variado os dados são o maior obstáculo E por quê é fácil dizer que os dados são um obstáculo e devemos ter cuidado com isso alphafold foi treinado com os mesmos dados utilizando uma aprendizagem de máquina muito superior ao Alpha fium portanto todos superestimam o bloqueio dos dados porque ele se torna menos grave com uma melhor aprendizagem de máquina e esse foi o terceiro elemento chave melhores algoritmos de ia agora a ia não é apenas boa em dobramento de proteínas ela pode realizar todas as tarefas que ninguém gosta desde redigir e-mails até atender telefonemas busca de algoritmos melhores recorreu ao transformador o mesmo T presente no chat GPT e ele se baseia no conceito de atenção na frase o animal não atravessou a rua porque estava muito cansado atenção reconhece que se refere ao animal e não a rua baseado na palavra cansado atenção adiciona contexto a qualquer tipo de informação sequencial dividindo-a em pedaços convertendo esses em representações numéricas ou incorporações e fazendo conex ent neste caso a palavra é um animal Blue One Brown tem uma excelente série de vídeos sobre transformadores e atenção grandes modelos de linguagem e alphafold usam atenção para prever a palavra ou informação sequencial mais apropriada para adicionar a uma frase não frases mas sequências de aminoácidos para analisá-las a equipe do alphafold criou sua própria versão do transformador oer o ev former conha duas torres informações evolutivas na torre de biologia e representações de pares na torre de geometria gnome era a rede neural profunda do alphafold 1 que comeava com uma torre e previa a outra em vez disso O evor do Alpha Fall 2 constrói cada torre separadamente ele inicia com palpites tabelas evolutivas de conjuntos de dados conhecidos representações de pares baseadas em proteínas semelhantes e desta vez há uma ponte conectando as duas torres que transmite para frente e para trás pistas biológicas e geométricas recém descobertas na torre da biologia a atenção aplicada em uma coluna identifica sequências de aminoácidos que foram conservadas Enquanto ao longo de uma linha encontra mutações de aminoácidos queeram juntas quando oofor detecta dois aminoácidos fortemente ligados naela evolutiva isso indica que são essenciais para a estrutura e Repassa essa informação à torre de geometria aqui a atensão é usada para calcular as distâncias entre os aminoácidos também foi introduzido o conceito da atensão triangular que consiste basicamente em permitir que trios se atendam mutuamente para cada trio de aminoácidos o alpa fold aplica a desigualdade triangular a soma de dois lados deve ser maior que o terceiro isso limita a distância possível Entre esses três aminoácidos essa informação atualiza a representação do par e isso ajuda o modelo a produzir uma imagem autoc coerente da estrutura se a torre de geometria descobrir que dois aminoácidos não podem ficar próximos ela Avisa a primeira torre para desconsiderar o relacionamento deles na tabela evolutiva a troca de informações no evol former se repete 48 vezes até que os dados em ambas as torres sejam refinados as características geométricas aprendidas por esta rede são passadas para a segunda grande inovação do alphafold 2 o módulo de estrutura para cada aminoácido escolhemos três átomos especiais no aminoácido e dizemos que eles definem um quadro e o que a rede faz é imaginar que todos os aminoácidos começam na origem e ela tem que prever a rotação e a tradução apropriadas para mover esses quadros para onde eles se assentam na estrutura real enfim é isso que o módulo de estrutura faz mas o que distingue o módulo de estrutura é o que ele não faz antes as pessoas podiam ter imaginado que você gostaria de codificar o fato de que é uma cadeia e que certos resíduos devem ficar próximos não dizemos isso explicitamente para o alfa fold é como se déssemos a ele um saco de aminoácidos e ele pudesse posicionar cada um separad mamente E algumas pessoas pensam que isso ajuda a não ficar preso em termos de onde as coisas devem ser colocadas ele não precisa sempre pensar na restrição dessas coisas como uma cadeia isso surge naturalmente depois por isso vídeos de dobragem ao vivo do Alfa fold podem mostrar comportamentos fisicamente estranhos o módulo de estrutura gera uma proteína 3D mas ainda não está pronto ele é reciclado pelo menos mais três vezes pelo evor para aprofundar a compreensão da proteína só então a previsão final é feita em dezembro de 2020 a Deep Mind retornou a um casp virtual com o Alpha fold 2 e desta vez eles conseguiram eu vou ler um e-mail de John seu grupo teve um desempenho incrivelmente bom no casp 14 tanto em relação a outros grupos quanto a precisão absoluta do modelo parabéns por este trabalho para muitas proteínas as previsões do Alpha Fall 2 eram quase idênticas às estruturas reais eles finalmente superaram a meta de 90 pontos para mim tendo trabalhado nesse problema por tanto tempo né após muitas muitas paradas e recomeços de repente Isso é uma solução nós resolvemos o problema isso te dá tanto entusiasmo sobre como a ciência funciona ao longo de seis décadas cientistas ao redor do mundo descobriram meticulosamente cerca de 150.000 estruturas proteicas então de uma só vez o alphafold apareceu e revelou mais de 200 milhões delas quase todas as proteínas conhecidas por existir na natureza em poucos meses o Alpha fold acelerou o trabalho de laboratórios de pesquisa globais Em décadas ele nos ajudou diretamente a desenvolver uma vacina para a malária ele possibilitou a quebra de enzimas resistentes a antibióticos tornando muitos medicamentos que salvam vidas eficazes novamente ele nos ajudou a compreender como as mutações proteicas causam diversas doenças da esquizofrenia ao câncer biólogos pesquisando espécies raras e ameaçadas ganharam acesso repentino a proteínas e seus mecanismos vitais o artigo do alpa fold 2 foi citado mais de de 30.000 vezes realmente proporcionou um grande salto em nosso entendimento da vida John Jumper e Demis hassabis ganharam metade do prêmio Nobel de química de 2024 pela descoberta a outra metade foi para David Baker mas não por prever estruturas usando o Roseta o feito foi projetar proteínas inteiramente novas do zero foi realmente difícil criar proteínas completamente novas que fariam coisas então esse é o tipo de problema que resolvemos ele utiliza o mesmo tipo de a generativa usada para criar arte em programas como o Dali você pode pedir para desenhar uma imagem de um canguru montando um coelho e ele criará isso E foi exatamente isso que fizemos com as proteínas a técnica de difusão RF é treinada adicionando ruído aleatório a uma estrutura proteica conhecida E então a ia tem que remover esse ruído uma vez treinada A Iá pode ser usada para produzir proteínas com diversas funções dada uma entrada de ruído aleatório A Iá descobre uma nova proteína que realiza a função solicitada Este trabalho tem implicações enormes Imagine que você foi mordido por uma cobra venenosa se você tiver sorte terá acesso ao antídoto preparado pela extração do veneno da Exata espécie de cobra que é então injetado em animais vivos e os anticorpos desse animal são extraídos e refinados para depois serem administrados a você como antídoto o O problema é que muitas vezes as pessoas têm reações alérgicas a esses anticorpos de outros organismos mas suas chances de sobrevivência podem ser muito melhores com as últimas proteínas sintéticas projetadas no laboratório de Baker eles desenvolveram anticorpos compatíveis com humanos que neutralizam o veneno mortal de cobras este antídoto poderia ser produzido em larga escala e transportado facilmente para onde for necessário com estas minúsculas máquinas moleculares as possibilidades são infinitas Quais são as aplicações que mais te empolgam acredito que as vacinas serão muito Poderosas temos proteínas em testes clínicos para o câncer e agora estamos trabalhando na doença autoimune estamos muito animados com desafios como a captura de gases de efeito estufa então estamos projetando enzimas que podem fixar metano decompor plástico O que torna essa abordagem tão eficaz é quão rápido eles podem Criar e iterar as proteínas É de fato milagroso para qualquer bioquímico ou cientista de proteínas convencional agora podemos ter designs no computador obter a sequência de aminoácidos das proteínas desenhadas e em apenas alguns dias podemos obter a proteína Sim nós demos um nome para isso que é a bioquímica Cowboy porque nós simplesmente você só precisa ir em frente o mais rápido que puder e acaba por funcionar bastante bem o feito da ia com as proteínas é apenas uma amostra do que ela pode realizar em outros Campos e em maior escala na ciência dos materiais o programa genome do Deep Mind descobriu 2,2 milhões de novos cristais incluindo 400.000 materiais estáveis que poderiam impulsionar futuras tecnologias desde supercondutores até baterias a ia está revolucionando a ciência ajudando a resolver problemas fundamentais que bloqueavam o progresso humano se você pensar em toda a árvore do conhecimento sabe existem certos problemas onde sabe se não houver problemas se você os resolver se descobrir uma solução para eles isso desbloquear um novo ramo ou Avenida de descoberta e com isso a ia está expandindo as fronteiras do conhecimento humano em um ritmo sem precedentes dobrar a velocidade é muito bom é ótimo nós adoramos aumentar em 100 mil vezes muda o que você faz você faz coisas fundamentalmente diferentes e começa a reconstruir sua ciência em torno das coisas que ficaram fáceis e é isso que me deixa animado essas descobertas representam grandes saltos das mudanças reais na ciência mesmo que a ia não avance além de onde está hoje colheremos os benefícios dessas descobertas por décadas e assumindo que a ia continue a se desenvolver bem ela abrirá oportunidades que antes eram consideradas impossíveis seja para curar todas as doenças criar novos materiais ou restaurar o meio ambiente a um estado primitivo Isso parece um futuro incrível contanto que a ia não tome conta e nos destrua primeiro n [Música] [Música]

Comments

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *