A Matemática Estranha Que Prevê (Quase) Tudo
0Quantas vezes você precisa embaralhar um baralho de cartas para torná-las verdadeiramente aleatórias? Quanto urânio é necessário para construir uma bomba nuclear? Como você pode prever a próxima palavra em uma frase? E como o Google sabe qual página você está realmente procurando? A resposta para essas perguntas é conhecida devido a uma curiosa disputa matemática na Rússia que aconteceu há mais de um século. Em 1905. Grupos socialistas em toda a Rússia se levantaram contra o Guzar, o governante do império. Eles exigiram uma reforma política completa ou caso contrário, que ele renunciasse ao poder. Isso dividiu a nação em dois lados, de um, osaristas. Eles queriam defender o status quo e manter o XAR no poder. Do outro lado, havia os socialistas que desejavam uma reforma política completa. Essa divisão era tão grave que permeou toda a sociedade, fazendo até os matemáticos escolherem lados. Do lado do Xar estava Pavel Necrasov, chamado extraoficialmente de Xar da probabilidade. Necrasov, um homem profundamente religioso e poderoso, usava seu status para argumentar que a matemática poderia explicar o livre arbítrio e a vontade de Deus. Seu nêmesis intelectual do lado socialista era Andrey Markov, também conhecido como Andrei o Furioso. Markov, ateu e impaciente com pessoas não rigorosas, considerava Necrasov assim, pois para ele matemática não tinha relação com livre arbítrio ou religião. Ele criticou publicamente o trabalho de Necrasov, listando-o entre os abusos da matemática. A disputa deles se centrava na principal ideia usada para fazer probabilidade nos últimos 200 anos, que pode ser ilustrada com um simples lançamento de moeda. Ao lançar a moeda 10 vezes, obtenho seis caras e quatro coroas, diferente do esperado 5050. Mas se eu continuar lançando a moeda, inicialmente a proporção varia muito. Mas após muitos lançamentos, vemos que ela lentamente se estabiliza e se aproxima de 5050. E neste caso, após 100 lançamentos, acabamos com 51 caras e 49 coroas, que é quase exatamente o que você esperaria. Esse comportamento, no qual o resultado médio se aproxima cada vez mais do valor esperado, conforme mais testes independentes são realizados, é conhecido como a lei dos grandes números. Foi provado pela primeira vez por Jacob Bernuli em 1713 e foi o conceito chave no coração da teoria da probabilidade até Markov e o cancelamento. Mas Bern só provou que isso funcionava para eventos independentes, como um lançamento de moeda justa ou quando você pede as pessoas para adivinhar quanto acham que um item vale, onde um evento não influencia os outros. Mas agora imagine que em vez de pedir a cada pessoa para dar seu palpite individualmente, você peça as pessoas para gritarem sua resposta em público. Bem, neste caso, a primeira pessoa pode achar que é um item extraordinariamente valioso e dizer que vale cerca de $.000. Agora, todas as pessoas na sala são influenciadas por esse valor, tornando seus palpites dependentes. E agora a média não converge para o valor real, mas sim se agrupa em torno de um valor mais alto. E assim, por 200 anos, a probabilidade se baseou nessa suposição chave de que você precisa de independência para observar a lei dos grandes números. E essa foi a ideia que provocou a disputa entre Necrasov e Markov. Necrasof concordou com Bernoule que a independência é necessária para a lei dos grandes números, mas foi além. Ele disse que se você observar a lei dos grandes números, pode inferir que os eventos subjacentes devem ser independentes. Pegue esta tabela de casamentos belgas de 1841 a 1845. Agora você vê que todo ano a média é de cerca de 29.000 E, portanto, parece que os valores convergem e, portanto, seguem a lei dos grandes números. Necrasov observou um padrão similar ao analisar outras estatísticas sociais, como índices de criminalidade e de natalidade. Mas agora pense de onde todos esses dados estão vindo. Eles vêm de decisões de se casar, decisões de cometer crimes e decisões de ter bebês, pelo menos na maior parte. Necrasov concluiu que, como essas estatísticas seguem a lei dos grandes números, as decisões que as causam são independentes. Em suma, ele defendeu que devem ser atos de livre arbítrio. Então, para ele, o livre arbítrio não era apenas algo filosófico, era algo que você poderia medir, era científico. Mas para Markov, Necrassov estava delirando. Ele achava absurdo associar independência matemática ao livre arbítrio. Então, Markov decidiu provar que eventos dependentes também poderiam seguir a lei dos grandes números e que ainda é possível fazer probabilidade com eventos dependentes. Para isso, ele precisava de algo onde um evento dependesse claramente do anterior e teve a ideia de que é o que acontece em um texto. Se a próxima letra será uma consoante ou uma vogal, depende muito de qual é a letra atual. Então, para testar isso, Markov recorreu a um poema no coração da literatura russa e o Jean Onegin de Alexander Pushkin. Ele pegou as primeiras 20.000 letras do poema, retirou toda a pontuação e espaços e juntou tudo em uma longa sequência de caracteres. Ele contou as letras e descobriu que 43% eram vogais e 57% consoantes. Então, Markov dividiu a sequência em pares sobrepostos. Isso lhe deu quatro combinações possíveis: vogal vogal, consoante consoante, vogal consoante ou consoante vogal. Se as letras fossem independentes, a probabilidade de um par vogal vogal seria apenas a probabilidade de uma vogal duas vezes, que é cerca de 0,18, ou uma chance de 18%. Mas quando Markov realmente contou, ele descobriu que os pares vogal vogal aparecem apenas 6% do tempo, muito menos do que se fossem independentes. E quando ele verificou os outros pares, descobriu que todos os valores reais diferiam muito do que o caso independente previa. Então, Markov mostrou que as letras eram dependentes. Para vencer Necrassov, bastava provar que as letras ainda seguiam a lei dos grandes números. Então ele criou uma espécie de máquina de previsão. Ele iniciou desenhando dois círculos, um para vogal e outro para consoante. Esses eram seus estados. Se você está em uma vogal, a próxima letra pode ser uma vogal ou uma consoante. Ele desenhou duas setas para representar as transições. Mas quais são essas probabilidades de transição? Markov sabia que se você escolher um ponto de partida aleatório, há 43% de chance de ser uma vogal. Ele também sabia que pares de vogais ocorrem cerca de 6% do tempo. Para encontrar a probabilidade de ir de uma vogal para outra, ele dividiu 0,06 por 0,43, obtendo uma probabilidade de transição de cerca de 13%. E como há uma chance de 100% de que outra letra venha a seguir, todas as setas saindo do mesmo estado precisam somar um. Então a chance de ir para uma consoante é o -0.13 ou 87%. [Música] Ele repetiu o processo para as consoantes completando sua máquina preditiva. Agora vamos ver como funciona. Vamos começar com uma vogal. Em seguida, geramos um número aleatório entre 0 e 1. Se for abaixo de 0,13, pegamos outra vogal. Se for acima, uma consoante. Temos 0,78. Então, pegamos uma consoante. Então, geramos outro número e verificamos se está acima ou abaixo de 0.67, 0.21. Então, pegamos uma vogal. Podemos continuar fazendo isso e controlar a proporção de vogais para consoantes. Inicialmente, a proporção salta por toda parte, mas depois de um tempo converge para um valor estável. 43% de vogais e 57% de consoantes. A divisão exata que Markov contou à mão. Assim, Markov criou um sistema dependente, uma sequência literal de eventos. Ele demonstrou que a lei dos grandes números ainda era seguida, indicando que a convergência nas estatísticas sociais não comprovava a independência das decisões subjacentes. Em suma, esses dados não comprovam a existência do livre arbítrio. Markov despedaçou o argumento de Necrazov e ele sabia disso. Ele finalizou seu artigo com uma última provocação ao seu rival. Logo, o livre arbítrio não é necessário para a probabilidade. A independência não é necessária para fazer probabilidade. Com essa cadeia de Markov, ele encontrou uma forma de calcular probabilidade com eventos dependentes. Isso deveria ter sido uma grande descoberta, porque no mundo real quase tudo depende de algo mais. Quero dizer, o clima de amanhã depende das condições de hoje. Como uma doença se espalha depende de quem está infectado agora. E o comportamento das partículas depende do comportamento das partículas ao redor delas. Muitos desses processos podem ser modelados usando cadeias de Markov. As pessoas acham que foi como um momento de largar o microfone, tipo, ó, Necrasov saiu, Marcov é o cara. ou as pessoas realmente não notaram, ou era obscuro, ou eu sinto que as pessoas realmente nãoaram. Não foi algo tão significativo. E o próprio Markov aparentemente não se importava muito com isso poderia ser aplicado a eventos práticos. Ele escreveu: “Estou preocupado apenas com questões de análise pura”. Eu me refiro à questão da aplicabilidade com indiferença. Ele mal sabia que essa nova forma de teoria da probabilidade logo desempenharia um papel importante em um dos desenvolvimentos mais importantes do século XX. Na manhã de 16 de julho de 1945, os Estados Unidos detonaram o Gadget, a primeira bomba nuclear do mundo. A bomba de plutônio de 6 kg criou uma explosão equivalente a quase 25.000 toneladas de TNT. Isso foi o ápice do super secreto projeto Manhattan, um esforço de 3 anos de algumas das pessoas mais inteligentes vivas, incluindo pessoas como J. Robert Oppenheimer, John Von Nan e um matemático pouco conhecido chamado Stanislau Ulan. Mesmo após o fim da guerra, o Lan seguiu estudando o comportamento dos nêutrons dentro de uma bomba nuclear. Agora, uma bomba nuclear funciona mais ou menos assim. Digamos que você tenha um núcleo de urânio 235. Quando um nêutron atinge um núcleo de urânio 235, o núcleo se divide, liberando energia e mais dois ou três nêutrons. Se em média esses novos nêutrons continuarem atingindo e dividindo mais de um outro núcleo de urânio, 235, você terá uma reação em cadeia descontrolada. Então você tem uma bomba nuclear, mas o urânio 235, combustível físil essencial para as bombas era muito difícil de conseguir. Então uma das questões chave era quanto dele você precisa para construir uma bomba? E é por isso que o Lan queria entender como os nêutrons se comportam. Mas então, em janeiro de 1946, tudo parou. Ulam foi atingido por um caso súbito e grave de encefalite, uma inflamação do cérebro que quase o matou. A recuperação de Uam foi longa e lenta, passando a maior parte do tempo na cama. Para passar o tempo, ele jogava um simples jogo de cartas, paciência. Mas enquanto jogava inúmeras partidas, ganhando algumas, perdendo outras, uma pergunta continuava a incomodá-lo. Qual a probabilidade de vencer um jogo de paciência embaralhado aleatoriamente? Era um problema enganosamente difícil de resolver. Ulam jogou com todas as 52 cartas, onde cada arranjo gerou um jogo único. Então, o número total de jogos possíveis era 52 fatorial ou cerca de 8 x 10 elevado 67. [Música] Então, resolver isso analiticamente era impossível. Mas então, Ulan teve um lampejo de insite. E se eu apenas jogar centenas de jogos e contar quantos poderiam ser ganhos? Isso lhe daria uma aproximação estatística da resposta. De volta a Los Álamos, os cientistas restantes enfrentavam problemas muito mais complexos que paciência, como entender o comportamento dos nêutrons dentro de um núcleo atômico. Em um núcleo atômico, trilhões de nêutrons interagem com o ambiente ao redor. Assim, o número de resultados possíveis é imenso e calculá-lo diretamente parecia impossível. Mas ao retornar ao trabalho, Ulan teve uma súbita revelação. E se pudéssemos simular esses sistemas gerando vários resultados aleatórios, como fiz com paciência, ele compartilhou essa ideia com Von Nurman, que imediatamente reconheceu seu poder, mas também identificou um problema chave. No Paciência, cada jogo é independente. A distribuição das cartas em um jogo não afeta o próximo. Mas os nêutrons não são assim. O comportamento de um nêutron depende de onde ele está e do que ele fez antes. Então você não poderia apenas amostrar resultados aleatórios como no paciência. Em vez disso, era necessário modelar uma sequência de eventos onde cada etapa afetava a seguinte. Von Ney percebeu que era necessária uma cadeia de Markov. Então eles criaram uma versão muito simplificada que funciona basicamente assim. O estado inicial é um nêutron atravessando o núcleo. A partir daí, três coisas podem acontecer. O átomo pode se espalhar e continuar viajando. Isso te dá uma seta voltando para si mesma. Ele pode deixar o sistema ou ser absorvido por um material não visível. Nesse caso, ele não participa mais da reação em cadeia e assim termina sua cadeia de marcov. ou pode atingir outro átomo de urânio 235, desencadeando um evento de fição e liberando dois ou três nêutrons a mais que então iniciam suas próprias cadeias. Nesta cadeia, porém, as probabilidades de transição variam. Elas dependem de coisas como a posição, velocidade e energia do nêutron, bem como a configuração geral e massa do urânio. Um nêutron em movimento rápido pode ter 30% de chance de se espalhar, 50% de chance de ser absorvido ou sair e 20% de chance de causar fissão. Mas um nêutron em movimento mais lento teria probabilidades diferentes. Depois eles rodaram essa cadeia no NA, o primeiro computador eletrônico do mundo. O computador gerou aleatoriamente as condições iniciais de um nêutron e avançou a cadeia para rastrear quantos nêutrons foram produzidos em média por execução, conhecido como o fator de multiplicação k. Então, se em média um nêutron produz outros dois nêutrons, então K é igual a 2. E se em média cada dois nêutrons produzem três nêutrons, então k é igual a 3/ 2 e assim por diante. Após percorrer a cadeia por um número específico de passos, coletamos a média de K e registramos esse valor em um histograma. Esse processo foi então repetido centenas de vezes e os resultados somados fornecendo uma distribuição estatística do resultado. Se você descobrir que na maioria dos casos K é menor que 1, a reação diminui. Se for igual a um, há uma reação em cadeia autoustentável, porém sem crescimento. E se K for maior que um, a reação cresce exponencialmente e você tem uma bomba. Com isso, Fon Neyman e Ulan tinham uma maneira estatística de descobrir quantos nêutrons eram produzidos sem ter que fazer quaisquer cálculos exatos. Em suma, eles poderiam aproximar equações diferenciais muito difíceis de resolver analiticamente. Passava um nome para o novo método. Agora, o tio de Ul era um jogador e a amostragem aleatória e as altas apostas lembraram o Lam do Cassino Monte Carlo em Mônaco. E o nome pegou o método Monte Carlo nasceu. O método obteve tanto sucesso que logo deixou de ser secreto. Até o final de 1948, cientistas do laboratório Argon em Chicago usaram-no para estudar projetos de reatores nucleares. E a partir daí a ideia se espalhou rapidamente. O Lan comentou mais tarde: “Ainda é uma fonte inesgotável de surpresa para mim ver como alguns rabiscos em um quadro negro poderiam mudar o curso dos assuntos humanos. E não seria a última vez que um método baseado em cadeia de Markov mudaria o rumo da história humana. Em 1993, a internet foi aberta ao público e logo explodiu. Em meados dos anos 90, milhares de novas páginas surgiam diariamente e esse número só aumentava. Isso gerou um novo desafio, como encontrar algo nesse mar de informações em constante crescimento. Em 1994, Jerry Yang e David Philo, doutorandos de Stanford, criaram o Yahoo para solucionar este problema, mas eles precisavam de dinheiro. Um ano depois, combinaram de se encontrar com Masayos Son, o bilionário japonês conhecido como o Bill Gates do Japão. Eles buscavam arrecadar 5 milhões de dólares para sua nova startup. Mas son tinha outros planos. Ele oferece investir 100 milhões de dólares ao invés disso. Isso é 20 vezes mais do que os fundadores pediram. Jerry Yang recusa, afirmando que eles não necessitam de tanto dinheiro. Mas som discorda, Jerry, todos precisam de 100 milhões de dólares. Antes que os fundadores tenham a chance de responder, S intervém novamente e pergunta: “Quem são os seus maiores concorrentes?” Exit Laicos responde a dupla. Sono ordena ao seu associado que anote esses nomes. Então ele diz: “Se você não me deixar investir no Yahoo, eu investirei em um deles e eu vou acabar com você”. Veja, Son havia percebido algo. Nenhum dos principais motores de busca da época possuía uma tecnologia superior. Eles não tinham uma vantagem tecnológica sobre os outros. Eles apenas classificavam as páginas pela frequência de um termo de pesquisa em uma página. Então, a batalha pelo motor de busca número um seria decidida por quem poderia atrair o maior número de usuários que poderiam gastar mais em marketing. Licos, vá buscar. Pegue o Licos ou se perca. Isso é revolução. [Música] E o marketing exigia muito dinheiro. Dinheiro que só um tinha. Então ele poderia decidir quem ganhou a guerra. Os criadores do Yahoo viram que só lhes restava aceitar o aporte de som. Então aqui estamos nós bem no meio do Yahu. E em 4 anos, o Yahoo se tornou o site mais popular do planeta. No tempo que leva para dizer esta frase, o Yahoo responderá a 79.000 solicitações de informações em todo o mundo. Os dois homens agora valem 120 milhões de dólares cada um. Mas o Yahu tinha uma fraqueza crítica. Veja, a pesquisa por palavra chave do Yahoo era fácil de enganar. Para ter uma página bem classificada, bastava repetir centenas de vezes as palavras chave escondidas com texto branco em um fundo branco. Uma coisa que eles não tinham naqueles primeiros dias era uma noção de qualidade do resultado. Então eles tinham uma noção de relevância perguntando: “Este documento fala sobre o que você está interessado?” Mas não havia noção de quais eram melhores. Eles precisavam de uma maneira de classificar as páginas por relevância e qualidade. Mas como você mede a qualidade de uma página da web? Para entendermos isso, devemos pegar emprestada uma ideia das bibliotecas. Sou velho o suficiente para lembrar quando os livros da biblioteca tinham um cartão de papel com carimbos das datas de devolução. Você julgava a qualidade de um livro pela quantidade de marcadores de página. Muitos indicavam um bom livro, nenhum sugeria o contrário. Os carimbos funcionavam como endossos. Quanto mais carimbos, melhor o livro. Essa lógica pode ser aplicada à web. Em Stanford, dois doutorandos, Sergei Brin e Larry Page, trabalhavam neste exato problema. Bring e Page perceberam que cada link para uma página pode ser considerado um endosso. Quanto mais links uma página envia, menos valioso cada voto se torna. Eles perceberam que é possível modelar a web como uma cadeia de marcov. Para ver como isso funciona, imagine uma internet de brinquedo com apenas quatro páginas da web. Chameos de Amy, Ben, Chris e D. Estes são nossos estados. Normalmente uma página da web se conecta a outras, permitindo que você se mova entre elas. Estas são nossas transições. Neste cenário, AM só se conecta a Ben. Então, há uma chance de 100% de ir de Am para Ben. Ben se conecta a Amy, Chris e Dan, então há uma chance de 33% de ir para qualquer uma dessas páginas e podemos preencher as outras probabilidades de transição da mesma maneira. Agora podemos executar essa cadeia de Marcov e ver o resultado. Imagine que você é um surfista nesta web. Você inicia em uma página aleatória como M e continua executando a máquina, registrando a porcentagem de tempo gasto em cada página. Com o tempo, a proporção se estabiliza e as pontuações indicam a importância relativa dessas páginas. Você passa mais tempo em Ben, então Ben é classificado em primeiro lugar, seguido por Amy, depois Dan e por último Chris. Pode parecer que há uma forma simples de enganar o sistema, criar centenas de páginas com links para o seu site. Agora você recebe 100 votos completos e sempre estará no topo do ranking. Mas não é esse o caso. Embora possam fazer sua página parecer importante nos primeiros passos, nenhum outro site se conecta a eles. Portanto, com o passar do tempo, suas contribuições perdem relevância. Muitos links de baixa qualidade não afetam o algoritmo de rankeamento. Mas ainda há um problema, nem todas as páginas estão conectadas. Em redes como esta, um servidor aleatório pode ficar preso em um loop sem alcançar o resto da web. Para corrigir isso, podemos estabelecer uma regra de que em 85% das vezes, nosso servidor aleatório apenas segue um link normalmente. Mas então, por cerca de 15% do tempo, eles simplesmente pulam para uma página aleatória. Este fator de amortecimento garante que exploramos todas as partes possíveis da web sem nunca ficarmos presos. Page e Brin criaram um mecanismo de busca superior usando cadeias de Markov chamado Page Rank, porque está falando sobre como as páginas reagem. As páginas da web interagem entre si e o nome do fundador Larry Page está discretamente incluído nisso. Com o Page Rank obtiveram resultados de busca muito superiores, frequentemente direcionando ao site desejado imediatamente. Embora para alguns isso parecesse uma péssima ideia. Outros disseram: “Ah, você está me dizendo que consegue uma pesquisa que dará o resultado certo na primeira resposta. Eu não quero isso. Porque se leva três ou quatro tentativas de pesquisas para obter a resposta certa, então eu tenho três ou quatro chances de mostrar anúncios. E se você obtém a resposta imediatamente, eu vou apenas perdê-los. Então, sabe, eu não vejo por uma pesquisa melhor é melhor.” Page e Brain discordaram. convencidos de que se seu produto fosse muito superior, as pessoas iriam aderir a ele. Eu diria que, na verdade, é uma democracia que funciona. Se todas as páginas fossem iguais, qualquer um pode fabricar quantas páginas quiser. Eu posso configurar 1 bilhão de páginas no meu servidor amanhã. Não deveríamos tratá-las todas como iguais. Apenas olhando os dados por curiosidade, descobrimos que tínhamos tecnologia para fazer um trabalho melhor de pesquisa e percebemos o quão impactante pode ser ter uma ótima pesquisa. Em 1998, eles lançaram seu novo mecanismo de busca chamado Backrub, em referência aos backlinks que analisava para enfrentar o Yahoo. Mas então eles perceberam que talvez esse não seja o nome mais atraente. Agora suas ambições eram grandes, indexar todas as páginas da internet. Eles precisavam de um nome tão grande quanto o maior número que poderiam imaginar. 10 elevado 100, um Google. Mas então, ao registrar seu domínio, eles erraram na escrita e assim o Google nasceu. [Música] Em 4 anos, o Google superou o Yahoo e se tornou o mecanismo de busca mais usado. Todo mundo que usa a internet quase certamente conhece o Google. Dar um Google é como oxigênio para os jovens. E hoje a Alphabet, que é a empresa mãe do Google, vale cerca de 2 trilhões de dólares. Quando o Google faz até a menor alteração em seus algoritmos, pode ter enormes efeitos. Google, Google, Google, Google, Google. Eles estão pegando fogo porque estão mais focados do que o Yahoo e a Microsoft, que fazem pesquisas com o Yahoo Search e o Bing, respectivamente. O Yahoo tem muito tráfego e algumas propriedades ótimas, mas não acho que seja o destino principal das pessoas. E no coração deste algoritmo de trilhões de dólares está uma cadeia de Markov que só olha para o estado atual para prever o que vai acontecer a seguir. Mas nos anos 1940, Claude Shannon, o pai da teoria da informação, começou a fazer uma pergunta diferente. Ele retornou à ideia de Markov de prever texto, mas focou em letras individuais em vez de apenas vogais e consoantes. E ele se perguntou: “E se em vez de olhar apenas para a última letra como um preditor, eu olhar para as duas últimas?” Com isso, ele obteve um texto semelhante. Isso não faz muito sentido, mas existem algumas palavras reconhecíveis, como way, d e the. Mason acreditava que poderia aprimorar. Em vez de analisar letras, ele considerou usar palavras completas como preditores, resultando em frases como esta: “A cabeça e a frente para atacar um escritor inglês, que o caráter deste ponto é, portanto, outro método para as letras que o tempo de quem contou o problema para um inesperado.” Obviamente isso não faz sentido algum, mas Shannon notou que sequências de quatro palavras ou mais geralmente faziam sentido. Por exemplo, ataque a um escritor inglês é compreensível. Shannon descobriu que é possível fazer previsões melhores sobre a próxima palavra, considerando cada vez mais as palavras anteriores. É meio que como o demma faz quando prevê o que você vai digitar a seguir. Isso não é coincidência. Os algoritmos que fazem essas previsões são baseados em cadeias de Markov. Eles não estão necessariamente usando letras, sabe? Eles usam o que chamam de tokens, alguns dos quais são letras, alguns são palavras, marcas de pontuação, seja o que for. Então é um conjunto maior do que apenas o alfabeto. O jogo é simplesmente que temos essa sequência de tokens que sabe pode ter 30 de comprimento. Estamos perguntando quais são as chances de que o próximo token seja isso ou isso ou isso. Mas os grandes modelos de linguagem de hoje não tratam todos esses tokens igualmente, porque diferentemente das cadeias de Markov, eles usam a tensão que indica ao modelo no que focar. Então, na frase a estrutura da célula, o modelo pode usar o contexto anterior como sangue e mitocôndrias para saber que a célula provavelmente se refere à biologia e não a uma cela de prisão e usa isso para ajustar sua previsão. À medida que os grandes modelos de linguagem se popularizam, há a preocupação de que o texto produzido por eles acabe na internet e se torne dados de treinamento para modelos futuros. Quando você começa a fazer isso, o jogo acaba muito em breve. Você chega, neste caso, a um estado estável muito monótono. Ele apenas repete a mesma coisa várias vezes continuamente. Os modelos de linguagem são vulneráveis a esse processo. Qualquer sistema com loop de feedback será difícil de modelar usando cadeias de marcov. Considere o aquecimento global. Conforme aumentamos o dióxido de carbono no ar, a temperatura média da Terra sobe. Conforme a temperatura sobe, a atmosfera retém mais vapor de água, um potente gás de efeito estufa. Com mais vapor de água, a temperatura sobe, permitindo ainda mais vapor. Esse ciclo de feedback positivo dificulta prever o que acontecerá em seguida. Então, existem alguns sistemas onde as cadeias de Markovam. Para muitos sistemas dependentes, eles possibilitam o cálculo de probabilidades. Mas o que é fascinante é que todos esses sistemas têm histórias extremamente longas. Você poderia rastrear todas as letras em um texto, as interações de um neutron ou o clima por semanas. Mas a coisa bela que Markov e outros descobriram é que para muitos desses sistemas você pode ignorar quase tudo isso. Você pode apenas olhar para o estado atual e esquecer o resto. Isso torna esses sistemas sem memória e é essa propriedade de falta de memória que torna as cadeias de Markov tão poderosas. Porque é isso que permite que você pegue esses sistemas extremamente complexos e os simplifique muito para ainda fazer previsões significativas. Resolver problemas é frequentemente uma questão de criar uma cadeia de Marcov adequada, segundo um artigo. É meio ridículo para mim que esse fato básico da matemática surgiria de uma briga como essa, que você sabe realmente não tinha nada a ver com isso. Mas todas as evidências sugerem que realmente foi essa determinação para mostrar um cruzamento que levou Marcov a fazer o trabalho. Mas ainda há uma pergunta que não respondemos. Ao jogar paciência, como o Lan sabia que suas cartas estavam perfeitamente embaralhadas? Quero dizer, quantas embaralhadas são necessárias para obter uma disposição completamente aleatória de cartas? Se você tem um baralho de cartas, é necessário embaralhá-lo. Com que frequência? Se você está embaralhando, por exemplo, dividindo ao meio e então fazendo o com que frequência você precisa embaralhar para deixar totalmente aleatório? Duas. Duas. Eu vou com 26. Quatro vezes. Quatro vezes? Eu não sei. 52 vezes. Ok. Não é um palpite ruim. Sete. É sete. Sério? Sim. A mistura de cartas pode ser vista como uma cadeia de Markov, onde cada arranjo do baralho é um estado e cada embaralhamento é um passo. Para um baralho de 52 cartas, se você embaralhar sete vezes, cada arranjo do baralho se torna aproximadamente igualmente provável. Então é basicamente aleatório, mas eu posso embaralhar assim. Então é assim que eu faço. Quantas vezes você acha que tem que embaralhar assim para ficar aleatório?