GPT-5: Deu Ruim?!?
0Cara, eu não queria estar na pele do Samtman, o CEO da Open AI. Na apresentação oficial, né, do lançamento do GPT5, ele faz uma comparação entre GPT4 e essa nova versão GPT5, começando explicando como que era na visão dele interagir com o GPT4. Ele fala que é como se fosse conversar com um universitário, né, utilidade e tal, inteligência. E aí ele fala sobre o salto por GPT5, mas presta atenção no salto que ele vai fazer. Ele fala que é é um salto como se você tivesse conversando com um profissional de nível PhD. Beleza? Só que na prática a gente tá vendo que em alguns casos isso tá muito longe de acontecer. Tem esse caso aqui na internet, ficou muito famoso, onde a pessoa pergunta quantas vezes a letra B aparece na palavra blueberry, né, que são duas. E o chatpt responde que aparece três vezes, né? Então explica aqui onde estão essas as letras. Total de três. E aí a pessoa pergunta: “Tá, mas me mostra onde na palavra blueberry tem três letras.” E ele, claro, tá aqui, ó, tem as três. E é muito confuso porque ele mostra duas aqui, mas depois ele mostra três. E aí a conversa ela vai longe e vira uma briga. A conversa continua do que tá aparecendo aqui. E o estranho é que isso não pareceu ser um caso isolado. Tem várias pessoas, por exemplo, no Reddit falando como o GPT5 tá ruim. Tem três casos aqui que a gente selecionou, tá? Começou a ficar bem estranho. Chegou ao ponto do Sam Ottman admitir publicamente que sim, o GPT5 tava way dummerica que é porque agora o sistema de escolha de modelo não era não tá mais tão refinado como era antes, né? Agora você não pode escolher exatamente qual modelo você quer usar. Ele tem um roteador interno e esse roteador interno tava com algum problema que tava enviando os prompts pro lugar errado dentro da da ramificação de modelos que eles têm lá dentro. E aí em cima de tudo isso, teve uma gaf naquela apresentação que eu comecei esse vídeo aqui com o Samtan, que eu tenho certeza que a turma que organizou o Power Point e o Samtan não conseguiu dormir direito naquela naquela noite. E tá aqui na minha frente o erro, tá? Esse erro depois foi corrigido. Eu já vou mostrar a versão corrigida. Mas a impressão que passa é que poxa, o modelo O3, né, do modelo O3 pro modelo GPT5, caramba, teve um salto grande, né? Só que na prática não é isso que tá acontecendo. Se a gente vê nessa comparação aqui de um um índice de inteligência, tá aqui o GPT5, né? O modelo mais avançado de todos, com 69 pontos, mas o Grock 4 tá logo atrás com 68 pontos, o O3 com 67. O que que tá acontecendo? O que tá acontecendo é que realmente parece que não tem mais tanta margem para melhorar um modelo. Se a gente pegar o gráfico errado primeiro, GPT4O tava com 30.8 pontos no benchmark deles. E aí o melhor modelo até então, O3 tava com 69.1 e a altura vertical aqui dos dois gráficos tá igual já. Não, já quebrou aí. E aí o mais estranho é que o salto, né, que a gente tem de impressão aqui entre o O3 pro GPT5 foi muito grande, né, mas também tá uma coisa muito errada aqui, porque aqui tá a altura vertical de 69 e de e o GPT5 com modelo de sem pensar tô com 52.8, tá? Tá, é um número menor, mas no gráfico tá maior. É muito estranho. E aqui tá a versão ajustada. Agora sim, dá para ver as coisas acontecendo. E aí do salto do GPT4 pro O3, aí sim foi um salto animal. Foi realmente assim, deu para ver nos resultados. Agora, do O3 pro C, não fez tanta diferença. E é importante destacar que esse novo modelo, ele foi treinado mais focadamente em escrita, código e saúde. Tanto que nesse gráfico aqui que eu mostrei é sobre um benchmarking software engineering. Então isso mostra mais uma vez como inteligência artificial, pelo menos por enquanto, ele é um multiplicador das suas habilidades atuais. Então, se você sabe pouco de programação, vai multiplicar sobre esse pouco sobre esse modelo. Se você sabe muito sobre programação, esse muito também vai ser multiplicado sobre o mesmo modelo. E no final das contas, o que realmente importa é o quanto você sabe sobre programação. De qualquer forma, acho importante destacar que esse modelo ele tá alucinando aparentemente 80% menos, né? Antes era uma taxa de 20, 22%, agora tá 4.8% do tempo. E eu imagino que isso também a as ferramentas que eles estão construindo ao redor do modelo ajudam nisso, né? Por exemplo, quando você vai fazer uma pesquisa, ele procura um conteúdo e concreto na internet para adicionar isso no input, trazer essa inteligência para dentro do que ele vai então computar como resposta para você. Também outra coisa boa que tá todo mundo gostando é que o a o acesso ao API tá 50% mais barato, tá? 1.5 1.25 aqui por ah não tem aqui o número de tokens versus 2.5 do 4o. Fora isso, duas coisas, todos os links que eu mostrei aqui estão no comentário pinado dentro desse vídeo. E a segunda coisa é que eu te adoro. Co? [Aplausos] [Música] [Aplausos]