Em busca de um uso saudável de LLMs e agentes de IA
Introdução
“A distância entre o melhor amador e um profissional mediano é um universo de qualidade”.
Provavelmente o texto de hoje será longo, pois ele é uma colcha de retalhos de pensamentos que eu tenho tido nos últimos tempos sobre o uso de LLM e agentes de IA no trabalho. Algumas pessoas podem pensar que eu sou inimigo das LLMs. Não sou.
Assim como o podcast dos meus brothers, eu sou inimigo do hAIpe. Já é a segunda vez que eu escrevo sobre IAs ne mês. No outro post foquei mais no uso para geração de código. Agora, vamos conversar sobre o uso geral.
Efeito Dunning-Kruger
Sabe aquela pessoa que aprendeu a fazer café solúvel ontem e hoje está querendo abrir uma cafeteria? Existe um nome bonito para isso: Efeito Dunning-Kruger. Em bom português, a pessoa é burra e não sabe que é burra. Ou, de forma mais educada: é um viés cognitivo pelo qual pessoas com baixa habilidade em uma tarefa superestimam sua habilidade. Não vou me aprofundar no assunto, vou deixar esse episódio do Naruhodo sobre isso e o link da Wikipedia. Vocês que lutem.
O que eu vou fazer é aprofundar a frase que começa esse texto.
Para isso, vamos falar sobre corrida. Eu acho que sou o corredor mais rápida da minha família. Consigo correr 21 km em 2:27:31. Se considerarmos que sou um nerd gordinho genérico, eu corro muito rápido e por uma longa distância. Contudo, eu sou um entusiasta e não sou corredor profissional. O pior resultado do pessoal de elite da 18a meia maratona internacional de São Paulo Caixa foi em 01:30:41. Ou seja, uma hora a menos do que eu fiz. Já o primeiro colocado fez essa distância em 01:05:33. Se me comparar com uma pessoa sedentaria, meu resultado é incrível. Se compararmos a um profissional, meu tempo é risível.
Através do uso de LLMs, as pessoas estão correndo no meu tempo e achando são atletas de elite. A pessoa senta na frente do PC e escreve o prompt “faça um artigo científico sobre física quântica em tom descontraído” e a IA devolve aquele textinho todo bonitinho, cheio de palavras difíceis. Com cara de trabalho pronto. Daí tá feito. A pessoa já se sente uma mistura de Stephen Hawking com Neil deGrasse Tyson. O ponto é, a pessoa que escreveu o prompt não tem capacidade técnica para poder avaliar se o que foi escrito é coerente ou não. O que importa é que o texto é bonito. Mas a crise não é apenas estética, é social. Não serei pedante ao ponto de dizer que um amador pode fazer algo incrível, conheço exemplos, mas são exceções.
Má fé ou inocência
O fundador do ChatGPT anunciou que 10% das pessoas do mundo são usuários da sua ferramenta. É um número impressionante. Vou trazer uma outra informação chocante para algumas pessoas. Empresas mentem. Elas aplicam golpes, maquiam números e fazem rolo. Para citar alguns casos mais famosinhos: WeWork, Theranos, Bernie Madoff, Bel Pesce, Eike Batista, Lojas Americanas, a lista é gigantesca. Não seja otário, não caia em golpes. Não confie em empresas.
Voltando ao caso do ChatGPT, enquanto esses números não forem auditados, as falas dele têm o mesmo peso de que dizer que o Pelé está vivo aqui em casa (spoiler, não está). Mais do que isso, ainda que o lance das imagens copiadas do estúdio Ghibli tenham feito a base de usuários do ChatGPT chegar aos 800 milhões, ele está ignorando o churn (pessoas que só fizeram as contas para usar uma vez) e os bots (automações que geram várias coisas) tudo isso para mexer com FOMO das pessoas e fazer elas pensarem que estão ficando de fora de uma grande revolução (spoiler: não está acontecendo).
Pausa para explicar o que é FOMO. Do inglês fear of missing out ou simplesmente medo de ficar de fora. FOMO é um termo chic para falar daquela sensação de que tem uma festa de que todo mundo foi convidado, exceto você. O marketing usa isso para te vender as coisas, as redes sociais usam isso para te prender em notícias de fofoca e entre outras coisas. O FOMO cria sensação de escassez. A “próxima revolução será a da IA”, “Está todo mundo usando”, “Seu emprego vai ser substituído”, etc. Todas essas frases são usadas com o intuito de fazer você pensar que se você não estudar engenharia de prompt você vai ficar de fora.
A questão é o impacto financeiro que isso vai causar. Esse vídeo em inglês e esse post em português falam um pouco sobre a bolha IA. Seja por inocência ou má fé, as empresas estão tentando passar a ideia de que está todo mundo usando ferramentas de IA e ficando ricas com isso. Mas isso está longe de ser verdade.
Exemplos de uso errado da LLM
Quando as LLMs começaram a ganhar popularidade, muito se falou sobre produtividade, automação e revolução do conhecimento. Só que, assim como aconteceu com o NFT, o no-code, criptomoeda, metaverso e qualquer outra moda de tecnologia, muita gente embarcou sem entender direito o que estava fazendo. Logo, muita gente cometeu erros. Abaixo listei alguns tipos de usos que eu considero erro no caso de IA.
Uso de prompt para TUDO
A pessoa abre o ChatGPT e passa o dia inteiro perguntando desde “qual a capital da Finlândia” até “escreva um plano de negócios para vender amendoim gourmet em Marte”. Qual o problema disso? Nenhum, se for só por diversão. Mas o que está rolando é gente que faz isso profissionalmente e entrega qualquer coisa que sai do prompt como se fosse verdade absoluta ou trabalho pronto.
Em 2023, tivemos o caso dos advogados que inventaram peças de defesa através do uso de IA. Culpar a IA por inventar algo sem noção e sem sentido ao executar o SEU trabalho é um misto de falta de vergonha na cara, irresponsabilidade trabalhista e falta de brio de admitir os próprios erros.
Produção industrial de conteúdo irrelevante aparecendo nos buscadores
Isso não é bem um erro das pessoas. Mas dos sites e buscadores. Estamos sendo invadidos por uma onda de páginas da internet geradas por IA. É algo pior do que aqueles textos genéricos que enrolam e não dizem nada. Lembro que recentemente tentei buscar no google como converter MKV para MP4. Os três primeiros resultados eram variações do mesmo texto. Ou a mesma pessoa foi contratada por três empresas diferentes, ou os três textos foram criados pela mesma fonte. Seja como for, os textos eram longos e não me serviam de nada. Estavam lá apenas com o objetivo de receber o acesso do google para me mostrar propaganda.
Por causa dessa a facilidade de gerar textos, apresentações, relatórios e até livros inteiros em segundos, surgiu um tsunami de conteúdo genérico, repetitivo e superficial. É aquele artigo de blog que poderia ser escrito por qualquer pessoa com Google e tempo livre. Isso polui as redes, dilui discussões relevantes e cria uma falsa impressão de produtividade. Sem contar que essas coisas estão indo para o mundo físico.
Usar LLM como psicólogo
Não vou me aprofundar nisso. Essa não é a função da LLM. Tem riscos e tem muita chance de afundar a sua situação atual. Até a grande mídia está falando dos perigos dessa prática.
Arte genérica
Existe toda uma discussão sobre arte comercial vs arte cultural. Esse tipo de discussão é antigo e não é restrito ao uso de ferramentas de IA. Podemos acompanhar muito disso nos quadrinhos da turma da mônica e seus traços digitais. Acredito que o processo de criação das histórias atuais da turminha seja pegar os desenhos já feitos num banco de imagem e montar digitalmente os quadros. O que isso faz? Nos leva a uma arte genérica. Xoxa. Sem graça. É uma pseudo-arte padronizada. Que funciona como uma linha de montagem. Algumas pessoas mais filosóficas poderiam dizer que falta alma ou o caráter dos artistas. Sou uma pessoa pragmática e vejo que o que temos são pessoas cooptadas pelo capitalismo tentando ganhar o pão nosso de cada dia. Mais recentemente, pesquisadores tentaram criar um episódio de Tom e Jerry. Como todos devem imaginar, ficou uma merda.
Não vejo problema em criar artes através de IA para o entreterimento. Eu acho engraçado e divertido. Faço adaptação de memes, coloco Sailor Moon em diferentes situações, crio personagens e até fiz ilustrações para o blog usando o ChatGPT. O problema está quando tentamos considerar isso como uma arte. Ou colocamos essas peças criadas dentro de produtos ou material que está sendo cobrado. Além de toda discussão sobre empresas coletando dados sem avisar os usuários e o caso do Facebook que usou torrents por empresas para alimentar as IAs. Temos as empresas querendo abolir as leis de direitos autorais para o lucro próprio (e fazer arte ruim).
Dependencência de LLM
Semelhante ao primeiro item, quero resumir os tópicos abordados nesse artigo em inglês. No artigo tem o depoimento de várias pessoas que trabalham na indústria de games e que foram obrigadas a utilizarem as ferramentas de LLM em algum nível para o seu trabalho. Todos os depoimentos são ruins e frustrados. O que mais me chamou a atenção foi o depoimento da primeira pessoa “Bredley”. Ele relata que tem que trabalhar com um diretor de arte que não consegue visualizar algo. Como se faltasse a capacidade de abstruir e visualizar uma ideia. Dessa forma, esse diretor busca imagens geradas por IA que representa o que ele quer e faz o time trabalhar numa espécie de “engenharia reversa” para tentar produzir aquilo. Bredley culpa a IA porque, nas palavras dele antigamente o diretor de artes era um artista experiente, mas atualmente não consegue nem escrever um e-mail sem o ChatGPT.
A ideia geral é que as ferramentas de LLM pode te deixar burro. Não necessariamente burros, mas a lógica é essa: pensar cansa e gasta e energia. Seu cérebro busca economizar energia. Logo, ele quer jogar as tarefas de pensar para os LLMs que parecem fazer um bom trabalho (não fazem (mas o cérebro também é tanso então fica meio que elas por elas)). Um estudo tentou avaliar isso. Não vou me aprofundar muito nesses estudos, porém ao que tudo indica é que o uso constante de IA está afetando negativamente nossa capacidade de memorização e tomada de decisão.
Gerar testes automatizados
Muitos desenvolvedores geram o código e, então, geram testes para validar o comportamento desse código. Porém, dependendo de como você fizer o seu prompt, o agente de IA pode considerar o seu código para gerar os testes.
Porém, se o seu código estiver com erro e você criar um teste que passe nesse código. Seu teste terá um erro. Mais do que isso, você irá considerar que seu código está corretamente quando tanto código quanto teste contém erros. Vamos para a contabilidade dos erros: erro do código, erro do teste e erro de achar que está tudo bem.
Eu sou hater de LLM?
Não.
Forma correta de utilizar essas ferramentas
Assim como o carteiro Jaiminho, estamos sempre buscando formas de evitar a fadiga. As LLMs são práticas de usar. Logo, existe uma chance grande de queremos delegar tudo para elas. Incluindo o ato de pensar. Mas isso vai tornar a gente burro (além de entregar um trabalho mal feito). Antes de falar sobre como usar LLM. Vamos ver sobre suas limitações.
Performance do Chat GPT 4.1
Recentemente, a Open AI lançou a sua família de modelos mais recentes e mais eficientes: o Chat GPT 4.1. Além de complicar a vida de todo mundo com um esquema de versionamento não convencional (afinal a versão 4.1 ser lançada depois do 4.5 não é confuso, é moderno), o novo modelo possui performance muito eficiente de acordo com os benchmarks. Porém, vamos escrutinar melhor nos números focando em dois dos três benchmarks. O de codificação e o de instruções de longo contexto.
O benchmark de código é uma variação do swe-bench. O swe-bench consiste na seleção de um conjunto de issues para serem resolvidas em um conjunto de mais de 10 repositórios open sources existentes. Ou seja, ele avalia o desempenho dos agentes e LLMs em situações do mundo real. Em abril, o melhor resultado do swe-bench foi com o SWE-agent 1.0 (Claude 3.7 Sonnet) que acertou 33.83% das issues propostas. Não havia resultados do Chat GPT 4.1 disponíveis. Contudo, segundo postagem da própria Open IA, esse benchmark contém muitas issues que são impossíveis ou muito difíceis de serem resolvidas, possuem issues que são muito genéricas ou muito específicas, possuem ambiguidades e tem um ambientes difíceis de serem montados. Por causa disso, a Open IA junto com a equipe do swebench criaram uma variação do benchmark original usando um conjunto de issues selecionadas para essa avaliação. Essa variação é chamada swe-bench verified.
Agora que sabemos como é avaliado a performance do novo e eficiente modelo, podemos ir aos números: a Open AI afirma que seu novo modelo acertou 54.6% do swe-bench verified. Ou seja, o novo modelo acertou acertou apenas metade dos problemas com issues selecionadas. Ora, devemos questionar realmente a qualidade das entregas de alguém que acerta apenas metade das perguntas que são feitas.
Já o modelo de conversação é o Scale’s multi-challenge que simula uma série de conversas com a LLM passando um conjunto de instruções para e esperando o resultado final. O resultado foi uma acurácia de 38.3% de precisão desse novo modelo. Contudo, existe uma nota de potencial contaminação porque o modelo foi lançado após o Scale ter se tornado público e não existe garantia de que o resultado final não recebeu algum tipo de influência (empresas mentem e também podem viciar seus resultados).
Porém, agora nós temos um movimento que nos leva ao erro. Nesse modelo de negócio onde tudo precisa estar sempre evoluindo. Nós temos o primeiro benchmark é apresentado a comparação entre o Chat GPT 4.1 e 4.5. Porém, no segundo benchmark, é apresentado a comparação entre os modelos 4.1 com o 4o. Um leitor distraído poderia considerar que o novo modelo é totalmente superior a tudo o que foi feito, mas isso não é verdade. O novo modelo é inferior aos modelos o3, o1, o4-mini, GPT 4.5, etc.
Resumido tudo o que eu falei até agora. O novo, moderno e eficiente modelo GPT 4.1 acertou algo em torno de 50% dos modelos de um benchmark com problemas selecionados para casos de programação. Além disso, teve um desempenho inferior a outros modelos mais antigos lançados pela própria Open AI.
Particularmente, tendo os resultados apresentados até agora, considero um absurdo e uma falta de profissionalismo aceitar as respostas geradas por modelos sem revisar o que foi feito. Dito isso, vamos então a formas que eu considero intero interessantes para utilizar os modelos de LLM e agentes para o nosso trabalho.
Usar modelos que fornecem fontes dos dados ao pedir informações
Para toda informação que for pedida num prompt, pedir as fontes e confirmar as fontes. O perplexity.ai é uma IA que já traz essas fontes mesmo sem você pedir.
É um processo menos eficiente e mais cansativo. Contudo essa é a única forma de garantir que seu trabalho não alucionou, não inventou informações e compreendeu corretamente as fontes utilizadas para fazer os textos.
Para escrever código através de testes
Usar LLMs para gerar testes em cima de um código existente costuma ser algo ruim. Contudo, se você gerar testes que garante o funcionamento da sua aplicação e pedir para o modelo gerar um código que passe no teste, você acaba tendo o melhor dos mundos. Porém, para que essa abordagem funcione, você precisa de bons testes que seja validáveis e garantam a qualidade do seu sistema. Nem sempre isso é possível.
Geração de protótipos para avaliação
Ferramentas como o loveable são ferramentas de criação de programas de computadores baseado em prompts que você colocou. Não é uma ferramenta segura para colocar código em produção. Uma pessoa quebrou muitos sites famosos em produção usando 15 linhas de python.
Porém, esse tipo de ferramenta é útil e tem facilidade de gerar protótipos para discutir sobre implementação. É um caminho possível para substituir o Figma e ferramentas semelhantes.
Conclusões
Resumindo tudo o que eu falei até agora: o novo, moderno e hypado não é necessariamente melhor. Na maior parte das vezes, não é. A gente vive numa indústria e numa cultura que se alimenta de novidade como se isso, por si só, fosse sinônimo de qualidade, de avanço, de futuro. E não é. Espero que esse texto tenha mostrado que todo hype serve a interesses financeiros, agendas corporativas e vaidades pessoais. O hype transforma o medíocre em tendência e a exceção em regra.
As LLMs são ferramentas poderosas, possuem muitas limitações. É importante entender suas limitações. Da mesma forma que um marceneiro tem diferentes ferramentas como martelo, prego, formão, serrote, etc. Nós também temos múltiplas ferramentas. LLMs podem ser uma dessas ferramentas. Porém não são as únicas e, por serem ferramentas, nós temos que identificar seus pró e contras.
O grande problema não é usar LLM. É usá-la sem consciência, sem critério, sem entender as limitações e os riscos. É se acomodar na mediocridade conveniente. É acreditar que um texto coerente é um texto correto e verdadeiro. É olhar de uma forma inocente e sem visão crítica para tudo o que as empresas estão dizendo.
Deixei um capítulo inteiro para registrar que não sou hater de LLM. Sou hater de preguiça intelectual. Estou um pouco preocupado porque vamos ter esses profissionais meia boca entrando no mercado se não fizermos nada. Estamos em termos turbulentos e temos até empresas que não sabem mais como contratar profissionais porque temos profissionais medíocres se apoiando em IA e tentando conseguir as posições.
No ensino fundamental eu aprendi a fazer multiplicação na unha. Hoje em dia, faço no computador. Porém, se precisar, eu sei fazer. Se eu apenas me fiasse apenas no computador e não soubesse fazer essas operações, meu aprendizado seria limitado. Se tu não tem condições de avaliar a qualidade da informação que você está recebendo, você não deveria usar as LLMs como oráculos modernos que trazem as respostas para suas dúvidas.
Seja cético. Estude. Faça. Erre. Refatore. Aprenda. E, se for usar IA, use como ferramenta — não como muleta.