NOTÍCIA
Sucesso em álgebra, mas mais trabalho necessário em estatística
Publicado em 06/09/2024
Por Jill Barshay, The Hechinger Report
Um dos maiores problemas com o uso de inteligência artificial na educação é que a tecnologia alucina. Essa é a palavra que a comunidade de IA usa para descrever como seus novos modelos de linguagem de grande porte inventam coisas que não existem ou não são verdadeiras. A matemática é uma terra particular de faz de conta para chatbots de IA. Há alguns meses, testei o chatbot da Khan Academy, que é alimentado pelo ChatGPT. O bot, chamado Khanmigo, me disse que havia respondido errado um problema básico de Álgebra 2 do ensino médio envolvendo expoentes negativos. Eu sabia que minha resposta estava certa. Depois de digitar a mesma resposta correta três vezes, Khanmigo finalmente concordou comigo. Foi frustrante.
Erros importam. As crianças podem memorizar soluções incorretas que são difíceis de desaprender, ou ficar mais confusas sobre um tópico. Também me preocupo com professores usando ChatGPT e outros modelos de IA generativa para escrever questionários ou planos de aula. Pelo menos um professor tem a oportunidade de verificar o que a IA produz antes de dar ou ensinar aos alunos. É mais arriscado quando você pede que os alunos aprendam diretamente da IA.
Cientistas da computação estão tentando combater esses erros em um processo que chamam de “mitigar alucinações de IA”. Dois pesquisadores da Universidade da Califórnia, Berkeley, documentaram recentemente como reduziram com sucesso os erros de instrução do ChatGPT para quase zero em álgebra. Eles não foram tão bem-sucedidos com estatística, onde suas técnicas ainda deixavam erros 13% das vezes. Seu artigo foi publicado em maio de 2024 no periódico revisado por pares PLOS One.
No experimento, Zachary Pardos, um cientista da computação da Berkeley School of Education, e uma de suas alunas, Shreya Bhandari, primeiro pediram ao ChatGPT para mostrar como ele resolveria um problema de álgebra ou estatística. Eles descobriram que o ChatGPT era “naturalmente prolixo” e não precisavam solicitar ao grande modelo de linguagem que explicasse seus passos. Mas todas essas palavras não ajudaram na precisão. Em média, os métodos e respostas do ChatGPT estavam errados um terço das vezes. Em outras palavras, o ChatGPT receberia nota baixa se fosse um aluno.
Os modelos atuais de IA são ruins em matemática porque são programados para descobrir probabilidades, não seguir regras. Cálculos matemáticos são todos sobre regras. É irônico porque versões anteriores de IA eram capazes de seguir regras, mas incapazes de escrever ou resumir. Agora temos o oposto.
Os pesquisadores de Berkeley aproveitaram o fato de que o ChatGPT, assim como os humanos, é errático. Eles pediram para o ChatGPT responder ao mesmo problema de matemática 10 vezes seguidas. Fiquei surpreso que uma máquina pudesse responder à mesma pergunta de forma diferente, mas é isso que esses grandes modelos de linguagem fazem. Frequentemente, o processo passo a passo e a resposta eram os mesmos, mas a formulação exata era diferente. Às vezes, os métodos eram bizarros e os resultados estavam completamente errados.
Pesquisadores agruparam respostas semelhantes. Quando avaliaram a precisão da resposta mais comum entre as 10 soluções, o ChatGPT foi surpreendentemente bom. Para álgebra básica do ensino médio, a taxa de erro da AI caiu de 25% para zero. Para álgebra intermediária, a taxa de erro caiu de 47% para 2%. Para álgebra universitária, caiu de 27% para 2%.
No entanto, quando os cientistas aplicaram o método que chamam de “autoconsistência” às estatísticas, ele não funcionou tão bem. A taxa de erro do ChatGPT caiu de 29% para 13%, mas ainda assim mais de uma em cada 10 respostas estava errada. Acho que são muitos erros para alunos que estão aprendendo matemática.
A grande questão, claro, é se essas soluções do ChatGPT ajudam os alunos a aprender matemática melhor do que o ensino tradicional. Em uma segunda parte deste estudo, os pesquisadores recrutaram 274 adultos on-line para resolver problemas de matemática e designaram aleatoriamente um terço deles para ver essas soluções do ChatGPT como uma “dica”, se precisassem de uma. (As respostas erradas do ChatGPT foram removidas primeiro.) Em um teste curto depois, esses adultos melhoraram 17%, em comparação com menos de 12% de ganhos de aprendizagem para os adultos que puderam ver um grupo diferente de dicas escritas por tutores de matemática de graduação. Aqueles que não receberam nenhuma dica pontuaram quase o mesmo em um pós-teste como em um pré-teste.
Esses resultados impressionantes de aprendizado do ChatGPT levaram os autores do estudo a prever corajosamente que a “geração completamente autônoma” de um sistema de tutoria computadorizado eficaz está “próxima”. Em teoria, o ChatGPT poderia digerir instantaneamente um capítulo de livro ou uma videoaula e então imediatamente se virar e dar tutoria a um aluno sobre isso.
Antes de abraçar esse otimismo, gostaria de ver o quanto os alunos reais — não apenas adultos recrutados online — usam esses sistemas de tutoria automatizados. Mesmo neste estudo, onde adultos foram pagos para resolver problemas de matemática, 120 dos cerca de 400 participantes não concluíram o trabalho e, portanto, seus resultados tiveram que ser descartados. Para muitas crianças, e especialmente alunos que estão com dificuldades em uma disciplina, aprender com um computador simplesmente não é envolvente.
Esta história sobre IA foi escrita por Jill Barshay e produzida pelo The Hechinger Report, uma organização estadunidense de notícias independente e sem fins lucrativos focada em desigualdade e inovação na educação.