NOTÍCIA

Entrevistas

O teste da prova

Para garantir que avaliações sejam realmente capazes de medir os conteúdos ensinados em sala de aula, o americano Gregory Cizek, especialista em avaliação educacional, defende avaliação contínua para essas provas

Publicado em 01/03/2013

por Beatriz Rey

Envolvido com avaliação educacional há quase 30 anos, Gregory J. Cizek, professor do departamento de Educação da Universidade da Carolina do Norte – Chapel Hill (EUA) dedica-se atualmente ao estudo de indicadores que atestem a qualidade dos testes padronizados aplicados nos Estados Unidos. Cizek está interessado, mais especificamente, em análises sobre a validade das provas: o teste está medindo conteúdos previstos pelo currículo ou ensinados em sala de aula? Essas são algumas das perguntas que a validação de uma prova deve responder.

Cizek: “É preciso saber se o resultado da prova é exato”

O indicador de validade, entretanto, é apenas uma das informações necessárias para que seja possível aferir a precisão de uma prova. A outra, o indicador de confiabilidade, mostra o quão fidedigno é o teste quando aplicado em diversos grupos de indivíduos. “O indicador está vinculado a uma medida de erro”, explica.

Para Cizek, também presidente do Conselho Nacional de Avaliação Educacional, entidade que congrega quase 2.300 especialistas no país, uma prova desassociada de seus indicadores não deve ser usada para a tomada de decisões em políticas públicas. E não deveria nem ser feita por alunos. Nos Estados Unidos, a avaliação constante dos testes padronizados realizados por órgãos públicos é prevista por diversas leis, como a Race To The Top (Corrida ao Topo, em tradução livre), aprovada pelo governo de Barack Obama em 2009. No Brasil, não há informações disponíveis sobre estudos de validade e confiabilidade no site do Instituto de Estudos e Pesquisas Educacionais Anísio Teixeira (Inep). A reportagem de Educação entrou em contato com o órgão ao longo de janeiro para saber se os estudos são realizados – nenhuma resposta foi recebida.

Na entrevista a seguir, realizada em seu escritório na universidade, Cizek explica os conceitos de validade e confiabilidade e discute brevemente o Enem, apresentado a ele pela reportagem: “se estamos falando de testes usados pelo poder público para a tomada de decisões, como a admissão em universidades, ou se o teste é pago com recursos públicos, a transparência é fundamental”.

Um formulador de políticas públicas que deseja elaborar e introduzir uma nova avaliação no sistema educacional de seu país deve tomar que tipo de precauções para garantir a qualidade do teste?
A primeira e mais importante é ser extremamente claro em relação ao que se pretende medir. Testes são instrumentos de medida. O que acontece frequentemente é que as pessoas decidem implementar uma prova, mas não têm certeza sobre a função que essa prova deve ter. Nos Estados Unidos temos algumas provas e acredito que elas cumprem bem a função de medir o que sabe um aluno do 5o ano sobre matemática. Mas os formuladores de políticas públicas e os legisladores dizem coisas como: “temos esses testes para fazer com que o país seja competitivo no cenário global” ou “vamos usar as provas para ajudar o futuro dos nossos estudantes” ou “eles ajudarão a melhorar a educação”. É muito improvável que os testes desempenhem esse papel. Eles não foram feitos para isso. Ser claro sobre o que se quer medir é importante para o processo de desenvolvimento da prova, como você a avalia (ela está medindo o que se propõe a medir?), e assim por diante. Na maioria dos casos, isso não é feito.
#R#

Há falta de conhecimento por parte do poder público em relação ao processo que precede a criação de uma prova?
Isso acontece porque legisladores que optam pela criação da avaliação não trabalham com especialistas em testes, estudiosos de psicometria. Se houver mais comunicação antes da implementação da prova, os legisladores saberão exatamente o que querem e evitarão problemas futuros.

Por que é importante avaliar uma prova?
Uma das descrições técnicas que atribuímos a uma prova é a de que ela é elaborada para produzir inferências. Fazer uma inferência é como tirar uma conclusão ou um dar palpite com base em alguma evidência. Por exemplo: se vejo um homem correndo com uma bolsa na mão perto de um ponto de ônibus posso inferir que ele está roubando o objeto. Pode ser uma inferência correta, mas e se não for? E se ele estivesse apenas levando a bolsa para sua mulher, que a esqueceu em casa e está atrasada para o trabalho? As provas geram um resultado, um número, que pode ter um significado. É preciso ter evidência de que esse significado extraído é exato. Imagine que desenvolvêssemos um teste para aferir o nível de depressão de um indivíduo. Nessa prova, um resultado alto significa que o sujeito está deprimido. Mas como podemos saber que um número alto se traduz em depressão? Pode ser que a pessoa apenas esteja em um dia ruim, ou que está ansiosa. É preciso saber se a prova está realmente medindo a depressão. Essa definição, na verdade, remete ao conceito de validade da prova.

O senhor poderia explicar melhor o que é o indicador de validade? Como a sociedade pode usá-lo para julgar a qualidade de uma prova?
Validar um teste é recolher evidências de que os resultados produzidos por uma prova significam o que se espera que eles signifiquem. Entender o que os números realmente significam é um processo difícil. É preciso pensar nisso enquanto se desenvolve a prova, e também depois, quando ela já está sendo aplicada. O indicador de validade não se trata de um simples número. Não é como se você fizesse uma análise e gerasse um atestado de que o teste está validado. Pensamos em validade como um julgamento criminal. Há evidência de que a pessoa seja culpada, e há evidência de que ela seja inocente; qual a nossa melhor conclusão? Nossa melhor inferência? A diferença é que em um julgamento, quando o júri decide culpado ou inocente, o processo acabou. Em avaliação, quando digo que os resultados são significativos, que traduzem o aprendizado em matemática, continuamos a buscar evidências após o uso inicial do teste. Isso porque podemos encontrar novas evidências, novas informações a respeito desse teste.

Como conduzimos um teste de validade?
Depende do propósito da prova. No caso do Brasil, se desejo criar uma prova para medir os conhecimentos dos alunos do 4o ano do ensino fundamental, precisaria ter acesso ao currículo dessa etapa, com a lista do que os alunos devem saber. É preciso ter certeza de que o teste mede essa lista. Para isso, pode-se trazer as pessoas que têm familiaridade com o que tinha de ser ensinado, para que elas investiguem e revisem a prova. E elas podem encontrar erro. O currículo pode determinar, por exemplo, que os alunos aprendam a mexer com experimentos em ciências. É muito difícil avaliar isso em uma prova. A solução mais fácil é elaborar uma pergunta que diz: “se você misturar o composto X com o composto Y, o que aconteceria?”, e dar quatro opções de alternativas. Mas isso não é equivalente a fazer um experimento. Esse tipo de validade é chamado pela literatura de “validade com base no conteúdo”. Há diversas maneiras de estudá-la. As pessoas que desenvolveram o teste eram qualificadas para tal? Entendem os conteúdos abordados na prova? Sabem qual currículo é executado em sala de aula? As perguntas da prova correspondem ao currículo? Repito: a validade não é só um número – é um conjunto de evidências, elaborado a partir de um esforço grande de pesquisa.

E o indicador de confiabilidade?
Na verdade, se o teste passa pelo critério da validade, é confiável. O indicador de confiabilidade nos dá a seguinte informação: o quão consistente é a medida quando o teste é aplicado em diversos grupos de indivíduos. O indicador está vinculado a uma medida de erro randômico, que acontece fortuitamente. Esse erro nos diz o quanto a prova expressa com precisão seus resultados. Suponhamos que um aluno faz um teste sem ter dormido bem à noite ou após ter brigado com os pais. Ou então a pessoa ao lado dele faz um barulho constante com a caneta. Ele vai mal na prova, mas esse é um caso que não acontece sempre – é fortuito. Outro exemplo: o estudante recebe o caderno de provas, percebe que não domina o assunto e chuta as questões. Esse é o tipo de erro usado para o indicador de confiabilidade. Quem elabora um teste padronizado deve querer o menor erro randômico possível. Não queremos que o aluno sente ao lado de alguém que faz barulho, ou que chute as respostas das questões. Queremos identificar o real conhecimento do aluno. É por isso que há um procedimento para testes de grande importância. Os alunos devem sentar quietos, deve existir silêncio e assim por diante. A ideia é garantir que quem faz a prova estará descansado, preparado e no lugar adequado para fazê-la.

Então há preocupações não só com o desenvolvimento do teste, mas também com sua aplicação?
Claro. Outro exemplo: aplico uma prova e a questão número sete era muito difícil. Quando analiso os resultados dos alunos, percebo que todos a acertaram. Pode ser que eles estudaram e acertaram mesmo. Mas pode ser que eu tenha saído durante a prova e tenha existido cola. Este é um caso em que a administração da prova foi a causa de um erro randômico no resultado final.

No Brasil, o governo federal transformou o Enem, que antes era um exame de diagnóstico do ensino médio, em uma prova de seleção para a universidade. Isso pode ter afetado os indicadores?
Suponho que há evidência sobre a validade e a confiabilidade da prova para o primeiro propósito. O próximo passo é validar a prova em relação ao novo propósito, de seleção para a universidade. Se há dois propósitos, é preciso ter evidência para os dois. Se há três funções, para as três. E assim por diante. Ter diferentes propósitos não é um problema, mas é difícil ter um instrumento que execute bem as diferentes funções. Geralmente a prova desempenha uma função bem e as outras de maneira não satisfatória.

Qual o grau de transparência recomendado em relação a esses indicadores? É importante que eles sejam públicos?
Depende de quão públicos são os resultados. Se estamos falando de testes usados pelo poder público para a tomada de decisões, como a admissão em universidades, ou se o teste é pago com recursos públicos, a transparência é fundamental. É importantíssimo mostrar evidências que corroborem as inferências feitas a partir dos resultados. O governo norte-americano exige que os indicadores sejam produzidos. É lei. Eu não usaria uma prova que não está acompanhada de seus indicadores para tomar decisões. Aliás, ninguém deveria fazer uma prova assim. Deve existir um trabalho grande para a produção dos indicadores antes de que a prova seja aplicada. Depois de sua primeira aplicação, o ideal é que exista um esforço contínuo para que ela seja avaliada sempre. Todo teste tem problemas. Sempre há um erro randômico. Por isso é importante monitorar e tentar melhorar o instrumento. Quando algum problema é identificado, deve-se fazer o possível para reduzi-lo – eliminá-lo é quase impossível. É preciso aceitar isso.

Se sempre há erro, por que usamos as provas para tomar decisões tão importantes?
Porque um pouco de erro é muito melhor que qualquer outro sistema de tomada de decisões. Nos Estados Unidos, os professores costumam fazer julgamentos a respeito de seus alunos. Testes como o SAT (seleção para a universidade), o GRE (seleção para a pós-graduação) e o Toefl (prova de língua inglesa para estrangeiros) são usados para subsidiar decisões muito importantes. Antes dessas provas, o processo de admissão era feito com base em entrevistas. Era comum encontrar discriminação contra negros. Houve uma época em que só homens brancos frequentavam nossas universidades. O critério não era o quanto se sabia, mas o grupo étnico, a religião. O SAT foi implementado para que o conhecimento fosse incorporado ao processo de seleção para a universidade. Testes bem elaborados são melhores que os julgamentos equivocados de seres humanos. É importante lembrar que, nos Estados Unidos, o processo de admissão para a universidade envolve histórico escolar, cartas de recomendação, entrevistas, atividades comunitárias, redação, e o SAT.

Outro problema que temos no Brasil é a dificuldade para entender as provas padronizadas e seus resultados. Como resolver esse impasse?
Também temos esse problema nos Estados Unidos. Os cursos de formação docente não ensinam nada sobre as provas. O mesmo acontece com as exigências para quem quer ser diretor ou secretário de educação. As pessoas não conseguem absorver os dados. Mas não é culpa delas. Os especialistas em testes devem trabalhar para que essas informações estejam disponibilizadas de maneira mais acessível. Às vezes um gráfico gera mais compreensão que um apanhado de números, por exemplo. Aqueles que estão tomando decisões com os resultados das provas precisam entender o que elas significam e as informações geradas por elas.