Hogan, no capítulo sobre Fidedignidade, inicia sua explicação com a
distinção entre esta e a validade, dois conceitos fundamentais à psicometria. A validade trataria da indagação de se o teste mede aquilo a que se propõe a medir, enquanto a fidedignidade trata da consistência, replicabilidade e confiança da medida, “sem se importar com o que está sendo de fato medido”. Sobre esta distinção, comenta que é possível haver fidedignidade sem validade, mas a recíproca não é possível. Para bem compreender o assunto, o autor explica a importância de entender os conceitos de coeficientes da correlação e suas medidas derivadas (erros padrões e fórmulas de predição). E, quanto a isso, aponta que o mais utilizado em testes psicológicos é o coeficiente de correlação de Pearson, referido ao grau de relação linear entre as variáveis. Para a produção de uma mensuração fidedigna, destacam-se três teorias que dão base ao processo: a Teoria da Resposta ao Item, a Teoria da Generalizabilidade e a Teoria Clássica do Teste. O autor se calca principalmente na última, em que o escore observado é a nota obtida pelo examinando, mas o escore verdadeiro é o que seria obtido se todas as fontes de não-fidedignidade fossem eliminadas; e o escore de erro é justamente a diferença entre eles, sendo ou positivo ou negativo. Hogan coloca a questão de quais fatores podem conduzir a uma mensuração não-confiável, e sua resposta é tudo o que resulte de uma variação não-sistemática nos escores. Cada uma das formas de mensurar fidedignidade dá conta ou não de determinados fatores. Esses fatores podem sem: a correção inadequada dos testes, as variações nas determinações dos itens (o conteúdo), os procedimentos e condições impróprias à aplicação (como falta de instrução, ambiente desconfortável) e condições temporárias dos examinandos (como ansiedade, estresse). Um modo de determinar a fidedignidade é o ‘teste-reteste’, através da aplicação do mesmo teste nos mesmos indivíduos em situações diferentes, sendo baseado na correlação entre os escores obtidos em cada caso. Esse método não considera as influências das variações no conteúdo nem da sua aplicação; e é relativo quanto à correção (depende de se foi a mesma pessoa quem corrigiu em todos os casos), além do problema do primeiro teste ter efeitos sobre o segundo. Outro é a ‘fidedignidade Interavaliadores’, que mensura a variação não- sistemática em função de quem corrige o teste, correlacionando os escores atribuídos por dois avaliadores. Já a fidedignidade de forma alternada consiste em aplicar duas formas iguais ou semelhantes – quanto a fatores como número de questões, limites de tempo e conteúdo – e correlacionar os escores obtidos. Há, também, a fidedignidade de consistência interna, determinada a partir de vários métodos, sendo três explicados pelo autor: Um é a fidedignidade das duas metades, de processo parecido com a fidedignidade de forma alternada, embora sua forma alternada seja aplicada em um teste dividido em dois (e não em dois testes diferentes). Calcula-se a correlação entre as duas metades do teste, ou seja, nas palavras do autor “a correlação fornece a fidedignidade de um teste que tem metade daquele que nos interessa”. Outro método, chamado Fórmulas de Kuder-Richardson, implica na obtenção da correlação média entre todas as possíveis maneiras de se dividir o teste e na obtenção de uma estimativa de fidedignidade. Este modo exige que as questões sejam corrigidas dicotomicamente. Por último, o coeficiente alfa, em que as questões podem ser corrigidas segundo qualquer tipo de escores contínuos. A divisão, neste método, é dos itens, gerando uma fidedignidade de consistência interna; conforme a correlação média entre itens aumenta, maior a fidedignidade. O método indica até que ponto os diferentes itens estão mensurando os mesmos construtos e o coeficiente alfa está relacionado justamente a falta de fidedignidade devido ao conteúdo.
O autor também afirma que a interpretação prática do coeficiente de
fidedignidade depende do erro padrão da medida, “o desvio padrão de um número hipoteticamente infinito de escores obtidos tomando como base o escore verdadeiro de um examinando”, que também pode ser usado para criar uma faixa de confiança. Já o erro padrão da média, segundo Hogan, é ‘o desvio padrão de uma população hipotética de médias das amostras distribuídas em torno da média populacional’, sendo utilizado ao interpretar a média de escores de um teste para um grupo e sendo mais afetado pelo tamanho da amostra do que pelo próprio coeficiente de fidedignidade. Ao falar em fidedignidade, um ponto que deve ser ressaltado é que esta é fornecida em termos quantitativos, em forma de coeficientes de fidedignidade e erros padrões de medida, embora também haja como relatar o desempenho do teste de modo narrativo. As narrações podem facilitar a interpretação dos escores, mas nem todas são facilmente adaptáveis às ferramentas tradicionais de análise de fidedignidade. Mais adiante em seu capítulo, Hogan comenta a fidedignidade pela perspectiva da Teoria da Resposta ao Item, a qual a compreende somente em relação à consistência interna, ou seja, dependente do funcionamento dos itens dentro do teste. Porém, enquanto para a TCC existe uma interdependência entre o os itens, para a TRI eles funcionam independentemente. Outro aspecto é que o erro padrão é chamado de índice de precisão da medida e há uma suposição de que o erro padrão médio seja o mesmo para todos os níveis de escores. Além disso, o autor conclui que não existe UMA fidedignidade, considerando que existem vários tipos. Em seguida, cita a Teoria Generabilizante, uma tentativa de avaliar simultaneamente as diferentes fontes de não-fidedignidade, baseada em uma análise de variáveis independentes que atuam sobre a variável de resposta. Assim como a TCC, a TG também lida com a idéia de que cada pessoa possui um escore verdadeiro, agora denominado de escore universal; sendo este a média dos escores obtidos por um examinando em todas as ocasiões de teste. Hogan, por fim, reafirma pontos cruciais para o entendimento da fidedignidade: esta tem uma ampla aplicabilidade, indo além do campo da testagem psicológica; nenhuma medida é isenta de erro, por mais meticulosa que tenha sido a mensuração; a necessidade do grau de confiança no teste depende do propósito do teste; e, enfim, a fidedignidade é sempre importante, assim como a validade, a qual ele explica no capítulo seguinte.