Escolar Documentos
Profissional Documentos
Cultura Documentos
V11n2a15 PDF
V11n2a15 PDF
297-307 297
Resumo
Este artigo revisita textos clássicos em psicometria e apresenta os fundamentos matemáticos da Teoria Clássica dos Testes.
Aborda o modelo matemático da análise fatorial, o modelo linear clássico, a derivação do índice de precisão e dos tipos
de cálculo do coeficiente de precisão, o erro padrão da medida, o equacionamento da validade com a análise fatorial e, por
último, a análise de itens. O texto interessa àqueles que queiram ampliar seu conhecimento nos conceitos de psicometria,
entendendo de onde surgem as principais fórmulas que usamos na prática psicométrica de análise de testes e escalas.
Palavras-chave: teoria clássica dos testes; psicometria; precisão; validade; análise fatorial.
Abstract
This paper revisits the classic texts in psychometrics and presents the mathematical foundations of the classical test theory.
It discusses the mathematical model of factor analysis, the classical linear model, the derivation of the reliability and types
of calculation of the reliability coefficient, the standard error of measurement, the integration of validity with factor analy-
sis and, finally, item analysis procedures. The text concerns those who want to deepen their knowledge in the concepts of
psychometrics, understanding the origin of the main formulas that we use when doing psychometric analysis of tests and
scales.
Keywords: classical test theory; psychometrics; reliability; validity; factor analysis.
Resumen
Este artículo repasa los textos clásicos en psicometría y presenta los fundamentos matemáticos de la teoría clásica de los
testes. Explica el modelo matemático de análisis factorial, el modelo lineal clásico, la derivación del índice de precisión
y los tipos de cálculo del coeficiente de precisión, el error estándar de medición, el ecuacionamento de la validez con el
análisis factorial y, por último, el análisis de ítems. El texto es de interés para aquellos que desean ampliar sus conocimien-
tos sobre los conceptos de la psicometría, la comprensión de donde surgen las principales fórmulas que se presentan en la
práctica psicométrica de tests y escalas.
Palabras-clave: teoría clásica de los tests; psicometría; precisión; validez; análisis factorial.
1
Endereço para correspondência:
R. Dr. José Bonifácio Coutinho Nogueira, 225 - Cond. 4, Town House 8, 13091611
Campinas, São Paulo, Brasil.
E-mail: rprimi@mac.com
Essa pesquisa teve financiamento do CNPq.
298 Primi
seja, os m fatores comuns (F1 . . . Fm), e também em associada também às p-1 variáveis restantes. Por-
função de um componente específico a esta variável tanto, essa parcela da variância de i é potencialmente
(ei). Assim, os desvios em relação à média, ou seja, compartilhada pelas p-1 variáveis restantes (usa-se
a variância da variável i é explicada pela variação o termo potencialmente compartilhável, já que não
de um conjunto de variáveis comuns, ou seja, asso- se sabe a carga fatorial das p-1 variáveis restantes).
ciadas também à variância do conjunto mais amplo A segunda parcela, no entanto, representa a porção
contendo as p variáveis do qual a variável i faz parte, da variância não associada aos m fatores, ou seja,
e também pela variação específica desta variável que não compartilhada pelas variáveis restantes. Sendo
não é compartilhada pelas outras p variáveis; (2) a assim, essa variância é específica à variável em
magnitude com que a variação de um determinado análise.
fator j está associada à variação na variável i, cha- As equações dizem ainda que a covariância
mada de carga fatorial, é dada por lij; (3) a relação entre duas variáveis é igual à soma dos produtos das
entre os m fatores e a variável i é linear. cargas que estas variáveis têm nos fatores comuns,
Ainda, segundo o modelo fatorial ortogo- ou seja, sua covariância é única e exclusivamente
nal, a matriz de variâncias e covariâncias entre as p dada pelos fatores. Elas também mostram que a
variáveis poderia ser reescrita da seguinte forma (ver covariância entre uma variável e um fator é igual à
Johnson & Wichern, 1992, para a dedução detalhada carga da variável no fator.
dessa equação): Com a análise fatorial, a psicometria pro-
curou explicar a relação entre escores de diferentes
l11
.
. l1m
l . . l1 p
ψ 1 0 0 0 testes em função de um número menor de habili-
. 11 0 . 0 0
Cov ( X )= L L′+ Ψ = . .
+ dades latentes. Nota-se, portanto, que esse método
. . 0 0 . 0
l m1 . . l mp tentou criar um modelo para explicar as diferenças
l p1 . l pm 0 0 0 ψ p pxp
mxp
à espera de movimento. Se eles se movem juntos Sobre as relações entre essas duas proprie-
- aparecem e desaparecem juntos - ele conclui por dades dos testes, sabe-se que uma boa precisão é
uma única estrutura. Da mesma forma como John uma condição necessária, mas não suficiente para
Stuart Mill observou em sua filosofia da ciência o que um teste seja válido. Mesmo preciso, um teste
cientista deveria ter em mira a “variação concomi- pode estar medindo uma variável diferente daquela
tante” na busca de conceitos unitários (p. 55). a que se propôs. Assim, a psicometria estruturou um
Utilizando esse instrumental estatístico, os sistema conceitual básico, o qual denominou modelo
psicometristas investigaram a estrutura da inteligên- linear clássico. Esse sistema será tratado a seguir e
cia (bem como da personalidade). Surgiram, então, resume a exposição feita nos trabalhos de Ferguson
várias teorias postulando estruturas únicas, múltiplas (1981), Guilford (1954), Gulliksen (1950), Muñiz
e simultaneamente únicas e múltiplas. Uma revisão (1994) e Pivatto (1992).
desses modelos pode ser encontrada em Sternberg
(1981, 1984, 1986) e Almeida (1988). O modelo linear clássico: Precisão
O modelo linear clássico postula que um
Precisão e validade escore observado de um determinado sujeito Xi
Ao lado da pesquisa sobre as estruturas da em um teste pode ser decomposto em duas partes
personalidade, a psicometria foi também respon- aditivas:
sável pelo aprimoramento das técnicas de medida na (1) Ti, o escore verdadeiro [em inglês: true
psicologia. Ela foi e continua sendo um ramo espe- score] do sujeito na variável medida pelo teste;
cífico da psicologia, destinado ao desenvolvimento (2) ei, o escore de erro que ocorre em função
de técnicas de mensuração de variáveis psicológicas, da imprecisão das medidas psicológicas.
introduzindo um instrumental estatístico adequado Assim, o escore observado pode ser definido
as suas complexidades. Seus fundamentos básicos como:
são parte do que se chamou teoria clássica dos testes. X i = Ti + ei
Os instrumentos de avaliação psicológica
podem ser caracterizados por duas propriedades
métricas básicas: Precisão e Validade [em inglês: O escore verdadeiro (Ti) pode ser concebido
reliability, validity]. Precisão está associada ao teoricamente de duas maneiras: (a) uma medida da
erro de medida, isto é, à diferença entre o escore variável em análise, sob condições ideais, usando um
observado de um sujeito em um teste, do valor ver- instrumento perfeito ou (b) a média de um conjunto
dadeiro que ele tem na variável latente. Em razão de infinitas medidas da mesma variável, no mesmo
da complexidade própria às variáveis psicológi- sujeito, quando estas são independentes, usando um
cas, praticamente nunca a variabilidade em escores instrumento imperfeito – com erros de medidas. Fer-
observados refletem com exatidão e precisão as dife- guson (1981) estabelece essa definição como:
renças reais na variável latente. Sempre haverá um
erro de medida, ou seja, variações que não refletem k
que o valor do escore verdadeiro é fixo entre diferen- escore observado não sofrerá contribuição vinda da
tes aplicações, enquanto o erro tende a variar. covariância entre escore de erro e escore verdadeiro,
Ainda seguindo essa lógica, três postulados restringindo-se à variância dos escores verdadei-
são explicitados: ros mais a variância dos escores dos erros. Uma
(1) Se os erros são assistemáticos, em um dedução importante ocorre quando se aplicam esses
conjunto grande de medidas, a média dos erros será princípios à equação da covariância entre os escores
igual a zero: observados e os escores verdadeiros, tal como é dada
a seguir:
e =0
N N N
∑ (T − T )( X
i i − X) ∑ [(T − T )((T + e )−T )] ∑ [(T − T )(T − T + e )]
i i i i i i
∑ [( T 2
i − Ti T + Ti ei − TTi + T 2 − Tei )
N
] ∑ (T 2
i
N N
− 2Ti T + T 2 ) + ∑ Ti ei − NX ∑ ei )
verdadeiros e os escores de erro, já que é razoável σ 2
tx = i =1
= i =1 i =1 i =1
N N
supor que sujeitos com altos escores tenham a N N
∑ (T 2
i
2
− 2Ti T + T ) + (0) − (0) ∑ (T − T ) 2
∑ (T − T )( X i − X ) ∑ (T − T )( X i − X )
tulados, várias relações podem ser deduzidas. Com
i i
1 1 σ t2 σ
ρ tx = i =1
= i =1
⋅ = σ t2 ⋅ = = t
Nσ t σ x N σtσ x σtσ x σtσ x σ x
relação à média, pode-se dizer que, supondo que se
σ
meça uma determinada variável em uma população, ρtx = t
σx
a média destes escores observados pode ser escrita
como: Essa equação diz que a correlação entre o
escore verdadeiro e o escore observado é igual a uma
N N N proporção entre os desvios do escore verdadeiro e os
∑ (T + e ) ∑ T ∑ e
i i i i desvios do escore observado. Essa fórmula refere-se
X= i =1
= i =1
+ i =1
=T +e =T à variação em termos de desvios padrão. Contudo, na
N N N
literatura, definiu-se o índice de precisão [em inglês:
X =T
index of reliability - ρtt ] utilizando, em vez do des-
Assim, a média de um conjunto muito vio padrão, a variância. Assim, esse é dado por:
grande de escores observados é igual à média dos
escores verdadeiros. Entretanto, a variância dos 2
σt σ 2t
ρtt = (ρtx )
2
escores observados é dada por: = = 2
σx σx
σ 2t
σ 2x = σ 2t + σ 2e + 2ρ te σ t σ e = σ 2t + σ 2e + 2( 0)σ t σ e ρtt =
σ 2x
σ 2x = σ 2t + σ 2e
2
Portanto, como não há correlação entre Como a variância do escore observado ( σ x )
escore de erro e escore verdadeiro, a variância do é composta pela variância do escore verdadeiro mais
a variância do escore de erro, o índice de precisão Como os escores de erro são aleatórios e não
sempre será igual ou maior que a variância do escore estão correlacionados entre si e nem com os escores
verdadeiros, os termos que contêm escore de erro
verdadeiro ( σ 2t ). Portanto, esse índice assume valo-
serão iguais a zero, assim:
res entre 0 e 1. O seu valor significa qual parcela da
variância dos escores observados é variância verda- N N
∑[ ] ∑ (T − T ) 2
deira. Quanto menor for o coeficiente, menor será 2
Ti − 2TiT + T 2 i
a parcela verdadeira e maior a parcela de erro de σ2
ρab = i =1
= i =1
=
medida. Outra forma de se expressar o índice de pre- Nσ a σ b Nσ a σ b σaσb
cisão, por meio de substituições nas fórmulas dadas,
é:
Como os desvios padrões são iguais para as
σ2 duas formas paralelas sa = sb = sx, então
ρ tt =1− 2e
σx
σ 2t
ρ ab = ρ tt =
Nessa fórmula, fica evidente que, quanto σ 2x
maior for a proporção do erro na variância total do
escore observado, mais próxima de 1 fica a segunda Conclui-se, a partir da dedução exposta,
parte da equação e menor o índice de precisão. Con- que a correlação entre os escores observados é igual
hecendo os valores da variância do escore verdadeiro ao índice de precisão. Com base nesse fato, a prá-
e do escore observado, pode-se calcular o índice de tica de estimação da precisão de um teste envolve,
precisão. Contudo, como o escore verdadeiro não é de alguma forma, correlacionar medidas paralelas.
observável diretamente, sua variância é desconhe- Anastasi (1961) faz uma descrição detalhada dos
cida. O método de estimação desse índice decorre métodos empregados na estimação do índice de pre-
do conceito de formas paralelas de um teste. Formas cisão. Basicamente são quatro.
paralelas de um mesmo teste equivalem a medidas O primeiro método é denominado precisão
idênticas, independentes, de uma mesma variável por formas alternativas e consiste na aplicação
psicológica. Medidas paralelas têm a mesma média, simultânea, à mesma amostra, de duas formas para-
variância e correlação entre todos os pares possíveis lelas de um teste. A estimação do índice de precisão
entre as formas (Guilford, 1954). Sendo assim, como é dada pela correlação entre os dois escores obser-
demonstra Ferguson (1981), aplicando-se duas vados, como ficou evidente na dedução apresentada
formas paralelas a e b de um mesmo teste a uma anteriormente.
população, tem-se que: O segundo método é denominado precisão
teste-reteste e envolve a aplicação do mesmo teste,
X ia = Ti + eia em uma mesma amostra, duas vezes, supondo que
estas duas aplicações sejam independentes, ou seja,
X ib = Ti + eib
a primeira não influencie a segunda. O índice de
precisão é dado mais uma vez pela correlação entre
Nota-se que as duas medidas estão em os dois conjuntos de escores. Isso se dá porque é
função do mesmo escore verdadeiro e ambas sujeitas evidente que a forma mais paralela possível de um
a erros. Calculando-se a correlação entre os escores determinado teste é ele mesmo. Podendo-se supor
observados, tem-se: que a primeira aplicação não afete a segunda, têm-
N N
se duas medidas paralelas do mesmo construto e a
∑( X ia − T )( X ib − T ) ∑ ( (T + e
i ia )−T )( (Ti + eib )−T ) dedução apresentada, referente à correlação entre
ρab = i =1
Nσ a σ b
= i =1
Nσ a σ b
dois escores paralelos, passa a ser válida.
N
O terceiro método é denominado precisão
∑ [T i
2
+ Ti eib − TiT + eia Ti + eia eib − eia T − TTi − Teib + T 2 ] pelas metades e consiste na aplicação de um único
ρab = i =1
Nσ a σ b
teste a uma única amostra e, posteriormente, na
divisão deste teste em duas metades comparáveis,
isto é, duas metades semelhantes, ou paralelas.
A correlação entre essas duas metades é igual à
estimação do índice de precisão. Supõe-se que, Quando se somam variáveis para se compor
estando todos os itens de um teste medindo o mesmo um escore - como no caso do escore observado que
construto psicológico, a divisão deste teste em duas é composto pela soma da pontuação nos itens - a
metades comparáveis equivale a obter duas medidas variância desse novo escore é composta pela soma
por meio de formas paralelas do mesmo teste e, por- da variância dessas variáveis (itens) mais a covariân-
tanto, passam a ser válidas as deduções para medidas cia entre elas. Portanto, quando há covariância (ou
paralelas. seja, correlação entre os itens), a variância do escore
Nesse último caso, da precisão pelas meta- do teste S x2 será maior do que a soma da variân-
n n
número de itens que compõem o teste, é comum resultando um numerador positivo. Quanto maior an
empregar uma fórmula denominada correção de variância dos testes em relação a ∑ p q , mais o resul-
i =1
i i
n −1 S 2
x medidas feitas por testes paralelos), o valor do
escore verdadeiro (Ti) será constante de medida a
Onde:
medida – para um mesmo sujeito. O escore de erro
(ei), no entanto, irá variar. Portanto, a variação nos
S x2 é a variância do escore observado x escores observados Xi, entre as aplicações, para um
n
mesmo sujeito, será causada pela variação dos esco-
∑pq
i =1
i i representa a soma das variâncias dos
res de erro. Dessa maneira, a variação encontrada em
medidas repetidas de um construto psicológico, que
n itens tem seu valor constante, é chamada erro padrão da
Assim, quanto maiores as cargas que duas (Xi), ou seja, a somatória de pontos nos itens. Na
variáveis têm em um fator comum maior, será a linha marginal inferior estão representados os
correlação entre estas variáveis. Isso ocorre porque escores dos itens (Pj), ou seja, quantos sujeitos
a análise fatorial extrai e concretiza, nos escores dos acertaram o item j. Um dos primeiros atributos dos
fatores, a variância comum. Com base nisso, se um itens é o índice de dificuldade (ID). Ele representa
teste e uma variável externa medem um mesmo atri- a probabilidade de acerto no item em causa. Por-
buto psicológico, suas cargas fatoriais nas variáveis tanto, IDj = Pj/N. Assim, um ID = 0,87, para um
latentes que compõem este construto serão altas. determinado item j indica que 87% das pessoas
Embasando-se na fórmula apresentada, pode-se acertaram o item j.
deduzir que a correlação entre o teste e a variável Considerando, nesse momento, somente o
externa será alta, provando assim que, quanto maior índice de dificuldade, pode-se dizer que um bom
a correlação teste e variável externa, mais válido é o item é aquele que possui alta variância, visto que o
teste. Assim sendo, o método de estimação da vali- objetivo do teste é explicitar as variações que exis-
dade envolve a análise correlacional com medidas tem entre os indivíduos, itens com alta variância irão
externas, buscando-se esclarecer a rede de relações contribuir para uma maior variância do escore do
com variáveis externas – rede nomológica (Embret- teste, já que uma das parcelas da variância do escore
son, 1994). é a soma da variância dos itens individuais. Isso irá
permitir uma maior discriminação dos indivíduos
em função dos escores. Um item com ID = 1,00 ou
Análise de itens pela TCT
0,00 não traz informação alguma, pois não permi-
Para que os critérios de precisão e validade
tirá uma separação dos sujeitos já que, em um caso
de um teste sejam satisfeitos, inicialmente deve-
100% acertam e, no outro, 100% erram.
se partir para a análise das unidades básicas que
É sabido que os indivíduos diferem entre si
compõem o teste, ou seja, os itens. Geralmente,
no construto que se deseja avaliar, então um item com
as análises quantitativas incluem a análise da dis-
variância próxima a zero pode ser considerado como
tribuição de respostas nos itens (ou o índice de
um item inadequado para o teste. Em contrapartida,
dificuldade, quando o item é dicotômico), o poder itens com ID = 0,50 são os que apresentam maior
discriminativo, a análise das alternativas, a proba- variância já que dividem o grupo de sujeitos pela
bilidade de acerto ao acaso e a validade externa do metade, permitindo a comparação de cada um dos
item (Almeida, 1993). 50 sujeitos que erraram com cada um dos 50 sujeitos
Supondo que os itens representem respostas que acertaram, ou seja, 50 X 50 = 2500 comparações
dicotômicas como acerto ou erro, e que N sujeitos (em um grupo de 100 sujeitos). Desse modo, são
respondam a n itens, os dados podem ser arranja- considerados bons itens aqueles que possuem ID’s
dos na matriz a seguir (Figura 1) onde cada sujeito entre 0,30 e 0,70, ou seja perto de 0,50 (Ferguison,
é representado em uma linha e cada item em uma 1981). Em termos técnicos, o que se deseja é que a
coluna: variância dos escores do teste seja máxima. Índices
No corpo da matriz estão representadas as com ID’s próximos a 0,50 contribuem aumentando
respostas dos sujeitos aos itens. Na coluna marginal a variância dos escores. Contudo, um segundo fator
direita estão representados os acertos dos sujeitos também contribui para isso: a covariância entre os
Itens sujeitos 1 . j . .n S
1 c11 c1n X1
.
i ci1 cij Xi
N cN1 cNn XN
S . P1 Pj Pn
Figura 1 - Matriz de respostas de N sujeitos a n itens
itens. Quando os itens estão altamente correlaciona- escores ajudando a discriminação entre os sujeitos.
dos, a variância do escore aumenta. O cálculo desse coeficiente é dado por:
Um exemplo simples pode ajudar a com-
preender esse fato. Suponha que um teste seja X p − Xq
composto por 20 itens com ID’s = 0,50, suponha rpbi = pq
também que todos os itens tenham uma correlação Sx
perfeita entre si, ou seja, um indivíduo que acerte o
item j acerte também os j-1 itens restantes e inver- Onde
samente um sujeito que erre o item j erre também os
j-1 itens restantes. Como a probabilidade de acerto p representa a probabilidade de acerto ou o ID do
de qualquer um dos itens é 0,50, e como a correlação item em causa
entre todos os itens é 1, para qualquer item j, os 50% q=1-p
que acertam este item acertam também todos os j-1 Sx representa o desvio padrão da variável contínua
itens restantes, chegando assim ao escore máximo
Xp,Xq a média dos sujeitos que acertaram o item e
no teste. Já os 50% que erram têm, pelas mesmas
dos que erraram
razões, o escore 0.
A variância dos escores no teste, definida
por S = S(X - X ) / N, será máxima, pois 100%
2 2 Em suma, um bom teste deve ser com-
posto por itens com alta variância (ID) e com alta
dos indivíduos estarão a uma distância máxima da
correlação com o escore total (rpbi). Isso faz com
média, ora para cima (50% dos sujeitos com escore
que a variância do escore seja alta e possa captar as
máximo), ora para baixo (50% dos sujeitos com
variações do atributo psicológico que é mensurado.
escore mínimo), elevando a soma de quadrados.
Como foi visto anteriormente, o método de
Mais uma vez, supondo que esse teste tenha sido
precisão por consistência interna baseia-se na cova-
aplicado a 100 sujeitos, os 50 sujeitos com escore
riação entre os itens para estimar a precisão. Altas
máximo poderão ser comparados com cada um dos
correlações item-total associam-se à alta consis-
50 sujeitos com escore mínimo, portanto 2500 com-
tência interna e à alta precisão. A análise dos itens
parações poderiam ser feitas.
possibilita um olhar mais apurado às característi-
Em situações práticas, não serão encontra-
cas dos itens para que se possa fazer uma seleção
dos testes com esses padrões perfeitos de correlação daqueles que contribuem, em maior grau, para o
1 e ID’s = 0,50 como é exemplificado. Pode-se pen- teste como um todo no aumento da precisão. Con-
sar, no entanto, em diferentes graus de covariância tudo, essa variância capturada deve estar associada
entre os itens. Quanto maior a covariância, maior à variável latente em análise. Da mesma forma que
será a variância do escore total. Um método muito é julgada a validade de um teste, a validade de um
frequente de se avaliar quanto um item contribui para item é dada pela correlação entre o item e um critério
a diferenciação dos sujeitos é calcular a correlação externo.
entre o item e o escore total no teste. Esse coeficiente Haveria ainda muitos detalhes a tratar para
é chamado de correlação ponto bisserial (rpbi) e que se possa analisar todo o conjunto teórico e prá-
expressa a correlação entre uma variável categórica tico edificado pela psicometria. No entanto, este
dicotômica (acerto ou erro) e uma variável intervalar artigo trata somente dos conceitos básicos referen-
(o escore no teste que, embora não possa ser con- tes à analise fatorial e ao modelo clássico e como as
siderada uma variável intervalar genuína, para fins práticas mais comuns de construção de instrumentos
práticos é considerada como tal). Ver argumentos de de avaliação se relacionam a eles. Atualmente, novas
Ferguson (1981) e Lord e Novick (1974). abordagens têm surgido dentro dos modelos da
Esse coeficiente também é chamado de Teoria de Resposta ao Item (Hambleton & Swami-
poder discriminativo do item. Esse nome é dado já natham, 1985) e deverão ser objeto de reflexão em
que uma alta correlação entre o item e o escore indica trabalhos futuros, de forma a enriquecer a discussão
que o item contribui para aumentar a variância dos sobre as teorias da medida.
Sobre o autor:
Ricardo Primi, psicólogo pela PUC Campinas, doutor em Psicologia Escolar e do Desenvolvimento Humano pela
Universidade de São Paulo. É professor associado do Programa de Pós-Graduação em Psicologia da Universidade
São Francisco.