Você está na página 1de 16

Parte Dois

PRINCIPIOS TECNICOS E
METODOLOGICOS
3
Normas e Significado
dos Escores de Teste

A Parte Dois, que inclui os Capitulos de 3 a 7, apre- res brutos, as porcentagens so podem ser interpre-
senta uma introdugao a conceitos basicos e meto- tadas em termos de uma estrutura de referenda
dologia necessarios para um entendimento dos tes- claramente definida e uniforme.
tes psicologicos e para a interpretagao adequada Os escores de testes psicologicos sao mais co-
dos resultados dos testes. Os capitulos sucessivos mumente interpretados por referenda a normas
tratam de normas, fidedignidade, validade e ana- que representam o desempenho no teste da amos-
lise de itens e delineamento do teste. 0 presente tra de padronizagao. As normas sao portanto esta-
capitulo apresenta o desenvolvimento e o uso das belecidas empiricamente determinando-se o que
normas e outros procedimentos que facilitam a as pessoas de um grupo representative fazem no
interpretagao dos escores de teste por parte do usu - teste. 0 escore bruto de um individuo e entao situ-
ario. Na ausencia de dados interpretativos adicio- ado na distribuigao dos escores obtidos pela amos-
nais, um escore bruto em qualquer teste psicologi- tra de padronizagao, para descobrir-se onde ele se
co nao tern significado. Dizer que um individuo localiza nessa distribuigao. 0 escore coincide com
resolveu corretamente 15 problemas em um teste o desempenho medio do grupo de padronizagao?
de raciocfnio matematico, ou que identificou 34 Ou esta ligeiramente abaixo da media? Ou situa-
palavras em um teste de vocabulario, ou que mon- se quase na extremidade superior da distribuigao?
tou corretamente um objeto mecanico em 57 se- A fim de determinar-se mais precisamente a
gundos transmite pouca ou nenhuma informagao posigao exata do ihdivfduo com referenda a amos-
sobre sua posigao em qualquer uma destas fun- tra de padronizagao, o escore bruto e convertido
goes. Os conhecidos escores de porcentagem tam- em uma medida relativa. Esses escores derivados
bem nao oferecem uma solugao satisfatoria para o tern um duplo proposito. Primeiro, eles indicam a
problema da interpretagao dos escores de teste. Um posigao relativa do individuo na amostra norma-
escore de 65% de respostas corretas em um teste de tiva e assim permitem uma avaliagao de seu de-
vocabulario, por exemplo, poderia ser equivalente sempenho em referenda a outras pessoas. Segun-
a 30% de respostas corretas em um outro, e a 80% do , eles oferecem medidas comparaveis que
em um terceiro. 0 nfvel de dificuldade dos itens permitem uma comparagao direta do desempenho
que constituem um teste, evidentemente, determi- da pessoa em testes diferentes. Por exemplo, se uma
nant o significado do escore. Como todos os esco- menina obteve um escore bruto de 40 em um teste
56 ANNE ANASTASI & SUSANA URBINA TESTAGEM PSICOLOGICA 57

de vocabulario e urn escore bruto de 22 em um o significado de certas medidas estatisticas comuns. distribuigao e feita agrupando-se os escores em in- 3.1 de forma grafica. Na linha base, ou eixo hori-
teste de raciocmio aritmetico, nos obviamente nao Sao apresentados exemplos de calculos simplifica- tervals de ciasse convenientes e registrando-se cada zontal, estao os escores agrupados em intervalos
sabemos nada sobre seu desempenho relativo nos dos apenas para este objetivo, e nao para oferecer escore no intervalo apropriado. Quando todos os de ciasse; no eixo vertical estao as freqiiencias, ou
dois testes. Ela e melhor em vocabulario ou em um treinamento em metodos estatfsticos. Para que escores foram inclufdos, os registros sao contados numero de casos inclufdos em cada intervalo de
aritmetica, ou igualmente boa nos dois? Uma vez detalhes e procedimentos especificos de calculo se- para encontrarmos a freqiiencia, ou o numero de ciasse. 0 grafico foi produzido de duas maneiras,
que os escores brutos em testes diferentes sao nor- jam seguidos na aplicagao pratica dessas tecnicas, casos, em cada intervalo de ciasse. As somas dessas ambas as formas sendo comumente utilizadas. No
malmente expressos em unidades diferentes, e im- o leitor deve procurar qualquer manual recente de freqiiencias sera igual a A, o numero total de ca- histograma , a altura da coluna erguida em cada
possivel uma comparagao direta desses escores. 0 estatfstica psicologica ( p. ex., D.C. Howell, 1997; sos do grupo. A Tabela 3-1 apresenta os escores de intervalo de ciasse corresponde ao numero de pes-
nfvel de dificuldade do teste especifico tambem afe- Runyon & Haber, 1991; West, 1991) . Existe um cres- 1.000 alunos universitarios em um teste de apren- soas com escores naquele intervalo. Podemos ima-
taria tal comparagao entre escores brutos. Os esco- cente reconhecimento da necessidade de um co- dizagem de codigos, no qual uma serie de pala- ginar cada indivfduo em pe nos ombros de outro
res derivados, por outro lado, podem ser expressos nhecimento basico da metodologia estatfstica, nao vras artificial, ou sflabas sem sentido , deveria ser para formar a coluna. No poligono de frequen-
nas mesmas unidades e situados nas mesmas apenas para os usuarios, mas tambem para qual- substitufda por outra. Os escores brutos, comuni- cia , o numero de pessoas em cada intervalo e indi-
amostras normativas ou em amostras bastante se- quer pessoa que queira ler com entendimento os cando o numero de sflabas corretas substitufdas cado por um ponto no centro do intervalo de cias-
melhantes, em testes diferentes. Assim , o desempe- relatos de pesquisa publicados em qualquer area durante uma tentativa de dois minutos, variaram se e sobre a frequencia apropriada. Os pontos
nho relativo do indivfduo em muitas fungoes dife- da psicologia (L.S. Aiken , West, Sechrest & Reno, de 8 a 52. Eles foram agrupados em intervalos de sucessivos sao entao unidos por linhas retas.
rentes pode ser comparado. 1990; Anastasi, 1991; Lambert, 1991; S.T. Meier, ciasse de 4 pontos, de 52-55, no topo da distribui- Exceto por pequenas irregularidades, a distri-
Existem muitas maneiras pelas quais os esco- 1993). gao, ate 8-11. A coluna de frequencia revela que buigao mostrada na Figura 3.1 se assemelha a uma
res brutos podem ser convertidos para atingir os duas pessoas obtiveram escores entre 8 e 11, tres curva normal com forma de sino. Uma curva
dois objetivos recem -apresentados. Mas os escores entre 12 e 15, oito entre l 6 e 19, e assim por diante. normal perfeita, matematicamente determinada,
derivados sao fundamentalmente expressos em CONCEITOS ESTATISTICOS As informagoes oferecidas por uma distribui- aparece na Figura 3.2. Esse tipo de curva tern im-
uma de duas maneiras principais: (1) o nfvel de- gao de frequencia tambem podem ser apresenta- portantes propriedades matematicas e proporcio-
senvolvimentai atingido, ou (2) a posigao reiativa Um objetivo importante do metodo estatfstico e o das graficamente na forma de uma curva de dis- na a base para muitos tipos de analises estatisticas.
aentro de um. grupo especificado. Esses dois tipos de organizar e resumir dados quantitativos para tribuigao. A Figura 3.1 apresenta os dados da Tabela No entanto, para nossos objetivos presentes, des-
de escores e algumas de suas variantes comuns sao facilitar seu entendimento. Uma lista de 1.000 es-
considerados em segoes separadas deste capftulo. cores de teste pode ser uma visao esmagadora. Nesta
Mas primeiro e necessario examinar alguns con- forma, ela transmite pouco significado. Um pri-
ceitos estatfsticos elementares subjacentes ao de- meiro passo para organizar tal caos de dados bru- 340 -
senvolvimento e a utilizagao das normas. A segao tos e tabular os escores em uma distribuiqao de 320 -
seguinte e inclufda simplesmente para esclarecer freqiiencia, conforme ilustrado naTabela 3.1. Essa 300 -
280 - %!
— Poligono de Frequencia
Histograma
260 -
:
TABELA 3.1 i/i
240 - i;
Distribuigao de Frequencia dos Escores de 1.000 Alunos Universitarios em um Teste de Aprendizagem de Codigos o
in
03
220 - • a
V
u 200 -
a>
Intervalo de Ciasse Frequencia XJ
o 180 -
52-55 1
E
o
CU
160 - *- '7' - -
3

•i v

48-51 1
2 140 -
f
4447 20 120 - Yl
E
\:
4043 73 100 - t
36-39 156 80 - r
32-35 328 60 -
28-31 244 40 -
&mm
r

24-27 136
20-23 28 20 - 3 r - *

16-19 8
12-15 3 8-
11
12
15
- 16
19
- 20-
23
24-
27
28
31
- 32
35
- " -
36
39
40-
43
44-
47
48-
51
-
52
55
8-11 2
Escores
N = 1.000
FIGURA 3.1 Curva de Distribuigao: Poligono de Frequencia e Histograma.
Dados de Anastasi, 1934, p. 34. Dados da Tabela 3.1.
58 ANNE ANASTASI & SUSANA URBINA TESTAGEM PSICOLOGICA 59

TABELA 3.2
llustragao da Tendencia Central e da Variabiiidade

.—... Desvio (x = X - /Vf] Desvio Quadratico (x2)


DP grande Escore (X)
o
m DP pequeno
U
TO
48 +8 64
V
<
O
" 50% dos 47 +7 49
2 casos 43 +3 +20 9
a;
£ 41 +1 1
•o
41 +1 1
Mediana - 40, 5 40 0 0
38 -2 4

**
V
- 36 -4 -20
-6
16
36
.
i
* <• 50% dos 34
casos 32 -8 64
Escores
400 2x2 = 244
FIGURA 3.2 Distribuigao de Frequencia com a Mesma Media, mas Variabiiidade Diferente.

M
_ 2* 400
= 40
« . N 10
creveremos apenas algumas caractensticas. Essen - Uma outra descrigao de um conjunto de esco-
ciaimente, a curva indica que o maior numero de res de teste e dada por medidas de variabiiidade, Variancia = a2 = = 24,40
casos esta agrupado no centro do intervalo total e ou a extensao das diferengas individual em tomo
que o numero cai gradualmente em ambas as di- da tendencia central. A maneira mais obvia e co-
regoes a medida que nos aproximamos das extre- nhecida de relatar a variabiiidade e em termos dos DP ou a = = x/ 24,40 = 4,9
midades. A curva e bilateralmente simetrica, com limites de variagao entre o escore mais alto e o
um unico pico no centro. A maioria das distribui- mais baixo. Os limites de variagao, entretanto, sao
Nota: Os simbolos e a apresentados nesta tabela sao a maiuscula e a minuscula da mesma letra grega, que se pronuncia sigma .
" "
goes dos tragos humanos, de altura e peso a apti-
does e caractensticas de personalidade, aproxima-
extremamente aproximados e instaveis, pois sao
determinados apenas por dois escores. Um unico
^
Em muitos textos estatfsticos, DP (ou simplesmente P ) refere-se ao desvio- padrao da amostra da qual os dados foram realmente
obtidos, enquanto a refere-se ao valor estimado do desvio- padrao na popuiagao da qual a amostra foi retirada .
se da curva normal. Em geral, quanto maior o escore incomumente elevado ou baixo afetaria ni-
grupo, mais estreitamente a distribuigao vai se as- tidamente o seu tamanho. Um metodo mais preci-
semelhar a curva normal teorica. so de medir a variabiiidade baseia-se na diferenga
Um grupo de escores tambem pode ser descrito entre o escore de cada indivfduo e a media do gru- tido em calcular a moda em um grupo tao peque- Uma medida muito mais util de variabiiidade
em termos de alguma medida de tendencia cen- po. no, uma vez que os casos nao apresentam nenhum e o desvio-padrao (simbolizado por DP ou a) , em
tral. Tal medida proporciona um escore unico, o Neste ponto, seria util examinarmos o exem- agrupamento nftido em qualquer escore. No en- que os sinais negativos sao legitimamente elimi-
mais tfpico ou representative para caracterizar o plo na Tabela 3.2, em que as varias medidas sob tanto, tecnicamente, 41 representariaamoda, por- nados elevando-se ao quadrado cada desvio. Este
desempenho de todo o grupo. A mais conhecida consideragao foram calculadas com 10 casos. Este que duas pessoas obtiveram este escore, enquanto procedimento foi conseguido na ultima coluna da
dessas medidas e a media ( M ) , que e encontrada pequeno grupo foi escoihido para simplificar a de- todos os outros escores ocorreram apenas uma vez. Tabela 3.2. A soma dessa coluna dividida pelo nu-
somando-se todos os escores e dividindo-se o total monstragao, embora na pratica real nos normal- A segunda coluna mostra quanto cada escore mero de casos1 (%x2 -r A) e conhecida como a
pelo numero de casos (N ) . Uma outra medida de mente estariamos lidando com grupos maiores. A se desvia acima ou abaixo da media de 40. A soma varidneia ou desvio quadratico medio. A vari-
tendencia central e a moda , ou o escore mais fre- Tabela 3.2 tambem serve para introduzir certos sfm- desses desvios sera sempre igual a zero, porque os ancia se revelou extremamente util para separar-
qiiente. Em uma distribuigao de frequencia, a bolos estatfsticos padronizados que devem ser re- desvios positivos e negativos em tomo da media mos as contribuigoes de diferentes fatores para as
moda e o ponto medio do intervalo de classe com a gistrados para futura referenda. Os escores brutos necessariamente equilibram ou cancelam um ao diferengas individual no desempenho em testes.
frequencia mais alta. Assim, naTabela 3.1, a moda originais sao convencionalmente designados por outro ( + 20 - 20 = 0) . Se ignorassemos os sinais, No entanto, para os objetivos presentes, a nossa
esta entre 32 e 35, sendo 33,5. Vamos notar que umXmaiusculo, e urn* minusculo e usado refe- e claro, poderfamos calcular a media dos desvios principal preocupagao e com o DP, que e a raiz
este escore corresponde ao ponto mais alto na cur- rindo-se aos desvios de cada escore com relagao a absolutos, obtendo assim uma medida do valor quadrada da variancia, conforme demonstrado na
va de distribuigao na Figura 3- 1. Uma terceira media do grupo. 0 stmbolo £ significa “ somade” . medio do desvio de cada pessoa em relagao a me- Tabela 3- 2. Esta medida e comumente empregada
medida de tendencia central e a mediana, ou o Veremos que a primeira coluna na Tabela 3.2 apre- dia do grupo. Embora possua certo valor descriti- na comparagao da variabiiidade de diferentes gru-
escore mais central quando todos os escores foram senta os dados para o calculo da media e da medi- vo, este “ desvio medio” nao e adequado para o uso pos. Na Figura 3- 2 , por exemplo, estao duas distri-
arranjados em ordem de grandeza. A mediana e o ana. A media e 40; a mediana e 40,5, situando-se em outras analises matematicas, porque os sinais buigoes com a mesma media, mas variabiiidade
ponto que divide ao meio a distribuigao, com mg- .
tade dos casos acima dela e metade abaix(y^ TC.
?

entre 40 e 41 cinco casos (50%) estao acima da
ediana e cinco estao abaixo. Nao ha muito sen-
foram descartados arbitrariamente; portanto, ele diferente. A distribuigao com as maiores diferen-
gas individuals produz um DP maior do que aque-
w nao e empregado na pratica.
60 ANNE ANASTASI & SUSANA URBINA
TESTAGEM PSICOLOGICA 6l

la com diferengas individuals menores. Quando rizado nas varias tradugoes e adaptagoes das esca- anos de crescimento mental dos 9 aos 12 anos de
relevantes na interpretagao dos escores-padrao e dos
las Binet-Simon, embora Binet tenha empregado idade. Uma vez que o desenvolvimento intelectual
avaliamos o desempenho relativo de dois grupos, percentis, discutidos em segoes posteriores.
o termo mais neutro “ nfvel mental ” . Em escalas progride mais rapidamente nas idades mais inici-
devemos comparar tanto o DP quanto as medias.
de idade como a de Binet e suas revisoes (antes de ais e diminui gradualmente a medida que o indi-
Se os dois grupos diferirem em variabilidade, isso
1986) os itens eram agrupados em nfveis de anos. vfduo se aproxima de seu limite de maturidade, a
pode indicar diferengas grupais na proporgao de NORMAS DESENVOLVIMENTAIS
Por exemplo, os itens corretamente solucionados unidade de idade mental se reduz correspondente-
escores elevados, escores baixos, ou ambos, inde-
pela maioriadas criangas de 7 anos na amostra de mente com a idade. Esta relagao pode ser visuali-
pendentemente das diferengas de media. Existem Uma maneira de se atribuir significado aos esco-
padronizagao eram colocados no nfvel de 7 anos, zada mais facilmente se pensarmos na altura do
procedimentos para se combinar os efeitos das di- res de teste e indicar quanto o indivfduo progrediu
ferengas de media e diferengas de DP (ver, p. ex., aqueles corretamente solucionados pela maioria indivfduo sendo expressa em termos de “ idade de
ao longo do desenvolvimento normal. Assim, uma
das criangas de 8 anos eram colocados no nfvel de altura” . A diferenga, em centfmetros, entre uma
Feingold, 1995). crianga de 8 anos que teve um desempenho tao
8 anos, e assim por diante. 0 escore de uma crian- idade de altura de 3 e 4 anos seria maior do que
0 DP tambem e a base para expressarmos os bom quanto a crianga media de 10 anos em um
ga no teste corresponderia entao ao nfvel mais ele- entre uma idade de altura de 10 e 11 anos. Devido
escores de um indivfduo em diferentes testes em teste de inteligencia pode ser descrita como tendo
termos de normas, como sera mostrado na segao vado que ela pudesse completar corretamente. Na a progressiva redugao da unidade de IM, um ano
uma idade mental de 10; um adulto mentalmente de aceleragao ou retardo, digamos, aos 5 anos de
sobre os escores-padrao. A interpretagao do DP e retardado com um desempenho neste mesmo nf- pratica concreta, o desempenho do indivfduo apre-
sentava uma certa quantidade de dispersao. Em idade representa um desvio maior em relagao a
especialmente clara quando aplicada a uma cur- vel tambem teria uma IM de 10. Em um contexto
outras palavras, os examinandos fracassavam em norma do que um ano de aceleragao ou retardo
va de distribuigao normal ou aproximadamente diferente, uma crianga de quarta serie pode ser ca-
alguns testes abaixo da sua idade mental e passa- aos 10 anos de idade.
normal . Em tal distribuigao, existe uma relagao racterizada como atingindo a norma de sexta serie
exata entre o DP e a proporgao de casos, conforme em um teste de leitura e a norma de terceira serie vam em alguns acima dela. Por esta razao, era co-
mum se comparar a idade basal , isto e, a idade Equivalentes de Serie Escolar. Os escores
-
demonstrado na Figura 3 3. Na linha base dessa
curva normal foram marcadas distancias represen-
em um teste de aritmetica. Outros sistemas desen-
volvimentais utilizam descrigoes mais qualitativas mais elevada na qual e abaixo da qua! todos os nos testes de realizagao escolar sao muitas vezes
testes eram respondidos corretamente. Creditos interpretados em termos de equivalentes de serie
tando um , dois e tres desvios-padrao acima e abai- do comportamento em fungoes especfficas, tais
parciais, em meses, eram entao acrescentados aessa escolar. Esta pratica e compreensfvel porque os tes-
xo da media. Por exemplo , nos exemplos apresen - como atividades sensorio-motoras ou formagao de
idade basal para todos os testes corretamente solu- tes sao empregados dentro de um ambiente esco-
tados na Tabela 3.2, a media corresponded a a um conceitos. Independentemente de como sao expres-
escore de 40; + la corresponderia a 44, 9 0- e., 40 cionados em nfveis de idade mais elevados. A ida- lar. Descrever a realizagao de um aluno como equi-
ses, os escores baseados em normas desenvolvimen - valente ao desempenho de setima serie em
+ 4,9) ; + 2a, a 49,8 (i. e., 40 + 2 x 4,9) ; e assim tais tendem a serpsicometricamente imperfeitos e de mental da crianga no teste era a soma da idade
basal e os meses adicionais de credito obtido nos ortografia, de oitava serie em leitura e de quinta
por diante. A porcentagem dos casos inclufdos en - nao se prestam bem a um tratamento estatfstico
nfveis de idade mais elevados. serie em aritmetica tern o mesmo apelo popular
tre a media e + la em uma curva normal e 34, 13-
'
preciso. No entanto, eles tern um consideravel ape-
Normas de idade mental tambem foram em- que o uso da idade mental nos tradicionais testes
Uma vez que a curva e simetrica, 34,13% dos casos lo para propositos descritivos, especialmente no
pregadas com testes que nao sao divididos em nf- de inteligencia.
sao igualmente encontrados entre a media e la, — estudo clfnico intensivo dos indivfduos e para cer-
veis de anos. Neste caso, o escore bruto da crianga As normas de serie sao encontradas calculan -

de modo que entre + la e la, em ambos os lados
da media, estao 68, 26% dos casos. Quase todos os
tas finalidades de pesquisa.
e determinado primeiro. Esse escore pode ser o do-se o escore bruto medio obtido pelas criangas
numero total de itens corretos em todo o teste; ou em cada serie. Assim , se o numero medio de pro-
casos (99,72%) estao inclufdos entre ± 3a em re- Idade Mental. No Capftulo 2 observamos que
ele pode basear-se no tempo, no numero de erros, blemas resolvidos corretamente em um teste de
lagao a media. Estas relagoes sao especialmente o termo “ idade mental” foi amplamente popula- aritmetica pelos alunos de quarta serie na amostra
ou em alguma combinagao destas medidas. Os es-
cores brutos medios obtidos pelas criangas de cada de padronizagao e de 23, entao um escore bruto de
grupo de idade na amostra de padronizagao cons- 23 corresponde a um equivalente de serie escolar
tituem as normas de idade para esse teste. 0 escore de 4. Equivalentes intermediaries de uma serie,
99, 72%
bruto medio das criangas de 8 anos, por exemplo, representando fragoes dela, sao geralmente obti-
~

-
'•

&
r
95 , 44%
68, 26%
r \
1 representaria a norma para 8 anos. Se o escore bru-
to de um indivfduo e igual ao escore bruto medio
de 8 anos, entao a sua idade mental no teste e de 8
anos. Todos os escores brutos nesse teste podem ser
transformados de maneira semelhante pela refe-
dos por interpolagao, embora tambem possam ser
obtidos diretamente testando-se as criangas em di-
ferentes momentos do ano escolar. Uma vez que o
ano escolar abrange dez meses, meses sucessivos
podem ser expressos como decimals. Por exemplo,
renda as normas de idade. 4,0 refere-se ao desempenho medio no infeio da
:1 13, 59% J
/ 34 13%
, 34, 13% \
\X13/,59% II
Convem observar que a unidade de idade men-
tal nao permanece constante com a idade, mas ten -
quarta serie (testagem em margo) , 4, 5 se refere ao
desempenho medio na metade da serie (testagem
2,14% 2, 14%
de a diminuir com o avangar dos anos. Por exem - em julho) , e assim por diante.
- ! plo, uma crianga que esta um ano atrasada aos 4 Apesar de sua popularidade, as normas de serie
escolar apresentam muitas deficiencias. Primeiro,
-3CT -2CT -1a Media + 1 cr + 2a +3a anos de idade estara aproximadamente tres anos
atrasada aos 12 anos de idade. Um ano de cresci- o conteudo da instrugao varia um pouco de serie
mento mental aos 3 ou 4 anos e equivalente a tres para serie. Conseqiientemente, as normas de serie
FIGURA 3.3 Distribuigao Percentual de Casos em uma Curva Normal.

i
62 ANNE ANASTASI & SUSANA URBINA TESTAGEM PSICOLOGICA 63

escolar so sao apropriadas para assuntos comuns tro areas importantes de comportamento: motora, As tarefas piagetianas tern sido amplamente gica ou da mesma serie escolar. Os escores do gru-
ensinados durante os nfveis de serie abrangidos pelo adaptativa, de linguagem e pessoal-social. Estes utilizadas na pesquisa pelos psicologos desenvol- po tern um significado quantitativo uniforme e cla-
teste. Elas nao sao genericamente aplicaveis ao nfveis sao encontrados comparando-se o compor- vimentais, e algumas foram organizadas em esca- ramente definido e podem ser empregados apro-
nfvel de ensino medio, em que muitos assuntos tamento da crianga com o comportamento tfpico las padronizadas, que serao discutidas no Capftulo priadamente na maioria das analises estatfsticas.
podem ser estudados por apenas urn ou dois anos. de oito idades-chave, variando de quatro semanas 9 (Goldschmid & Bender, 1968b; Pinard & Lau-
Mas mesmo no caso de materias ensinadas em cada a 36 meses. rendeau , 1964; Uzgiris & Hunt, 1975). De acordo Percentis. Os escores de percentil sao expres-
serie, a enfase colocada em diferentes assuntos pode Gesell e seus colegas enfatizaram o padrao se- com a abordagem de Piaget, esses instrumentos sao sesem termos da porcentagem de pessoas na amos-
variar de serie para serie, e o progresso pode ser quential do desenvolvimento initial do comporta- escalas ordinais, em que a obtengao de um estagio tra de padronizagao que se situa abaixo de um de-
mais rapido em um assunto do que no outro em mento. Eles citaram evidencias amplas de unifor- depende da conclusao dos estagios anteriores no terminado escore bruto. Por exemplo, se 28% das
uma serie especffica. Em outras palavras, as uni- midades de seqiiencias desenvolvimentais e uma desenvolvimento do conceito. As tarefas sao plane- pessoas acertam menos de 15 problemas em um
dades de serie escolar sao obviamente desiguais e progressao ordenada de mudangas comportamen- jadas para revelar os aspectos dominantes de cada teste de raciocfnio aritmetico, entao um escore bm-
essas desigualdades ocorrem irregularmente em tais. Por exemplo, as reagoes da crianga a um pe- estagio desenvolvimental; so mais tarde sao cole- to de 15 corresponde ao percentil vigesimo oitavo
diferentes areas de materias. queno objeto colocadodiante dela apresentam uma tados os dados empfricos relativos as idades em que (P28). Um percentil indica a posigao relativa do
As normas de serie escolar tambem estao sujei- seqiiencia cronologica caracterfstica na fixagao cada estagio e tipicamente atingido. A este respei- indivfduo na amostra de padronizagao. Os percen-
tas a interpretagSes erroneas, a menos que o usua- visual e nos movimentos de maos e dedos. 0 uso to, o procedimento difere do seguido na constru- tis tambem podem ser considerados como postos
rio do teste tenha muito presente a maneira como de toda a mao em tentativas imperfeitas de preen- gao das escalas de idade, em que os itens sao sele- em um grupo de 100, exceto que na ordenagao se
elas sao obtidas. Por exemplo, se uma crianga de sao palmar ocorre em uma idade mais inicial do cionados em primeiro lugar com base em sua costuma comegar a contagem no topo , com a me-
quarta serie obtem um equivalente de serie de 6,9 que o uso do polegar em oposigao a palma; esse diferenciagao de idades sucessivas. Embora o inte- lhor pessoa do grupo recebendo uma classificagao
em aritmetica, isso nao significa que ela dominou tipo de preensao e por sua vez seguido pelo uso do resse pelas contribuigoes da abordagem piagetia- de um. Com os percentis, por outro lado, nos co-
os processos aritmeticos ensinados na sexta serie. polegar e do indicador para agarrar o objeto de for- na continue, analises cnticas e avaliagoes empfri- megamos contando na base inferior, de modo que
Ela sem diivida obteve seu escore por um desem- ma mais eficiente, como uma pinga. Este padrao cas destacaram tanto seus aspectos construtivos quanto mais baixo o percentil, pior a posigao do
penho superior na aritmetica de quarta serie. Cer- sequential tambem foi observado no caminhar, no quanto suas limitagoes (Sugarman , 1987) .3 indivfduo.
tamente nao podemos supor que ela apresenta os subir escadas, e em quase todo o desenvolvimento Em resumo, as escalas ordinais sao planejadas 0 quinquagesimo percentil (P50) corresponde
pre- requisitos para a aritmetica de setima serie. Fi- sensorio- motor dos primeiros anos de vida. As es- para identificar o estagio atingido pela crianga no a mediana, ja discutida como uma medida de ten-
nalmente, as normas de serie escolar tendem a ser calas desenvolvidas segundo esta estrutura sao or- desenvolvimento de fungoes comportamentais es- dencia central. Os percentis acima de 50 represen-
incorretamente consideradas como padroes de de- dinais, no sentido de que os estagios desenvolvi- pecfficas. Embora os escores possam ser relatados tam desempenho acima da media; os abaixo de 50
sempenho. Uma professora de sexta serie, por exem- mentais seguem-seem uma ordem constante, cada em termos de nfveis de idade aproximados, tais es- significam desempenho inferior. Os percentis vige-
plo, pode supor que todos os alunos de sua turma estagio pressupondo amaestriaem comportamen- cores sao secundarios a uma descrigao qualitativa simo quinto e septuagesimo quinto sao conheci-
devem ficar na norma ou proximos da norma de tos que sao pre- requisitos caracterfsticos de estagi- do comportamento caracterfstico da crianga. A or ~ dos como o primeiro e terceiro pontos de quartil
sexta serie nos testes de realizagao. Esta concepgao os anteriores.2 dinalidade dessas escalas se refere a progressao (Qie Q3X porque eles separam 0 quarto inferior e
erronea certamente nao surpreende quando sao Na decada de sessenta houve um aumento pro- uniforme do desenvolvimento atraves de estagios 0 quarto superior da distri'ouigao. Como a media-
usadas as normas de serie escolar. Mas as diferen- nunciado de interesse pelas teorias desenvolvimen- sucessivos. Uma vez que essas escalas tipicamente na, eles proporcionam marcos convenientes para
gas individuals dentro de qualquer serie sao tantas tais do psicologo infantil sufgo Jean Piaget (ver Fla- oferecem informagoes sobre o que a crianga real- se descrever uma distribuigao de escores e compa-
que os limites de variagao dos escores nos testes de vell, 1963; Ginsburg 8c Opper, 1969; D.R. Green , mente e capaz de fazer (p. ex., sobe escadas sem ra-la com outras distribuigoes.
realizagao estender-se-ao inevitavelmente a varias Ford & Flamer, 1971). A pesquisa de Piaget focali- ajuda; reconhece a identidade na quantidade de Os percentis nao devem ser confundidos com
outras senes escolares. zava 0 desenvolvimento dos processos cognitivos lfquido quando derramado em recipientes de for- os conhecidos escores percentuais. Os ultimos sao
do perfodo da infancia a adolescencia. Ele estava mas diferentes) , elas compartilham caracterfsticas escores brutos, expressos em termos da porcenta-
Escalas Ordinais. Uma outra abordagem as preocupado com conceitos especfficos, e nao com importantes com os testes referenciados no domf- gem de itens corretos; os percentis sao escores deri-
normas desenvolvimentais deriva-se da pesquisa na habilidades amplas. Um exemplo de um desses nio discutidos em uma segao posterior deste capf - vados, expressos em termos de porcentagem de pes-
psicologia infantil. A observagao empirica do de- conceitos, ou esquemas, e apermanenciado obje- tulo. soas. Um escore bruto mais baixo do que qualquer
senvolvimento do comportamento nos bebes e nas to, por meio do qual a crianga esta consciente da um obtido na amostra de padronizagao teria uma
criangas pequenas levou a descrigao do comporta- identidade e da continuada existencia de objetos classificagao percentil de zero (P0); um mais alto
mento tfpico de idades sucessivas em fungoes como quando eles sao vistos de angulos diferentes ou NORMAS INTRAGRUPO do que qualquer escore da amostra de padroniza-
locomogao, discriminagao sensoria, comunicagao quando estao fora do angulo de vista. Um outro gao teria uma classificagao percentil de 100 (P100) •
lingiifstica e formagao de conceitos. Um antigo conceito amplamente estudado e a conservagao, Quase todos os testes padronizados oferecem atu- Esses percentis, todavia, nao implicam um escore
exemplo e oferecido pelo trabalho de Gesell e seus ou 0 reconhecimento de que um atributo perma- almente alguma forma de normas intragrupo. Com bruto de zero e um escore bruto perfeito.
colegas em Yale (Ames, 1937; Gesell & Amatruda, nece constante apesar de mudangas na aparencia essas normas, o desempenho do indivfduo e avali- Os escores de percentil apresentam diversas van-
1947; Halverson, 1933; Knobloch & Pasamanick, perceptual, como quando a mesma quantidade de ado em termos do desempenho do grupo de padro- tagens. Eles sao faceis de calcular e podem ser cla-
1974). Os Gesell Developmental Schedules mos- lfquido e derramada em recipientes de formas di- nizagao mais aproximadamente comparavel, como ramente compreendidos, mesmo por pessoas sem
tram o nfvel desenvolvimental aproximado, em ferentes, ou quando varetas do mesmo comprimen- quando comparamos o escore bmto de uma cri- treinamento tecnico. Alem disso, os percentis sao
meses, atingido pela crianga em cada uma de qua- to sao colocadas em arranjos espaciais diferentes. anga com o de criangas da mesma idade cronolo- aplicaveis universalmente. Eles podem ser usados
64 ANNE ANA 5TASI & SUSANA URBINA
TESTAGEM PSiCOLOGICA 65
igualmente bem com adultos e criangas e sao ade- A mesma relag ao pode ser vista na diregao opos-
quados para qualquer tipo de teste, quer ele mega ta se examinarmos os postos de percentil corres-
aptidoes ou variaveis de personalidade. p& ndentes a distancias a iguais em relagao a me-
0 principal inconveniente dos escores de per- dia de uma curva normal. Esses postos de percentil 95
centil decorre da acentuada desigualdade de suas sao apresentados abaixo do grafico na Figura 3.4. 90
unidades, especialmente nos extremos da distribui- Assim, a diferenga em percentil entre a media e
%
gao. Se a distribuigao de escores brutos se aproxi-

+ la e de 34 (84 50) . A diferenga entre + la e 80
ma da curva normal, como acontece na maioria
dos escores de teste, entao as diferengas de escore —
+ 2a e de apenas 14 (98 84).
Esta claro que os percentis mostram a posigao
75
70
60
bruto proximas da mediana ou do centro da distri- relativa de cada indivfduo na amostra normativa, c till
mm
buigao sao exageradas na transformagao em per-
centil, ao passo que as diferengas de escore bruto
mas nao a quantidade de diferenga entre os esco-
res. Se localizados em umafolhade probabilidade
u
a;
.
CL
50
40
30
mm
proximas as extremidades da distribuigao sao gran- aritmetica, todavia, os escores de percentil tambem 7/.
demente reduzidas. Esta distorgao de distancias podem fomecer um quadro visual correto das dife-
25
20
liflWi
mtw&! %
*

entre os escores pode ser vista na Figura 3.4. Em


uma curva normal, devemos lembrar, os casos se
rengas entre os escores. Uma folha de probabilida-
de aritmetica e um papel de cortes transversais em 10
mm
mm
agrupam compactamente perto do centro e se dis-
persam mais conforme nos aproximamos das ex-
que as iinhas verticais sao espagadas da mesma
maneira que os pontos percentis em uma distri-
5
m
gymi
III
HU 4m mMwm
tremidades. Conseqiientemente, qualquer porcen-
tagem de casos perto do centro cobre uma distancia
menor na linha base do que a mesma porcenta-
buigao normal (como na Figura 3- 4) , ao passo que
as Iinhas horizontais sao uniformemente espaga- 1

John Mary

7A
Ellen Edgar
m Jane Dick
~

7/. m
Debby
das, ou vice-versa (como na Figura 3.5) . Estesgrd-
gem perto das extremidades da distribuigao. Na ficos de percentis normais podem ser usados para
Figura 3- 4, esta discrepancia nos intervalos entre localizar os escores de pessoas diferentes no mes- FIGURA 3.5 Um Grafico de Percentil Normal: Os percentis sao espagados para corresponder a distancias iguais em
os postos de percentil (PP) pode ser vista facilmen- mo teste ou os escores da mesma pessoa em testes uma distribuigao normal . Compare a distancia dos escores entre John e Mary com a existente entre Ellen e Edgar; em ambos
te se comparamos a distancia entre um PP de 40 e diferentes. Em ambos os casos, a diferenga real in- os pares, a diferenga de percentil e de 5 pontos. Jane e Dick diferem por dez pontos de percentil , como Bill e Debby.
um PP de 50 com a distancia entre um PP de 10 e terescore sera corretamente representada. Muitas
um PP de 20. Ainda mais notavel e a discrepancia baterias de aptidao e realizagao utilizam atualmen-
entre essas distancias e a existente entre um PP de te esta tecnica em seus perfis de escore, que mos-
10 e um PP de 1. (Em uma curva normal mate- tram o desempenho do indivfduo em cada teste.
tipo mais satisfatorio de escore derivado, da maio - cores-padrao” ou “ escores z'\ Para calcular um
ria dos pontos de vista. Os escores- padrao expres - escore z, nos encontramos a diferenga entre o es-
maticamente derivada, o percentil zero nao e al-
cangado ate o infinito e portanto nao pode ser sam a distancia do indivfduo em relagao a media core bruto do indivfduo e a media do grupo nor-
Escores-Padrao. Os testes atuais estao utili- mative e depois dividimos essa diferenga pelo DP
mostrado no grafico.) em termos do desvio-padrao da distribuigao.
zando cada vez mais os escores-padrao , que sao o Os escores-padrao podem ser obtidos por trans- do grupo normativo. A Tabela 3 3 mostra o calculo
foimagoes lineares ou nao-lineares dos escores bru- de escores z para dois indivfduos: um deles se situa
tos originais. Quando encontrados atraves de uma 1 DP acima da media do grupo e o outro 0,40 DP
Mediana
transformagao linear , eles mantem as relagoes abaixo da media. Qualquer escore bruto que e exa-
PP 1 10 20 30 40 50 60 70 80 90 99
numericas exatas dos escores brutos originais, por - tamente igual k media e equivalente a um escore
z de zero. Esta claro que esse procedimento produ-
que sao calculados subtraindo-se uma constante
de cada escore bruto e depois dividindo-se o resul - zira escores derivados que terao um sinal negativo
para todas as pessoas situadas abaixo da media.
tado por uma outra constante. A magnitude relati-
va das diferengas entre os escores-padrao deriva- Alem disso, ja que o intervalo total da maioria dos
dos por essa transformagao linear corresponde grupos nao vai alem de 3 DP acima e abaixo da
exatamente a existente entre os escores brutos. To- media, esses escores-padrao terao de ser relatados
das as propriedades da distribuigao original dos pelo menos com uma casa decimal para oferecer
escores brutos sao duplicadas na distribuigao des- suficiente diferenciagao entre os indivfduos.
ses escores-padrao. Por essa razao, qualquer cal- —
Ambas as condigoes anteriores isto e, a ocor-
culo que pode ser executado com os escores brutos
originais tambem pode ser executado com esco-

rencia de valores negativos e decimais tendem a
produzir numeros inconvenientes que sao confu -
-3d -2a -la M + la +2a +3a res-padrao lineares, sem qualquer distorgao de re- sos e diffeeis de usag tanto para calculo quanto para
PP 0,1 2 16 50 84 98 99,9 sultado. relato. Por essa razao, geralmente se faz mais uma
Os escores-padrao linearmente derivados sao transformagao linear, simplesmente para colocar
FIGURA 3.4 Postos de Percentil em uma Distribuigao Normal.
muitas vezes designados simplesmente como '‘es- os escores em uma forma mais conveniente. Por
rv

66 ANNE ANASTASI & SUSANA URBINA TE 5TAGEM PSiCOLOGICA 67

TABELA 3.3 menos de 100 casos, o numero correspondente a


Calculo de Escores-Padrao linearmente derivados, isto e, com uma media de
zero e um DP de 1. Assim, um escore normalizado cada porcentagem designada e calculado primei-
de zero indica que o indivfduo se situa na media ro, e esses numeros de casos recebem entao os sta-
X-M de uma curva normal , excedendo 50% do grupo. nines apropriados. Assim , de 200 casos, oito rece-
z M = 60 DP = 5
DP Um escore de -1 significa que ele supera aproxi- beriam um stanine de 1 (4% de 200 = 8) . Com
madamente 16% do grupo; e um escore de + 1, que 150 casos, seis receberiam um stanine de 1 (4% de
E5COREDE HELEN ESCOREDEBILL ele supera 84%. Essas porcentagens correspondem 150 = 6) . Para quaiquer grupo contendo de 10 a
= 65 X2 = 58 a uma distancia de 1 DP abaixo el DP acima da 100 casos, Bartlett e Edgerton (1966) prepararam
65 - 60 58 - 60 media de uma curva normal, respectivamente, uma tabela em que os postos podem ser diretamente
5 como pode ser visto por referenda a ultima linha convertidos em stanines. Por suas vantagens pra-
da Figura 3-4. ticas e teoricas, os stanines tern sido amplamente
+ 1 ,00 = -0,40 Como os escores-padrao linearmente derivados, utilizados, especialmente com testes de aptidao e
os escores-padrao normalizados podem ser colo- realizagao.
cados em uma forma conveniente. Se o escore-pa- Embora os escores-padrao normalizados sejam
drao normalizado e multiplicado por 10 e adicio- o tipo mais satisfatorio de escore para a maioria
exemplo, os escores no Scholastic Assessment Tests Para podermos comparar escores de distribui- nado a ou subtrafdo de 50, ele e convertido em um dos objetivos, existem, no entanto, certas objegoes
(SAT) do College Board sao escores-padrao ajusta- goes com formas diferentes, podemos empregar escore T , um tipo de escore proposto originalmen- tecnicas a normalizagao rotineira de todas as dis-
dos a uma media de 500 e um DP de 100. Assim , transformagoes nao-lineares para ajustar os esco- teporW.A. McCall (1922) . Nesta escala, um escore tribuigoes. Tal transformagao so deve ser executa-

— —
um escore-padrao de 1 seria expresso como 400
(500 100 = 400 ) . Da mesma forma, um escore-
res a algum tipo especificado de curva de distribui-
gao. A idade mental e os escores de percentil des-
de 50 corresponde a media, um escore de 60 a 1
DP acima da media, e assim por diante. Uma ou-
da quando a amostra for grande e representativa,
e quando tivermos razoes para acreditar que o des-
padrao de + 1,5 corresponderia a 650 (500 + l ,5 x critos nas segoes anteriores representam transfor- tra transformaqao bastante conhecida e represen- vio em relagao a normalidade resulta de defeitos
100 = 650) . Para converter um escore-padrao ori- magoes nao-lineares, mas estao sujeitos a outras tada pela escala stanine, desenvolvida peia Forga no teste e nao de caracterfsticas da amostra e de
ginal para a nova escala, precisamos apenas mul- limitagoes jadiscutidas. Emboraem certas circuns- Aerea dos Estados Unidos durante a Segunda Guer- outros fatores que afetam o comportamento em
tiplicar o escore-padrao pelo DP desejado (100) e tancias possa ser mais apropriado um outro tipo ra Mundial. Essa escala oferece um sistema de es- consideragao. Tambem devemos observar que
adiciona-lo ou subtraf-lo da media desejada (500). de distribuigao, a curva normal habitualmente e cores de um dfgito, com uma media de 5 e um DP quando a distribuigao original dos escores brutos
Quaisquer outros valores convenientes podem ser empregada para este proposito. Uma das princi- de aproximadamente 2.4 0 nome stanine ( uma se aproximada normalidade, os escores-padrao li-
escolhidos para a nova media e DP. Os escores em pals razoes para esta escolha e que a maioria das contragao de.standard nine ) baseia-se no fato de nearmente derivados e os escores-padrao normali-
subtestes separados das Escalas de Inteligencia distribuigoes de escores brutos aproxima-se da cur- que os escores variant de 1 a 9- A restrigao dos esco- zados serao muito semelhantes. Embora os meto-
Wechsler, por exemplo, sao convertidos para uma va normal mais estreitamente do que de quaiquer res a numeros de um unico dfgito apresenta certas dos de derivagao desses dois tipos de escore sejam
distribuigao com uma media de 10 e um DP de 3- outro tipo de curva. Alem disso, medidas ffsicas vantagens computacionais, uma vez que cada es- bem diferentes, os escores resultantes serao quase
Todas essas medidas sao exemplos de escores-pa- como altura e peso, que usam escalas de unidade core requer apenas uma unica coluna em um com- identicos nessas condigoes. Obviamente, o proces-
drao linearmente transformados. igual derivadas atraves de operagoes ffsicas, geral- putador. so de normalizar uma distribuigao que ja e virtu-
Devemos lembrar que uma das razoes para se mente produzem distribuigoes normais. Uma ou- Os escores brutos podem ser facilmente con- almente normal produzira pouca ou nenhuma
transformar escores brutos em alguma escala de- tra vantagem importante da curva normal e que vertidos em stanines arranjando-se os escores ori- mudanga. Sempre que possfvel, e mais desejavel
rivada e possibilitar a comparagao dos escores em ela apresenta muitas propriedades matematicas ginals em ordem de tamanho e depois atribuindo- obter uma distribuigao normal de escores brutos
testes diferentes. Os escores-padrao linearmente uteis, que facilitam outros calculos. se stanines de acordo com as porcentagens da curva atraves do ajustamento adequado do nfvel de difi-
derivados discutidos na segao precedente so serao Os escores-padrao normalizados sao escores- normal, reproduzida na Tabela 3.4. Por exemplo, culdade dos itens do teste, e nao pela normaliza-
comparaveis quando encontrados em distribuigoes padrao expressos em termos de uma distribuigao se o grupo consiste de exatamente 100 pessoas, as gao subseqiiente de uma distribuigao acentuada-
que tern aproximadamente a mesma forma. Nes- que foi transformada para se ajustar a uma curva quatro pessoas com os escores mais baixos rece- mente nao-normal. Com uma distribuigao aproxi-
tas condigoes, um escore correspondente a 1 DP normal. Esses escores podem ser calculados por bem um escore stanine de 1, as proximas sete um madamente normal de escores brutos, os escores-
acima da media, por •exemplo, significa que o in- referenda a tabelas que apresentam a porcenta- escore de 2, as proximas 12 um escore de 3, e as- padrao linearmente derivados servirao aos mesmos
divfduo ocupa a mesma posigao em relagao a am- gem dos casos situados em diferentes distancias de sim por diante. Quando o grupo contem mais ou objetivos que os escores-padrao normalizados.
bos os grupos. 0 escore excede aproximadamente DP em relagao a media de uma curva normal. Pri-
a mesma porcentagem de pessoas em ambas as meiro, e encontrada a porcentagem de pessoas na
distribuigoes, e essa porcentagem pode ser deter- amostra de padronizagao situadas em ou acima
minada se a forma da distribuigao for conhecida. de cada escore bruto. Essa porcentagem e entao TABELA 3.4
Porcentagens de Curva Normal para Uso na Conversao Stanine
No entanto, se uma distribuigao e acentuadamen- localizada na tabela de freqiiencia da curva nor-
te assimetrica e a outra normal, um escore z de mal, e e obtido o escore-padrao normalizado cor- Porcentagem 4 7 12 17 20 17 12 7 4
+ 1,00 poderia exceder apenas 50% dos casos em respondente. Escores-padrao normalizados sao ex- Stanine 1 2 3 4 5 6 7 8 9
um dos grupos, mas exceder 84% no outro. pressos da mesma forma que os escores-padrao
68 ANNE ANASTASI & SUSANA URBINA
TESTAGEM PSICOIOGICA 69
O QI de Desvio. Em uma tentativa de con - de escore pode ser obtida pela selegao de valores
verter os escores de IM em um fndice uniforme do numericos para a media e o DP que correspon- TABELA 3.5
status relativo do individuo, o QI (Quociente de dam estreitamente aos da distribuigao do Stanford-
porcentagem de Casos de Cada Intervalo de QI nas Distributes Normais com Media de 100 e Diferentes Desvios Padrao -
Inteligencia) foi introduzido nos primeiros testes Binet. Freqiiencia da Porcentagem
de inteligencia. Esse QI era simplesmente a rela- Convem acrescentar que o uso do termo “ QI ”
gao entre a idade mental e a idade cronologica, para designar esses escores-padrao pode ser um Intervalo de QI DP = 12 DP = 14 DP = 16 DP = 18
multiplicada por 100 para eliminar os decimais pouco enganador. Esses QIs nao sao derivados atra-
(QI = 100 x IM/IC ) . Obviamente, se a IM de uma vds dos mesmos metodos empregados para se en- 130 e acima 0, 7 1,6 3,1 5, 1
crianga fosse igual a sua IC, o QI dessa crianga contrar os tradicionais QIs. Eles nao sao razoes 120-129 4,3 6, 3 7, 5 8, 5
seria exatamente 100. Um QI de 100 representava 110-119 15, 2 16,0 15,8 15, 4
entre idades mentais e idades cronologicas. A jus-
assim o desempenho normal ou medio. QIs abai-
xo de 100 indicavam “ retardo ” ; os acima de 100,
“ aceleragao ” .
tificativaesta na familiaridade geral do termo “ QI ” ,
e nao no fato de que tais escores podem ser inter-
100-109
90-99
8089
3!2 I
15,
26,1 1
26,1 I
16,0
52 2
DZ ,Z

23'6
23, 6
15,8
j 47/ , 2Z
J * 210
15,4
t 42 '
°
pretados como QIs, desde que seu DP seja aproxi- 7079 4,3 6,3 7, 5 8,5
A aparente simpiicidade logica do tradicional madamente igual ao de QIs previamente conheci- 0,7 1 ,6 3,1 5, 1
Abaixo de 70 .

QI , entretanto, logo mostrou -se enganadora. Uma dos. Entre os primeiros testes a expressar escores
importante dificuldade tecnica e que, a menos que em termos de QIs de desvio estavam as Escalas de Total 100,0 100,0 100,0 100,0
o DP da distribuigao de QI permanega aproxima- Inteligencia Wechsler. Nesses testes, a mediae 100
damente constante com a idade, o QI nao sera com- e o DP e 15. QIs de desvio tambem sao usados em Cortesia: The Psychological Corporation.
paravel em diferentes nfveis de idade. Um QI de varios testes grupais de inteligencia atualmente e
115 aos 10 anos, porexemplo, pode indicar o mes- na terceira ( i 960) revisao do proprio Stanford-Bi-
mo grau de superioridade que um QI de 125 aos net.
12 anos, pois ambos podem situar-se a uma dis- adotar o DP uniforme de 16 nos novos testes e nas A Figura 3 6 (ver adiante) resume as relagoes
-
Com 0 crescente uso dos QIs de desvio, e im- existentes em uma distribuigao normal entre os ti-
tancia de 1 DP das medias de suas respectivas dis- portante lembrar que os QIs de desvio de diferentes novas edigoes de testes anteriores. Mas ainda ha
tribuigoes de idade. Na pratica concreta, tern sido variagoes suficientes entre os testes atualmente dis- pos de escores ate entao discutidos neste capftulo.
testes so sao comparaveis quando empregam os Eles incluem os escores z , os escores do College En-
muito diffcil construir testes que satisfagam as exi- mesmos valores ou valores muito semelhantes para pomveis para tomar imperativa a verificagao do DP.
gencias psicometricas para a comparabilidade dos trance Examination Board (CEEB) , os QIs de des-
o DP. Esse valor sempre deve ser informado no vio do Wechsler { DP = 15) , os escores T, osstani-
QIs em todos os intervalos de idade. Principalmente Inter-relagdes dos Escores do Grapo. Neste
manual e cuidadosamente observado pelo usuario nes e os percentis. Os QIs tradicionais em qualquer
por este motivo, o QI resultante dessa divisao (IM/ estagio da nossa discussao sobre escores derivados,
do teste. Se um criador de testes escolhe um valor teste vao coincidir com a escala de QI de desvio se
IC) foi amplamente substitufdo pelo chamado QI o leitor pode ter percebido uma aproximagao entre
diferente para o DP ao desenvolver a escala de QI forem normalmente distribufdos e tiverem u mDP
de desvio, que e realmente uma outra variante do de desvio, o significado de qualquer QI nesse teste os varios tipos de escores. Os percentis assumiram
conhecido escore-padrao. 0 QI de desvio e um es- gradualmente pelo menos uma semelhanga grafi- de 15. Qualquer outro QI normalmente distribuf-
sera muito diferente do seu significado em outros ca com os escores-padrao normalizados. Os esco- do poderia ser acrescentado ao grafico, desde que
core-padrao com uma media de 100 e um DP que testes. Essas discrepancias sao ilustradas na Tabela
se aproxima do DP da distribuigao de QI no Stan- res- padrao lineares sao indistinguiveis dos escores- soubessemos seu DP. Se o DP for 20, por exemplo,
3.5, que mostra a porcentagem de casos em distri- padrao normalizados se a distribuigao original de entao um QI de 120 corresponde a + 1 DP, um QI
ford-Binet. Embora o DP do QI no Stanford-Binet
(usado peia ultima vez na edigao de butes normais com DPs de 12 a 18, que produzi- escores brutos se aproxima muito da curva nor- de 80 a -1 DP, e assim por diante.
1937) nao fosse riam QIs em niveis diferentes. Esses valores de DP mal. Finalmente, os escores-padrao tomaram-se Em conclusao, a forma exata peia qual os es-
exatamente constante em todas as idades, ele flu- realmente foram empregados nas escalas de QI de
tuava em torno de um valor de mediana um pou- QIs e vice- versa. A respeito deste ultimo ponto, um cores sao relatados e ditada em grande parte por
testes publicados. A Tabela 3- 5 mostra, por exem- conveniencia, familiaridade e facilidade de se de-
co maior que 16. Portanto, se um DP proximo a reexame do significado de um QI em um teste como
plo, que um QI de 70 e um ponto de corte para os senvolver normas. Os escores-padrao em qualquer
16 e escolhido para relatarmos escores-padrao em o Stanford-Binet revelara que estes antigos QIs po-
3,1% inferiores quando o DP e 16 (como no Stan - dem ser interpretados como escores-padrao. Se sa- forma (incluindo o QI de desvio) , de modo geral,
um teste recentemente desenvolvido, os escores re- ford-Binet) , mas ele pode cortar apenas 0, 7% { DP
sultantes podem ser ifiterpretados da mesma ma- bemos que a distribuigao dos QIs do Stanford- Bi- substituiram outros tipos de escore em virtude de
neira que os QIs no StanforcfcBinet. Uma vez que
= 12) ou 5,1% { DP = 18). Um QI de 70 tern sido net tern uma media de 100 e um DP de aproxi- certas vantagens que oferecem em relagao a cons-
usado tradicionalmente como um ponto de corte madamente 16, podemos concluir que um QI de trugao de testes e ao tratamento estatistico dos da-
os QIs no Stanford-Binet eram usados ha muitos para identificar 0 retardo mental clinicamente sig-
anos, os examinadores e os clfnicos acostumaram- 116 esta a uma distancia de 1 DP acima da media dos. A maioria dos tipos de escores derivados de um
nificative. As mesmas discrepancias, e claro, apli- e representa um escore-padrao de +1,00. Da mes- grupo, todavia, sao fundamentalmente semelhan-
se a interpretar e classificar o desempenho nos tes
-
tes em termos desses niveis de QI. Eles aprenderam
cam-se aos QIs de 130 e acima, que poderiam ser ma forma, um QI de 132 corresponde a um esco- tes se cuidadosamente derivados e adequadamen-
usados para selecionar criangas para programas re-padrao de + 2,00, um QI de 76 a um escore-pa- te interpretados. Quando certas condigoes estatis-
o que esperar de indivfduos com QIs de 40, 70, 90, especiais destinados as intelectualmente talento-
drao de - 1, 50, e assim por diante. Alem disso, um ticas sao satisfeitas, cada um desses escores pode
gens praticas no uso de uma escala derivada que
-
130, e assim por diante. Portanto, ha certas vanta sas. O intervalo de QI entre 90 e 110, geralmente QI de 116 no Stanford- Binet corresponde a uma ser facilmente traduzido em qualquer um dos ou-
descrito como normal, pode incluir 42 ou 59,6% ciassificagao em percentil de aproximadamente 84, tros.
corresponde a distribuigao conhecida dos QIs no
Stanford- Binet. Tal correspondence de unidades
da populagao, dependendo do teste escolhido. Evi
dentemente, os editores de testes estao tentando
- porque em uma curva normal 84% dos casos estao
abaixo de +1,00 DP (Figura 3.4) .
r *

70 ANNE ANASTASI & SUSANA URBINA


TESTAGEM PSICOLOGICA 71

to

-
um aluno mostra QIs de 118, 115 e 101 naquarta,
quinta e sexta series, a primeira pergunta a ser for-
das pessoas que constituem a amostra de padroni-
zagao. Ao escolher essa amostra, normalmente ten-
1/1
- mulada antes de se interpretar estes escores e: “ Que tamos obter um perfil rep resen tativo da populagao
u

a
— testes a crianga fez nessas tres ocasioes ?” O apa- para a qual o teste foi planejado.
9 rente declfnio pode refletir apenas as diferengas Na terminologia estatfstica, e feita uma distin -


a>
entre os testes. Nesse caso, a crianga teria obtido gao entre amostra z populagao. A amostra se refe-
o
0,13% 2'1.4% / esses escores mesmo se os tres testes tivessem sido re ao grupo das pessoas realmente testadas. A po-
i y,
2
\ °’ i 3%
-4c
1
- 3a - 2a
1 13 59%
- 1a
34, 13% 34, 13%
Media
Escores de Teste
+ 1a
13, 59% ]^
+2a
- ^
+3a
^ +4a
aplicados com umasemana de intervalo entre cada
um.
Ha tres razdes principal que explicam as vari-
pulagao designa o grupo maioi; mas similarmente
constitufdo, do qual a amostra e retirada. Por exem-
plo, se desejamos estabelecer normas de desempe-
agoes sistematicas entre os escores obtidos pelo nho em um teste para a populagao de meninos de
mesmo indivfduo em testes diferentes. Primeiro, os 10 anos de idade, de zonas urbanas, de escolas pu-
1 testes podem diferir em conteudo apesar de seus blicas, podenamos testar uma amostra cuidado-
escore z 1 1 1 I I l L
- 4 -3 -2 -1 0 +1 +2 +3 +£ rotulos semelhantes. Os chamados testes de inteli- samente escolhidade 500 meninos de 10 anos que
gencia oferecem muitas ilustragoes desta confusao. freqiientam escolas publicas em varias cidades
Embora comumente descritos pelo mesmo termo americanas. A amostra seria verificada com refe-
escore T
10 * 20
i l
30
i
40
i
50 60
i
70
i
80
i
9C geral, um desses testes pode incluir apenas con- renda a distribuigao geografica, ao nfvel socioe-
teudo verbal , um outro pode avaliar predominan - conomico, a composigao etnica e outras caracte-
temente habilidades espaciais, e um outro pode rfsticas relevantes , para garantir que ela e
escore do CEEB 1 i 1 i J i i I
200 300 400 500 600
I
abranger conteudos verbais, numericos e espaci- verdadeiramente representativa da populagao de-
700 800
ais em iguais proporgoes. Segundo, as unidades finida.
QI de Desvio de escala podem nao ser comparaveis. Conforme No desenvolvimento e na aplicagao de normas
-
( i 1 ! i i i
( DP 15) 55 70 85 100
i
explicado anteriormente neste capftuio, se os QIs de teste, devemos dar uma consideravel atengao a
115 130 145
em um determinado teste tern um DP de 12 e os amostra de padronizagao. Esta claro que a amos-
4% , 7% 12%, 17% ( 20% ( 17%( 12%( 7% , QIs em outro tern um DP de 18, entao um indivf- tra em que as normas sao baseadas deve ser sufici-
4
Stanine 1 (
I duo que recebeu um QI de 112 no primeiro teste entemente grande para prover valores estaveis. Uma
1 2 3 4 5 6 7 8 9
provavelmente recebera um QI de 118 no segun- outra amostra da mesma populagao, escolhida de

Percentil 1 — I
1
1
— I I I i i i 1 | i i
5 10 20 30 405060 70 80 90 95
_
L
do. Terceiro, a composigao das amostras de pa-
dronizagao usadas para estabelecer as normas
forma semelhante, nao deveria produzir normas
muito divergentes daquelas obtidas. As normas com
99 um grande erro de amostragem sen am obviamente
para testes diferentes pode variar. Obviamente, o
mesmo indivfduo parecera ter tido um melhor de- de pouco valor na interpretagao dos escores de tes-
FIG UR A 3.6 Redoes entre Diferentes Tipos de Escores de Teste em uma Distribuigao Normal. sempenho quando comparado com um grupo te.
menos capaz do que quando comparado a um gru- Igualmente importante e a exigencia de que a
po mais capaz. amostra seja representativa da populagao sob con-
A falta de comparabilidade do conteudo do tes- sideragao. Fatores seletivos sutis que poderiam tor-
RELATIVIDADE DAS NORMAS representada pela falta de comparabilidade das te ou das unidades de escala geralmente pode ser nar a amostra nao- representativa devem ser cui-
normas de teste. Varnos supor que uma aluna fez detectada por referenda ao proprio teste ou ao dadosamente investigados. Varios desses fatores
Comparagdes Interteste. Um QI, ou qual- um teste de compreensao verbal e um teste de ha- manual do teste. Mas e mais provavel que as dife- seletivos sao ilustrados por amostras institucionais.
quer outro escore, sempre deve ser acompanhado bilidade espacial para determinar sua posigao re- Uma vez que essas amostras geralmente sao gran-
rengas nas respectivas amostras normativas sejam
peio nome do teste em que foi obtido. Os escores de lativa nos dois campos. Se o teste de habilidade ignoradas. Essas diferengas provavelmente expli- des e estao facilmente disponfveis para fins de tes-
teste nao podem ser adequadamente interpretados verbal foi padronizado em uma amostra aleatoria cam as muitas discrepancias de outra forma inex- tagem , elas oferecem um campo atraente para a
de uma forma abstrata; eles pcecisam ser relacio- de alunos de ensino medio, enquanto o teste espa- plicadas nos resultados dos testes. acumulagao de dados normativos. As limitagoes
nados a testes especfficos. Se os registros escolares cial foi padronizado em um grupo selecionado de especiais dessas amostras, todavia, devem ser ana-
mostram que Bill Jones recebeu um QI de 94 e Ter- alunos de cursos profissionaiizantes eletivos, o exa- A Amostra Normativa. Qualquer norma, in - lisadas cuidadosamente. Testar pessoas em uma
ry Brown um QI de 110, esses QIs nao podem ser minadorpodaria concluir erroneamente que aes- dependentemente de como e expressa, esta restrita escola, por exemplo, produzira uma selegao cada
aceitos por seu valor aparente sem maiores infor- tudante e muito mais capaz na area verbal do que a populagao normativa especffica da qual foi deri- vez mais superior de casos em series sucessivas,
magoes. As posigoes desses dois alunos poderiam na espacial, quando na verdade o inverso poderia vada. 0 usuario do teste jamais deve perder de vis- devido a progressiva evasao dos alunos menos ca-
ser invertidas se trocassemos os testes especfficos ser verdade. ta a maneira como as normas foram estabeleci- pazes. Tal eliminagao tambem nao afeta igualmen-
que cada um realizou em sua respectiva escola. Um outro exemplo envolve comparagoes lon- das. As normas dos testes psicologicos de forma te os diferentes subgrupos. Por exemplo, o fndice
Da mesma forma, a posigao relativa de um in- gitudinais do desempenho de um unico indivfduo de eliminagao seletiva da escola e maior para os
nenhumasao absolutas, universal ou permanen-
divfduo em diferentes fungoes pode ser muito mai ao longo do tempo. Se o registro cumulativo de tes. Elas representam apenas o desempenho no teste meninos do que para as meninas, e e maior nos
72 ANNE ANASTASI & SUSANA URBINA TESTAGEM PSICOLOGICA 73

niveis socioeconomicos mais baixos do que nos em - vavelmente uma abordagem mais realista para a
Portanto, as normas resultantes podem nao ser de duas das sete baterias, cada bateria sendo
mais elevados.
Fatores seletivos tambem operam em outras
comparaveis. parelhada por sua vez com todas as outras bateri- —
maioria dos testes e padronizar testes em popu-
lagoes mais limitadamente definidas, escolhidas de
Quando interpreta escores de teste, o usuario as. Alguns grupos responderam a formas paralelas
amostras institucionais, como prisioneiros, paci- deve levar em conta as influencias especfficas que forma a se ajustar a objetivos especfficos de cada
dos dois subtestes da mesma bateria. Em outros
entes de hospitals para doentes mentais, ou pesso- teste. Nesses casos, os limites da populagao norma-
podem ter agido sobre a amostra normativa em - grupos ainda, todos os emparelhamentos foram du-
as mentalmente retardadas institucionalizadas. Em tiva devem ser claramente relatados com as nor-
pregada na padronizagao de determinado teste. Tais plicados na sequencia oposta, a fim de controlar a
virtude dos muitos fatores especfficos que determi- influencias incluiriam fatores seletivos especiais, ordem de aplicagao. A partir de analises estatfsti- mas. Assim , poderfamos dizer que as normas se
nam a institucionalizagao, esses grupos nao sao assim como condigoes sociais predominantes na cas desses dados, foram preparadas tabelas de equi- aplicam a “ funcionarios de escritorio empregados
representativos de toda a populagao de pessoas que em grandes organizagoes empresariais” ou a “ alu-
epoca em que os dados normativos foram coleta- valence de escores para os sete testes, por meio do
infringem as leis, de pessoas mentalmente pertur- dos (Anastasi, 1985d). metodo de equipercentil. Foi preparado um ma
- nos do primeiro ano de engenharia” . Para muitos
badas ou de pessoas mentalmente retardadas. Por interpretagao dos escores , para ser usado objetivos de testagem, sao desejaveis normas alta-
nual de
exemplo, e mais provavel que sejam instituciona- Normas de Ancora Nacionais. Uma solu- pelos sistemas escolares e por outras pessoas inte- mente especfficas. Mesmo quando existem normas
lizados os individuos mentalmente retardados com gao para a falta de comparabilidade de normas e ressadas (Loret, Seder, Bianchini & Vale, 1974) . representativas para uma populagao amplamente
deficiencias ffsicas do que os que sao fisicamente usar um teste-ancora para criar tabelas de equiva- Os dados da fase de calibragao do Anchor Test definida, muitas vezes convem ter normas de
normals. Da mesma forma, a proporgao relativa lence para escores em testes diferentes. Essas ta- Study foram subseqiientemente utilizados para subgrupo relatadas separadamente. Isso vale sem-
de pessoas severamente retardadas sera muito mai- belas sao planejadas para mostrar qual escore no desenvoiver uma unica escala de escores, designa- pre que subgrupos reconhecfveis produzem esco-
or em amostras institucionais do que na popula- Teste A e equivalente a cada escore no Teste B. Isso da como a Escala de Referenda Nacional ( Rentz res claramente diferentes em um determinado tes-
gao total. pode ser feito pelo metodo de equipercentil, em & Bashaw, 1977) A tabela de conversao assim de-

te. Os subgrupos podem ser formados com relagao
Estreitamente relacionada a questao da repre - que escores sao considerados equivalentes quando senvolvida permite a transformagao de um escore a idade, a serie, ao tipo de currfculo, ao sexo, a
sentatividade da amostra esta a necessidade de de- tern percentis iguais em um determinado grupo. de qualquer forma dos sete testes em qualquer uma regiao geografica, ao meio urbano ou rural, ao
finirmos a populagao especffica para a qual as Por exemplo, se o percentil 80 no mesmo grupo das series escolares em um escore de tres decimais nfvel socioeconomico e muitas outras variaveis. 0
normas podem ser generalizadas. Obviamente, corresponde a um QI de 115 no Teste A e a um QI em uma escala uniforme, contfnua. Essa escala uso que faremos do teste determina o tipo de dife-
uma maneira de garantir que uma amostra seja de 120 no Teste B, entao o QI de 115 no Teste A e foi construfda usando-se os metodos de analise de renciagao mais relevante, e tambem se sao mais
representativa e restringir a populagao de modo que considerado equivalente ao QI de 120 no Teste B. itens e escalonamento do modelo de Rasch , um apropriadas normas gerais ou especfficas.
ela se ajuste as especificagoes da amostra disponf - Esta abordagem foi seguida ate certo ponto por al- dos modelos mais simples de analise de itens dis- Devemos mencionar tambem as normas lo-
vel. Por exemplo, se a populagao e definida como guns editores de testes, que prepararam tabelas de cutidos em uma segao posterior deste capitulo e cais, muitas vezes desenvolvidas pelos proprios usu-
incluindo apenas alunos de 14 anos de idade e nao equivalence para alguns de seus testes (p. ex., Len- descrito mais completamente no Capitulo 7. arios de testes em um ambiente especffico. Os gru-
todas as criangas de 14 anos de idade, entao uma non, 1966a) . Para muitos objetivos de testagem, e util ter- pos empregados na derivagao dessas normas sao
amostra escolar seria representativa. Idealmente, Propostas mais ambiciosas tern sido feitas de mos escores comparaveis de testes diferentes, ex- ainda mais limitadamente definidos do que os
e claro, a populagao desejada deve ser definida vez em quando para se calibrar cada novo teste em presses em uma escala uniforme de mensuragao e subgrupos considerados previamente. Assim , um
antecipadamente em termos dos objetivos do teste. comparagao com um unico teste-ancora, que te- relativos a uma unica amostra normativa. Mas empregador pode acumular normas sobre candi-
Entao deve ser reunida uma amostra adequada. dates para um determinado tipo de fungao em uma
Obstaculos praticos na obtengao de participantes,
nha sido aplicado a uma amostra normativa naci
onal, altamente representativa (Lennon, 1966b).
- convem observar que existem graus e tipos dife-
rentes de comparabilidade de escores. A compara- companhia especifica. Um departamento de admis-
todavia, podem tomar inalcangavel este objetivo. Um exemplo deste procedimento e oferecido pelo bilidade obtida em situagoes especfficas depende sao a universidade pode desenvoiver normas sobre
Nesse caso, e muito melhor redefinir a populagao Anchor Test Study, conduzido pelo Educational da similaridade dos testes em conteudo e em pro- sua populagao de alunos. Ou uma escola de ensi-
mais estreitamente do que relatar normas para Testing Service, sob os auspfcios do U.S. Office of priedades psicometricas como fidedignidade e nf- no fundamental pode avaliar o desempenho de
uma populagao ideal que nao e adequadamente Education (Jaeger, 1973). Esse estudo representa vel de dificuldade, e tambem dos procedimentos cada aluno em termos de sua propria distribuigao
representada pela amostra de padronizagao. Na um esforgo sistematico de criagao de normas naci- estatfsticos usados para se obter a comparabilida- de escores. Essas normas locais sao mais apropria-
pratica concreta, muito poucos testes sao padroni- onais comparaveis e verdadeiramente representa- de (Angoff , 1984; Angoff & Cowell, 1986; P.W. Ho- das do que as normas nacionais amplas para mui-
zados com populagoes tao amplas quanto popu- tivas para sete dos testes de realizagao mais am- lland & Rubin, 1982) . Os testes nao devem ser des- tos fins de testagem , tais como a predigao do sub-
larmente se imagina.‘Nenhum teste oferece nor- plamente utilizados na escola de ensino fundamen- critos como equiparados ou totalmente equivalen- seqiiente desempenho na fungao ou na universida-
mas para toda a especie humana! E e duvidoso que tal. Atraves de um planejamento experimental tes a menos que sejam verdadeiramente intercam- de, a comparagao da realizagao relativa de um alu-
muitos testes produzam normas verdadeiramente bem-controiado, mais de 300 mil alunos de quar- biaveis. No entanto, diferentes tipos e graus de com- no em diferentes materias, ou a mensuragao do
adequadas para aquelas populagdes tao ampla- ta, quinta e sexta serie foram examinados em 50 parabilidade podem facilitar a interpretagao dos progresso de um indivfduo no decorrer do tempo.
mente definidas como “ homens adultos america- estados. O teste- ancora consistia dos subtestes de resultados de teste, desde que os escores compara-
nos ” , “ criangas americanas de 10 anos de idade” , compreensao de leitura e vocabulario Ao Metropo- veis sejam usados apropriadamente e com total Grupo de Referencia Fixo. Embora a ma-
e assim por diante. Conseqiientemente, as amos- litan Achievement Test, para o qual novas normas neira como a maioria dos escores e calculada pro-
tras obtidas por diferentes construtores de testes po- foram estabelecidas em uma fase do projeto. Na porcione uma interpretagao normativa imediata
dem nao representar as alegadas populagoes e po- fase de calibragao do estudo, cada crianga fez os Normas Especfficas. Uma outra abordagem do desempenho no teste, existem algumas exce-
dem ser tendenciosas de diferentes maneiras. subtestes de vocabulario e compreensao de leitura —
a nao-equivalencia das normas existentes e pro- .
goes notaveis Um tipo de escala nao-normativa
74 ANNE ANASTASi & SUSANA URBINA
TESTAGEM PSICOLOGICA 75
utiliza um grupo de referenda fixo para garantir a
de, uma regiao, e assim por diante. Essas normas
comparabilidade e a continuidade dos escores,
especfficas sao mais uteis na tomada de decisoes Teoria da Resposta ao Item. Desde a de- perto do centro desse intervalo total. A unidade de
sem oferecer uma avaliagao normativa do desem- cada de setenta tern havido um grande aumento escala comum e matematicamente derivada dos
na admissao a universidade do que seriam normas
penho. Com essa escala, a interpretagao normati
- anuais baseadas em toda a populagao de candida do interesse por uma classe de procedimentos ma- dados dos itens; isso apresenta muitas vantagens,
va requer referencia a normas coletadas indepen - tematicamente sofisticados para escalonar a difi- tan to teoricas quanto praticas, em relagao aos pro-
dentemente de uma populagao adequada. Muitas
- tos. Quaisquer mudangas na populagao de candi
- culdade dos itens de teste (Hambleton , 1989; Ham - cedimentos anteriores de analise de itens. A meto-
datos com 0 passar do tempo, alem disso, so po- dologia especffica sera discutida com mais deta-
vezes sao usadas normas locais ou outras normas
dem ser detectadas com uma escala de escore fixo. bleton , Swaminathan & Rogers, 1991; Jaeger,
especfficas para esta finalidade.
Mais recentemente, a escala SAT foi “ recentrada” 1977) . Em virtude dos extensivos calculos neces- lhes no Capftulo 7, em relagao as tecnicas de analise
Um dos primeiros exemplos de escalonamento
a partir do desempenho de mais de um milhao de sarios, esses procedimentos so se tomaram prati- de itens. A TRI esta gradualmente sendo incorpo-
em termos de um grupo de referencia fixo e ofere- caveis com a crescente disponibilidade de compu - rada a programas de testagem em grande escala.
estudantes que concluiTam 0 ensino medio em Por exemplo, comegando em 1982, esse procedi-
cido pela escala de escores do College Board Scho- tadores de alta velocidade. Embora diferindo em
lastic Aptitude Test5 (Donlon, 1984). Entre 1990 e fizeram o teste como juniores ou seniores. complexidade e nos procedimentos matematicos mento foi adotado para equiparar escores totais nas
(quando esse teste foi aplicado pela primeira1926 Os escores dos alunos que completaram 0 SAT de- especfficos, essas abordagens eram originalmente novas formas do SAT, para expressa-los na escala
vez) pois de primeiro de abril de 1995 sao relatados contfnua, uniforme (Camara, Freeman & Everson.
e 1941, os escores no SAT eram expressos em
uma escala “ recentrada” derivada do grupo de referen
na agrupadas sob o tftulo geral de modelos de trago
escala normativa, em termos da media e do DP
cia de 1990. Foram criados materiais interpretati
- latente. A medida basica utilizada era a probabili- 1996; Donlon, 1984) .
dos candidatos que faziam o teste em cada aplica - dade de uma pessoa com habilidade especificada 0 problema geral da equiparagao de testes,
- vos e auxiliares para ajudar os usuarios de testes a por meio da qual escores de diferentes formas de
gao. Conforme aumentavam o numero e a (o chamado trago latente) ter sucesso em um item
varie- converter escores individuais e agregados da anti- um teste sao expressos em uma escala de escores
dade de universidades participantes do College
ga escala e vice-versa (ver Capftulo 17). Uma de dificuldade especificada. Mas nao ha nenhuma
Board e a composigao da populagao de candidatos in- implicagao de que tais tragos latentes ou habilida- uniforme, tem recebido uma atengao crescente. Os
terpretagao completa e diversificada do desempe- des subjacentes existam em qualquer sentido ffsi- problemas tecnicos das diversas abordagens que
mudava, concluiu -se que a continuidade da esca-
nho individual pode ser feita assim para fins estao sendo exploradas para esta finalidade estao
la deveria ser mantida. De outra forma, 0 escore
de co ou fisiologico, nem de que eles causem 0 corn-
um indivfduo dependeria das caractensticas especfficos de testagem.6 portamento. Os tragos latentes sao construtos alem do alcance deste texto. Para um resumo
do As escalas construfdas a partir de um grupo abrangente e uma avaliagao crftica dessa metodo-
grupo testado durante um ano especifico. Uma
ra- de estatfsticos, matematicamente derivados de rela-
zao ainda mais urgente para a continuidade referencia fixo sao analogas em certo respeito as goes empiricamente observadas entre as respostas logia, 0 leitordeve consultar P.W. Holland e Rubin
escala teve origem na observagao de que os alunos
da escalas empregadas na mensuragao ffsica. Em re-
lagao a isso, Angoff (1962, p. 32 -33) comentou:
ao teste. Uma estimativa aproximada, inicial, do (1982) e Petersen , Kolen e Hoover (1989) .
submetidos ao SAT em certos momentos do ano trago latente de um examinando e 0 escore total
nao tinham um desempenho tao bom quanto que ele obtem no teste. Para evitar a falsa impres-
aqueles que se submetiam a ele em outros momen Dificilmente existe por aqui uma pessoa que conhe- sao criada pelo termo “ trago latente ” , alguns dos OS COMPUTADORES E A
- INTERPRETAGAO DOS ESCORES
tos, devido a operagao diferencial dos fatores sele ga a definigao original exata do comprimento principals expoentes desses procedimentos 0 subs-
tivos. Apos 1941, portanto, todos os escores de
- pe usado na mensuragao da altura ou da distancia
do
tituiram pelo termo descritivo mais exato “ teoria DE TESTE
SAT ,
passaram a ser expressos em termos da media
e do
que saiba qual foi 0 rei cujo pe foi escolhido origi- da resposta ao item” - TRI - ou IRT [Item Res-
DP dos 11 mil candidatos, aproximadamente, sub nalmente como 0 padrao; por outro lado, nao exis- ponse Theory ] (Lord , 1980; D.J. Weiss & Davison , Desenvolvimentos Tecnicos. Os computa-
metidos ao teste em 1941. Esses candidatos consti - te ninguem aqui que nao saiba como avaliar
com- 1981). Esta designagao passou a ser amplamente dores tiveram um grande impacto em todas as fa-
tufram 0 grupo de referencia fixo empregado no - primentos e distancias em termos desta
unidade. A
nossa ignorancia do significado original exato ou usada na psicologia. ses da testagem, da construgao do teste a sua apli-
escalonamento das formas subseqiientes do teste. da derivagao do pe nao diminui sua utilidade Essencialmente, os modelos da TRI sao usados cagao, pontuagao, relatoe interpretagao (F.B. Baker,
Assim , um escore de 500 em qualquer forma do nos, de maneira nenhuma. Sua utilidade deriva
para para estabelecer uma escala de mensuragao uni- 1989; Butcher, 1987; Gutkin & Wise, 1991; Roid,
SAT correspondia a media da amostrade
1941; um
escore de 600 estava 1 DP acima da media, e assim
do fato de que ele permanece o mesmo com 0 pas
sar do tempo e permite que nos familiarizemos
-se
-
forme “ independente da amostra” , aplicavel a in-
divfduos e grupos de nfveis de habilidade muito
1986) . Os usos obvios dos computadores e da- —
queles desenvolvidos inicialmente — representaram
com simplesmente um aumento sem precedentes na
pordiante. ele. E desnecessario dizer que as mesmas
conside - variados, e para testar 0 conteudo de teste de nfveis
ragoes se aplicam a outras unidades de mensura de dificuldade muito variados. Como 0 uso de um velocidade em que as analises dos dados e os pro-
Para permitir a tradugao de escores brutos em
qualquer forma do SAT para esses escores de gru
po-de-referencia-fixo, um breve teste-ancora ( -

gao a polegada, a milha, 0 grau de Fahrenheit,
assim pordiante. No campo da mensuragao
e
psico-
-
grupo de referencia fixo descrito na segao prece-
dente, os modelos da TRI precisam de itens-anco-
cesses de pontuagao podiam ser executados. 0 uso
dos computadores na aplicagao automatizada de
uma logica, e igualmente razoavel dizer que a definigao testes convencionais tambem pode ser considera-
serie de itens comuns) foi incluido em
cada for- original da escala nao tern ou nao deveria ter ne
ra ou de um teste comum como uma ponte entre
ma. Cada forma nova estava assim vinculada - as amostras de examinandos e entre testes ou con- do nesta categoria, na medida em que eles ofere-
a nhuma importancia. 0 importante e a manuten
uma ou duas formas anteriores, que por sua vez gao de uma escala constante que, no caso de um
- juntos de itens. Entretanto, em vez de usar a me- cem maneiras mais faceis e melhores de aplicar
estavam vinculadas a outras formas por uma ca- -
programade testagem de multiplas formas, e obti dia e o DP de um grupo de referencia especifico esses testes. Muito mais significative contudo, e a
deia de itens remontando a forma de 1941. Esses da por uma rigorosa equiparagao forma-a-
- para definir a origem e 0 tamanho da unidade da contribuigao dos computadores a exploragao de
forma novos procedimentos e abordagens a testagem psi-
escores do SAT nao- normativos podiam entao ser - e o oferecimento de dados normativos suplemen escala, os modelos da TRI estabelecem a origem e
interpretados pela comparagao com qualquer dis- tares para ajudar na interpretagao e na tomada - o tamanho da unidade em termos de dados que . cologice que teria sido impossfvel sem a flexibili-
de
tribuigao apropriada de escores, como a de uma decisoes especfficas, dados que seriam revisados de representam uma ampia variedade de habilidades dade e a habilidade de processamento de dados ofe-
determinada universidade, um tipo de universida- tempos em tempos, conforme justificado pelas con
- c dificuldade de itens, que podem vir de varias recidas por eles. Este efeito dos computadores e
digdes. amostras. Normalmente, a origem e estabelecida ilustrado pela crescente adogao de modelos da TRI
76 ANNE ANASTASI & SUSANA URBINA TESTAGEM PSICOLOGICA 77

para escalonamento independente da amostra, ci- te trava um dialogo


com o computador (J.A. Har- Ra-
res precisa ser investigada (Mazzeo, Druesne, que conteudo, no domfnio e no objetivo. Esses termos
tado na segao precedente. Outras inovagoes na tes- ris, 1973; Holtzman ,
1970; M . R. Katz, 1974; Super ffeld , Checketts & Muhlstein , 199 0 - A menos sao as vezes empregados como sinonimos de refe-
tagem resultantes da utilizagao dos computadores etal. , 1970). Esta tecnica
renciado no criterio, e as vezes com conotagoes le-
serao discutidas em topicos apropriados durante relagao ao planejamentotem sido investigada com
e a tomada de decisoes
os dois modos utilizem formas de teste totalmente
vemente diferentes. Gradualmente, os termos des-
o
todo livro. educacionais e profissionais. Nessa situagao, os es-
equiparadas, o mesmo conjunto de normas pode
critivos mais precisos tem substitufdo a designagao
No presente contexto, nos examinaremos al- cores de teste sao nao ser aplicavel a ambos; a fidedignidade e a va-
normalmente incorporados ao lidade do teste tambem podem variar. E especial- mais antiga “ referenciado no criterio” . Neste livro,
gumas aplicagoes dos computadores a avaliagao banco de
dados do computador, juntamente com 0 termo “ referenciado no domfnio” e utilizado a
do desempenho nos testes (F.B. Baker, 1989; Gu - outras informagoes mente importante verificar a comparabilidade dos
fomecidas pelo aluno ou cli- escores para diferentes indivfduos ou grupos cuja partir de agora para esta finalidade.
tkin & Wise, 1991; Roid & Gorsuch , 1984). No nf- ente. Essencialmente, o
vel mais simples, a maioria dos testes atuais, espe- das as informagoes computador combina to- experiencia com o uso do computador, e especial- Tipicamente, a testagem referenciada no do-
disponiveis acerca do indivf- mente com a testagem computadorizada, pode di- mfnio usa como sua estrutura de referenda inter-
cialmente aqueles planejados para aplicagao em duo com dados pretativa um domfnio especffico de conteudo, em
grupo, esta agora adaptada apontuagao por com- educacionais e ocupagoes armazenados sobre programas ferir substancialmente.
putador. Varios editores de teste, assim como or- relagoes relevantes
, e utiliza todos os fatos e 0 rapido crescimento dos servigos de computa- vez de uma populagao especificada depessoas. A
ao responder as perguntas do dor que oferecem relatos interpretativos narrativos este respeito, ela foi comparada & testagem usual
ganizagoes independentes de pontuagao de testes, indivfduo e ao ajuda-
estao equipados para oferecer esses servigos de pon- exemplo
lo a tomar decisoes. Um de escores tem despertado muita preocupagao. Dois referenciada na norma, em que o escore de um
de sistema interativo de computador e o princfpios basicos estao subjacentes a varias das indivfduo e interpretado atraves da comparagao
tuagao aos usuarios de testes. Alem disso, tambem System for
ha uma crescente disponibilidade de disquetes de (“ SIGI ” , 1974-
Interactive Guidance Information orientagoes relevantes. Primeiro, precisam ser ofe- com os escores obtidos por outras pessoas no mes-
computador que podem ser empregados pelos usu - cada em
1975). Em uso ha mais de umade- recidas informagoes adequadas que permitam ao mo teste. Na testagem referenciada no domfnio,
universidades, esse sistema foi subseqiien- usuario do teste avaliar a fidedignidade, a valida- por exemplo, o desempenho do testando pode ser
arios para pontuar testes em seus proprios compu - temente atualizado e revisado para atender nao
tadores (p. ex., os programas ASSIST desenvolvi- apenas os alunos, de e outras propriedades tecnicas do sistema inter- relatado em termos das operagoes especfficas de
mas aritmetica que ele sabe resolver, do tamanho esti-
dos pelo American Guidance Service). Em um nfvel tao se preparando para tambem os adultos que es- pretative empregado na preparagao do software de
entrar ou reentrar no mer- computador. Como as declaragoes interpretativas mado de seu vocabulario, do nfvel de dificuldade
mais complexo, esta disponfvel paracertos testes a cado de
trabalho,~oITcohsiderando mudangas ou foram derivadas dos escores? Quais sao os princf - de materias escritas que e capaz de compreender
interpretagao narrativa por computador de re- avangos na carreira ( (de historias em quadrinhos aclassicos literarios) ,
M . R . Katz, 1993; Norris, pios teoricos e a base de pesquisa do sistema? As
sultados de teste. Nesses casos, o programade com- Schott, Shatkin &
putador associa declaragoes verbais preparadas a
Bennett , 1986) . declaragoes foram derivadas de analises quantita- ou das chances de ele atingir um nfvel de desem -
tivas ou do julgamento clfnico de peritos? Se foi do penho designado em um criterio extemo (educa-
determinados padroes de resposta ao teste. Esta Riscos e Orientagoes. cional ou ocupacional) .
abordagem foi utilizada com testes de personali- dores tenham sem duvida Embora os computa- julgamento clfnico , devem ser dadas algumas in-
Ate 0 momento, a testagem referenciada no
dade e com testes de habilidade. Por exemplo, com melhorias sem precedentesaberto o caminho para formagoes referentes as qualificagoes dos peritos
em todos os aspectos participantes. domfnio encontrou suas maiores aplicagoes em
o Inventario Minnesota Multifasico de Personali- da testagem
psicologica, certas aplicagoes dos com- Um segundo prinefpio subjacente e o seguinte: varias inovagoes da educagao. Entre elas destacam-
dade MMPI ) , discutido no Capftulo 13, os usua- putadores podem
* (

rios de testes podem obter registros impressos de dequados


levar a usos e interpretagoes ina- quando sao usados relatos interpretativos de esco- se sistemas instrucionais auxiliados pelo compu -
declaragoes diagnosticas e interpretativas sobre as Kramer & Mitchell,
de escores de teste ( Butcher, 1985a; J.J. re para finalidades clfnicas ou de aconselhamento tador, manejados pelo computador e outros siste-
1985; Matarazzo, 1983, 1986a, ou para fins que afetam a tomada de decisoes im- mas individualizados, em que cadapessoacontrola
tendencias de personalidade e as condigoes emoci- 1986b). Em um esforgo
para evitar estes riscos, tem portantes sobre os indivfduos, e essencial levar em o seu ritmo de progresso. Em todos esses sistemas,
onais do testando, juntamente com os escores nu
-
mericos. Para os usuarios que tern acesso a seus vimento de
sido dada uma atengao consideravel ao desenvol- conta outras fontes de dados disponiveis sobre os a testagem esta estreitamente integrada com a ins-
proprios computadores, existem oportunidades
orientagoes para a testagem baseada testandos. Por esta razao, os relatos dos escores de- trugao, sendo introduzida antes, durante e depois
no computador. Os Padroes de Testagem (AERA, vem ser considerados como uma ajuda, e nao como da conclusao de cada unidade instrucional, para
crescentes de comprar programas de computador APA, NCME,
que produzem nao somente escores numericos tes a testagem 1985) incluem varios padroes referen- um substituto, para o profissional especialista. verificar as habilidades necessarias, diagnosticar
como tambem relatos interpretativos paradetermi- uma serie de
por computador. Foi desenvolvida possfveis dificuldades de aprendizagem e prescre-
orientagoes mais completa e detalha- verprocedimentos instrucionais subseqiientes (Ni-
nados testes, como as escalas de inteligencia We- da com relagao
chsler revisadas para criangas (WISC- R) e para aspectos da
aos usos do computador nos varios INTERPRETAGAO DE TESTE tko, 1989).
testagem (ver, p. ex., Butcher, 1987, p. REFERENCIADA NO DOMINIO De um outro angulo, os testes referenciados no
adultos (WAIS-R) . 413-431) . Para uma avaliagao cuidadosa do uso domfnio tem sido usados em amplos levantamen-
A interpretagao individualizada de escores de dos computadores
na testagem, com referenda es- Natureza e Usos. Uma abordagem a testa- tos da realizagao educacionai , tais como a Avalia-
teste em um nfvel ainda mais complexo e ilustra- pecial a
da pelos sistemas interativos de computador , em res, veja
interpretagao computadorizada dos esco- gem que despertou uma onda de atividade na de- gao Nacional de Progresso Educacionai (E.G. Jo-
Moreland (1985, 1992) . cada de setenta, especialmente na educagao, foi hnson, 1992; Messick, Beaton & Lord, 1983; F.B.
que o indivfduo esta em contato direto com o com - Duas das maiores preocupagoes referentes a inicialmente designada como “ testagem referen - Womer, 1970), e para atender as necessidades da
putador atraves de estagoes de resposta e realmen- testagem
computadorizada tem relagao com a ciada no criterio” . Proposto inicialmente por Gla- prestagao educacionai de contas. Ainda de um ou-
comparabilidade dos escores e com a avaliagao ser (1963) , este termo ainda e usado um pouco tro angulo, a testagem para a obtengao de requeri-
*
N. de T. Foram traduzidos os nomes dos testes disponiveis interpretativa narrativa. Quando o mesmo teste e livremente, e suas definigoes variam entre diferen- mentos mfnimos, como na qualificagao para uma
comercialmente no Brasil; os demais permanecem em in- aplicado no modo computadorizado e no modo tes autores. Alem disso, sao usados comumente licenga de motorista ou de piloto, ilustra a testa-
gles.
impresso tradicional, a comparabilidade dos esco- varios termos alternatives, como referenciado no gem referenciada no domfnio. Uma aplicagao re-
78 ANNE ANASTASI & SUSANA URBINA TESTAGEM PSICOLOGICA 79

lacionada e na testagem para a proficiencia na muito tempo. Mas sem umacuidadosaespecifica- testagem da maestria. Essencialmente, esse proce- desejamos testar a hipotese de que o testando atin-
fungao, quando precisamos avaliar a maestriaem gao e um controle do conteudo, os resultados da dimento produz um escore tudo-ou-nada, indican- giu o nfvel requerido de maestria no dommio de
habilidades profissionais claramente definidas, testagem referenciada no dommio podem trans- do se o indivfduo atingiu ou nao o nfvel preestabe- conteudo ou no objetivo instrucional amostrado
como em especialidades ocupacionais militares formar-se em uma mixordia idiossincratica e inin- lecido de maestria. Quando sao testadas habilidades pelos itens do teste. A analise sequencial consiste
(Maier & Hirshfeld, 1978; Swezey & Pearlstein, terpretavel. Um compromisso pratico e identificar basicas, geralmente se espera maestria completa em se fazer observagoes em varios momentos e de-
1975) . e definir conceitos, princfpios, metodologias ou (p. ex., de 80 a 85% de itens corretos). Tambem cider, depois de cada observagao, se (1) aceitamos
Finalmente, a familiaridade com os conceitos ob jetivos instrucionais essenciais atraves do julga- pode ser empregada uma distingao tripla, incluin- a hipotese, (2) rejeitamos a hipotese ou (3) faze-
da testagem referenciada no domfnio pode contri- do maestria, nao-maestria e um intervalo interme- mos observagoes adicionais. Assim, o numero de
buir para a melhoria dos testes tradicionais, infor-
mais, preparados pelos professores para uso em sala
^
mento perito; cada um dos domfnios si nificativos
assim definidos pode entao ser amostrado de for-
ma completa com itens de teste apropriados. In-
diary, duvidoso , ou “ de revisao” .
Em relagao a instrugao individualizada, alguns
observagoes (neste caso, 0 numero de itens) neces-
sario para chegarmos a uma conclusao confiavel
de aula. Linn e Gronlund (1995) oferecem uma dubitavelmente, o grau de especificidade com que educadores argumentam que, dados tempo sufici- e determinado durante o processo de testagem. Em
orientagao detalhada para este objetivo, e um tra- os domfnios de comportamento precisam ser ava- ente e metodos instrucionais adequados, quase todo vez de ser apresentado a um numero de itens fixo,
tamento simples e equilibrado da testagem refe- liados varia de acordo com a natureza e o objetivo mundo pode atingir a maestria completa dos obje- predeterminado, 0 examinando continua a fazer o
renciada no dommio. Uma breve porem excelente do teste (Popham , 1984; Roid, 1984) . tivos instrucionais escolhidos. As diferengas indi- teste ate ser atingida uma decisao de maestria ou
discussao das principais limitagoes dos testes refe- Quando aplicada rigorosamente, a testagem vidual manifestar-se-iam assim rib tempo de nao- maestria. Nesse ponto, a testagem e desconti-
renciados no dommio e apresentada por Ebel referenciada no dommio se adapta melhor a testa- aprendizagem e nao na realizagao final, como nuada e 0 aluno e dirigido para o proximo nfvel
(1972) . Um tratamento abrangente de muitos dos gem de habilidades basicas (como na leitura e na acontece na testagem educacional tradicional (Car- instrucional ou retoma ao nfvel nao dominado
-

problemas tecnicos na construgao e na avaliagao aritmetica) em nfveis elementares. Nessas areas, roll, 1963, 1970; Cooley & Glaser, 1969; Gagne, para mais estudos. Com as facilidades de compu-
dos testes referenciados no dommio pode ser en- os objetivos instrucionais normalmente podem ser 1965) . Disso decorre que na testagem da maestria, tador descritas anteriormente neste capftulo, tais
contrado em Berk (1984a). organizados segundo uma hierarquia ordinal, a as diferengas individual no desempenho sao de procedimentos de decisao sequencial sao pratica-
aquisigao de habilidades mais elementares sendo pouco ou nenhum interesse. Consequentemente, veis e podem reduzir o tempo total de testagem , ao
Significado do Conteudo. A caracterfstica um pre-requisito para a aquisigao de habilidades da forma como em geral sao construfdos, os testes produzir estimativas confiaveis de maestria.
distinguidora mais importante da testagem refe- de nfvel mais elevado.7 Contudo, e impraticavel e referenciados no domfnio minimizam diferengas Alguns investigadores tern explorado o uso das
renciada no dommio (independentemente de como provavelmente indesejavel formular objetivos al- individual no desempenho depois de treinamento tecnicas bayesianas de estimativa, que incorporam
e definida e de ser designada por este termo ou por tamente especfficos para nfveis avangados do co- apropriado. A testagem da maestria e empregada dados colaterais e se prestam bem ao tipo de deci-
algum de seus sinonimos) e a sua interpretagao nhecimento em assuntos nao tao bem-estrutura- regularmente nos programas previamente citados sao necessaria na testagem da maestria. Em virtu-
do desempenho no teste em termos do significado dos. Nesses nfveis, tanto o contexto quanto a de instrugao individualizada. Ela tambem e carac- de do grande numero de objetivos instrucionais
do conteudo. 0 foco esta claramente naquilo que seqiiencia da aprendizagem tendem a ser muito terfstica de testes publicados referenciados no do- especfficos a serem testados, os testes referenciados
os testandos podem fazer e sabem, nao em como mais flexfveis. mfnio para habilidades basicas, adequados para a no domfnio costumam oferecer apenas um peque-
eles se comparam com outros. Uma exigencia fun- Por outro lado, em sua enfase sobre o signifi- escola fundamental. no numero de itens para cada objetivo. Para su-
damental na construgao deste tipo de teste e um cado do conteudo na interpretagao dos escores de Na construgao desses testes, duas questoes im- plementar ecta informagao limitada, foram desen-
dommio de conhecimento ou de habilidades cla- teste, a testagem referenciada no dommio pode portantes sao: (1) Quantos itens devem ser usados volvidcs procedimentos para incorporar dados
ramente definido a ser avaliado pelo teste. Para que exercer um efeito salutar sobre a testagem em ge- para uma avaliagao confiavel de cada um dos ob- colaterais da historia de desempenho anterior do
os escores nesse teste tenham um significado co- ral. A interpretagao dos escores de testes de inteli- jetivos instmcionais especfficos abrangidos peio aluno, assim como de resultados de testes de ou-
municavel , o dommio de conteudo a ser amostra- gencia, por exemplo, beneficiar-se-ia com esta abor- teste ? (2) Que proporgao de itens precisa estar cer- tros aluncs (R.L. Ferguson & Novick, 1973; Ham-
do precisa ser amplamente reconhecido como im- dagem. Descrever o desempenho de uma crianga ta para um estabelecimento confiavel da maestria? bleton, 198^a; Hambleton & Novick, 1973).
portante. 0 dommio selecionado precisa entao ser em um teste de inteligencia em termos das habili- Em grande parte da testagem inicial referenciada Quando sao impraticaveis procedimentos in-
subdividido em pequenas unidades definidas em dades inteiectuais e dos conhecimentos especfficos no domfnio, essas duas questoes eram respondidas dividualmente plane j ados, pontos de corte podem
termos de desempenho. Em um contexto educaci- que ele representa poderia ajudar a desfazer as con- por meio de decisoes de julgamento. Mas houve ser estabelecidos empiricamente analisando-se es-
onal, essas unidades correspondent aobjetivos ins- fusoes e as concepgoes erroneas vinculadas ao tra- um progresso substancial no desenvoWmento de cores de pre-instrugao e pos-instrugao de grupos
trucionais comportamentalmente definidos, tais dicional QI. Quando colocada nesses termos ge- tecnicas estatfsticas apropriadas, capazes de pro- apropriados em um determinado teste. E entao se-
como “ multiplica numeros de tres dfgitos por nu- rais, todavia, a abordagem referenciada no domfnio porcionar respostas objetivas e empfricas (Berk, lecionado 0 ponto de corte que melhor discrimina
meros de dois dfgitos” ou “ identifica a palavra in- e equivalente a interpretar os escores de teste a luz 1984a; R.L. Ferguson & Novick, 1973; Hambleton, aqueles que receberam e aqueles que nao recebe-
corretamente escrita em ingles na qual o e final e da validade demonstrada daquele teste especffico, 1984a, 1989; Hambleton & Novick, 1973) . Alguns ram 0 treinamento relevante (Panell & Laabs,
mantido quando se acrescenta -ing” . Nos progra- e nao em termos de vagas entidades subjacentes. exemplos servirao para ilustrar a natureza e 0 al- 1979; L.A. Shepard, 1984). Em algumas situagoes
mas preparados para a instrugao individualizada, Tal interpretagao certamente pode ser combinada cance desses esforgos. toma-se necessario o julgamento, para avaliar a
esses ob jetivos podem atingir varias centenas para com os escores referenciados na norma. As duas perguntas sobre 0 numero de itens e o relativa gravidade de se “ passar ” uma pessoa que
uma unica materia escolar. Depois que os objeti- escore de exclusao podem ser incorporadas a uma nao esta qualificada versus “ reprovar” uma que
vos instrucionais foram formulados, sao prepara- Testagem da Maestria. Uma segunda carac- hipotese unica, que pode ser testada na estrutura esta. 0 ponto de corte seria correspondentemente
dos itens para amostrar cada objetivo. Este proce- terfstica importante comumente associada a testa- da teoria da decisao e na analise sequencial (Ham- elevado ou reduzido para ajustar-se a gravidade das
dimento e reconhecidamente diffcil e consome gem referenciada no domfnio e o procedimento de bleton , 1984a; Wald, 1947). Especificamente, nos conseqiiencias de uma classificagao equivocada.
0

80 ANNE ANASTASI & SUSANA URBiNA TESTAGEM PSICOLOGICA 81

Relagao com a Testagem Referenciada na mento do examinador daquilo que pode ser espe- independentemente de suas outras habilidades. Por rem claramente no comportamento relevante de
Norma. Afora as habilidades basicas, a testagem rado dos organismos humanos em um determi- exemplo, operadores de equipamento de sonar pre- criterio, tal como o desempenho real em um deter-
da maestria e inaplicavel ou insuficiente. Em as- nado estagio desenvolvimental ou instrucional. Tal cisam terumaboadiscriminagao auditiva. Durante minado tipo de trabalho. E esse desempenho, evi-
suntos mais avangados e menos estruturados, a re- escolha pressupoe informagoes sobre o que outras a Segunda Guerra Mundial , recrutas da Marinha dentemente, que o teste foi planejado para predi-
alizagao e de final aberto. 0 indivfduo pode pro- pessoas fizeram em situagoes semelhantes. Alem americana foram inicialmente selecionados para zer, e no qual o ponto de corte deve garantir um
gredir quase ilimitadamente em fungoes como disso, ao impor pontos de corte uniformes em um o treinamento como operadores de sonar com base mfnimo seguro, aceitavel ou desejavel. Uma clara
entendimento, pensamento crftico, apreciagao e contfnuo de habilidade, a testagem da maestria nao em seus escores combinados em testes de discrimi- ilustragao de um metodo empfrico para se estabe-
originalidade. Alem disso, o alcance do conteudo elimina as diferengas individual. Descrever o nf- nagao auditiva e compreensao mecanica. Como lecer pontos de corte em um teste de selegao de pes-
pode prosseguir em muitas diregoes diferentes, de- vel de compreensao de leitura de um indivfduo resultado, varios homens com formagao universi- soal e oferecida pelas tabelas de expectativa ou pro-
pendendo das habilidades, dos interesses e dos ob- como “ a habilidade de compreender o conteudo taria que tinham excelente compreensao mecani- babilidade discutidas naproxima segao.
jetivos do indivfduo , e tambem das condigoes ins- do The New York Times ” ainda deixa espago para ca, mas que eram deficientes nas habilidades au -
trucionais locais. Nestas condigoes, a maestria uma variedade amplade diferengas individual no ditivas essenciais, foram designados para esse Tabelas de Expectativa. Uma das maneiras
completa e irrealista e desnecessaria. Portanto , grau de entendimento. Aplicar um ponto de corte treinamento, com subsequente fracasso. 0 proce- de interpretar o significado de um escore de teste e
nesses casos geralmente e empregada a avaiiagao para dicotomizar o desempenho simplesmente ig- dimento-padrao da Marinha exigia que aqueles que em termos do desempenho de criterio esperado da
referenciada na norma para avaliar o grau de con- nora as diferengas individuals restantes dentro das fracassassem em seu primeiro treinamento fossem pessoa, como em um programade treinamento ou
secugao. Alguns testes publicados sao construfdos duas categorias e descarta informagoes potencial- transferidos para o servigo geral no mar como em uma fungao. Este uso do termo “ criterio” se-
de modo apermitir tanto aplicagoes referenciadas mente uteis. marinheiros aprendizes - perdendo-se assim seus gue a pratica psicometrica padrao, como quando
na norma quanto no domfnio. Um exemplo sao servigos especializados potenciais. Uma analise se diz que um teste foi validado de acordo com um
os testes diagnosticos Stanford em leitura e mate- mais detalhada da situagao com o tempo levou a determinado criterio (ver Gapftulo 1). Rigorosa-
matica. Esses testes oferecem normas apropriadas QUALIFICAgOES MINIMAS E substituigao do procedimento de triagem de exclu- mente falando, o termo “ testagem referenciada no
em cada nfvel e permitem uma analise qualitativa PONTOS DE CORTE sao para este objetivo de selegao. Para a maioria criterio” deve referir-se a este tipo de interpretagao
da consecugao da crianga em relagao a objetivos das variaveis relacionadas a fungao , todavia, a re- do desempenho, enquanto as outras abordagens
instrucionais detalhados. Necessidades Praticas e Armadilhas. 0 lagao com o desempenho no trabalho tende a ser discutidas na segao precedente podem ser descritas
Convem observar que a testagem referenciada conceito de maestria na testagem referenciada no linear, de modo que quanto mais elevado for o es- mais precisamente como referenciadas no conteu -
no domfnio nao e tao nova nem tao claramente domfnio e apenas um exemplo do uso pratico dos core no teste, melhor sera o desempenho (Coward do ou referenciadas no domfnio.
separada da testagem referenciada na norma, como pontos de corte na tomada de decisao. Qualifica- & Sackett, 1990) . Nesses casos, o escore verdadeiro Uma tabela de expectativa nos da a probabili -
alguns de seus proponentes sugeriram. Avaliar o goes mfnimas precisam ser especificadas e imple- da pessoa e um preditor melhor do que sua posi- dade de diferentes resultados de criterio para pes-
desempenho de um indivfduo em um teste em ter- mentadas para uma multiplicidade de objetivos na gao relativa a um ponto de corte. soas que obtem cada escore de teste. Por exemplo,
mos absolutos, tais como por meio de notas em vida cotidiana. Em muitas situagoes, consideragoes Na medida em que o uso dos pontos de corte se um aluno obteve um escore de 530 no College
letras ou porcentagem de itens corretos, certamen- de seguranga requerem o estabelecimento de esco- nao pode ser evitado em muitas decisoes praticas, Board Scholastic Assessment Test (SAT) , quais sao
te e bem mais antigo do que as interpretagoes nor- res mfnimos de aprovagao no desempenho, como e essencial termos conscienciadas armadilhas pre- as chances de sua media de notas como calouro
mativas. Tentativas mais precisas de descrever o de- no caso da licenga de motorista, da selegao de pi- sentes nessas avaliagoes e utilizarmos procedimen- em uma universidade especffica ficarem na cate-
sempenho no teste em termos de significado de lotos de linhas aereas ou de empregados de uma tos para reduzir os erros de julgamento. Por exem- goria A, B, C, D ou F? Este tipo de informagao pode
conteudo tambem antecedem a introdugao do ter- fabrica nuclear. Na educagao, passar em um curso plo, devemos tentar mitigar as limitagoes de um ser obtido examinando-se a distribuigao bivariada
mo “ testagem referenciada no criterio” (Ebel, 1962; ou graduar-se na escola apresentam outras situa- unico escore de teste. Quando possfvel, o corte deve dos escores preditores (do SAT) alocados de acordo
J.C. Flanagan , 1962; Nitko, 1984, p. 14-16) . Outros goes que exigem classificagoes tudo-ou - nada ser baseado em uma faixa de escores, em vez de com o status de criterio (media de notas dos ca-
exemplos podem ser encontrados nas primeiras (Jaeger, 1989) . Napraticaclfnicae no aconselha- em um unico escore obtido na aplicagao de um louros). Se o numero de casos em cada celula des-
escalas de produto para avaliar a qualidade da or- mento, decisoes relativas a tratamento ou recomen- determinado teste. Alem disso, as decisoes acerca sa distribuigao bivariada for transformado em uma
tografia, de composigoes ou desenhos, comparan - dagoes de agao podem exigir julgamentos simila- dos indivfduos devem depender de fontes multiplas porcentagem , o resultado e uma tabela de expec-
do se a amostra de trabalho de um indivfduo com
-
res. de informagao sobre cada pessoa, com os escores tativa, tal como a ilustrada na Tabela 3- 6 (ver adi-
um con junto de exemplos-padrao. Ebel (1972) Um argumento particularmente solido para o de teste sendo suplementados com outros dados de ante). Os dados dessa tabela foram obtidos de 211
observou , alem disso, que o qpnceito de maestria uso de escores mfnimos de aprovagao ou pontos de desempenho relevantes, tanto passados quanto pre- alunos de setima serie matriculados em cursos de
em educagao — no sentido da aprendizagem tudo- corte refere-se a presenga de variaveis crfticas ne- sentes. Se os pontos de corte nos testes sao estabele- matematica. 0 preditor era o teste de Raciocfnio

ou - nada de unidades especfficas alcangou nota-
vel popularidade nas decadas de vinte e trinta e mais
cessarias para o desempenho de certas fungoes.
Essas sao variaveis em que uma deficiencia pode-
cidos por um painei de jufzes, este deve incluir uma
representagao adequada de peritos tanto na area
Numerico dos Differential Aptitude Tests, aplica-
dos no final do primeiro semestre. 0 criterio eram
tarde foi abandonado. ria nao ser compensada por habilidades notaveis relevante do desempenho na tarefa como nos prin - as notas finais no curso, no segundo semestre. A
Em toda testagem esta implfcita uma estrutu- em outras variaveis. Nesses casos , um escore eleva- cfpios de construgao e uso do teste. Acima de tudo , correlagao entre os escores de teste e o criterio foi
ra normativa, independentemente de como os es- do em uma bateria completa de selegao poderia os pontos de corte devem, sempre que possfvel, ser de 0,60.
cores sao expressos (Angoff , 1974; Nitko, 1984) . A mascarar uma deficiencia em uma habilidade crf- estabelecidos ou verificados com base em dados A primeira coluna da Tabela 3-6 mostra os es-
propria escolha do conteudo ou das habilidades a tica. Mas indivfduos situados abaixo do mfnimo empfricos. Especificamente, isso implica que os cores no teste, divididos em quatro intervalos de
serem mensuradas e influenciada pelo conheci- requerido na habilidade essencial fracassariam, escores de teste sejam obtidos de grupos que dife- classe; o numero de alunos cujos escores situam-
I
82 ANNE ANASTASI & SUSANA URBINA
TESTAGEM PSICOLOGICA 83
TABELA 3.6
Stanine Numero Porcentagem Eliminada no Treinamento Primario de Pilotos
Tabela de Expectativa Mostrando a Relagao entre o Teste de Raciocinio Numerico do DAT e as Notas no Curso de de Homens
do Piloto
Matematica para 211 Alunos da Setima Serie
9 21 ,474 4°/

Escores
no Teste
Numero
Porcentagem que Recebeu Cada Nota 8 19,444 m 10%
de Casos D & abaixo C B A 7 32 , 129 14%
30 & acima 22 5 0 36 6 39, 398
'
M 22°/
59 3H
20-29 104 9 21 43 27 M
10-19 71 37 5 34, 975 30%
Abaixo de 10 14
37 24 3 Hv
43 36 14 7
4 23,699 mm mm 40%
Adaptada do Technical Manual for Differential Aptitude Tests, quinta edigao, p. 152. Reproduzida com permissao
da The Psychological Corporation .
. Copyright © 1992 10B3ES
3 11 , 209 53%
V’ v
" '

2 2,139 6 7%
se em cada intervalo e apresentado na segunda mostra a porcentagem de cadetes pilotos com es- k
coluna. As entradas restantes em cada linha da ta- cores em cadastanine na bateria que nao conse- 1 904 mm
Ml 77%
bela indicam a porcentagem de casos de cada in- guiu completar o treinamento de voo primario. 10 30 40 60 70 80 90 100
tervalo de escore de teste que recebeu cada nota no Podemos ver que 77% dos cadetes que receberam
final do curso. Assim, dos 22 alunos com escores um stanine de 1 foram eliminados no curso de FIGURA 3.7 Grafico de Expectativa Mostrando a Relagao entre o Desempenho na Bateria de Selegao de Pilotos e a
de 30 ou acima no teste de Raciocinio Numerico, treinamento, enquanto apenas 4% dos que recebe- Eliminagao no Treinamento Primario de Voo.
5% receberam notas D ou abaixo, nenhum rece- ram um stanine te. 9 nao conseguiram completar De J . C. Flanagan, 1947, p. 58.
beu C, 36% receberam B, e 59%, A. No outro extre- satisfatoriamente o treinamento. Entre estes extre-
mo, dos 14 alunos com escores inferiores a 10 no mos, a porcentagem de fracassos diminui consis-
teste , 43% receberam notas D ou abaixo, 36%, C, e tentemente ao longo dos stanines sucessivos. Com
14%, B. Os anomalos 7% que receberam A, repre- base nesse grafico de expectativa, poderiamos pre- NOTAS
sentando apenas um caso, sao uma informagao dizer, por exemplo, que aproximadamente 40% dos
virtualmente inutil para fins de generalizagao, cadetes pilotos que obtem um escore stanine de 4
>Os calculos ilustrados neste capitulo lidam com a estatistica 3Para uma avaliagao mais detalhada da abordagem piageti -
descritiva , que se refere a amostra realmente mensurada; na ana, ver Capitulo 9 -
como os 5% com escore no teste de 30 ou acima fracassarao e aproximadamente 60% completarao estatistica inferential , oNe substituido por TV - 1, paraesti- 4 Kaiser (
1958) propos uma modificagao na escala stanine
que receberam uma nota D ou abaixo, novamente de forma satisfatoria o treinamento de voo prima- mar os valores da populagao correspondente a partir dos da - que envolve pequenas mudangas nas porcentagens e produz
representados por apenas um caso. No entanto, rio. Afirmagoes semelhantes relativas a probabili- dos da amostra. Quanto menor a amostra, maior sera a dife- um DP de exatamente 2, o que facilita o tratamento quanti-
dentro da limitagao dos dados disponfveis, as por- renga entre os valores da amostra e da populagao. Para uma tative. Outras variantes sao a escala C (Guilford & Fruchter,
dade de sucesso e fracasso poderiam ser feitas acer-
centagens na Tabela 3- 6 oferecem estimativas da ca de indivfduos que recebem cada stanine. Assim,
explicagao, ver qualquer texto atual de estatistica (p. ex., -
1978, p. 484 487) , consistindo de 11 unidades e tambem pro-
Comrey & Lee, 1992). duzindo um DP de 2 , e a escalasten de 10 unidades , com 5
probabilidade de que um individuo receba uma um individuo com um escort stanine de 4 tern uma 2 Este uso do termo “ escala ordinal ” difere do uso na estatisti - unidades acima e 5 abaixo da media (Canfield , 1951).
determinada nota de criterio. Por exemplo, se um chance de 60:40 ou 3:2 de concluir o treinamento ca, em que uma escala ordinal e simplesmente uma escala 5Este teste foi mais tarde renomeado como Scholastic Assess-
novo aluno recebesse um escore de 24 no Racioci- de voo primario. Alem de proporcionar uma inter- que permite um ordenamento de classificagao dos individu- ment Test, a fim de refletir a orientagao alterada em relagao
nio Numerico do DAT (i. e., no intervalo 20-29) , os sem conhecermos a quantidade de diferengas entre eles; a natureza dos escores de teste, que emergiu mais para o fi-
pretagao dos escores de teste referenciada no crite- no sentido estau'stico, as escalas ordinais sao contrastadas com nal do seculo XX. (Ver especialmente o Capitulo 12 sobre o
nos concluiriamos que a probabilidade de ele ob- rio, podemos ver que tanto as tabelas quanto os as escalas de intervalo de unidade igual. As escalas ordinais efeito das diferengas individuals na historia experiencial de
ter uma nota A no curso e de 27 em 100; a probabi- graficos de expectativa nos dao uma ideia geral da do desenvolvimento infantil sao na verdade planejadas se- desempenho em testes.)
lidade de ele obter uma nota B e de 43 em 100, e validade de um teste na predigao de um determi- gundo o modelo de uma escala Guttman ou “ simplex” , em 6N6s agradecemos a ajuda da Wayne Camara , do College

assim por diante. que o desempenho bem-sucedido em um nivel implica o su- Board, na obtengao das informagoes aqui relatadas.
nado criterio. Por essa razao, no final do Capitulo cesso em todos os niveis inferiores (L. Guttman, 1944). Uma 7Idealmente, esses testes seguem o modelo simplex de uma
Em muitas situagoes praticas, os criterios po- 6 e apresentada uma discussao mais detalhada dos extensao da analise de Guttman, incluindo hierarquias nao- escala de Guttman (ver Popham & Husek, 1969) , como fa-
dem ser dicotomizados em “ sucesso ” e “ fracasso” procedimentos emptricos para o estabelecimento lineares, 6 descrita por Bart e Airasian (1974) , com referen- zem as escalas ordinais piagetianas discutidas no Capitulo 9-
em um trabalho, curso de estudo ou outro empre- de pontos de corte, em uma segao sobre modelos da especial as escalas piagetianas.
endimento. Nessas condigoes, pode ser preparado de decisao para o uso justo dos testes. Tambem es-
um grafico de expectativa, mostrando a probabi- tao inclufdas na segao referencias a procedimen-
lidade de sucesso ou fracasso correspondente a cada tos matematicos para o estabelecimento de pontos
intervalo de escore. A Figura 3.7 e um exemplo desse de corte otimizados para varias condigoes. Aplica-
grafico de expectativa. Baseado em uma bateria de goes especificas de pontos de corte nas principais
selegao para pilotos desenvolvida pela Forga Aerea areas da pratica psicologica tambem podem ser
dos Estados Unidos, esse grafico de expectativa encontradas no Capitulo 17.

Você também pode gostar