Você está na página 1de 34
8 TESTES REFERENTES A CONSTRUTO: TEORIA E MODELO DE CONSTRUCAO INTRODUGAO Inicialmente, € importante alertar © leitor de que a tecnologia aqui apre: sentada de elaboracao de instrumentos psicolégicos exige o conhecimento de al- gumas disciplinas ensinadas nas universi- dades, bagagem sem a qual dificilmente © pesquisador poder se considerar apto a construir instrumentos psicol6gicos. En- tre essas disciplinas salientam-se particu- larmente as seguintes, &s quais este livro remete sem poder substitui-las, apenas indicando 0 momento no processo de ela- boragao do instrumento em que elas tem seu espaco de aplicagéo: + psicometria: fundamental para a teo- ria da medida em psicologia, particu- larmente 0 conhecimento da teoria da respostaaoitem (TRI; * disciplinas de teoria psicolégica, tais como histéria e sistemas, teorias da personalidade, psicopatologia, psicolo- gia social, etc.; essas disciplinas so bé- sicas para os procedimentos te6ricos; + disciplinas de delineamento de pes- quisa cientifica; esse conhecimento é fundamental para os procedimentos experimentais; en * disciplinas de estatistica - estatistica bésica, andlise de hipétese, andlise fa- Lulz Pasquali torial; esses conhecimentos sao decisi- vos nos procedimentos analiticos. A teoria e 0 modelo de elaboragio de instrumental psicolégico apresentados neste cap{tulo so aplicdveis & constru- gio de testes psicoldgicos de aptidao, de inventarios de personalidade, de escalas psicométricas de atitude e do diferencial semantico. O modelo, que é detalhado na Figura 8.1, se baseia em trés grandes polos, que chamaremos de procedimentos tedricos, procedimentos empiricos (expe- rimentais) e procedimentos analfticos (es- tatisticos). © polo tedrico enfoca a questio da teoria que deve fundamentar qualquer empreendimento cientifico, no caso a explicitago da teoria sobre 0 construto ou objeto psicolégico para o qual se quer desenvolver um instrumento de medida, bem como a operacionalizagao do cons- truto em itens. Este polo expe a teoria do traco latente, bem como a explicitago dos tipos e categorias de comportamentos que constituem uma representagio ade- quada desse traco. polo empirico ou experimental de- fine as etapas e técnicas da aplicagao do instrumento piloto e da coleta valida da informacao para proceder & avaliagio da qualidade psicométrica do instrumento. Scanned with CamScanner 166 LuizPasquall & cols. © polo analitico estabelece 08 Prove” dimentos de andlises estatisticas a serem efetuadas sobre os dados para levar a um instrumento vélido, preciso ¢, se for caso, normatizado. ‘A Figura 8.1 apresenta ¢ detalha, para cada um desses trés procedimentos, ‘as etapas ou passos pelos quais se deve passar para se poder progredir sistema- ticamente na elaboragéo de um instru- mento de medida psicolégica baseado em construtos. Além disso, define, para cada passo, o método ou métodos a serem utilizados para superar o problema espe- cffico que constitui a tarefa a ser resolvi- da em cada passo, bem como o produto que decorre como resultado da solugdo do problema de cada passo. Além desses detalhes técnicos, a figura apresenta, para 05 trés procedimentos, uma metandlise na qual se procura enquadrar e delimitar 0 evento ou eventos psicométricos que es- to ocorrendo; tal fen6meno vem iden, ado sob a égide do rétulo fase et. PROCEDIMENTOS TEORICOS Os procedimentos te6ricos deven ser elaborados para cada instru dependendo, portanto, da literatura eri tente sobre 0 construto psicol6gico que y instrumento pretende medir. A teoria ain da é, infelizmente, a parte mais fraca ds pesquisa e do conhecimento psicolégices, 6 que tem como consequéncia a precare. dade dos atuais instrumentos psicoméni- cos de medida nesta drea. Na verdade, o instrumentos baseados em uma teoria ps coldgica prévia mais elaborada (porexen- plo, “Edwards personal preference sche dule”) ndo sao dos melhores no mercado, ‘Tal ocorréncia explica, em parte, por que os psicometristas sistematicamente fogen Proced rents See SSS TEORA. ‘CONSTRUGAO DO INSTRUMENTO. pCa Figura 8.1 COrganograma para elaboracio de medida psicolégi ica, 4 Scanned with CamScanner gacxplitago de uma teoria preliminar e jniciam a construcao | do instrumento pela intra intuitiva e mais ou menos aleatéria de uma amostra de itens, que dizem pos- suir face validity, isto é, parecem cobrir 0 aitpara o qual eles querem elaborar 0 fisgumento de medida. Embora isso nfo ‘muito cientifico, infelizmente é 0 ‘ye ocorre mais frequentemente na cons- Ticio de instrumental psicol6gico. ‘A inexisténcia de teorias sdlidas so- bre um construto nao deve ser desculpa para o psicometrista fugir de. toda a es- ao teérica sobre ele. E obrigagio dele levantar, pelo menos, toda a evidén- ta empirica sobre o construto e procurar sistematizé-la e, assim, chegar a uma mi- niteoria sobre ele, que possa guid-lo na NOTA EXPLICATIVA ‘Sistema: sindnimo de objeto, coisa, ser, entidade definido nio necessariamente pela naturez2, “do discurso, ~ Atibuto: propriedade, qualidade, aspecto, comp ~ Velem um continuo de pontos de magnitude. ‘Mognitude. qualidade de um sistema que "pode ser mals ou maior que (>) ou menos o ‘komorfsmo:afirmacéo de correspondéncia ent _ ds propriedades dos sistemas "+" Defnigaes delimitagéo de um con: ‘male 0 conceito ou construto for s20concelto ou construto for definido em termos: “Aterminologia em cléricia e diria, particularmente em psicologia no & uniforme nfelizmente: Por ss0,€ dtilconceituar prefiminarmente certas expresses aqui utlizadas, como segue: ‘mas pelo interesse do discurso eexistente neste mundo pode assumir 1u menor que (<)- ‘da natureza (fisica ou nic). celto em termos de suas propr -definido em termos de outros Instrumentagdo psicolégica 167. elaboragéo de um instrumento de medida para 0 tal construto, Apesar do avanco e da sofisticacio estat{sticos na psicometria, parece ser essa fraqueza da base tedrica que vem maculando a imagem dos pro- cedimentos psicométricos na observagio dos fendmenos psicolégicos. Na verdade, com uma base teérica coerente e, quando posstvel, completa, torna-se vidvel uma efinigao dos tipos e caractersticas dos comportamentos que irdo constituir a re- presentacao empirica dos tragos latentes e, assim, facilitar a tarefa do psicometrs- ta em operacionalizé-los adequadamente (isto é a construgéo dos itens se tora coerente e adequada). De qualquer forma, a Figura 8.2 de- talha esses procedimentos teéricos. ‘que possui propriedades ou atributos.0 sistema & vonente do objeto. Ele é caracterizado por ser mensuré- diferentes valores de quantidade, isto é ela matematica) e quantidades 1 propriedades do ntimero riedades especficas. Ela é constitutive oufor- ‘construtos Ela é operacional ou epistmica experiencia ou observaséo. de fatos empiricos da Figura 8.2 cedimentos teéricos na elaboracéo da medida psicol6gic2- Scanned with CamScanner enumerados. O que pode set medido so 8 propriedades ou atributos de um ob- Por isso esses atributos sho geralmen- te chamados de varidvels, dado que nio sho invariantes entre sistemas individuais a afirmago pessoal ou a politica, entio um sistema de estudo nio ¢ ditada pelo saber em si, mas por fatores extrinsecos a ele; nem por isso esses fatores extrinse. cos sio negligencidveis no contexto geral do universo da natureza ¢ do ser huma- no, dado que o ser humano (pesquisador) est situado em um contexto € tem suas Prioridades em parte ditadas por esse contexto. Assim, nio hé maior sabedoria em se estudar um grio de areia do que a sobrevivéncia do ser humano, embora objeto especifico as estruturas laten, tes, os tagos pskquicos OU Processor men, tais, se quiser, que assim $¢ constituem py, seu objeto ou sistema direto de . © sistema pode set considerado de yi. tios niveis, dependendo do interesse do, Pode-se falat de um sistems universal ¢ de sistemas locais, 0 universa} total do ser humano e 08 locais, 08 subsistemay de interesse. Assim, a inteligéncia pode ser quando ela for o interesse imediato na qual varios aspectos podem ser considera- dos, como a compreensio verbal e a futa- cia verbal. Sistema, portanto, constitui-se em sistema como 0 objeto imediato de interesse dentro de um delineamento de estudo, endo é uma entidade ontolégica monolitica e unfvoca. Esses varios niveis de sistemas ocor- Fem mesmo nas coisas fisicas. Assim, por exemplo, para 0 bidlogo podem ser si temas 0 organismo em sua totalidade ou Parte dele, como ¢ 0 sistema neurolégico Para 0 neurélogo, o sistema vascular para © cardidlogo, etc. © quimico se interesst Pelos elementos da tabela periédica, ext ‘que 0s seus sistemas naturais (Agua, &% ete.) se reduzem a esses elementos ¢¢ interesse desse profissional. 0 fisico ti clear estuda seus sistemas reduzindo pertinente. * Decorar uma sentenca > pouco per- tinente. + Falar em voz alta > impertinente. Gritério da precisdo: o item deve pos- suir uma posicSo definida no continuo do atributo e ser distinto dos demais itens que cobrem o mesmo continuo. Este critério supe que o item possa ser localizado em uma escala de esti. mulos; em termos de Thurstone, diriz ‘mos que o item deve ter uma posicao escalar modal definida e um desvio pa, 2 Figura 8.4 IMustrago da preciso dos i itens na escala d, le Thurstone. . Critério da modalida: dréo reduzido. Em termos da critério representa os pardmetyo,} Ee ficuldade)‘e a (discriminacioy ¢° realmente ser avaliado defini te somente apés coleta de dados piricos sobre os itens. Por exempj escala de Thurstone (ver Figura aay item E1 é muito preciso, enquantooty é impreciso. . Critério da variedade: dois aspectos pecificam este critério. * Deve-se variar a linguagem pois. uso dos mesmos termos em todos os itens confunde as frases e dificul. ta diferencié-las, além de provocar monotonia, cansago e aborrecimen- to. Exemplo: o EPPS (Edwards Per sonal Preference Schedule) em in- glés comeca quase todas as suas500 frases com a expressao “I like..” Depois de tantos “I like”, qualquer sujeito deve se sentir saturado! * No caso de escalas de preferéncis, deve-se formular a metade dositess em termos favordveis e metade et termos desfavordveis, para evitit erro da resposta estereotipada 2 querda ou a direita da escala ders Poste. E a recomendaco que i dava em 1932. formular fe com expressies de reagao modal e 6, nao utilizar expressdes Scanned with CamScanner como “excelente”, “miserdvel”, etc. As- sim, ninguém ¢ infinitamente inteligen- te, mas a maioria é bastante inteligente. A intensidade da reacéo do sujeito é dada na escala de resposta. Se o pré- prio item ja vem apresentado em forma extremada, a resposta na escala de res- jéestd viciada. Assim, se pergun- to ao sujeito se est4 pouco ou muito de acordo (em uma escala, por exemplo, de sete pontos que vai de desacordo total a acordo total), um item formulado extre- mado tal como “meus pais so a melhor coisa do mundo” dificilmente receberia resposta 7 (totalmente de acordo) por parte da maioria dos sujeitos da popu- lagio meta, simplesmente porque a for- mulagio é exagerada. Se em lugar dela eu usasse uma expresséo mais modal, tal como “eu gosto dos meus pais”, as chances de respostas mais variadas e in- clusive extremadas (resposta 7) seriam de se esperar, Gritério da tipicidade: formar frases com expresses condizentes (tipicas, Prprias, inerentes) com o atributo. Assim, a beleza nao é pesada, nem grossa, nem nojenta. 10. Critério da credibilidade (face validity): O item deve ser formulado de modo Que no apareca sendo ridiculo, des- Propositado ou infantil. Itens com esta ltima caracterizacdo fazem o adulto Se sentir ofendido, irritado ou coisa similar, Enfim, a-formulacao do item Pode contribuir e contribui (Nevo, 1985; Nevo e Sfez, 1985) para uma atitude desfavordvel para com 0 tes- te e assim para 0 aumento dos erros (ieses) de resposta. Este tema, as ve- 2s, é discutido sob o que se chama de validade aparente (face validity), ‘Ue nao tem nada a ver com a valida- de objetiva do teste, mas pode afetar Regativamente a resposta ao teste, a0 afetar o individuo respondente. Instrumentagio psicolégica 179 5) Critérios referentes ao conjunto os itens (0 instrumento todo); 11. Critério da amplitude: este critério afirma que 0 conjunto dos itens re- ferentes a0 mesmo atributo deve co- brir toda a extensio de magnitude do continuo desse atributo, Este critério € novamente satisfeito pela andlise da distribuigéo dos parametros b da TRI. A razdo disto é que um instrumento deve poder discriminar entre sujeitos de diferentes niveis de magnitude do trago latente, inclusive entre os que Possuem um trago alto quanto entre Os que possuem um trago pequeno, € ndo somente entre os de trago alto e traco baixo. 12, Critério do equilibrio: os itens. do mesmo continuo devem cobrir igual- mente ow’ proporcionalmente_ todos os segmentos (etores) do continuo, devendo haver, portanto, itens faceis, dificeis e médios (para aptidées) ou fracos, moderados e extremos (no caso das atitudes). De fato, os itens devem se distribuir sobre 0 continuo em uma distribuigdo que se assemelha da curva normal: maior parte dos itens de dificuldade mediana e dimi- nuindo progressivamente em diregao as caudas (itens féceis.e itens dificeis em mimero menor). A razio deste critério se encontra no fato de que a grande maioria dos tracos latentes se distribui entre a populacéo mais ou menos dentro da curva normal, isto 6, a maioria dos sujeitos possui mag- nitudes medianas dos tragos latentes, sendo que uns poucos pojsuernmg nitudes grandes e outros, magnitudes pequenas, Assim, a distribuico dos jtens em um instrumento deve ser mais ou menos segundo a curva FOF mal, como mostrado na Figura 8.5 a seguir, onde se diz que 10% dos itens Scanned with CamScanner 180 LuizPasquall & cols. devem ter dificuldade m{nima ou md- xima, 40% dificuldade mediana, etc. Quantidade de itens Para se cobrir a totalidade ou a maior parte ou, pelo menos, grande par- te da extenséio semantica do construto, explicitada nas definigées constitutivas, normalmente se exige, no instrumento fi- nal, um niimero razodvel de itens. O que € um numero razodvel? O bom senso de quem trabalha nesta drea sugere que um construto, para ser bem representado, ne- cessita de cerca de 20 itens. Hé, evidente- mente, construtos muito simples que difi- cilmente necessitam de tal mimero, sendo suficientes apenas uma meia dtizia ou menos deles. Por exemplo, em relacdo & satisfagéo com o salario. Quantas manei- ras hd de se verificar tal satisfagdo? Parece exagerado perguntar 20 vezes ao sujeito se esta satisfeito com o seu salario. Posso, sim, perguntar se ele esta contente com a quantia, com 0 poder de compra, com a pontualidade de entrega, e mais alguns aspectos. Mas parece. dificil descobrir umas 20 maneiras de estar satisfeito com © saldrio. Entretanto, a grande maioria dos tragos latentes normalmente possui uma gama bem maior de aspectos e, por Figura 8.5 ~ isso, exige maior ntimero de itens Para rem adequadamente representadey** Se o niimero final de itens, ity depois que o instrumento passou poy é das as fases de construcao e valida, deve ser em torno de 20, pergunta-se com quantos itens € preciso comecar para Qu no final possamos salvar 20. A respays dada no contexto da psicometria trad. cional positivista € a de que se deve gy. megar com, pelo menos, 0 triplo de iteng para se poder assegurar, no final, um te. Esta resposta se deve a0 modo ‘ta ou aterico de construir ing. trumentos psicolégicos. Nesse enfoque, 0s itens ndo sao construidos a partir de uma teoria; eles so coletados ou selecio- nados de uma tal pool of items que parece medir um dado construto e, em seguida, analisados estatisticamente para ver quais deles se salvam. Quer dizer, os itens sio aqui simplesmente chutados; eles sio se- lecionados simplesmente porque parecem medir o que quero medir. Dentro da técnica de construgio de instrumentos baseada na teoria dos tragos latentes que estamos expondo, para se salvar 20 itens no final de toda a elabo- racdo e validacéo do instrumento, ndo é necessério iniciar com mais do que 10% de itens além dos 20 requeridos no instr mento final. Isso porque os itens incluides Distrbuito percentua dos tens em cinco fahas de dcudad le. Scanned with CamScanner .astrumento piloto sao itens que pos- 10 insidade tebrca real, e ndo simples- suet que parecem te validade, m andtise teérica dos itens operacionalizado 0 construto por jatermédio dos itens, estou diante da hi- potese de que eles representam adequa- Famente o tal construto. Essa é a minha versio da hipétese a ser testada. Contu- to, é importante avaliar a minha hips- texe contra a opinifio de outros para me assegurar de que ela apresenta garantias de validade. Essa avaliacao ou andlise da hipétese (andlise dos itens) é obviamen- teainda tedrica porque consiste simples- mente em pedir outras opiniées sobre minha hipétese, sendo que os outros que avio avaliar ainda ndo séo uma amos- tra representativa da populacdo para a qual construf o instrumento. Essa andlise te6rica é feita por juizes e comporta dois tipos distintos deles, segundo a andlise incida sobre a compreensdo dos itens (andlise semAntica) ou sobre a pertinén- cia dos itens ao construto que represen- tam (propriamente chamada de andlise dos juizes), Assim, antes de partir para a validagao final do instrumento piloto, este & submetido a uma andlise tedrica dos itens por meio da andlise semantica e da andlise dos juizes. Andlise semantica dos itens vo pr. ttllse semantica tem como objeti- Precfpuo verificar se todos os itens so popes para todos os membros da qulacto a que o instrumento se destina. luas preocupagées sao relevantes: iL yee Trfcar: Se 0s itens so inteligiveis para éstrato mais baixo (de habilidade) da Populacéo meta e, por isso, a amostra Instrumentacso psicoldgica 181 Para essa andlise deve ser feita com esse estrato; para evitar deselegtincia na formula- Gio dos itens, a andlise semAntica deve- 14 ser feita também com uma amostra mais sofisticada (de maior habilidade) da populagéo meta (para garantir a chamada “validade aparente” do teste), Entende-se por estrato mais baixo aquele segmento da populagéo meta que apresenta menor nivel de habilidades, Assim, por exemplo, se meu teste se des- tina a uma populagdo que congrega su- jeitos do ensino fundamental até univer- sitdrios, obviamente o estrato mais baixo nesse contexto so os sujeitos do ensino fundamental, e o mais sofisticado serd representado pelos sujeitos de nivel uni- versitério, De qualquer forma, a dificul- dade na compreensdo dos itens n4o deve se constituir em fator complicador na res- posta dos individuos, uma vez.que nao se quer medir a compreensao deles (a nao ser, obviamente, que o teste queira medir precisamente isso), mas sim a magnitude do atributo a que os itens se referem. Que técnica se deve utilizar para fazer essa andlise? H4 varias maneiras eficientes para tal tarefa, como, por exemplo, apli- car o instrumento a uma amostra de uns 30 sujeitos da populago meta e em se- guida discutir com eles as diividas que os itens suscitarem. Entretanto, uma técnica que se tem mostrado das mais eficazes na avaliagio da compreensio dos itens con- ssiste em checé-los com pequenos grupos de sujeitos (trés ou quatro) em uma situa: gio de brainstorm. Essa técnica funciona da seguinte forma: constitui-se um grupo de até quatro sujeitos, iniciando com su- jeitos do estrato baixo da populacao meta, porque se supe que, se tal estrato com- preende os itens, a fortiori o estrato mals pofisticado também os compreenderd. A wresenta-se item por item, esse grupo ap! p oti, {que ele seja reproduzido pelos Scanned with CamScanner 182 Luiz Pasquali &cols. do membros do grupo. Se reproducie item nfo deixar nenhuma duvida, o item & corretamente compreendido. S¢ sire rem divergéncias na reprodugio do itelt ou se o pesquisador perceber que es sendo entendido diferentemente do que ele julga que deveria ser entendido, este item tem problemas. Dada essa situacdo, © pesquisador entio explica a0 grupo © que ele pretendia dizer com tal item. Nor- malmente, neste caso, os préprios sujei- tos do grupo irdo sugerir como se deveria formular o item para expressar 0 que 0 pesquisador queria dizer com ele; e af esté 0 item reformulado como deve ser. Quan- tos grupos so necessérios para proceder a essa anélise semantica? Bem, itens que nfo ofereceram qualquer dificuldade de ‘compreenso em uma ou no maximo duas sessdes nio necessitam de checagem ul- terior. Itens que continuam apresentando dificuldades apés, digamos, no méximo de cinco sessGes merecem ser simplesmente descartados. Em seguida a essas sessdes, € importante pelo menos uma sesso de checagem dos itens com um grupo de su- jeitos mais sofisticados. O objetivo desta liltima verificagio consiste em evitar que os itens se apresentem demasiadamente Primitivos para estes sujeitos e que assim percam a validade aparente. £ que os itens devem também dar a impressdo de serie. dade - como diz 0 ditado de que a mulher de César ndo somente deve set honesta, mas deve também parecer honesta regra ntimero 10 dos critérios de! (ky gio de itens.) COnsen, Andlise dos julzes Esta andlise és vezes, cham, andlise de contetido, mas Propriamece deve ser chamada de andlise de uma vez que precisamente procy, ficar a adequacao da representaci portamental do(s) atributo(s) laten Na andlise de contetido, os jue, devem ser peritos na 4rea do pois sua tarefa consiste em ajuizar s itens estao se referindo ou nao ao em questo. Uma tabela de dupla ene. da, com os itens arrolados na margen esquerda e os tracos no cabecalho, ser. ve para coletar a informacdo. Uma cor- cordancia de, pelo menos, 80% entre os juizes pode servir de critério de decisio sobre a pertinéncia do item ao trago aque teoricamente se refere. A técnica exige que sejam dadas ats juizes duas tabelas: uma com as defiai gGes constitutivas dos construtos/fators Para os quais se criaram os itens ¢ out tabela de dupla entrada com os fatores€ 0s itens, como no Quadro 8.1, em ques avaliados os itens que medem 0s dois tores (compreensiio verbal e fluéncia bal) de raciocinio verbal. Normalment® ira Scanned with CamScanner ja uma terceira tabela que elenca sects vez. que a tabela de dupla os tet geralmente no comporta a ex- completa do contetido dos itens. ‘Com base nessas tabelas, a fungao juszes consiste em colocar um X para o des epaixo do fator ao qual o juiz.julga iota se referit. Uma meia duizia de jutzes suficiente para realizar a tarefa. Itens we nfo atingirem uma concordancia de explo a0s fatores (cerca de 80%) ob- a mente apresentam problemas, e seria o {aso de descarté-los do instrumento pilo- to. [sso vale, contudo, se o construto para ‘o qual se estd construindo o teste apre- sentar fatores (particularmente quando forem em maior quantidade) que se su- péem ou se sabe que ndo so correlacio- rudos. Quando os fatores se supdem que sejam correlacionados, acontece que uma mesma tarefa (item) pode se referir, cer- tamente com niveis de saturagio diferen- te,mas de fato se referir simultaneamente a mais de um fator, o que implicaria que os juzes iriam mostrar alguma discordén- cia quanto & aplicagao do item a este ou Aquele fator, Nesse caso, a discordancia deve ser considerada como concordancia. Una outra solucdo seria instruir os juizes amarcar, para cada item, no o fator, mas aqueles fatores aos quais o item se refere. Entretanto, com tal dica, vocé abre campo Para muita divagac4o por parte dos juf- i tNoce perde a utilidade prética des- ® andlise. Seria melhor instruir os juizes Pata colocar, se possfvel, cada item sob um compet, © trabalho dos juizes ficam maatletados os procedimentos tedricos gh gotUsto do instrumento de medida, Ta doenporaram a explicitacio da teo- cone (8) construto(s) envolvido(s), bem a ee ¢laboracao do instrumento piloto Mental det @ representagdo comporta- Be comet Mesmos construtos e que se Tesada'e * hipétese a ser empiricamente (alidaggo do instrumento). Esta Instrumentacio psicolégica 183 tarefa serd iniciada com os Procedimentos que seguiréo, que consistem em coletar a informacdo empfrica valida e submeté-la as andlises estatisticas pertinentes em psi- cometria, como veremos. PROCEDIMENTOS EXPERIMENTAIS Os procedimentos envolvidos nesta etapa fazem apelo direto ao contetido da disciplina ensinada nas instituig6es uni- versitérias sob o nome de delineamento ou planejamento de pesquisa, cujo conhe- cimento é absolutamente necessério, uma vez. que garante a tecnologia da coleta va- lida da informagao empirica. Aqui serdo, por isso, explicitados apenas alguns pon- tos dessa tecnologia que tém mais a ver diretamente com o problema de elabora- 40 de instrumentos psicolégicos, mas 0 conhecimento aprofundado da citada dis- ciplina imprescindivel. Dois pasos s4o salientados nestes procedimentos empfricos na validagao do instrumento piloto: 0 planejamento da aplicagao e a propria coleta da informacao empirica, conforme detalha a Figura 8.6. Com referéncia ao planejamento da aplicagdo do instrumento piloto, dois [_—BPERIMENTAIS VANIOAGAO OO INSTRUMENTO eatery Sepa epertncia Paneer —¥ ¥ ne tae eemgiets —F) eae Fase Método Passo ‘Dados oats) Produto ‘igura 8.6 Piaeaments ‘empiticos na elaboracso de medida psicolégica. Scanned with CamScanner 184 LuizPasquall & cols ; jevantes: a pontos sio particularmente Peseonaa de definigho da amostra © di con api nme eat onstru(do para um certo tipo tpleamertsto. Est, consequentemente, de poptclaramente definida e delimita- da em termos de suas caracterfsticas @s- pecfficas. Assim, é necessério se determi- har para que faixa etdria o instrumento foi constru(do, para que nivel socioeco- ndmico, para que nivel de escolaridade, etc. Enfim, é preciso dizer qual € 0 tipo de individuo, em termos de caracteristi- cas biossociodemogréficas, que constitui a populagio meta do instrumento. E é dessa populagdo que saird a amostra de sujeitos para a testagem da qualidade psi- cométrica do instrumento de medida. Ob- viamente, aqui se deve recorrer & teoria e as técnicas de amostragem, ensinadas na disciplina de planejamento de pesquisa ou similar. Salientamos aqui apenas alguns as- pectos relevantes da amostra para 0 caso especifico de validagéo de instrumentos psicol6gicos. Como estamos elaborando um instrumento referente a construto, tipicamente a andlise estatistica a seguir utilizada para a andlise dos dados serd a andlise fatorial e as andlises multivariadas da TRI. Essas técnicas estat{sticas fazem algumas exigéncias importantes dos da- dos, especificamente que eles produzam suficiente variancia para que a andlise seja consistente. Essa afirmacao normalmente implica, pelo menos, que as amostras uti- 2 Fate grandes. Quanto grandes? luas dicas titeis para responder a essa pergunta. Primeiro, se eu estiver se. my = Scantog fatores o meu instrumen- mede (0 qu , ; opal i definido nalidade do objeto psicolégi trumento iria medir), que a amostra deve ¢o1 nt i 100 sujeitos por fator medido me de medido. Assim, se meu instrumento mede dois fay cessito de 200 sujeitos na minha gc? %. Estamos supondo aqui que a py meta seja homogenea em relagag 3 fatente que o instrumento mede, g¢ go varia dentro da populacio, nig," te em termos de magnitude, o que ¢ 4. esperar, mas em termos de estrutuyss 6, ele se torna de fato um trago peice camente diferente para diferentes es da mesma populado, entdo estan Jando no mais de um traco latent, mg, de dois ou mais, Nesse caso, estamos a. sumindo que instrumentos diferentes , necessdrios para avaliar tracos diferente, Mas se 0 traco se mantém qualitativamen te (em termos de sua estrutura conceitua, de sistema) 0 mesmo na populacko, eno essa populagao é homogénea. Um exen- plo: um teste de inteligéncia para adulns no inclui criangas na sua populaczo, pois a inteligéncia da crianga é qualitative mente diferente da dos adultos, segundo teorias (Piaget, Spearman, etc.) e dacos empiricos. Assim, a amostra para vali- dacdo de um teste de inteligéncia par adultos deve ser selecionado de uma p> pulacdo de adultos exclusivamente, au nesse sentido, se torna uma po homogénea. Segunda dica: se houver divides sérias quanto ao ntimero de dim ou fatores que o instrumento mede, tuma-se dizer que so necessérios Pi amostra 10 sujeitos para cada item instrumento, Assim, um instrument 100 itens demandaria 1.000 sujeitos- equivaleria a supor que o instrumen® tivesse medindo cerca de 10 fatores modo de pensar estd mais ligado #05. ma Positivista de construir instrume™ i em que os itens nao séo construldes ", teoria e sim “pescados” aleatoriam*t em seguida analisados via edi tial para ver quantos fatores est ™ e De qualquer forma, é uma dieO 9p | quando ha diividas com res?" Scanned with CamScanner ro de fatores: Geralmente, entre 5 aie gos por item do instrumento se- © suficientes para responder & questiio rio sufi, da amostra, com a ressalva do tamtualquer andlise fatorial e da TRI deque Mes de 200 sujeitos dificilmente podeser considerada adequada. ‘quanto as instrupdes: estas se refe- em gos comtornos da tarefa do sujeito vai responder ao instrumento. Aqui sio definidas @ sistematica de aplicagao $F psrrumento, 0 formato em que ele se apresenta €.0 que 0 sujeito tem que fazer prespondé-lo. No tocante & sistemdtica, seri definidas as condigdes de aplicacio: se serd coletiva ou individual; se sera pre- {iso ou néo aviso prévio aos testandos; sao necessérios contatos prévios com diretores, thefes dos sujeitos, etc. Enfim, devo saber em que estou “me metendo” e quais so 1s dificuldades que vou encontrar ao que- reraplicar 0 instrumento em uma amostra definida de sujeitos, pois eles normalmen- te nio esto gratuitamente disponiveis as ninhas necessidades de pesquisador. Por isso, tenho que elaborar uma estratégia de convencimento, para os responsdveis dos sujeitos que entrardo na amostra, e uma cstratégia operacional para poder viabili- zara aplicacio do instrumento. No referente ao formato do instru- mento, deve-se decidir como a resposta do sujeito serd dada para cada item. Aqui cite uma infinidade de formatos posst- veis, como, por exemplo, o da escolha for- sada, em que dois itens s4o apresentados simultaneamente, sendo a tarefa do sujei- toescolher um deles como mais apropria- do, mais tipico, ou mais 0 que seja, bas- es comuns em testes de personalidade cme ainda em testes de interesse; 0 das reps alternativas, mais comuns em is de aptiddo, em que o sujito deve lher a alternativa correta; 0 das esca~ wie Likert, em que a cada item segue gaa sala de pontos (de 2 a mais de 10) exprimem a intensidade de acordo do Instrumentagéo psicolgica 185 sujeito com o que o item est afirmando. Este tiltimo formato ¢ o mais utilizado no caso de testes de personalidade e escalas de atitudes, Todos esses e outros formatos apresentam vantagens e desvantagens, Por exemplo, o caso da escolha forcada, em testes de atitudes e personalidade, pa- rece ser a maneira mais fécil de respon- der, pois o sujeito tem melhores condigdes de escolher entre duas alternativas do que dar uma resposta absoluta, como é 0 caso nas escalas de Likert. Contudo, dois pro- blemas graves existem com este formato de escolha forgada: primeiro, se vocé vai comparar os itens do instrumento dois a dois, o instrumento se torna muito rapida- mente de um comprimento incontrolavel. Por exemplo, um teste com apenas 10 itens terd n(n-1)/n questées, isto é, 45 questées, e um de 100 itens terd 4.950! Além dessa dificuldade, existe o problema da chamada desejabilidade social, a saber, os dois itens que esto sendo comparados devem pos- suir mais ou menos o mesmo nivel de atra- tividade, do contrério a propria questo ja estd dando a resposta ao sujeito se um dos itens da questo é socialmente desejavel ‘0. outro indesejvel, como, por exemplo, escolher entre “A — sou uma pessoa simpa- tica” e “B- sou uma pessoa fraca”. Nesse caso, a maioria das pessoas iria escolher a alternativa A. Certo? ‘No caso do formato de muitipla esco- tha, existem os problemas do niimero de alternativas e da qualidade das alternati- vas. Primeiramente, como se trata de res- postas certas e erradas, apenas uma das alternativas serd a correta. Mas, quando ‘9 sujeito néo sabe a resposta correta, ele tem a chance de “chutar” e acertar por acaso; e isso é um problema, que € tan- to mais grave quanto menor for o nime- ro de alternativas. Por exemplo, em um item com duas alternativas, o sujeito tem a chance de acertar por acaso em 50% das ‘yezes, ao passo que em_um item com cin- co alternativas essa chance cai para 20%, Scanned with CamScanner 186 LuizPasquall cols. se tr mas ainda nfo é zero. Entéo, ee mae a yo acer ear lr tims Petada is, vor tora o teste cada i] de construis, porque nfo fl over alerts, ume vez que elas devem de fato se apresentat como alternativas plausivels e atrativas (¢ este é 0 segundo problema), isto é, elas devem ter alguma aparéncia de serem respostas corretas, do contrério no sio alternativas. Assim se vocé constr6i 0 se- guinte item: A camada mais externa da pele se chama: a) epiderme b) paquiderme ©) dermatologia 4) epidemia é claro que b, ¢, d nao constituem alterna- tivas plausiveis ou sérias, Quanto as escalas tipo Likert, per- Sunta-se frequentemente qual é 0 mimero ideal de pontos que a escala de resposta deve ter € qual o formato ideal da escala, Com respeito ao formato das esca- Vejamos; Esses € outros tipos de format, recem tet maior impacto sobre a "ny do sult, de sorte que o formato depende mais do gosto pessoal gay sador do que qualquer outra razgg PN. Pessoalmente acho que quanto Mai escala, melhor, e a escala numérieg eee fica me parece muito pesada; mag faye nido é téo boa quanto a minha, “*% Quanto ao numero de 7 malmente as afirmacdes ou iene pondidos em uma escala de 3 oy pontos, isto é, 0 sujeito tem que dna’ concorda, estd em diivida ou discord que a frase afirma sobre o objeto pic. logico. O nimero de pontos na eseda resposta varia de 3 a mais de 10, senig as mais utilizadas as escalas de 5 ¢ 7 pon, tos. O ntimero de pontos utilizados na escalas Likert parece, novamente, ser al inrelevante. Na pesquisa de Matell e Jan. by (1972), foram utilizadas escalas con 2até 19 pontos. Com excecao das escalas de 2 € 3 pontos (por oferecerem pouces Sraus de liberdade), em todas as outrasa Porcentagem de uso dos Pontos e o tempo de resposta nao foram afetados de moto Significativo, Outros estudos j4 haviam descoberto que o niimero de pontos é escala ea existéncia ou nao de um porto Reutro nao afetam a consisténcia interma da escala Likert (Bendig, 1954; Komori 1963; Matell e Jacoby, 1971), nem ae bilidade teste-reteste (Jones, 1968; vind 5 Howard e Austria, 1970; Goldsal Scanned with CamScanner tell e Jacoby, 1971) e nem a va- sg corte e preditiva (Matell e 51972). saeaby eT que acompanham o sgiramento rem a funcdo unica de tomar fa do respondente inamb{gua, Con- aremente, elas devem poder deixar Se amente claro 0 que o sujeito tem re fazer para responder corretamente 0 ae, por iso, elas devem ser avaliadas tewsnilise seméntica, Algumas precau- ges: as instrugdes devem informar em termos gerais sobre que €0 teste; devem seras mais curtas possiveis, sem sacrificar sg compreensio da tarefa por parte de to- toss sujeitos da populacdo meta; devem, tpicamente, conter um ou mais exemplos de como os itens devem ser respondidos; devem pér 0 sujeito em um estado psico- ligico live de tensdo e ansiedade. Finalmente, no que se refere & pré- pria coleta da informacdo (passo 8), devem-se seguir todas as precaucdes exi- gidas em qualquer aplicagdo de instru- mentos psicolégicos, a saber, os sujeitos devem ser postos em um ambiente con- dizente e livre de distracdes e de tensio, Instrumentacéo psicolégica 187 © aplicador deve ser competente para a tarefa, etc. PROCEDIMENTOS ANALITICOS Esta parte da elaboracio de instru- mentos psicolégicos (ver Figura 8.7) & aquela que mais atemoriza os psicdlogos, dada a sua sofisticagdo estatistica. Ela comporta igualmente a parte mais volu- mosa de qualquer livro sobre psicometria. Entretanto, o conhecimento da estatistica e da psicometria nao so aqui substitufveis. Felizmente, o psicélogo pode apelar neste particular para a ajuda de estatisticos ou de psicometristas. A sofisticagao nesta érea 6 tdo grande que nao é possivel ser exposta neste capftulo. Para tanto, siio recomenda- das as obras que em seguida serdo citadas, sendo a exposigéo de contetido neste capi- tulo apenas exemplificativa. ‘Algumas obras bésicas de andlise psicométrica Anastasi, A. (1988). Peychological testing (6th ed). New York: Macmillan. ‘ANALITICOS foe" VALIDAGAO DO INSTRUMENTO. NORMATIZAGAO M Indlse ‘nize pica Conaisténds = et Fatorial dos itens (ICC) Interna, caposemene ¥ t ¥ ¥ P Dimensio- lise cistodo |__|, Estabeleciment| sso) “naidade, J —}10) dostens instrument | —>}2}de Wormas Fatores Difculdade cee mal Produte | etgfeto Decne nae de cer Comunidade Figura, 7 Proce "™entos analitcos na elaboragéo da medida psicolégica. Scanned with CamScanner 188 LuizPosquall cols. ological test Cronbach LJ. (1990). Eventi ff {5th ed). New York: Harper & Rove se, apr. Thy fee us rfbaum. ke (1968). tan 5 te duwer Njhotl . Hambleton, R.K, Swaminathan, H. & Roe Fundamentals of rem response theo " sage. aN. (bs) (1990) Advances Hambleton, R.K., & Zaah Cee O rheory and oP ‘chicago Press. '& Parsons, C.K. (1983). Item measure: TL Universit of olin, CL, Drasgow, F, Response Theory: Applicaront to pchologial tment. Homewood, I: Dow Jones iin. ord, EM. (1980). Applctions of tem Response TheOTY to practical esting problems Hillsdale, NJ: Erlbaum. Muniz, J. (1990). Teorfa de respuesta a los (tems. Ma ‘rd: Pidmide. Muti, 4. (1992). Tera ldsica de le tests. Madrid: Pirmide. Matiz 3 (1996. Prcomert, Madrid: Universitas. Nunnally, .., Je (1978). Pychometric theory. New York: MeGrawil. Pasquali L. 2009), Picomeria: Teoria dos tse na pt- ‘logia ena educago (3 ed). Rio de Janeiro, RU: Vozes. Pasquali L (2007). TRI— Teoria de spas ao item: Teo- Fa, procedimentos¢aplicayet. Brass, DF: LabPAM. Santisteban, C. (1990), Picometrfa. Madrid: Norma, ‘Thorndike, RLL. (1982). Applied psychometrics. Boston: Hougton Mit. Yela, M. (1987), Introduecin a la tora de los tests. Madrid: Facultad de Psicologia, Universidad Complu- Algumas anotagées sobre os procedimentos analiticos Adimensionalidade do instrumento (validade) As analises estatisticas que se fazer de um instrumento psicolégico, no seu todo e em cada item individual, fazem a suposigdo de que o instrumento seja uni. dimensional. Isso implica que todos ng itens do instrumento estejam fatally tum eo mesmo construto. Dessa forma, a? tando o instrumento medindo mais de uns fator, a8 andlises estatisticas ¢, feitas independentemente para caqa feta inilalmente ainda nao se gy o instrumento que acaba de ser consint do e aplicado é ou nao Lunidimensiony ‘a primeira andlise que se impée Sobre diados emptricos coletados 6 a verigs? dda unidimensionalidade. ‘Tipicamene necessita-se proceder a uma andlise 4 forial para definir a dimensionalidade¢, instrumento. Essa andlise vai deterny quantos fatores 0 instrumento etd de fy medindo. Essa exigéncia pode parecer un tanto frustrante, ma vez que, se 0 ing, trumento foi construfdo para medir um fator somente, por exemplo, entlo ndo ge pode supor que esteja medindo soment este fator para o qual foi construido en primeiro lugar? E bom lembrar aqui queo instrumento constitui uma hipétese; mas, agora estamos verificando essa hipétese empiricamente, entio € necessdrio se de- monstrar, e ndo somente supor, que o ins trumento de fato mede um tinico fator ou quantos e quais fatores ele est4 medindo. Allids, essa andlise fatorial constitui a de monstracio da prépria validade do instr mento e representa igualmente a andlise preliminar dos préprios itens. Aandlise fatorial (ver Pasquali, 2009) produz resultados importantes com os quais se pode tomar decisdes sobre 4 qu lidade dos itens, bem como do instrume- to no seu todo, Na verdade, ela mostra? que o instrumento estd medindo, isto fatores, bem como os itens que com | cada fator. Ela produz, para cada item? — carga fatorial (saturagéo) deste no fh e esta carga fatorial indica a covariem entre o fator eo item. Isso quer dizer Be a carga fatorial mostra a porcentage™ existe de parentesco (covariéncia) item e 0 fator, de forma que quant? préximo de 100% de covariancia Het fator, melhor ser o item, pois oe 5s Se constitui em um excelente repre ie te comportamental do fator (do "=? y Scanned with CamScanner qual é 0 montante de covariancia mre o item. 0 fator necessério para se Gper que o tem & um Dom representan- “este? As cargas fatoriais so expressas te jarmente aos indices de correlagio e, sonanto,podemir de1,00a +1,00, Uma Wiiga de 0,00 significa que ndo ha relagio a entre 0 item € 0 fator; nesse caso, ‘item seria uma representagao compor- tamental totalmente equivocada do fator. Entao, que nivel de magnitude de carga 0 jtem deve apresentar para ser um bom re- wesentante do fator? Costuma-se apontar 5 valor 0,30 (positivo ou negativo) como sendo uma carga minima necessdria para o item ser um representante titil do fator. Obviamente, quanto maior de 0,30 for a carga, melhor o item. Uma carga de 0,30 indica que hd uma covariancia de cerca de 10% (0,30? = 0,09) entre o item e 0 fator, 0 que j4 pode ser considerado nao negligivel, embora nao seja 14 grande coisa, Obviamente, se todos os itens de um fator apresentam cargas fatoriais em tomo de 0,30, este fator esta muito mal representado, porque se esperam cargas bem maiores (acima de 0,50) para se di- er que o fator foi bem representado com- portamentalmente. Vocé vé, ento, que as cargas fatoriais falam tanto da qualidade de cada item como do conjunto deles, isto § do préprio fator. Assim, se vocé cons- tmuiu 25 itens para representar 0 trago latente e, destes 25 itens, 20 apresentam ‘argas acima de 0,50 e 5 apresentam car- 825 em torno de 0,30, vocé ird eliminar &stes tltimos 5 itens e trabalhar somente com os 20 que apresentaram cargas fato- Tiais respeitdveis, Veja o exemplo (ficticio) daTabela 8.1. ATabela 8.1 exemplifica uma tipica Matriz fatorial com as informagées essen- Cais sobre os itens e os fatores. Nela se vé ‘We, dos 20 itens, 9 (com cargas fatoriais £m negrito) representam o fator 1, pois Possuem cargas fatoriais altas neste fator Praticamente cargas nulas no fator 2; a0 tente)- Instrumentagéo psicolégica 189 contrério, os 10 titimos itens possuem car- gas fortes no fator 2 e quase nada no fator 1, 0 item 10 nao possui carga expressiva em nenhum dos dois fatores e ser, por isso, descartado do teste, Observe que as cargas fatorials podem ser tanto positivas quanto negativas e, assim mesmo, perten- cerem ao mesmo fator, contanto que elas sejam altas. f que o fato de elas serem po- sitivas e negativas no mesmo fator apenas indicam que um item est4 expressando 0 pélo positivo e o outro o pélo negative do fator. Por exemplo, os itens “gosto de meus pais” e “detesto meus pais”, ambos se referem a questo da filiagdo, apenas 0 primeiro item expressa o pélo positive da filiagdo e 0 segundo, o pélo negativo. Assim, o teste mede dois fatores, um com 9 itens e 0 outro com 10, mostrando- -se um item (0 ntimero 10) uma represen- taco equivocada tanto do fator 1 quanto do fator 2. Os dois fatores explicam 47,73% TABELA 8.1 Matriz fatorial de 20 itens em dois fatores aaa fl 0,80 O10 (065 2 078 005 061 3 078 020065 4 0,70 01s ost 5 0,65 008 043 6 0,64 012 oz 7 1064 = 010042 8 0,60 003036 9 060-023 OA 10 0.25 019 a0 " 030-083 078 2 021 083068 3 004-078 061 4 016-070-052 15 012070050 16 009 066 (O44 7 000-065 (O42 18 012-063 19 0.03 056 031 20 021 0,500.29 Autovalor 4614 «4932 Var total «23,07, 2466 %bVar.comum 4833, 51,67 Sra meh arte Scanned with CamScanner 190 LuizPasqualléecols: iancia total do = 23,07 + 24,66) da variancia tov 1? fe ee orestante da varidncia irrele- m0 ante ao conteido que o testemede (OF? liaridades espec eros de medida e peculiaridtts nae cas dos itens). © hi repress os dois lidede que cada item possul com OF © fatores e mostra a covaridncia de item Ct os fatores , por conseguinte, 0 tanto q¥® © item tem a ver com os fatores. Assim, P e o item 1, o h? & 0,65, isto é, este item Pos suj 659% de covaridincia (parentesco) com 08 dois fatores, sendo 0,64% (0,807) com 0 fator 1 e apenas 1% (0,10) com o fator disso se deduz que o item 1 é uma excelen- te representacio comportamental do fator Te nada do fator 2. Nesta questo da validade do instru- mento, outras técnicas so utilizadas além da andlise fatorial, tais como a técnica da validagio convergente-discriminante (Camp- bell e Fiske, 1967); a utilizagio da idade como critério para a validacao de construto de um teste quando este mede tragos que so intrinsecamente dependentes de mudangas no desenvolvimento cognitivo/afetivo dos individuos, como é 0 caso, por exemplo, na teoria piagetiana do desenvolvimento dos rocessos cognitivos e da teoria de Spear- man sobre a inteligéncia; a correlagtio com outros testes que mecam o mesmo traco do meu novo instrumento € 0 uso da interven 40 experimental (ver Pasquali, 2009). Aandlise empirica dos itens devem apresentar di d lentro instrumento, além de serem 12 Presentantes do tracolatente e2 teristicas dos itens devem sor ma as intro de cada fator (0S 9 itens ob nosso exemplo, € 0s 10 no fa f fy, normalmente s¢ reduzem a duas; a dit dade e a discriminagao. A ificuldad item diz respeito & magnitude do aq, tente que 0 sujeito deve possuir porn acertar (testes de aptidao) ou aceiigr tes de personalidade) o item. Assim n* to maior for a magnitude do trago i exigida para acertar ou aceitar 0 i ‘ dificil este ¢ dito ser. A discrimi item diz respeito ao fato de ele Poder digg renciar sujeitos que possuem magnitude, diferentes do mesmo trago latente, juanto mais proximas forem as magni des do trago que o item puder diferencia, mais discriminativo ele ser4, A psicometria tradicional faz andi. ses estatisticas para determinar esses dois parametros psicométricos dos itens de uma forma que pode ser hoje considerada inferior diante dos avangos da psicome- tria mais moderna da TRI. A TRI into duziu técnicas nesta drea da andlise dos itens que, embora complicadas, devem ser as utilizadas neste passo da elabore 40 de qualquer instrumento psicolégion (ver Hambleton, Swaminathan e Roges, 1991; Muitiz, 1990; Pasquali, 2007). Ua exemplo ajudaré a entender esses prove dimentos (ver Figura 8.6). Primeiramente, deve-se atentat # Que existem varios modelos matemétios envolvidos na TRI. Na verdade, hé deles principais, dependendo do mine To de parametros que pretendem @ o dos itens. Os parametros em questé0 a dificuldade, a discriminacao € @ ta aleatéria (ou melhor, a resposta C0! dada ao acaso). Assim, temos os mode logisticos de um, dois ou trés ‘cont ite Todos os modelos trabalham ©, ‘SOS latentes, isto é, teorizam 0 os estruturas latentes. Entendem 0 ne Phicolégicos latentes como posstind? tog 08S: isto 6, propriedades de der, *S magnitudes ou mensurdveis. Pot Scanned with CamScanner ta teoria também € conhecida como a ia do trago latente ou a teoria da cur- va caracteristica do item ou item charac- sie curve ~ ICC, pelo fato de produzir cada item uma ogiva ‘caracteristica Jae. A teoria supe que 0 sujeito possul im certo nivel de magnitude do traco la- tente, designado por teta (0), que é deter- mninado mediante a andlise das respostas dos sujeitos, fazendo uso de diversas fun- ges matemdticas. A funcio do modelo fompleto de trés pardmetros é: oy __ePil@-b) ROG + (1-3) A probabilidade de resposta corre- ta, que define a posigo (8) do individuo no trago medido, é fungo de trés para- metros: “a” corresponde ao indice de dis- criminaco do item e é determinado pela inclinagao da curva no ponto de inflexao; “” € 0 pardmetro da dificuldade/pre- feréncia e é expresso pelo valor no eixo dos X no ponto de inflexdo da curva; “c” 60 parametro que determina as respostas acertadas por acaso, sendo o D uma cons- tante usualmente com valor 1.7. Os trés modelos de TRI mais conhe- cidos sao os seguintes: 1, 0 modelo logistico de um parametro ou 0 modelo Rasch (1966). Rasch faz a suposigao de que os itens possuem © mesmo nfvel de discriminagao e que Rio hd respostas dadas ao acaso, fican- do como parametro a ser avaliado so- mente a dificuldade dos itens. O modelo logistico de dois parametros @imbaum, 1968); que avalia a dificul- dade e a discriminacao dos itens, assu- mindo que nao haja respostas dadas a0 acaso, 0 modelo de trés parametros de Lord (1980) em que os trés parametros dos itens so avaliados. Instrumentag’o psicolégica 191 Exemplificando com 0 modelo de Lord: Os valores 0 siio expressos em coor- denadas cartesianas, tendo na ordenada a probabilidade de resposta correta, isto 6 0 P\(O), e na abscissa o trago latente, © préprio 0. Este procedimento produz, para cada item, uma ogiva, chamada de CCI como na Figura 8.8, Na ilustragdo da Figura 8.8, os trés Pardmetros aparecem nas seguintes posi- Ges: o “a” é representado pela inclinacao da curva na altura do ponto de inflexio, isto é, onde a curva corta a linha que re- presenta a probabilidade 0,50 de resposta correta (50%); quanto mais ingreme essa curvatura, isto é, quanto mais préxima de um Angulo de incidéncia de 90°, mais dis- criminativo é 0 item. O “b” é representado pela distancia na linha dos X (abscissa), que corresponde ao ponto determinado pela perpendicular que vem do ponto de inflexao da curva. O “c” é definido pela assintota inferior da curva; quando essa assintota no atinge a abscissa ha respos- tas dadas ao acaso, e o tamanho dessas respostas é definido pela distancia que vai do ponto 0 na abscissa até o ponto onde a ogiva corta a ordenada; por exemplo, 0 item 2 tem cerca de 20% de resposta ao acaso. Vé-se também nesta Figura 8.8 que © item 3 é mais discriminativo do que os outros itens; igualmente, que os trés itens possuem diferentes niveis de dificuldade, sendo 0 item 3 0 mais dificil deles, Os da- dos oferecidos pela TRI sao algebricamen- te expressos em uma tabela como a que segue (onde aparecem os dados dos trés itens do exemplo da Figura 8.8): ‘Nivel ideal de dificuldade dos itens, Pode-se perguntar, ainda, se existe um Scanned with CamScanner 192 Luiz Pasquall &cols Figura 8.8 CCI para trés tens, nivel ideal de dificuldade para os itens de uma escala ou teste. Essa pergunta esté relacionada com os critérios 11 e 12 (amplitude e equilfbrio dos itens no ins- trumento) das regras de construgo dos itens. A resposta a essa indagagio depen- de da finalidade do teste, Caso se deseje uum teste para selecionar os melhores ou Para determinar se um determinado pata- mar de conhecimento foi atingido (como os testes educacionais de referéncin a critério), entio os itens devem todos apresentar 0 nivel de dificuldade do pa. amar que se quer como critério de ele. 40 ou acima dele. Assim, se a intenc&o {or de selecionar somente 0s 30% melfer existe o interesse ¢, entre sujeitos de al interesse itens que a se iPenas sem sujeitos de menor aptidae Se, entretanto, o interesse conse em avaliar a magnitude diferencial dost Gos nos sujeitos de uma populacio, com geralmente é 0 caso em testes referents @ construto, entéo uma distribuigéo mas equilibrada dos itens em termos de di culdade é requerida. Em casos como &* © interesse se centra sobre o poder de ut teste em discriminar diferentes nives habilidades nos sujeitos e, por one te, os itens devem poder avaliar es ue possuem pouca quanto muita hal dade. Entretanto, é bom saber que Pes ace que todos os sujeitos acertam ou cis) ¢ itens que ninguém acerta ou nio ace s sdo itens intiteis para fins de di re individuos; de fato, tais itens né0 br Tenhuma informagéio, Os itens que Maior informaco sao aqueles cul? 50 de dificuldade se situa em tomo 4 'St0 6 no valor 0 da escala dos si8*5 oy Reste caso 50% dos sujeitos acer oo 1, Tesultando 50x50 = fe ire Paracdes posstveis, ao passo Ve ee ™m dificuldade de 30% teria 70% Scanned with CamScanner s, resultando em um nfvel 30" se ae00 bits de informacio, Ob- 37) in item com dificuldade 100% * duzird zero informacdio. Deve-se ae que todos os itens de um tes. colt dat pculdade de 50%? Embora cer dos itens deva apresentar tal git aifculdade, nem todos o deve- oe fs que assim se poderia discriminar ss Pjisniveis da magnitude do trago o, dado que itens com o mesmo ni- se dficuldade terdo altas intercorrela- ois determinadas pela circunstancia de a serdo os mesmos sujeitos que sempre grram ou sempre erram 0s itens todos. ho wae dizer que a dificuldade média ai itens do teste deve ser em tomo de p 7080, Haveria, ento, uma distribuiggo suis adequada dos itens de um teste em tsmos de difculdade? Considerando que cesdevem cobrir toda a extensto de mag- siudedo taco e que os itens de dificuldade St so os que produzem maior informa- (i, podese sugerir que uma distribuicso ais ou menos dentro de uma curva nor- nal sti o ideal, Assim, se considerarmos amplitude de um atributo ou trago em tna exala de 100 pontos, podemos divi- a em cinco nfveis de magnitudes: 0 a Instrumentacgo Psicolégica 193 20 (sigma s -1,28), 99 i “1,28 6-052), ‘ons 40 (sigma entre 60 +0,52), 60.080 (sigme en Oszo42m © 80a 100 (sigma = 1,28), distribuindo os {tens assim: 10% deles em cada uma das duas faixas extremas, 20% em cada uma das duas faixas seguintes e 40% na faixa média (ver Figura 8.9), +4) E884 discuss sobre a dificuldade ideal dos itens faz mais sentido dentro da teoria classica dos testes, A ‘TRI tem maneiras bem mais condizentes e apro- Priadas para fazer essa andlise por meio do uso do indice de informacao do item € do teste. Trabalhar com este tiltimo {n- dice é bem mais complexo, mas existem softwares apropriados em abundancia no mercado para auxiliar nessa tarefa. Ade- mais, para poder fazer uso inteligente de tal procedimento necessério um conhe- cimento razodvel da TRI. Por isso, o leitor deve se aprofundar no estudo de algum dos livros citados sobre a TRI. Fidedignidade do instrumento © problema que se enquadra sob 0 conceito de fidedignidade vem relatado Percentual dos itens em cinco faixas de dificuldade. Scanned with CamScanner 194 LuizPasquall & cols. ses, como b uma série de outras expres precsto, fidedignidade, conse sisténcia interna, confiabi Se A ‘ a, homogenel a onary ao, mal liza 80 Beapressbes precisho e fidedignidade. sas diferentes expresses mostra a variabilidade de conceitos que Prec sio assume, dependendo do aspecto que esse parimetro quer salientar do teste. Na verdade, fidedignidade cobre aspectos diferentes de um teste, mas todos eles se referem a quanto os escores de um sujeito se mantém idénticos em ocasides diferen- tes; por exemplo, os escores obtidos num tempo 1 € num tempo 2 para os mesmos sujeitos. Essa ocorréncia (identidade dos escores) evidentemente supde que 0 trago que 0 teste mede se mantenha constan- te sobre essas diferentes ocasides, como & suposto ser 0 caso, por exemplo, na maioria dos tragos de personalidade € de aptidao. Nao seria o caso em um teste de humor, porque ele traco por natureza varia de um momento para outro, e um teste vilido de humor produziria escores necessariamente diferentes em ocasides diferentes. Assim, 0 conceito de fidedig- nidade, na verdade, se refere ao quanto © escore obtido no teste se aproxima do escore verdadeiro do sujeito em um traco qualquer; isto &, a fidedignidade de um teste estd intimamente ligada ao concei- to da varidncia erro, sendo este definido como a variabilidade nos escores produ- zida por fatores estranhos 20 construto que 0 teste mede. Aparece, assim, claro que a fidedignidade de um teste depend da questéo do erro da medida, especift camente do erro produzido pelo prose, Guests pnp Eel a pelo teste se distancia do escore verdader ro do sujeito no trago em questi, ine valor 0 individual na TRE S68 Para melhc nau pn ee be verdadeira e. iAnciz cia A varidncia erro. Um procedi medida qualquer, por exemplo, os escores em Um teste, produz uma y," riabilidade nos resultados que, em é provocada pelas diferencas RO préprig trago medido entre diferentes Sujeitos, em parte pela imprecisio do préprio ins. trumento e em parte, ainda, por uma série de outros fatores aleatérios. A fidedignj. dade da medida depende do tamanho da varidncia erro, que € precisamente a varia. bilidade nos resultados provocada por es. ses fatores aleatorios e pela imprecisio do instrumento. Expressa mais positivamen. te, a fidedignidade de um instrumento diz respeito a0 montante de varidncia verda- deira que ele produz vis-a-vis a varién- cia erro, isto é, quanto maior a varidncia verdadeira e menor a variancia erro, mais fidedigno o instrumento: um escore pre- ciso é um escore que se aproxima do va- lor verdadeiro, expresso estatisticamente pelo erro padrdo da medida (tratado mais adiante). A definigao estatistica da fidedig- nidade ¢ feita mediante a correlagdo en- tre escores de duas situagdes produzidos pelo mesmo teste. Se o teste é preciso, essa correlacao deve ser nao somente sig nificativa, mas se aproximar da unidade (cerca de 0,90). De fato, uma correlagao de 0,70, por exemplo, expressaria um comunalidade de apenas 49% entre a duas situages provocadas pelo mesmo oa Nos mesmos sujeitos. Nesse caso, 2 variancia comum, digamos a variéncia Verdadeira, seria menor que a variéncit erro, demonstrando que o teste nao pro duz resultados fidedignos, isto é, 0 tes” n&O possui precistio. Essa correlacéo, #° nea 2. Parametro de fidedignidade @ tsd0, € referida como o coeficiente Precisio ou de fidedignidade. Dependendo da técnica utilizad® Fee da precisio de um test irios tipos de preciséo: tes" eEste, fo eit intent’? f0rmas paralelas, consist Scanned with CamScanner [precisto teste-reteste consiste em cal. ara correlacto entre as distribuicBes deescores obtidos em um mesmo teste os mesmos sujeitos em duas oca- Ries diferentes de tempo. A correlacio de 1,00 seria obtida se nfo houvesse yaridincia erro provocada pelo teste ou outros fatores aleatérios, como fatores nio controlados nos sujeitos ou na si- tuagéo de testagem. Quanto mais lon- goo perfodo de tempo entre a primei- raea segunda testagem, mais chances haverd de fatores aleatérios ocorrerem, diminuindo 0 coeficiente de precisa Esse intervalo de tempo permite a aco dos fatores mencionados por Campbell e Stanley (1963) sob o tema de fontes de erro devido a histéria, A maturaco, a retestagem e As interacdes entre es- ses fatores, bem como ao préprio ins- trumento. Por isso, veem-se as graves dificuldades que apresenta esse tipo de andlise da fidedignidade de um teste; particularmente grave aparece aqui a questéo da maturagio, isto é, se o proprio trago matura (se desen- volve, modifica), essa andlise da pre- ciséo tora-se errdnea, dada sobretudo a eventualidade de que a maturagio do trago se processe diferencialmen- te para os diversos sujeitos testados. Além disso, e particularmente em tes- tes de aptidao, a testagem constitui um tteinamento, e provavelmente diferen- Gal, para os sujeitos, o que provocaré diferencas na retestagem entre eles, Teduzindo novamente 0 coeficiente de Precisdo do teste. Para contornar essas dificuldades, outros tipos de andlises foram elaborados, como a das formas altemativas ou andlise da consisténcia interna. 2. Na preciso de formas alternativas, os Sujeitos respondem a duas formas pa- Talelas do mesmo teste, e a correlagéo entre as duas distribuigbes de escores Constitui 0 coeficiente de preciso do Instrumentacso psicolégka 195 teste. A condicéo necesséria para que essa andlise seja valida se situa na de- ‘monstragio de que as amostras de con- tetido (de itens) em ambas as formas Sejam equivalentes, isto é, que os itens Possuam nfveis equivalentes de dificul- dade e de discriminacao em ambas. Es- Ses pardmetros podem ser facilmente verificados por meio da TRI. H4, contu- do, algumas dificuldades neste tipo de andlise da preciso: as duas formas so aplicadas em sucesso imediata, néo eliminando assim totalmente 0 efeito do intervalo de tempo, resultando na possivel introdugio de efeitos da his- téria e do treinamento (pratica) obtido a0 responder A primeira das formas al- ternativas; aparece facilmente um efei- to repetitério, uma vez. que os itens de ambas as formas so similares, produ- indo efeitos motivacionais negativos no respondente. Além disso, nao é ta- refa fécil construir formas alternativas, quando a construgio de um sé teste jé € uma tarefa dispendiosa, razio pela qual poucos testes aparecem no mer- cado com formas alternativas. 3. A precisio da consisténcia interna é viabilizada por intermédio de varias técnicas estatisticas que visam verificar a homogeneidade da amostra de itens do teste, ou seja, a consisténcia inter- na do teste. As técnicas mais utilizadas sio duas metades, Kuder-Richardson e alfa de Cronbach. Todas elas exigem aplicacéo do teste em uma tinica oca- sido, evitando totalmente a questio da consténcia temporal. No caso da, preciso das duas me- tades, os sujeitos respondem a um tinico teste em uma tinica ocasido. O teste é dividido em duas partes equivalentes a correlacdo é calculada entre os escores obtidos nas duas metades. Nao é impor- tante como o teste é dividido em duas me- tades, desde que estas sejam equivalentes. Scanned with CamScanner 196 LuizPesquall& cols. mais Na prdtica, contudo, as duas formas pormalmente utilizadas s4o a divisio do ta rimeira metade e segunda mel deou edt {tens fmpares. Para de ou em itens pares € efetuar essa andlise da precisfo, de fato 2 teste nfo precisa ser homogéneo, Isto ¢, fo qual todos os itens medem o mesmo trago (por exemplo, itens somente verbais ou numéricos); 0 que é fundamental é que as duas metades emparelhem itens homo- géneos: verbal com verbal, numérico com numérico, ete. ‘Neste tipo de preciso, € preciso no- tar que o céleulo da correlagio se basela somente na metade do teste. Assim, em uum teste de 100 itens, a correlagdo se basearia somente em 50 itens. Como 0 niimero de itens afeta o tamanho do co- eficiente de correlagéo, é preciso corrigir esse coeficiente para que leve em conside- ragio a extensdo total do teste e, assim, produzir um coeficiente de preciso mais justo para o teste. Essa correcio é feita pela formula de Spearman-Brown: ers ta onde, r, & 0 coeficiente de precisio cal- culado, riz € 0 coeficiente de correlagio entre as duas metades do teste en é 0 mi- mero de vezes em que o teste foi dividi- do. Assim, em um teste dividido em duas metades, 0 n serd 2, porque ele deve ser aumentado 2 vezes para se obter a forma total do teste. A técnica de Kuder-Richardson (Ku- der e Richardson, 1937) para verificar a fidedignidade de um teste se baseia na andlise de cada item individual do teste. Os autores desenvolveram varias formu las, sendo a mais utilizada a férmula 20, que segue: 4 onde, o coeficiente de preciso do tao mero de itens do teste, Bio desvio padrio dos scores tn, teste € do Tp é 0 somatéro do produto da pp, Teo de sujltos que passaram (gp fue nfo passaram (q) cadaitem,,> ° % Cronbach (1951) mostrou que téonica produz um coeficiente de ¢* sio do teste que corresponde A média, os coeficientes de todas as metades em gy © teste possa ser dividido, mas te quando se utiliza a férmula de Rul, (1939), que trabalha com as v; das diferengas entre as duas metades, ndo a simples correlacdo com a corregia de Spearman-Brown, segundo observaran Novick e Lewis (1967). Esta equivaléncig de coeficientes, contudo, ocorre em teste homogéneos, porque nos testes heterogé. neos 0s coeficientes de Kuder-Richardson so normalmente menores, dado que esta técnica ndo trabalha com diferengas entre pares de itens e sim com a varidncia de todos os itens. préprio Cronbach (1951) desea- volveu uma técnica geral para estabele cer a fidedignidade dos testes, o Alfa de Cronbach. Esta técnica constitui uma et tensao da de Kuder-Richardson. Esta tit ma é aplicdvel somente quando a respostt ao item é dicot6mica: certo e errado, por exemplo. Entretanto, quando a respost ao item pode assumir mais de duas alter nativas, o valor Epq é substituido por a soma das variancias de cada item. Es formula genérica é a seguinte: veel em que, sé a variancia de todo ° s € Bs4, 0 somatério das varidncias d¢ item do teste. ee Um instrumento submetidoasere andlises anteriormente mencionadas SES a Scanned with CamScanner | | 4 f erado um instrumento valido ¢ Ps dig © pronto para uso na pesquisa, fp caso de. 0 instrumento ser orientado 4 uso ciinico (casos individuals), ele gata er submetido & normatizagdo para se poder jnterpretar os resultados que ele produ Contudo, para fins de pesquisa, que tipicamente trabalha com compara- es de ipos de sujeitos, a normatiza- es eo énecesséria, lids, ela ndo acres- nada de novo e til para a qualidade étrica do instrumento; apenas ela é ey para a interpretacio dos resultados, pois constitui uma simples transformagéo dos resultados prutos do instrumento em resultados de alguma maneira padroniza- dose compardveis. consi cental sicome REFERENCIAS paastas, A. (1988). Prychologcal testing (6th e€). New ‘ork Macmillan ndig, AW. (1954) Reliability andthe number of 5% ie ele categories. Journal of Applied Pecholoy, 8, 40. pirbaum, A (1968). Some latent trait models and their aariminfering a examinee’ ability. In EM. Ford & M- Novick Statistical theories of mental test scores. Reading, Ma: Addison-Wesley Cempbl,D-, & Fiske, D.W. (1959). Convergent an ecuninan validation by the multirait-mulsimetboa nati, Pychological Bulletin, 56, 81-105. Camptell, & Stanley, J. (1963). Experimental and fuulerperimental designs for research. Chicagos Tt Rand MeNally at DL, & Stanley, J. (1! experimental design for Fes Melly ee oe LJ. (1951). Coefficient alpha and the inter: suctre of tests. xyehometrka, 16, 297-334 Ccontah, LJ. (1990). Essentials of paychologial esti (Gth ed.). New York: Harper & Row. Enbreson, $6 (1984)-A general latent ait model for ‘sponse processes. ika, 49, 175-186- Rnb, Si (Ed). (1985) Tes deg: Developments tocol end portorari New York: Academic Press: ldsamt, MR. (1971). Bfets of scorins Ping scale length in extreme response #6 measure wea st de doutorado no publicada, Uni tests. Hillsdale, 1973). Experimental and earch. Skokie, IL: Gatien, w.c987). Theory of ena 197 InstrumentacSo psicologiea tape Rk a Swaminathan, 1. (1985). om, nf leary: les and tions. Norwell, MA: foemneee et Hambleton, LK, Swaminathan, Hl, te Rogers, J, (1991), Pundamentas of lem Response Theory. Beverly Hills, CA Sage. Hambleton, Rik, & Zaal, JN. (2d). (1991). Advent {tn educational and psychological testing: ‘Theory and ap- plications. Boston, MA: Kluwer “Academic Publishers. Harman, HH. (1967). Modern factor analysts. Cheer IL: University of Chicago Press. Hulin, CL, Drasgow, F, & Parsons, C.K. (1983). Item Response Theory: Applications to psychological measure ‘ment, Homewood, IL: Dow Jones-Irwin. Jackson, D.N., & Messick, 8. (1967). Problems in human ‘asessment (Cap. 6). New York: MeGraw Hil, ‘Jones, RR. (1968). Differences in response consistency ‘and subjects preferences for three personality inven tory response formats. Proceedings of the 67th ‘Annual Convention of the American. ‘Psychological Association, 3, 247-248. Komorta, $8. (1963). Ati the neutral point on a Likert: chology, 61, 327-334 Kuder, G.R, & Richardson, M.W. (1937). The theory of the estimation of test reliability. Psychometrika, 2, 151- 160. Likert, R. (1932). A technique for the measurement of attitudes, Archives of Pychology, 220140), 1-55. ‘Lord, EM. (1980). Applications ‘of Item Response Theory ‘to practical testing problems. Hillsdale, baum. Mager, RE (1961). Medindo os objvos de ensino ot seer ait um par adequado". Porto Alegre: Globo. Morell M.,, & Jacoby, J. (1970). Is there an. optimal aaa of Likert scale items? Study 1: Reliability and validity. Educational ‘and Psychological Measurement, 31, 657-674. Mss, & Jacoby J. (1972). 18 there an optimal wi sitennatives for Likert-scale items? Journal of sology, 56(6), 506-509. 1990). Torta de respuesta a ls (ems, Ma ude content, intensity, and scale. Journal of Social Psy- ‘reorfa léssica de los tests. Madtid: P+ Musi, J.(1992)- rémide, S.A. Muti, J. 1996). Nevo, B. (1985). Face Monal Measurement, 22, 287-293. tev B., & sf, J (1985). Examinees’ feedback qs: Nevo, Bt gsseament and Evaluation in Higher Educa- tion, 10, 236-249. Novick, MAR, & Lewis, (1967), Coefcent alpha and Noviet iy of composite measurements, Pychomet- ricka, 32,113 Nunnally, JC, Je ‘York: McGraw-Hill. IL (01g). (1996). Teoria e métodos de medida Pasa Pacis do comportamento. Basta INEE psicometr(a, Madrid: Universitas. validity revisited. Journal of Edu- (1978). Peychometric theory. New Scanned with CamScanner 198 LuizPa Pasquall, Le 1), Ptcometria: Tora do testes na pst anda cna Scapi (2 ed), Rode Jano, RU: Voze- Pasquall. L. (2006), Ante fatoral para pesqusadores Brasfia, DP: LabPAM. Pasquali, L. (2007), TRI: Teoria de resposta ao item Teo- tia, procedimentos¢oplicaget. Bras DF: LabPAM. Rulon, Bd, (1999). A simplified procedure for determin- {ng the reliability ofa test by splithalves, Harvard Edu ‘cational Review, 9, 99-103. 4 Santisteban, C. (1990). Prcom, ‘Thorndike, FLL. (1982), ‘eel Madea Hougton Min. Pothomeng ‘van der Veer, F, Howard, K1,, & 4, Stability and eqt scores based AM, rr rete mack! othe 78h an ce Prycholorical oth Atm, Yela, M, (1987). Introducclén a ta teou o™ 5°93 dil Paeultad de Pseoogia, Universe ge ltea % f f, Scanned with CamScanner

Você também pode gostar