Você está na página 1de 17

3 Ano, 1 Semestre 2010/2011 Prof.

Miguel Tecedeiro

Mtodos de Avaliao I
If something exists, it exists in some amount. If it exists in some amount, it can be measured. - E. L. Thorndike

Psicometria

Comportamento - Pretende quantificar um comportamento. Atribuir um nmero a determinado comportamento que se pretende avaliar. Medida - Pretende atribuir um nmero, uma quantidade por meio de uma comparao com um padro. Medir ento o mesmo que comparar. Exemplo: 1,70 metros 1,7 vezes maior que 1 metro (medida padro). Factores/ constructos/ dimenses propriedade comum que existe entre um comportamento e determinado padro. Podemos ordenar em funo dessa propriedade comum (ex: peso, altura, etc.).

Como se compara o padro e a propriedade a medir?


Comparao directa exemplo: peso, altura Comparao indirecta exemplo: distncia da Terra ao sol. Em psicometria as medidas so sempre indirectas. Para se avaliar determinado constructo psicolgico tem que se identificar um comportamento que ele se manifesta para o medir/avaliar. Na psicometria mede-se de forma inferencial indirecta, mede-se uma manifestao observvel do constructo. Encontra-se uma padronizao (a todos da mesma maneira, nas mesmas condies) para avaliar o constructo, s assim se consegue atribuir uma quantificao. necessrio encontrar uma medida padronizada, uma teoria que permita converter os comportamentos na situao padronizada e permitir a sua quantificao. Exemplo: testes e escalas.
1

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

grandes reas da psicometria:


Aptides e capacidades: inteligncia; fluncia verbal; pensamento lgico; motricidade fina; orientao espacial; memria; etc. Competncias e conhecimentos: exames e testes; provas de admisso, recrutamento e seleco; TOEFL; GMAT; SAT; etc. Atitudes e personalidade: escalas de atitude; inventrios de personalidade; inventrios de interesses; escalas de diagnstico; etc.

Fases de construo de um teste:

1. Definio do domnio
Definio do Domnio 1.1 Definio do Constructo - Para qu?, Avaliar o qu? 1.2 Escolha da Populao Alvo - Em quem?Se calhar existe uma escala de depresso para adultos, mas no existe uma para crianas.
2

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

1.3 Escolha da Escala de Resposta 1.1 Definio do Constructo


Antes da construo de um teste necessrio verificar:

Necessidades avaliativas necessrio criar uma nova escala? Populao existe alguma escala que se adeque minha populao? Reviso de literatura definir o que queremos avaliar. Em seguida, necessrio seguir determinados passos para definir o nosso domnio:
Definio do constructo: em rigor de que estamos a falar? Vamos avaliar o qu, em que populao?

Dimensionalidade - Caracterizar as suas dimenses. Para ordenar em dimenses globais temos de ser capazes de ordenar em dimenses mais pequenas. Quantas dimenses so necessrias. Exemplo: para medir a depresso quantas dimenses preciso? Como se manifesta a depresso? Perturbaes de sono, perda de energia, etc. So, pelo menos, duas dimenses a considerar. Relao com outras variveis Associao/influncia de, com ou sobre outras variveis. Exemplo: homens e mulheres tm os mesmos graus de depresso ou so diferentes. Desenvolver um mapa conceptual da varivel a avaliar.

1.2 Escolha da Populao Alvo


Escolha da populao alvo: qual a populao que a nossa escala pretende avaliar.

1.3 Escolha da Escala de Resposta


Escolha da escala de resposta: Teoria de Medida converte o que as pessoas fazem em nmeros, quantifica. Teoria de Resposta ao Item (no sai no exame!) complementa e melhora a teoria da resposta ao item. Teoria Clssica dos Testes
Teoria Clssica dos Testes

Tarefa representativa de comportamento. Encontra-se uma tarefa que represente/traduza o que a pessoa sente em termos do que quero medir. Exemplo: depresso Penso muitas vezes em morrer frase representativa do comportamento do sujeito na dimenso que queremos avaliar. A cada tarefa bem sucedida atribudo um valor de x pontos de modo a que se possa quantificar as respostas. Esse valor arbitrrio mas, tem que ser fundamentado. O desempenho no teste depende da dos pontos. Score = True Score + Erro
3

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

O Score do sujeito uma varivel manifesta (o que eu vejo). Do ponto de vista psicomtrico, considero que esta varivel manifesta est dependente de 2 variveis latentes (o que no vejo): True Score: grau de intensidade, na pessoa, da caracterstica que estamos a medir. Exemplo: grau de depresso da pessoa. Erro: tudo o que tambm interferiu no resultado do teste (Score) mas no o seu grau de depresso. Outros factores que influenciaram o score do teste. Exemplo: o sujeito tem um elevado grau de iliteracia, logo no percebe bem aquilo que lhe est a ser perguntado.

Ao construir o teste tenho que conhecer o peso destas duas variveis latentes. Quanto maior for o Erro, mais fraco o teste. Um bom teste tem um True Score muito prximo do Score, ou seja, a margem de erro muito pequena.

Score segue uma distribuio normal ou prxima da normal. Desempenho do sujeito ganha sentido comparando com o grupo/populao geral. A mesma pessoa comparada com populaes diferentes pode obter resultados diferentes. Na Teoria Clssica dos Testes, a medida relativa. muito ou pouco comparado com quem? S tem sentido face ao padro da populao geral. Consoante os contextos, pode ser comparada populao geral ou a uma populao especfica. Exemplo: monges budistas e a depresso. Comparamos os monges com outros monges.
Escolha da escala de resposta

Formato dos Dados Normativos escolher o tipo de apresentao estatstica dos dados. Dados Normativos traduzem-se no conjunto dos dados da amostra organizados de modo a que seja possvel entender em que posio o sujeito se encontra, quando comparado com os restantes elementos do grupo. So portanto dados que permitem estabelecer comparaes entre o sujeito e a mdia do grupo. Percentil, QI, Nota T, etc. Formato de Resposta Dicotmico Politmico

Escala de Resposta Construo da Escala Nominais Ordinais Thurstone Gutman Likert Intervalares Razo
4 Formato Dados Normativos Escala de Resposta Formato de Resposta

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

2. Construo
Construo de um teste
2.1 Definio da tarefa (tipo de teste) 2.2 Elaborao de Itens 2.3 Padronizao

2.1 Definio do tipo de teste


Tipos de Testes:

Aptido/Inteligncia respostas do tipo certo/errado Competncias e Conhecimentos respostas do tipo certo/errado Atitudes e Personalidade respostas de adeso/rejeio (grau auto-avaliativo)

2.2 Elaborao de Itens


Testes de Inteligncia e Aptides Exemplos de Itens:

Analogias: Exemplo: Gato est para animal como rosa est para Eliminao: Exemplo: Qual dos seguintes no pertence: Melro, Gaivota, Morcego, Periquito. Escolha Mltipla: Exemplo: a) 12 b) 14 c)16 d)20 Escolha Aberta: Exemplo: completa a srie 2, 2, 4, 6, 10, Os itens de um teste de inteligncia e aptido devem ter: Linguagem simples e clara Uma s resposta certa Resposta a um item no facilita a resposta a outro Risco de resposta ao acaso Distractores eficazes (todos) Diversidade de dificuldade dos itens Ordenao dos itens por ordem crescente de dificuldade
Escalas de Atitudes, Inventrios de Personalidade, etc.

Respostas de auto-avaliao: Sim/no Sim, no sei, no Rating Scale Escolha Forada Os itens de uma escala de atitudes/personalidade devem ter em conta: O risco de estratgias enviesadoras da resposta (enviesamentos por atitudes de resposta) A Importncia da validade facial A dificuldade em estimar validade
5

A importncia de diversidade de itens (sampling) Enviesamentos por Atitudes de Resposta Efeito de Erro - Response Style:

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

Aquiescncia tendncia para concordar com tudo, independentemente do contedo Desejabilidade Social responder de acordo com o que socialmente desejvel Uso do meio-termo ou indefinido opo pela resposta neutra, que no compromete. Este tipo de respostas tpico de pessoas com baixos nveis de literacia. Uso dos extremos propenso para escolher opes dos extremos Aleatoriedade Respostas ao calhas Efeito de Erro Response Set: Efeito de Halo enviesamento emocional que leva a uma alterao das respostas, estado emocional induzido pelas questes. Contaminao: a mesma pergunta precedida de perguntas diferentes leva a respostas diferentes. Ancoragem a prpria escala est construda de uma forma que provoca uma aprendizagem em determinada categoria de resposta. Os itens traduzem, mais ou menos, a opinio da pessoa logo, esta no presta muita ateno aos contedos, sente que a escala por si s traduz a sua opinio. Rotina de resposta, aprendizagem do local da resposta. Diferente da aquiescncia e da aleatoriedade.
Cuidados a ter na construo de escalas de atitude/personalidade:

Obter cooperao Dar instrues claras e completas Limitar insight do respondente Evitar itens com clara desejabilidade social Escrita clara e sem ambiguidades Referir comportamentos especficos em vez de generalistas Um item s deve conter uma ideia ou afirmao Evitar, quando possvel, termos de frequncia Ponderar uso de escalas/procedimentos de controlo Balancear dimensionalidade, distribuir itens aleatoriamente
Traduo/adaptao de testes

1. Deve verificar-se e adequar do constructo ao pas para o qual a escala est a ser traduzida 2. No mnimo, a escala deve ser traduzida por dois tradutores independentes 3. Deve comparar-se as tradues e criar uma verso de sntese das duas 4. Fazer-se uma retroverso para a lngua original, de modo a certificar que a traduo foi bem conseguida

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

5. A verso final deve ser avaliada por especialistas: tradutores e especialistas respondem verso original e verso traduzida e comparam-se as discrepncias

2.3 Padronizao
Uma vez construda, a escala no deve ser alterada, as condies nas quais foi testada e verificada tero que permanecer iguais. Assim, materiais, regras de aplicao, contexto relacional, instrues dadas ao sujeito e os itens (contedo e ordem) no podem ser alterados.

3. Validao
Validao 3.1 Sensibilidade dos itens 3.2 Fidelidade 3.3 Validade

Qualidades Mtricas
Ser que o nosso teste um bom teste? H trs dimenses que permitem responder a esta questo, so trs qualidades mtricas atravs das quais se faz a validao do nosso teste: Validade Permite verificar se o teste mede o que suposto medir. Para ser vlido tem que ser fidedigno e sensvel. Fidelidade Permite verificar a preciso ou consistncia da medida do teste. Para ser sensvel tem que ser sensvel. Sensibilidade Permite verificar se o teste capaz de discriminar sujeitos: capacidade de discriminar sujeitos. Exemplo: se trs pessoas diferentes, com graus diferentes respondem ao teste ento, os resultados devem ser diferentes, o resultado do teste deve ser sensvel s diferenas entre as pessoas. H uma relao hierrquica entre estas trs dimenses: Um teste pode ser sensvel mas no ser vlido e/ou fivel. Mas, para que o teste seja vlido tem que ser fivel e sensvel.

Fluxograma processo de validao/aferio


Referencial Terico: 1. Apreciao por peritos: validade de contedo. 2. Aplicao Piloto a pequeno grupo: validade facial/Processos de resposta Pretende verificar se o teste mede o que queremos medir, se as pessoas o compreendem. Este processo consiste em pedir a um pequeno grupo para nos dizerem o que entendem sobre cada item. Sabe sobre o que a escala? Tem uma ideia do que avalia? Que processos mentais utiliza na resposta?
7

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

A dimenso do pequeno grupo est relacionada com o nmero de itens: 5/10 pessoas por item, logo se forem 10 itens so no mnimo necessrias 50 pessoas. No entanto, quanto maior a amostra melhor, para se encontrarem correlaes significativas. Referencial Estatstico: 3. Sensibilidade/Poder Discriminativo para provas de aptido/inteligncia a sensibilidade estudada em separado. 4. Sensibilidade, Validade e Fidelidade para as escalas de atitudes 5. Replicao Ver se encontro os mesmos resultados se aplicar a escala/teste em diferentes estudos. Uso diversas amostras/grupos amostrais. Amostras clnicas, por ex.: grupos que sabemos, pela investigao produzida, terem resultados muito elevados, por ex., na nossa escala. Se a escala/teste for bom deve-se obter os mesmos resultados. 6. Dados Normativos Feedback retorno sobre aspectos tericos ou construo. Em qualquer momento deste processo de validao podemos pr em causa o teste/escala e ser necessrio rever um ponto anterior.

3.1 Sensibilidade
Dois tipos de Sensibilidade: os itens podem ser sensveis mas a prova no e vice-versa. ento necessrio testar a sensibilidade de ambos. Itens Aptido/Inteligncia: Itens verdadeiros ou falsos. H uma resposta correcta. Escalas/Inventrios de Personalidade. Adeso ou no adeso ideia. Prova
Estudo de sensibilidade de itens Aptido/Inteligncia

A sensibilidade dos itens calculada pelo ndice de Dificuldade.

I.D. Itx deve ser maior que 0,20 e menor que 0,80 0,20 <I.D. <0,80 Se I.D. Itx = 0, ento I.D. muito baixo, um item demasiado fcil. Se I.D. Itx = 1, ento I.D. muito alto, um item demasiado difcil.

Tanto num caso (muito baixo) como noutro (muito alto), os itens so pouco sensveis pois no discriminam as pessoas. O I.D. dos itens deve ser diversificado (dentro do intervalo, queremos ter grande variedade) Se I.D. for igual em 2 itens deve guardar-se um deles
8

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

Deve haver um equilbrio entre o ID dos itens Os itens devem estar ordenados de forma crescente em funo do seu ID, a progresso dos IDs deve ser relativamente linear O ID permite determinar o fim da aplicao do teste aps X insucessos
Escalas/Inventrios de Personalidade

Os itens no devem estar ordenados mas sim distribudos aleatoriamente: Ordenao aleatria + Intencional = Controlo de Efeitos de Halo e Ancoragem
Itens Dicotmicos

Itens problemticos: pouca sensibilidade pois tm mais de 95% de respostas numa categoria
Itens Politmicos

Respostas em todas as categorias, incluindo os extremos Itens problemticos: pouca sensibilidade pois a mediana situa-se num extremo Devem excluir-se itens com violao grosseira da normalidade (uma vez que a Teoria Clssica dos Testes pressupe a normalidade da distribuio). Assim, devem excluir-se itens com: Assimetria |3| Achatamento |8|
Sensibilidade da Prova

O facto de os itens serem sensveis per se no garante a sensibilidade da escala, mas para que a escala seja sensvel, preciso que os itens tambm o sejam.
Caractersticas distribucionais

Normalidade Mdia Desvio-padro: quanto maior for o desvio-padro mais ampla a prova.
Caiu em desuso: Delta de Ferguson > 0.9

m=N itens; n=N; fs = n sujeitos em cada score


Efeito de Tecto

Se a prova for muito fcil/adeso completa, todos os participantes, de determinado grupo amostral, tm score mximo.
Efeito de Cho

Se a prova for muito difcil/negao completa, todos os participantes, de determinado grupo amostral, tm score mnimo.

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

3.2 Fiabilidade
Fiabilidade a parte da varincia de um resultado que atribuvel a erro, a poro de erro do teste. A fiabilidade um conceito estatstico, no operacional (no observvel). O erro tudo o que no queremos medir mas todas as medies tm erros. Avaliar a fiabilidade da prova verificar a percentagem de erro que ela tem. Segundo a Teoria Clssica dos Testes, o desempenho do sujeito dado por duas variveis latentes (no observveis): Sc = TSc + Erro True Score conceito abstracto que designa a capacidade do sujeito (se o teste avaliasse de forma prefeita) Erro tudo o que influenciou o desempenho do sujeito, que no tem a ver com as suas capacidades. O erro tudo o que no pertence ao constructo a ser avaliado. um conceito, antes de mais, estatstico (muito mais do que operacional).
Pressupostos dos erros da Teoria Clssica dos Testes

1. Mdia dos erros numa prova igual a zero E = 0 2. No h correlao entre o erro e o score verdadeiro do sujeito rTScE = 0 3. Os erros no esto correlacionados (no h correlao entre os erros do sujeito nos diferentes itens) rE1E2 = 0 A prova ser tanto melhor quanto mais se aproximar destes pressupostos. Quando h violao destes pressupostos significa que h problemas/erros no teste/prova.
Fontes de Erro

Teste: mal construdo Avaliador: pode induzir erros, por exemplo, efeitos de expectativa. Pode aplicar ou corrigir mal o teste. Sujeito: por m compreenso dos itens, cansao, etc. Deve controlar-se atravs de controlo emprico. Atitudes de resposta, tendncia para a aquiescncia, etc.. Situao: condies, etc. Deve controlar-se atravs de controlo emprico.
Para evitar erros

Avaliador: as provas devem ser cotadas por avaliadores independentes e as suas cotaes, posteriormente, correlacionadas. Correlao deve ser superior a 0,90. Sujeito: Controlo operacional - perguntar s pessoas como se sentem, etc. Controlo emprico. Teste: para avaliar a fiabilidade deve garantir-se a estabilidade temporal e avaliar-se a consistncia interna entre os itens. Recurso a mecanismos de controlo estatstico. Situao: Controlo emprico. Estabilidade temporal (evitar erros do teste) Aplicar o mesmo teste novamente. A variao nos resultados entre o teste e o reteste corresponde aos erros. A correlao entre teste e reteste deve ser superior a 0,70.
10

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

necessrio neutralizar alguns aspectos para garantir a estabilidade temporal, problemas que podem surgir: Variabilidade ligada ao constructo deve garantir-se que essa variabilidade no explicada pela variabilidade natural associada ao constructo. Efeitos de memria e aprendizagem para calcular a estabilidade temporal deve-se deixar passar tempo suficiente para que no haja efeitos de aprendizagem e de memria. Esse tempo tambm no deve ser demasiado extenso para evitar efeitos de variabilidade natural. Exemplo: para um beb de 6 meses 15 dias muito tempo, o beb j no ser o mesmo aps esse perodo. Custo temporal e financeiro grandes inconvenientes. Avaliao da Consistncia Interna (evitar erros do teste) A consistncia interna ento a estimativa da co-varincia comum a um grupo de itens. Se os itens medem todos a mesma caracterstica, ento a co-varincia deve ser elevada pois o que no corresponder covarincia erro. Erro = 1-r Para avaliar a consistncia interna de um teste utiliza-se: Mtodo Split Half (com correco Spearman-Brown) consiste num teste-reteste na mesma prova, divide-se o teste em duas partes que medem o mesmo e correlacionam-se essas partes. Alpha de Cronbach matematicamente, equivalente mdia de todos os Split Half que existem num teste, ou seja, todas as maneiras possveis de dividir os itens em dois. Menos utilizado em provas de aptido/inteligncia. O Alpha de Cronbach () pondera a variao em funo do nmero de itens. Quanto mais itens o teste tiver, maior a probabilidade de haver uma correlao elevada, logo maior a probabilidade de uma elevada fiabilidade. 0,7 o quadrado do alpha de cronbach indica a proporo de varincia comum entre os itens. Se for maior ou igual a 0,7, ento o seu quadrado ser sempre maior ou igual a 0,49 (49%). Para as provas de aptido/inteligncia o Alpha de Cronbach pouco importante. tende a ser sempre elevado pois a prova mede sempre a mesma caracterstica. portanto menos utilizada para este tipo de provas (neste tipo de provas usa-se mais a estabilidade temporal.

(
N = n de itens do teste N condiciona Alpha

= varincia total do teste = varincia dos itens


11

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

Fidelidade vs Validade H uma relao antagnica entre fidelidade e validade. Fidelidade correlao entre os diferentes itens ou sub-grupos de itens. Validade se o meu teste avalia ou no o fenmeno que quero estudar. De modo a aumentar o meu Alpha de Cronbach, ou seja, a fidelidade do meu teste, posso perder validade. Por me focar demasiado em determinado aspecto e desprezar outros, tambm importantes para a compreenso do fenmeno/constructo, aumento a minha fidelidade mas reduzo a minha validade Bloated Specifics. Se olhamos cegamente para o Alpha de Cronbach vemos os itens que estragam a fiabilidade, mas ao fazer isso perco partes do meu constructo. Isto acontece quando temos sub-grupos de itens que se relacionam fortemente intra-grupo e menos com os outros sub-grupos de itens ora isso faz com que o Alpha baixe. Mas temos de ter cuidado para no deitar fora uma parte do constructo. Interesse da Fidelidade:

Erro padro da medida = Desvio-Padro do teste Erro Padro da Medida intervalo de confiana Rii = Coeficiente de fidelidade calculado Exemplo: Score sujeito = 105; DP = 15; = 0,8; EPM = 6,7; intervalo de confiana 95% = 92 a 118

3.3 Validade
O teste pode ser preciso, mas estar a medir um constructo diferente daquele que queremos medir (ou seja, sensvel, mas no vlido). Existem diversas definies de validade na psicometria. O estudo cientfico da validade faz-se atravs da verificao da validade interna e da validade externa.
Validade (Psicometria)

Grau em que a evidncia emprica e a teoria sustentam a interpretao de resultados de um teste de forma consequente com os seus objectivos declarados (AERA, 2008, p. 9).
12

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

Aquilo que o teste mede e quo bem o faz (Anastasi & Urbina, 1988, p. 113). As aulas so centradas no livro de AERA.
Fontes de evidncia

Maneiras/tipos de dados que nos dizem qualquer coisa sobre a validade da nossa escala. Para Aera (2008) as fontes de evidncia so: os contedos, os processos de resposta, a estrutura interna, as relaes com as outras variveis e as consequncias da testagem. Contedos do teste (Adaptado de AERA, 2008, e de Anastasi & Urbina, 1997) - evidncia Fala-se, tradicionalmente, em dois tipos de validade. A validade facial, na qual se pergunta s pessoas que vo fazer o teste o que que acham que ele vai medir e a validade de contedo, ou opinio dos peritos. A validade facial muito frouxa, mas tem uma utilidade: se a pessoa no perceber mesmo o que que est em causa, a sua adeso ao teste mais fraca. A validade de contedo aferida por tcnicos de psicometria e experts do constructo. Processos de resposta (Adaptado de AERA, 2008, e de Anastasi & Urbina, 1997) - validade
Pedir a um grupo de pessoas da populao em estudo para nos explicarem como que responderam, para nos explicarem os seus processos de resposta.

Estrutura interna (Adaptado de AERA, 2008, e de Anastasi & Urbina, 1997) - evidncia 1. Ordenao dos itens 2. Estrutura factorial 3. Relao item/total (relao do score que o sujeito tem no item com o score que o sujeito tem na escala. Essa correlao deve ser forte), 4. D.I.F. (Diferential item functioning cada item deve, a priori, funcionar da mesma forma em todas as pessoas ), etc.. Relaes com outras variveis (Adaptado de AERA, 2008, e de Anastasi & Urbina, 1997) evidncia H formas de validade melhores do que outras. Quanto mais emprica, mais slida a fonte de evidncia. De todas as formas de validade, a mais forte a capacidade preditiva. A literatura mostra como a nossa varivel se relaciona com outras variveis. Vou determinar a validade da minha escala verificando se a minha varivel replica as suas relaes com as variveis descritas na literatura. 1. As relaes com outras variveis podem ser vistas atravs da validade convergente (duas escalas que avaliam a mesma coisa convergem. A minha escala no deve divergir de outra que avalie o mesmo constructo) ou discriminante (duas escalas que avaliam diferentes domnios, ainda que prximos, divergem. A minha escala no deve convergir com outra que avalie um constructo diferente). 2. A validade de critrio consiste na procura de um indicador exterior, independente de ns, representativo do constructo que est a ser avaliado e que, se a minha escala funciona ento ele deve detectar, por ex., uma ansiedade mais baixa nos controladores areos do que na populao em geral
13

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

validade concorrente. Se tenho uma escala que avalia ansiedade eu sou capaz de dizer quais, de entre os controladores areos, que tero menos ansiedade ao longo das provas de seleco validade preditiva, isto , avalio no momento A e prevejo o que vai acontecer no momento B. O que distingue a validade concorrente da validade preditiva o delineamento. Na validade concorrente temos delineamentos correlacionais, na validade preditiva temos delineamentos longitudinais. 3. Generabilidade: Quanto mais replico noutras amostras, maior validade tem. Consequncias da testagem (Adaptado de AERA, 2008, e de Anastasi & Urbina, 1997) evidncia O teste pode ser sensvel a outras variveis, o que tem consequncias nos resultados. Ex.: raa: patente no teste de Wechsler: se o teste avalia inteligncia, no suposto que seja sensvel s diferentes raas.
Validade conceitos tradicionais i.e. Anastasi & Urbina (1997)

Validade de constructo 1. Facial 2. Constructo 3. Critrio a. Concorrente b. Preditiva 4. Factorial 5. Convergente 6. Discriminante

4. Normas
Normas 4.1 Definio de padro estattico 4.2 Amostra representativa 4.3 Amostras especficas Uma pontuao, por si s, no nos diz nada. Precisamos de a comparar com a norma. Para chegarmos s normas temos que percorrer um longo caminho. Em qualquer momento desse caminho podemos chegar concluso de que h itens que ser reescritos ou que o constructo no faz sentido.

4.1 Definio de padro estatstico


Percentil comparar a nota da pessoa com o grupo, colocando-a num percentil. Tenho uma indicao da ordem ou da posio relativa da pessoa, mas no sei a que distncia essa pessoa est da mdia, dai o:

14

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

Racio Q.I. Binet. O QI, no fundo, uma percentagem. Binet apercebe-se de que medida que as crianas vo crescendo, vo conseguindo resolver problemas mais complexos. Assim, existe uma idade real e uma idade mental (correspondente aos problemas que consegue resolver). Stern chamou, no entanto, a ateno para o facto de um atraso de um ano, no ser a mesma coisa numa criana de 10 anos e numa criana de 2 anos. Assim, a frmula mudou e, em vez de IR-IM, passou a ser IM/IRx100. Sendo assim, de acordo com a frmula de Stern, percebe-se que o QI mdio seja igual a 100.

Valores normalizados 1. QI Wechsler: Wechsler transformou o conceito de QI de Binet e Stern num conceito normalizado: QI Wechsler. Se, por definio, o QI mdio 100, o desvio-padro 15. 2. Notas T Notas com distribuio normal, mdia de 50 e desvio-padro de 10. 3. Eneatipos Praticamente no se usa. uma classificao ordinal: converso de uma distribuio percentlica numa distribuio ordinal, mas que segue uma distribuio normal. Normalmente fazemse 9 classes distintas.

4.2 Amostra representativa e amostras especficas

Representatividade da amostra 1. Amostragem aleatria (praticamente impossvel) 2. Amostragem no aleatria a. Multiplicar mtodos b. Nmero elevado
15

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

c. Estratificao 4.3 Processo cientfico (?) Validade interna: Ameaas s relaes causais.

Validade externa: Ameaas generalizao dos resultados.

SPSS Validao de Testes:


Sensibilidade
Existem 4 formas de testar a sensibilidade: Escala de resposta - itens devem possuir tanto valores mnimos como mximos. Mediana a mediana deve encontrar-se num dos extremos
16

Mtodos de Avaliao I 3 ano - 1 Semestre 10/11 Prof. Miguel Tecedeiro

Deve seguir uma distribuio normal.

Fidelidade
H diferentes formas de avaliar a fidelidade:

Validade
A anlise factorial uma forma de avaliar a validade do constructo/de construo da escala. Anlise Factorial SPSS: Anlise Factorial Exploratria Componentes principais Rotao
Passos SPSS:

Analyse Dimension Reduction: 1. Factor analysis: 1.1.1 1.1.2 Anti-image KMO

2. Extraction 2.1.1 2.1.2 Scree Plot Fixed number of factors

3. Rotation 3.1.1
KMO

Varimax a 2 factores

17