Escolar Documentos
Profissional Documentos
Cultura Documentos
José Chilaule
3ª Ano
Universidade Save
Chongoene
2024
Albertina Boalimbo Matusse
José Chilaule
Universidade Save
Chongoene
2
2024
Índice
0.0. Introdução............................................................................................................................3
0.1. Objectivos............................................................................................................................3
0.1.1. Objectivo geral..................................................................................................................3
0.1.2. Objectivos específicos......................................................................................................3
0.2. Metodologia.........................................................................................................................3
1.0. Fiabilidade............................................................................................................................4
1.1. Factores que influenciam a fiabilidade................................................................................4
1.1.1. Variabilidade da amostra..................................................................................................5
1.1.2. Comprimento do teste.......................................................................................................6
1.1.2.1. A formula do Spearmen-Brown.....................................................................................6
1.2. Principais métodos para cálculo de fiabilidade....................................................................7
1.2.1. Métodos de teste reteste....................................................................................................7
1.2.1.1. Vantagens.......................................................................................................................7
1.2.1.2. Desvantagem..................................................................................................................8
1.2.2. Método de formas paralelas..............................................................................................8
1.2.2.1. Vantagens.......................................................................................................................8
1.2.2.2. Desvantagens.................................................................................................................8
1.3. Principais teorias do cálculo da fiabilidade.........................................................................8
1.3.1. Teoria clássica dos testes..................................................................................................8
1.3.1.1. Parâmetros dos itens: dificuldade e discriminação........................................................9
1.3.2. Teoria de resposta ao item..............................................................................................10
1.3.2.1. Parâmetros da TRI: dificuldade, discriminação e acerto casual..................................11
1.3.2.2. Pressupostos da TRI: unidimensionalidade e independência local..............................11
1.3.2.3. Modelos de TRI...........................................................................................................12
2.0. Conclusão...........................................................................................................................13
3.0. Referências bibliográficas..................................................................................................14
3
0.0. Introdução
Segundo pasquali, 1998 o parâmetro da fiabilidade dos testes vem referenciado sob uma serie
elevada de nomes. Alguns destes nomes resultam do próprio conceito deste parâmetro, isto é,
eles procuram expressar o que ele de facto representa para o teste. Estes nomes são,
principalmente, precisão, fiabilidade e confiabilidade.
Ela se baseia na consistência e precisão dos resultados do processo de mensuração. Para terem
um certo grau de confiança nos escores, os usuários de teste exigem evidências de que os
escores obtidos seriam consistentes, se os testes fossem repetidos com os mesmos indivíduos
ou grupos, e de que são razoavelmente precisos.
Neste trabalho faz-se uma reflexão em volta… (em que se baseia a reflexão, destacando o
facto de esta ser feita no ambito da psicometria)
4
0.1. Objectivos
0.2. Metodologia
Neste contexto, para a elaboração deste trabalho, recorreu se a: Consultas bibliográficas que
consistiu na leitura e interpretação de diversas de vários autores que sustentam sobre o
assunto em estudo; analise e interpretação que consistiu na análise e compilação da matéria
estudada.
5
1.0. Fiabilidade
Segundo PASQUALI, 1998 o parâmetro da fiabilidade dos testes vem referenciado sob uma
serie elevada de nomes. Alguns destes nomes resultam do próprio conceito deste parâmetro,
isto é, eles procuram expressar o que ele de facto representa para o teste. Estes nomes são,
principalmente, precisão, fiabilidade e confiabilidade. Outros nomes deste parâmetro resultam
mais directamente do tipo de técnica utilizada na colecta empírica da informação ou da
técnica estatística utilizada para a análise dos dados empíricos colectados.
A fiabilidade ou precisão de um teste diz respeito à característica que ele deve possuir,
a saber, a de medir sem erros, donde os nomes, precisão, confiabilidade ou fiabilidade.
Medir sem erros significa que o mesmo teste, medindo os mesmos sujeitos em
ocasiões diferentes, ou testes equivalentes, medindo os mesmos sujeitos na mesma
ocasião, produzem resultados idênticos, isto é, a correlação entre estas duas medidas
deve ser de 1. Entretanto, como o erro esta sempre presente em qualquer medida, esta
correlação se afasta tanto de 1 quanto maior for o erro cometido na medida.
Fiabilidade se baseia na consistência e precisão dos resultados do processo de
mensuração. Para terem um certo grau de confiança nos escores, os usuários de teste
exigem evidências de que os escores obtidos seriam consistentes, se os testes fossem
repetidos com os mesmos indivíduos ou grupos, e de que são razoavelmente precisos.
Enquanto a fiabilidade na mensuração implica consistência e precisão, a falta da
fiabilidade implica inconsistência e imprecisão, ambas resultarem erros de mensuração
(URBINA 2014)
6
S E 1= ST 1 √ 1−r 11
S E 2= ST 2 √ 1−r 22
2 2 2 2
S (1-r1I) =S2 ·(1−· 22·).Ou S (1-r 11)= S - S r
T3 T1 T 2 T 2 22
Resolução para r 22 dá
2
s
r 22= T 1
x
Uma medida pode então dizer-se fiável se o desvio padrão for reduzido ou se o coeficiente de
fiabilidade (correlação) for elevado.
Também o número de itens do teste afecta a fidedignidade do mesmo. Quando maior número
de itens tiver o teste, maior será seu índice de precisão, pois o erro tende a zero quando o
numero se aproxima do infinito, segundo o famoso teorema de Bemoulli (cf,cap.2).
nr tt
r TT = onde
1+(n−1)r tt
Por exemplo, no caso do cálculo do coeficiente de precisão pela técnica das duas metades, o
teste original (a metade1) foi aumentado duas vezes, a saber. Metade1+metade2. Neste caso a
fórmula de Spearmen-Brown será:
2 r tt
r TT =
1+ r tt
Resposta
30+20
n= =, 1,670 teste foi aumentado 1,67 vezes. Então
30
1 , 67 ×0 , 80
r TT = =0,87
1+(1 , 67−1)×0 , 80
Exemplo
Um teste de 200 itens teve índice de fidedignidade de 0,96. Se tiramos 100 itens, qual será 0
novo índice de precisão?
Resposta
200−100
n= =0,50 o teste foi reduzida pela metade. Então,
200
0 ,50 × 0 ,96
r TT = =0,92
1+(0 , 50−1)×0 , 96
Assim a retirada de 100 itens dos 200 originais reduziu o índice de fidedignidade do teste de
0,96 para 0,96.
É a comparação entre resultados obtidos pelos mesmo teste aplicados duas vezes para o
mesmo grupo de indivíduos em momentos diferentes. É calculado pelo coeficiente de pearson
1.2.1.1. Vantagens
1.2.1.2. Desvantagem
Definir o intervalo ideal de tempo entre o O1 e O2.
1.2.2.1. Vantagens
Bate directamente com o conceito da fidedignidade são testes aplicados numa só
ocasião.
1.2.2.2. Desvantagens
É difícil conseguir formas perfeitamente paralelas porque mede se o mesmo traço
latentes com itens diferentes.
São três os elementos que constituem o postulado fundamental da teoria:Ou seja, o escore
empírico é a soma do escore verdadeiro mais o erro, que se define como (GULLIKSEN,
1950):
T = escore bruto ou empírico do sujeito, que é a soma dos escores obtidos no teste;
V = escore verdadeiro, que seria a magnitude real daquilo que o teste quer medir no sujeito e
que seria o próprio T se não houvesse erro de medida e;
E = o erro cometido nesta medida.
É importante ressaltar que o erro de medida está presente em qualquer operação empírica,
assim, o objetivo da TCT é dispor de técnicas estatísticas que visem controlar ou predizer o
tamanho do erro na aplicação dos testes (MUÑIZ, 1994; PASQUALI, 2009). Assim, é
razoável assumir que erro é definido como a diferença entre o escore verdadeiro (a pontuação
real do sujeito) e o escore observado (o escore do sujeito no teste), ou escore empírico
(LORD, 1959).
É necessário também destacar que o erro é aleatório, assistemático, isto é, ao realizar várias
vezes o teste, o sujeito obterá diferentes pontuações, e essas pontuações poderão ser maiores
ou menores que a pontuação verdadeira. Portanto, como o erro é um evento casual, sabe-se
que a média do erro é 0 (MUÑIZ, 1994).
São três os pressupostos fundamentais do modelo, dos quais não podem ser empiricamente
comprovados de forma direta (MUÑIZ, 1994). O primeiro suposto diz que a pontuação
verdadeira (V) é a esperança matemática da pontuação empírica (T): V = E(T). Isso significa
que se o teste fosse aplicado infinitas vezes, a pontuação verdadeira seria a média da
pontuação empírica. O segundo suposto diz que não há correlação entre a pontuação
verdadeira e os erros de um teste, ou seja, a correlação é zero: p (V, E) = 0. Não há razões
para supor que o tamanho da pontuação verdadeira está associado ao tamanho do erro, se
assim fosse, o erro seria sistemático, portanto, controlável. O terceiro suposto assume que os
erros em dois testes distintos não se correlacionam: p (Ej, Ek) = 0. Assim, se os testes são
aplicados adequadamente, os erros serão aleatórios em cada teste.
Outro aspecto importante na TCT é a definição de testes paralelos. Assumindo que é possível
elaborar, diz ser paralelos dois testes que medem a mesma coisa, mas com itens diferentes
(MUÑIZ, 1994): são “tau equivalentes” quando possuem pontuações verdadeiras iguais e com
11
Para a teoria clássica a dificuldade de um item é definida como a proporção de sujeitos que
respondem corretamente ao item (ANDRIOLA, 1998; VIANNA, 1976). A partir disso, um
item é mais fácil quando mais pessoas o acertam. Por isso, esse tipo de item, que a resposta
pode ser certa ou errada, ou seja dicotômica, é utilizado frequentemente em testes de
desempenho ou aptidão em determinada área (PASQUALI, 2009). Por exemplo, um item que
apenas 20% dos respondentes o acertam é mais difícil que um item que 80% acertam.
12
Esses parâmetros dos itens podem ser facilmente observados em contextos de avaliação do
ensino e aprendizagem em sala de aula, ou mesmo em avaliações de larga escola e concursos
para seleção de candidatos em determinada área. A dificuldade dos itens desejável pode variar
de acordo com o objetivo da avaliação. Por exemplo, em contextos de avaliação de sala de
aula, é interessante que os itens apresentem dificuldade média, no entanto, em contextos de
seleção em que há vários candidatos para poucas vagas, é importante que os itens tenham
índice de dificuldade alta, de forma que apenas os candidatos de alto desempenho consigam
acertá-lo. Já a discriminação é desejável que o item seja o mais discriminativo quando
possível.
A TRI surge no âmbito da psicometria moderna como resposta aos problemas apresentados
pela TCT e como complemento a esta e não como modelo substitutivo (ANDRIOLA, 2009).
Esse modelo trabalha com o traço latente, que é o teta (θ), fenômeno psíquico, como critério a
partir dos itens do teste (variáveis observáveis), assim, a qualidade do teste é determinada em
função dos itens, com isso, ela objetiva construir itens de qualidade (PASQUALI, 2009),
possui foco individualizado nos itens de um teste ou banco de itens (ANDRIOLA, 2009). A
TRI sugere que a probabilidade de acertar o item decorra dos seus parâmetros e do traço
latente (ou aptidão) do indivíduo exigida em um teste (VALLE, 2000). Dessa forma, esse
modelo apresenta uma contribuição importante em relação ao clássico, a possibilidade de
comparabilidade dos resultados de indivíduos de uma mesma população, mesmo que
submetidos a itens diferentes (MUÑIZ, 1990; PASQUALI, 2009; VALLE, 2000).
13
O índice de discriminação também é um parâmetro que pode ser considerado nos itens. Ele
informa a capacidade deste em distinguir sujeitos com habilidades (aptidão) distintas, sendo
representado pela letra a. Assim, quanto mais o item consegue diferenciar sujeitos com
magnitudes próximas de habilidade, mais discriminativo ele é (LAROS, 2009).
ato de resolução de um problema – de natureza cognitiva ao não – deve-se como causa uma
única estrutura latente [...]” (ANDRIOLA, 2009 p. 327). É importante destacar que, há
críticas consideráveis a esse pressuposto (TAVARES, 2013), em que se aponta inconsistência
desse pressuposto com a realidade, pois é não é difícil considerar que o conhecimento humano
é multideterminado, colocando em dúvidas essa ideia de unidimensionalidade.
Existem vários modelos de TRI na literatura e, como coloca Vale (2000), esses dependem
fundamentalmente de três fatores: a natureza dos itens (dicotômicos ou não), o número de
populações envolvidas e a quantidade de traços latentes medidos (quando mede mais de um
denominam-se modelos multidimensionais). Ressalta a autora que os modelos
unidimensionais para itens dicotômicos são os mais utilizados. Os modelos logísticos mais
comuns são classificados de acordo com os parâmetros utilizados (MUÑIZ, 1990;
PASQUALI, 2009; VALLE, 2000): de um parâmetro: dificuldade; de dois parâmetros:
dificuldade e discriminação; de três parâmetros: dificuldade, discriminação e probabilidade de
acerto ao acaso.
15
2.0. Conclusão
Chegado ao fim do nosso trabalho de pesquisa, o grupo concluíu que a fiabilidade de um teste
diz respeito à característica que ele deve possuir, a saber, a de medir sem erros, donde os
nomes, precisão, confiabilidade ou fiabilidade. Medir sem erros significa que o mesmo teste,
medindo os mesmos sujeitos em ocasiões diferentes, ou testes equivalentes, medindo os
mesmos sujeitos na mesma ocasião, produz resultados idênticos.
Anastasi, A., & Urbina, S. (2000). [Testagem psicológica] (7ª ed.). (M. A. V. Veronese,
Trans.). Porto Alegre: Artmed Editora.
Arbuckle, J. L., & Wothke, W. (1995-1999). Amos 4.0 user’s guide. Chicago: SmallWaters
Corporation.
SMITH, S.A., "Spare Capacity Fixed by Probabilities of Outage", Electrical World, Vol.
103,Fevereiro 1934
NOVICK, Melvin R. The axioms and principal results of classical test theory. Journal of
Mathematical Psychology, v. 3, n. 1, p. 1–18, 1966. DOI: https://doi.org/10.1016/0022-
2496(66)90002-2
SOUSA, Leandro Araujo de et al. Teoria de resposta ao item como possibilidade de análise de
testes educacionais de educação física. In: PONTES JUNIOR, José Airton de Freitas et al.
(org.). Métodos quantitativos em atividade física. Curitiba: CRV, 2018.
SOUSA, Leandro Araujo de; BRAGA, Adriana Eufrásio; TROMPIERI FILHO, Nicolino.
Educação Física em avaliações de larga escala: o caso do exame nacional do ensino médio -
Enem. Revista educação & Linguagem, v. 2, n. 1, p. 60–71, 2015. Disponível em:
https://www.fvj.br/revista/revista-educacao-e-linguagem/edicoes/2015-1/ Acesso em: 06 jan.
2020
TAVARES, Cristina Zukowsky. Teoria da resposta ao item: uma análise crítica dos
pressupostos epistemológicos. Estudos em Avaliação Educacional, v. 24, n. 54, p. 56–76,
2013. DOI: http://dx.doi.org/10.18222/eae245420131902