Você está na página 1de 21

D E 8 A 1 1 D E F EVE R E I RO

PROCESSOS DE REFINAMENTO DE
INSTRUMENTOS DE PESQUISA

E - B O O K R E S U M O AU L A 3
P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Na aula anterior, você viu todas as


evidências de validade de acordo com o
manual Standards for Psychological and
Educational Testing (AERA, APA, & NCME,
2014).

Agora, iremos abordar algumas


possibilidades para refinar o seu
instrumento, caso ele apresente
problemas. É importante destacar que
procedimentos de refinamento são
estratégias complexas, e este manual é
apenas para apresentar algumas
possibilidades, sem o intuito de lhe
ensinar os detalhes de cada
procedimento.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Recomenda-se, desde já, a literatura abaixo

Edelen, M.O., Reeve, B.B. Applying item response theory (IRT)


modeling to questionnaire development, evaluation, and
refinement. Qual Life Res 16, 5 (2007). https://doi.org/10.1007/
s11136-007-9198-

Goetz, C., Coste, J., Lemetayer, F., Rat, A. C., Montel, S., Recchia,
S., ... & Guillemin, F. (2013). Item reduction based on rigorous
methodological guidelines is necessary to maintain validity
when shortening composite measurement scales. Journal of
Clinical Epidemiology, 66(7), 710-718. https://
www.jclinepi.com/article/S0895-4356(13)00034-6/fulltex

Matt, C. H. (2016) A Review of Exploratory Factor Analysis


Decisions and Overview of Current Practices: What We Are
Doing and How Can We Improve?, International Journal of
Human–Computer Interaction, 32:1, 51-62, https://
doi.org/10.1080/10447318.2015.108766

Smith, G. T., McCarthy, D. M., & Anderson, K. G. (2000). On the


sins of short-form development. Psychological assessment,
12(1), 102. https://psycnet.apa.org/record/2000-07311-01

Stanton, J. M., Sinar, E. F., Balzer, W. K., & Smith, P. C. (2002).


Issues and strategies for reducing the length of self-report
scales. Personnel Psychology, 55(1), 167–194. https://
doi.org/10.1111/j.1744-6570.2002.tb00108.x
P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Cuidados que todo pesquisador precisa ter com o seu instrumento

Os instrumentos são um proxy do fenômeno investigado. Desse


modo, quanto melhor for o instrumento, mais adequada será a
mensuração. Antigamente, medidas eram, em gerais, muito
grandes. Acreditava-se os benef ícios estariam relacionados à
maior amplitude de comportamentos sendo avaliados, de modo
que, quanto maior o número de itens, mais ‘completa’ seria a
medida.

Entretanto, atualmente é perceptível que instrumentos com


muito itens apresentam uma série de problemas, dentre os
quais podemos destacar
Muita redundância entre os itens
Estruturas fatoriais instáveis
Itens com pouca informação adicional, em comparação com
os demais
Aumento nos erros da coleta
Escala pouco parcimoniosa;

Além disso, não raramente:

Instrumentos longos geram cansaço, desistência, respostas


aleatórias além de impedir a inserção de outras variáveis de
interesse na pesquisa.

Nesse sentido, é importante conhecer algumas técnicas


possíveis de serem implementadas quando o objetivo é refinar
um instrumento de pesquisa. Vamos abordar algumas
possibilidades nas páginas seguintes.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#1 VALIDADE DE CONTEÚDO

Quando se está criando ou adaptando uma medida, a etapa


inicial é atestar a sua validade de conteúdo. Como mencionado
na Aula 01, essa técnica, é geral é realizada com juízes experts
(i.e., profissionais que conhecem a fundo a temática investigada)
e com a população-alvo (i.e., pessoas que representam o público
que irá responder a medida.

Em ambos os casos, tanto com os juízes experts quanto com a


população alvo, é importante avaliar se há itens possíveis de
serem excluídos.

Muitas vezes, nesse processo, nos deparamos com itens pouco


claros, que não apresentam muita relevância prática ou teórica,
ou até mesmo itens redundantes, que dizem a mesma coisa
que outros itens do instrumento.

Ao se deparar com essas fontes de problema, o autor pode optar


por excluir ou aprimorar os itens problemáticos (principalmente
se estiver falando de uma medida que está sendo construída
pelo pesquisador).

Atenção: Antes de tomar qualquer decisão de exclusão de itens


com base na validade de conteúdo, sempre implemente
análises de concordância para estar seguro que a opinião sobre
itens problemáticos não é dada apenas por uma parcela muito
pequena de participantes.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#2 CARGA FATORIAL BAIXA

A carga fatorial é uma medida de ‘importância’ do item para o


fator. Quando padronizadas, essas cargas variam de 0 a 1
(positiva ou negativa). Quanto maior a carga fatorial, mais
correlacionado é o item com todos os outros itens do fator.

Em geral, as cargas fatoriais podem ser classificadas:


Entre + 0,30 e 0,40 (mínimo aceitável
Entre + 0,40 e 0,60 (significância prática
A partir de + 0,60 (itens fortes) (Hair et al., 2018)

Assim, é possível excluir itens que tenham carga fatorial baixa.


Diferentes estudos adotam diferentes pontos de corte. Por
exemplo, você pode optar por excluir itens com carga < 0,30 ou
0,40, por exemplo.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#3 CARGA FATORIAL CRUZADA

A princípio, os fenômenos psicológicos são complexos e


amplamente correlacionados entre si. Assim, quanto temos
instrumentos com muitos fatores, em geral, estes se encontram
correlacionados entre si.

Entretanto, para além das correlações entre os fatores, é possível


ver um padrão de itens com cargas fatoriais altas em mais de
um fator. A isso, dá-se o nome de carga fatorial cruzada.

Cargas cruzadas podem acontecer por várias razões


Itens mal construídos
Mensuram dois construtos ao mesmo tempo;

Por exemplo, veja o item abaixo:

Me sinto tão cansado(a), que não consigo tratar as pessoas no


meu trabalho com a atenção que elas merecem.

Ele mensura dois traços distintos do burnout (síndrome do


esgotamento profissional): exaustão emocional e
despersonalização. Assim, é muito provável que esse item
carregue em ambos os fatores.

Exclusão de itens com cargas cruzadas pode aumentar a


discriminação dos fatores
Solução mais limpa e mais interpretável;

Os pontos de corte para decidir o que é uma carga cruzada


significativa são arbitrários.

Steger et al. (2009), por exemplo, ao desenvolver uma nova


medida de Sentido de Vida decidiram manter itens que
apresentassem carga fatorial > .60 no fator original e < 0.20 nos
demais fatores.

Perceba que esses pontos de corte foram muito altos, para


separar, ao máximo os itens que compõem cada um dos fatores.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#4 ÍNDICES DE MODIFICAÇÃO

Os índices de modificação são uma das ferramentas mais


poderosas da Análise Fatorial Confirmatória e Modelagem por
Equações Estruturais. Nela, podemos identificar
Onde se encontram os principais problemas do model
Quais parâmetros poderiam ser adicionado
Quais parâmetros poderiam ser removidos ou re-inseridos

Dois principais tipos de Índices de Modificação: On e With

ON: Itens que deveriam estar em outros fatores

Item 4 on Despers.

Item 4: “Me sinto tão cansado(a), que não consigo tratar as


pessoas no meu trabalho com a atenção que elas merecem”.

Esse tipo de índice de modificação sugere que o fator


‘Despersonalização’ deveria explicar o item 4, conforme
apresentado pela linha vermelha pontilhada.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Se essa sugestão não for teoricamente plausível, é possível


excluir o item 4 do modelo, para tornar os resultados do ajuste
da escala melhores.

WITH: Itens que apresentam correlação residual entre si

Item 2 with Item 3.

Isso indica que o resíduo do item 2 apresenta correlação não


negligenciável com o resíduo do item 3.

Item 2: Me sinto esgotado(a) no meu trabalho

Item 3: Meu trabalho esgota as minhas energias

Muitas vezes, itens que apresentam covariância residual podem


indicar sobreposição de conteúdo. Veja, por exemplo, que os
itens 2 e 3 mensuram o mesmo fenômeno, apenas com
diferentes palavras.
P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Nesses casos, é possível optar por excluir, entre os pares de itens


com correlação residual, aquele que tenha carga fatorial menor
no fator.

Importante: Índices de modificação ‘WITH’, também podem


estar indicando fator latente mal-modelado.

Por exemplo, vários índices de modificação entre os itens 4, 5, 6


e 7, podem indicar que eles precisariam se agrupar em um fator
latente que não foi pensado a priori

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#5 THRESHOLD DESORDENADOS

Os thresholds (em português denominados ‘limiares’) referem-


se ao nível de traço latente necessário para que o sujeito
responda entre as categorias das escalas likert.

Por exemplo, veja a escala likert abaixo:

Para um item: “Eu estou satisfeito com a minha vida”, espera-se


que pessoas mais satisfeitas marquem as categorias mais altas
do item.

Além disso, espera-se que quem marque 5 tenha mais


satisfação com a vida do que quem marque 4; quem marque 4
tenha mais satisfação do que quem marcou 3, e assim
sucessivamente. Isso porque as escalas likert são opções
ordenadas de resposta, das menores para as maiores.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Durante a avaliação das respostas, haverá um ponto de


intersecção onde os respondentes terão a mesma probabilidade
de responder a categoria 1 e 2; 2 e 3; 3 e 4; 4 e 5; e 5 e 6.

Esses pontos são os denominados ‘thresholds’ (limiares) e, na


figura abaixo, estão representados pelas linhas verticais
pontilhadas.

Na Teoria de Resposta ao Item, podemos avaliar se o padrão


crescente esperado está, de fato, acontecendo.

Quando o nível de traço latente não aumenta de acordo com as


respostas à escala likert, dizemos que estamos diante de escalas
com Thresholds desordenados. Quando isso acontece apenas
para alguns itens, podemos excluir os itens com problemas.
P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#6 FUNCIONAMENTO DIFERENCIAL DO ITEM

Funcionamento Diferencial do Item (em inglês, Differential Item


Functioning, DIF) acontece quando dois sujeitos que tem o
mesmo nível de traço latente respondem de maneira diferente
ao item. Isso indica que algo externo ao construto está
‘impactando’ na resposta ao item

Ex: Item que mensura ‘Choro f requente’ em escalas de


depressão:

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Esse é o típico item onde homens e mulheres, mesmo que


tenham o mesmo nível de depressão, tendem a responder de
forma diferente, seja por questões culturais envolvidas no ‘choro’
ou por diferenças biológicas na manifestação da doença entre
homens e mulheres.

Por exemplo, mulheres poderiam, em geral, responder mais alto


(4 e 5) enquanto homens poderiam, em geral, responder mais
baixo (2 e 3)

Escalas que apresentam itens com funcionamento diferencial


trazem problemas nas comparações entre os grupos.

Se nada for feito para aprimorar a mensuração, excluindo os


itens com funcionamento diferencial, facilmente chegaríamos
na interpretação equivocada de quem um grupo tem maior do
que o outro, quando na verdade, pode ser que eles tenham o
mesmo escore no atributo que está sendo medido, apenas
estão respondendo a itens enviesados.
P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#7 INFIT E OUTFIT

Derivados do modelo Rasch de Teoria de Resposta ao Item, os


indicadores de INFIT e OUTFIT indicam se os itens e as pessoas
estão tendo desempenho adequado.

Infit: Pessoas com nível de traço latente equivalente à


dificuldade do item não respondem como o esperado.

Equivalência na proporção de pessoas que endossam e que não


endossam o item.

Outfit: Pessoas com nível de traço latente diferente da


dificuldade do item não respondem como o esperado

Quando Theta > Dificuldade: Espera-se que as pessoas


endossem os itens
Quando Dificuldade > Theta: Espera-se que as pessoas não
endossem os itens.

Problemas nos indicadores de INFIT e OUTFIT são indicativos de


que os itens não estão sendo respondidos conforme o esperado.
É importante avaliar criticamente estes itens e problematizar
teoricamente o porque esse resultado ocorre. Itens que
apresentam problemas no INFIT e OUTFIT podem ser
reformulados ou excluídos.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#8 DIFICULDADE DO ITEM

De maneira geral, todo instrumento deveria ter itens fáceis e


itens dif íceis

Itens fáceis referem-se a itens que boa parte das pessoas


conseguem responder a categoria mais alta (Concordo
totalmente
Itens dif íceis referem-se a itens que poucas pessoas
conseguem responder a categoria mais alta (Concordo
totalmente)

Se a escala for muito fácil, quase todos os participantes vão


atingir o teto (responder tudo alto). Em casos de estudos com
intervenção, isso acaba por inviabilizar a mensuração dos
avanços obtidos, já que os participantes, a priori, já poderiam ter
escores muito elevados na escala.

É relativamente raro encontrar escalas que tenham boa


dispersão dos itens ao longo do continuum do traço latente. Ao
contrário, a maioria das escalas têm itens que se encontram
altamente agrupados, em termos de dificuldade. Muitas vezes,
diferentes itens têm a mesma dificuldade, e, em termos da
Teoria de Resposta ao Item, isso não é bom, pois são itens que
tendem a apresentar uma certa redundância na mensuração.

Caso você tenha um instrumento com muitos itens, e alguns


deles agrupados em termos de dificuldade, você pode optar por
excluir alguns que se mostrem redundantes. Em geral, a escolha
de qual item incluir, nesse caso, deve levar em consideração
outras informações psicométricas, como carga fatorial,
indicadores de Infit e Outfit, entre outros.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

#9 CURVA DE INFORMAÇÃO DO ITEM

Também derivada da Teoria de Resposta ao Item, a Curva de


Informação do Item (CII) indica quão bom o item é para
mensurar o construto em pessoas com diferentes níveis de
traço latente.

Diferentemente da técnica da Análise Fatorial, na TRI, os itens


apresentam funcionamento diferenciado, para diferentes
pessoas.

A TRI tem a capacidade de avaliar para quais pessoas os itens e


o teste funcionam melhor e pior.

Ao avaliar a CII, temos a possibilidade de excluir itens baseados


na falta de informação que esses itens trazem para o construto.

P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Na figura, por exemplo, é possível ver várias curvas de


informação. No Eixo X, o nível de traço latente (que varia de -4 a
+4). No eixo Y, a quantidade de informação do item.

Veja, por exemplo, que o item rosa (Rule 4) é o que mais traz
informação à mensuração, e seu pico está situado um pouco
abaixo do nível 0 de theta. Veja que alguns outros itens, como
por exemplo o item vermelho (Rule 3), traz informação
virtualmente nula para a mensuração do traço latente.

O item laranja (Rule 8), por sua vez, até traz alguma informação,
mas em momento alguma ela se sobressai, em relação aos
outros itens.

Itens que não trazem informação nenhuma (Rule 3) ou que não


trazem nenhuma informação adicional à mensuração (Rule 8,
por exemplo), são candidatos a serem excluídos do teste, pois
estou tornando a medida mais longa do que precisaria, sem
ajudar na estimativa do traço latente dos respondentes.

Várias Razões para Reduzir a Escala

Conforme pôde ser visto ao longo da Aula 03 da Semana da


Validação de Instrumentos de Pesquisa, existem várias razões
para reduzir um instrumento, tais como

Aumentar a parcimônia da medida


Manter os itens mais fortes
Melhorar a estabilidade fatorial
Melhorar os índices de ajuste
Manter ou melhorar a validade com medidas externas;
P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Ao utilizar procedimentos adequados de refinamento, é possível


não só reduzir a escala, mas até mesmo melhorar a mensuração
do fenômeno de interesse.

Tabela baseada em: Goetz et al. (2013)


P R O C ES S O S D E R E F I N A M E N TO D E I N ST R U M E N TO S D E P ES Q U I SA
R E S U M Ã O D A A U L A 3

Referência

Goetz, C., Coste, J., Lemetayer, F., Rat, A. C., Montel, S., Recchia,
S., ... & Guillemin, F. (2013). Item reduction based on rigorous
methodological guidelines is necessary to maintain validity
when shortening composite measurement scales. Journal of
Clinical Epidemiology, 66(7), 710-718. https://
www.jclinepi.com/article/S0895-4356(13)00034-6/fulltex

Hair, J. F., Babin, B., Anderson, R., & Black, W. (2018).


Multivariate data analysis: A global perspective. Upper Saddle
River, N. J: Pearson Education

Steger, M. F., Frazier, P., Oishi, S., & Kaler, M. (2006). The
Meaning in Life Questionnaire: Assessing the presence of and
search for meaning in life. Journal of Counseling Psychology,
53, 80-93.
PROCESSOS DE REFINAMENTO DE INSTRUMENTOS DE PESQUISA
RESUMÃO DA AULA 3

QUEM SOU

BRUNO FIGUEIREDO DAMÁSIO


Sou Psicólogo, mestre e doutor em Psicologia. Venho me dedicando à
Psicometria desde 2007.

Fui professor e chefe do Departamento de Psicometria da UFRJ durante os


anos de 2013 a 2020. Fui editor-chefe da revista Trends in Psychology, da
Sociedade Brasileira de Psicologia (SBP) eEditor-Associado da Spanish
Journal of Psychology, na sub-seção Psicometri e Métodos Quantitativos.

Tenho mais de 50 artigos publicados e mais de 3000 citações, nas


melhores revistas nacionais e internacionais. Atualmente, me dedico a
formação de novos pesquisadores, através da Psicometria Online Academy.
Minha missão é ampliar a formação em Psicometria no Brasil e lhe auxiliar
a conquistar os seus objetivos profissionais.

Você também pode gostar