Você está na página 1de 12

PSICOMETRIA: VALIDADE E FIDEDIGNIDADE

Profa. Dra. Sueli de Carvalho Vilela

VALIDADE DE TESTES E INSTRUMENTOS DE PESQUISA

A validação de um teste, segundo Urbina (2007) é processo por meio do qual as


evidencias de validade são coletas. Acrescenta ela que a validade uma questão de
julgamento que diz respeito aos escores do teste, como são empregados em um contexto
especifico.

Para Pasquali (2009) a validade diz respeito ao aspecto da medida ser


congruente com a propriedade medida dos objetos e não com a exatidão com que a
mensuração, que descreve esta propriedade do objeto, é feita. Assim, ela inicia com a
formulação de definições detalhadas do traço ou construto, derivadas da teoria
psicológica, pesquisa anterior, ou observação sistemática e análises do domínio
relevante do comportamento bem como dos itens do teste, ou seja, eles estão ou serão
preparados para se adequarem às definições do construto.

A determinação classifica da validade refere-se ao grau em que um teste mede o


que se pretende medir. Atualmente, por meio de estudos feitos por alguns estudiosos da
área, a validade de um teste diz respeito a o que o teste mede e com que eficácia ele faz.

O termo fidedignidade refere-se à confiabilidade, ou seja, os usuários de testes


precisam ter certeza e confiança de que os escores são consistentes e precisos.

Evidencias de validade de construto pode ser abalizada por meio de validade


relacionada ao conteúdo, à convergência e divergência e ao critério. Estas categorias de
abalizamento não são unanimes para todos os autores.

Relacionados ao conteúdo, as fontes de evidencia são relevância e


representatividade do conteúdo do teste e dos processos de respostas às tarefas e
validade de face ou de aparência. Em relação à convergência e divergência estão à
consistência interna de resultados e de outras medidas de fidedignidade, correlações de
testes e subtestes, matriz de multitraço-multimétodo, resultados experimentais, analise
fatorial exploratória e técnicas de modelagem de equação estrutura. Já as relacionadas
aos critérios estão às decisões tomadas pela validação concorrente e preditiva.

A validação de conteúdo

A validação de Conteúdo é uma validação subjetiva que verifica se o teste mede


aquilo que ele propõe a medir pelo viés do seu conteúdo de itens que é feita por juízes.
Assim, inicia-se na elaboração dos itens.
OS critérios apontados por Pasquali (2010) e Urbina (2007) na validação de
juízes: observa-se a clareza da linguagem ou inteligibilidade, a pertinência pratica,
relevância teórica, dimensão teórica, representatividade, aparência. Isso se refere ao
grau em que os itens são relevantes e representativos para medir o construto em questão,
se são inteligíveis e claros a população a ser pesquisadas ou aos aplicadores, ou seja, a
validade aparente refere-se à aparência superficial do instrumento, daquilo que teste
mede na perspectiva de um testando ou de um observador leigo.

Clareza de linguagem: considera a linguagem usada nos itens e nos esclarecimentos do


teste tendo em vista as características da população-meta. Os itens devem ser claros,
inteligíveis, isso quer dizer que não podem ser muito podem ser usadas palavras muito
elaboradas que a população de menor esclarecimento não compreenda, mas não pode
ser usada palavras chulas que desvalorize os itens para uma população mais instruída.

Pertinência prática: observa-se se cada item foi elaborado de forma avaliar o conceito
de interesse em uma determinada população. Analisa se o item tem importância para o
instrumento.

Relevância teórica: considera-se o grau de associação entre o item e a teoria adotada


no instrumento. Visa analisar se o item está relacionado com o constructo a que se
propõe medir.

Dimensão teórica: investiga-se a adequação de cada item à teórica usada. Analisa se o


item pertence à dimensão, fator ou atributo a que ele está exposto.

Este tipo de validade é usado em tradução e adaptação cultural e na elaboração


de um instrumento e ela promove o rapport e a aceitação da testagem e de seus
resultados por parte dos testando (URBINA, 2007, PAQUALI, 2010).

Em relação à validação por padrões de convergência e divergência, aplica-se a


áreas de constructo, e em teste de traços de personalidade, ou seja, para testes mais
teóricos e abstratos.

A validade convergente refere-se a evidencias da semelhança ou identidade dos


construtos avaliados e a discriminante está baseada em correlações consistentemente
baixas entre as medidas que devem diferir, também usadas para substanciar a identidade
dos constructos.

Procedimento para validação de conteúdo

Escolhem-se os juízes avaliadores, geralmente pessoas que tenham


conhecimento na área em que será usado o instrumento e na teoria que está sendo usada.
Não existe uma regra básica de quantos juízes são necessários, Pasquali (2010) aponta
que de 3 a 5 juízes são suficientes. Faz-se o convite a estas pessoas, esclarecendo sobre
o instrumento em elaboração ou em tradução e adaptação; convite aceito envia-lhes uma
planilha para submissão do questionário na qual eles irão responder. Sugere-se que seja
enviado aos juízes também instruções sobre os fatores, construtos ou atributos com os
quais estão sendo trabalhados.

Você pode pedir para o juiz-avaliador se ele valida os itens em relação aos
critérios por meio de dimensão dicotômica (sim ou não) ou por escala tipo likert com
graus de variação entre o concordar e não concordar, ou seja, uma variante entre 1 a 5,
em que 01 representa „pouquíssima‟, 2 „pouca‟, 3 „média‟, 4 „muita‟, e 5 „muitíssima‟.

Veja um modelo retirado de Pasquali (2010):

ITENS Clareza Pertinência Relevância Dimensão Observação


linguagem teórica avaliada
Item 01 ..... 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5
Item 02 ... 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5
Item 03 ... 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5
Item 04 ... 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5 1/2 /3 /4/ 5

A avaliação nesta etapa é feita por meio do calculo do teste de coeficiente de


validade de conteúdo que engloba as variáveis a serem analisada exceto a dimensão
teórica por ser uma variável categórica.

O calculo de coeficiente de validação de conteúdo e feito da seguinte forma segundo


Pasquali (2010) citando HERNÁNDEZ-NIETO (2002):

1. Com base nas notas dos juízes (1 a 5) calcula-se a


media das notas de cada item (MX) onde: i = 1
representa a soma das notas dos juízes; J representa o
numero de juízes que avaliaram o item.

2. Com base na média, calcula-se o CVC inicial para


cada item (CVCi) onde: Vmax representa o valor
máximo que o item poderia receber ( 1 a 5 – valor
máximo 5)

3. É recomendado por Pasquali que faça ainda o calculo de erro (Pei), para
descontar possíveis vieses dos juízes-avaliadores, para
cada item.

4. Com isso o CVC final ficará:


Para o calculo do CVC total (CVCT), para cada uma das características (clareza
de linguagem, pertinência pratica e relevância teórica) sugere-se:

Onde: Mcvci representa a media dos coeficientes de validade de conteúdo dos


itens do instrumento e Mpei a media de erros dos itens.

Os valores aceitáveis são CVCC > 0,8 para cada questão. Pasquali (2010)
salienta que este ponto de corte pode ser relativizado uma vez que os juízes poderão ter
formações e opiniões diferentes.

Para a análise da dimensão teórica busca-se a concordância entre as avaliações


dos juízes (inter-avaliador) pelo coeficiente de Kappa por ser uma variável categórica.

O coeficiente de Kappa é calculado para a concordância de apenas dois juízes


(Kappa médio). Ele além de auxiliar na compreensão teórica é útil também para auxiliar
na previsão e compreensão das posteriores análises fatoriais (PASQUALI, 2010).

Para a interpretação deste coeficiente pode se usar o critério de Landis e Koch (1977)
apresentado a seguir.

Valor do Kappa Nível de concordância


<0 Discordância
0 – 0,20 Quase nenhuma
0,20 – 0,40 Pequena
0,40 – 0,60 Moderada
0,60 – 0,80 Substancial
0,80 – 1,00 Quase perfeito

Observações diferentes devem ser feitas para instrumentos multidimensionais ou


para aqueles que um item pode medir mais de fator. Nestes casos deve oferecer aos
juízes, uma coluna na planilha que ele possa indicar em qual fator ele colocaria o item
em avaliação.

O autor sugere, para instrumentos dicotômicos na analise de conteúdo, para


verificar o acordo entre os juízes, pode ser utilizada a fórmula índice de concordância
proposta por Kazdin (1982) e Fagundes (1985), sendo o Índice de Concordância (IC)
igual ao número de acordos de respostas divididos pela soma das respostas em acordo
mais respostas em desacordo, multiplicado por 100. Padronizou-se que o índice de
concordância seria de 80%, conforme sugestão de Pasquali (2010).

VALIDADE RELACIONADA AO CRITÉRIO

As medidas de critério são índices dos critérios que os testes pretendem avaliar
ou predizer, coletados independentes do teste em questão. A validade de critério de um
teste consiste no grau de eficácia que ele tem em predizer um desempenho específico ou
comportamento de um sujeito. O desempenho ou comportamento do sujeito torna-se,
assim, o critério contra o qual a medida obtida pelo teste é avaliada. Evidentemente, o
desempenho do sujeito deve ser medido/avaliado por meio de técnicas que são
independentes do próprio teste que se quer validar (PASQUALI, 2009; URBINA,
2007).

As decisões relacionadas a critérios para os quais os escores do teste têm a


possibilidade de ser uteis podem ser classificadas de dois tipos segundo Urbina (2007):
a) aquelas que envolvem a determinação de um status atual de uma pessoa e b) aquelas
que envolvem a predição de um desempenho ou comportamento futuro. No entanto,
tanto uma quanto a outra possibilidade será feita segundo a informação que os escores
podem transmitir deriva de seu comportamento atual, ou seja, do desempenho do
testando no momento da testagem.

Independentes disso, os procedimentos relacionados a critério são categorizados


como concorrentes ou preditivos. Para Pasquali (2009), a diferença fundamental entre
os dois tipos é basicamente uma questão do tempo que acontece entre a coleta da
informação pelo teste a ser validado e a coleta da informação sobre o critério. Se estas
coletas forem (mais ou menos) simultâneas, a validação será do tipo concorrente; caso
os dados sobre o critério sejam coletados após a coleta da informação sobre o teste,
trata-se em validade preditiva. Para ele, o fato de a informação ser obtida
simultaneamente ou posteriormente à do próprio teste não é um fator tecnicamente
relevante à validade do teste. Relevante, sim, é a determinação de um critério válido.

A natureza central deste tipo de validação é: (1) definir um critério adequado e


(2) medir o critério de forma válida e independentemente do próprio teste.

Os critérios normalmente usados para validação de incluem: uso de outros testes


já validados que meçam o mesmo constructo, desempenho acadêmico, desempenho em
treinamento especializado ou profissional, diagnóstico psiquiátrico e diagnósticos
subjetivos.

As correlações entre os escores de testes e as medidas de critério são geralmente


denominadas de coeficientes de validade.

a) Validação concorrente

Suas evidencia são coletadas quando os índices dos critérios que os escores do teste
pretende avaliar estão disponíveis no momento em que o estudo de validação estão
sendo realizados ou conduzidos. Assim, é apropriada para escores de teste que serão
empregados para determinar o status atual e uma pessoa em algum sistema
classificatório ( ex. categorias diagnósticas ou níveis de desempenho).

Quanto à validade concorrente, ela só faz sentido se existirem testes comprovadamente


válidos que possam servir de critério contra o qual se quer validar um novo teste e que
este novo teste tenha algumas vantagens sobre o antigo (PASQUALI, 2009).
b) Validação preditiva

São relevantes para escores d etestes que serão usados na tomada de decisões baseada
em estimativa de níveis de desempenho ou resultados comportamentais futuros.

Seus procedimentos requerem que sejam coletados dados sobre a variável preditora
(escores do teste) e que se espere que os dados de critério se tornem disponíveis para
que os dois conjuntos de dados possa, se correlacionados.

Segundo Urbina (2007) não é pratico tal processo devido ao elemento temporal e a
dificuldade de encontrar amostras adequadas. Assim, a validação concorrente costuma
ser usada como substituta da preditiva mesmo para testes de desempenho futuro.

VALIDADE DE CONSTRUTO - POLO ANALÍTICO

Pasquali (1996, 1998, 1999, 2010) afirma que, para se desenvolver uma escala
de análise de construto, existem três polos que devem ser considerados na preparação,
sendo eles: o Polo Teórico, o Polo Empírico e o Polo Analítico.
O polo teórico explicita a teoria pelo seu traço latente ou construto. Explicam-se
os tipos, categorias e comportamentos que constituem a representação desse construto
no campo da operacionalidade. Acrescenta-se neste polo a construção dos itens e
Análise teórica dos itens, que envolve um tipo de validade, nela inclui Análise
Semântica dos Itens, Análise de construto ou de juízes.
O polo empírico é a etapa relacionada à experimentação do instrumento de
medida, isto é, planejamento da técnica de aplicação do instrumento piloto e a própria
coleta da informação empírica. Essa etapa visa à avaliação da qualidade psicométrica.
Nesse sentido, considera-se que o instrumento de medida esteja desenvolvido, sendo
denominado de instrumento piloto. O instrumento piloto é a representação
comportamental dos construtos que se portam como hipótese a ser empiricamente
testada pela validação do instrumento (PASQUALI, 1996, 1999, 2010).
O polo empírico envolve os procedimentos de planejamento de aplicação, que,
por conseguinte, inclui informações claras e relevantes sobre a amostra e sobre as
instruções de aplicação. A coleta de informação empírica deve envolver as precauções
quanto ao ambiente e quanto ao aplicador, exigidas em usos de instrumentos
psicológicos. Estes procedimentos serão tratados em capitulo separado.
Para Pasquali (2010), a amostra refere-se à população-meta, isto é, à população a
que se destina o instrumento, sendo necessário defini-la quanto ao tipo de população em
termos de características bio-psico-demográficas.
Refere-se também, quanto à quantidade amostral, dizendo que geralmente, entre
cinco a dez sujeitos por item do instrumento serão suficientes para responder a essa
questão, ressaltando que, para qualquer análise fatorial, uma população inferior a
duzentos dificilmente é considerada adequada.
As instruções de aplicação do instrumento devem envolver os contornos da
tarefa do respondente definidas sistematicamente, assim como o formato de
apresentação do instrumento (PASQUALI, 2010). Na sistemática, definem-se as
condições de aplicação, isto é, se aplicado individualmente ou em grupo, se são
necessários contatos prévios, se o instrumento é auto-aplicado ou aplicado por terceiros,
local de aplicação e outras. Quanto ao formato, deve-se decidir como a resposta do
aplicador será dada para cada item, isto é, a apresentação escalonar escolhida.
Por fim, refere-se às instruções que acompanham o instrumento, as quais têm
por finalidade tornar a tarefa do respondente clara: devem ser curtas, mas passíveis de
compreensão da tarefa, tal como conter um ou mais exemplos de como o aplicador deve
proceder; refere-se também às precauções quanto ao ambiente e ao aplicador
(PASQUALI, 1996, 1999, 2010).
O polo Analítico é aquele no qual estabelecem-se os procedimentos estatísticos
que irão validar e precisar o instrumento. Várias são as maneiras ou classes de testes que
contribuem para a validade de um instrumento, dentre as quais selecionaram-se: a
dimensionalidade ou validade do instrumento e a fidedignidade do instrumento.
Trataremos neste texto sobre a validade/dimensionalidade e fidedignidade dos
instrumentos de pesquisa.

a) Dimensionalidade do instrumento

A dimensionalidade do atributo diz respeito a sua estrutura interna, isto é, à


semântica dos itens, trata-se da validade de construto, ponderando que nessa validade
pretende-se descobrir se a representação do teste (item) constitui numa representação
legítima do construto (PASQUALI, 1996, 2009). É uma análise necessária antes de
avaliar qualquer característica ulterior de um item, segundo Pasquali (2009), visto que
ela é central na análise dos itens de um teste.
Na dimensionalidade pode-se trabalhar de várias formas, contudo duas delas são
mais aceitas: a análise da representação comportamental do construto por meio da
análise fatorial ou de consistência interna. A dimensionalidade baseada na análise
fatorial (AF) trabalha com análises multivariadas e matrizes de intercorrelações entre
uma série de variáveis ou itens. Consiste em verificar se uma série de itens pode ser
reduzida a uma única dimensão, chamada de fator, que neste estudo é chamada de
atributo. A AF produz, para cada item, uma carga fatorial que indica a covariância entre
o item e o traço latente. Sua base teórica é que as variáveis sejam correlacionadas
porque partilham um ou mais componentes de tal forma que a correlação entre elas pode
ser expressa por fatores subjacentes (PASQUALI, 1999, 2010).
A análise fatorial é uma técnica multivariada da estatística, servindo aos
propósitos de análise exploratória e de confirmação, conforme definido por HAIR
JÚNIOR et al. (2005), ou seja, exploratória da estrutura do conjunto de variáveis (itens)
e de confirmação, por já se ter uma idéia preconcebida sobre a estrutura real dos dados e
desejar-se testar a hipótese. Assim, sua lógica foi verificar quantos construtos comuns
são necessários para explicar as covariâncias ou inter-relações dos itens (PASQUALI,
2009).
Pasquali (2010) aponta que a análise fatorial mostra a porcentagem de
covariância entre o item e fator, de modo que quanto mais próximo de 100% de
covariância do item-fator, melhor o item será por constituir-se uma ótima representação
comportamental do traço latente. Os itens da série que tiverem alta carga fatorial são
itens unidimensionais, já que medem o mesmo fator. A carga fatorial varia de zero a
um, sendo a que a mesma para ser significativa, tem o valor de pelo menos 0,30.
Todavia, a carga fatorial de 0,30 é pouco representativa e que o se espera é uma carga
fatorial igual ou maior que 0,50 (PASQUALI, 2009, 2010). Assim, optou-se por
considerar o valor de referencia de 0,40 como referencial mínimo para considerar o item
unidimensional no atributo.
Procurou-se comprovar a fatorabilidade dos dados à realização da análise
fatorial exploratória, através do índice Kaiser-Meyer-Olkin (KMO) e do teste de
esfericidade de Bartlett ou “esfericidade” que avalia a qualidade do ajuste do modelo de
análise fatorial.
O teste Kaiser-Meyer-Olkin (KMO), usado para adequação para realização da
análise fatorial, indica a proporção da variância dos dados que pode ser considerada
comum a todas as variáveis; então, quanto mais próximo de 01 (unidade) melhor o
resultado, ou seja, mais adequada é a amostra à aplicação da análise fatorial
(MALHOTRA, 2001), mas devem ser aceitos os valores iguais ou superiores a 0,60
(TABACHNICK; FIDELL, 2007). Optou-se por acatar Malhotra (2001), o qual estipula
que valores iguais e superiores a 0,50 de variância indicam que a análise fatorial é uma
técnica apropriada para o conjunto de dados em questão.
O teste de esfericidade de Bartlett é usado para examinar a hipótese de que as
variáveis não sejam correlacionadas na população, ou seja, testa se a matriz de
correlação é uma matriz identidade, o que indicaria que não há correlação entre os
dados. Em outras palavras, testa a hipótese nula de que a matriz de covariâncias das
variáveis dependentes ortonormalizadas é proporcional a uma matriz de identidade.
Dessa forma, procura-se, para um nível de significância assumido em 5%, rejeitar a
hipótese nula de matriz de correlação identidade (MALHOTRA, 2001).
Também foi avaliado o percentual total de variância explicada pelo modelo,
além dos autovalores e scree-plot para definição do número de fatores a ser
considerado. Esse gráfico auxilia na definição do número de fatores a serem
considerados na análise. O número ótimo de fatores é obtido quando a variação da
explicação entre os fatores consecutivos passa a ser pequena, isso porque o primeiro
valor difere do segundo, que difere do terceiro e assim sucessivamente (LIMA
JÚNIOR, 2006). É preconizado que o número de fatores máximo deve considerar o
ponto de estabilidade do gráfico.
A matriz fatorial foi feita utilizando-se a rotação varimax, que é um método de
rotação ortogonal dos fatores (itens), mais utilizado no SSPS, que minimiza o número
de variáveis que cada agrupamento terá, simplificando a interpretação dos fatores
(LIMA JÚNIOR, 2006). Foram excluídos os itens com carga fatorial menor que 0,40.
Na consistência interna, a prova de dimensionalidade vem como colaboradora da
análise fatorial, pois ela irá comprovar ou refutar a correlação de cada item e o restante
dos itens num determinado fator. A consistência interna será descrita à frente, na
terceira etapa de validação, que envolve a precisão ou homogeneidade do teste.

b) Fidedignidade do instrumento

Existe uma variabilidade de conceitos relacionados à fidedignidade, mas todos


eles se referem a quanto um escore obtido no teste se aproxima do escore verdadeiro do
sujeito num determinado traço, de maneira que está diretamente ligada ao conceito de
variância de erro, visto que, quanto maior for à variância verdadeira, menor será a
variância de erro e mais fidedigno é o teste é (PASQUALI, 1996, 1999, 2010).
A definição estatística da fidedignidade é feita por meio da correlação de escores
produzidos em duas situações criadas pelo mesmo teste, sendo que essa correlação deve
se aproximar da unidade (cerca de 0,90%) para ser significativa. Para isso, optou-se por
utilizar a análise de consistência interna.
A análise de consistência interna consiste em calcular a correlação que existe
entre cada item do teste e o restante dos itens (PASQUALI, 2009), para tal optou-se por
trabalhar com o coeficiente alfa de Cronbach, por exigir aplicação em uma única
ocasião, evitando a constância temporal.
O coeficiente α é calculado a partir da variância dos itens individuais e da
variância da soma dos itens de cada avaliador de todos os itens de um questionário que
utilizem a mesma escala de medição (HORA; MONTEIRO; ARICA, 2010). Os seus
resultados devem assumir valores entre um e infinito negativo, sendo que, quanto maior
for o valor do alfa, maior a homogeneidade dos itens avaliados, indicando a acurácia da
medida, ou seja, a confiabilidade do instrumento (GUILLERMIN; BOMBARDIER,
1993, PASQUALI, 2009). Muitos trabalhos utiliza, como aceitável, a referência de
valores do alfa Cronbach de 0,60, tal qual proposto por DeVellis (1991).
Parece não haver um padrão absoluto na literatura quanto aos valores aceitáveis
desse coeficiente. Fayers e Machin (2000), Pasquali (2009, 2010) e Zanei, (2006)
recomendam que valores iguais ou acima de 0,70 refletem uma fidedignidade aceitável;
em contrapartida, salientam que valores inferiores a 0,70 podem ser aceitos se a
pesquisa for de natureza exploratória. Concordando com isso, Corrar, Paulo e Dias
Filho (2007) citam Hair Júnior et al. (2005), os quais sugerem que, em pesquisas
aplicadas, o valor mínimo ideal é de 0,70 e, em pesquisas exploratórias, esse valor é de
0,60, enquanto que Malhotra (2001) reconhece como aceitáveis valores iguais ou
superiores a 0,60.
Quando se deseja fazer uma análise de correlação entre duas variáveis contínuas
assimétricas, ou seja, entre cada fator e entre estes fatores e a escala global, pode-se
utilizar do Coeficiente de Correlação de Spearman.
O coeficiente de correlação de postos de Spearman é uma medida de correlação
não-paramétrica que deve ser usado para as variáveis medidas no nível ordinal. Ele
avalia uma função monótona arbitrária que pode ser a descrição da relação entre duas
variáveis, sem fazer nenhuma suposição sobre a distribuição das mesmas. Segundo
Silveira (1991), a relação entre uma escala intervalar e ordinal é de monotonicidade e a
transformação monotônica em uma variável causa pouco efeito sobre coeficientes de
correlação. Assim, uma variável medida em nível ordinal pode ser tratada como
intervalar.
Pasquali (2010) considera, no critério de fidedignidade em estudos
observacionais, a análise da reprodutividade do teste. Esta análise pode ser feita pela
medida de acordo entre os observadores. Para tal, dois observadores aplicaram o teste
na mesma população e no mesmo fenômeno. A medida de acordo entre os observadores
privilegia a intersubjetividade.
Para examinar a produtividade pode-se utilizar do Kappa Ponderado e o
coeficiente de correlação de Spearman.
O Kappa Ponderado é um índice estatístico utilizado para calcular a
reprodutibilidade quando as variáveis são ordinais e os resultados podem ser expressos
por mais de duas categorias. Este índice confere, assim, maior importância à maior
discordância, atribuindo-lhe maior peso quando se procede ao cálculo da
reprodutibilidade. Assim, no cálculo da reprodutibilidade, usando o Kappa Ponderado, a
concordância e os diferentes níveis de discordância vão ter diferentes pesos.

CONSIDERAÇÕES FINAIS

Considera-se que a psicometria é uma questão importante à medida que se


deseja obter dados reais e verdadeiros relacionadas a instrumentos de medida.
Atualmente não se aceita pesquisas como verdadeiras e válidas quando se usa
instrumentos de coleta de dados elaborados por meio de uma revisão do autor
simplesmente. Faz-se necessário saber se o instrumento mede aquilo que se pretende
medir, ou seja, se valido e fidedigno.

REFERENCIAS

CORRAR, L. P.; PAULO, E.; DIAS FILHO, J. M. Análise multivariada Análise


Multivariada para os Cursos de Administração, Ciências Contábeis e Economia. São
Paulo: Atlas, 2007.

DEVELLIS, R. F. Scale development: theory and applications. Newbury Park: Sage


Publications, 1991.

FAGUNDES, A. J. F. M. Descrição, definição e registro de comportamento. São


Paulo: Edicon, 1985.

FAYERS, P. M.; MACHIN, D. Quality of life assessment, analysis and


interpretation. England: John Wiley e Sons, 2000.
GUILLERMIN, F.; BOMBARDIER, B. Cross-cultural adaptation of healt-related of
life measures: literatura review and proponed guide-lines. Journal of Clinical
Epidemiology, Ottawa, v. 46, n. 12, p. 1471-1483, 1993.

HAIR JÚNIOR, J. F. et al. Análise multivariada de dados. 5. ed. Porto Alegre:


Bookman, 2005.

HERNÁNDEZ-NIETO, R.A. Conctribuiciones al análisis estadístico. Mérida,


Venezuela: Universidade de Los andes/ IESINFO.2002
HORA, H. R. M.; MONTEIRO, G. T. R.; ARICA, J. Confiabilidade em questionários
para qualidade: um estudo com o Coeficiente Alfa de Cronbach. Produto & Produção,
Porto Alegre, v. 11, n. 2, p. 85-103, jun. 2010. Disponível em:
<http://seer.ufrgs.br/index.php/ProdutoProducao/article/viewFile/9321/8252>. Acesso
em: 20 out. 2011.

KAZDIN, A. Single case experimental designs. New York: Pergamon Press, 1982.

LANDIS, J. R.; KOCH, G. G. The measurement of observer agreement for categorical


data. Biometrics, Arlington, v. 33, n. 1, p. 159-174, 1977.

LIMA JÚNIOR, L. M. Utilização de técnicas multivariadas na classificação de fase


de crescimento da leucina. 2006. 78 f. Dissertação (Mestrado em Biometria) -
Universidade Federal Rural de Pernambuco, Recife, 2006.

MALHOTRA, N. K. Pesquisa de marketing: uma orientação aplicada. Porto Alegre:


Bookman, 2001.

PASQUALI, L .Psicometria. Rev Esc Enferm USP; v.43, n.Esp., p.992-9. 2009.
Disponível em:www.ee.usp.br/reeusp/. Acesso em 03 mar 2016.
PASQUALI, L. (Org.). Instrumentação psicológica: fundamentos e práticas. Porto
Alegre: Artmed, 2010.

PASQUALI, L. (Org.). Teoria e métodos de medida em ciências do comportamento.


Brasília, DF: INEP, 1996.

PASQUALI, L. Princípios de elaboração de escalas psicológicas. Revista Psiquiatria


Clinica, São Paulo, v. 25, n. 5, p. 206-213, 1998. Edição especial.

PASQUALI, L. Psicometria: teoria dos testes na Psicologia e na educação. 3. ed.


Petrópolis: Vozes, 2009.

PASQUALI, L. Testes referentes a construto: teoria e modelo de construção. In: ______.


(Ed.). Instrumentos psicológicos: manual prático de elaboração. Rio de Janeiro:
LabPAM/IBAPP, 1999.

SILVEIRA, F. L. Estatística paramétrica versus não-paramétrica: um estudo empírico.


Scientia, São Leopoldo, v. 2, n. 2, p. 115-122, jul./dez. 1991.
TABACHNICK, B.; FIDELL, L. S. Using multivariate statistics. 5th ed. New York:
Pearson Education, 2007.

URBINA, S. Fundamentos de testagem psicologica. Porto Alegre: Artmed, 2007.

ZANEI, S. S. V. Análise dos instrumentos de avaliação de qualidade de vida


WHOQOL-bref e SF-36: confiabilidade, validade e concordância entre pacientes de
Unidades de Terapia Intensiva e seus familiares. 2006. 135 f. Tese (Doutorado) - Escola
de Enfermagem, Universidade de São Paulo, São Paulo, 2006.