Você está na página 1de 12

Universidade de So Paulo Faculdade de Sade Pblica

VOLUME 32 NMERO 4 JUNHO 1998 p. 383-93

Revista de Sade Pblica


J O U R N A L O F P U B L I C H E A L T H

Atualizao Current Comments

Eduardo Freitas da Silva e Maurcio Gomes Pereira

Departamento de Estatstica do Instituto de Cincias Exatas da Universidade de Braslia. Braslia, DF - Brasil (E.F.S.), Departamento de Sade Coletiva da Universidade de Braslia. Braslia, DF - Brasil (M.G.P.)

FREITAS Eduardo Freitas da Silva e Maurcio Gomes Pereira, Avaliao das estruturas de concordncia e discordncia nos estudos de confiabilidade* Rev. Sade Pblica, 32 (4): 383-93,

Copyright Faculdade de Sade Pblica da USP. Proibida a reproduo mesmo que parcial sem a devida autorizao do Editor Cientfico. Proibida a utilizao de matrias para fins comerciais. All rights reserved.

32
Avaliao das estruturas de concordncia e discordncia nos estudos de confiabilidade*
Rating of the structures of agreement and disagreement in reliability studies

Rev. Sade Pblica, 32 (4): 383-93, 1998

383

Atualizao

Current Comments

Avaliao das estruturas de concordncia e discordncia nos estudos de confiabilidade*


Rating of the structures of agreement and disagreement in reliability studies
Eduardo Freitas da Silva e Maurcio Gomes Pereira
Departamento de Estatstica do Instituto de Cincias Exatas da Universidade de Braslia. Braslia, DF - Brasil (E.F.S.), Departamento de Sade Coletiva da Universidade de Braslia. Braslia, DF - Brasil (M.G.P.)

Resumo O coeficiente kappa tem sido, nos ltimos anos, a medida preferida pelos epidemiologistas no estudo de confiabilidade das informaes. Trabalhos mostram que essa medida possui srias restries, em determinadas situaes. Recentemente, modelos estatsticos foram propostos para a anlise de concordncia com as avaliaes assumindo uma escala ordinal, como alternativa ao kappa. Assim, realizou-se estudo com o objetivo de mostrar que existe uma classe de modelos log-lineares que analisados seqencialmente permitem identificar padres de concordncia e discordncia presentes nos dados. Usando os dados de um estudo de caso-controle a respeito do efeito da freqncia de consumo de lcool em relao s doenas coronarianas, uma seqncia de modelos log-lineares hierrquicos foi ajustada objetivando-se encontrar o melhor modelo. Utilizou-se uma medida de razo de chances para quantificar a concordncia. Obteve-se um kappa ponderado igual a 0,685 com IC de 95% (0,638-0,732), indicando que existe uma boa concordncia. No entanto, ele no fornece nenhuma informao a respeito da estrutura de concordncia e discordncia. Dentre a seqncia de modelos analisados, aquele que melhor se ajustou forneceu uma estimativa de 0,4454 com IC de 95% (0,13000,7608) para a concordncia e uma estimativa de 1,3309 com IC de 95% (0,9649-1,6978) para associao. A medida tau para categorias adjacentes foi igual a 9,2 com IC de 95% (6,0 14,2). Portanto, alm de existir uma evidncia de que as avaliaes feitas pelos respondentes so muito parecidas, as altas (baixas) avaliaes feitas por respondentes primrios tendem estar associadas com altas (baixas) avaliaes feitas por respondentes secundrios. O uso de modelos log-lineares proporciona aos estudos de confiabilidade anlise mais completa e informativa a respeito das avaliaes entre observaes emparelhadas do que a realizada pelo kappa ponderado. Concluiu-se que o uso indiscriminado do coeficiente kappa, como nica medida resumidora da concordn-

*Subvencionado pelo Conselho Nacional de Desenvolvimento Cientfico e Tecnolgico/CNPq. Processo n 234567/95-7. Resumo apresentado nos Anais da 42a Reunio da Regio Brasileira da Sociedade Internacional de Biometria (RBRAS), Recife (PE), 1997. Correspondncia para/Correspondence to: Eduardo Freitas da Silva - Campus Universitrio - Asa Norte -70910-900 Braslia, DF - Brasil. E-mail: edufrei@guarany.cpd.unb.br. Recebido em 6.6.1997. Representado em 25.11.1997. Aprovado em 26.1.1998.

384

Rev. Sade Pblica, 32 (4), 1998

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

cia, deve ser questionado. Apresenta-se um programa para ajustamento desses modelos, utilizando-se o PROC GENMOD do pacote estatstico SAS. Modelos log-lineares [Sade pblica].

Abstract
The kappa coefficient has been the measurement preferred by epidemiologists for reliability studies. Various articles have demonstrated that the use of the kappa coefficient may have some undesirable features in certain contexts. Recently, methodologies using an ordinal scale for the modelling of interobserver agreement have been developed as an alternative to kappa. To show that there is a class of log-linear statistical models that when analyzed sequentially can be used to rate the patterns of agreement and disagreement. Using data on the comparability of primary and proxy respondent reports with respect to the frequency of alcoholic consumption and its correlation to coronary diseases a nested set of log-linear models was adjusted to find the best model. Computed odds ratios to determine the measure of agreement were also computed. The weight kappa was equal 0,685 with 95% CI (0,638-0,732) showing a good agreement. But it does not giv e any information about the structure of the agreement and disagreement. Among the sequence of models analyzed, the one with the best adjustment show ed an agreement estimated at 0,4454 with 95% CI (0,1300-0,7608) and an association estimated at 1,3309 with 95% CI (0,9649-1,6978). The measure tau for adjacent categories was 9.2 with 95% CI (6.0 14.2). Thus, evidence shows that the observers tended to rate many phenomena similarly. Futhermore, high (or low) ratings made by primary respondents tended to be associated with high (or low) ratings made by the proxy respondents. Log-linear models can give us a more informati ve and more complete analysis with respect to the rating of matched pairs of observers than that given by kappa. In conclusion, the indiscriminate use of kappa as the only agreement index must be questioned . The appendix demonstrates how to use PROC GENMOD in SAS to fit these models. Log-linear models [Public health].

INTRODUO
A medida do grau de concordncia presente em mltiplas avaliaes do mesmo fenmeno de vital importncia, nos estudos epidemiolgicos. Vrias publicaes na rea da sade, envolvendo o estudo das variaes entre observadores, tm aparecido nas ltimas dcadas e podem ser encontradas nos levantamentos bibliogrficos feitos por Fletcher e Ondham16 (1964), Koran21 (1975), Feinstein13 (1985) e Elmore e Feinstein12 (1992). Alm disso, a literatura estatstica encontra-se repleta de trabalhos sobre anlise de concordncia. Desde a introduo da estatstica kappa, em 1960, por Cohen7, estudos e pesquisas tm sido realizados para medir a concordncia entre avaliadores corrigida pelo acaso. Cohen, originalmente, formulou kappa para uso onde dois observadores designam cada indivduo a uma das categorias de uma escala nominal. Nessa abordagem as discordncias

observadas entre as avaliaes possuem pesos iguais. Modificaes desse coeficiente foram propostas para uso em outras situaes. Cohen8, em 1968, mostrou como a concordncia pode ser medida quando se atribui uma ponderao discordncia. Esse kappa ponderado tem sido estudado por inmeros autores (Cicchetti6, 1981; Cicchetti e Fleiss5, 1977 e Fleiss e col.15 , 1969). Alm disso, o caso de mltiplos avaliadores tem tambm sido abordado por Conger 9 ( 1980), Fleiss14 (1971) e Light 23 (1971). Em alguns estudos de confiabilidade suficiente, apenas, obter o clculo de uma nica medida resumidora da concordncia. Em outros contextos mais complexos tem-se demonstrado que a estatstica kappa apresenta caractersticas indesejveis. Vrios autores, entre eles Tanner e Young28 (1985) e Maclure e Willett 24 (1987), tm ilustrado a dependncia do kappa em relao prevalncia da caracterstica em estudo. Outros, tais como Agresti 1 (1980), tm destacado a importncia da perda de informao, ao

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

Rev. Sade Pblica, 32 (4), 1998

385

se resumir a concordncia por uma nica medida. Alm disso, como apontado por Graham e Jackson20 (1993), a estatstica kappa sensvel escolha do sistema de peso. Observa-se que a maioria das anlises de confiabilidade, realizadas com dados da rea da sade, resume-se apenas em apresentar algumas estatsticas descritivas da amostra e o clculo do kappa com o seu respectivo intervalo de confiana. Tendo em vista que a estatstica kappa no fornece informaes a respeito da estrutura da concordncia e discordncia, detalhes importantes muitas vezes no so levados em considerao. Essas informaes tornam-se fundamentais quando, por exemplo, dois observadores classificam separadamente cada indivduo da amostra em uma escala ordinal e um baixo valor para kappa obtido. Normalmente, conclui-se que a concordncia devida somente ao acaso, ignorando-se o papel de uma significante associao, que pode estar presente nos dados e que pode ser responsvel pela baixa concordncia entre as avaliaes. Com o intuito de suprir as limitaes da estatstica kappa, uma outra abordagem, que utiliza modelos estatsticos, tem sido proposta por vrios pesquisadores, entre eles Tanner e Young28,29 (1985), Agresti1 (1980) e Coughlin e col.10 e outros (1992), para analisar a estrutura da concordncia/ discordncia presente nos dados. Recentemente, aplicaes desses modelos em estudos de confiabilidade epidemiolgica apareceram nos artigos de Graham e Jackson20 (1993) e May25 (1994). Pretende-se ilustrar, no presente artigo, que o kappa ponderado no deve ser utilizado indiscriminadamente como uma nica medida resumidora da concordncia. Outras abordagens devem ser utilizadas, visando a complementar a anlise. Existem alguns modelos estatsticos que, empregados, seqencialmente permitem identificar padres de concordncia e discordncia presentes nos dados. Pretende-se ilustrar a sua aplicao a partir de um trabalho conduzido por Graham e Jackson20 (1993), a respeito da comparabilidade entre pares de respondentes quanto ao consumo de bebidas alcolicas e, como alternativa ao kappa, utilizar uma medida proposta por Darroch e McCloud11 (1986), chamada tau, para quantificar a concordncia. Os modelos estatsticos apresentados, no presente artigo, podem ser aplicados a estudos de confiabilidade, em que N objetos ou indivduos so alocados a I categorias de uma escala ordinal, segundo uma das seguintes possibilidades: as

alocaes podem ser feitas por diferentes avaliadores (estudos de avaliao entre); as alocaes podem ser feitas pelo mesmo avaliador (estudos de avaliao intra); e as alocaes podem ser feitas pelos N indivduos (estudo de variabilidade de resposta). Becker3 (1989) descreve tais estudos como estudos de concordncia. No entanto, para efeito de desenvolvimento da metodologia supe-se que dois avaliadores aos pares classificam, independentemente, suas opinies em uma das I categorias de uma escala ordinal. MODELOS ESTATSTICOS DE CONCORDNCIA Recentemente, tm sido desenvolvidas diferentes abordagens que utilizam de modelagem estatstica para medir a concordncia entre dois avaliadores. A modelagem estatstica facilita e enriquece a anlise pois especifica o tipo e a quantidade de concordncia presente nos dados. Os modelos estatsticos que sero vistos aqui decompem a concordncia e quantificam a poro atribuda ao acaso versus aquela devida a fatores substantivos (concordncia observada e a associao entre as avaliaes). Embora existam outras abordagens metodolgicas, considera-se que uma particular classe dos modelos log-lineares a maneira mais clara, apropriada e comparativamente mais simples de analisar a concordncia entre dois avaliadores. Uma grande vantagem adicional dessa metodologia que todo o processo de estimativa dos parmetros dos modelos pode ser implementado em pacotes estatsticos, tais como SAS26 e SPSS27. Suponha que dois avaliadores aos pares classificam, independentemente, suas opinies em uma das categorias de uma escala ordinal. Representar-se- as respostas dos dois avaliadores em uma tabela de contingncia, onde cada casela corresponde ao nmero de observaes associado a um dado par da avaliao. A investigao da estrutura da concordncia e da discordncia consiste em estudar, na tabela de contingncia, as freqncias da diagonal principal e avaliar, fora da diagonal principal, as associaes entre as avaliaes. Entretanto, deve-se primeiramente adotar uma base ou um modelo de comparao para determinar se existe discrepncia entre as freqncias observadas e as respectivas freqncias esperadas, sob a hiptese de independncia. Alguns modelos estatsticos so apresentados e, se analisados seqencialmente, permitiro quantificar

386

Rev. Sade Pblica, 32 (4), 1998

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

e identificar padres de concordncia e discordncia presentes nos dados. Maiores detalhes sobre a formulao matemtica e estatstica desses modelos podem ser encontrados em textos especializados de estatstica, tais como os de (Agresti2 (1990) e Bishop 4 (1975). Modelo 1 - Independncia Na formulao log-linear, a suposio de independncia, ou de que a concordncia entre as avaliaes deu-se ao acaso, pode ser descrita por um modelo estatstico, que representa linearmente os logaritmos das freqncias esperadas em termos de parmetros que denotam os efeitos individuais de cada um dos dois avaliadores. Ou seja: logmij = + Ai + Bj (1)

principal. Nesta seo, considera-se um modelo em que a concordncia avaliada isoladamente. Posteriormente, verifica-se um outro, onde a discordncia avaliada separadamente, e tambm mais um, em que a discordncia avaliada em conjunto com a concordncia. Goodman18,19 (1972, 1979) props a incluso de um parmetro ao modelo de independncia, com o intuito de medir a concordncia, alm daquela esperada pelo acaso, para as caselas sob a diagonal principal. Isto , medir a concordncia que se esperaria se a avaliao feita por um observador fosse estatisticamente independente da avaliao feita pelo outro observador. Em termos algbricos tem-se que: logmij = + Ai + Bj + (i, j) onde: (i, j)= , se {0, se ii =jj (2)

onde, mij a freqncia esperada de ser classificado na categoria i pelo primeiro avaliador e na categoria j pelo segundo avaliador, a mdia total, Ai o efeito do i-simo nvel do avaliador A e Bj o efeito do j-simo nvel do avaliador B . Partindo da suposio de que o modelo de independncia se ajusta aos dados observados, concluiu-se que as avaliaes feitas pelos dois observadores, aos pares, se dar de maneira aleatria, ou seja, do ponto de vista estatstico no existir nenhuma evidncia de presena de concordncia entre as avaliaes. Esse modelo raramente se ajusta aos dados, nos estudos de confiabilidade. No entanto, ele ser de fundamental importncia como base de comparao e na construo de futuros modelos. Pode-se verificar, nas sees posteriores, que diversos modelos sero concebidos, a partir do modelo de independncia mediante a incluso de outros parmetros. Modelo 2 - Concordncia Diagonal Imagine-se uma situao mais prxima da realidade, quando o modelo de independncia no se ajusta aos dados observados. Nesse caso, algum tipo de relao dever existir entre as avaliaes dos observadores. Essa relao pode ser devida a dois fatores: concordncia entre as avaliaes, e discordncia entre as avaliaes. A concordncia ser investigada por meio de parmetro que incidir sobre os elementos da diagonal principal da tabela e a discordncia ser pesquisada mediante parmetro que incidir sobre os elementos fora da diagonal

com (i,j) representando um parmetro que mede a concordncia entre as avaliaes, alm do acaso. Esse modelo foi batizado por Goodman de concordncia diagonal e parte do princpio de que o nmero de observaes esperadas em uma casela da tabela o resultado de duas componentes: uma, devida ao acaso, utilizada como base de comparao; a outra, devida concordncia. O modelo de independncia um caso especial, quando o parmetro que mede a concordncia sob a diagonal principal igual a zero. Uma generalizao do modelo de concordncia diagonal, para o caso de mais de dois avaliadores, foi proposta por Tanner e Young 28 (1985). Modelo 3 - Associao Linear por Linear Supondo que haja discordncia entre os dois observadores, o modelo de concordncia diagonal parte do princpio que as avaliaes ocorreram de maneira independente, ou seja, ao acaso. No entanto, esse tipo de comportamento no parece condizente quando a escala utilizada pelos dois observadores, para classificar suas opinies, do tipo ordinal. Nesse caso, espera-se que exista uma associao significativa entre as avaliaes. Isto , se as respostas oriundas dos dois avaliadores no forem idnticas, a tendncia dever ser a de que altas ou baixas avaliaes, feitas por um observador, se relacionem com as altas ou baixas avaliaes feitas pelo outro observador. Os modelos log-lineares apresentados at ento

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

Rev. Sade Pblica, 32 (4), 1998

387

no permitem identificar esse tipo de relao, que provavelmente existir entre as avaliaes, pois foram inicialmente concebidos para o uso com variveis em escala nominal. Para dados com classificao ordinal, eles ignoram uma importante informao que a associao positiva ou negativa entre as avaliaes. Portanto, deve-se procurar um modelo que permita incluir um parmetro que quantifique essa associao. Considerando esse fato, Goodman 19 (1979) props uma classe de modelos log-lineares, para tabelas bidimensionais, onde a estrutura de ordenao das categorias da varivel levada em conta, atribuindo-se escores a cada uma das linhas e colunas da tabela de contingncia. Entre os modelos sugeridos por Goodman, h particular interesse no modelo de associao linear por linear, que pressupe a incluso, ao modelo de independncia, de um termo visando a aquantificar a tendncia de que altas (baixas) avaliaes feitas por um respondente estejam associadas com as altas (baixas) avaliaes feitas pelo outro respondente. Ou seja: logmij = + Ai + Bj ui uj onde representa o parmetro que mede a associao entre as avaliaes e ui representam os escores que devem ser especificados para cada uma das linhas e colunas, de maneira que u1<u 2<...<uI . Um caso particular, muito utilizado em situaes prticas, quando se atribui, a cada categoria ordinal da avaliao, escores uniespaados. Por exemplo, associa-se a linha 1 e a coluna 1 ao escore 0; a linha 2 e a coluna 2 ao escore 1 e assim por diante. Esse modelo conhecido na literatura como associao uniforme. O modelo de independncia um caso particular, quando o parmetro que mede a associao igual a zero. Observe que o modelo de associao linear por linear avalia a estrutura da discordncia, isoladamente, sem considerar o efeito da concordncia. (3) Modelo 4 - Concordncia mais Associao Linear por Linear O modelo de associao linear por linear, embora descreva adequadamente a associao entre duas variveis ordinais, no um bom candidato para avaliar a concordncia, visto que no inclui nenhum parmetro relacionado diagonal principal. No entanto, v-se que possvel construir um modelo, que combine tanto os efeitos da concordncia como

da discordncia. Pensando dessa maneira, Agresti 1(1980) props um modelo log-linear no qual um parmetro que mede a concordncia includo naquele de associao linear por linear, ou seja: logm ij = + Ai + Bj u iuj + (i, j) onde: (i, j) = , se i = j 0, se i j

Em outras palavras, tem-se um modelo em que a estrutura de concordncia e discordncia subdividida em trs componentes: concordncia ao acaso (que ocorreria se as classificaes fossem independentes); concordncia devida associao entre os avaliadores; e a concordncia que advm aps eliminados os efeitos da concordncia ao acaso e daquela devida associao. Essa decomposio conhecida como modelo de concordncia mais associao linear por linear e que, para o caso de escores uniespaados, conhecido como modelo de concordncia mais associao uniforme. Observe que os modelos de independncia, concordncia diagonal e de associao linear por linear so casos especiais do modelo de concordncia mais associao linear (4) por linear. Modelos 5, 6 e 7 - Outros Modelos So discutidos, nesta seo, trs modelos loglineares, que so simples generalizaes dos quatro anteriores, mas de fundamental importncia na investigao da estrutura de concordncia e discordncia. Analisando-se o modelo de concordncia diagonal, observa-se que apenas um parmetro para medir a concordncia foi imposto. Assume-se, nessa situao, que a concordncia presente nos dados a mesma para cada casela sobre a diagonal principal. No entanto, dois ou mais parmetros podem ser teis, se variaes por categorias, sob a diagonal principal, so de interesse na anlise. Goodman18 (1972) props modelo conhecido como semi-independncia, em que, para cada casela sobre a diagonal principal da tabela de contingncia designado um parmetro que permite avaliar padres de concordncia. Ou seja: logm ij = + Ai + Bj + (i, j) onde: (i, j) = i, i = j, i=l...,I 0, i j, i=l,...,I

Pode-se observar assim que o modelo de

388

Rev. Sade Pblica, 32 (4), 1998

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

concordncia diagonal um caso particular do semiindependncia, quando todos os parmetros que medem a concordncia sob a diagonal principal so iguais. A partir do modelo de associao linear por linear, ao qual inclui um termo que mede a concordncia para cada casela sobre a diagonal principal, Goodman 19 (1979) props o modelo de semiassociao, que permite identificar padres de concordncia alm de associaes previstas entre os avaliadores. Nesse caso, tem-se: logmij = + Ai + Bj + u iuj + (i, j) onde: (i, j) = i, i = j, i=l...,I 0, i j, i=l,...,I

dessa seqncia se ajuste aos dados, ele escolhido, e o tipo de concordncia presente nos dados descoberta. Aps identificada a estrutura da concordncia e discordncia pode-se, ainda, sumariar a concordncia por um nico ndice. Darroch e McCloud11 (1986) definiram e mediram o grau de concordncia em termos da seguinte razo de chances a que chamaram de tau: ij = mii mjj mij mji
para todo i e j

(5)

Finalizando, tem-se ainda que o modelo de associao linear por linear faz parte de uma importante classe de modelos log-lineares - os de semi-simetria - muito utilizados nos estudos com amostras dependentes.
AB logmij = + Ai + B + ij j AB BA onde, ij = ji para todo i j.

onde, mij a freqncia esperada da casela na linha i e coluna j de um dos modelos log-lineares visto anteriormente. Condicionado sob o evento que os avaliadores classificam dois indivduos nas categorias i e j, ij representa a chance que as avaliaes so concordantes ao invs de discordantes. Quanto maior o valor dessa medida, mais provvel

INVESTIGAO DA CONCORDNCIA E DISCORDNCIA O processo de investigao da estrutura (6) de concordncia e discordncia envolve o ajuste de uma srie de modelos hierrquicos embutidos, objetivando-se encontrar aquele que melhor se adeqe s observaes. Os modelos ajustados geram freqncias esperadas que, por sua vez, so comparadas aos dados observados. A similaridade entre o observado e o esperado medida atravs de uma estatstica de adequao de ajustamento conhecida na literatura como qui-quadrado da razo de verossimilhana, abreviada por G2 . (7) Os modelos ajustados indicam, ao pesquisador, o tipo de concordncia que est presente nos dados. O procedimento de escolha do melhor modelo fundamenta-se nas comparaes das estatsticas G2 para uma seqncia de modelos log-lineares hierrquicos embutidos. A Figura 1 apresenta um conjunto de possveis seqncias de modelos hierrquicos embutidos. Uma particular seqncia, que ser utilizada na busca do melhor modelo, est apresentada na Figura 2. Uma vez que o modelo

Figura 1 - Seqncia de modelos log-lineares herrquicos embutidos.

a concordncia entre as avaliaes feitas pelos dois observadores. Essa razo de chances ser utilizada como uma medida de concordncia, em substituio ao kappa ponderado em nossa aplicao. A seguir, ilustra-se o procedimento de busca do melhor modelo a um conjunto de dados. APLICAO DA MODELAGEM ESTATSTICA Para efeito de aplicao considere-se estudo sobre a variabilidade de 420 pares de observaes, realizado por Graham e Jackson 20 (1993), de respondentes primrios e secundrios de um estudo

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

Rev. Sade Pblica, 32 (4), 1998

389

e aos outros aparece no Anexo 2); disso resultou uma medida de adequao de ajustamento - a razo de verossimilhana - G 2 = 416,62, com 9 graus de liberdade, correspondendo a um p < 0,0001, indicando um pssimo ajuste. O modelo de independncia permite considerar que as avaliaes dos dois respondentes, feita aos pares, deram-se independentemente, isto , a concordncia entre as avaliaes deu-se completamente ao acaso. Como essa situao raramente ocorre, quando se analisa a concordncia entre as avaliaes de dois observadores, no surpresa que ele fornea um pssimo ajuste.
Tabela 1 - Freqncia observada de consumo de lcool, por respondentes. Figura 2 - Seqncia de modelos log-lineares herrquicos embutidos utilizada na anlise. Respondente secundrio 0 1 2 3 Total 0 47 15 1 0 63 Respondente primrio 1 2 3 19 76 23 4 122 4 19 54 33 110 0 4 22 99 125 Total 70 114 100 136 420

de caso-controle a respeito do efeito da freqncia do consumo de lcool em relao s doenas coronarianas. Utilizam-se as seguintes categorias e os escores: (nunca bebeu = 0, bebeu mais de um drinque por ms a menos de um drinque por semana = 1, bebeu mais de um drinque por semana a menos de um drinque por dia = 2 e bebeu mais de um drinque por dia = 3). Os dados esto apresentados na Tabela 1, em que o respondente primrio o prprio indivduo includo na amostra e, o secundrio, um parente prximo. A concordncia bruta ponderada, avaliada pelas freqncias na diagonal principal, de 0,875. Calculando-se o kappa ponderado com sistema de peso erro absoluto (vide Anexo 1, parte A) para os dados da Tabela 1, obteve-se um kappa estimado de 0,685, com erro-padro de 0,024 e um intervalo de 95% de confiana de (0,638; 0,732), indicando uma boa concordncia, segundo Landis e Koch22 (1977). No entanto, a medida kappa no fornece informao a respeito da estrutura de concordncia e discordncia. Utilizando-se a tcnica de modelagem, apresentada neste artigo, v-se que resultados mais informativos podero ser obtidos. O processo de investigao da estrutura de concordncia e discordncia feito de uma maneira iterativa, envolvendo o ajustamento de uma srie de modelos aos dados observados. Escolhe-se aquele que melhor se ajuste s observaes, segundo os critrios a seguir discutidos. Inicialmente, o modelo de independncia foi ajustado aos dados, utilizando-se, para tanto, o pacote estatstico SAS26 (o programa referente a esse modelo

Fonte: Adaptado de Graham e Jackson20.

Em razo da m qualidade do ajustamento do modelo de independncia, deve-se partir procura de modelos mais complexos, que permitam a incluso de outros parmetros. Note-se que a busca por um processo exploratrio em que vrias hipteses devem ser testadas, de maneira a isolar aqueles componentes que mais ajudam a descrever os dados. Por exemplo, um termo adicional que mede a associao entre as avaliaes poderia ser includo, de maneira a quantificar a tendncia de altas (baixas) avaliaes feitas por um respondente coincidirem com as altas (baixas) avaliaes feitas pelo outro respondente. Um outro termo poderia ser tambm includo, de maneira a medir o incremento ocorrido nas caselas correspondentes concordncia. Os modelos discutidos na seo anterior foram, ento, ajustados aos dados de Graham e Jackson e os resultados esto apresentados na Tabela 2. Observa-se, a partir dos dados dessa tabela, que cada um dos modelos fornece ajuste melhor que o de independncia, tendo em vista, a acentuada reduo na estatstica G 2. Verifica-se ainda que os modelos de associao linear por linear, concordncia mais associao linear por linear, semi-associao e semi-simetria (com valor de p de 0,211; 0,834, 0,686 e 0,615, respectivamente) ajustam melhor os dados do que os outros restantes, evidenciando que

390

Rev. Sade Pblica, 32 (4), 1998

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

a concordncia diagonal no o nico fator que explicaria a estrutura da concordncia e discordncia presente nesses dados. Para decidir qual deles deve ser utilizado, ser empregado, seqencialmente, a propriedade da partio da estatstica qui-quadrado da razo de verossimilhana proposta por Goodman17 (1970): a diferena entre as estatsticas G2, para dois modelos log-lineares hierrquicos embutidos, comporta-se segundo uma distribuio de quiquadrado com o nmero de graus de liberdade igual a diferena entre os graus de liberdade entre os dois modelos. Essa propriedade nos permitir avaliar se houve melhora no ajuste, quando se introduz um conjunto de parmetros ao modelo. Portanto, dado que o modelo de associao linear por linear ajusta-se aos dados, verificar-se- se a incluso de um parmetro adicional proporcionar uma melhora significativa no ajuste. Caso contrrio, admitir-se- que o modelo (3) aquele que fornece o melhor ajuste. Comparando-se as estatsticas de qui-quadrado de razo de verossimilhana entre os modelos ( 3) e (4) conclui-se que a diferena de G2 igual a 10,84 - 3,51 = 7,33 com 8 - 7 = 1 grau de liberdade, com p < 0,01, indicando que a incluso de um parmetro que mede a concordncia, em (3), melhora significativamente a qualidade do ajuste. A seguir ser verificada se a incluso de novos parmetros em (4) provocar uma melhora significativa no ajuste. Para isso, so comparadas as estatsticas G2 dos modelos (4) e (6), concluindose que a diferena de G2 igual a 3,51 - 2,27 = 1,24 com 7 - 4 = 3 graus de liberdade, com p = 0,743. Como a incluso de novos parmetros em (4) no proporcionou uma melhora significativa na qualidade do ajuste, conclui-se que o melhor modelo o de concordncia mais associao linear por linear. Tendo em vista que os modelos analisados formam uma seqncia hierrquica embutida, observa-se que, comparando-se (4) com (7) a melhora no ajuste no
Tabela 2 Adequao de ajustamento de modelos. Descrio do modelo (Modelo No )

ser significativa. De fato, a diferena entre as razes de verossimilhana entre (4) e (7) igual a 3,51 1,80 = 1,71, com 4 graus de liberdade, com p = 0,789. Do ajustamento do modelo de concordncia mais associao linear por linear, utilizando-se o programa desenvolvido no Anexo 2, obteve-se que a estimativa do parmetro que mede a concordncia foi igual a 0,4454, com erro-padro igual a 0,1609 (IC de 95% (0,1300 ; 0,7608)) e a estimativa do parmetro que mede a associao foi igual a 1,3309, com erro-padro igual a 0,1872 (IC de 95% (0,9640; 1,6978)). Tendo em vista que os parmetros que medem a concordncia e a associao so estatisticamente diferentes de zero, as estimativas indicam que existe uma evidncia de que as avaliaes feitas pelos respondentes so muito parecidas e que altas (baixas) avaliaes feitas por um respondente tendem a estar associadas com altas (baixas) associaes feitas pelo outro respondente. Empregando-se a medida proposta por Darroch e McCloud11 (1986), pode-se sumariar a concordncia devida alm do acaso por um nico ndice (tau) em substituio ao kappa ponderado. Por exemplo, a chance estimada de que a avaliao de um respondente 2 ao invs de 3 igual a 9,2 vezes maior quando a avaliao do outro respondente 2 do que quando ela 3, com intervalo de 95 % de confiana dado por (6,0; 14,2), conforme parte B do Anexo 1. Como a medida tau nada mais do que uma razo de produtos cruzados, ou seja, um odds ratio, logo, como todo odds ratio, varia entre zero e mais infinito. Portanto, quanto maior for o valor de tau, melhor a concordncia entre as avaliaes. Atravs do clculo do intervalo de confiana podese ter uma idia da preciso e da significncia da concordncia sendo que a interpretao idntica ao odds ratio, ou seja, se o intervalo de confiana contm o valor 1, a concordncia entre as avaliaes devida somente ao acaso. Se o intervalo de confian-

G2

Graus de liberdade

P-value

Modelo de seqncia da Figura 2 Independncia (1) 416,62 Associao linear por linear (3) 10,84 Concordncia mais associao linear por linear (4) 3,51 Semi-associao (6) 2,27 Semi-simetria (7) 1,80 Outros modelos Concordncia diagonal (2) Semi independncia (5)
Nota: Aplicao aos dados da Tabela 1.

9 8 7 4 3

0,000 0,211 0,834 0,686 0,615

122,98 82,35

8 5

0,000 0,000

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

Rev. Sade Pblica, 32 (4), 1998

391

a no contm o valor 1, a concordncia entre as avaliaes devida alm do acaso, ou seja, existe um padro de concordncia presente entre as avaliaes. Pelo fato de que o modelo utilizado pertence classe dos modelos de associao uniforme, para qualquer i = 0,1, 2 (onde i uma das categorias da avaliao utilizada) a chance da avaliao do respondente primrio i + 1 ao invs de i estimada como sendo exp (+2)=exp (1,3309+2x0,4454)=9,2 vezes maior quando a 2 avaliao do respondente secundrio i + 1 do que quando ela i, como intervalo de 95 % de confiana dado por (6,0; 14,2).

CONCLUSO
Muitas informaes detalhadas esto presentes nos dados, quando realiza-se anlise de confiabilidade. O resumo dessas informaes, atravs de uma nica medida, por exemplo, kappa, no fornece qualquer indicao a respeito da estrutura de concordncia e discordncia. Existem vrios problemas quanto ao uso do kappa ponderado na anlise da concordncia para dados ordinais. A escolha do esquema de peso pode ter uma grande influncia no valor estimado da estatstica. A menos que um sistema de peso padro seja empregado, a comparao do kappa ponderado para diferentes estudos torna-se muito difcil. O uso de modelos estatsticos de concordncia proporciona, aos estudos de confiabilidade

epidemiolgica, anlise mais completa e informativa a respeito das avaliaes entre dois observadores do que a realizada pelo kappa ponderado. Como demonstrado no exemplo dado, a aplicao de tais modelos proporcionou a obteno de informaes a respeito dos padres de concordncia e discordncia presentes nos dados. Tendo em vista os problemas advindos do kappa ponderado e a disponibilidade de mtodos alternativos de anlise, considera-se que o uso continuado do kappa ponderado na anlise de concordncia com dados ordinais deve ser questionado. E sugere-se que os modelos de concordncia juntamente com a medida proposta por Darroch e McCloud (tau) sejam empregados em substituio ao kappa ponderado para situaes onde a escala utilizada pelos avaliadores seja, no mnimo, ordinal. A abordagem discutida no presente artigo tornase limitada quando a quantidade de indivduos ou objetos avaliados pequena. Nesse caso, muitas caselas da tabela apresentam freqncias baixas ou nulas, o que acarreta problemas de instabilidade nas estimativas dos parmetros dos modelos, invalidando todo o processo de ajustamento. Portanto, para pequenas amostras, deve-se ser crtico no emprego dessa abordagem. Uma outra limitao que a srie de modelos log-lineares, aqui apresentada, pode no se ajustar a um determinado conjunto de dados. Nesse caso, outros modelos devem ser investigados (Becker3 (1989) Uebersax e Grove30 (1993)).

REFERNCIAS
1. AGRESTI, A. A model for agreement between ratings on a ordinal scale. Biometrics, 44: 539-48, 1988. 2. AGRESTI, A. Categorical data analysis.New York, John Wiley, 1990. 3. BECKER, M. P. Using association models to analyse agreement data: two examples. Stat. Med., 8:1199-207, 1989. 4. BISHOP, Y .V.V.; FIENBERG, S. E.; HOLLAND, P. W. Discrete multivariate analysis. Cambridge, MA, MIT Press, 1975 . 5. CICCHETTI, D.V. & FLEISS, J.L. Comparison of the null distributions of weighted kappa and the C ordinal statistic. Appl. Psychol. Meas., 1: 195-201, 1977. 6. CICCHETTI, D.V. Testing the normal approximation and minimal sample size requirements of weighted kappa when the number of categories is large. Appl. Psychol. Meas., 5: 101-4, 1981. 7. COHEN, J. A coeficient of agreement for nominal scales. Educ. Psychol. Meas., 20: 37-46, 1960. 8. COHEN, J. Weighted kappa: nominal scale agreement with provision for scaled disagreement or partial credit. Psychol. Bull.,70: 213-20, 1968. 9. CONGER, A.J. Integration and generalization of kappa for multiple raters. Psychol. Bull., 88: 322-8, 1980. 10. COUGHLIN, S.S.; PICKLE, L. W.; GOODMAN, M. T.; WILKENS, L.R. The logistic modeling of interobserver agreement. J. Clin. Epidemiol., 45: 1237-41, 1992. 11. DARROCH, J. & MCCLOUD, P.I. Category of distinguishability and observer agreement. Aust. J. Stat., 28: 371-88, 1986. 12. ELMORE, J.G. & FEINSTEIN, A.R. Publications on observer variability. J. Clin. Epidemiol., 45: 567-80, 1992.

392

Rev. Sade Pblica, 32 (4), 1998

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

13. FEINSTEIN, A.R. A bibliography of publications on observer variability. J. Chronic Dis., 38: 619-32, 1985. 14. FLEISS, J.L Measuring nominal scale agreement among many raters. Psychol. Bull., 76: 378-82, 1971. 15. FLEISS, J.L.; COHEN, J.; EVERITT, B. S. Large sample standard erros of kappa and weighted kappa. Psychol. Bull.,72: 323-7, 1969. 16. FLETCHER, C. M. & OLDHAM, P.D. Diagnosis in group research. In: Witts, L.J. Medical sur veys in clinical trials. 2 nd ed. London, Oxford University Press, 1964. p.25-49. 17. GOODMAN, L.A. The multivariate analysis of qualitative data: interactions among multiple classifications. J. Am. Stat. Assoc., 65: 226-56, 1970. 18. GOODMAN, L. A. Some multiplicative models for the analysis of cross-classified data. In: Berkeley Symposium on Mathema-tical Statistics and Probability, 6., Berkeley, 1972. Proceedings. Berkeley, University of California Press, 1972. p. 649-96. 19. GOODMAN, L.A. Simple models for the analysis of association in cross-classifications having ordered categories. J. Am. Stat. Assoc., 74:537-52, 1979. 20. GRAHAM, P. & JACKSON, R. The analysis of ordinal agreement data: beyond weighted kappa J. Clin. Epidemiol., 46:1055-62, 1993.

21. KORAN, M. The reliability of clinical methods, data and judgements. N. Eng. J. Med., 293: 642-6; 695-701, 1975. 22. LANDIS, J.R. & KOCK, G. G. The measurement of observer agreement for categorical data. Biometrics, 33: 159-75, 1977. 23. LIGHT, R.J. Measures of response agreement for qualitative data: some generalizations and alternatives. Psychol. Bull., 5: 365-77, 1971. 24. MACLURE, M. & WILLET, W.C. Misinterpretation and misuse of the kappa statistc. Am. J. Epidemiol., 126: 161-9, 1987. 25. MAY, S. M. Modeling observer agreement - an alternative to kappa. J. Clin. Epidemiol., 47:1315-24, 1994. 26 SAS Institute Inc. SAS Technical report P 243, SAS/STAT Software: The GENMOD procedure, Release 6.09. Cary, North Carolina, 1993. 27 SPSS Inc. SPSS-X users guide. 3rd ed. Chicago, IL, 1988. 28. TANNER, M.A. & YOUNG, M.A. Modelling agreement among raters. J. Am. Stat. Assoc., 80:175-80, 1985. 29. TANNER, M.A. & YOUNG, M.A. Modeling ordinal scale disagreement. Psychol. Bull., 98: 408-15, 1985. 30. UEBERSAX, J. S. & GROVE, W. M. A latente trait finite mixture model for the analysis of rating agreement. Biometrics, 49: 823-35, 1993.

Concordncia e discordncia nos estudos de confiabilidade Silva, E.F. da & Pereira, M.G.

Rev. Sade Pblica, 32 (4), 1998

393

ANEXO 1
A) Kappa Ponderado A medida kappa ponderado definida por: k= po (w)pe (w) 1pe (w) onde: po(w) = proporo ponderada observada da concordncia dada por
i=1 j=1

ANEXO 2
Todos os modelos discutidos neste artigo foram ajustados utilizando-se a PROC GENMOD do Pacote Estatstico SAS verso 6.11. data a; input a b sime deltai count @@; cards; 0 0 01 1 47 0 1 02 5 19 0 2 03 5 04 0 3 04 5 00 1 0 02 5 15 1 1 05 2 76 1 2 06 5 19 1 3 07 5 04 2 0 03 5 01 2 1 06 5 23 2 2 08 3 54 2 3 09 5 22 3 0 04 5 00 3 1 07 5 04 3 2 09 5 33 3 3 10 4 99; data a;set a; if a=b then deltac=1; else if a ne b then deltac=0; beta=a*b; proc genmod; class a b; model count=a b / dist=poi link=log; title modelo de independencia; proc genmod; class a b; model count = a b deltac / dist=poi link=log; title modelo de concordancia diagonal; proc genmod; class a b; model count=a b beta / dist=poi link=log; title modelo de associacao uniforme; proc genmod; class a b; model count=a b beta deltac / dist=poi link=log covb; title modelo de concordancia mais associacao uniforme; proc genmod; class a b deltai; model count = a b beta deltai / dist=poi link=log; title modelo de semi-associacao uniforme; proc genmod; class a b sime; model count =a b sime / dist=poi link=log; title modelo de semi-simetria; proc genmod; class a b deltai; model count =a b deltai / dist=poi link=log; title modelo de semi-independencia; proc freq; weight count; tables a*b/agree; titlekappa ponderado; run;

wij pij

por

pe(w) = proporo ponderada devido ao acaso dada wij pi. p j.

i=1 j=1

w ij = peso dado casela (i,j), onde w ii = 1 e w ij =


i-j wji = 1- r-1 , onde r o nmero de categorias da tabela

de contingncia. pij = proporo dos dados que caem na casela (i,j). B) Medida Tau e seu Intervalo de Confiana Considerando, por exemplo, o modelo de concordncia mais associao linear por linear, o logaritmo de tau estimado para cada casela i j dado por: log ij = (uj - ui )2 + e com varincia estimada dada por: Var(log ij) = (u j - ui) 4 var () + 4 var() +4(uj - ui )2 cov(,) Portanto, um intervalo com confiana (1 - )% para ij dado por exp[log (ij) z a/ 2 Var(log ij)]