Apostila AnaliseDadosCategoricos 2010

MINISTÉRIO DA EDUCAÇÃO
UNIVERSIDADE FEDERAL DO PARANÁ

SETOR DE CIÊNCIAS HUMANAS, LETRAS E ARTES
PROGRAMA DE MESTRADO EM CIÊNCIA POLÍTICA
ANÁLISE DE DADOS CATEGÓRICOS

APLICADA À CIÊNCIA POLÍTICA
Emerson Urizzi Cervi
Curitiba - Agosto - 2010

2
SUMÁRIO
1. INTRODUÇÃO 03
1.1 Escala nominal
1.2 Escala ordinal
1.3 Escala intervalar
1.4 Escala proporcional
2. INDICADORES ESTATÍSTICOS 06
2.1 Hipóteses estatísticas
3. PROVA DE QUI-QUADRADO 10
3.1 Comparar uma observação observada a uma teórica
3.2 Comparar distribuições observadas com dados independentes
3.3 Comparar duas distribuições observadas com dados relacionados
3.4 Prova de Independência
4. TABELA DE CONTINGÊNCIA 14
5. APLICAÇÃO DE RISCO RELATIVO NAS CIÊNCIAS SOCIAIS 17

5.1 Risco relativo
6. Q DE YULE 22
6.1 Teste de Independência Q de Yule
6.1.1 Principais tópicos
6.2 Teste de Correlação Q de Yule
6.3 Limites de Confiança para o Teste de Correlação Q de Yule
6.3.1 Principais pontos
7. ANÁLISES MULTIVARIADAS 31
7.1 Análise de grupamento (cluster)
7.2 Análise de Correspondência (correspondence analysis)
8. BIBLIOGRAFIA CONSULTADA E SUGERIDA 43

3
1. INTRODUÇÃO
A análise de dados categóricos permite que informações qualitativas a respeito

dos eventos pesquisados sejam tratadas a partir de técnicas que originalmente promovem
análises quantitativas. Parte-se da definição de que um dado qualitativo é uma
representação atribuída a manifestações qualitativas. Classifica, assim, um fenômeno
quase que imponderável a partir de premissas ontológicas e semânticas. Estamos falando
de representações de qualidades e não das próprias qualidades. Quando a análise
envolve mais de uma qualidade, ou variável, busca-se identificar como se dá a relação
entre representações das qualidades. Com isso é possível instrumentalizar o
reconhecimento do evento, analisar seu comportamento e suas relações com outros
eventos. Nesse sentido, trata-se de uma qualificação normativa que dá caráter objetivo à
análise. Esse conjunto de técnicas é considerado uma alternativa à pesquisa qualitativa,
que se ocupa dos mesmos eventos, porém, com menor restritividade técnica e com maior
possibilidade de intervenção subjetiva de quem faz a pesquisa.
Quem pretende medir características qualitativas precisa ter em mente a distinção

entre objeto e atributo. A análise de informação qualitativa é uma estratégia de
mensuração de atributos, ou seja, o objetivo da mensuração não é o objeto em si, a coisa,
mas suas características e predicados. Assim, de maneira geral as medidas podem ser de
dois tipos: fundamentais e derivadas. As medidas fundamentais são aquelas em que a
mensuração é feita diretamente sobre o objeto. Ex.: quando se usa uma régua para medir
a largura de uma folha de papel. No segundo caso é feita uma projeção a partir de uma
medida indireta. Ex.: a coluna de mercúrio em um termômetro que indica/projeta a
temperatura atual de um corpo humano.
Antes de iniciar a análise de dados categóricos é preciso processá-los para ajustar

às medidas necessárias à análise que pode procurar estabelecer:
a) relações de similaridade entre as categorias,
b) uma razão de ocorrência a partir da contagem entre duas variáveis;
c) distribuição hierárquica das posições em escalar ordinais ou
d) apenas uma correlação entre os valores encontrados para as variáveis.

4
Uma das formas mais comuns de análise de dados categóricos é a partir da

redução dos valores de diferentes variáveis quando se estabelece um índice como forma
de medida agregada. A criação do índice envolve a identificação de determinadas
premissas de relação entre as qualidades analisadas e a representação dessas
qualidades. Cada variável isolada pode ser medida em diferentes escalas. Toda escala
atribui rótulos numéricos às características e é importante não esquecer que os rótulos
sempre são arbitrários, definidos pelo pesquisador. Existem quatro tipos de escalas, que
são tomados a partir dos tipos de variáveis utilizadas para a criação delas.
1.1 Escala Nominal: permite a medição de atributos que só podem estabelecer

relações de equivalência, ou seja, de igualdade (=) ou de diferença (≠), independente de
quais sejam seus códigos numéricos. Essa escala não tem sentido de direção ou valor
nulo.
1.2 Escala ordinal: permite a medição de atributos que conseguem se distinguir

em termos de grau ou de intensidade, indo além das simples relações de
igualdade/diferença. Aqui é possível identificar uma categoria que é maior que (>) outra
ou menor que (<) outra. Sendo assim, apresenta direção e sentido. Permite o
estabelecimento de uma hierarquia entre atributos e sentido de orientação da escala.
1.3 Escala intervalar: possibilita a medição de atributos a partir de intervalos que

representam quantidades regulares dessa característica. Trata-se de uma função linear
dos atributos onde há uma relação entre atributos e códigos numéricos na escala e no
sentido da orientação. Tem um zero, mas este é arbitrário.
1.4 Escala proporcional/de razão: permite a medição de atributos de maneira

que reduções ou acréscimos sejam proporcionais em relação aos valores da escala.
Assim, se um atributo é o dobro de outro, na escala, ele também receberá um código com
o dobro do valor do primeiro. Aqui, assume-se que há uma relação aritmética entre o
evento e sua representação, o que a torna a escala mais forte a ser adotada.
O quadro a seguir resume as principais características de cada uma das escalas

em que as variáveis podem ser apresentadas, além de mostrar as funções formais que
cada uma delas apresenta.
5
QUADRO 1 – Principais características dos tipos de escalas

Tipo Características Exemplos Funções Formais
Apenas para identificar
Cor de cabelo, estado civil, Equivalência, igualdade.
Nominal pessoas, objetos ou
nome, marca de carro. “=”
categorias.
Ordem de preferência, de
Além de igualdade, identifica
chegada, status social, escala
Respostas podem ser relação de superioridade ou
de Likert. (aqui os valores
Ordinal ordenadas em uma inferioridade.
modais e medianos podem
dimensão própria. “>”
ser calculados, mas não a
“<”
média)
Além de poder ser
ordenada em uma Além das anteriores permite
dimensão específica há Escala de Likert, estimativa operações aritméticas nas
Intervalar
intervalos com tamanho de distâncias. diferenças entre os números
conhecido que podem ser que representam os eventos.
comparados.
Além das características da
Além das anteriores permite
Proporcional/ escala anterior, existe Salário, tamanho, tempo
operações aritméticas nos
de Razão ainda um ponto zero gasto em uma tarefa.
próprios códigos/números.
absoluto.
Fonte: Güther, 2003
Uma das escalas qualitativas ordinais mais utilizadas nas ciências sociais é a
Escala de Likert (1932) por permitir ao mesmo tempo a manifestação de qualidades,
reconhecimento de oposição entre contrários, estabelecimento de gradientes e a
identificação de posição intermediária. Por esse motivo ela será tratada como base para a
discussão sobre codificação, edição e interpretação de escalas. A escala de Likert tem
cinco pontos, com um ponto médio para manifestações intermediárias, de indiferença ou
nula. O exemplo mais comum para essa escala é: (1) péssimo, (2) ruim, (3) regular, (4)
bom, (5) ótimo. A oposição se dá entre as posições 1/2 e 4/5. Gradiente está nas
diferenças possíveis dentro da mesma direção, entre 1 e 2 e entre 4 e 5. O ponto médio
ou neutro é o 3. Como se percebe, o pesquisador arbitra valores à sua escala de forma
que possa representar o fenômeno estudado.
Embora normalmente se considere uma escala como uma medida unidimensional,

na verdade, toda escala tem o mesmo número de dimensões que o de categorias. No
exemplo acima, seriam cinco dimensões diferentes na mesma escala. Para se obter um
dado unidimensional é preciso recorrer às medidas de tendência central ou de dispersão,
que são capazes de reduzir o conjunto de informações de uma variável a um único valor
Sem se esquecer que no caso das medidas de tendência central, dependendo do tipo de
variável não é possível torná-las unidimensionais. No caso, a escala nominal e a ordinal
só permitem a utilização da moda como tendência central. Já a escala intervalar e a
proporcional podem ser reduzidas através da média e da mediana. A diferença entre elas
6
é que a média é a única medida unidimensial que promove uma real síntese das medidas,
pois é obtida através da transformação de todos os valores em um único a partir da
divisão de sua soma pelo número de casos. Já a moda e a mediana não conseguem
reduzir os dados, mas sim destacar uma categoria específica presente na distribuição dos
valores. A moda destaca a categoria que mais se repete, enquanto a mediana dá
destaque à categoria que divide a distribuição em duas partes iguais. De qualquer
maneira, comumente vê-se como definição de análise unidimensional a descrição de
variáveis categóricas individuais.
As relações entre duas variáveis categóricas podem ser feitas por gráficos ou
tabelas. Vários autores recomendam que a análise de dados qualitativos dê-se a partir de
representações visuais, como gráficos, em lugar de tabelas, pois o que se busca aqui é a
redução de dimensionalidades. Depois de observar toda a complexidade das variáveis a
partir de medidas já discutidas o pesquisador precisa ter uma medida de relação geral
que lhe permita alguma conclusão. Nos próximos tópicos serão apresentados alguns dos
principais testes e indicadores estatísticos utilizados em pesquisas na área de ciência
política para a produção de informações sobre variáveis categóricas. Será seguida a
seguinte ordem: começa pela produção de indicadores para a análise univariada e do
impacto de uma variável sobre determinados fenômenos. Em seguida, são apresentados
alguns testes estatísticos multivariados para dados categóricos.
2. INDICADORES ESTATÍSTICOS
A criação de indicadores é uma das formas de reduzir dimensões, ou seja, de

categorias, através da contagem de Impacto da presença de determinada característica
na variável. Por exemplo, imagine que em uma pesquisa sobre a presença de temas
políticos nos meios de comunicação, queira-se identificar o impacto, além da simples
presença, que determinados textos apresentam nas primeiras páginas dos jornais. Para
isso, é preciso criar um indicador que pode ser chamado de “indicador de visibilidade na
primeira página”. Esse indicador vai levar em consideração que os textos acompanhados
por fotos têm mais visibilidade que os demais; as manchetes terão visibilidade maior que
as chamadas, que por sua vez serão mais visíveis que os demais tipos de textos das
páginas. Além disso, se o texto está na primeira dobra da página (metade superior da
7
página), terá maior visibilidade do que na segunda dobra. Então, codificam-se as variáveis
e depois se dá peso a cada uma delas:
i) Texto com foto = peso 2

Texto sem foto = peso 1
ii) Manchetes = peso 3

Chamadas = peso 2
Outros = peso 1
iii) Tamanho grande = peso 3

Tamanho médio = peso 2
Tamanho pequeno = peso 1
iv) Primeira dobra = peso 2

Segunda dobra = peso 1.
Então, o fator de impacto será:
Indicador de visibilidade = ∑ dos pesos das categorias de cada variável.
Antes de produzir o Indicador sugere-se testar a confiabilidade da relação entre as

variáveis parciais. Para medir a consistência ou confiabilidade de determinado indicador é
usado o coeficiente alfa (α) de Cronbach, que deve ser interpretado como um coeficiente
de correlação ao quadrado (r2) com média supostamente real a respeito do fenômeno
estudado. No SPSS o caminho para o Coeficiente alfa de Cronbach é
(analize/Scale/ReabilityAnalysis). No exemplo tratado aqui, o coeficiente de Cronbach foi
de 0,381, ou 38,1%. Sua interpretação pode ser a de que o indicador estaria medindo
38% do total de impactos possíveis ou que as suas medidas concordariam com a dos
itens incluídos no modelo em 38%. Se o valor é alto ou baixo depende do pesquisador.
Pode tentar incluir excluir alguma variável das já consideradas a fim de alterar o
coeficiente, se o valor não for satisfatório. Importante observar que o teste parte do
pressuposto de que todas as variáveis têm correlações positivas entre si. Antes de
produzi-lo é preciso verificar uma matriz de correção com as variáveis consideradas. No
caso de existirem correlações negativas é preciso multiplicar os valores por – 1.
Quadro 2 – Output do teste de Cronbach a partir do SPSS

Alfa de Cronbach Alfa de Cronbach padronizado Número de variáveis
0,381 0,595 4
Percebe-se também que o teste apresenta um Cronbach padronizado, que nesse

caso é de 59,5%. A padronização é feita a partir do z-score de medidas. O valor
8
padronizado e não-padronizado difere, nesse caso, por conta da diferença de escala entre
as variáveis. Algumas vão de 1 a 2 e outras vão de 1 a 3. Quando padronizado, percebe-
se uma relação mais forte, passando de 38,1% de explicação para 59,5%.
Aceitando a confiabilidade do indicador, dá-se continuidade à criação do indicador

aditivo, pois ele é obtido a partir da adição de diferentes valores. Neste exemplo, a
categoria de menor visibilidade terá valor 4 e a de maior visibilidade terá valor 10. Ou
seja, a amplitude máxima de variação desse indicador é de seis pontos, diferença entre
os valores 4 e 10. A tabela a seguir sumariza as distribuições dos casos para os novos
valores do indicador. Percebe-se que quase 60% dos casos agrupa-se nas duas
categorias de menor visibilidade (4 e 5), enquanto apenas 2,4% dos casos fica nas duas
categorias de maior visibilidade do indicador (9 e 10).
TABELA 1 - Indicador de Visiblidade

Código Frequência Percentual Percentual válido Percentual Cumulativo
4 1642 22,6 22,6 22,6
5 2699 37,2 37,2 59,9
6 1457 20,1 20,1 80,0
7 974 13,4 13,4 93,4
8 303 4,2 4,2 97,6
9 81 1,1 1,1 98,7
10 94 1,3 1,3 100,0
Total 7250 100,0 100,0
Fonte: banco de dados primeiras páginas 2008/Grupo de Pesquisa
A partir dessa distribuição é possível reunir algumas categorias para diminuir o

número de dimensões dentro da variável. Assim, por exemplo, para produzir uma Escala
de Likert com cinco pontos, pode-se considerar o código 4 como visibilidade muito baixa;
reunir as categorias 5 e 6 para visibilidade baixa; manter a 7 como visibilidade alta;
agregar 8 e 9 para visibilidade alta e deixar a 10 como visibilidade muito alta, conforme
aparece na tabela agregada a seguir. Assim, seria possível analisar a partir de uma única
dimensão a distribuição das chamadas de primeira página de um jornal no que diz
respeito à visibilidade dada aos textos.
9
TABELA 2 - Indicador de Visiblidade Agregado

Categoria Frequência Percentual Perc. Cumulativo
Muito baixa 1642 22,6 22,6
Baixa 4156 57,4 80
Média 974 13,4 93,4
Alta 384 5,3 98,7
Muito alta 94 1,3 100
Total 7250 100
Fonte: banco de dados primeiras páginas 2008/Grupo de Pesquisa
Com isso é possível verificar como a maior parte das chamadas de primeira parte
de um jornal aparecem em espaços de baixa visibilidade (80% entre muito baixa e baixa),
permitindo problematizar a ideia de que tudo o que aparece nas capas dos jornais tem a
mesma relevância para os jornalistas. Em outras palavras, se menos de 10% das
chamadas de capa tem alta visibilidade, torna-se importante verificar que temas e
abordagens se fazem presentes nesses textos. Para isso existem testes estatísticos que
medem a força da relação entre duas variáveis, que no exemplo seriam: visibilidade e
tema da chamada. O próximo tópico começa a apresentar os principais testes não-
paramétricos para medir a relação entre duas variáveis categóricas. Antes de tratarmos
dos testes propriamente ditos é preciso definir o papel dos testes de hipóteses, que
sustentam teoricamente as provas estatísticas de significação ou provas de contraste.
Essas provas têm a função de determinar se existem diferenças entre grupos em relação
a uma variável ou dependência entre variáveis de um mesmo grupo. As provas de
significância partem de uma hipótese estatística, que é submetida à comprovação através
das provas de significância.
2.1 Hipóteses Estatísticas

São duas as hipóteses estatísticas usadas para a realização dos testes de
significação.
i) Hipótese Nula (H0) - Ela indica que a diferença entre os valores é
estatisticamente nula. Essa diferença deve-se às oscilações do acaso. Ela sempre é
representada como uma relação matemática de igualdade:
Média 1 = Média 2; Média da Amostra = Média da População; Proporção 1 = Proporção 2
O que equivale dizer que:
Média 1 – Média 2 = 0; Média da Amostra – Média da População = 0, etc.

10
ii) Hipótese Alternativa (H1) – indica que as diferenças observadas não podem ser
explicadas por oscilações do acaso, ou seja, as diferenças são estatisticamente
significativas. Portanto, H1 sempre será a negação de H0.
Média 1 difere da Média 2; Média da Amostra difere da Média da População, etc.
Segundo Fischer, todo experimento estatístico existe para dar aos fatos uma
oportunidade de rejeitar a hipótese nula. Ao afastar a possibilidade de aceitação da
hipótese nula estamos validando a hipótese alternativa. Na prova de significação a
hipótese nula é submetida ao teste, pois se considera que todas as diferenças devem-se
ao acaso até que se prove o contrário. Rejeitar a hipótese nula após o teste de
significância representa aceitar automaticamente a hipótese alternativa. Para rejeitar a
hipótese nula é preciso que o resultado do teste fique na chamada região crítica da zona
de distribuição dos resultados, ou seja, fora do intervalo esperado. O teste de significância
qui-quadrado, a seguir, parte da idéia de que se pretende rejeitar a hipótese nula para
comprovar a existência de variações não aleatórias entre as dimensões de uma variável
ou na relação entre as categorias de duas variáveis qualitativas.
3. PROVA DE QUI-QUADRADO
A prova de qui-quadrado (X2) é usada para comprovar se existem diferenças

estatisticamente significativas entre duas distribuições quaisquer ou para medir a relação
entre uma distribuição real e a distribuição teórica esperada. Também é chamado de
Teste de Adequação, sendo usado em variáveis categóricas. Aqui, a hipótese nula
sustenta que não existem diferenças significativas entre as distribuições comparadas. O
método de análise parte de uma comparação entre os resultados observados com os
resultados esperados, caso não houvesse diferença significativa entre as distribuições.
Em outras palavras, ele verifica a hipótese nula de que não existem diferenças
significativas entre freqüências observadas de determinado fenômeno e as freqüências
teóricas esperadas, quando se avalia uma única variável. A hipótese alternativa aponta
que as diferenças que existem não são aleatórias.
O qui-quadrado depende apenas dos graus de liberdade como parâmetro. A sua

forma de distribuição aproxima-se da normal à medida que aumentam os graus de
liberdade, equiparando-se a esta quando houver 30 ou mais graus de liberdade.
11
Para poder aplicar a prova de qui-quadrado, as freqüências teóricas de cada

casela da tabela de distribuição devem ser iguais ou superiores a 5. Sem isso precisará
ser feito um reagrupamento de categorias até que seja cumprido o pressuposto. O qui-
quadrado tem muitas aplicações, sendo as principais:
3.1 Comparar uma distribuição observada a uma teórica: quando se lança um

dado 90 vezes, teoricamente deveria haver 15 vezes cada face, como resultado. Trata-se
de comparar se as faces observadas no experimento diferem significativamente das
esperadas. Se o nível de significância (Alfa) do teste fica acima de 0,05, então, nada se
opõe a aceitar a hipótese nula de que não existe diferença estatisticamente significativa e
as observadas são frutos do acaso.
No SPSS, para rodar o teste que comparada a distribuição observação a uma

teórica para uma variável, o caminho é analize/nonparametric tests/chi-square . Por
exemplo, digamos que se queira saber se a presença do tema “meio ambiente” na
primeira página na Folha de São Paulo tem presença similar a de outros temas, ou não. O
output gerado é o que segue:
Meio Ambiente
Observed N Expected N Residual

Outros temas 1257 644,5 612,5
Meio ambiente 32 644,5 -612,5
Total 1289
Estatísticas
tema_meioambiente
a
Chi-Square 1164,178
DF 1
Asymp. Sig. 0,000
a. 0 cells (,0%) have expected frequencies less than
5. The minimum expected cell frequency is 644,5.
O resultado mostra, como esperado, que há uma diferença significativa entre o

número de chamadas sobre meio ambiente e de outros temas na primeira página do
jornal. O nível de significância é de 0,000, bastante abaixo do limite crítico e o coeficiente
é alto (1164,17). O teste também informa que todos os casos ficam acima de 5 na
distribuição esperada, portanto, não há constrangimentos para a análise dos resultados.
O resultado não seria significativo, caso o número de chamadas sobre meio ambiente
12
ficasse próximo a 644,5, que é a distribuição teórica esperada. Nesse caso, as variações
seriam consideradas aleatórias.
3.2 Comparar distribuições observadas com dados independentes: essa

prova é usada para comparar se diferentes médias observadas em dois grupos
independentes são estatisticamente significativas. A hipótese nula pode ser formulada
como não existem diferenças significativas entre os dois grupos ou que as diferenças
observadas são frutos do acaso ou ainda, as duas amostras procedem da mesma
população. A prova mais utilizada para esse tipo de comparação é a U de Mann-Whitney,
que prova se dois grupos independentes procedem da mesma população.
3.3 Comparar duas distribuições observadas com dados relacionados: São

feitas medições sobre os mesmos indivíduos que foram previamente igualados. Por
exemplo, a um grupo de 190 estudantes foi aplicado um exame tradicional e outro tipo
teste. No tradicional foram aprovados 120 alunos e no teste foram aprovados 130. Sabe-
se que 110 alunos foram aprovados nos dois. Queremos saber se os dois tipos de provas
oferecem os mesmos resultados. A comparação de dados pareados leva em conta
apenas as freqüências cujas categorias não coincidem, abrindo mão das respostas iguais
antes e depois. Nesse caso, interessam apenas os alunos que foram aprovados em um
teste e não aprovados em outro.
3.4 Prova de independência: o qui-quadrado também é usado para confirmar a

hipótese de independência, ou seja, para saber se duas variáveis categóricas estão ou
não relacionadas. A hipótese nula afirma que as duas variáveis são independentes, quer
dizer, não apresentam nenhuma relação entre si. Podemos aplicar a prova de
independência no exemplo anterior. A diferença é que agora estamos interessados em
saber até que ponto os aprovados em uma prova também são aprovados em outra. Como
temos 110 alunos aprovados nas duas provas, há grandes chances do teste rejeitar a
hipótese nula, apresentando um Alfa abaixo de 0,05. Isso indica que há dependência
entre as duas variáveis, ou seja, quem é aprovado na prova tradicional tende a ser
aprovado na prova tipo teste. IMPORTANTE: A prova de qui-quadrado só permite aceitar
ou rejeitar a hipótese nula, mas no caso de rejeitá-la, não é possível saber em que
medida as duas variáveis estão relacionadas. O coeficiente de contingência ou coeficiente
de correlação, obtidos através de tabelas de contingência, é a prova adequada a ser
aplicada depois de rejeitada a hipótese nula pelo qui-quadrado.
13
Para fazer o teste qui-quadrado para independência entre variáveis no SPSS o

caminho é analize/Descriptives Statistics/Crosstabs Na caixa de tabela de cruzamentos
coloca-se uma variável nas linhas e outra nas colunas para gerar a crosstab. Na opção
statistics dessa caixa deve-se marcar a opção Chi-square para gerar o resultado teste.
Vamos aplicar o teste ao seguinte exemplo: verificar a relação entre a presença de
determinado tipo de fonte (se oficial ou disruptiva) e a abrangência da chamada (local,
regional, nacional ou internacional) nas primeiras páginas da Folha de São Paulo. O
output é o que segue:
Abrangência / origem de fonte
Origem de fonte
Oficial Disruptiva Social Total

Abrangência Local 15 11 26
Regional 6 7 13
Nacional 112 34 146
Internacional 32 17 49
Total 165 69 234
Teste qui-quadrado
Value df Asymp. Sig. (2-sided)

a
Pearson Chi-Square 9,103 3 0,028
Likelihood Ratio 8,712 3 0,033
Linear-by-Linear Association 1,540 1 0,215
N of Valid Cases 234
a. 1 cells (12,5%) have expected count less than 5. The minimum expected
count is 3,83.
O resultado do teste de qui-quadrado mostra um sig. de 0,028, abaixo do limite

crítico. Portanto, se pode dizer que há uma diferença significativa entre a área de
abrangência e o tipo de fonte citada. O qui-quadrado também aponta que há distribuições
esperadas com menos de cinco casos, o que reduz a capacidade de predição do teste.
Na tabela de cruzamento percebe-se que as fontes oficiais concentram-se
proporcionalmente mais na abrangência nacional que as disruptivas. Quando se testa a
relação entre duas variáveis, o coeficiente de qui-quadrado apresenta apenas se a
relação é estatisticamente significativa ou não. Para saber a força da relação deve-se
usar o coeficiente de contingência (C), que no SPSS aparece como opção na mesma
14
caixa de statistics do crosstabs. Esse coeficiente varia de zero a um, sendo que quanto
maior o valor de C, maior a associação entre as variáveis.
Value Approx. Sig.

Nominal by Nominal Contingency Coefficient 0,194 0,028
N of Valid Cases 234
No caso do exemplo acima, o coeficiente de contingência é de 0,194, ou seja, de

19,4% de associação entre o tipo de fonte presente nas chamadas e a abrangência das
mesmas. A seguir, no tópico sobre tabela de contingência será detalhada a forma de
obtenção do qui-quadrado sem o uso de pacotes estatísticos.
4. TABELA DE CONTINGÊNCIA
A maneira mais simples de analisar a relação existente entre duas variáveis

categóricas é através da tabela de contingência. Nela, a análise é realizada a partir da
verificação da distribuição das ocorrências para identificar se ela apresenta algum padrão
de comportamento ou se é aleatória. Se a distribuição não for aleatória, indicará uma
relação entre as duas variáveis. Utiliza-se o teste de qui-quadrado em tabelas de
contingência para verificar a possibilidade de relação não-aleatória entre as variáveis
contingenciadas. O qui-quadrado é um teste baseado no cálculo do total de desvios entre
as ocorrências observadas e esperadas, segundo os graus de liberdade. A partir disso ele
examina se um padrão da distribuição apresenta probabilidade suficiente de ocorrência
para considerá-la não-aleatória. A fórmula para o cálculo do qui-quadrado é:

2 = ∑

Onde: O = Frequência observada e E = Frequência esperada.
Seguindo o exemplo acima, digamos que se queira fazer uma tabela de

contingência entre as variáveis: indicador de visibilidade e abrangência do assunto tratado
na primeira página, que pode ser local, regional, nacional ou internacional.
15
Tabela de Contingência com cálculo de qui-quadrado

Abrangência do tema
Código Local Regional Nacional Internacional Total
4 535 272 630 205 1642
5 913 529 976 281 2699
6 706 271 343 137 1457
7 438 184 254 98 974
8 148 58 56 41 303
9 34 16 12 19 81
10 51 24 8 11 94
Total 2825 1354 2279 792 7250
a Coeficiente de Qui-quadrado de Pearson: 241,902 (alfa = 0,000)
Nesse caso, o pesquisador pode considerar que a relação entre as duas variáveis
contingenciadas não é aleatória, pois o qui-quadrado aponta para uma possibilidade muito
abaixo do limite crítico para a aceitação da aleatoriedade (0,000). Ou seja, pode-se
concluir que há uma relação entre abrangência do tema e visibilidade que a chamada
ganha nas capas dos jornais No entanto, as informações oferecidas pelo teste de qui-
quadrado terminam aqui. Não permite especular sobre porque isso ocorre, por exemplo.
Para complementar as informações fornecidas pelo qui-quadrado é possível analisar uma
tabela de resíduos contingenciados. Um complicador para a análise dessa tabela são as
diferenças nos totais, o que pode induzir a erros. Por exemplo, dá-se a impressão pelos
valores absolutos que 976 chamadas de abrangência nacional com visibilidade 5 teria
aproximadamente a mesma relevância que 913 chamadas de abrangência local no
mesmo índice de visibilidade. Para não correr o risco desses erros ou incertezas, sugere-
se a realização da análise de resíduos da tabela de contingência.
A análise de resíduos padronizados nada mais é do que a verificação dos valores

que representam a relação biunívoca (nas duas direções) com probabilidade de chances
de ocorrências. Ou seja, são os valores que sobram quando a distribuição não é aleatória
na relação o observado e o esperado. Ao se estabelecer 99% de intervalo de confiança,
essas chances de ocorrência são de ± 2,5%. Elas servem de pontos de corte para o nível
de significância de falta ou excesso de ocorrência entre as variáveis. Assim, ela permite
distinguir as relações de ocorrências casuais das não-casuais. Como o valor na tabela z-
score para o intervalo de confiança de 95% é de 1,96, pode-se considerar que valores de
resíduos padronizados acima de + 1,96 ou abaixo de – 1,96 apresentam excessos de
casos, sendo, portanto, causas das relações não-aleatórias apontadas pelo qui-quadrado.
16
Mas, atenção, como a análise de resíduos é complementar ao qui-quadrado, se este não

apresentar resultados significativos, não faz nenhum sentido realizar a análise de
resíduos padronizados. Para o exemplo utilizado até aqui, a tabela de contingência com
os valores dos resíduos para as relações entre cada categoria é apresentada a seguir:
Resíduos entre Abrangência e Indicador de Visibilidade

Abrangência da entrada
Local Regional Nacional Internacional Total
N 535 272 630 205 1642
4
Resíduo padronizado -4,1 -2,0 5,0 1,9
N 913 529 976 281 2699
5
Resíduo padronizado -4,3 1,1 4,4 -0,8
N 706 271 343 137 1457
6
Resíduo padronizado 5,8 -0,1 -5,4 -1,8
N 438 184 254 98 974
7
Resíduo padronizado 3,0 0,2 -3,0 -0,8
N 148 58 56 41 303
8
Resíduo padronizado 2,8 0,2 -4,0 1,4
N 34 16 12 19 81
9
N 51 24 8 11 94
10
Total N 2825 1354 2279 792 7250
Agora, com os resíduos por categoria o volume de informações a respeito da

relação entre as duas variáveis aumenta. Os valores superiores a ± 1,96 foram
destacadas na tabela. Em primeiro lugar eles mostram que as relações significativas
estão concentradas na abrangência local e na nacional. Já a abrangência regional e a
internacional praticamente não apresentam relações acima do limite crítico. Além disso,
por conta da presença dos sinais nos resíduos é possível identificar a direção das
relações. No caso da abrangência local, percebe-se que os resíduos negativos estão
presentes majoritariamente nas categorias de menor visibilidade (4 e 5) e os resíduos
positivos aparecem em todas as demais categorias. Isso indica que há uma
predominância de abrangências locais em chamadas de maior visibilidade. O inverso
acontece com as chamadas de abrangência nacional, pois os resíduos positivos
significativos aparecem mais nas baixas visibilidades, enquanto os negativos estão nas
altas visibilidades, mostrando sentido oposto. Como conclusão é preciso destacar que a
17
análise de resíduos apontou diferenças significativas em relação aos valores absolutos na

tabela de contingência.
5. APLICAÇÃO DE RISCO RELATIVO NAS CIÊNCIAS SOCIAIS
Os testes de risco são originários da área da saúde e utilizados para identificar as

diferentes probabilidades de ocorrência de determinado dano em alguns indivíduos
quando comparados a outros, em função de características específicas. Esse conceito
pode ser adaptado para testar estatisticamente as diferenças de probabilidades para
ocorrência de determinado fenômeno (o risco) em função de dadas características
presentes na população pesquisada. Por exemplo, pensando em estudos eleitorais, qual
o risco (probabilidade) de encontrar um eleitor sem candidato em períodos pré-eleitorais
caso ele apresente como uma de suas características o baixo interesse por política. Com
isso, é possível estabelecer uma escala de baixo ou quase nulo até risco máximo para os
casos de alta probabilidade. Conceituamos “risco” em ciências sociais como a
probabilidade que um indivíduo ou grupo de indivíduos tem de apresentar determinado
comportamento/opinião em função de suas características atuais. Portanto, “risco” é um
conceito probabilístico e não determinístico. Não se pode falar em risco quando se sabe
que não há probabilidade alguma de ocorrência do fenômeno. Por exemplo, qual o risco
de brasileiros menores de 16 anos votarem? Nenhum, pois eles são proibidos. Não há
probabilidade nessa ocorrência.
O risco da ocorrência de determinado evento varia de probabilidade teórica zero,

quando não há chance de ocorrência, até a probabilidade teórica de um, quando todos os
indivíduos apresentarão ocorrência do fenômeno. Quanto mais próximo de zero, menor o
risco e, portanto, menos diferenciação a característica estudada é capaz de apresentar
nos integrantes da população pesquisada. A essa característica dá-se o nome de “fator de
risco”. Quanto mais presente o fator de risco, maior a probabilidade de encontrarmos
determinado fenômeno, ou seja, características que apresentam uma associação
empírica e significativamente estatística com determinado efeito/fenômeno. A forma mais
comum de quantificar o risco de determinada ocorrência a partir da presença de uma
característica é através do cálculo do Risco Relativo (RR) pelo qui-quadrado.
18
5.1 Risco Relativo: é o risco de uma característica relacionar-se com outra. Ele
mede a potência da associação. Trata-se da relação entre o cociente de risco de
apresentar determinada característica daqueles que estão expostos ou possuem um ou
mais fatores de risco possíveis de serem identificados, comparado com os que não
apresentam esses fatores. Ou seja:
ê í

ê ã
Por exemplo, imagine que queremos analisar o risco relativo do eleitor que não
possui preferência por partidos políticos de não ter escolhido candidato a prefeito de sua
cidade antes do início da campanha eleitoral. Para facilitar o cálculo, os dados devem ser
dispostos em uma tabela quádrupla, organizada de forma que apresente a presença e
ausência das características, como a tabela a seguir:
Comportamento/opinião
Fator TOTAL
Sim Não
Sim a b a+b
Não c d d+d
TOTAL a+c b+d a+b+c+d
Onde,
a = é a presença do fator (característica) e do comportamento ou opinião

estudada, também chamado de verdadeiro positivo.
b = presença do fator (característica), sem a presença do comportamento ou

opinião estudada, ou, falso positivo.
c = ausência do fator (característica), com a presença do comportamento ou

opinião estudada – falso negativo.
d = ausência do fator (característica) e do comportamento ou opinião estudada –

verdadeiro negativo.
a + b = total dos que apresentam o fator (característica).
c + d = total dos que não apresentam o fator (característica).
a + c = total dos que apresentam o comportamento/opinião estudado.

19
b + d = total dos que não apresenta o comportamento/opinião estudado.
a + b + c +d = total de indivíduos dos quais se tem informações.
No nosso exemplo, o fator de risco (característica) é declarar ter preferência por

partido político e o comportamento estudado é ter candidato a prefeito pré-definido antes
do início da campanha eleitoral. O que se quer testar aqui é se existe um risco maior de
apresentar preferência por candidato entre aqueles que dizem ter preferência por algum
partido político. Substituindo na tabela acima, temos:
Preferência Possui candidato a prefeito

TOTAL
partidária Sim Não
Sim 114 110 224
Não 56 146 202
TOTAL 170 256 426
A fórmula para o cálculo da incidência do risco é probabilística, como abaixo:
%%&
!" &
# = '( = 1,85
#!$ )
A leitura dos resultados é a seguinte: existe 1,85 vezes mais chance de um eleitor
com preferência partidária possuir candidato a prefeito antes do início da campanha
eleitoral do que um eleitor sem preferência partidária. RR menores que 1,5 não são
considerados práticos, ou seja, devem ser tido como fator que não interfere no
comportamento estudado. Portanto, o risco acima, de 1,85, é relevante do ponto de vista
prático. Porém, além disso, é preciso saber se ele é estatisticamente significativo. Para
isso, basta fazer um teste X2 (qui-quadrado) e verificar o resultado com o valor da tabela
que qui-quadrado com número de graus de liberdade referente ao teste.
O primeiro passo é a identificação do valor de X2 para o exemplo acima a partir da

fórmula:
**
Qui-quadrado X2 = ∑
*
Onde:
20
Fo = freqüência observada.
Fe = freqüência esperada.
Para encontrar a freqüência esperada:
+, - +.
Fe =
/
Onde:
Mc = marginal da coluna do valor calculado.
Ml = marginal da linha do valor calculado.
N = número total de caso.
Para alguns casos, outra forma de calcular é:
2. 4 5 6. 7. 1/21

01
2 ; 64 ; 76 ; 42 ; 7
114.56 5 110.146. 1/21

01 0,011
114 ; 110146 ; 56110 ; 146114 ; 56
O valor de X2 para a distribuição do exemplo é de 0,011. Este valor será

significativo se ficar acima do limite crítico estabelecido na tabela de distribuição do qui-
quadrado. Para saber o nível de significância é preciso conhecer o número de graus de
liberdade da relação, que é obtido com: (1 – nº de colunas) x (1 – nº linhas). Neste caso
são duas colunas por duas linhas. Então, temos 1 x 1 = 1 grau de liberdade.
Olhando para a primeira linha de a tabela a seguir (1 grau de liberdade) e

considerando o Intervalo de confiança de 95% (0,05 na coluna), o limite crítico indicado é
3,841, portanto, muito acima de 0,011, portanto, não podemos dizer que há uma relação
de risco estatisticamente significativa para a presença de preferência por partido eleitoral
por ter candidato a prefeito antes da campanha eleitoral.
Tabela de Distribuição do Qui-quadrado X2

21
Fonte: TRIOLA, Mario. Introdução à Estatística.

22
6. Q DE YULE
O teste de independência Q serve para identificar se duas variáveis dicotômicas

estão relacionadas entre si, de quanto é a intensidade da relação e se os resultados
podem ser usados em generalizações. Como é aplicado em tabelas quádruplas (com
duas variáveis dicotômicas) e qualquer variável pode ser dicotomizada, torna-se bastante
útil por ser possível de obtê-lo com a aplicação de fórmulas simples, dispensando o uso
de programas de computador.
Uma variável pode ser dicotomizada quando se decide separar em dois grupos as
categorias internas dela. Por exemplo, eu posso ter uma variável categórica divida em
avaliação Muito Boa, Boa, Ruim e Péssima. A dicotomização se dá quando o pesquisador
divide os resultados entre Avaliação Positiva e as demais. Ou em uma variável contínua,
como idade. Nesse caso, a opção pode ser usar o valor mediano para dividir em dois
grupos: o dos mais novos – até a mediana – e o dos mais velhos – acima da mediana.
Também é possível, a partir das freqüências de intenção de voto em seis candidatos,
dicotomizar separando os respondentes que dizem votar em um candidato de todos os
demais. Nesse caso, teria apenas dois resultados: vota no candidato A ou não vota no
candidato A. O importante é saber que qualquer variável pode ser dicotomizada através
de processos defensáveis estatisticamente. Quando se tem duas variáveis dicotômicas,
tais como votar ou não no candidato A e idade dos respondentes (jovem e não-jovem) é
possível aplicar os cálculos do coeficiente de Q de Yule para identificar se as duas
variáveis são independentes ou não. Se não, em que grau elas estão correlacionadas e,
por fim, se os resultados dos testes em uma amostra são consistentes o suficiente para
permitir a extrapolação.
O mais comum quando se agregam variáveis escalares, proporcionais, ordinais ou

de intervalo, considera-se X e Y o conjunto de valores Altos e não X e Não Y os valores
baixos. Essa convenção é importante em função do sinal nos resultados dos testes. As
tabelas quádruplas são compostas por 4 células de freqüências, 4 células com
freqüências marginais e uma célula de total, chamada de N. Cada uma das células de
freqüências recebe uma letra como nome, sendo, A, B, C e D, como no exemplo a seguir:
Tabela – Exemplo 1
23
Não Y Y
X A B Marginal X
Não X C D Marginal Não X
Marginal Não Y Marginal Y Total de Casos (N)
Devem fazer parte das células de freqüências apenas os casos válidos, o que
precisa estar expresso aos leitores. As variáveis a serem analisadas são chamadas de X
e Y. As categorias de grupamento dicotômico são chamadas, por conseqüência, de X,
não-X , Y e não-Y. em um exemplo de pesquisa sobre intenção de voto, os respondentes
que dizem votar no candidato A compõem as casas da linha X e aqueles que dizem votar
em qualquer outro candidato fazem parte da linha Não-X.
As somas dos casos nas linhas (horizontais) e nas colunas (verticais) formam o
que se chama de Marginal. A somatória das marginais leva ao número total de casos
analisados, representado pela letra N.
6.1 Teste de Independência Q de Yule
As análises de independência visam identificar se duas variáveis apresentam

alguma associação ou correlação estatisticamente perceptível. Se houver, ela pode ter
diferentes intensidades – ser fraca, forte, etc. Também pode não haver relação entre as
variáveis analisadas, ou seja, serem independentes.
Aqui, o teste de independência, assim como todos os já estudados, visa identificar

a inexistência de relação entre duas variáveis. Portanto, relembrando, a hipótese inicial é
de independência. Se houver alguma relação ou associação entre as variáveis, então,
nega-se a hipótese de independência e mede-se o grau de correlação entre elas
posteriormente.
Para deduzir se existe ou não alguma relação entre as variáveis X e Y comparam-

se as freqüências observadas com uma tabela deduzida caso não houvesse nenhuma
relação – chamada de freqüência esperada. Lembre-se que sempre a estatística espera
inicialmente não encontrar relação, logo, se a freqüência esperada for a mesma ou estiver
muito próxima da freqüência observada, então, podemos afirmar que não há relação entre
as duas variáveis. No entanto, se houve diferenças entre as freqüências observadas e as
esperadas, isso nega a independência entre elas, indicando que existe correlação.
24
O termo técnico para descrever a inexistência de relação entre duas variáveis é

“independência estatística”. Portanto, temos independência estatística quando X e Y são
estatisticamente independentes, o que ocorre se as probabilidades das células esperadas
igualam os produtos das probabilidades marginais relevantes. Nesse caso, também é
indicado que as probabilidades de ocorrência de uma categoria em uma variável são as
mesmas, independente da categoria da outra variável, ou seja, a segunda não faz
diferença para a primeira.
A seguir é apresentada uma tabela quádrupla sobre a tematização da primeira

página do jornal Gazeta do Povo durante a campanha eleitoral de 2002 (agosto a outubro)
que será usada nos testes posteriores deste capítulo. As variáveis são: Tema Social, que
identifica que temais tiveram espaço na primeira página do jornal. São considerados
temas sociais aqueles relacionados à economia, infra-estrutura, violência, saúde e
educação. Não são temas sociais os que tratam da campanha eleitoral, temas
institucionais, ético-morais e de variedades. A outra variável indica a localização das
chamadas na primeira página, divididas entre primeira dobra (metade superior da página)
e segunda dobra (metade inferior da página). Podemos querer identificar se há alguma
relação entre tipo de tema e localização na primeira página.
A questão de pesquisa a ser feita é a seguinte: será que os temas sociais, quando
transformados em chamada de primeira página na Gazeta do Povo, tendem a predominar
na primeira dobra, onde a visibilidade é maior? Se houver alguma relação entre tema
social e primeira dobra, poderemos dizer que não existe independência estatística e, logo,
as variáveis estão relacionadas de alguma forma. Então, no caso em análise, estar na
primeira dobra é X e na segunda dobra é não-X. Ser chamada com Tema Social é Y e ser
de qualquer outro tema é não-Y. Substituindo os valores na tabela quádrupla teria o
seguinte. Exemplo de tabela quádrupla para tipo de chamada de primeira página no jornal
Gazeta do Povo:
Outros temas (Não Y) Temas sociais (Y)

1ª dobra (X) 856 (0,244) 398 (0,113) 1254 (0,358)
2ª dobra (Não X) 1353 (0,386) 893 (0,255) 2246 (0,641)
2209 (0,631) 1291 (0,368) 3500 (0,999)
Nesse exemplo, a probabilidade aleatória de sortearmos uma chamada sobre

tema social do total de 3.500 existentes no banco é de 0,368, ou, percentualmente 36,8%.
Já a probabilidade aleatória de se sortear uma chamada de primeira dobra é de 0,358
25
(35,8%). Se as duas variáveis fossem independentes (tema e posição na página) o

produto das probabilidades delas representaria a probabilidade esperada de sorteio de
determinada categoria. Por exemplo, se chamada sobre tema social e posição na 1ª
dobra fossem independentes, esperar-se-ia encontrar que:
( probabilidadeTemaSocial _ x _ probabilidade1ª dobra = probabilidadeesperada )
Substituindo pelos valores observados no exemplo:
0,368 x 0,358 = 0,131
Considerando que a probabilidade observada de Tema Social na Primeira Dobra é

de 0,113 (ver célula B do exemplo acima), temos que:
Probabilidade observada = 0,113
Probabilidade esperada = 0,131
-0,018
Perceba que o resultado da subtração entre a observada e esperada indica uma

diferença de - 0,018, ou seja, há menos chamadas sobre temas sociais na primeira dobra
do que se esperaria, caso as duas variáveis fossem totalmente independentes. Essa
diferença indica a existência de alguma relação entre as duas variáveis, portanto, não
sendo possível manter a hipótese de independência. O valor da diferença obtida é
chamado de Delta. Nesse caso, Delta = -0,018.
Também é possível calcular Delta pelo número de casos e não a partir da

proporção. A lógica é a mesma. Se o resultado da subtração entre o esperado e
observado for diferente de zero, não é possível afirmar que as duas variáveis são
independentes. No caso do cálculo pelo número de casos, para encontrar a freqüência
esperada é preciso multiplicar as marginais e dividir por N. Fazendo para o mesmo teste,
o de chamadas de temas sociais na primeira dobra do jornal, teríamos que:
26
 1254 x1291 
Probabilidade esperada =   = 462,54
 3500 
Probabilidade observada = 398,00
Probabilidade esperada = 462,54
- 64,54
Ou seja, chegamos ao mesmo resultado de uma diferença negativa entre a

probabilidade esperada das probabilidades de chamadas sobre temas sociais na primeira
dobra se as variáveis fossem independentes e a probabilidade observada.
Nas tabelas quádruplas, em cada linha ou coluna os resultados devem ser iguais a
uma subtração de Valor Observado – Valor Esperado, com sinais trocados. Assim, o sinal
de Delta, que é o resultado da subtração, indicará o sinal da correlação, como mostrado
nas tabelas a seguir:
Positiva Negativa
Não Y Y Não Y Y
X - + X + -
Não X + - Não X - +
O exemplo acima indica uma correlação negativa, ou seja, as variáveis caminham

em direções opostas. Atenção para a diferença entre “tende a ser” e “a maioria é”. Nas
análises de correlação deve-se fazer, sempre, a primeira afirmação.
6.1.1 Principais tópicos:
- Independência é igual a ausência de associação. Significa que as probabilidades

das células observadas são iguais aos valores esperados (obtidos multiplicando-se as
marginais da tabela).
- A tabela que apresenta diferenças entre a probabilidade esperada e observada

mostra a existência de uma correlação ou associação entre as duas variáveis (X e Y).
- Conhecendo um valor Delta da tabela é possível saber todos os outros.

27
- As duas configurações possíveis para Delta diferente de zero são a Correlação

Positiva e a Correlação Negativa.
6.2 Teste de Correlação Q de Yule
O fato de não encontrarmos independência entre duas variáveis, ou seja, Delta

diferente de zero, não significa muita coisa. Isso não é suficiente para indicar a força de
uma correlação, por exemplo. O coeficiente Delta não deve ser usado para indicar a força
de uma correção por dois motivos principais:
1 – ele é sensível ao tamanho da amostra. Se dobrarmos o N no exemplo anterior

o valor de Delta também irá ficar o dobro. Isso impossibilita a comparação de coeficientes
Delta em amostras com N diferentes.
2 – O coeficiente Delta não possui um limite superior. Do lado inferior o limite é

zero, mas não é possível saber até quanto se pode chegar ao outro limite. Isso
impossibilita estabelecer magnitudes comparativas quando não se tem limite superior.
Pelos dois motivos acima se presume a necessidade de encontrar outro índice que
indique a força de uma relação entre duas variáveis não-independentes. O que se busca,
então, é uma medida que seja insensível ao tamanho da amostra e que tenha limites
superiores e inferiores determinados. A partir daí pode-se estabelecer algumas regras
estatísticas para medir o grau de associação:
- deve ser igual a zero quando X e Y forem independentes, e;
- deve ser de no máximo + 1,00 para associação positiva e – 1,00 para associação
negativa;
O estatístico inglês G. Udny Yule apresentou uma proposta de coeficiente de

correlação no início do século XX, respeitando as regras acima para aplicação aos
resultados de uma tabela quádrupla. A primeira publicação do coeficiente foi em 1911 e
Yule o batizou de Q em homenagem ao estatístico pioneiro Quételet (1796-1874). Com o
tempo, o coeficiente passou a ser chamado de Q de Yule. Sua fórmula é a seguinte:
( BxC ) − ( AxD)
Qxy =
( BxC ) + ( AxD)
28
Trata-se da divisão entre os produtos cruzados de uma tabela quádrupla. No

exemplo utilizado até aqui, substituindo os valores na fórmula, temos que:
(398 x1353) − (856 x893) 538494 − 764408 − 225914

Qxy = = = = - 0,173
(398 x1353) + (856 x893) 538494 + 764408 1302902
Uma das principais características do Q de Yule é que por ser o resultado de

produtos cruzados, em qualquer tabela quádrupla, quando o Delta cresce, o Q de Yule
também aumenta. Além disso, o coeficiente tem limite superior em +1,00 e inferior em -
1,00. Por outro lado, o coeficiente Q será zero quando uma ou duas células estiverem
vazias. Uma distribuição muito heterogênea também não é recomendada para o cálculo
do coeficiente pelo motivo citado acima.
A sugestão é que o calculo será realizado sempre que a distribuição dos casos na
tabela ficar abaixo de uma relação 70:30, ou seja, não mais de 70% dos casos em uma
categoria e não menos de 30% em outra. No exemplo usado aqui, olhando para as
marginais percebe-se relações da ordem de 63:36 e 64:35, abaixo, portanto, da regra dos
70 : 30.
A interpretação do resultado parte do princípio de que o significado interno do Q de

Yule está ligado à probabilidade de um par de casos diferir em ambos os itens, ou seja,
em um ser Tema Social na Primeira Dobra e outro ser Tema Não Social na Segunda
Dobra, para ficarmos no exemplo tratado até aqui.
Um par B C é chamado de consistente quando em um caso ele indica possuir a

característica medida e em outra também (ser X e Y) Ou, quando apresenta a ausência
da característica nas duas variáveis (não X e não Y), também é chamado de consistente.
Já um par A D é chamado de inconsistente quando em uma variável apresenta a
característica analisada e em outra não (ser X e não Y) e vice-versa.
A fórmula para encontrar a probabilidade de pares consistentes é a seguinte:
2 x ( BxC )
Probabilidade de pares consistentes =
N2
2 x (398 x1353)
No nosso exemplo, seria: = 0,087
3500 x3500
29
2 x (856 x893)
E, a probabilidade para pares inconsistentes seria: = 0,124
3500 x3500
Percebe-se que para encontrarmos os pares consistentes ou inconsistentes é

preciso fazer um produto cruzado, assim como em Q de Yule. Então, pode-se dizer que:
ParesConsistentes − ParesInconsistentes
Q de Yule =
TotalParesDiferentesXeY
Sendo assim, é possível afirmar que Q de Yule é a melhor forma para predizer que
X é Y e não X é não Y e vice-versa.
Se o Q de Yule for zero então teríamos uma probabilidade igual ao acaso para
predizer a existência de pares consistentes (X e Y), (não X e Não Y). Qualquer valor
diferente de zero indica uma probabilidade maior que a do acaso para predição da
consistência de pares de casos pelo coeficiente de Yule. Nesse caso, o sinal indica em
que direção deve seguir a correlação predita, enquanto o valor de Q indica quão
adequado será o resultado em uma predição. Quanto maior, óbvio, mais adequado. A
força da resposta pode ser indicada como o que consta na tabela da página 63, variando
de perfeita positiva, forte, média, fraca e desprezível, até perfeita negativa.
Outro fator importante para a força preditiva do Q de Yule para correlação entre
duas variáveis é o tamanho da amostra, ou, a distribuição dos casos nas casas. A
recomendação é que exista pelo menos cinco casos em cada casa de uma tabela
quádrupla para as freqüências esperadas. Para saber se a distribuição mínima das
freqüências esperadas é respeitada sem precisar encontrar o valor esperado para todas
as casas, basta multiplicar duas marginais e dividir por N. O resultado será o menor valor
esperado para as células da tabela quádrupla. Portanto, se ele for maior do que cinco
todas as outras casas apresentarão valor esperado superior ao limite mínimo. O cálculo é
o seguinte:
MenorM arg inalAxMenorM arg inalB

Menor valor esperado =
N
1291x1254
No exemplo = = 462,54
3500
30
Como 462,54 fica bem acima de 5, não precisamos temer, pois estamos
respeitando o limite mínimo de casos em cada casa para a realização do teste de Q de
Yule. Vamos em frente.
6.3 Limites de Confiança para o Teste de Correlação Q de Yule
Até aqui, utilizamos o teste Q de Yule para indicar a correlação entre duas
variáveis, considerando que o número de casos indica a totalidade, ou seja, o universo
estudado. Porém, o coeficiente também pode ser usado em amostras, o que permitiria
passar da estatística descritiva à inferencial, extrapolando os resultados de uma amostra
ao universo de casos. Para que isso aconteça, antes de qualquer coisa é preciso que a
amostra seja probabilística. Como teoria da amostragem não é objeto desse capítulo,
vamos partir do princípio de que se trata de uma amostra probabilística.
Para podermos inferir resultados de uma amostra ao todo precisamos contar com
o conceito de intervalo de confiança, pois ele permite dizer que dentro de determinado
intervalo de valores amostrais encontra-se o valor do universo na maioria das vezes.
Tiram-se daí limites superior e inferior do intervalo de confiança, ou seja, valores mínimo e
máximo que indicam o intervalo dentro do qual é possível encontrar o parâmetro para
todos os casos.
O Intervalo de Confiança mais usado é de 95%, que equivale ao valor de 1,96 na

tabela Z. Com base nisso, podemos usar a fórmula abaixo para calcular limites superior e
inferior do intervalo dentro do qual se deve encontrar o valor da correlação para toda
população a partir dos dados obtidos na amostra. A fórmula é:
Limite Superior = Qxy +
(1 − Q 2 ) 2 x(1 / A + 1 / B + 1 / C + 1 / D )
1,96x
4
Limite Inferior = Qxy -
Aplicando ao nosso exemplo, teríamos:
Limite Superior = - 0,173 +

31
(1 − (−0,173 2 )) 2 x(1 / 856 + 1 / 398 + 1 / 1353 + 1 / 893)

1,96x
4
Limite Inferior = -0,173 –
Assim:
Limite Superior = -0,173 + 0,028 = -0,145.
Limite Inferior = - 0,173 – 0,028 = - 0,201.
Esses resultados mostram que se os dados fizessem parte de uma amostra

probabilística, o valor do coeficiente de correlação Q de Yule para a população estaria
entre – 0,145 e - 0,201.
Se o intervalo inclui o valor zero, isso indica que seria possível o coeficiente de
correlação inferido à população a partir da amostra ser zero, portanto, não poderíamos
considerar os valores da amostra para fazer inferências à população como um todo. No
entanto, como o intervalo apresentou valores negativos em ambos os limites, então, pode-
se afirmar que os resultados valem para toda a população, ou seja, que o Q de Yule
encontrado para a correlação entre Chamadas de Temas Sociais e posição na Primeira
Dobra é estatisticamente significante.
6.3.1 Principais pontos:
A avaliação das relações entre duas variáveis em uma tabela quádrupla envolve
os seguintes conceitos:
1 – Independência, associação e sinal;
2 – Grau de correlação descrito;
3 – Inferência estatística, significância e intervalos de confiança.
7 ANÁLISES MULTIVARIADAS
A análise multivariada reúne um grande conjunto de técnicas estatísticas que a

rigor permite qualquer análise que considere o comportamento de várias variáveis ao
mesmo tempo. As principais técnicas utilizadas nas ciências sociais e que serão
apresentadas a seguir são a “análise de agrupamento” (cluster analysis) e a Análise de
32
Correspondência (correspondence analysis). Existem outras técnicas, com aplicações

variadas, que não serão abordadas aqui. Tanto a análise de agrupamento quanto a de
correspondência são duas técnicas ligadas ao conceito de proximidade geométrica, por
isso podem ser representadas graficamente.
Parte-se da idéia de que a relação entre duas variáveis pode ser plotada em um
gráfico de coordenadas (x, y) para identificar a localização de cada ponto (A e B). Uma
vez identificados os pontos é possível traçar uma linha que fará a projeção entre eles. A
partir da ligação entre os pontos (Ax e Bx) e (Ay e By) forma-se um triângulo retângulo no
qual a distância entre A e B é a sua hipotenusa. Sendo assim, a distância entre os dois
pontos pode ser calculada pelo teorema de Pitágoras, como indicado no gráfico a seguir.
Yb - Ya
Xb - Xa
Como a referência espacial está vinculada à geometria plana de Euclides, a

distância entre dois pontos calculada dessa forma é chamada de distância euclidiana. Ela
é medida em uma unidade comum, ou abstrata, pois não será nem X, nem Y, o que vale
tanto para um espaço bidimensional quanto para multidimensional (com vários eixos),
pois a distância entre dois pontos será sempre linear e possível de visualização em um
plano. Graças a essa característica é que se pode fazer testes de proximidade ou de
correspondência entre diferentes pontos distribuídos em planos dimensionais. Uma das
formas de se fazer isso é através da chamada Análise de Grupamento.
33
7.1 Análise de grupamento (cluster):
Nesse tipo de análise são calculadas as distâncias entre objetos em um espaço

multiplano representado por eixos de todas as variáveis. Em seguida eles são agrupados
em função da proximidade mútua. Começa por constituir um grupo inicial os dois objetos
(variáveis) mais próximos. Depois, identifica-se qual a variável que se localiza mais
próxima do centro desse grupo e forma-se um novo grupo até o total de objetos
estudados.
Por exemplo, digamos que se queira fazer uma análise de cluster para os
elementos selecionadores presentes em fatos sociais registrados nas primeiras páginas
dos jornais. Esses elementos selecionadores são indicativos dos critérios de
noticiabilidade utilizados pelos jornalistas para elencar os temas que vão compor o
espaço mais nobre do jornal. A literatura internacional apresenta uma lista de dez
elementos selecionadores (poder de elite, celebridade, entretenimento, surpresa, fatos
negativos, fatos positivos, magnitude, relevância, suíte e agenda da comunicação). Após
coletar as informações sobre presença ou ausência deles nas primeiras páginas dos
jornais, é possível fazer uma análise de cluster (no SPSS o caminho é: analize / Classify /
Hierarchical Cluster) para identificar possíveis similaridades e diferenças nas aparições
deles nas capas dos jornais. Os primeiros resultados são apresentados em forma de uma
matriz de proximidade entre as variáveis. Aqui, espera-se os menores valores para as
variáveis que estiverem mais próximas e, portanto, formando um cluster. Nota-se, na
tabela abaixo, que a menor distância encontra-se entre as variáveis (4) “surpresa” e (10)
agenda da comunicação, com um valor euclidiano de 233. É possível também olhar cada
coluna, identificando as proximidades de uma variável em relação a todas as outras. Por
exemplo, a variável Poder de Elite apresenta as menores distâncias em relação a Agenda
da Comunicação (1165) e surpresa (1228). Já as maiores distâncias estão em relação a
relevância (4772). Evidente que o significado dessas relações depende de uma
compreensão do que significa cada categoria dessas.
Matriz de Proximidade
poder Celebri Entreteni fatos fatos Magni Relevân Sequên agenda
de elite dade mento surpresa negativos positivos tude cia cia comunica
poder de elite 1346,0 2254,0 1228,0 1561,0 1315,0 1552,0 4772,0 1318,0 1165,0
Celebridade 1346,0 1170,0 452,0 797,0 521,0 870,0 5040,0 638,0 321,0
Entreteni
2254,0 1170,0 1324,0 1667,0 1357,0 1674,0 5586,0 1492,0 1207,0
mento
Surpresa 1228,0 452,0 1324,0 581,0 335,0 586,0 4782,0 568,0 233,0
34
fatos
1561,0 797,0 1667,0 581,0 760,0 925,0 4761,0 903,0 586,0
negativos
Fatos
1315,0 521,0 1357,0 335,0 760,0 703,0 4817,0 635,0 294,0
Positivos
Magnitude 1552,0 870,0 1674,0 586,0 925,0 703,0 4826,0 940,0 647,0
Relevância 4772,0 5040,0 5586,0 4782,0 4761,0 4817,0 4826,0 4852,0 4893,0
Sequência
1318,0 638,0 1492,0 568,0 903,0 635,0 940,0 4852,0 453,0
Suíte
Agenda
1165,0 321,0 1207,0 233,0 586,0 294,0 647,0 4893,0 453,0
comunica
A segunda informação de um teste de cluster é fornecida pelo esquema de

aglomeração. Nele, são apresentadas as variáveis, reunidas em pares, em dois clusters.
No exemplo, como é de se esperar, as duas variáveis mais próximas são a 4 e a 10,
surpresa e entretenimento, com coeficiente de 233,0 (cf. tabela anterior). Para os demais
coeficientes de proximidade os valores diferem dos da tabela acima porque eles já
desconsideram o impacto da primeira relação.
Esquema de Aglomeração
Cluster Combinado
Estágio Coeficientes
Cluster 1 Cluster 2
1 4 10 233,0
2 4 6 314,5
3 2 4 431,3
4 2 9 573,5
5 2 5 725,4
6 2 7 778,5
7 1 2 1355,0
8 1 3 1518,1
9 1 8 4925,4
O importante a verificar em um esquema de aglomeração é a distância entre os

diferentes estágios. São apresentados 9 estágios, que equivalem ao número de graus de
liberdade, ou seja, total de variáveis no modelo – 1. Percebe-se que do estágio 1 ao 6 o
crescimento é gradual, em torno de 100 a 200 unidades por estágio. A partir daí, há um
salto e a distância quase duplica entre os estágios 6 e 7. Depois, entre o 8 e 9 há outro
salto significativo. Não existe uma regra para determinar os limites de clusters, isso fica a
cargo da capacidade do pesquisador. No exemplo acima parece evidente a existência de
três clusters. Para identificar que variáveis fazem parte de cada cluster, a análise gera um
gráfico chamado dendograma, que permite visualizar os “tamanhos dos saltos” dados
para passar de um grupo de variáveis para outro, como se verifica abaixo.
35
* * * H I E R A R C H I C A L C L U S T E R A N A L Y S I S * * *
Dendrogram using Average Linkage (Between Groups)
Rescaled Distance Cluster Combine
C A S E 0 5 10 15 20 25
Label Num +---------+---------+---------+---------+---------+
E4 4 -+
E10 10 -+-+
E6 6 -+ |
E2 2 ---+-+
E9 9 ---+ |
E5 5 -----+-----+
E7 7 -----+ +-+
E1 1 -----------+ +-----------------------------------+
E3 3 -------------+ |
E8 8 -------------------------------------------------+
Percebe-se acima um cluster reunindo as variáveis 4, 6, 10, 9, 2 e 7, considerando

as menores distâncias entre eles. Outro grupo é formado pelas variáveis 5, 1 e 3. O
terceiro cluster é composto por apenas a variável 8. Pelo dendograma é possível dividir
em três grupos e não mais em dois apenas, como se poderia imaginar a partir do
esquema de aglomeração. Tanto o esquema de aglomeração quanto o dendograma são
representações visuais das distâncias percorridas a cada “passo” dado entre as variáveis.
Outra forma de representar os clusters pode ser através de um gráfico com curva de
progressão da distância percorrida entre os estágios 1 e 9. A inclinação da curva indicará
os momentos em que acontecem os maiores “saltos”, como indicado no gráfico a seguir.
36
5000,00
4000,00
Cluster 1 Cluster 2 Cluster 3
3000,00
2000,00
1000,00
0,00
1,00 2,00 3,00 4,00 5,00 6,00 7,00 8,00 9,00
Este gráfico de progressão reforça a ideia transmitida pelo dendograma da

existência de três clusters. O primeiro vai do estágio 1 ao 6 e as distâncias ficam abaixo
de 1000. O cluster 2 inclui os estágios 7 e 8, passando de distâncias entre 1000 e 2000.
Já o cluster 3, para o estágio 9, indica distâncias acima de 2000.
Uma análise de cluster pode ser resumida nas seguintes etapas:
- cálculo das distâncias euclidianas entre as variáveis estudadas no espaço

multiplano de todos os objetos incluídos no teste;
- agrupamento por proximidade geométrica de todas as variáveis testadas, a partir

da matriz de proximidade;
- reconhecimento das distâncias entre os passos dos grupamentos para

identificação dos grupos formados dentro do universo estudado, o que é feito a partir da
verificação do esquema de aglomeração, dendograma e gráfico da progressão da
distância percorrida entre os estágios.
Feitos todos os procedimentos, cabe ao pesquisador interpretar os resultados, pois

apesar das distâncias geométricas serem muito úteis para a identificação dos
agrupamentos, por usarem unidades adimensionais de medida, ou seja, abstratas, não
podem dar nenhuma informação sobre as características dos grupos identificados. No
37
exemplo usado aqui, o primeiro grupo indica que esses elementos selecionadores (4, 6,
10, 9, 2 e 7) tendem a aparecer mais próximos, ou seja, “surpresa”, “fatos positivos”,
“agenda da comunicação”, “sequência”, “celebridade” e “magnitude” ficam juntos no que
diz respeito à representação de distância euclidiana. Em outro grupo encontram-se as
variáveis (5, 1 e 3) “fatos negativos”, “poder de elite” e “entretenimento”. Por fim, o terceiro
cluster apresenta apenas a presença da variável (8), “relevância”. Além de permitir o
agrupamento, a análise de cluster também gera condições para verificação das
diferenças, ou seja, a de que existe a clara indicação de que em textos onde aparecem
fatos negativos/poder de elite/entretenimento, não há o elemento “relevância” e assim
sucessivamente.
Uma característica importante é que o cluster é robusto o suficiente para permitir a

inclusão de qualquer tipo de variável no modelo. Outra técnica utilizada para análise de
dados qualitativos, porém, indicada apenas para variáveis categóricas é a Análise de
Correspondência, que será tratada a seguir.
7.2 Análise de Correspondência (correspondence analysis):
A análise de correspondência é uma técnica que permite a inclusão de variáveis

categóricas nominais ou ordinais no modelo, porém, todas as categorias serão tratadas
como variáveis nominais, sem nenhuma hierarquização. Além disso, as variáveis
precisam ter pelo menos três categorias, para que ao utilizar uma delas como base para o
cálculo, reste pelo menos duas, o equivalente ao número de dimensões do modelo. É
muito utilizada para examinar relações geométricas de cruzamento e de
contingenciamento de variáveis qualitativas. Seu principal objetivo é analisar as relações
entre duas variáveis categóricas nominais em uma tabela de correspondência com baixa
dimensionalidade e ao mesmo tempo descrever as relações entre cada categoria das
variáveis. Ela analisa a distribuição da massa de um conjunto de observações. Portanto,
representa uma forma alternativa para analisar os dados de uma tabela de contingência;
porém, aqui, interessa saber se a massa total das observações está uniformemente
distribuída e não se as frequências têm distribuição uniforme, como se dá na análise de
resíduos de uma tabela de contingência. Define-se como “massa” as freqüências
marginais da tabela de contingência entre duas variáveis categóricas. A forma como a
massa se distribui indica o peso dado às categorias segundo o perfil de distribuição de
38
freqüências. A distância entre cada ponto no gráfico indica as relações entre as

categorias, quanto mais próximos, mais correspondência existe entre eles.
A análise de correspondência pode se preocupar com a análise da distribuição das

massas em linha, em coluna ou em ambas simultaneamente. A caracterização de uma
linha de freqüências segundo a distribuição proporcional das colunas é designada de
Perfil de Linha (row profile) e o Perfil de Coluna (column profile) pode ser também obtido
da mesma forma. Outra informação importante do teste de correspondência é a média
dos perfis, que recebe o nome de Ponto Centróide e representa as freqüências marginais
relativas. O teste também oferece os resultados de qui-quadrado, que indicam o grau de
dependência da estrutura como um todo. Ao fazer uma análise de correspondência
estamos representando graficamente os resultados que seriam obtidos em uma tabela de
cruzamentos.
Para continuar com o exemplo das publicações de temas sociais nas primeiras
páginas dos jornais, consideremos em uma análise de correspondência a relação entre
duas variáveis categóricas nominais, que são o tipo de fonte citada na chamada (se
oficial, disruptiva ou cidadão individualizado) e a abrangência do tema da chamada (se
local, regional, nacional ou internacional). O interesse aqui é saber se existe alguma
correspondência entre um tipo de fonte citada na chama com a abrangência do tema.
Antes de fazer o teste, vejamos uma tabela de contingência entre as duas variáveis.
Abrangência da chamada
Origem da fonte Local Regional Nacional Internacional Total
Oficial ou habitual 216 124 274 97 711
Disruptiva social 53 58 43 27 181
Cidadão individualizado 167 100 90 27 384
Total 436 282 407 151 1276
A verificação dos resultados de uma análise fatorial começa com a análise da

inércia total, que indicará quão bem está o conjunto de dados para ser representado em
determinada dimensão. Por meio desse valor singular, a inércia total, é possível identificar
se o modelo está apto para representar a relação entre as duas variáveis ou não. Além
disso, nas tabelas de perfis de linha e coluna também é possível identificar que categorias
têm mais peso na relação com as demais. Os percentuais de explicação de cada
dimensão permitem identificar quanto o modelo como um todo estará ajustado à
39
representação plano das correspondências. No SPSS o caminho é (Analyze / Data

Reduction / Correspondence Analysis). As informações geradas são apresentadas nas
tabelas a seguir.
Os perfis nas linhas indicam uma correspondência maior (massa) entre fontes
oficiais e abrangência nacional (0,385), fontes disruptivas e abrangência regional (0,320)
e cidadãos individualizados e abrangência local (0,435). Quanto ao perfil nas colunas,
todas as abrangências mostram uma relação mais forte com o tipo de fonte oficial. Isso se
deve ao fato das fontes oficiais aparecerem em número significativamente superior aos
demais tipos nas primeiras páginas dos jornais. Elas totalizam 711 fontes em um total de
1276 citações nas primeiras páginas dos jornais, segundo indica a tabela anterior.
Perfil nas linhas
Origem da fonte Abrangência da entrada

Local Regional Nacional Internacional Total
Oficial_habitual 0,304 0,174 0,385 0,136 1,000
Disruptiva social 0,293 0,320 0,238 0,149 1,000
Cidadão individualizado 0,435 0,260 0,234 0,070 1,000
Massa 0,342 0,221 0,319 0,118
Perfil nas colunas
Origem da fonte Abrangência da entrada

Local Regional Nacional Internacional Massa
Oficial_habitual 0,495 0,440 0,673 0,642 0,557
Disruptiva social 0,122 0,206 0,106 0,179 0,142
Cidadão individualizado 0,383 0,355 0,221 0,179 0,301
Total 1,000 1,000 1,000 1,000
A próxima tabela apresenta as principais estatísticas do teste de correspondência.

Ela permite identificar as duas dimensões do modelo (1 e 2) separadamente, assim como
os totais de suas somas. A primeira informação é a dos valores singulares por dimensão.
Não há uma regra fixa para determinar que dimensões devam ser consideradas em
função dos valores singulares. Porém, é possível encontrar na literatura a indicação de
que dimensões com valor singular abaixo de 0,20 devem ser desconsideradas por conta
de seu baixo impacto no modelo como um todo. No nosso caso, como o valor singular da
dimensão 1 está muito próximo desse limite, (0,199), iremos dar continuidade à análise
dela, desconsiderando a dimensão 2.
40
Confidence Singular
Proportion of Inertia Value
Singular Chi Accounted Cumula Standard Correlation

Dimension Value Inertia Square Sig. for tive Deviation 2
1 ,199 ,040 ,779 ,779 ,027 -,009
2 ,106 ,011 ,221 1,000 ,029
Total ,051 64,908 ,000a 1,000 1,000
a. 6 degrees of freedom
Além dos valores individuais, os resultados também mostram os dados de inércia

para cada dimensão, ou seja, quão forte é a atração dos valores na dimensão em relação
ao ponto centróide. Como se poderia prever, a dimensão 1 apresenta uma inércia bem
maior que a 2. A soma das inércias é de 0,51. Esse dado pode ser interpretado como um
ajuste de 51% do modelo para a relação entre as categorias das duas variáveis. O valor
de qui-quadrado é bastante alto (64,9) e nível de significância abaixo do limite crítico
(0,000), o que indica a existência de correspondência significativa entre as categorias das
variáveis analisadas. A proporção da inércia indica quanto cada dimensão explica do
modelo como um todo. No caso, a dimensão 1 contribui com 77,9% da explicação e a
dimensão 2 com 22,1%. Feitas as interpretações das estatísticas e considerando que o
modelo está adequado para a verificação de correspondências entre as variáveis, o
pesquisador passa para o próximo passo, que é a análise do gráfico de correspondência.
O gráfico abaixo mostra a distribuição das categorias das duas variáveis nas dimensões 1
e 2. Já sabemos que só devemos analisar a dimensão 1 por conta do baixo impacto da 2
no modelo. Aqui, o que mais interessa é conhecer as relações entre as categorias das
variáveis estudadas.
41
local
cidadão individualiz
0,25
nacional
oficial_habitual
0,00
Dimension 2
-0,25
regional
internacional
-0,50
disruptiva social
-0,75
-0,50 -0,25 0,00 0,25 0,50

Dimension 1
A força das relações se expressa pelas proximidades e distâncias. No caso acima,

fica evidente a correspondência entre presença de fontes oficiais em chamadas com
dimensão nacional (é a maior proximidade). Em seguida vem a correspondência entre
abrangência local e cidadão individualizado. Como o princípio da análise de
correspondência e da análise de resíduos em tabelas de contingência é o mesmo, o
pesquisador pode usar os resíduos para verificar a força das correspondências em termos
numéricos, assim como testar a significância estatística de cada uma delas. Para o
exemplo usado aqui, os resíduos são os que seguem:
Resíduos entre origem da fonte e abrangência da entrada

Origem da fonte
Oficial Disruptiva Cidadão
Abrangência da entrada habitual social individualizado Total
Local N 216 53 167
436
Resíduos Padronizados -1,7 -1,1 3,1
Regional N 124 58 100
282
Resíduos Padronizados -2,6 2,8 1,6
Nacional N 274 43 90
407
Resíduos Padronizados 3,1 -1,9 -2,9
Internacional N 97 27 27
151
Resíduos Padronizados 1,4 1,2 -2,7
Total N 711 181 384 1276
42
Seguindo os mesmos resultados indicados no gráfico anterior, os resíduos

estatisticamente significativos (acima de ± 1,96 para Intervalo de Confiança de 95%)
aparecem apenas em fonte como cidadão individualizado e abrangência local. No caso de
abrangência regional, fontes oficiais e disruptivas mostram-se significativas, porém, com
sinais trocados. Isso indica que abrangência regional e fontes habituais estão em pontos
opostos do ponto centróide (sinal negativo), enquanto abrangência regional e fontes
oficiais encontram-se no mesmo quadrante do gráfico. Para abrangência nacional os
resultados são similares aos anteriores, inclusive com sinal invertido. E a abrangência
internacional não mostra nenhuma significância com as origens de fontes.
A análise de correspondência é uma técnica importante que auxilia na análise de

tabelas de contingência, em especial quando há um grande número de categorias
envolvidas. Impressiona o número de informações que se pode extrair de um gráfico de
correspondência como no exemplo apresentado. Da mesma forma dá-se com as demais
técnicas de análise multivariada de dados categóricos, o que não pode ser apreendido em
todo seu potencial quando se faz a verificação de simples tabelas de contingência ou
análises univariadas – o que ainda pode acarretar erros de interpretação, como
demonstrado anteriormente.
Pereira (2004) resume as principais características das duas últimas técnicas de

análise apresentadas aqui da seguinte forma: Deve-se usar a análise de cluster quando
se busca identificar grupos de características semelhantes e a análise de correspondência
quando se pretende examinar as relações entre categorias de variáveis nominais ou que
possam ser tratadas como tal. Quanto às etapas a serem seguidas, em cluster deve-se:
a) definidor as medidas (contínuas ou categóricas ordinais), b) verificar as premissas da
escala construída e c) rodar o teste em um pacote estatístico, como o SPSS. Na análise
de correspondência as etapas são: a) definir as medidas (categóricas nominais), b)
verificar as premissas da escala de dados e c) rodar o teste em um pacote estatístico
como o SPSS.
O mais importante em uma análise de cluster é analisar o esquema de

aglomeração e dendograma para determinar o número de clusters obtidos e qualificar os
grupos segundo o comportamento das variáveis originais nos grupos. Na análise de
correspondência o mais importante é verificar o ajuste do modelo para análise a partir dos
valores de inércia e reconhecer as relações entre as variáveis e categorias através de sua
proximidade no gráfico plano. As principais diferenças entre os dois métodos dizem
43
respeito ao tipo de medida e de análise. No cluster as medidas são contínuas ou

categóricas e a análise é feita a partir das distâncias euclidianas entre as categorias. Na
correspondência o tipo de medida é categórica nominal (no tratamento) e a análise dá-se
a partir das distâncias (em qui-quadrado) na projeção plana entre as variáveis e
categorias das variáveis (Pereira, 2004).
8. BIBLIOGRAFIA CONSULTADA E SUGERIDA
ALMEIDA, Alberto C (2002) Como São Feitas as Pesquisas Eleitorais e de

Opinião. Rio de Janeiro: Editora FGV.
BABBIE, Earl (2005). Métodos de Pesquisas de Survey. Belo Horizonte – MG:

Editora UFMG.
BARBETTA, Pedro Alberto (2003). Estatística Aplicada às Ciências Sociais (5ª

edição revisada). Editora da UFSC. Florianópolis (SC).
BARROS, Aidil de J. P. de & LEHFELD, Neide Ap. de S. (1990). Projeto de

Pesquisa: propostas metodológicas. Petrópolis – RJ: Editora Vozes.
BAUER, M. W. & GASKELL, G. (2003). Pesquisa Qualitativa Com Texto,

Imagem e Som: um manual prático. Petrópolis – RJ: Editora Vozes.
BISQUERRA, Rafael, SARRIERA, Jorge Castellá & MARTÍNEZ, Francesc (2004).

Introdução à Estatística: enfoque informático com o pacote estatístico SPSS. Editora
Artmed. Porto Alegre (RS).
RUNI, Adriano Leal. SPSS aplicado à pesquisa acadêmica. São Paulo: Editora
Atlas, 2009.
BUNCHAFT, Guenia & KELLNER, Sheilah Ribno de Oliveira (1999). Estatística

Sem Mistérios (2ª edição corrigida) vol. I, II, III e IV. Editora Vozes. Petrópolis (RJ).
CERVI, Emerson C (2009). Métodos Quantitativos em Ciências Sociais: uma

abordagem alternativa ao fetichismo dos números e ao debate com os qualitativistas. In
BOURGUIGNON, Jusssa A. (org) Pesquisa Sociail: reflexões teóricas e
metodológicas. Editora Toda Palavra: Ponta Grossa (PR).
CONDE, Maria Rosa B e ROMÁN José A (2005). Investigar em comunicación:

guia práctica de métodos y técnicas de investigación social em comunicación. Mc
Graw Hill: Madrid – Espanha.
DANTAS, Carlos (2004). Probabilidade: um curso introdutório. São Paulo:

Edusp.
DAVIS, J. A. (1976). Levantamento de Dados em Sociologia: uma análise
estatística elementar. Rio de Janeiro – RJ: Zahar Editores.
44
FONSECA, Jairo Simon, MARTINS, Gilberto de Andrade & TOLEDO, Geraldo

Luciano (1995). Estatística Aplicada. Editora Atlas. São Paulo (SP).
FROTA, Álvaro (1999). A Estatística e o Conhecimento Humano. Apostila.

GERRING, John (2006). Social Science Methodology: a criterial framework.
Cambridge University Press. Cambridge.
GUJARATI, Damodar (2006). Econometria Básica. Rio de Janeiro – RJ: Editora

Campus.
GÜNTHER, H. (2003) Como Elaborar um Questionário (Série Planejamento de

pesquisa nas Ciências Sociais, nº 01) Brasília: DF. UNB.
HERZCOVITZ, Heloiza G (2007). Análise de conteúdo em jornalismo. In LAGO,

Claudia e BENETTI, Marcia. Metodologia de Pesquisa em Jornalismo. Editora Vozes:
Petrópolis – RJ.
IGNÁCIO, Sérgio Aparecido (2003). Estatística Geral e Aplicada. Apostila.
LAKATOS, Imre (1989). La Metodologia de los Programas de Investigación

Científica. Editora Alianza Universidad: Madrid – España.
MAHONEY, James & GOERTZ, Gary (2006). A Tale of Two Cultures:

Contrasting Quantitative and Qualitative Research. Political Analysis Review, nº 14. p.
227 a 249.
MARCONI, M. de A. & LAKATOS, E. M. (2006). Fundamentos de Metodologia

Científica. São Paulo – SP: Editora Atlas.
MORETTIN, P. A. & TOLOI, C. M. C. (2004). Análise de Séries Temporais. São

Paulo – SP: Editora Edgard Blücher.
PEREIRA, Júlio C. R. (2004) Análise de Dados Qualitativos – estratégias

metodológicas para as Ciências da Saúde, Humanas e Sociais. São Paulo:
EdUsp/Fapesp.
RAGIN, Charles C (1994). Constructing Social Research: the unit and diversity
of method. Pine Forge Press: Thousand Oaks.
REIS, Fábio W. O Tabelão e a Lupa (1991). Revista Brasileira de Ciências

Sociais. Nº 16, ano 6, p. 27 a 41.
RINGER, Fritz (2004). A Metodologia de Max Weber: unificação das ciências

culturais e sociais. São Paulo: Edusp.
ROSENBERG, Morris (1971). A Lógica da Análise do Levantamento de Dados.

São Paulo: Editora Cultrix/Editora da Universidade de São Paulo.
ROSENTAL, Claude & FRÉMONTIER-MURPHY, Camille (2001). Introdução aos

Métodos Quantitativos em Ciências Humanas e Sociais. Editora Instituto Piaget.
Lisboa – Portugal.
45
TRIOLA, Mario F (1999). Introdução à Estatística (7ª edição). Editora LTC. Rio
de Janeiro (RJ).
SANTOS, Wanderlei Guilherme (2002). Votos e partidos, almanaque de dados

eleitorais. Editora FGV – Rio de Janeiro.
SELLTIZ, C.; WRIGHTSMAN, L. S.; COOK, S. W (1981). Métodos de pesquisa

nas relações sociais. 2 ed. São Paulo: EPU.
TOLEDO, G. L.; OVALLE, I. (1991). Estatística Básica. São Paulo: Atlas.

VASCONCELLOS, Marco Antonio Sandoval & ALVES, Denisard (2000). Manual
de Econometria. São Paulo – SP: Editora Atlas.
WANIEZ, p. et ali. (2002). Comunicação Cartográfica – o mapeamento dos

resultados eleitorais do Brasil. Rio de Janeiro – RJ: Editora PUC Rio.
WEBER, Max (2001). Metodologia das Ciências Sociais. Cortez Editora: São
Paulo – SP.

Apostila AnaliseDadosCategoricos 2010

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Apostila AnaliseDadosCategoricos 2010

Enviado por

Direitos autorais:

Formatos disponíveis

MINISTÉRIO DA EDUCAÇÃO

UNIVERSIDADE FEDERAL DO PARANÁ

ANÁLISE DE DADOS CATEGÓRICOS

Emerson Urizzi Cervi

Curitiba - Agosto - 2010

5. APLICAÇÃO DE RISCO RELATIVO NAS CIÊNCIAS SOCIAIS 17

8. BIBLIOGRAFIA CONSULTADA E SUGERIDA 43

A análise de dados categóricos permite que informações qualitativas a respeito

Quem pretende medir características qualitativas precisa ter em mente a distinção

Antes de iniciar a análise de dados categóricos é preciso processá-los para ajustar

a) relações de similaridade entre as categorias,

b) uma razão de ocorrência a partir da contagem entre duas variáveis;

c) distribuição hierárquica das posições em escalar ordinais ou

d) apenas uma correlação entre os valores encontrados para as variáveis.

Uma das formas mais comuns de análise de dados categóricos é a partir da

1.1 Escala Nominal: permite a medição de atributos que só podem estabelecer

1.2 Escala ordinal: permite a medição de atributos que conseguem se distinguir

1.3 Escala intervalar: possibilita a medição de atributos a partir de intervalos que

1.4 Escala proporcional/de razão: permite a medição de atributos de maneira

O quadro a seguir resume as principais características de cada uma das escalas

QUADRO 1 – Principais características dos tipos de escalas

Embora normalmente se considere uma escala como uma medida unidimensional,

A criação de indicadores é uma das formas de reduzir dimensões, ou seja, de

i) Texto com foto = peso 2

ii) Manchetes = peso 3

iii) Tamanho grande = peso 3

iv) Primeira dobra = peso 2

Então, o fator de impacto será:

Indicador de visibilidade = ∑ dos pesos das categorias de cada variável.

Antes de produzir o Indicador sugere-se testar a confiabilidade da relação entre as

Quadro 2 – Output do teste de Cronbach a partir do SPSS

Percebe-se também que o teste apresenta um Cronbach padronizado, que nesse

Aceitando a confiabilidade do indicador, dá-se continuidade à criação do indicador

TABELA 1 - Indicador de Visiblidade

A partir dessa distribuição é possível reunir algumas categorias para diminuir o

TABELA 2 - Indicador de Visiblidade Agregado

2.1 Hipóteses Estatísticas

Média 1 = Média 2; Média da Amostra = Média da População; Proporção 1 = Proporção 2

O que equivale dizer que:

Média 1 – Média 2 = 0; Média da Amostra – Média da População = 0, etc.

Média 1 difere da Média 2; Média da Amostra difere da Média da População, etc.

A prova de qui-quadrado (X2) é usada para comprovar se existem diferenças

O qui-quadrado depende apenas dos graus de liberdade como parâmetro. A sua

Para poder aplicar a prova de qui-quadrado, as freqüências teóricas de cada

3.1 Comparar uma distribuição observada a uma teórica: quando se lança um

No SPSS, para rodar o teste que comparada a distribuição observação a uma

Observed N Expected N Residual

O resultado mostra, como esperado, que há uma diferença significativa entre o

3.2 Comparar distribuições observadas com dados independentes: essa

3.3 Comparar duas distribuições observadas com dados relacionados: São

3.4 Prova de independência: o qui-quadrado também é usado para confirmar a

Para fazer o teste qui-quadrado para independência entre variáveis no SPSS o

Abrangência / origem de fonte

Oficial Disruptiva Social Total

Value df Asymp. Sig. (2-sided)

O resultado do teste de qui-quadrado mostra um sig. de 0,028, abaixo do limite

Value Approx. Sig.

No caso do exemplo acima, o coeficiente de contingência é de 0,194, ou seja, de

A maneira mais simples de analisar a relação existente entre duas variáveis

Onde: O = Frequência observada e E = Frequência esperada.

Seguindo o exemplo acima, digamos que se queira fazer uma tabela de

Tabela de Contingência com cálculo de qui-quadrado

A análise de resíduos padronizados nada mais é do que a verificação dos valores

ê í

2. 4 5 6. 7. 1/21

114.56 5 110.146. 1/21