Você está na página 1de 208

ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS

Trabalhar com métodos quantitativos para a compreensão de fenômenos


econômicos e notadamente de fenômenos sociais não significa absolu-
tamente diminuir as discussões a um patamar reducionista ao buscar
equacionar esses fenômenos por meio de expressões matemáticas.
A estatística deve ser compreendida em suas exatas potencialidades
e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma
forma de quantificação. Ela não se basta nem deve pretender substituir
outras ferramentas analíticas tão próprias das ciências humanas; o que
ela pode desejar é ser seu complemento, e apenas eventualmente.

PAULO AFONSO BRACARENSE


Código Logístico

57423

Fundação Biblioteca Nacional


ISBN 978-85-387-6448-9

9 788538 764489
Estatística aplicada às
ciências sociais

Paulo Afonso Bracarense

IESDE BRASIL S/A


2018
© 2009-2018 – IESDE BRASIL S/A.
É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito do autor e do detentor dos
direitos autorais.
Projeto de capa e imagem: IESDE BRASIL S/A.

CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO


SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
B788e Bracarense, Paulo Afonso
Estatística aplicada às ciências sociais / Paulo Afonso
Bracarense. - [2. ed.] - Curitiba [PR] : IESDE Brasil, 2018.
204 p. : il.
Inclui bibliografia
ISBN 978-85-387-6448-9

1. Modelos matemáticos - Aspectos sociais. 2. Ciências


sociais - Métodos estatísticos. I. Título.
CDD: 310
18-53172
CDU: 311

Todos os direitos reservados.

IESDE BRASIL S/A.


Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200
Batel – Curitiba – PR
0800 708 88 88 – www.iesde.com.br
Paulo Afonso Bracarense
Doutor em Engenharia de Produção pela Universidade Federal de Santa Catarina (UFSC),
com estágio de doutoramento na University of South Florida, nos Estados Unidos. Mestre em
Agronomia (Estatística e Experimentação Agronômica) pela Universidade de São Paulo (USP) e
em Políticas Públicas pela Humboldt University of Berlin (HUB) e European Viadrina University
of Frankfurt (Oder), na Alemanha. Especialista em Gestão Municipal de Recursos Hídricos pelo
Instituto Federal de Educação do Ceará (IFCE) e pela Agência Nacional de Águas (ANA). Bacharel
em Estatística pela Universidade Federal do Paraná (UFPR). Professor da UFPR.
Sumário

Apresentação 9

1 Introdução e conceitos básicos  11


1.1 Sociologia e estatística  11
1.2 Os métodos estatísticos  12
1.3 Variáveis e escalas de mensuração  14
1.4 Medidas que revelam circunstâncias  15
1.5 Análise de associação entre variáveis  16
1.6 Metodologias qualitativas em ciências sociais  16

2 Análise de dados  19
2.1 Análise exploratória de dados e estatística descritiva  19
2.2 Tipos de medidas  19

3 Medidas estatísticas de posição  35


3.1 Medidas estatísticas  35
3.2 Medidas de posição  36

4 Medidas estatísticas de dispersão  45


4.1 A amplitude total  46
4.2 A variância  47
4.3 Desvio-padrão  51
4.4 Coeficiente de variação  52

5 Técnicas de amostragem  55
5.1 Sociologia e amostragem  55
5.2 População  56
5.3 Amostra  57
5.4 Tipos de amostragem  59
5.5 Principais técnicas de amostragem  64
6 Tamanho de uma amostra  71
6.1 A “margem de erro”  71
6.2 O nível de confiança  73
6.3 A variabilidade  75
6.4 Determinação do tamanho da amostra  75
6.5 Custo da pesquisa  77
6.6 Correção para populações finitas  78

7 Noções úteis de probabilidades  81


7.1 O papel do acaso  81
7.2 Teoria das probabilidades  81
7.3 Conceitos fundamentais  82
7.4 Definição de probabilidade  84
7.5 Axiomas e regras de probabilidades  85
7.6 Probabilidades conjunta, marginal, condicional e independência  88
7.7 Regra da multiplicação  90
7.8 Distribuições de probabilidades discretas  91

8 Inferência 97
8.1 Investigação sociológica  97
8.2 Procedimentos inferenciais  98
8.3 A distribuição normal  99
8.4 A distribuição “t” de Student  108
8.5 Intervalo de confiança  109
8.6 Testes de hipóteses  115

9 Estudos demográficos  123


9.1 Demografia  123
9.2 Estrutura e estimativas da população  124
9.3 Estimativas populacionais  126
9.4 Taxas demográficas  129
9.5 Fenômenos demográficos  132
9.6 Estrutura das populações  136
10 Indicadores sociais e econômicos  141
10.1 Indicadores sociais e Estado  141
10.2 Concepção de indicadores  142
10.3 Limitações do PIB como indicador social  142
10.4 Produção e disseminação de estatísticas públicas no Brasil  143
10.5 O índice de desenvolvimento humano (IDH)  143
10.6 O índice de Gini  147
10.7 Índices de preço  150

11 Análise de associação entre variáveis  153


11.1 Associação entre variáveis econômicas e sociológicas  153
11.2 Análise de regressão e de correlação  154
11.3 A construção da reta de regressão  158
11.4 Verificação da bondade do modelo  164

12 Análise de variáveis qualitativas  171


12.1 Métodos qualitativos e métodos para variáveis qualitativas  171
12.2 Análise de dados qualitativos  172
12.3 Análise de variáveis qualitativas  172
12.4 O teste qui-quadrado  173
12.5 O teste qui-quadrado para a independência  176
12.6 Testes das diferenças de K proporções amostrais ou da homogeneidade  177
12.7 Teste da bondade de ajustamento  179

Anexos 181

Gabarito 187

Referências 201
Apresentação

Este livro não é apenas resultado da experiência do autor como professor de Estatística para
alunos de Sociologia e Economia, mas também de seu extenso trabalho prático na área, inclusive
na tarefa de formulação de políticas públicas que, por sua natureza, exigem muita responsabilidade
e envolvem grandes contingentes da população brasileira.

O principal desafio consistiu em trabalhar conteúdos que exigiam certo trato com a mate-
mática para um público que está acostumado a lidar com outro tipo de linguagem e lógica. Mesmo
sendo essa uma tarefa difícil, não deixou de ser prazerosa.

A questão central colocada é a de como desenvolver esses conteúdos de modo a aproveitar


o que de mais rico têm os leitores desta obra (o raciocínio crítico e contestador) e a elaboração
de ideias e de conceitos de maneira multifacetada, o que nem sempre facilita o domínio de outra
linguagem, como a linguagem matemática.

Há que se fazer um alerta importante nesta discussão: trabalhar com métodos quantita-
tivos para a compreensão de fenômenos econômicos e notadamente de fenômenos sociais não
significa absolutamente diminuir as discussões a um patamar reducionista ao buscar equacionar
esses fenômenos por meio de expressões matemáticas. A estatística deve ser compreendida em
suas exatas potencialidades e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma forma de quantificação.
E só isso. Ela não se basta nem deve pretender substituir outras ferramentas analíticas tão próprias
das ciências humanas; o que ela pode desejar é ser seu complemento, e apenas eventualmente.

Não há dúvidas de que a estatística serve muito bem para dar suporte ao chamado “paradig-
ma reducionista”, do qual faz parte a ideia de diminuir um problema complexo em partes menores,
analisar cada uma delas e depois encontrar uma forma de aglutiná-las para compreender o todo. Ela
pode e merece ser muito mais do que isso. As metodologias para análise de fenômenos complexos
são necessariamente mais complexas do que aquelas para análise de fenômenos mais simples. É assim
para qualquer ciência, inclusive para aquelas que utilizam métodos quantitativos. O que pode atribuir
maior empregabilidade ao método estatístico, e que não é a vocação de qualquer método matemático,
é a sua proposta de fazer uma grande negociação entre complexidade e incerteza na busca de com-
preensão do mundo real.

Apelamos, portanto, a você, leitor, que dê uma chance aos métodos propostos. Eles podem
(e devem) ser úteis em algum momento no exercício profissional de análise da realidade, a despeito
de algum esforço adicional para a leitura de seus conteúdos matemáticos, cujas exigências não serão
superiores àquelas dos cursos médios. Sabemos perfeitamente que muitos dos nossos leitores
gostariam de ter abandonado esse “sacrifício” quando optaram por um curso de ciências humanas,
todavia você verá que, após um eventual período de estranhamento, terá, a partir de agora, mais um
aliado em seu desafio cotidiano da análise dos fenômenos sociais: a ferramenta estatística.

Boa leitura!
1
Introdução e conceitos básicos

Usa a estatística como o bêbado o poste.


Mais pelo apoio do que pela iluminação.

Andrew Lang (1844-1912)1

1.1 Sociologia e estatística


A estatística adquiriu o status de ciência no momento em que evoluiu de fazer levantamen-
tos de informações destinados ao conhecimento do Estado para se tornar uma fonte adicional de
evidências a fim de explicar fenômenos da natureza e das relações humanas e sociais. Segundo
Teixeira (2002), foi Émile Durkheim quem estabeleceu que o verdadeiro conhecimento socioló-
gico é o das chamadas correlações funcionais entre as diversas variáveis, que consiste em observar,
comparar e explicar uma variável em relação a outra.
Durkheim nasceu na França e viveu de 1858 até 1917 (PARANÁ, 2018). É considerado um
dos pais da sociologia moderna, tendo sido o fundador da Escola Francesa de Sociologia, que com-
binava a pesquisa empírica com a teoria sociológica, fortalecendo essa área de estudo. Defendeu
sua tese de doutorado em 1893, sob o título Da divisão social do trabalho. Logo depois, em 1895,
publicou As regras do método sociológico, considerada a primeira obra exclusivamente metodoló-
gica escrita por um sociólogo.
Os principais conceitos sociológicos desenvolvidos nesses trabalhos foram observados em
1897 no livro O suicídio, no qual variáveis e dados empíricos são utilizados pela primeira vez de
maneira sistemática na área da sociologia. Em 1896, Durkheim publica A proibição do incesto e
suas origens, obra na qual o método de análise de dados etnográficos é aplicado em uma perspec-
tiva sociológica. Essa metodologia permite analisar representações coletivas como representações
mentais ou simbólicas que são imagens da realidade empírica (BIOGRAFÍAS Y VIDAS, 2018).
Em O suicídio, Durkheim só admite observar, comparar e explicar o fato social por in-
termédio de outros fatos sociais (as taxas de suicídio só podem ser explicadas em função dos
meios sociais, dos divórcios, das crises econômicas e de outras variáveis). Ele compara a taxa de
mortalidade por suicídio com a taxa de mortalidade geral, particularmente suas variações ao
longo do tempo, e observa que a primeira taxa permanece constante durante longos períodos
e que sua invariabilidade é muito maior do que a ocorrida nos principais fenômenos demo-
gráficos. Além disso, compara as variações anuais das taxas de suicídio com as de diferentes
sociedades, que podem ser bastante diversas.

1 Escritor escocês e crítico literário com contribuição na área de antropologia.


12 Estatística aplicada às ciências sociais

1.2 Os métodos estatísticos


O tópico anterior introduz o escopo da metodologia estatística, que pode ser utilizada
para a comprovação ou não de hipóteses de pesquisas na área social. Podemos entender a tare-
fa estatística com base em suas duas principais dimensões: (i) a análise exploratória de dados
e; (ii) a inferência estatística.
Se um fenômeno social pode ser investigado por meio de observações empíricas, a organização
delas de maneira sistemática pode ser enormemente auxiliada por metodologias estatísticas simples,
conhecidas como análise exploratória de dados (AED). Anteriormente chamada de estatística descri-
tiva, a análise adquiriu essa nova denominação em razão do desenvolvimento de novas técnicas, ditas
robustas, que consistem em explorar os dados com o intuito de produzir informações relevantes sobre
o fenômeno em estudo.
Trata-se, portanto, de buscar na observação empírica elementos que possam auxiliar o ana-
lista social em sua tarefa de compreender o fenômeno em foco. É importante salientar que a análise
de dados não substitui o instrumental teórico desse profissional, sua sensibilidade e experiência
em olhar determinado fenômeno; mas, se os dados forem manipulados, no sentido positivo da
palavra, com prudência e competência, podem ser de grande valia para ele. Para isso, é necessário
despir-se de preconceitos do tipo “trabalhar com dados é uma atitude cartesiana” ou “só os positi-
vistas usam informações numéricas”.
Por outro lado, não se pode atribuir toda a responsabilidade de uma análise à informação
estatística. Ela não tem, e não deve querer ter, a função principal; precisa ser utilizada muito
mais para apoiar as teses envolvidas na investigação sociológica do que propriamente para lhes
fornecer luz.
Essa forma de tratar os dados deve ser estendida também ao trabalho da segunda dimensão
(e talvez a mais nobre) da estatística, que é o de ser uma ferramenta poderosa para a chamada indução
ou inferência estatística, que objetiva tirar conclusões aproximadas por meio da observação de uma
parcela da população, ou, ainda, determinar níveis de confiança acerca de elementos da população
mediante a observação de uma amostra que melhor a represente. Também com os devidos cuidados,
observações de dados numéricos do passado e do presente podem ser úteis para produzir inferên-
cias sobre o futuro.
Essa tarefa de filtragem de dados, que podem auxiliar na concepção de um modelo
matemático que explique relações entre variáveis, começa por definições teóricas sobre essas
relações e a determinação de quais variáveis têm o poder de medir certos fenômenos e de
como é possível medi-los. Naturalmente, fenômenos mais complexos exigem a construção de
modelos também mais complexos.

1.2.1 A análise exploratória de dados


Essa dimensão reúne um conjunto de técnicas constituídas pelas análises tabular e grá-
fica e pelas medidas estatísticas. A forma de apresentação dos dados por meio de tabelas e
gráficos obedece às normas específicas determinadas internacionalmente. No caso brasileiro,
Introdução e conceitos básicos 13

essas normas são definidas pela Associação Brasileira de Normas Técnicas (ABNT) e, portanto,
devem ser respeitadas.
O clássico manual de Darrell Huff, Como mentir com estatística [How to lie with statistics],
publicado originalmente em 1954, expõe formas de manipulação da apresentação de dados em ta-
belas e gráficos que podem levar o analista a cometer erros interpretativos. Antes de ensinar como
mentir com estatísticas, o livro alerta para a utilização incorreta da apresentação de dados mesmo
por analistas desavisados e bem-intencionados. Existem outros vários títulos sobre o uso e o mau
uso de estatística para análise de fenômenos reais. O livro Usos e maus usos de dados e modelos: a
matematização das ciências humanas [The uses and misuses of data and models: the mathematization
of the human sciences], de W. James Bradley e Kurt Shaefer (1998), alerta para os cuidados que
precisam ser tomados para a utilização da estatística como auxiliar na compreensão de fenômenos
sociais. Os autores desenvolveram princípios que devem servir de guias para o uso de dados e
modelos nas ciências humanas. Normas, valores e propósitos precisam se tornar parte do discurso
comum de pesquisadores, promovendo estudos mais responsáveis ética e socialmente.
Novas formas de apresentação gráfica são utilizadas na AED, como o diagrama de caixas
(box-plot), o esquema de cinco números e o diagrama ramo e folhas. A apresentação tabular e grá-
fica será abordada posteriormente.
Faz parte também da AED sintetizar dados com base nas chamadas medidas estatísticas.
Elas podem ser classificadas em quatro grupos: (i) medidas de posição, entre elas as medidas de
tendência central e as separatrizes; (ii) medidas de dispersão, como a variância e o desvio-padrão;
(iii) medidas de assimetria e; (iv) medidas de achatamento ou de curtose. O estudo das medidas
de posição e das medidas de dispersão, por serem as mais importantes, será assunto tratado em
capítulos posteriores, e as medidas de assimetria e de curtose não serão tratadas em profundidade
por não fazerem parte do escopo principal deste livro.

1.2.2 A inferência estatística


Essa análise ocupa-se de buscar explicações para um fenômeno que ocorre na grande popu-
lação por meio da observação de uma pequena parte dela, chamada de amostra. Inferências podem
então ser feitas da parte para o todo e também com base em observações do passado e do presente
para o futuro.
As técnicas de amostragem desenvolvidas a partir da primeira metade do século XX permi-
tem tirar conclusões aproximadas acerca de parâmetros que descrevem um fenômeno real ocorri-
do na população. O exemplo das pesquisas de opinião pública, notadamente das pesquisas eleito-
rais, ilustra a utilização de técnicas seguras de indução.
Os institutos de pesquisa conseguem produzir resultados muito próximos da realidade por
meio da aplicação de inquéritos a pequenos grupos representativos da população. Afirmações
como “temos 95% de confiança que o candidato ‘A’ terá 40% dos votos, com uma margem de erro
de mais ou menos 3%” são obtidas na pesquisa com um grupo muito pequeno de eleitores. Essa
declaração pode ser expressa matematicamente por:
Pr (40% – 3% < P < 40% + 3%) = 0,95
14 Estatística aplicada às ciências sociais

A letra “P” é indicativa da percentagem de votos que o candidato A teria se as eleições fos-
sem no dia em que a pesquisa de campo foi realizada. O valor de 40% representa a percentagem de
eleitores na amostra que disseram votar nesse candidato. A margem de erro de 3% indica o grau
de precisão (ou desvio) do resultado em razão do trabalho amostral, e o nível de confiança de 95%
equivale à chance de que a amostra sorteada realmente represente o universo de eleitores.
Essas duas medidas – margem de erro e nível de confiança – são predeterminadas para o
cálculo do número de eleitores que será pesquisado, ou, como é tecnicamente conhecido, o tamanho
da amostra. Esses temas serão tratados em capítulos específicos sobre técnicas de amostragem e
inferência estatística.
No capítulo referente à amostragem, serão apresentadas as principais técnicas (amostra
aleatória simples, amostra estratificada proporcional e amostra sistemática), além da discussão de
métodos de amostragem não probabilísticos – que não suportam o trabalho de inferência – e as
maneiras de se determinar o tamanho adequado de uma amostra representativa.
No tópico sobre inferência estatística, o trato com a curva normal e com o chamado teorema
central do limite permitirá a construção de inferências sobre os parâmetros populacionais com base
nas observações amostrais. Dois aspectos centrais serão tratados nesse capítulo: a construção de
intervalos de confiança, como o anteriormente apresentado, e o procedimento conhecido como
teste de hipóteses.
Os procedimentos de realização de uma pesquisa de opinião pública serão também abor-
dados posteriormente, bem como aqueles para realizar uma pesquisa que revele a opinião de um
determinado grupo de pessoas. A forma de organização de um questionário e o estabelecimento
de perguntas que tenham o potencial de revelar opiniões serão tratados de maneira sistemática.

1.3 Variáveis e escalas de mensuração


As universidades públicas brasileiras vêm adotando, nos últimos anos, políticas afirmativas,
que buscam reparar o que seus dirigentes consideram injustiças históricas. Incansáveis discussões
foram realizadas, por exemplo, em relação à reserva de vagas para estudantes afrodescendentes.
Um dos núcleos da crítica a essa política de cotas é o argumento de que elas acirrariam o precon-
ceito racial no país.
Sem entrar no mérito da questão, seria de interesse científico verificar se essa última afirmação
tem respaldo na realidade. Porém, medir a intensidade do preconceito racial, ou, mais simplificada-
mente, avaliar se a pessoa tem algum grau de preconceito, é uma tarefa desafiadora.
Acrescente-se que um problema potencial existente, quando se mede comportamento, é a
chamada reatividade. Diz-se que uma medida é reativa se a consciência de estar sendo submetido
a uma mensuração mudar o comportamento do indivíduo. Uma medida reativa informa como ele
se comportaria em circunstâncias de estar sendo observado, mas não em condições naturais.
Introdução e conceitos básicos 15

Portanto, fenômenos complexos, como os tratados pelas ciências humanas, não são de fácil
aferição. A definição clara das variáveis a serem estudadas e de como medi-las, estabelecendo-se
escalas de mensuração, é uma das tarefas mais difíceis para o cientista social.
Uma variável é um conceito abstrato, que precisa ser traduzido em formas concretas de
observação e manipulação. Ela pode ser compreendida como um evento, uma situação ou um
comportamento e exige-se que a medida realizada por meio de uma variável seja válida e fidedigna.
Para algo ser válido, deve ser “verdadeiro”, no sentido de estar fundamentado nas evidências
disponíveis. A fidedignidade diz respeito à variável estar medindo o que realmente se propõe a
medir. Por meio de medidas, escalas podem ser construídas, sendo elas de natureza nominal,
ordinal, numérica ou intervalar.

1.4 Medidas que revelam circunstâncias


Vários fenômenos sociais e econômicos adquiriram, ao longo do amadurecimento da utiliza-
ção de métodos numéricos nas ciências humanas, medidas que são aceitas universalmente. Mesmo
assim, muitas dessas medidas ainda são questionadas quanto ao seu potencial de verificação de um
fenômeno real. O índice de desenvolvimento humano (IDH), por exemplo, é uma medida compara-
tiva de riqueza, alfabetização, educação, esperança média de vida e outros fatores. É a padronização
de avaliação e medida do bem-estar de uma população. O índice foi desenvolvido em 1990 pelo eco-
nomista paquistanês Mahbub ul Haq e é usado desde 1993 pelo Programa das Nações Unidas para o
Desenvolvimento (PNUD) no seu relatório anual (PACHECO; JATENE, 2008).
No entanto, há uma série de críticas com relação à capacidade de o IDH medir de fato o
desenvolvimento humano com certa precisão. No caso de medidas de riqueza e riqueza per capita,
não se leva em consideração a distribuição da renda. Por isso, a análise do IDH deve ser acompa-
nhada de uma discussão da distribuição da riqueza, que pode ser realizada por meio do estudo do
índice de Gini, por exemplo.
Determinadas medidas são importantes para se tentar compreender certas relações e situa-
ções de grupos de pessoas e mesmo de países. Por exemplo: o Brasil está entre os países com os
maiores índices de desigualdade social do planeta (ONUBR, 2018). Como realizar essa medida?
O índice de Gini é o indicador mais utilizado para se verificar a estrutura da distribuição de renda
de um grupo social.
Interessa também saber como são determinados os índices que medem o aumento dos preços.
Várias são as propostas metodológicas apresentadas, como o índice de custo de vida (ICV) e o índice
de preço ao consumidor (IPC), que medem quantidades diferentes: o primeiro é um indicador geral
de custo de vida, enquanto o segundo é um índice agregado de preços.
Outros indicadores importantes a serem tratados são os índices de mortalidade infantil e a
esperança de vida. Como está estruturada a distribuição etária de uma população? Como ela enve-
lhece e como se renova? Esses indicadores e o estudo da estrutura populacional serão tratados em
capítulo posterior.
16 Estatística aplicada às ciências sociais

1.5 Análise de associação entre variáveis


A tarefa de verificação da relação entre duas ou mais variáveis é um dos temas centrais na
confirmação de hipóteses em ciências humanas. Suponhamos que um pesquisador está interessado
em verificar se pessoas que habitam aglomerações residenciais têm piores resultados em um teste
de avaliação. Chamaremos a primeira variável de X, local de habitação, e a segunda, resultado no
teste, de Y.
A primeira determinação não diz respeito propriamente à estatística; as variáveis devem
hipotética ou teoricamente estar relacionadas. A segunda tarefa diz respeito à forma de me-
dir essas variáveis. Algumas restrições precisam ser impostas para que se consiga estabelecer
uma escala de medidas para aglomeração. Feito isso, pode-se construir um modelo matemático
que relacione essas duas variáveis. Eventualmente, uma terceira variável pode estar escondida,
ou ser uma variável latente, como quando se controla a classe social. O modelo mais simples,
que relaciona somente duas variáveis, pode ser expresso da seguinte maneira:
y= + X+
Esse é o modelo clássico chamado de regressão linear simples, no qual a relação entre as
variáveis é linear e envolve somente duas delas, sendo, X a variável independente ou explicativa
e Y a dependente ou variável de resposta.
Duas componentes fazem parte desse modelo: uma determinística, + X, e outra aleatória,
ε. A primeira descreve aproximadamente a relação funcional entre X e Y, enquanto a segunda diz
respeito a todas as outras variáveis que não foram analisadas no modelo, e que possivelmente são
de menor importância, mais o efeito do acaso.
A força da relação entre X e Y será determinada por um indicador de força, chamado de
coeficiente de correlação. Se for alto, isto é, próximo de 1, significa que, existindo a relação entre X
e Y, ela será forte. Essas determinações serão estudadas posteriormente.

1.6 Metodologias qualitativas em ciências sociais


A utilização de métodos quantitativos pode não ser a mais adequada para algum tipo par-
ticular de estudo. Enquanto eles supõem uma população de objetos de observação comparáveis
entre si, os métodos qualitativos enfatizam as especificidades de um fenômeno em termos de suas
origens e de sua razão de ser.
Entre os principais métodos de pesquisa qualitativa estão a pesquisa-ação, a pesquisa par-
ticipante e a enquete operária. Estudaremos neste livro os métodos quantitativos para variáveis
qualitativas, e não os métodos qualitativos.
Introdução e conceitos básicos 17

Atividades
1. Um fenômeno complexo e problemático que ocorre com maior expressão em diversas so-
ciedades indígenas da atualidade é o suicídio. Faça uma pesquisa bibliográfica sobre essa
questão, procurando identificar algumas de suas possíveis causas. Atente-se para a utilização
de indicadores na explicação desse problema.

2. Escolha um município qualquer do Brasil e compare o resultado das últimas eleições muni-
cipais com alguma pesquisa eleitoral realizada um pouco antes do pleito. O site do Instituto
Brasileiro de Opinião Pública e Estatística2 concentra grande parte dessas informações. O
que se pode concluir?

3. Em uma publicação – jornal ou revista –, observe as técnicas estatísticas utilizadas para


análise de fenômenos sociais (medidas, gráficos, análises estatísticas etc.) e faça uma crítica
procurando refletir se a ferramenta consegue ser representativa e sintetiza adequadamente
a informação veiculada.

2 IBOPE. Disponível em: www. ibope.com.br. Acesso em: 18 out. 2018.


2
Análise de dados

As estatísticas não substituem o julgamento.

Henry Clay (1777-1852)1

2.1 Análise exploratória de dados e estatística descritiva


A estatística é a ciência da obtenção da informação com base em dados numéricos.
A utilização desses dados para análise de fenômenos naturais e/ou sociais vem crescendo de
modo considerável com a evolução de técnicas de obtenção de dados e com o acentuado cresci-
mento da computação.
A ideia central da utilização de dados numéricos para a análise de fenômenos do mundo real
está em acrescentar mais uma peça de evidências ao corpo teórico e observações sobre achados da
realidade. No entanto, essa utilização deve estar cercada de alguns cuidados, de modo a prevenir o
mau uso das técnicas estatísticas, que pode levar a sérias distorções de entendimento da realidade.
De maneira sintética, podemos dizer que a análise de dados consiste em métodos e técnicas
que permitem ao investigador reforçar, confirmar ou desconfirmar ideias acerca de um fenômeno
real. Dois conjuntos de métodos podem ser distinguidos de acordo com essa ideia. O primeiro,
mais simples, consiste em aplicar tratamentos gráficos e numéricos de modo a compreender o
comportamento dos dados. Esses tratamentos são conhecidos modernamente como análise explo-
ratória de dados. O outro conjunto de técnicas, chamado de inferência estatística, permite que, com
base na observação de uma parte dos dados, a amostra, sejam feitas ilações para um grupo maior,
a população, que abrange aquele grupo menor.
A análise exploratória de dados pertence, portanto, ao campo do que era conhecido como
estatística descritiva, que, com o acréscimo de técnicas chamadas robustas, permite dar tratamento
mais detalhado aos dados, explorando pontos de vista não abrangidos anteriormente.
Fazem parte do escopo da discussão da AED o tratamento tabular e gráfico, as medidas esta-
tísticas e técnicas que permitem compor gráficos e medidas.

2.2 Tipos de medidas


Existem fundamentalmente dois tipos de medidas que estão relacionadas com a natureza
da variável a ser observada. Associados a cada indivíduo, temos medidas ou atributos que o
definem. As medidas são características de variáveis quantitativas e os atributos são de variáveis
categorizadas ou qualitativas.

1 Advogado norte-americano que representou o Kentucky na Câmara dos Representantes e no Senado.


20 Estatística aplicada às ciências sociais

As variáveis quantitativas podem ser contínuas ou discretas. Elas são contínuas quando entre
dois quaisquer valores possam estar novos valores e são fruto de medidas que podem ser expressas
pelos números reais. O salário dos empregados de uma empresa, por exemplo, pode ser considerado
uma variável contínua. As variáveis são discretas quando são resultados de contagem e podem ser
expressas por números inteiros, como a idade dos funcionários. Outra característica importante das
variáveis quantitativas é que elas possibilitam fazer operações matemáticas com seus valores, como
soma, subtração, multiplicação e divisão.
As variáveis categorizadas ou qualitativas são expressas em escalas ordinais, como é o caso da
ordem em que os funcionários foram contratados, ou em categorias, como o sexo do funcionário
ou o setor em que ele trabalha. Não se pode, nesse caso, fazer as operações matemáticas usuais com
os resultados obtidos.

2.2.1 Tabelas e quadros estatísticos


Existe uma pequena diferença entre tabela e quadro estatístico. A tabela estatística é o
resultado de alguma forma de resumo dos dados. A primeira linha vertical à esquerda e a última
linha vertical à direita de uma tabela estatística devem ser somente linhas imaginárias, segundo
as normas da ABNT2. As tabelas são utilizadas para apresentação de resultados estatísticos e
também como ferramenta de desenvolvimento de operações. Uma tabela bastante importante
utilizada em estatística é a distribuição de frequências, na qual é anotado o número de casos
(frequência) para cada classe ou categoria considerada.
Já o quadro serve para a apresentação de dados, como os do exemplo dos empregados de
uma empresa, ou para a apresentação de resultados-resumo, como um quadro de médias. O quadro
tem seus limites à esquerda e à direita fechados por linhas.

2.2.1.1 Apresentação gráfica


Os dados de uma tabela estatística podem ser apresentados por meio de gráficos estatísticos.
O tipo de gráfico deve ser compatível com a natureza dos dados. Os principais gráficos são o de
colunas ou de barras, o de setores ou pizza, o de linhas e o histograma.
Existem também, na análise exploratória de dados, algumas apresentações gráficas que au-
xiliam a compreensão do comportamento dos dados, como o diagrama ramo e folhas, o esquema
de cinco números e o diagrama de caixas ou box-plot.
O detalhamento da utilização de cada tipo de gráfico será assunto ainda deste capítulo.

Exemplo
Usaremos a situação a seguir, da composição dos empregados de uma
empresa imaginária, chamada aqui de empresa ABC, para ilustrar a
natureza das variáveis e os recursos estatísticos disponíveis para uma

2 ASSOCIAÇÃO Brasileira de Normas Técnicas. NBR 6023: informação e documentação – referências – elaboração.
Rio de Janeiro, 2002. Disponível em: https://www.usjt.br/arq.urb/arquivos/abntnbr6023.pdf. Acesso em: 25 out. 2018.
Análise de dados 21

primeira análise de dados, que comporte a verificação do perfil de seu


corpo funcional.
Observe, então, a seguinte situação: o coordenador do Departamento de
Recursos Humanos (RH) da empresa solicitou, para um estudo prelimi-
nar sobre uma possível reorganização das funções e dos salários, a rela-
ção dos funcionários, na qual deveriam constar algumas variáveis para
esse primeiro estudo: tempo de casa, sexo, idade, salário e setor.
Um auxiliar administrativo apresentou o seguinte quadro como resultado:
Quadro 1 – Relação dos funcionários da empresa ABC por sexo, idade, salário e setor de trabalho

Número de
Nome Sexo Idade Salário Setor
ordem

1 A. L. Ferraz M 49 1.714,00 Oper.

2 R. Abreu M 48 1.701,00 Oper.

3 R. S. Reis M 64 1.589,00 Oper.

4 N. Farias F 37 1.418,00 Oper.

5 J. L. Jansen F 42 1.000,00 Aux. Adm.

6 U. S. Machado M 40 3.732,00 Tec.

7 F. Nogueira F 21 1.330,00 Oper.

8 M. Pinheiro F 33 1.307,00 Oper.

9 M. A. da Silva M 39 1.282,00 Oper.

10 P. A. B. Costa F 42 1.260,00 Oper.

11 H. F. Minho F 39 975,00 Aux. Adm.

12 N. M. de Lima M 32 1.256,00 Oper.

13 C. F. Loureiro M 22 1.185,00 Oper.

14 M. E. M. Ferreira M 21 3.535,00 Tec.

15 J. A. Isaias F 37 2.956,00 Tec.

16 J. Martins F 24 1.179,00 Oper.

17 A. P. Ribeiro M 28 966,00 Aux. Adm.

18 L. C. Batista M 32 3.204,00 Adm.

19 A. F. dos Santos M 31 881,00 Aux. Adm.

20 C. A. Brandão F 38 3.080,00 Adm.

21 D. J. Feltrin M 23 2.872,00 Tec.

22 L. S. Prestes M 22 826,00 Aux. Adm.

23 J. L. Campos M 46 1.010,00 Oper.

24 S. I. Magalhães F 34 708,00 Aux. Adm.


(Continua)
22 Estatística aplicada às ciências sociais

Número de
Nome Sexo Idade Salário Setor
ordem

25 P. R. Gonçalves M 47 2.960,00 Adm.

26 M. I. Machado M 42 2.797,00 Tec.

27 M. Paraná F 32 1.001,00 Oper.

28 U. V. Guimarães F 29 2.315,00 Adm.

29 E. M. Moreira M 41 5.572,00 Ger.

30 A. P. de Andrade M 30 2.372,00 Tec.

31 L. R. de Souza F 51 4.829,00 Ger.

32 R. T. Moraes F 23 1.826,00 Adm.

33 J. Pilloto M 20 540,00 Oper.

34 F. C. Lopes F 27 489,00 Oper.

35 C. A. Meier F 33 479,00 Oper.

36 H. O. Silveira F 22 1.904,00 Tec.

37 K. D. Almeida M 41 659,00 Aux. Adm.

38 M. J. D. Colares F 34 1.827,00 Tec.

39 R. F. L. Silvério M 24 472,00 Oper.

40 M. N. Messias F 20 640,00 Aux. Adm.

Fonte: Elaborado pelo autor.

Os dados apresentados foram organizados de modo a oferecer ao coorde-


nador do RH as informações que revelassem a distribuição dos salários de
acordo com estas variáveis: (i) número de ordem, no sentido de que o mais
antigo na organização recebeu o número 1 e o mais novo o número 40,
não importando muito o tempo de contratação, uma vez que a empresa foi
constituída há pouco tempo; (ii) sexo; (iii) idade; (iv) salário e; (v) setor,
dividindo os funcionários de acordo com as funções: operacional (Oper.),
auxiliar administrativo (Aux. Adm.), técnico (Tec.), administrativo (Adm.)
e gerência (Ger.), sendo uma gerência técnica e outra administrativa.
O coordenador analisou o quadro e verificou imediatamente que os
funcionários mais antigos eram, em sua maioria, do setor operacional,
com exceção de dois auxiliares administrativos. Observou também que
poucos ganhavam menos do que R$ 1 mil e que havia uma pequena
predominância de funcionários do sexo masculino. Percebeu que o
Reis de fato era o mais velho, com 64 anos, e que a empresa não tinha
nenhum funcionário com menos de 20 anos. Verificou, também, que
ele era o décimo oitavo contratado e que, entre os administradores, era
o mais antigo, recebendo um salário maior em comparação com seus
pares, no valor de R$ 3.204,00. Concluiu, finalmente, que, da forma
Análise de dados 23

como os dados foram apresentados, havia dificuldade de obter infor-


mações mais detalhadas sobre a distribuição de cargos e salários. Sendo
assim, o coordenador chamou um dos administradores e pediu que ele
organizasse melhor os dados, afirmando que, em termos gerais, não
importava o nome das pessoas. Foi prontamente atendido e recebeu o
seguinte novo quadro:
Quadro 2 – Atualização das variáveis de funcionários da empresa ABC

Número Média
Sexo Idade Setor Salário
de ordem salarial

M 41 Ger. 29 5.572,00

F 51 Ger. 31 4.829,00 5.200,50

M 40 Tec. 6 3.732,00

M 21 Tec. 14 3.535,00

F 37 Tec. 15 2.956,00

M 23 Tec. 21 2.872,00

M 42 Tec. 26 2.797,00

M 30 Tec. 30 2.372,00

F 22 Tec. 36 1.904,00

F 34 Tec. 38 1.827,00 2.749,38

M 32 Adm. 18 3.204,00

F 38 Adm. 20 3.080,00

M 47 Adm. 25 2.960,00

F 29 Adm. 28 2.315,00

F 23 Adm. 32 1.826,00 2.677,00

M 49 Oper. 1 1.714,00

M 48 Oper. 2 1.701,00

M 64 Oper. 3 1.589,00

F 37 Oper. 4 1.418,00

F 21 Oper. 7 1.330,00

F 33 Oper. 8 1.307,00

M 39 Oper. 9 1.282,00

F 42 Oper. 10 1.260,00

M 32 Oper. 12 1.256,00

M 22 Oper. 13 1.185,00

F 24 Oper. 16 1.179,00

M 46 Oper. 23 1.010,00
(Continua)
24 Estatística aplicada às ciências sociais

Número Média
Sexo Idade Setor Salário
de ordem salarial

F 32 Oper. 27 1.001,00

M 20 Oper. 33 540,00

F 27 Oper. 34 489,00

F 33 Oper. 35 479,00

M 24 Oper. 39 472,00 1.130,12

F 42 Aux. Adm. 5 1.000,00

F 39 Aux. Adm. 11 975,00

M 28 Aux. Adm. 17 966,00

M 31 Aux. Adm. 19 881,00

M 22 Aux Adm. 22 826,00

F 34 Aux .Adm. 24 708,00

M 41 Aux. Adm. 37 659,00

F 20 Aux. Adm. 40 640,00 831,88


Fonte: Elaborado pelo autor.

Com base no novo quadro, o coordenador pôde verificar uma série de


novas informações, como média salarial e número de funcionários por
categoria, e também que havia certa coerência dentro de cada catego-
ria com relação ao tempo de serviço e salário, pois funcionários mais
antigos da mesma categoria recebiam salários maiores. Mas sobre sexo,
idade e suas relações com as demais informações, o coordenador ainda
tinha muita dificuldade de tirar conclusões.
Esse tipo simples de organização dos dados pode ser útil no dia a dia da
análise de situações sociais. Os dados individuais, por mais bem organi-
zados que estejam, trazem poucas informações. É necessário que sejam
sintetizados em quadros, tabelas, gráficos e medidas que possam resu-
mir as informações, agregando-as.

2.2.2 Variáveis categorizadas


As variáveis categorizadas são medidas de atributos, como sexo, grau de instrução, setor de
trabalho, categoria profissional, preferência eleitoral etc. Os indivíduos estão relacionados a alguma
categoria dentro de cada variável, como sexo e função, no caso dos empregados da empresa ABC.

2.2.2.1 Distribuição por sexo


A tabela e os gráficos a seguir apresentam a distribuição por sexo dos indivíduos da empresa
que estamos tomando como exemplo.
Análise de dados 25

Tabela 1 – Distribuição por sexo dos funcionários da empresa ABC

Sexo Número Perc.

Fem. 19 47,5%

Masc. 21 52,5%

Total 40 100,0%
Fonte: Elaborada pelo autor.

A utilização de um gráfico estatístico objetiva representar visualmente os dados. Os gráficos


adequados para a representação dessa tabela são os de colunas ou de barras e o gráfico de setores.
Figura 1 – Gráfico de colunas: representação da categoria sexo dos funcionários da empresa ABC
20

15
Número

10

0
Fem. Masc.
Sexo
Fonte: Elaborada pelo autor.

Figura 2 – Gráfico de barras: representação da categoria sexo dos funcionários da empresa ABC

Masc.
Sexo

Fem.

0 5 10 15 20
Número
Fonte: Elaborada pelo autor.

Figura 3 – Gráfico de setores: representação da categoria sexo dos funcionários da empresa ABC

Fem.
52% 48%
Masc.

Fonte: Elaborada pelo autor.

O gráfico de setores é útil quando queremos observar o valor relativo da participação de


cada categoria no total.
26 Estatística aplicada às ciências sociais

2.2.2.2 Distribuição por função na empresa


A tabela e os gráficos a seguir apresentam a distribuição dos indivíduos de acordo com sua
função na empresa.
Tabela 2 – Distribuição por função dos funcionários da empresa ABC

Função Número Perc.

Gerência 2 5,0%

Adm. 5 12,5%

Tec. 8 20,0%

Aux. Adm. 8 20,0%

Oper. 17 42,5%

Total 40 100,0%
Fonte: Elaborada pelo autor.

Figura 4 – Gráfico de colunas: representação da categoria função dos funcionários da empresa ABC
18

16

14

12
Número

10

0
Gerência Adm. Tec. Aux. Adm. Oper.

Categorias
Fonte: Elaborada pelo autor.

Figura 5 – Gráfico de setores: representação da categoria função dos funcionários da empresa ABC
5%

13%
Gerência

Adm.
42%
20% Tec.

Aux. Adm.

Oper.

20%
Fonte: Elaborada pelo autor.
Análise de dados 27

2.2.3 Variáveis quantitativas


As variáveis quantitativas, sejam elas discretas ou contínuas, são apresentadas por meio da
chamada distribuição de frequências. Nos dois casos podemos construir distribuições de frequên-
cias, indicando os valores da variável e a sua correspondente frequência de ocorrência.
No caso de variável contínua, ou mesmo de variável discreta com um grande número de
possibilidades, é comum a construção de classes nas quais mais de um valor é contemplado.
Vamos estudar, inicialmente, o caso de uma variável discreta por meio da verificação da dis-
tribuição de frequências das idades dos funcionários. Pode ser de interesse do pesquisador saber
qual é a distribuição de idade dos funcionários com menos de 30 anos. A tabela da distribuição de
frequências correspondente a esses dados será a seguinte:
Tabela 3 – Distribuição de frequências dos funcionários até 30 anos

Idade Freq.
20 2

21 2

22 3

23 2

24 2

25 0

26 0

27 0

28 1

29 1

Total 13
Fonte: Elaborada pelo autor.

O gráfico correspondente à distribuição de frequências dessas idades é o gráfico de bastões.


Figura 6 – Gráfico de distribuição de frequências dos funcionários até 30 anos
3,5

2,5

1,5

0,5

0
20 21 22 23 24 25 26 27 28 29
Fonte: Elaborada pelo autor.
28 Estatística aplicada às ciências sociais

2.2.3.1 Diagrama ramo e folhas


Uma outra forma de representação gráfica utilizando as próprias idades é o diagrama
ramo e folhas, no qual o ramo representa os algarismos relativos às dezenas e as folhas referem-se
àqueles quanto à unidade. Na primeira linha, o 2 equivale à dezena e os números à direita repre-
sentam as unidades. Estão representadas na primeira linha as idades 20, 20, 21, 21, 22 e assim
por diante, até a idade 29.
Figura 7 – Diagrama ramo e folhas das idades dos 40 funcionários

2 00112223344789
3 01222334477899
4 0112226789
5 1
6 4
Fonte: Elaborada pelo autor.

Observe o aspecto da informação gráfica do diagrama ramo e folhas em analogia com o


histograma que será apresentado na sequência. A vantagem da utilização do primeiro é que ele
mostra o desenho da distribuição sem perder a informação detalhada.

2.2.3.2 Série temporal


Muitas variáveis são medidas em intervalos de tempo. O gráfico de linhas é a maneira
mais adequada de apresentar a evolução de uma variável, sendo que o eixo X sempre será corres-
pondente a uma escala de tempo.
Quando não há um número demasiado grande de pontos, a ligação entre eles por segmentos
de retas ajuda a visualizar o padrão de variação ao longo do tempo.
Suponha que no exemplo da empresa ABC os dados tivessem sido apresentados conforme
a solicitação original, que incluía o tempo de casa de cada funcionário. Uma possível organização
dos dados seria verificar quantos funcionários a empresa tinha em cada um de seus quatro anos de
existência, conforme tabela a seguir:
Tabela 4 – Número de funcionários da empresa ABC por ano

Ano Funcionários

Ano 1 15

Ano 2 20

Ano 3 32

Ano 4 40
Fonte: Elaborada pelo autor.
Análise de dados 29

Figura 8 – Gráfico de linhas: representação do número de funcionários da empresa ABC por ano
45

40

35

30

25

20

15

10

0
Ano 1 Ano 2 Ano 3 Ano 4
Fonte: Elaborada pelo autor.

2.2.4 Distribuição de frequências


Poderíamos, eventualmente, considerar a idade como uma variável aleatória contínua
cuja representação está aproximada para os valores inteiros das idades. A rigor, a variável idade
é mesmo contínua, porque poderíamos medir o tempo de vida em anos, dias e mesmo segun-
dos. Nesse caso, seria possível construir classes entre certas idades de tal forma que elas repre-
sentassem um contínuo.
A tabela da distribuição de frequências das idades, quando organizada em classes, recebe o
nome de histograma, um gráfico de colunas adjacentes representando um contínuo.
Tabela 5 – Distribuição de frequências das idades dos funcionários da empresa ABC

Idade Freq. Perc.


20 a 29 14 35,0%

30 a 39 14 35,0%

40 a 49 10 25,0%

50 a 59 1 2,5%

60 ou + 1 2,5%

Total 40 100,0%

Fonte: Elaborada pelo autor.


30 Estatística aplicada às ciências sociais

Figura 9 – Histograma de distribuição de frequências das idades dos funcionários da empresa ABC
16
14
12
20 a 29 anos

Frequência
10 30 a 39 anos
8 40 a 49 anos
6 50 a 59 anos

4 60 anos ou mais

2
0
1
Idade
Fonte: Elaborada pelo autor.

Tabela 6 – Distribuição salarial dos funcionários da empresa ABC

Salário Freq. Freq. Rel.


Até 999 11 0,28

De 1.000 a 1.999 17 0,43

De 2.000 a 2.999 6 0,15

De 3.000 a 3.999 4 0,10

Acima de 4.000 2 0,05

Total 40 1,00
Fonte: Elaborada pelo autor.

Observe que podemos utilizar indistintamente percentagem ou frequência relativa. Na ver-


dade, a percentagem é a frequência relativa multiplicada por 100.
Figura 10 – Gráfico de distribuição salarial dos funcionários da empresa ABC
18

16

14

12 Até 999
Frequência

De 1.000 a 1.999
10
De 2.000 a 2.999

8 De 3.000 a 3.999
Acima de 4.000
6

0
1
Salários
Fonte: Elaborada pelo autor.
Análise de dados 31

2.2.4.1 Elementos de uma distribuição de frequências


A distribuição de frequências, como foi apresentada, é útil não só para apresentação de dados,
mas para análises um pouco mais aprofundadas. A seguir, vamos reapresentar a distribuição de fre-
quências dos salários, porém de uma maneira mais matematicamente formal.
Tabela 7 – Distribuição de frequências salariais dos funcionários da empresa ABC

Salário (X) Freq. Freq. Rel.

X < 1.000 11 0,28

1.000 ≤ X < 2.000 17 0,43

2000 ≤ X < 3.000 6 0,15

3.000 ≤ X < 4.000 4 0,10

X ≥ 4.000 2 0,05

Total 40 1,00
Fonte: Elaborada pelo autor.

Observe que a distribuição é apresentada como um contínuo. Não há descontinuidade entre


R$ 1.999,00 e R$ 2.000,00, por exemplo, portanto podemos ter a representação de qualquer valor,
como R$ 1.999,85.
Definimos cinco classes. O número de classes de uma distribuição de frequências não deve
ser muito grande, em torno de cinco a oito já é bastante razoável, e elas devem ter igual amplitude.
No nosso caso, como temos poucos valores acima de R$ 4.000,00, agregamos todos na última classe.
Cada uma delas tem um limite inferior de classe e um limite superior. A diferença entre eles chama-
mos de amplitude do intervalo de classe.
Podemos ainda definir o ponto médio de cada classe. Esse valor será útil para a determi-
nação das medidas estatísticas quando não temos os dados brutos. O ponto médio representará
todos os valores da classe. Em nosso exemplo, entre R$ 1.000,00 e R$ 2.000,00 temos 17 valores.
Todos eles serão considerados como R$ 1.500,00. Perdemos um pouco em informação, mas
ganhamos em poder de síntese.
A frequência relativa será uma aproximação de probabilidades. A probabilidade de um dos
40 funcionários da empresa ABC ser sorteado e ele ter um salário entre R$ 3.000,00 e R$ 4.000,00
será de 4/40 ou de 0,10. Formalmente, P(3.000 ≤ X < 4.000) = 0,10. Podemos dizer, sem perder muito
o rigor, que essa probabilidade é de 10%. A probabilidade de sortearmos um funcionário que ganhe
menos do que R$ 2.000,00 pode ser definida como P(X < 2.000) = 28/40. Também P(X ≥ 2.000)
= 12/40. Observe que P(X < 2.000) + P(X ≥ 2.000) = 1; sempre que isso ocorre, dizemos que essas
probabilidades são complementares.
Se considerarmos a amplitude do intervalo de classe como a unidade, a probabilidade pode
ser calculada como a área de cada retângulo no histograma, que terá como base o valor 1 e como
altura a frequência relativa. Esse cálculo de probabilidades por meio de áreas será fundamental
quando tratarmos da inferência estatística.
32 Estatística aplicada às ciências sociais

Um outro elemento importante em uma distribuição de frequências é a chamada frequên-


cia acumulada. Até R$ 2.000,00, temos 28 elementos, como acabamos de ver. Até R$ 3.000,00,
temos 34 elementos, e assim por diante. A seguir, apresentamos a tabela completa.
Tabela 8 – Distribuição de frequências

Salário (X) Freq. Freq. Rel. Ponto médio Freq. acumulada


X < 1.000 11 0,28 500 11

1.000 ≤ X < 2.000 17 0,43 1.500 28

2.000 ≤ X < 3.000 6 0,15 2.500 34

3.000 ≤ X < 4.000 4 0,10 3.500 38

X ≥ 4.000 2 0,05 4.500 40

Total 40 1,00
Fonte: Elaborada pelo autor.

Outra aproximação possível é suavizar a apresentação do histograma, construindo um


novo gráfico que una os pontos médios das classes. Esse novo gráfico é chamado de polígono de
frequências e estará, possivelmente, mais próximo dos dados reais. Observe que com o polígono
de frequências podemos determinar, utilizando o cálculo de áreas, as probabilidades de qualquer
intervalo, como P(1.022,34 ≤ X < 3.087,53).
Na representação do polígono de frequências a seguir, observe que a área do polígono é
também igual à unidade, ou seja, toda área retirada do histograma é recolocada. Podemos veri-
ficar isso na semelhança de triângulos: a área do triângulo acima do retângulo de bolinhas que
será inserida no gráfico é a mesma que será retirada do triângulo do lado esquerdo do retângulo
de linhas tracejadas.
Figura 11 – Polígono de frequências de distribuição salarial
18

16

14

12 Até 1.000
Frequências

De 1.000 a 2.000
10
De 2.000 a 3.000

8 De 3.000 a 4.000
Acima de 4.000
6

0
1
Salários
Fonte: Elaborada pelo autor.

Os instrumentos de tabelas e gráficos apresentados são suficientes para se fazer uma


primeira análise dos dados, que pode ser complementada com o cálculo de medidas estatísticas
e análises inferenciais.
Análise de dados 33

Atividades
1. Os dados a seguir são relativos ao peso, ao nascer (em gramas), de recém-nascidos com sín-
drome de desconforto idiopático grave, ou seja, de causa desconhecida. Algumas crianças
foram a óbito (*) e outras sobreviveram.

1.030* 1.300* 1.720 2.090 2.570

1.050* 1.310* 1.750* 2.200* 2.600

1.100* 1.410 1.760 2.200 2.700

1.130 1.500* 1.770* 2.270* 2.730*

1.175* 1.550* 1.820* 2.750* 2.830

1.185* 1.575 1.890* 2.400 2.950

1.225* 1.600* 1.930 2.440* 3.005

1.230* 1.680 1.940* 2.500* 3.160

1.262* 1.715 2.015 2.550 3.400

1.295* 1.720* 2.040 2.560* 3.640


Fonte: Hand et al., 1994.

a) Apresente a distribuição de frequências dos dados, em forma de tabela unidimensional.


b) Classifique a variável peso ao nascer em duas categorias: baixo peso (abaixo de 2.500 g) e
não baixo peso (acima de 2.500 g) e faça uma tabela bidimensional cruzando as variáveis:
condição do recém-nascido (sobrevivente ou não sobrevivente) e peso ao nascer (baixo
peso e não baixo peso).
c) Avalie e interprete os resultados encontrados nas atividades a e b.
2. Os dados a seguir foram publicados pela Unidade de Recuperação de Alcoólatras, em
Camberwell, Reino Unido. A tabela mostra o número de pessoas condenadas por embria-
guez nos tribunais de Tower Bridge e Lambeth, Londres, durante 6 meses, de 1º de janeiro
a 27 de junho de 1970, classificados por idade e sexo. A distribuição etária é a mesma, de
acordo com o sexo? Interprete os resultados com percentagens e análise gráfica.

Número Número
Idade
de homens de mulheres
0 – 29 185 4

30 – 39 207 13

40 – 49 260 10

50 – 59 180 7

60 – 71 10

Total 903 44
Fonte: Hand et al., 1994.
34 Estatística aplicada às ciências sociais

3. Os dados a seguir são relacionados à altura (em centímetros) de uma amostra de 351 mulhe-
res idosas selecionadas aleatoriamente em uma comunidade, para um estudo de osteoporose.
Faça uma apuração dos dados e os represente em uma tabela e em um gráfico. Em seguida,
interprete os resultados.

156 163 169 161 154 156 163 164 156 166 177 158

150 164 159 157 166 163 153 161 170 159 170 157

156 156 153 178 161 164 158 158 162 160 150 162

155 161 158 163 158 162 163 152 173 159 154 155

164 163 164 157 152 154 173 154 162 163 163 165

160 162 155 160 151 163 160 165 166 178 153 160

156 151 165 169 157 152 164 166 160 165 163 158

153 162 163 162 164 155 155 161 162 156 169 159

159 159 158 160 165 152 157 149 169 154 146 156

157 163 166 165 155 151 157 156 160 170 158 165

167 162 153 156 163 157 147 163 161 161 153 155

166 159 157 152 159 166 160 157 153 159 156 152

151 171 162 158 152 157 162 168 155 155 155 161

157 158 153 155 161 160 160 170 163 153 159 169

155 161 156 153 156 158 164 160 157 158 157 156

160 161 167 162 158 163 147 153 155 159 156 161

158 164 163 155 155 158 165 176 158 155 150 154

164 145 153 169 160 159 159 163 148 171 158 158

157 158 168 161 165 167 158 158 161 160 163 163

169 163 164 150 154 165 158 161 156 171 163 170

154 158 162 164 158 165 158 156 162 160 164 165

157 167 142 166 163 163 151 163 153 157 159 152

169 154 155 167 164 170 174 155 157 170 159 170

155 168 152 165 158 162 173 154 167 158 159 152

158 167 164 170 164 166 170 160 148 168 151 153

150 165 165 147 162 165 158 145 150 164 161 157

163 166 162 163 160 162 153 168 163 160 165 156

158 155 168 160 153 163 161 145 161 166 154 147

161 155 158 161 163 157 156 152 156 165 159 170

160 152 153

Fonte: Hand et al., 1994.


3
Medidas estatísticas de posição

Com o pé no forno e a cabeça na geladeira, em


média, a temperatura do corpo está agradável.

K. Dunnigan

3.1 Medidas estatísticas


A utilização de medidas estatísticas serve para resumir os dados mediante valores represen-
tativos. Existem quatro tipos de medidas: as de posição, as de dispersão, as de assimetria e as de
achatamento ou de curtose.
As medidas de posição objetivam verificar pontos que representem o conjunto de dados.
Elas podem ser medidas de tendência central – como a média aritmética ou simplesmente média –,
que dizem em torno de que ponto os dados se concentram, ou ainda as separatrizes, que informam
o valor em que os dados se dividem, podendo ser em quatro, dez ou cem partes.
Já as medidas de dispersão dizem respeito à intensidade da concentração dos dados em
torno de medidas de tendência central. As principais medidas de dispersão são a variância,
o desvio-padrão e o coeficiente de variação.
As medidas de assimetria são utilizadas para verificar se os dados são simétricos em relação
a um valor central, enquanto as medidas de achatamento ou de curtose servem para verificar se
o gráfico de dados concentra-se em valores próximos ou distantes do eixo X do plano cartesiano.
Esses dois últimos tipos de medidas são de menor interesse em uma primeira abordagem, portanto
não serão tratados neste livro.
Existem valores que, embora pertençam a um conjunto de dados, são muito diferentes dos
valores da maioria deles, os chamados valores discrepantes ou outliers, e destoam do conjunto prin-
cipal dos dados. É sempre importante verificar a existência desses valores em um conjunto, pois eles
podem representar um erro de medida ou apontar que o fenômeno em estudo pode alcançar valores
muito fora da tendência principal. Podem, portanto, servir de alerta para o fato de que o fenômeno
em estudo eventualmente apresente um comportamento fora do padrão. O estudo detalhado dessa
circunstância servirá de alerta ao analista para a possibilidade de eventual saída da normalidade em
situações particulares.
Na análise de dados, ocasionalmente o pesquisador pode retirar esse outlier para verificar
o comportamento da maioria dos dados e depois recolocá-lo para refazer a análise e ver se houve
alguma alteração importante em suas conclusões. Essa tarefa faz parte da análise exploratória de
dados e um pesquisador cuidadoso deve preocupar-se com tal situação.
36 Estatística aplicada às ciências sociais

Se um cientista social está interessado no estudo da qualidade de vida dos moradores da


região metropolitana de uma capital e se ele utilizará, por exemplo, o índice de desenvolvimento
humano (IDH) como um dos indicadores que o auxiliará em seu estudo, deve verificar se o valor
do IDH da capital não será muito diferente dos valores do índice nos municípios vizinhos que
adquirem características dos bairros da periferia da capital, onde os indicadores de qualidade
de vida são sempre inferiores. Em uma situação como essa, se o valor do IDH da capital não for
tratado de maneira diferenciada, poderá afetar o resumo dos conjuntos de todos os municípios.
A sintetização das informações tem sido realizada até aqui mediante apresentação tabular e
gráfica dos dados originais. A forma de se completar essa tarefa é por meio do cálculo das medidas
estatísticas. Para tanto, serão abordados dois tipos de medidas: (i) as medidas de posição e (ii) as
medidas de dispersão. Este capítulo é dedicado ao estudo das primeiras.

3.2 Medidas de posição


Trabalharemos aqui com dois tipos de medidas: as medidas de tendência central e as separa-
trizes. As medidas de tendência central resumem os dados no centro da a média aritmética,
a mediana e a moda.

3.2.1 A média aritmética


Também chamada simplesmente de média, é uma das medidas mais importantes da esta-
tística. Além de resumir os dados, serve para os propósitos de estimação da amostra para a popu-
lação. Ela tem as melhores propriedades de um estimador.
A média é a soma dos dados dividida pelo número de observações, e sua expressão mate-
mática é:
n
Xi X1 + X2 + ... + Xn
X= i=1
=
n n
n

A expressão i = X
1
i significa somar valores de Xi com i variando de 1 até n. Cada Xi é um ele-

mento da amostra. O quadro a seguir apresenta o conjunto de indivíduos da empresa ABC junto à
sua idade e a seu salário. Esses dados servirão para introduzir as medidas.
Quadro 1 – Idade e salário dos funcionários da empresa ABC

Número de ordem Nome Idade Salário

1 A. L. Ferraz 49 1.714,00

2 R. Abreu 48 1.701,00

3 R. S. Reis 64 1.589,00

4 N. Farias 37 1.418,00

5 J. L. Jansen 42 1.000,00
(Continua)
Medidas estatísticas de posição 37

Número de ordem Nome Idade Salário

6 U. S. Machado 40 3.732,00

7 F. Nogueira 21 1.330,00

8 M. Pinheiro 33 1.307,00

9 M. A. da Silva 39 1.282,00

10 P. A. B. Costa 42 1.260,00

11 H. F. Minho 39 975,00

12 N. M. de Lima 32 1.256,00

13 C. F. Loureiro 22 1.185,00

14 M. E. M. Ferreira 21 3.535,00

15 J. A. Isaias 37 2.956,00

16 J. Martins 24 1.179,00

17 A. P. Ribeiro 28 966,00

18 L. C. Batista 32 3.204,00

19 A. F. dos Santos 31 881,00

20 C. A. Brandão 38 3.080,00

21 D. J. Feltrin 23 2.872,00

22 L. S. Prestes 22 826,00

23 J. L. Campos 46 1.010,00

24 S. I. Magalhães 34 708,00

25 P. R. Gonçalves 47 2.960,00

26 M. I. Machado 42 2.797,00

27 M. Paraná 32 1.001,00

28 U. V. Guimarães 29 2.315,00

29 E. M. Moreira 41 5.572,00

30 A. P. de Andrade 30 2.372,00

31 L. R. de Souza 51 4.829,00

32 R. T. Moraes 23 1.826,00

33 J. Pilloto 20 540,00

34 F. C. Lopes 27 489,00

35 C. A. Meier 33 479,00

36 H. O. Silveira 22 1.904,00

37 K. D. Almeida 41 659,00

38 M. J. D. Colares 34 1.827,00

39 R. F. L. Silvério 24 472,00

40 M. N. Messias 20 640,00
Fonte: Elaborado pelo autor.
38 Estatística aplicada às ciências sociais

O valor da variável em estudo do primeiro indivíduo, ou número 1, o funcionário A. L.


Ferraz, será o valor X1. Se a variável em estudo for a idade, então X1 = 49. Já X2 representará a
idade do indivíduo 2, sendo
n
X2 = 48 anos, e assim por diante. Como temos 40 indivíduos, “n”
será igual a 40. Assim, i =X1 i será a soma das idades dos 40 indivíduos, isto é, essa expressão diz
que devemos somar todos os Xi com “i” variando de 1 até n, ou seja, com “i” variando de 1 até 40.
n

Quando não houver confusão, Xi será apresentado simplesmente como X.


i=1

A média aritmética representa o centro de gravidade dos dados. Alguns cuidados, no en-
tanto, devem ser tomados quando desejamos resumir os dados pelo valor de sua média, pois ela é
muito sensível a valores extremos. Um único valor muito grande ou muito pequeno pode mudar
substancialmente o valor da média, podendo ela perder sua representatividade.
No exemplo dado, o valor da média das idades dos empregados da empresa ABC é de
34 anos, e o valor da média dos salários é de R$ 1.791,20. Se considerarmos a idade de 64 anos
como um outlier, a nova média será de 33,2 anos, e, se considerarmos os salários R$ 4.829,00 e
R$ 5.572,00 como valores muito acima dos demais, teremos uma média salarial de R$ 1.611,76,
quase R$ 200,00 de diferença com relação à primeira média.
No primeiro caso, a diferença parece não ter sido de grande significância, mas, para a média
salarial, pode ser considerada importante, mesmo porque seria um dos elementos centrais em uma
análise de cargos e salários. No cálculo da média, retirar o salário dos dois gerentes pode ser útil
para a construção de uma política de cargos e salários.
Essa sensibilidade da média a valores extremos pode ser mais bem compreendida com a
seguinte frase: “Se coloco os pés no congelador e a cabeça num forno aceso, a temperatura média
do corpo será agradável...” (UFPA, 2018).

3.2.2 A média ponderada


Para calcular a média do seguinte conjunto (2, 2, 2, 2, 2, 3, 3, 4, 4, 4), a soma dos dados pode
ser realizada da seguinte forma: 2x5 + 3x2 + 4x3 = 10 + 6 +12 = 28. Isso porque a frequência do 2 é
5, a do 3 é 2 e a do 4 é 3. Observe que a soma das frequências é 10 (5 + 2 + 3), igual ao número de
observações. Podemos expressar esse fato por:

X= Xf
f

Na expressão apresentada, f é a frequência de cada um dos valores de X. Essa fórmula repre-


senta a chamada média aritmética ponderada, ou simplesmente média ponderada. Os ponderado-
res são as frequências.
Esse cálculo é muito útil quando os dados são apresentados em uma distribuição de frequên-
cias na qual X será o ponto médio de cada classe e a frequência será o ponderador. Se observarmos
que a frequência relativa é igual à frequência dividida pelo número de observações, como visto na
distribuição de frequências, isto é, frel = freq. , podemos representar a média ponderada como:
f

X = Xfrel
Medidas estatísticas de posição 39

Nesse caso, o valor de X será o do ponto médio de cada classe.


Nas tabelas a seguir são realizados os cálculos das médias das idades e dos salários do grupo
de funcionários considerado. A notação [20;30) significa que o valor 20 anos pertence a essa classe
e que o valor 30 anos pertence à classe seguinte. O intervalo é fechado à esquerda e aberto à direita.
A notação para indicação dos intervalos de salários é diferente, embora represente a mesma coisa.
O intervalo 1.000 ≤ X < 2.000 poderia ser representado por [1.000;2.000).
Tabela 1 – Cálculo da idade média ponderada

Número de
Idade Ponto médio (X) frel X. frel
trabalhadores (freq.)
[20;30) 14 25 0,35 8,575

[30;40) 14 35 0,35 12,075

[40;50) 10 45 0,25 11,125

[50;60) 1 55 0,025 1,3625

[60;70) 1 65 0,025 1,6125

Total 40 34,75
Fonte: Elaborada pelo autor.

Tabela 2 – Cálculo do salário médio ponderado

Número de
Salário Ponto médio (X) frel X frel
salários (freq.)
X < 1000 11 500 0,28 140

1000 ≤ X < 2000 17 1.500 0,43 645

2000 ≤ X < 3000 6 2.500 0,15 375

3000 ≤ X < 4000 4 3.500 0,1 350

X ≥ 4000 2 4.500 0,05 225

Total 40 1.735
Fonte: Elaborada pelo autor.

No cálculo da média ponderada das idades e dos salários, com o auxílio das tabelas anterior-
mente apresentadas, encontramos os seguintes valores para as médias: idade média de 34,75 anos
e salário médio de R$ 1.735,00.
Se compararmos esses valores com os encontrados para os dados brutos, cuja idade média é
de 34 anos e cujo salário médio é de R$ 1.791,20, percebemos que pequenas alterações ocorreram,
principalmente no valor do salário médio, em razão de termos considerado o valor dos salários dos
gerentes como R$ 4.500,00 na distribuição de frequências, quando de fato eles eram bem superiores
a isso.
Essas distorções costumam desaparecer quando retiramos os outliers do cálculo ou quando
o número de observações cresce.
40 Estatística aplicada às ciências sociais

3.2.3 A mediana
Como foi observado anteriormente, a média é uma medida muito útil para a análise de certo
fenômeno por meio de indicadores numéricos, mas é também muito sensível a valores extremos.
Assim, é necessário determinar outras medidas que possam auxiliar o analista a compreender o
comportamento dos dados além da determinação da média. Algumas medidas não são influencia-
das por valores extremos e são úteis então para a complementação da análise. Uma das principais
que tem essa característica é a mediana.
A mediana é o valor que divide o rol em duas partes iguais. O rol é definido como a sequên-
cia ordenada de dados. Por exemplo, para o seguinte conjunto de dados (2, 3, 7, 7, 9), a mediana é
o número 7, que divide o rol em duas partes iguais.
A posição da mediana será definida por PMed = n + 1 . No exemplo apresentado, a posição
5+1 2
da mediana será PMed = = 6 = 3, portanto a mediana será o terceiro elemento do rol.
2 3
O valor da mediana será o do elemento que ocupa a terceira posição, nesse caso, Med = 7. Quando o
número de dados é muito grande, convém definir a posição da mediana antes de sua determinação.
No caso de “n” ser par, o procedimento é semelhante: define-se a posição da mediana e de-
pois calcula-se a média aritmética dos dois números imediatamente inferior e superior do valor
da posição da mediana. No exemplo da empresa ABC, em que n = 40, teremos PMed = 40 + 1 =
41 2
= 20,5. A mediana será, então, a média entre os valores que ocupam a vigésima e a vigésima
2
primeira posições da variável em consideração.
No nosso exemplo, após a organização dos valores em ordem crescente, a idade mediana
será Med = 33, porque X20 = X21 = 33. O salário mediano será Med = R$ 1.318,50, porque
X20 = 1.307,00 e X21 = 1.330,00.

3.2.3.1 Mediana para dados agrupados


Uma forma aproximada de determinação da mediana para dados agrupados consiste em
localizar inicialmente a classe que a contém, com o auxílio da distribuição de frequências acumu-
lada. Em seguida, deve-se tomar o ponto médio da classe mediana como o valor da mediana, pois
ele será um valor aproximado do verdadeiro valor dela.
Observe na tabela a seguir que o vigésimo e o vigésimo primeiro valores estão na segunda
classe, que contém do décimo segundo ao vigésimo oitavo elementos. Podemos, por simplicidade,
determinar o valor da mediana como aproximadamente R$ 1.500,00, o valor do ponto médio da
classe mediana.
Essa aproximação para esse caso foi bastante razoável, como podemos observar pela com-
paração do valor obtido nesse cálculo e o valor real determinado pelos dados do rol. Quando a
posição da mediana estiver muito próxima de algum dos limites da classe, uma interpolação pode
ser realizada, mas a sua determinação está fora do escopo deste livro.
Medidas estatísticas de posição 41

Tabela 3 – Mediana para dados agrupados de salário

Salário (X) Freq. Ponto médio Freq. acumulada


X < 1.000 11 500 11

1.000 ≤ X < 2.000 17 1.500 28

2.000 ≤ X < 3.000 6 2.500 34

3.000 ≤ X < 4.000 4 3.500 38

X ≥ 4.000 2 4.500 40

Total 40
Fonte: Elaborada pelo autor.

3.2.4 A moda
A moda é o valor que ocorre com maior frequência. Para o conjunto de dados (2, 3, 3, 3, 4),
a moda será o valor 3. Quando um conjunto tem uma só moda, ele é chamado de unimodal.
Se tiver duas é bimodal; três modas, trimodal; e polimodal se tiver quatro ou mais. Se o conjunto
não tiver nenhuma moda, será chamado de amodal.
O gráfico a seguir apresenta os aspectos de curvas que representam conjuntos unimodal,
bimodal e trimodal.
Figura 1 – Gráfico das curvas dos conjuntos modais

Unimodal Bimodal Trimodal

Fonte: Elaborada pelo autor.

3.2.5 Separatrizes
As separatrizes são medidas que dividem um rol em duas partes proporcionais a certos va-
lores. A medida que separa os dados em duas partes iguais, ou em 50% e 50%, é a mediana, como
vimos a pouco.
Uma série de três medidas pode separar o rol em quatro partes iguais. Elas são chamadas
de quartis. O primeiro quartil (Q1) separa o rol em 25% e 75%, o segundo quartil (Q2) é a própria
mediana, e o terceiro quartil (Q3) divide o rol em 75% e 25%.
42 Estatística aplicada às ciências sociais

Da mesma forma que a mediana, para encontrar os quartis devemos inicialmente calcular
a sua posição, para depois determinar o seu valor. A posição do quartil de ordem i, com i = 1... 3 é
dada por PQi = i(n + 1) .
4
No nosso exemplo, se desejamos verificar o valor dos quartis para os salários, teremos
como posição do primeiro quartil PQ1 = 1( 40+ 1) = 10,25, e como posição do terceiro quartil
3( 40+ 1) 4
PQ3 = = 30,75, lembrando que o segundo quartil é a própria mediana. Então, organi-
4
zando os dados em um rol crescente, teremos como valor do quartil 1 a média aritmética entre o
10º elemento do rol e o 11º, portanto Q1 = R$ 987,50, uma vez que o décimo salário é de R$ 975,00
e o décimo primeiro de R$ 1.000,00. O terceiro quartil será a média aritmética entre o 30º e o 31º
elementos, resultando em Q3 = R$ 2.584,50, porque o trigésimo elemento é R$ 2.372,00 e o trigé-
simo primeiro, R$ 2.797,00. Naturalmente, esses são valores aproximados, mas podemos verificar
que são aproximações bastante razoáveis.
Podemos também definir um conjunto de nove medidas que separam o rol em 10 partes,
chamadas de decis, e um conjunto de 99 medidas que separam o rol em 100 partes, chamadas
de percentis. Basta, para isso, determinar as posições de cada decil pela expressão i (n+ 1) e de
10
cada percentil por i (n+ 1) . É fácil verificar que o vigésimo quinto percentil, por exemplo, é o
100
primeiro quartil.
Com base nas separatrizes, é possível construir duas representações que fazem parte tam-
bém da chamada análise exploratória de dados, que são: o esquema de cinco números e o diagrama
de caixa ou box-plot.

3.2.6 Gráficos que utilizam medidas


Os dois gráficos a seguir, o esquema de cinco números e o box-plot, utilizam medidas esta-
tísticas para fazer sumarizações.
• Esquema de cinco números: consiste em apresentar os valores extremos (Xmin e Xmax);
os quartis (Q1 e Q3), que representam o primeiro quartil, Q1, e o terceiro quartil, Q3; e a
mediana, conforme figura a seguir:
Figura 2 – Esquema de cinco números

Med

Q1 Q3
Xmin Xmáx

Fonte: Elaborada pelo autor.

• Box-plot: constitui-se de uma caixa ou um retângulo cujo valor superior é o terceiro quar-
til e o valor inferior é o primeiro quartil. Um traço no meio da caixa representa a mediana
e os pontos extremos são mostrados fora da caixa. Define-se como outlier valores que
estejam fora do intervalo [Q1 – 1,5 (Q3 – Q1); Q3 + 1,5 (Q3 – Q1)].
Medidas estatísticas de posição 43

Figura 3 – Diagrama de caixa ou box-plot


Box-plot
Outlier
(fora da distância do Q3 + 1,5 vezes Q3 menos Q1)

* Observação máxima
(para uma distância de 1,5 vezes Q3 menos Q2)

Q3 – Terceiro quartil

Q2 – Segundo quartil (Mediana)

Q1 – Primeiro quartil

Observação mínima
(para uma distância de 1,5 vezes Q3 menos Q1)
Fonte: Elaborada pelo autor.

Este capítulo apresentou as principais medidas de posição e os gráficos relacionados a


elas. Esses procedimentos são úteis para que o analista possa compreender melhor o compor-
tamento dos dados que julga representar algum fenômeno sociológico que possa ser descrito
numericamente.

Atividades
Os dados a seguir referem-se ao número de roubos realizados no estado de Santa Catarina
no ano de 2017.

Número de roubos no estado de Santa Catarina – 2017

Região Município Número Taxa População do município


Grande Florianópolis Florianópolis 2.769 569,94 485.838

São José 1.911 797,20 239.718

Palhoça 721 437,20 164.926

Outros Municípios 367 132,60 276.780

Total 6.608 566,10 1.167.262

Região sul Tubarão 215 205,83 104.457

Criciúma 399 188,77 211.369

Outros Municípios 1.068 157,05 679.775

Total 1.682 168,90 995.601

Região norte Joinville 1.980 343,11 577.077

Jaraguá do Sul 105 61,46 170.835

Outros Municípios 225 36,25 619.498

Total 2.310 168,90 1.367.410

(Continua)
44 Estatística aplicada às ciências sociais

Número de roubos no estado de Santa Catarina – 2017

Região Município Número Taxa População do município


Região Vale do Itajaí Blumenau 569 163,27 348.513

Itajaí 954 448,70 212.615

Outros Municípios 2.362 197,10 1.198.453

Total 3.885 220,80 1.759.581

Região do Planalto Lages 275 173,49 158.508

Outros Municípios 206 78,29 262.905

Total 481 114,10 421.413

Região oeste Chapecó 524 245,69 213.279

Outros Municípios 833 77,37 1.076.613

Total 1.357 105,20 1.289.892

Total do estado 16.503 235,72 7.001.159

Fonte: Santa Catarina, 2018.

1. Por que as médias de cada região não são iguais à sua taxa total? Justifique.

2. Faça um esquema de cinco números dos dados apresentados, relativo ao número de roubos
para 10.000 habitantes nos municípios catarinenses.

3. Construa um box-plot para os dados de roubos, verificando a existência de outliers.


4
Medidas estatísticas de dispersão

Garfield explica por que a soma dos desvios em


relação à média aritmética é sempre igual a zero:
“Se eu chutar o Odie para lá... e depois para lá
– no sentido contrário –... é como se eu não tivesse chutado”.

Jim Davis (1945 -)1

As medidas de dispersão são úteis para que se possa verificar a homogeneidade ou hete-
rogeneidade das medidas de um grupo. Grupos mais homogêneos têm medidas de variabilidade
menores do que os mais heterogêneos, enquanto os absolutamente homogêneos têm medidas de
variabilidade iguais a zero.
Estes dois aspectos – variabilidade zero implica em medida de dispersão igual a zero, e me-
nor variabilidade implica em medida de dispersão menor – são a base da construção das medidas
de dispersão, como veremos a seguir.
O estudo da variabilidade é, com certeza, um dos aspectos mais importantes de todo o corpo
teórico da estatística, seja na compreensão de um fenômeno com base na análise exploratória de
dados ou em estudos inferenciais.
Na comparação entre dois conjuntos de dados, podemos ter situações em que, apesar de as
medidas de tendência central serem muito próximas, elas podem representar comportamentos
muito diversos, devido à sua variabilidade ou dispersão. Para ilustrar o que estamos dizendo, observe
os três conjuntos a seguir, resultado de uma simulação estritamente numérica.
Sejam os conjuntos A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}, observe que, se procurarmos
analisar o fenômeno que produziu esses números por meio de suas medidas de tendência central,
obteríamos como resultado que os três conjuntos têm a mesma média, igual a 2; a mesma
mediana, também igual a 2; e que, ainda, o número 2 é moda para os três conjuntos. Dessa forma,
poderíamos ser levados a crer que eles representam exatamente a mesma situação, todavia isso
não ocorre. A simples observação dos dados nos mostra que os conjuntos representam situações
muito diferentes.
O conjunto A representa uma situação de absoluta homogeneidade, não havendo qualquer
variação entre os valores medidos em três diferentes indivíduos; o conjunto B apresenta pequenas
variações; e o conjunto C tem uma variação ainda maior. Sendo assim, é necessária a construção
de medidas que possam auxiliar o analista a compreender melhor o comportamento dos dados e,
assim, entender melhor o fenômeno que os produziu.

1 Cartunista americano.
46 Estatística aplicada às ciências sociais

A forma mais comum de se verificar o quanto os dados variam é observar o quanto eles se
dispersam em torno de algum valor central, comumente a média. Mas é possível também utilizar
os valores extremos.
As principais medidas de variabilidade são: (i) a amplitude total; (ii) a variância; (iii) o
desvio-padrão; e (iv) o coeficiente de variação.

4.1 A amplitude total


A amplitude total de um conjunto de dados é determinada pela diferença entre o maior valor
da amostra e seu menor valor. Se Xmax é o maior valor e Xmin é o menor valor, podemos definir a
amplitude total (At) como:

At = Xmax – Xmin

É possível determinar para o conjunto de funcionários da empresa ABC a dispersão das


idades e dos salários da seguinte maneira:
Quadro 1 – Relação dos funcionários da empresa ABC de acordo com sexo, idade e salário

Número de ordem Nome Idade Salário

1 A. L. Ferraz 49 1.714,00

2 R. Abreu 48 1.701,00

3 R. S. Reis 64 1.589,00

4 N. Farias 37 1.418,00

5 J. L. Jansen 42 1.000,00

6 U. S. Machado 40 3.732,00

7 F. Nogueira 21 1.330,00

8 M. Pinheiro 33 1.307,00

9 M. A. da Silva 39 1.282,00

10 P. A. B. Costa 42 1.260,00

11 H. F. Minho 39 975,00

12 N. M. de Lima 32 1.256,00

13 C. F. Loureiro 22 1.185,00

14 M. E. M. Ferreira 21 3.535,00

15 J. A. Isaias 37 2.956,00

16 J. Martins 24 1.179,00

17 A. P. Ribeiro 28 966,00

18 L. C. Batista 32 3.204,00

19 A. F. dos Santos 31 881,00

20 C. A. Brandão 38 3.080,00

21 D. J. Feltrin 23 2.872,00
(Continua)
Medidas estatísticas de dispersão 47

Número de ordem Nome Idade Salário

22 L. S. Prestes 22 826,00

23 J. L. Campos 46 1.010,00

24 S. I. Magalhães 34 708,00

25 P. R. Gonçalves 47 2.960,00

26 M. I. Machado 42 2.797,00

27 M. Paraná 32 1.001,00

28 U. V. Guimarães 29 2.315,00

29 E. M. Moreira 41 5.572,00

30 A. P. de Andrade 30 2.372,00

31 L. R. de Souza 51 4.829,00

32 R. T. Moraes 23 1.826,00

33 J. Pilloto 20 540,00

34 F. C. Lopes 27 489,00

35 C. A. Meier 33 479,00

36 H. O. Silveira 22 1.904,00

37 K. D. Almeida 41 659,00

38 M. J. D. Colares 34 1.827,00

39 R. F. L. Silvério 24 472,00

40 M. N. Messias 20 640,00
Fonte: Elaborado pelo autor.

O funcionário mais velho da empresa é o senhor R. S. Reis, que tem 64 anos, e os mais novos
são os jovens J. Piloto e M. N. Messias, com 20 anos. Assim, Xmax = 64 e Xmin = 20. A amplitude
total será:

At = Xmax – Xmin = 64 – 20 = 44 anos

A amplitude total dos salários será a diferença entre Xmax = 5.572 e Xmin = 472, corres-
pondente aos salários dos funcionários E. M. Moreira e R. F. L. Silvério.

At = Xmax – Xmin = 5.572 – 472 = 5.100 ou R$ 5.100,00

4.2 A variância
Se utilizarmos os desvios de um conjunto de dados em relação a um valor central desse con-
junto, é razoável pensarmos em determinar a distância de cada dado quanto ao valor médio – o que
pode ser feito por meio de (X – X) – e depois somarmos essas distâncias.
A ideia de fazer essa soma é interessante, porque permite que todos os dados sejam
considerados ou, de outra forma, que a distância de todos os dados da média componha a medida
de dispersão, mas esbarra em uma restrição importante, que é uma das características da média:
a soma dos desvios em relação à média de um conjunto de dados é sempre igual a zero.
48 Estatística aplicada às ciências sociais

Vamos verificar essa propriedade utilizando novamente três conjuntos simples de dados:
A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}. A média de cada um desses conjuntos é igual a 2.
Assim, para o conjunto A, a soma dos desvios em relação à média produzirá:

(X – X ) = {(2 – 2) + (2 – 2) + (2 – 2)} = 0 + 0 + 0 = 0

Para o conjunto B:

(X – X) = {(1 – 2) + (2 – 2) + (3 – 2)} = (–1) + 0 + 1 = 0

E para o conjunto C:

(X – X) = {(0 – 2) + (2 – 2) + (4 – 2)} = (–2) + 0 + 2 = 0

Essa propriedade vale para qualquer conjunto de dados. Então, para contornarmos esse pro-
blema, mantendo a ideia de somar desvios em relação à média, teremos de encontrar uma forma
de que essa soma seja sempre positiva. Duas alternativas apresentam-se: (i) a soma dos desvios em
módulo; e (ii) a soma dos quadrados dos desvios.
Se tomarmos a média da soma dos desvios em módulo (de seus valores absolutos), defini-
remos uma medida de dispersão conhecida como desvio médio, que, embora resolva o problema
apresentado, não é muito usual. De qualquer forma, sua expressão pode ser dada por:

Desvio médio = |x – X |
n

Essa medida é a média da somatória dos desvios em relação à média aritmética, isto
é, tomamos as distâncias de cada ponto até a média. Consideramos as distâncias sem levar em
consideração os sinais, por isso usamos o módulo. Somamos todos os desvios em valor absoluto
(em módulo) e depois dividimos por “n”, o que resulta na média das distâncias ou desvios em
relação à média aritmética, por isso essa medida é denominada desvio médio.
Os desvios médios dos conjuntos citados serão iguais a 0 para o conjunto A, 2 para o
conjunto B e 4 para o C. Esses resultados obedecem aos critérios estabelecidos para uma medida
de dispersão, ou seja, conjuntos sem variabilidade (todos os valores são iguais) têm medida de
dispersão igual a zero, como é o caso do conjunto A, e conjuntos mais heterogêneos têm maior
medida de variabilidade. O conjunto C tem medida de variabilidade maior do que B, que, por sua
vez, tem medida maior do que A.
A outra maneira de contornar o problema da soma dos desvios em relação à média ser igual
a zero é elevar o valor dos desvios ou distâncias ao quadrado. Dessa forma, podemos encontrar a
variância, definida como a média da soma dos quadrados dos desvios quanto à média. Aqui vale
a pena destacar uma diferença quando se tratam de dados provenientes de uma população ou de
uma amostra: a média dos dados da população é denotada por μ, enquanto a média dos dados
de uma amostra é X.
Assim, a variância mede a variabilidade média dos quadrados dos desvios dos valores em
torno da média e pode ser representada por VAR(X) ou σ2.
Medidas estatísticas de dispersão 49

Vamos utilizar o quadrado porque, como vimos, a média tem sempre a propriedade de a
soma dos desvios em torno dela ser igual a zero, ou seja, Σ(X – μ) = 0. Dessa forma, a variância
populacional pode ser definida como:

2
= VAR (X) = (X – )2
N

Na expressão anterior, N é o tamanho da população ou o número de valores populacionais


considerados. Quando tratamos de amostra, em vez de população, como no caso acima, N é subs-
tituído por (n – 1), sendo “n” o tamanho da amostra. A justificativa de utilizarmos n – 1, e não N,
nesse caso será apresentada no capítulo referente à estimação, quando tratarmos de distribuições
amostrais. Aqui, substituímos σ2 por S2 e, assim, para o caso de amostra, teremos:

(X – X )2
S2 = VAR (X) =
n–1

Uma forma alternativa de determinar o valor da variância, derivada da expressão anterior,


é dada por:

S2 = VAR (X) = X2 – nX 2
n–1

Utilizando essa fórmula, podemos calcular a variância das idades por meio do procedimento
a seguir, em que identificamos a média e a subtraímos dos valores de X:
Tabela 1 – Variância das idades dos funcionários da empresa ABC

Número de ordem Idade (X) X– X (X – X )2 X2

1 49 15 225 2.401

2 48 14 196 2.304

3 64 30 900 4.096

4 37 3 9 1.369

5 42 8 64 1.764

6 40 6 36 1.600

7 21 -13 169 441

8 33 -1 1 1.089

9 39 5 25 1.521

10 42 8 64 1.764

11 39 5 25 1.521

12 32 -2 4 1.024

13 22 -12 144 484

14 21 -13 169 441

15 37 3 9 1.369
(Continua)
50 Estatística aplicada às ciências sociais

Número de ordem Idade (X) X– X (X – X )2 X2

16 24 -10 100 576

17 28 -6 36 784

18 32 -2 4 1.024

19 31 -3 9 961

20 38 4 16 1.444

21 23 -11 121 529

22 22 -12 144 484

23 46 12 144 2.116

24 34 0 0 1.156

25 47 13 169 2.209

26 42 8 64 1.764

27 32 -2 4 1.024

28 29 -5 25 841

29 41 7 49 1.681

30 30 -4 16 900

31 51 17 289 2.601

32 23 -11 121 529

33 20 -14 196 400

34 27 -7 49 729

35 33 -1 1 1.089

36 22 -12 144 484

37 41 7 49 1.681

38 34 0 0 1.156

39 24 -10 100 576

40 20 -14 196 400

X 1.360 (X – X ) =
2
4.086 50.326

X= X 1.360 34 (X – X)2 4.086 104,7692


= S2 = VAR (X) = =
n 40 n–1 39

Fonte: Elaborada pelo autor.

Como vimos, uma forma simplificada de calcular a variância de um conjunto de dados


amostrais pode ser realizada por meio da expressão:

X2 – nX 2
S2 = VAR (X) =
n–1

Aplicando a fórmula para o exemplo apresentado, temos:


X2 – nX 2 50.326 – (40) (342)
S2 = VAR (X) = = = 104,7692
n–1 39
Medidas estatísticas de dispersão 51

4.2.1 Variância para dados agrupados


Essa variância pode ser determinada pela expressão:

(X – X)2f
S2 = VAR (X) =
n–1

Sendo que: f é a frequência relativa de cada classe, X é o ponto médio de cada classe e X é a
média aritmética dos dados.
Tomando como exemplo a distribuição de frequências das idades dos funcionários da
empresa ABC, temos:
Tabela 2 – Frequências das idades dos funcionários da empresa ABC

Idade f X Xf X– X (X – X)22 (X – X)2f

[20,30) 14 25 350 -10,25 105,0625 1.470,875

[30,40) 14 35 490 -0,25 0,0625 0,875

[40,50) 10 45 450 9,75 95,0625 950,625

[50,60) 1 55 55 19,75 390,0625 390,0625

[60,70) 1 65 65 29,75 885,0625 885,0625

Total 40 Xf = 1.410 (X – X ) f = 3.697,50

Xf 1.410 (X – X )2f 3.697,5


X= = = 35,25 S2 = = = 94,8077
n 40 n–1 39
Fonte: Elaborada pelo autor.

Nesse caso, é importante observar algumas suposições realizadas. O ponto médio da


primeira classe, por exemplo, representa as idades dos 14 funcionários que têm entre 20 e 30 anos,
não inclusos os de 30 anos. Estamos, portanto, considerando que todos os 14 funcionários têm 25
anos. Dessa forma, ganha-se em síntese e perdem-se detalhes – com isso, pode haver uma pequena
distorção nos valores da média e da variância. A variância para os dados brutos foi de 104,7692,
enquanto para os dados organizados em distribuição de frequências esse valor foi calculado em
94,80769. Houve essa distorção principalmente em razão do valor extremo da idade, mas, ainda
assim, os resultados foram bastante razoáveis. Nessa situação, a consideração em relação aos
outliers passa a ter um papel importante, o que não acontece para grandes amostras, nas quais tal
distorção praticamente desaparece.
Ocorre que, no geral, o cientista social só tem acesso a dados já agregados em classes e
raramente aos dados brutos, como nos casos das grandes pesquisas nacionais, como o Censo
e a Pesquisa Nacional de Amostras Domiciliares (PNAD). Nesses casos, as pequenas distor-
ções são inevitáveis.

4.3 Desvio-padrão
Como a unidade da variância (S2) é sempre ao quadrado, a forma de representar uma me-
dida de dispersão na mesma unidade dos dados é calculando a raiz quadrada da variância. Essa
medida é chamada de desvio-padrão, sendo uma das mais importantes da estatística.
52 Estatística aplicada às ciências sociais

A expressão do desvio-padrão é a raiz quadrada da variância, conforme se observa na


seguinte expressão:

X2 – n X 2
S = D.P. (X). =
n–1

No exemplo supracitado, o desvio-padrão para os dados brutos será igual a:


S = 104,7692 =10,2357
Já para os dados organizados em distribuição de frequências, o valor do desvio-padrão
sofrerá uma pequena distorção:
S = 94,8077 = 9,7369
A média tem um significado físico muito claro. Além de estar na mesma unidade das medidas,
ela representa o centro de gravidade dos dados, que pode se alterar com pequenas mudanças nos
valores extremos da série de dados. Já a interpretação física do desvio-padrão não é tão clara,
embora também esteja na mesma unidade dos dados.

4.4 Coeficiente de variação


Mesmo o desvio-padrão estando na mesma unidade dos dados, ele não consegue revelar
a dimensionalidade dessas informações. Um mesmo valor de desvio-padrão pode ser grande ou
pequeno, dependendo da dimensionalidade. Vamos ilustrar esse fato comparando a variabilidade
entre três conjuntos de dados e explorar um pouco a intuição.
Suponha que desejamos verificar qual entre três conjuntos de dados é o mais homogêneo e
qual é o mais heterogêneo. Tomaremos os conjuntos A = {1, 2, 3}, B = {11, 12, 13} e C = {111, 112,
113} e tentaremos identificar a heterogeneidade de cada um deles de maneira intuitiva.
Imagine que essas sejam medidas de distância entre dois pontos, que serão repetidas três
vezes para cada um dos aparelhos de medir distância A, B e C. Então, o aparelho A faz uma medida
que tem como resultado o valor 1 m, repete-se a medida e o valor observado agora é 2 m e, final-
mente, repete-se pela terceira vez a medida e o resultado é 3 m. A pergunta é: será que o aparelho
está bem calibrado? A resposta natural é: não. O aparelho erra muito, alterando os resultados a
cada vez que faz a medida.
Repetindo a experiência com o aparelho B, observamos que ele também erra. Em três repe-
tições, o aparelho aponta para 11, 12 e 13 m. Mas o erro é menor do que o cometido anteriormente.
Por fim, fazemos o mesmo com o aparelho C e verificamos que o erro agora é bem pequeno em
relação aos outros dois aparelhos, mas ainda ocorre. Isso indica que a variabilidade do conjunto A
é maior do que a do conjunto B, que, por sua vez, é maior do que a do conjunto C. Logo, o conjunto
A é mais heterogêneo do que o conjunto B, que é mais heterogêneo do que o conjunto C.
Vamos verificar se o desvio-padrão é capaz de identificar essas diferenças. Usaremos a expres-
são do desvio-padrão amostral, que é calculado como a raiz quadrada da variância amostral, ou seja,
o denominador será igual a n – 1. Observando que n = 3 para cada uma das amostras, temos:
Medidas estatísticas de dispersão 53

(X – X)2
S=
n–1
Calculando o desvio-padrão da amostra A, que tem média igual a 2, teremos:
(1 – 2)2 + (2 – 2)2 + (3 – 2)2 12 + 02 12 2
SA = = = = 1 =1
2 2 2
Repetindo o procedimento para a amostra B, que tem média igual a 12, obtemos:

(11 – 12)2 + (12 – 12)2 + (13 – 12)2


SA = =1
2
O mesmo para a amostra C, que tem média igual a 112:
(111 – 112)2 + (112 – 112)2 + (113 – 112)2
SA = =1
2
Pudemos perceber que, embora as amostras tenham homogeneidades diferentes, o valor
do desvio-padrão de cada uma delas é igual a 1. Ou seja, se as amostras têm médias diferentes, o
desvio-padrão não é adequado para realizar tal comparação, porque o seu cálculo não é sensível
à dimensionalidade dos dados, que diz respeito aos valores de cada um deles. O número 1 tem
dimensionalidade zero, que corresponde à unidade (100); o número 10 tem dimensionalidade um,
que corresponde à dezena (101); e o 100 tem dimensionalidade dois, que corresponde à centena (102).
Precisamos, então, encontrar uma forma de padronizar os valores dos desvios-padrões, cal-
culados de modo a considerar a dimensionalidade dos dados. Podemos fazer isso igualando a
média a 100, a fim de produzir valores percentuais, e calculando a medida correspondente de
dispersão. Isso pode ser feito por meio de uma regra de três simples, e a nova medida será definida
como coeficiente de variação (C.V.):

X – 100
S – C.V.

Dessa forma, o coeficiente de variação será dado pela seguinte fórmula:

C.V. = S . 100%
X

Observe que esse coeficiente é uma medida cuja unidade é o percentual. Isso significa que
ele passa também a ter uma interpretação física.
Vamos determinar o valor dos coeficientes de variação para cada um dos conjuntos de
dados anteriores:

C.VA = S x 100 = (1/2). 100 = 50%


XA

S
C.VB = x 100 = (1/12). 100 = 8,33%
XB

S
C.Vc = x 100 = (1/112). 100 = 0,9%
Xc
54 Estatística aplicada às ciências sociais

Esses resultados confirmam a nossa intuição de que o conjunto A é o mais homogêneo e o


conjunto C é o mais heterogêneo.
Em resumo, o desvio-padrão tem várias utilidades em estatística, e uma delas é comparar
a variabilidade entre dois conjuntos que têm a mesma média. Ele é a raiz quadrada da variância.
Como não tem um significado físico mais bem definido, o seu valor será grande ou pequeno, de-
pendendo da dimensionalidade dos dados.
Um mesmo valor para o desvio-padrão pode ser mínimo ou imenso, dependendo da di-
mensão dos dados de que estamos tratando. Existe, no entanto, uma possibilidade de compara-
ção da variabilidade entre dois conjuntos, padronizando o valor do desvio-padrão pelo valor da
média do conjunto de dados. Essa nova medida é chamada de coeficiente de variação.
Essas são as principais medidas de dispersão utilizadas na comparação de dados prove-
nientes de fenômenos sociais, desde que eles possam ser quantificados.

Atividades
1. Os dados a seguir referem-se ao peso, em gramas, de 44 bebês recém-nascidos, no período
de 24 horas, em um hospital de Brisbane, na Austrália. Determine a média do peso dos bebês
e verifique se eles podem ser considerados uma amostra homogênea.

3.837 3.380 3.430 3.428

3.334 3.294 3.480 4.162

3.554 2.576 3.116 3.630

3.838 3.208 3.428 3.406

3.625 3.521 3.783 3.402

2.208 3.746 3.345 3.500

1.745 3.523 3.034 3.736

2.846 2.902 2.184 3.370

3.166 2.635 3.300 3.692

3.520 3.920 2.383 2.121

3.150 3.866 3.542 3.278

2. Explique a relação entre média, desvio-padrão e coeficiente de variação.

3. Um outlier pode influenciar fortemente uma medida de variação como influencia a média
aritmética. Que procedimento deve ser utilizado em uma análise de dados sociológicos que
apresentam mais de um outlier?
5
Técnicas de amostragem

Não ponha fé no que as estatísticas dizem até que


você tenha considerado cuidadosamente o que elas não dizem.

William W. Watt (1860-1947)1

5.1 Sociologia e amostragem


Os levantamentos estatísticos em ciências humanas são realizados para buscarmos evidências
sobre certo fenômeno social. Além de caracterizar um grupo, pode interessar ao pesquisador fazer
interpretações sociológicas das respostas obtidas em um inquérito ou sondagem, relacionando o
que foi respondido com as características do grupo social pesquisado.
De outra forma, podemos afirmar que, apesar de as respostas obtidas em uma pesquisa
refletirem atitudes, valores e opiniões dos pesquisados, elas poderão ser insuficientes do ponto de
vista sociológico. A interpretação dos dados obtidos exige que nos preocupemos em fazer associa-
ções entre as respostas dadas e o grupo que as forneceu.
Os levantamentos sociológicos podem ser realizados por meio da pesquisa de todo o universo
ou população de interesse. Nesse caso, estamos nos referindo a levantamentos censitários ou censos.
Se o procedimento é realizado com base em uma parte do universo, chamado de amostra,
o levantamento é conhecido como amostragem. A amostra resultante de tal levantamento deve
representar toda a população para que possamos fazer afirmações a respeito dela. Para essa re-
presentatividade, uma agenda metodológica deve ser cumprida: em primeiro lugar, por meio da
construção de um plano amostral em que possamos determinar o tamanho da amostra e o tipo
de amostragem a ser realizado, e, depois, por meio de um levantamento de campo realizado com
cuidado e critério.
Proteger o plano amostral de possíveis vícios é um procedimento necessário para a realiza-
ção de uma boa pesquisa, o qual é chamado de controle interno. Conferir ao trabalho de campo
rigor metodológico determina-se controle externo.

5.1.1 Definições preliminares


Um levantamento amostral, ou por meio de amostragem, é uma pesquisa realizada em parte
de uma população, com o objetivo de se calcular medidas na amostra que sirvam de estimativas
dessas medidas na população como um todo. A proporção de mulheres na amostra, por exemplo,
serve como uma estimativa da proporção de mulheres na população. Além da proporção, outras

1 Geólogo britânico.
56 Estatística aplicada às ciências sociais

medidas muito comuns realizadas na amostra como estimadores de parâmetros populacionais são
a média e o desvio-padrão.
Mais formalmente podemos conceituar população e amostra conforme apresentado nos pró-
ximos tópicos.

5.2 População
Definimos população como um conjunto de pessoas, animais, objetos ou coisas que têm
uma característica em comum e que sejam objeto de investigação. Alguns exemplos são:
• População de pessoas que habitam uma cidade.
• População de eleitores de uma cidade. Nesse caso, são consideradas somente as pessoas
cadastradas no Tribunal Regional Eleitoral (TRE) das zonas eleitorais do município em
questão. Não importa se a pessoa de fato reside na cidade ou não. Muitos eleitores das
capitais moram na Região Metropolitana.
• População de empregados de uma empresa, ou de um setor dela.
• População de cachorros de rua de uma cidade.
• População de refrigeradores produzidos por uma indústria no ano Y.
• População das carteiras de uma escola.
As medidas observadas em uma população são chamadas de parâmetros e, em geral, são
apresentadas em caracteres maiúsculos ou por letras gregas.

Tamanho da população: N.
Média da população: (letra grega mi).
Desvio-padrão da população: σ (letra grega sigma).

Um levantamento realizado com todos os elementos de uma população é chamado de censo.


Os primeiros censos de que se têm notícia foram realizados na China; mais tarde, ficaram famosos
os censos do Império Romano, cujo objetivo era conhecer o tamanho de seu domínio. Um desses
censos foi realizado no ano do nascimento de Jesus Cristo, e os cristãos acreditam que foi utilizado
justamente para identificar a figura de uma criança que mais tarde se tornaria o filho de Deus.
Os censos populacionais são realizados em todo o mundo, de dez em dez anos, por reco-
mendação da Organização das Nações Unidas (ONU). No Brasil, o primeiro censo feito segundo
padrões internacionais foi organizado pelo estatístico italiano Giorgio Mortara, em 1940, que tam-
bém foi o fundador do Instituto Brasileiro de Geografia e Estatística (IBGE). Atualmente, o IBGE
é considerado um dos maiores e mais competentes institutos do mundo, trabalhando com técnicas
estatísticas complexas e sofisticadas2.

2 Os censos brasileiros mais recentes podem ser consultados no site do IBGE, disponível em: https://www.ibge.gov.br/
nossos-sites.html. Acesso em: 26 nov. 2018.
Técnicas de amostragem 57

5.3 Amostra
Define-se Amostra como um subconjunto de uma população com o objetivo de representá-la.
As medidas realizadas em uma amostra são conhecidas como estatísticas. Como elas pretendem esti-
mar o valor da mesma medida na população, os seus valores calculados são chamados de estimativa.
A expressão utilizada para calcular a medida é o que se conhece como estimador.
Por exemplo, a proporção de mulheres em uma população é um parâmetro. A proporção
de mulheres na amostra é um estimador desse parâmetro. O seu valor, por exemplo 52%, é uma
estimativa do valor do parâmetro. Amostras diferentes podem resultar em valores diferentes para
os estimadores. Espera-se, no entanto, que, apesar de possíveis diferenças, os valores não estejam
muito distantes do verdadeiro valor do parâmetro. Na prática, somente uma amostra é realizada.
A média da amostra é um estimador da média da população, mas ele não é o único possível.
A mediana da amostra, por exemplo, também pode ser um estimador, mas ocorre que a média da
amostra é um estimador da média da população que tem certas propriedades que a tornam um
estimador melhor do que a mediana amostral.
As medidas realizadas na amostra são representadas por letras minúsculas ou em caracteres
especiais. Quando são um estimador, também podem ser representadas pela mesma letra do pa-
râmetro que desejamos estimar, com acréscimo de um acento circunflexo, chamado de “chapéu”.

Tamanho da amostra: n.
Média da amostra: X, ^ (mi chapéu).
^
Desvio-padrão da amostra: S, s, (sigma chapéu).

Exemplo
Em uma eleição para a prefeitura de uma cidade, há dois candidatos:
o candidato A e o candidato B. O primeiro parece ter a preferência dos
eleitores, mas, durante a campanha, o segundo pode eventualmente
melhorar seu desempenho. Um instituto é contratado por um jornal
da cidade para realizar uma pesquisa de opinião pública a fim de
avaliar a aceitação dos candidatos e verificar quais são os principais
anseios da população.
A pesquisa deve ser conduzida por meio de um processo de amostragem,
uma vez que, se fosse feita com toda a população, equivaleria a realizar a
própria eleição. O levantamento abrangendo toda a população é conhecido
como censo, seja o feito pelo IBGE para a contagem e caracterização da
população de uma cidade, de um estado ou do país, seja o realizado com
uma população específica de pessoas ou mesmo de objetos. A palavra
censo diz respeito, portanto, a qualquer levantamento que abranja uma
coleção completa de pessoas, animais ou objetos; o censo agropecuário,
58 Estatística aplicada às ciências sociais

por exemplo, estima a produção agrícola e pecuária de uma região ou de


um país.
Para realizar tal pesquisa, o instituto elabora um plano amostral e um
questionário para o levantamento. Faz parte do planejamento a determi-
nação do tipo de sorteio que será realizado, o tamanho da amostra e a
estratégia de campo a ser seguida.
A determinação do tamanho da amostra depende fundamentalmente
de três fatores: a precisão ou margem de erro, o nível de confiança e
a heterogeneidade da população. Os dois primeiros são determinados
pelo pesquisador e uma medida de heterogeneidade deverá ser estimada.
É usual em pesquisas eleitorais trabalhar-se com uma margem de erro de
mais ou menos 3% e com um nível de confiança de 95%, que correspon-
de a um erro amostral, ou erro estatístico, de 5%.
Margem de erro e erro estatístico são duas medidas de natureza distinta.
Nesse caso, a margem de erro é uma percentagem, e o nível de confiança
e o erro estatístico são medidas de incerteza, de probabilidade.
Assim, se um candidato tiver 60% das intenções de voto na pesquisa
amostral, nas condições impostas por ela, podemos dizer que temos
95% de confiança de que na eleição, que abrange todos os eleitores, a sua
proporção de votos estará dentro de um intervalo de 60% mais ou menos
3%, ou seja, o candidato terá entre 57% e 63% das intenções de voto
caso a eleição tenha ocorrido no mesmo dia em que a pesquisa eleitoral
foi realizada. Embora a expressão margem de erro seja de uso comum,
academicamente ela corresponde ao chamado desvio, mas em ambos
os casos equivale a um dado nível de imprecisão. Dessa forma, quanto
menor o desvio estabelecido, maior será a imprecisão.
O nível de confiança diz respeito à probabilidade de que a amostra
sorteada seja representativa da população, considerando que
nenhum processo de amostragem garante com 100% de confiança
essa representatividade. Um nível de confiança de 95% implica em
uma probabilidade de apenas 5% de que a amostra não represente a
população. O nível de confiança e o erro de amostragem são, portanto,
probabilidades complementares, ou seja, a sua soma é sempre igual a
100%. Se a pesquisa for realizada com um erro amostral de 1%, o nível
de confiança será então de 99%.
Partindo do resultado do levantamento amostral, uma declaração será
feita com base no desvio (ou margem de erro) e no nível de confiança
(complementar ao erro estatístico). Essa declaração pode ser escrita
Técnicas de amostragem 59

em termos matemáticos, por meio de um intervalo de confiança. Para


uma intenção de votos de 60% com margem de erro de 3% e nível de
confiança de 95%, podemos escrever:
Pr(57% < P < 63%) = 0,95
Pr(60% – 3% < P < 60% + 3%) = 1 – 0,05
De maneira genérica, o intervalo de confiança para uma proporção é
dado pela seguinte expressão:
Pr (p – d < P < p + d) = 1 –
Nesse caso, Pr significa probabilidade, P (maiúsculo) é a proporção de
votos do candidato A na população, p (minúsculo) é a proporção de votos
do candidato na amostra, d é o desvio e α é o erro amostral. Portanto,
(1 – α)x100% é definido como o nível de confiança.
Rigorosamente, segundo a teoria estatística clássica, uma vez que P é
um parâmetro da população, portanto um valor exato, não se pode falar
em probabilidade de um parâmetro estar dentro de um intervalo. Além
disso, a interpretação de um intervalo de confiança é a de que, se fossem
retiradas 100 amostras, em 95 delas o parâmetro deveria pertencer ao
intervalo. Mas essa simplificação não atrapalha o raciocínio realizado.

5.4 Tipos de amostragem


5.4.1 Quanto à repetição de elementos da amostra
Se estabelecermos que um mesmo elemento da população não pode participar da amostra
mais do que uma vez, dizemos que a amostragem é sem reposição. Caso contrário, isto é, se for
permitido que um elemento participe mais de uma vez na amostra, o processo será com reposição.
Na loteria federal, por exemplo, quando são sorteados seis números de 0 a 9 para formar
uma centena de milhar, o processo de amostragem é com reposição. Sorteia-se de um globo uma
bola que representará a unidade. Esse número é verificado e colocado novamente no globo para o
sorteio do número correspondente à dezena, e assim por diante, até o sorteio da bola da centena de
milhar. Na realidade, o sorteio é feito com seis globos, um para a unidade, outro para a dezena etc.,
o que equivale ao processo descrito acima.
No sorteio da Mega Sena, por outro lado, a amostragem é sem reposição, porque são sortea-
das seis bolas de um globo que tem um total de 60 bolas numeradas.
Em um processo sem reposição, a probabilidade de um número ser sorteado de uma po-
pulação de tamanho N é 1 . Em um processo com reposição, a probabilidade de n números
N 1
especiais participarem da amostra é , sendo CN,n a combinação de N elementos tomados n a n.
CN,n
60 Estatística aplicada às ciências sociais

Curiosidades
Se um vendedor de bilhetes da loteria federal tiver somente duas opções
de bilhetes para a venda, a cobra 333 333 ou o cachorro 234 320, qual
deles tem maior probabilidade de ser o bilhete vencedor? Qual deles
você compraria?
A tendência imediata de qualquer apostador seria dizer intuitivamente
que o segundo bilhete tem maior chance de ocorrer, porque é muito difícil
sortear o mesmo número seis vezes. No entanto, como em muitos outros
casos, a intuição da probabilidade é enganosa. A chance de ocorrer 3 ou
0 no sorteio da unidade é idêntica e igual a 1/10. Da mesma forma, a
chance de ocorrer 3 ou 2 no sorteio da dezena também é idêntica e igual
a 1/10. Os sorteios são com reposição e independentes. A chance final
dos dois bilhetes serem vencedores é idêntica e igual a (1/10)6, porque
é resultado da multiplicação da fração (1/10) por ela mesma seis vezes,
ou uma chance em 1 milhão. De fato, uma probabilidade bem pequena.
1
A probabilidade de se ganhar na Mega Sena é de , que é igual a 1
C60,6
em 50.063.860, porque C60,6 é o número de possibilidades de se combi-
nar 60 valores em grupos de seis, ou seja, uma chance em 50 milhões,
uma probabilidade bem menor do que a da loteria federal. E se alguém
jogar dois bilhetes na Mega Sena? A probabilidade então será de 2 em 50
milhões, ou uma chance em 25 milhões. Ainda assim será muito difícil
de ganhar. Então seria melhor jogar em sete números? Sem dúvida, mas
a probabilidade de acertar seis números é de uma chance em 7.151.980,
aproximadamente uma em 7 milhões, exatamente sete vezes maior do
que jogar somente em seis números. Por isso, se o bilhete de aposta com
seis números custa R$ 3,50, um com sete números custa R$ 24,50, preci-
samente sete vezes mais.

5.4.2 Quanto à representatividade


Para efeito de inferência, isto é, se o propósito é o de estimar valores de parâmetros da
população, somente amostras probabilísticas conseguem ser úteis. Ou seja, só é possível fazer
inferências para a população por meio de observações da amostra se os elementos forem escolhidos
mediante algum processo de sorteio.
Em um processo de amostragem probabilístico, pode-se calcular o valor da probabilidade de
um elemento da população participar da amostra.
Técnicas de amostragem 61

Amostragens não probabilísticas servem para se fazer sondagens sem propósitos infe-
renciais. Nesses casos, os procedimentos que envolvem comparações estatísticas que impliquem
em cálculos científicos não são válidos.

5.4.2.1 Processos de amostragem não probabilísticos


• Amostragem por cotas
O procedimento de amostragem por cotas consiste em buscar repetir na amostra a pro-
porção de elementos de cada estrato da população. O que diferencia a amostragem por
cotas da amostragem estratificada proporcional é que, no primeiro caso, os elementos da
amostra não são selecionados por meio de sorteio. Em ambos os casos, se a proporção de
mulheres, por exemplo, na população for de 60%, a percentagem de mulheres na amostra
deverá ser também de 60%.
Alguns institutos de pesquisa utilizam o levantamento por cotas com entrevistas na
rua, em que o pesquisador de campo escolhe as pessoas até que cada uma das cotas seja
completada. A escolha dos elementos da amostra pode ser influenciada pelo pesquisador
de campo, o que torna o levantamento frágil para que se possa fazer previsões para a
população da qual derivou a amostra. Pessoas andando rápido ou mais concentradas
acabam não sendo abordadas pelo agente de campo, apesar de poderem representar uma
parcela importante de opinião, dependendo do objeto do estudo. Pesquisas de mercado,
por exemplo, podem ter resultados completamente tendenciosos em razão da escolha
da amostra.
Se a divulgação do resultado de pesquisas eleitorais pudesse de fato influenciar a opinião
de eleitores indecisos, candidatos poderiam forçar esse resultado induzindo que colabora-
dores de sua campanha participassem várias vezes de uma pesquisa de rua. Não há um es-
tudo sistemático no Brasil sobre a influência das pesquisas na opção de voto dos eleitores.

• Amostragem de voluntários
Quando os próprios componentes da população se voluntariam para participar da pes-
quisa, o processo é caracterizado como amostragem de voluntários. Ele é muito comum
quando periódicos, como revistas ou jornais, querem saber a opinião de seus leitores so-
bre o conteúdo da publicação e também ocorre com frequência quando se deseja conhe-
cer o que pensam usuários de certos serviços, como restaurantes.
Muitas revistas anexam encartes a determinados números, para que o leitor opine sobre a
qualidade da publicação ou de certas seções específicas. Ocorre, em geral, que a maioria
das pessoas que responde ao questionário o faz porque não está satisfeita com a publica-
ção ou ao menos com parte dela. Ainda assim essa sondagem pode ser útil para os edito-
res da revista, porque terão uma ideia do que podem melhorar, mas não há como se fazer
estimativas acerca do que a maioria dos leitores pensa da publicação. O mesmo ocorre em
restaurantes ou em conferências, quando os comensais ou os participantes são instados a
responderem questionários.
62 Estatística aplicada às ciências sociais

• Amostragem intencional
Nesse tipo de amostragem, o pesquisador busca na população uma parte que lhe in-
teressa. Os participantes da amostra são escolhidos por terem alguma característica
que seja objeto de pesquisa. Como não é um processo probabilístico, ele não serve
para propósitos inferenciais.
Uma pesquisa sobre qualidade de atendimento de serviços de saúde municipais, por
exemplo, pode ser realizada em dois ou três postos de saúde, nos quais sejam escolhidos
alguns pacientes para participarem da amostra. No entanto, os resultados obtidos dessa
forma não podem ser estendidos para toda a rede de saúde municipal.
• Amostragem a esmo
A palavra aleatória tem como origem alea do latim “sorte”– muito conhecida pela expres-
são “alea jacta est”, “a sorte está lançada”, de Júlio César ao cruzar o Rubicão, a 250 km de
Roma). No contexto da estatística, a palavra está relacionada ao processo de escolha por
sorteio. Muitas vezes, o vocábulo aleatória ou a expressão ao acaso são utilizados para
uma escolha sem nenhum critério. Essa forma de escolha é denominada amostragem a
esmo. Nesse processo, como os elementos da população que irão participar da amostra
não são escolhidos de acordo com um critério bem definido, esse tipo de amostragem
não serve para se tirar conclusões sobre a população com base nos elementos da amostra.

5.4.2.2 Processos de amostragem probabilísticos


As amostragens que têm valor científico são aquelas em que se consegue determinar a
probabilidade de um elemento da população participar da amostra. Não necessariamente
todos os elementos devem ter a mesma chance de participação, como no caso da amos-
tragem estratificada proporcional, conforme será visto logo a seguir.
As principais técnicas de amostragem probabilística são: amostragem aleatória simples,
estratificada proporcional, sistemática, por conglomerados e em dois estágios. Para a rea-
lização desses processos, utilizamos uma tabela de números aleatórios.

5.4.3 Tabela de números aleatórios


Um modo de se sortear elementos de uma população de tamanho N é numerá-los de 1 a N
e escolher uma forma de sorteio, como colocar bolas numeradas em uma urna e retirar o número
de bolas equivalentes ao tamanho da amostra.
Outra forma de simular tal situação é utilizando uma tabela de números aleatórios, com
algarismos gerados por um computador. Ela pode ser gerada em programas simples, como o
Microsoft Excel, e é util quando não se tem um computador ou uma máquina de calcular científica
em mãos. A tabela a seguir, gerada por um programa, serve para a apresentação dos processos de
amostragem probabilísticos.
Técnicas de amostragem 63

Tabela 1 – Números aleatórios

1 2 3 4 5 6 7 8 9

1 5 7 5 1 8 1 9 6 1

2 2 6 6 5 9 1 2 4 5

3 4 5 3 6 1 7 4 7 9

4 7 2 8 3 2 3 9 7 4

5 5 6 9 6 0 5 5 4 6

6 0 6 8 7 3 7 1 2 1

7 6 9 2 0 3 1 7 2 8

8 4 1 5 6 3 6 0 1 5

9 7 2 4 7 1 3 8 3 1

10 7 5 1 1 7 3 1 3 6

11 1 7 0 3 5 7 8 3 5

12 4 6 2 8 3 1 4 5 6

13 5 5 6 6 5 2 4 8 8

14 5 2 4 4 6 2 3 6 5

15 5 6 8 8 7 4 7 8 6

16 4 4 6 0 6 8 4 4 2

17 8 2 1 0 5 6 9 6 2

18 9 9 5 9 4 3 7 9 8

19 8 2 9 4 3 5 4 5 3

20 9 7 8 8 6 4 9 2 2

21 2 3 2 7 4 9 0 6 7

22 4 6 5 8 2 8 8 1 4

23 3 0 1 8 1 1 7 5 9

24 3 8 1 6 4 4 5 2 3

25 1 3 8 3 4 7 7 7 7

26 5 1 0 0 3 8 6 6 3

27 3 0 1 4 4 5 1 2 6

28 3 5 8 7 7 5 3 7 6

29 1 3 3 5 1 7 6 8 1

30 9 6 4 9 5 2 3 1 9

Fonte: Elaborada pelo autor.


64 Estatística aplicada às ciências sociais

A tabela apresentada é composta de 30 linhas e 9 colunas. Se queremos sortear um número


de um indivíduo de uma população com 80 elementos numerados de 1 a 80, primeiramente deve-
mos escolher uma linha e uma coluna para início do processo. Vamos selecionar uma data qual-
quer para começar: dia 16 de abril, data de nascimento de Charles Chaplin, do estatístico moldavo
Jerzy Neyman e do cardeal Ratzinger (Papa Bento XVI). Ao observarmos a tabela, verificamos na
linha 16 e coluna 4 que o dígito sorteado foi 0. Mas, como precisamos de um número com dois
dígitos, tomaremos 0 e o seu vizinho imediatamente à direita para compor o número sorteado.
Dessa forma, o número sorteado foi 06. Como a população está numerada de 1 a 80, selecionamos
o elemento de número 6 e verificamos o valor da variável de interesse correspondente a ele. Se for
a idade, por exemplo, identificamos qual é a idade do elemento 6.

5.5 Principais técnicas de amostragem


5.5.1 Amostra aleatória simples
Esse processo de amostragem é o mais simples, como o nome já demonstra. Nele, todos os
elementos da população têm a mesma probabilidade de participar da amostra. Como exemplo, se a
população tem 80 elementos, a probabilidade de um elemento da população participar da amostra
é de 1/80.
Se desejarmos tomar uma amostra maior e o processo for com reposição, essa probabilidade
permanece 1/80 para cada etapa do sorteio. Se for sem reposição, na segunda etapa a probabilidade é
de 1/79, a seguinte 1/78, e assim por diante. Nesse caso, embora as chances variem de acordo com o
sorteio, todos os elementos da população têm a mesma probabilidade de participar da amostra, quando
se considera o processo como um todo.
Se quisermos sortear uma amostra de tamanho 10, teremos que selecionar 10 elementos
da população numerada de 1 a 80. Utilizando a mesma entrada, linha 16 e coluna 4, já tínhamos
verificado que o primeiro elemento a participar da amostra era o de número 06. Estabelecendo
o critério de selecionar os números a seguir para baixo na tabela, o próximo número sorteado é
o 05. O número seguinte é o 94, que é maior do que 80 e, portanto, não serve. Não há ninguém
da população com esse número. Selecionamos, então, o próximo, que é o número 43, e assim por
diante, até completar os 10 números: 74, 64, 34, 03, 44 e 51, quando termina a tabela. Mas, como
ainda nos falta um número, retomamos o processo da linha 1 nas colunas 5 e 6 e encontramos os
números 81, 91 e 17. Os dois primeiros não servem, então o último número sorteado é o 17. Dessa
forma, completamos o processo e os números sorteados foram: 06, 05, 43, 74, 64, 34, 03, 44, 51 e 17.
Se o sorteio for sem reposição, precisamos verificar se há números repetidos. Caso não haja,
como é o caso, o processo está completo. Essa determinação deve ser realizada antes de se iniciar o
sorteio. No geral, os processos de amostragem são sem reposição e, sendo assim, todos os elemen-
tos sorteados devem ser diferentes.
Determinados os números dos elementos da amostra, precisamos verificar o valor das va-
riáveis ou dos atributos associados a cada um dos elementos sorteados. Se estivéssemos sorteando
elementos para a verificação de intenção de votos, poderíamos estar interessados em, além da
Técnicas de amostragem 65

determinação de qual candidato seria escolhido em virtude de cada elemento, saber ainda a idade,
o sexo, o grau de instrução e a escolaridade dos eleitores, por exemplo.

5.5.2 Amostra estratificada proporcional


Se a população pode ser dividida em estratos que constituem-se em diferenças de caracterís-
ticas que podem afetar o resultado da pesquisa, a proporção que cada estrato tem na composição
da população deve ser repetida na amostra. A diferença desse processo para o de amostragem por
cotas é que, nesse segundo caso, não há sorteio.
Na amostragem estratificada proporcional, a divisão em estratos deve ter um intuito que
faça sentido, ou seja, só fazemos a estratificação se esperamos respostas diferentes para os diferen-
tes estratos. Se, por exemplo, o objetivo é fazer uma pesquisa sobre a inteligência de um grupo, que
será mensurada por meio da medida do quociente de inteligência (QI) – supondo que essa possa
ser uma boa medida, apesar das críticas que recebe – não parece razoável dividir a população em
estratos por sexo, pois não há nenhuma comprovação científica de que as mulheres sejam mais
inteligentes do que os homens, ou vice-versa.
Por outro lado, se desejamos fazer um estudo antropométrico de uma população por meio
da medida da altura média dela, parece bastante razoável dividi-la em estratos de acordo com o
sexo. Vejamos, nesse caso, a justificativa para esse procedimento com base em uma simulação.
Suponha que somente 20% da população em questão seja de mulheres. Como é sabido, os homens
são, de uma forma geral, mais altos do que as mulheres, e, se fizermos um sorteio por meio de uma
amostra aleatória simples, poderemos correr o risco de termos na amostra 40% de mulheres ou
mais, o que nos levaria a subestimar a altura média daquela população.
Suponha que tal pesquisa seja realizada em uma população com 60 pessoas e que uma amos-
tra de tamanho 10 deva ser coletada de uma população com 12 mulheres e 48 homens.
Primeiramente, verifica-se a proporção de homens e mulheres na população. A proporção
de mulheres (pm) é dada por:
Nm
pm =
N
Nm é o número de mulheres e N o total da população. Assim:

pm = 12 .100 = 20%
60
Se a amostra é de tamanho 10, então o número de mulheres na amostra será dado por:
20
nm = n x pm = 10 x 20% = 10. =2
100
Então, o número de homens será 8, representando 80% da amostra. Em uma tabela, teríamos:
Tabela 2 – População e amostra de homens e mulheres

Sexo População Amostra


Homens Nh nh

Mulheres Nm nm

Total N n
Fonte: Elaborada pelo autor.
66 Estatística aplicada às ciências sociais

Para uma população com essa composição, o número de mulheres na amostra é determi-
nado por:

Nm
nm = ·n
N
E o número de homens por:

Nh
nh = ·n
N

Exemplo
Deseja-se fazer uma estimativa do salário médio dos empregados de
uma empresa por meio de uma amostra de tamanho 10, em um sorteio
sem reposição, utilizando a tabela de números aleatórios a partir da li-
nha 29 e coluna 3, correspondente a 29 de março, dia do aniversário da
cidade de Curitiba, no estado do Paraná.
A tabela a seguir mostra a divisão dos funcionários de acordo com os
seus setores na empresa:
Tabela 3 – Número de funcionários de uma empresa por setor

Setor Empregados
Técnico 20

Administrativo 60

Operacional 120

Total 200
Fonte: Elaborada pelo autor.

Supondo que o valor dos salários dos técnicos seja maior do que o do
pessoal administrativo, que por sua vez é maior do que o dos emprega-
dos do setor de operações, faz sentido realizar uma amostragem estrati-
ficada proporcional.
O primeiro passo é determinar o número de funcionários de cada setor
que irá compor a amostra de tamanho 10, respeitadas as proporções de
cada setor na população. Então:
Tabela 4 – População e amostra de funcionários de uma empresa por setor

Setor População Amostra


Técnico 20 (20/200)x10 = 1

Administrativo 60 (60/200)x10 = 3

Operacional 120 (120/200)x10 = 6

Total 200 10
Fonte: Elaborada pelo autor.
Técnicas de amostragem 67

Determinado o tamanho de cada estrato na amostra, procede-se o


sorteio. Antes, porém, é necessário numerar os empregados de 1 até 200.
Em seguida, pode-se atribuir aos empregados do setor técnico a numeração
de 1 a 20; para os do setor administrativo, de 21 a 80; e, para os do setor
operacional, de 81 a 200.
Tabela 5 – Indivíduos sorteados por setor de ocupação

Setor Amostra Números sorteados


Técnico [1,20] 1 015

Administrativo [21,80] 3 031,068,056

Operacional [81,200] 6 181,173,174,138,117,176

Total 10
Fonte: Elaborada pelo autor.

Sorteados os números dos empregados, deve-se verificar qual é o salário


de cada um deles e depois calcular a média salarial da amostra, que será o
valor que estimará a média salarial de todos os empregados da empresa.

5.5.3 Amostra sistemática


Quando os dados da população já se encontram organizados em alguma forma de arquivo,
a amostra sistemática é a mais recomendada.
Suponha que desejamos fazer uma revisão tipográfica em um livro de 400 páginas por meio
de uma amostra de tamanho 10. O processo consiste em determinar, em primeiro lugar, o valor da
fração amostral, que é dada por:
N
f=
n

No exemplo, a fração amostral é igual a 400 = 40.


10
O segundo passo é sortear o primeiro elemento da amostra por meio da tabela de números
aleatórios. O segundo elemento será determinado pela soma do primeiro número com a fração
amostral. O terceiro será o segundo mais a fração amostral, e assim por diante, até completar o
tamanho da amostra.
Se determinarmos a entrada pela linha 1, coluna 1, primeiro dia do ano, encontraremos
como primeiro valor sorteado o número 57, que corresponde à página 57. A segunda página será
57 + 40 = 97. A terceira, 137, e, na sequência, as páginas 177, 217, 257, 297, 337, 377. A seguinte
seria a página 417, mas que supera o número de páginas do livro. Subtraímos, então, 400 de 417
e a página sorteada será a de número 17. A próxima seria a página 57, mas já foi sorteada, então
o processo se completa com a determinação da décima página, que é a de número 17. As páginas
que serão verificadas são, dessa forma, as de número: 17, 57, 97, 137, 177, 217, 257, 297, 337 e 377.
68 Estatística aplicada às ciências sociais

Esse é um processo circular, portanto não importa onde seja o início. A amostra sistemática
é um caso particular de uma amostra estratificada proporcional, em que cada estrato corresponde
a um conjunto de 40 páginas e de onde se sorteia um elemento.
É o processo utilizado pelo IBGE durante os censos decenais para determinação de quem
responderá o questionário completo com uma fração amostral igual a 10. Seleciona-se uma casa
para fazer o questionário completo e, a cada dez casas, ele é repassado para a família que o respon-
derá. Esse processo é também utilizado para a realização de pesquisas eleitorais. Sorteia-se uma
quadra, determina-se a primeira residência em que uma pessoa será entrevistada (no geral, a que
atende à visita ou a de aniversário mais próximo, desde que seja eleitor no município), salta-se o
número de casas correspondentes à fração amostral e a nova entrevista será feita na casa determi-
nada por esse processo.

5.5.4 Amostra por conglomerados


Na amostragem por conglomerados, divide-se a área a ser pesquisada em setores bem
definidos, sorteia-se uma certa quantidade deles por meio de uma amostra aleatória simples e
pesquisam-se todos os elementos da população desses setores.
Quanto mais os elementos dentro do setor forem “parecidos” com a população como um todo,
melhor será o resultado obtido. Isto é, se a variância interna dentro do setor for alta, a variabilidade
total será menor. Exatamente o oposto do que ocorre com a amostra estratificada proporcional, na
qual as variâncias dentro de cada estrato devem ser pequenas.
Amostragens por conglomerados são bastante utilizadas em pesquisas de campo que en-
volvem a opinião de moradores de uma cidade. Os setores podem ser as zonas eleitorais em uma
pesquisa de intenção de votos ou os setores censitários do IBGE, que são áreas bem definidas com
cerca de 300 domicílios que são visitados para determinar o censo demográfico.
A principal vantagem de uma amostra por conglomerados é a facilidade de execução do
trabalho de campo, que pode implicar em uma economia bastante grande de recursos empregados
para a realização da pesquisa.

5.5.5 Amostragem em dois estágios


Quando os elementos de um setor têm grande homogeneidade, a eficiência da amostra-
gem por conglomerados pode ficar comprometida. Uma forma de contornar esse problema é
com a realização de sorteio entre os elementos de cada setor já sorteado na amostragem por
conglomerados. No geral, ambos os sorteios são realizados por meio de uma amostra aleatória
simples, ou o primeiro usando esse processo e o segundo uma amostra sistemática.
O procedimento de amostragem em dois estágios, ou em duplo estágio, consiste em:
• organização da população em setores (conglomerados);
• sorteio de alguns conglomerados por meio de uma amostra aleatória simples;
• dentro de cada setor, sorteio dos elementos que participarão da amostra por meio de um
processo de amostragem aleatória simples ou amostragem sistemática.
Técnicas de amostragem 69

Os processos de amostragem apresentados neste capítulo abrangem os utilizados vastamen-


te em pesquisas sociológicas. É muito importante que o processo escolhido seja o mais adequado
para cada objetivo de pesquisa. Além de proporcionar maior confiabilidade nos resultados, a es-
colha do método adequado trará a vantagem da economicidade, uma vez que proporcionará um
menor tamanho de amostra.

Atividades
1. Qual é a diferença entre um processo de amostragem por cotas e um processo de amostra-
gem estratificada proporcional? Justifique.

2. Uma amostragem aleatória simples não pode ser confundida com uma amostragem a esmo.
Quais são as diferenças e as semelhanças entre os dois processos?

3. Na realização dos censos decenais há um processo de amostragem realizado com uma parte
da população. Qual é a forma de amostragem utilizada na determinação de quem participa
da amostra?
6
Tamanho de uma amostra

A morte de uma pessoa é uma tragédia;


a de milhões é uma estatística.

Joseph Stalin (1879-1953)1

A realização de uma pesquisa por amostragem exige do pesquisador um amplo e detalhado


planejamento, envolvendo ao menos três etapas: a escolha do tipo de amostragem, a determinação
do tamanho da amostra e a elaboração da estratégia de campo. Uma das tarefas mais complexas
em um processo de pesquisa é a determinação do tamanho da amostra, que requer um trabalho
bastante criterioso.
Uma falsa ideia deve ser abandonada: a de que se pode determinar o tamanho da amostra
por meio de uma determinação percentual em relação ao tamanho da população – por exemplo,
tomar uma amostra de 5% ou 10% como representativa dela. Dependendo do tamanho da popula-
ção e da técnica de amostragem utilizada, uma amostra de 0,1% pode ser representativa e uma de
20% pode não ser. Uma última consideração deverá ser feita com relação ao tamanho da amostra
no que diz respeito ao da população: para populações pequenas, há de se fazer uma correção na
determinação do tamanho da amostra, chamada de correção para populações finitas.
A quantidade de recursos financeiros disponíveis para a realização do levantamento amostral
é um fator importante na determinação do tamanho da amostra e que pode, inclusive, inviabilizar
o trabalho de pesquisa.
A margem de erro, o nível de confiança e a variabilidade da população são os três fatores
técnicos considerados no cálculo do tamanho da amostra.

6.1 A “margem de erro”


O que é chamado de margem de erro ou erro máximo da estimativa é, na verdade, a dife-
rença máxima provável entre a medida do estimador observado na amostra e o verdadeiro valor
do parâmetro da população. Trata-se, portanto, do desvio entre o valor calculado na amostra e o
real valor do parâmetro da população.
Em uma pesquisa eleitoral na qual um candidato tenha 60% das intenções de voto, com mais
ou menos 3%, esses 3% correspondem ao desvio com base no valor central que a pesquisa se pro-
pôs a admitir. Ou seja, o candidato deverá ter entre 57% e 63% na pesquisa com toda a população,
isto é, no processo eleitoral. Esse desvio é conhecido coloquialmente como “margem de erro”.

1 Líder soviético, dirigindo-se a Churchill, em Potsdam, 1945.


72 Estatística aplicada às ciências sociais

Reforçando: a “margem de erro”, ou desvio, tem natureza absolutamente diferente do cha-


mado erro estatístico. Enquanto o desvio é uma percentagem, ou uma medida na unidade em que
se está observando os valores (cm, anos, m2 etc.), o erro estatístico é uma medida de probabilidade.
No exemplo da pesquisa eleitoral na qual o candidato tem 60% das intenções de voto, temos
95% de confiança (erro estatístico de 5%) de que ele terá entre 57% e 63% dos votos se a eleição for
realizada no mesmo dia da pesquisa. Qualquer resultado dentro desse intervalo pode acontecer;
é preciso que se compreenda isso para não cometer erros de interpretação dos resultados.
Suponha, no exemplo apresentado, que temos somente dois candidatos e que a estimativa
da proporção de votos válidos de um deles seja de 48% e, portanto, a do outro seja de 52%. Será que
realmente o primeiro candidato está à frente do segundo? A resposta tem que ser um definitivo
não. De fato, o que a pesquisa amostral informa é que a proporção de votos do primeiro candidato
na população, salvo o erro amostral, estará dentro do intervalo [45%, 51%] e que a do segundo
estará entre [49%, 55%]. Assim, qualquer resultado dentro desses intervalos é admissível, por
exemplo: 51% para o segundo e 49% para o primeiro candidato – assim, embora aparentemente
o primeiro estivesse à frente, ele poderia perder a eleição. Esse fato é conhecido como empate
técnico ou empate estatístico. Convém ao primeiro candidato fazer a leitura correta da pesquisa.
Mas será que ele não está ao menos um pouquinho à frente do segundo? Com base no resultado
da pesquisa, pode-se afirmar categoricamente que não necessariamente.
Uma pesquisa que antecedeu uma eleição para prefeito de uma capital trouxe como resulta-
do as seguintes intenções de voto, com um nível de confiança de 95%:

Candidato A – 67%
Candidato B – 15%
Candidato C – 11%
Candidato D – 7%

O instituto que realizou a pesquisa afirmou que entrevistou 405 eleitores em um dia e que a
“margem de erro” foi de mais ou menos 5%. O que se pode concluir da pesquisa?
Em primeiro lugar, que o candidato A seria virtualmente eleito no primeiro turno com,
no mínimo, 62% dos votos. E mais, não há como saber qual dos outros três candidatos teria
mais votos se a eleição fosse realizada naquele dia. O candidato B, por exemplo, poderia ter
10% dos votos (15% – 5%), e o candidato D receber 12% dos votos (7% + 5%) e estar à frente do
candidato B. Essa é a leitura correta do resultado da pesquisa de intenções de voto realizada,
não há outra leitura possível.
Esse resultado pode ser útil para informar que, no momento, o candidato A seria eleito no
primeiro turno. Mais próximo da eleição, essa margem de erro deve ser diminuída, resultando em
aumento do tamanho da amostra.
Tamanho de uma amostra 73

Outro fato a ser considerado é que, em situações nas quais a percentagem dos candidatos
está mais próxima, uma pesquisa com essa margem de erro pode não ser informativa. Com uma
margem de erro de 5%, para mais ou para menos, um candidato com 55% dos votos pode perder
para um candidato com 45% dos votos, por exemplo. Quanto maior for a precisão desejada, maior
deve ser o tamanho da amostra, o que equivale a dizer que, quanto menor for a margem de erro,
maior será o tamanho da amostra. Para uma pesquisa com margem de erro zero, a amostra deve ser
tão grande quanto a população e, sendo assim, só é possível para levantamentos por censo.
Não adianta selecionar uma amostra pequena que não consiga ser sensível para observar
pequenas diferenças. Por outro lado, se essa escolha implicar em uma amostra muito grande e não
houver recursos para a realização da pesquisa, ela pode ser inviabilizada.
A determinação da margem de erro é feita antes da realização da pesquisa, a fim de calcular
o tamanho da amostra. A margem de erro é escolhida pelo pesquisador e será do tamanho neces-
sário para que possa discriminar as medidas que serão realizadas.
Dizer que um candidato terá 60% dos votos mais ou menos 30% de precisão significa
que ele pode ter entre 30% e 90% dos votos. Esse resultado realmente não interessa, porque não
é informativo.
Matematicamente, pode-se dizer que o desvio é inversamente proporcional ao tamanho da
amostra, lembrando, no entanto, que essa não é uma relação linear. Se d é o desvio e n é o tamanho
da amostra, temos a relação:

d n

6.2 O nível de confiança


O erro estatístico é a probabilidade de se sortear uma amostra que não seja representativa
da população. É importante salientar que, toda vez que se faz um sorteio, existe o risco de que a
amostra não represente a população.
Para ilustrar essa ideia, suponha uma população de tamanho quatro, composta pelos ele-
mentos A, B, C e D, colocados em ordem crescente de medida. Imagine que esses quatro elementos
são pessoas, sendo A a mais nova e D a mais velha.
Quantas amostras de dois elementos são possíveis de serem sorteadas? Esse número pode
ser calculado por meio da determinação da combinação de quatro elementos, dois a dois: C4,2 = 6.
Dessa forma, as possíveis combinações são:
AB, AC, AD, BC, BD, CD
Qual é a probabilidade de cada uma delas ser sorteada? É de 1 em 6, ou 1/6. As amostras
derivadas das combinações AB e CD parecem não representar bem a população: a primeira
74 Estatística aplicada às ciências sociais

subestimaria a média de idade e a segunda a superestimaria. As melhores combinações seriam,


possivelmente, AD e BC, mas AC e BD também poderiam trazer resultados bastante razoáveis.
Então, qual seria a probabilidade de se tomar uma amostra “ruim”, que não representa a
população? Seria de 2/6, correspondente às amostras AB e CD. Essa probabilidade é de 1/3 = 0,33.
Assim, o nível de confiança associado a essa amostragem é de 67% (100-33), e o erro estatístico é
de 0,33.
Um erro estatístico de 33% é muito alto, usamos apenas uma simulação para ilustrar o seu
significado. Com uma população tão pequena, não faz sentido um procedimento de amostragem.
O erro estatístico está relacionado com o escore “z” da tabela da distribuição normal padrão,
que, por sua vez, relaciona-se ao cálculo de probabilidades, o qual não é objeto de estudo deste
capítulo. Quanto menor for o erro, maior será “z” e, consequentemente, maior será o tamanho
da amostra. Se o erro estatístico for designado por “ ”, o nível de confiança será (1 – )x 100%.
Maior confiança implica em maior tamanho da amostra. Matematicamente, podemos estabelecer
a seguinte relação:

(1 – ) z n

Qual valor deve ser determinado para o erro estatístico? Isso depende da gravidade de se
cometer tal erro. Em uma pesquisa de verificação da qualidade de componentes de avião em uma
fábrica, pode-se fazer uma inspeção nas mesinhas de lanche do avião com um erro estatístico mais
dilatado do que o de um componente de vedação da janela. Nesse último caso, o erro deve ser igual
a zero e, portanto, a inspeção precisa ser realizada em todas as unidades, então a amostra deverá
ser do tamanho da população.
Em pesquisas eleitorais, é muito comum se trabalhar com um erro de 5%, ou uma probabi-
lidade de 1/20 de que a amostra não seja boa – o que é uma probabilidade muito pequena. Para se
construir uma ideia intuitiva por meio de comparação, a probabilidade de se acertar o número na
face superior de um dado é de 1/6. Imagine, então, em um dado de 20 lados.
Mas, ainda com um erro tão pequeno, pode-se tomar uma amostra ruim ou não repre-
sentativa da população? É possível, mas muito raro. O pesquisador mais experiente percebe nas
primeiras determinações dos resultados da amostragem se a amostra pode ser ruim. Se em uma
pesquisa eleitoral a maioria dos entrevistados for muito jovem, ou se, por exemplo, a amostra
contemplou um número excessivamente grande de homens ou de mulheres – como em torno de
80% –, deve-se desconfiar do processo amostral, haja vista que é sabido que as mulheres equiva-
lem a pouco mais de 50% da população.
Tamanho de uma amostra 75

6.3 A variabilidade
Esse é um componente importante na determinação do tamanho da amostra. Talvez o mais
simples processo de amostragem seja o de exame de sangue. Tira-se uma pequena amostra do san-
gue e, com base nela, determinações completas sobre o tipo, o fator RH, a saúde da pessoa, entre
outras verificações, podem ser feitas. Isso porque o sangue é uma substância homogênea e uma
simples gota representa todo o volume do sangue do corpo humano.
Por outro lado, populações heterogêneas exigirão maior número de elementos da amostra,
para que ela possa captar as diferenças entre esses componentes da população.
A variabilidade pode ser medida por meio da variância ou do desvio-padrão, raiz quadrada
da variância. Matematicamente, pode-se estabelecer uma relação direta entre o tamanho da
amostra e o desvio-padrão, isto é:

O problema aqui está em determinar um valor estimativo para o desvio-padrão, porque,


uma vez que a pesquisa ainda não foi feita – e precisaremos dessa medida para o cálculo do ta-
manho da amostra –, enfrentamos um problema circular. Existem algumas soluções: a primeira é
“emprestar” o resultado de uma pesquisa anterior semelhante à que se está realizando; a segunda
é buscar uma estimativa para o desvio-padrão por meio da realização de uma amostra-piloto; e a
terceira é obter essa informação com algum tipo de simulação. Esses dois últimos processos estão
fora do escopo deste texto.

6.4 Determinação do tamanho da amostra


Estabelecidos os principais componentes para a determinação do tamanho da amostra,
podemos construir uma expressão matemática de maneira intuitiva, com base nas relações de
proporcionalidade verificadas.
Vimos que o tamanho da amostra é diretamente proporcional ao nível de confiança – que
está relacionado com o valor “z” da distribuição normal padrão – e ao desvio-padrão ( ) e inver-
samente proporcional ao valor estabelecido pelo desvio (d). Dessa forma, uma possível expressão
para o tamanho da amostra seria:

(z )
n=
d

Mas essa relação não é linear, e é, portanto, necessária uma determinação mais técnica da
expressão para o cálculo do tamanho da amostra.
76 Estatística aplicada às ciências sociais

Para isso, partiremos do intervalo de confiança estabelecido inicialmente:

Pr ( p – d < P < p + d ) = 1 –

Essa expressão é conhecida da inferência estatística, na qual o desvio pode ser expresso como:
z
d=
n
Isolando o valor de n da expressão anterior, teremos:

z 2
n=
d

Essa é a expressão inicial para o cálculo do tamanho da amostra.

Exemplo 1
Pretende-se calcular o tamanho de uma amostra para uma pesquisa elei-
toral na cidade do Rio de Janeiro, com nível de confiança de 95% e desvio
de mais ou menos 5%. Sabe-se, por meio de uma pesquisa anterior, que
a variância ( 2) é de 0,5.
O valor z = 2 refere-se ao escore aproximado da distribuição normal para
a probabilidade de 95%; rigorosamente, esse valor na tabela é de 1,96.
O desvio de mais ou menos 5% pode ser expresso em forma da fração
5/100 = 0,05, e o valor de 2 = 0,5 foi selecionado de uma pesquisa ante-
rior semelhante, conforme o enunciado do problema. Então, z = 2; σ2 =
0,5; e d = 0,05:
n = 2 x 0,5 = 400
2

0,05
A rigor, para exatos 5% de erro estatístico, o valor de z é igual a 1,96,
portanto o tamanho da amostra poderia ser de 385 pessoas e as margens
estabelecidas estariam asseguradas.
Conforme afirmado anteriormente, a relação entre o tamanho da amos-
tra e o erro estatístico, a “margem de erro” e a variabilidade, não é li-
nearmente proporcional. Pode-se verificar essa propriedade por meio
de exemplos em que a “margem de erro” ou o erro estatístico variem nas
diferentes direções.

Exemplo 2
Pretende-se calcular o tamanho da amostra para “margens de erro” de
1%, 2%, 3%, 5% e 10% e erros estatísticos de 1%, 5% e 10%.
Aplicando a expressão para o cálculo do tamanho da amostra para esses
dados, e tendo os valores de z correspondentes a 1%, 5% e 10%, respecti-
vamente 2,58, 1,96 e 1,64, obtemos os seguintes números:
Tamanho de uma amostra 77

Tabela 1 – Margem de erro e erro estatístico

Erro estatístico
Margem de erro
0,01 0,05 0,1

0,01 16.641 9.604 6.724

0,02 4.160 2.401 1.681

0,03 1.849 1.067 747

0,05 666 384 269

0,1 166 96 67
Fonte: Elaborada pelo autor.

Observe na tabela o valor encontrado anteriormente, de 384 eleitores,


para “margem de erro” de 5% e nível de confiança de 95%, e compare
com os resultados vizinhos.

6.5 Custo da pesquisa


Supondo que a produção de cada questionário para uma pesquisa eleitoral tenha um custo
de R$ 10,00, sendo já inclusos trabalho de campo, seguros para os pesquisadores, planejamento,
análise dos dados, impressão e impostos, uma pesquisa com ± 5% de desvio e nível de confiança de
95% resultaria em uma amostra de 384 eleitores e custaria em torno de R$ 3.840,00. Em uma situa-
ção mais precisa, mudando somente a “margem de erro” para ± 2% de desvio, o custo da pesquisa
subiria para R$ 24.000,00. Mesmo que se pudesse admitir um erro estatístico de 10%, ou seja, uma
confiança de 90%, o custo da pesquisa para um desvio de ± 2% seria de R$ 16.810,00.
Como visto, o fator custo é extremamente limitante da potencialidade da pesquisa. Mas essa
discussão chama atenção para que a leitura da pesquisa seja feita sempre observando o nível de
confiança e a “margem de erro”, e não somente a estimativa pontual das percentagens.
A pesquisa eleitoral discutida anteriormente, com a margem de erro de 5% e o nível de
confiança de 95%, justifica-se pelo acerto do instituto em verificar que a eleição se resolveria no
primeiro turno, mas, para os demais candidatos, que não o vencedor, candidato A, a pesquisa não
informa com precisão a situação.
Em datas mais próximas da eleição, quando o quadro pode tender a uma aproximação per-
centual dos demais candidatos ao candidato preferido, o instituto deverá modificar sua estratégia,
melhorando a precisão e, consequentemente, o volume da amostra, resultando fatalmente no au-
mento do custo da pesquisa2.

2 Há expressões estatísticas apropriadas que já embutem o custo da pesquisa no próprio cálculo do tamanho da
amostra, mas é uma sofisticação que pode ser contornada com um estudo comparativo como o que foi feito. Há livros
de estatística teórica que apresentam essas circunstâncias para o caso de necessidade de aprofundamento da discussão.
78 Estatística aplicada às ciências sociais

6.6 Correção para populações finitas


As observações realizadas até o momento neste livro não consideram o tamanho da popu-
lação, uma vez que esses cálculos não mudam substancialmente quando as populações são muito
grandes. Os cálculos realizados para as cidades de Fortaleza ou São Paulo, por exemplo, indicarão
que não haverá mudança significativa no cálculo do tamanho das amostras. Para efeito de cálculos
estatísticos, essas populações são consideradas infinitas.
A estratégia de campo deve ser modificada dependendo do tipo de amostragem a ser rea-
lizada, e o tamanho da amostra pode mudar um pouco. Para populações finitas, é necessário que
se proceda uma correção, chamada de correção para populações finitas. A expressão do desvio é
modificada, então, para:

d= z · N–n
n N–1

Este último fator, N – n , é a correção para a população finita. Utilizando essa fórmula,
N–1
podemos isolar o valor de n, obtendo a seguinte expressão:
[N . 2 . z2]
n=
[(N – 1) . d2 + 2 . z2]
Outra forma de encontrar o valor de n é empregar a expressão original n’ e depois corrigi-la,
multiplicando o valor obtido pela correção para população finita:

z. 2
n’ =
d

(N – n)
n = n’ ·
(N – 1)

Foram apresentadas neste capítulo as principais técnicas básicas de amostragem. Elas são
bastante úteis, tanto para a leitura e análise de resultados de pesquisas quantitativas quanto para
sua elaboração. São, portanto, ferramentas essenciais para o trabalho do sociólogo, uma vez que a
cada dia são mais frequentes as pesquisas por amostragem em substituição às que abrangem toda
a população.

Atividades
1. A figura a seguir ilustra o percentual da população que deve ser abrangido para que uma amostra
seja representativa da população estudada. A curva A não tem correção para a população
finita, a curva B tem essa correção e a C representa uma percentagem fixa da população (10%).
Com base na figura, que tipo de relação entre a amostra e a população pode ser estabelecida?
Tamanho de uma amostra 79

5.000 C

Tamanho da amostra
4.000

3.000
A n0
n = f(n0, N)
2.000 B
n = 10%N

1.000

0
0 10.000 20.000 30.000 40.000 50.000

Tamanho da população
Fonte: Elaborada pelo autor.

2. Justifique a relevância de se considerar o custo da pesquisa na determinação do tamanho da


amostra, considerando “negociações” em relação à margem de erro e ao nível de confiança.

3. Em duas pesquisas eleitorais para prefeito, uma realizada em São Paulo e outra em Campo
Grande, qual deverá ser o tamanho das amostras se desejarmos fazer pesquisas com nível de
confiança de 95% e margem de erro de 3%? Considere que São Paulo tem 9.052.724 eleitores
e Aracaju, no Sergipe, tem 408.312 e utilize o valor 0,25 para a variância.
7
Noções úteis de probabilidades

Um homem, que viaja muito, ficou preocupado


com a hipótese de haver uma bomba a bordo de um avião em que ele se encontrava.
Nos dias que correm, ele viaja sempre com uma bomba na sua mala.
A razão que ele apresenta é que a probabilidade de duas bombas
estarem a bordo seria infinitesimal.

John Allen Paulos (1945-)1

7.1 O papel do acaso


As sociedades atuais são de alta complexidade. Nelas, os seres humanos convivem em uma
composição de inter-relações múltiplas, envolvidos em uma ordem social em processo de recom-
posição permanente. Esse quadro dinâmico mergulhado em incertezas é o objeto de observação do
cientista social. As variáveis sociais são vistas em circunstâncias particulares e nunca estão livres
de uma grande influência de uma categoria bem definida cientificamente chamada de acaso.
Diferentemente do conhecido como caos, outra categoria científica, as manifestações do
acaso são mais facilmente equacionadas, seja pela sua natureza ou pela experiência humana mais
desenvolvida nessa área. Modernamente, há várias teorias organizadas para medir incerteza e,
particularmente, aquela relativa ao acaso vem sendo avaliada pela teoria das probabilidades.

7.2 Teoria das probabilidades


Essa teoria foi desenvolvida para solucionar jogos de azar durante o século XVII, mas
somente no início do século XX – graças ao matemático russo Andrei Nikolaevich Kolmogorov,
que formulou toda a teoria com base em axiomas básicos – ela ganhou status próprio, como um
ramo autônomo da matemática. Nem por isso a sua utilização está livre de polêmicas. Diferentes
escolas propõem diferentes meios de se acessar valores de probabilidades, o que gera certa con-
trovérsia sobre os fundamentos da teoria.
Há ao menos três enfoques conceituais, mas, independentemente das diferentes defini-
ções, todos usam as mesmas regras matemáticas e a probabilidade é uma medida objetiva de
incerteza. Esses enfoques são: o da probabilidade clássica, o da frequência relativa de ocorrências
e o da probabilidade subjetiva, que, apesar do nome, trata a probabilidade como uma medida
objetiva, o que é subjetivo é a forma de sua determinação. Aqui a palavra objetiva significa uma
medida exata que se submete ao corpo axiomático da teoria de Kolmogorov.

1 Matemático americano que ensina a matemática como uma forma de pensamento, um molde rigoroso, mas criativo,
para o exame do mundo.
82 Estatística aplicada às ciências sociais

Há uma gama de ricas discussões acerca do significado de “ler” os fenômenos sociais mergu-
lhados em um ambiente de incerteza e as implicações de mudanças do paradigma determinístico e
reducionista para um outro menos confortável metodologicamente, que entende que as proprieda-
des de um sistema não podem ser explicadas apenas pela soma de seus componentes. Esse pensa-
mento holístico (todo) institui a importância do conjunto (síntese) sobre os detalhes (análise) para
uma compreensão da realidade social.
Antes de reducionista, o uso de observações mensuráveis numericamente corrobora com
essa nova tendência. Como para a termodinâmica, na sociologia não é propriamente o individual
que interessa, mas sim o coletivo. Não é o certo, mas o probabilístico.
O conteúdo abordado neste capítulo introduz o ferramental metodológico que servirá de
base para a construção de modelos que busquem compreender aspectos de um dado fenômeno
sociológico. A apresentação das noções básicas de probabilidade expõe aqui, então, o papel central
de preparar a discussão sobre a utilização das técnicas estatísticas da indução, isto é, a inferência
estatística. No entanto, como a noção intuitiva de probabilidade falha na maior parte das vezes,
apreender a forma de seu cálculo pode, em outras circunstâncias, colaborar para leituras mais ade-
quadas da realidade quando considerada a componente aleatória em complemento à componente
determinística de todo fenômeno social.
Em outras palavras, o paradigma determinístico é aquele em que os sistemas são reduzidos às
suas partes para, com base na análise e compreensão de cada uma delas, somá-las a fim de entender
o todo. Busca-se, portanto, um outro paradigma, que é menos confortável metodologicamente e
admite trabalhar em ambientes de incerteza, com o intuito de compreender o todo (o conjunto dos
indivíduos) em detrimento do trabalho com os detalhes, ou seja, com cada indivíduo. Esse para-
digma é chamado de holístico, porque busca trabalhar com o todo e com as inter-relações entre as
variáveis que o definem.
O conjunto representa a síntese, que é o estudo do comportamento em torno de valores
centrais, como a média, que é o centro de gravidade dos dados, além da dispersão dos dados (a
variância), relacionada à imprecisão e à incerteza. A estatística pode ser um instrumento para uma
concepção, diferente do estudo dos fenômenos. Não interessa o comportamento de um só indiví-
duo, analisado em profundidade (e, portanto, em detalhes), como em um estudo de caso.
Se tentarmos compreender a realidade social por meio do estudo de indivíduos, e não do
conjunto de indivíduos e suas relações, verificadas com base em medidas de inúmeras variáveis,
voltamos ao paradigma determinístico. Temos, então, que admitir a incerteza, e a medida da incer-
teza pode ser acessada com a teoria das probabilidades.

7.3 Conceitos fundamentais


A seguir, abordaremos uma série de definições básicas que ajudarão na construção de
toda a teoria de probabilidades necessária para a solução dos problemas apresentados nos
demais capítulos.
Noções úteis de probabilidades 83

7.3.1 Experimento aleatório


No experimento aleatório, não se sabe de antemão que resultado ocorrerá, mas se sabe que
resultados podem ocorrer e, dessa forma, pode-se determinar a probabilidade associada a cada um
deles. Por exemplo, no lance de um dado honesto, sabe-se que os resultados possíveis são 1, 2, 3, 4,
5 ou 6 na face superior, o que significa que cada resultado tem probabilidade de 1/6.
Como determinaríamos a probabilidade de sair um número par? Por meio da teoria clássica
de probabilidades verificamos que há seis resultados possíveis. A probabilidade de sair um número
par é determinada pela razão entre o número de casos favoráveis e o número de casos possíveis, ou
seja, três casos favoráveis sobre seis casos possíveis – sendo assim, essa probabilidade é de 3/6 ou ½.
Podemos calcular a probabilidade de sair um número par lançando um dado mil vezes,
por exemplo, verificando, então, quantas vezes saiu um número par e dividindo esse valor por
1.000. Esse método é chamado de probabilidade frequentista.
Podemos também acessar o valor da probabilidade intuitivamente, por meio da conhecida
como probabilidade subjetiva. O resultado “sair um número par” no lance de um dado é equiva-
lente a “sair cara” no lance de uma moeda e, portanto, pela vivência da pessoa, ela pode concluir
que essa probabilidade seja de ½.

7.3.2 Evento
Cada um dos resultados possíveis de um experimento aleatório é chamado de evento.
O evento “sair cara” no lance de uma moeda é conhecido como evento simples, porque estamos
interessados em um resultado singular do experimento aleatório. O evento “sair um número
par” no lance de um dado chama-se evento composto, porque o resultado está associado a três
possíveis eventos simples.
Aos eventos, no geral, associamos elementos de um conjunto, e a notação utilizada será a da
conhecida como teoria dos conjuntos, que estabelece denotar o conjunto com letras maiúsculas e,
quando necessário, os elementos dele com letras minúsculas. Então, se o evento sair um número
par, pode ser representado pelo conjunto A = {2, 4, 6}.
Também podemos pensar, no caso da moeda, que o resultado do lance pode ser 1, se houver
sucesso e sair uma cara, e 0, se sair uma coroa. Assim, se X é o resultado do lance de uma moeda,
X = 1 representa cara e X = 0 representa coroa.

7.3.3 Espaço amostral


O espaço amostral pode ser definido, de maneira simples, como o conjunto de todos os resul-
tados possíveis de um experimento aleatório, ou, de outra forma, como o conjunto de todos os
eventos simples desse experimento. No geral, o espaço amostral é denominado por S (space, em
inglês) ou pela letra grega Ω (ômega).
No lance de um dado, o espaço amostral será o conjunto S = {1, 2, 3, 4, 5, 6}. No lance de
uma moeda, o espaço amostral será S = {C, K}, em que C representa cara e K, coroa. Em muitos
livros traduzidos do inglês encontramos o espaço amostral para esse experimento aleatório como
84 Estatística aplicada às ciências sociais

S = {H, T}. Aqui, H representa cara e T, coroa, porque o jogo cara ou coroa, em inglês, é chamado
de head or tail, cabeça ou rabo.
Observe que o espaço amostral é o conjunto de todos os elementos ou o conjunto universo
da teoria de conjuntos.

7.3.4 Evento certo e eventos mutuamente exclusivos


Quando não há a possibilidade de ocorrência de outro evento, ele é chamado de evento certo.
O conhecido como evento impossível é aquele que não tem qualquer possibilidade de ocorrência.
No lance de um dado, se um número de 1 a 6 aparecer na face superior, ele é um evento certo. No lance
de dois dados, se a soma das faces superiores for 13, é um evento impossível.
Eventos cujos elementos não podem pertencer a dois conjuntos ao mesmo tempo são cha-
mados de eventos mutuamente exclusivos. No lance de um dado, os eventos par e ímpar são mu-
tuamente exclusivos, porque não há elementos comuns nos dois conjuntos. Por outro lado, se no
evento A sair um número par e no evento B sair um número menor do que 4, então A e B não
são mutuamente exclusivos, porque o evento 2 ocorre em ambos os conjuntos: A = {2, 4, 6} e
B = {1, 2, 3}.

7.3.5 Eventos complementares


Dois eventos são chamados de complementares quando os seus elementos pertencem a eventos
mutuamente exclusivos e a reunião de todos os elementos é igual ao espaço amostral. Por exemplo, no
lance de um dado, o evento A = {1, 2, 3, 4} é complementar ao evento B = {5, 6}. Também, se no evento
sair um número par na face superior no lançamento de um dado, ele é complementar ao evento que sair
um número ímpar. Denotamos o evento complementar de A como A ou Ac.

7.4 Definição de probabilidade


Probabilidade é uma medida de incerteza que pode assumir valores entre 0 e 1. Não existe
probabilidade negativa nem maior do que 1, por isso a probabilidade de sair cara no lance de uma
moeda é igual a ½ ou 0,5, e não 50%, como se costuma dizer coloquialmente. Embora probabili-
dade e percentagem sejam medidas de naturezas diferentes, não é incomum que se utilize o termo
percentagem com o sentido de probabilidade. Quando isso não nos atrapalhar, utilizaremos indis-
tintamente as duas acepções.
A probabilidade de um evento A pode ser definida como o número de elementos favorá-
veis sobre o número de elementos possíveis. O cardinal do conjunto A, denotado por #A, repre-
senta o número de elementos favoráveis do evento A, e o #S, o número de elementos do espaço
amostral. Então:
#A
P (A) =
#S
Noções úteis de probabilidades 85

No evento número par no lance de um dado, A = {2, 4, 6}, cujo número de elementos é dado
por #A = 3 e S = {1, 2, 3, 4, 5, 6}, com #S = 6, então:
#A 1
P (A) = = 3 = = 0,5
#S 6 2

7.4.1 Probabilidade, chance e verossimilhança


Essas três palavras representam fenômenos diferentes, embora sejam muitas vezes utiliza-
das indistintamente.
Dizemos que a chance de se ganhar na Mega Sena é de aproximadamente 1 para 50 milhões
se jogarmos um bilhete com seis unidades. A ideia de chance está relacionada a jogo. É curioso
notar que a teoria de probabilidades, em seus primórdios, era denominada nos meios acadêmicos
como a teoria das chances, somente mais tarde se distinguiu chance de probabilidades, tendo sido
reservada para esta última a primazia de denominar a teoria que se encarrega de medir incerteza.
A palavra verossimilhança, por outro lado, também não tem o mesmo significado de proba-
bilidade. Por exemplo, é bem sabido que em uma noite de inverno, se o frio for intenso e o céu
estiver estrelado, a possibilidade de ocorrência de geada na manhã do dia seguinte é bastante grande.
Devemos dizer que é verossímil, e não que é provável a ocorrência de geada. A palavra verossímil é
muito pouco utilizada coloquialmente em português, por isso falamos em provável ou verossímil
indistintamente2.

7.5 Axiomas e regras de probabilidades


As regras para o uso de probabilidades, muitas vezes apresentadas como teoremas, partem
de um conjunto de princípios que leva em conta a natureza da medida de probabilidade. Esse con-
junto é conhecido como Axiomas de Kolmogorov, em homenagem ao matemático russo que o es-
tabeleceu no início do século XX e morreu, com 84 anos, em um acidente de bicicleta em Moscou,
em 1987.

7.5.1 Axiomas de Kolmogorov


Seja A um evento e S o espaço amostral de um experimento aleatório, o primeiro axioma
estabelece que:

0 ≤ P(A) ≤ 1

2 Na língua inglesa, a palavra correspondente à verossimilhança é likelihood, bastante comum no uso coloquial.
Então, em muitos livros de estatística traduzidos do inglês para o português, o tradutor prefere utilizar probabilidade
nos locais em que aparece likelihood, e isso pode resultar em alguma confusão conceitual. Forçaremos um pouco o
uso correto e distinto de probabilidade e verossimilhança quando for necessário no texto.
86 Estatística aplicada às ciências sociais

A probabilidade é definida, então, como uma medida não negativa e menor do que a unida-
de, ou seja, um número no intervalo de 0 a 1, e não uma percentagem. Ela pode ser apresentada em
forma de fração (4/10), com o numerador sempre menor ou igual ao denominador, ou em forma
decimal (0,4). Não teremos preferência neste livro na maneira de apresentação final das probabi-
lidades calculadas, mas sempre convém fazer as operações por meio de frações, para não haver
acúmulo de erros devido a arredondamentos.
O segundo axioma é expresso pela seguinte expressão:

P (S) = 1

Ele nos informa que a probabilidade do espaço amostral é sempre 1. O espaço amostral pode
ser tomado como o evento composto certo. Por outro lado, o evento complementar a S é o conjunto
vazio, denotado por { } ou ø, cuja probabilidade será igual a zero. Por fim, o terceiro axioma pode
ser compreendido segundo a seguinte sentença:

P(A U B) = P(A) + P(B) – P(A B), se A e B não são eventos mutuamente exclusivos.

O terceiro axioma diz que a probabilidade da união de dois eventos é a soma das pro-
babilidades dos eventos menos a probabilidade de sua interseção. Se A e B são mutuamente
exclusivos, então A B = ø. Para esclarecer essa questão, retomaremos o exemplo de eventos não
mutuamente exclusivos.
No lance de um dado, consideramos os eventos A “sair um número par” e B “sair um nú-
mero menor do que 4”. Então, A = {2, 4, 6} e B = {1, 2, 3}. Podemos perceber que a união dos dois
eventos seria A U B = {1, 2, 3, 4, 6} e que a interseção de A e B seria A B = {2}. Uma vez que:
3 1
P(A) = =
6 2
3 1
P(B) = =
6 2

E que:
#(A B) 1
P(A B) = =
#(S) 6

Então:

1 1 1 5
P(A U B) = + – =
2 2 6 6
Noções úteis de probabilidades 87

É necessário fazer a subtração porque, caso contrário, o elemento {2} entraria duas vezes,
enquanto na união ele só aparece uma vez, apesar de ser elemento dos conjuntos A e B.
Perceba que de fato o cardinal de A U B é #(A U B) = 5 e que, portanto, P(A U B) = 5 ,
ou seja, o conjunto possui agora cinco, e não seis elementos. 6

7.5.2 Regras de probabilidades


Algumas regras úteis derivadas dos axiomas de probabilidades serão apresentadas sem
prova. Em um contexto mais formal, elas poderiam ser dadas como teoremas com as devidas
provas, mas esse não é o interesse neste livro.

7.5.2.1 Eventos complementares


Se A é um evento e A é o seu evento complementar, então P(A) + P(A) = 1 ou, ainda,
P(A) = 1 – P(A).
Um caso particular ocorre para o conjunto vazio, sabidamente complementar ao conjunto
universo: P(ø) = 1 – P(S), então como P(S) = 1, P(ø) = 0.

7.5.2.2 Regra da adição


Se A e B são eventos mutuamente excludentes, isto é, A B = ø, então P(A U B) = P(A) +
P(B), haja vista que P(ø) = 0.
Sejam os eventos A = {2, 4} e B = { 3, 5} e S = {1, 2, 3, 4, 5, 6}, então P(A U B) = P(A) + P(B) =
2/6 +2/6 = 4/6. Perceba que A U B = {2, 3, 4, 5}, cujo cardinal é #(A U B) = 4, correspondente a cada
um dos elementos do conjunto união.
Figura 1 – Espaço amostral: conjuntos A e B

A B

2 5

4 3

6
1 S

Fonte: Elaborada pelo autor.

7.5.2.3 Regra da diferença


Se A e B são dois conjuntos quaisquer, podemos definir a diferença entre eles, A\B, como
o conjunto de todos os elementos que pertencem a A e que não pertencem a B. Então, P(A\B) =
P(A) – P(A B).
Sejam os eventos A = {2, 4) e B = {2, 3, 5} e S = {1, 2, 3, 4, 5, 6}, então P(A\B) = P(A) –
2 1 1
P(A B) = – = . Perceba que A\B = {4}, cujo cardinal é #(A\B) = 1.
6 6 6
88 Estatística aplicada às ciências sociais

Figura 2 – Espaço amostral: interseção dos conjuntos A e B

A B

5
4 2

6
1 S

Fonte: Elaborada pelo autor.

7.6 Probabilidades conjunta, marginal,


condicional e independência
7.6.1 Probabilidade conjunta
Em muitas aplicações, estaremos interessados na probabilidade de ocorrência conjunta de
dois ou mais eventos. Para ilustrar esse fenômeno, recorreremos a um exemplo: considere uma
pesquisa de mercado em que dois produtos, A e B, foram apresentados para uma amostra de 1.000
pessoas, sendo 500 homens e 500 mulheres. O resultado das preferências foi sintetizado na tabela
a seguir:
Tabela 1 – Pesquisa de mercado

Prefere Prefere
Sexo Total
Produto A Produto B

Masculino (H) 200 300 500

Feminino (M) 100 400 500

Total 300 700 1.000

Fonte: Elaborada pelo autor.

O evento quando um homem prefere o produto A é representado por (H e A), e assim por
diante, e a probabilidade associada a esse evento é representada por P(H e A). Assim, temos: pode
P(H e A) = 200/1.000 = 0,2. Com base nessas definições, podemos construir uma tabela de proba-
bilidades conjuntas, conforme segue:

Prefere Prefere
Sexo Total
Produto A Produto B

Masculino (H) 0,2 0,3 0,5

Feminino (M) 0,1 0,4 0,5

Total 0,3 0,7 1,0


Noções úteis de probabilidades 89

7.6.2 Probabilidade marginal


Adicionalmente às probabilidades conjuntas, é possível determinar as probabilidades margi-
nais (também chamadas de incondicionais) quanto ao sexo e à preferência por produto. A probabi-
lidade marginal, no exemplo anterior, de que um indivíduo escolhido aleatoriamente seja homem é
P(H) = 0,5, e a probabilidade de que o produto A seja escolhido é de P(A) = 0,3.
Observe que a probabilidade de que o produto A seja escolhido é a soma de duas probabi-
lidades mutuamente excludentes: P[(A e H) ou (A e M)] = P(A e H) + P(A e M) = 0,2 + 0,1 = 0,3.

7.6.3 Probabilidade condicional


Se estivermos interessados na probabilidade de ocorrência de um evento uma vez que outro
já ocorreu, podemos definir probabilidades condicionais. Por exemplo, podemos estar interessados
em saber qual é a probabilidade de ocorrência do evento “preferência pelo produto A” dado que o
elemento sorteado foi um homem.
Definimos, então, P(A|H) como a probabilidade condicional e diz-se “probabilidade de A
dado H”:
P (A H) 0,2 2
P(A|H) = = = = 0,4
P (H) 0,5 5
Uma vez que partimos de H, esse dado promove uma restrição em nosso espaço amostral
e procuraremos descobrir, dado H, qual é a probabilidade de A.
De maneira inversa, poderemos também determinar a probabilidade de escolhermos um
homem dado que o produto preferido foi o A. Desejaremos, então, calcular P(H|A), ou a “proba-
bilidade de H dado A”:
P (H A) 0,2 2
P(H|A) = = = = 0,67
P (A) 0,3 3

7.6.4 Independência
Verificamos que a probabilidade de preferência do produto A, dado que um homem foi
sorteado, foi de 0,4. Se calcularmos a probabilidade de preferência do produto B, dado que uma
mulher for sorteada, teremos:
P (A M) 0,1 1
P(A|M) = = = = 0,2
P (M) 0,5 5
Podemos concluir, com base nesses cálculos, que a preferência pelo produto A depende do
sexo da pessoa sorteada. Definimos assim, decorrente desse fato, que dois eventos são estatistica-
mente independentes quando a ocorrência de um não afeta a do outro. E, portanto, se C e D são
independentes (C D):
P (C|D) = P(C)
90 Estatística aplicada às ciências sociais

É possível enumerar diversos exemplos interessantes de eventos independentes: sendo o


evento C o sexo do segundo filho e o evento D o sexo do primeiro filho, a probabilidade de o
segundo filho ser homem dado que o primeiro foi mulher é igual à probabilidade de o segundo
filho ser homem. Isso também ocorreria sendo o evento C o resultado do lance da segunda moeda
e o evento D o resultado do lance da primeira moeda, ou o evento C sendo o sorteio do número
correspondente à dezena da loteria federal e o evento D o resultado do número correspondente à
unidade da loteria federal.

7.7 Regra da multiplicação


Vimos que, quando dois eventos são independentes, temos que P(C|D) = P(C). Observe
também que:
P (C D)
Se P (C|D) = , então P(C D) = P(C|D) . P(D)
P (D)
Utilizando a afirmação de independência, temos, que, se C e D são eventos independentes,
então:
P(C D) = P(C) P(D)

Com base em outro exemplo de pesquisa de mercado, sintetizado na tabela a seguir,


poderemos verificar que os eventos “preferência por um produto” e “sexo” são independentes:

Prefere Prefere
Sexo Total
Produto A Produto B

Masculino (H) 0,08 0,32 0,4

Feminino (M) 0,12 0,48 0,6

Total 0,2 0,8 1,0

A preferência pelo produto A entre os homens corresponde à expressão:


0,08 8 1
P(A|H) = = = = 0,2
0,4 40 5
Já a preferência pelo produto A entre as mulheres corresponde à expressão:
0,12 12 2
P(A|M) = = = = 0,2
0,6 60 10
Nesse caso, pode-se verificar que o produto das probabilidades marginais correspondentes
é igual à probabilidade conjunta.
P(A) P(H) = 0,2 x 0,4 = 0,08 = P(A e H)

Perceba na tabela que na coluna “prefere o produto A”, para o caso dos homens, 0,08/0,2 =
0,4, ou seja, 40% dos que preferem o produto A são homens. Da mesma forma que “prefere o
Noções úteis de probabilidades 91

produto B” para homens é 0,32/0,8 = 0,4. Também dos que preferem o produto B, 40% são homens,
e o mesmo é válido para o total 0,4/1,0. Ou seja, a preferência dos homens por qualquer um dos
produtos é de 40%, por isso essas probabilidades são ditas independentes. Seja qual for o produto, a
preferência dos homens é sempre de 40%. Observe que na tabela original isso não ocorria.

7.8 Distribuições de probabilidades discretas


7.8.1 Variável aleatória
Podemos definir aproximadamente variável aleatória como uma função que assume valores
numéricos em razão do acaso. Rigorosamente, do ponto de vista matemático, uma variável alea-
tória é uma função consistindo de elementos de um espaço amostral associados a números reais
relacionados a esses elementos.
São exemplos de variáveis aleatórias: sair cara no lance de uma moeda, a soma dos números
das faces superiores no lançamento de dois dados, o faturamento de uma empresa no final de um
período, o rendimento de aplicação de uma dada carteira etc. Qualquer variável que seja função de
resultados que dependem de incerteza pode ser considerada uma variável aleatória.

7.8.2 Distribuição de probabilidades de uma variável aleatória


Podemos associar os valores possíveis de uma variável aleatória a certo nível de probabi-
lidade. A tabela formada por esse conjunto é chamada de distribuição de probabilidades.
Adotaremos como exemplo a situação de um grupo de pessoas idosas de 67 a 71 anos
de idade. A distribuição de probabilidades das idades pode ser sintetizada conforme o quadro
a seguir:
Quadro 1 – Distribuição de probabilidades por idade de idosos

Probabilidade
Idade (X)
de X, P(X = x)

67 0,10

68 0,25

69 0,50

70 0,10

71 0,05

Fonte: Elaborado pelo autor.

A probabilidade de sortearmos uma pessoa que tenha 69 anos é igual a um em cada dois
sorteios, ou P(X = 69) = 0,5.
A representação gráfica de uma variável aleatória pode ser feita por meio de um gráfico
de bastões.
92 Estatística aplicada às ciências sociais

Figura 3 – Gráfico de probabilidades por idade de idosos

0,6

0,5

0,4

Probabilidade
0,3

0,2

0,1

0
1 2 3 4 5
Idade

Fonte: Elaborada pelo autor.

7.8.3 Propriedades de uma variável aleatória discreta


Uma variável aleatória discreta X tem duas propriedades:

P(X = x) ≥ 0

P(X = x) = 1

Podemos representar essa propriedade P(X = x) com base em sua frequência f(x), então as
condições anteriores poderiam também ser expressas da seguinte forma:

f(x) ≥ 0

f( x) = 1

No exemplo supracitado, teremos para cada valor de X um valor de P(X = x) maior ou igual
a zero (nesse caso, sempre maior do que zero, pois não há idades não representadas) e a soma das
probabilidades é igual a 1, conforme tabela a seguir:
Noções úteis de probabilidades 93

Tabela 2 – Probabilidades por idade de idosos

Probabilidade
Idade (X)
de X, P(X = x)

67 0,10

68 0,25

69 0,50

70 0,10

71 0,05

Total 1,00

Fonte: Elaborada pelo autor.

7.8.4 Função de distribuição acumulada


Dada uma variável aleatória X, o valor da função de distribuição acumulada no ponto x,
denotada por F(x), é a probabilidade de que X tome valores menores ou iguais a x. Ou seja,

F(x) = P(X ≤ x)

No exemplo das idades, teremos:

Probabilidade Probabilidade
Idade (X)
X de P(X = x) acumulada F(x)

67 0,10 0,10

68 0,25 0,35

69 0,50 0,85

70 0,10 0,95

71 0,05 1,00

Verificamos, então, que, se sortearmos uma pessoa ao acaso, a probabilidade de que a sua
idade seja de até 69 anos será igual a 0,85.

7.8.5 Esperança e variância de uma variável aleatória discreta


A esperança de uma variável aleatória discreta, também chamada de expectância ou valor
esperado, é a média aritmética ponderada pelas probabilidades. Ela pode ser definida como:

= E(X) = X.P(X = x)
94 Estatística aplicada às ciências sociais

Observe que a representação da média pode ser feita por meio do símbolo µ, que é a repre-
sentação da média da população e, nesse caso, a média da distribuição de probabilidades de X,
ou por meio do símbolo E(X), esperança ou expectância da variável X, que é, em última análise,
o valor da média dos valores que X pode assumir.
1
Perceba que E(X) = 1 X, então, o E de esperança pode ser substituído por de
N N
alguma coisa – nesse caso, dos valores de X.
A variância de uma variável aleatória discreta é definida como:

2
= VAR(X) = E(X – )2 = E(X2) – [E(X)]2

Aqui, novamente, E é o símbolo da esperança ou da média. A variância é, então, a média das


distâncias ao quadrado de cada valor em relação ao ponto central µ. A letra µ representa a média
dos valores de X. Utilizando a ideia da esperança usada para a média, isto é, E sendo substituído
por 1 , teremos: 1 (X – )2, a conhecida expressão da variância populacional, em que:
N N

E(X2) = X2 P(X = x)

Para o exemplo das idades, temos:

X P(X = x) X P(X = x) X2 X2 P(X = x)

67 0,10 6,7 4.489 448,9

68 0,25 17 4.624 1.156

69 0,50 34,5 4.761 2.380,5

70 0,10 7 4.900 490

71 0,05 3,55 5.041 252,05

Total E(X) = 68,75 E(X2) = 4.727,45

E(X) = 68,75
VAR(X) = E(X2) – [E(X)]2 = 4.727,45 – (68,75)2 = 0,8875

Portanto, a idade média do grupo é de 68,75 anos, e sua variância é igual a 0,8875.
Noções úteis de probabilidades 95

7.8.6 Distribuição conjunta de probabilidades


Quando consideramos mais de uma variável aleatória, podemos construir uma distribuição
conjunta de probabilidades.
Sejam, por exemplo, duas variáveis, X e Y, cada uma delas pode assumir três valores: 0, 1 ou 2.
A variável X assume o valor 0 com probabilidade 0,2, o valor 1 com probabilidade 0,6 e o valor 2
com probabilidade 0,2, conforme a última linha da Tabela 3 a seguir, na qual temos P(X = 0) =
0,2, P(X = 1) = 0,6 e P(X = 2) = 0,2.
Também a variável Y pode assumir os três valores. Podemos observar na última coluna da
tabela que P(Y = 0) = 0,2, P(Y = 1) = 0,6 e P(Y = 2) = 0,2.
Essas probabilidades definidas são chamadas de distribuição de probabilidade marginal
de X e distribuição de probabilidade marginal de Y. Observe também, na tabela a seguir, que
P(X = 1, Y = 2) = 0.
Tabela 3 – Distribuição de probabilidades marginais de X e Y

X
Y
0 1 2 P(Y = y)

0 0,1 0,1 0 0,2

1 0,1 0,5 0 0,6

2 0 0 0,2 0,2

P(X = x) 0,2 0,6 0,2 1,0

Fonte: Elaborada pelo autor.

As probabilidades marginais podem ser separadas em duas tabelas, apresentadas a seguir:


Tabela 4 – Distribuição de probabilidades marginais de Y

Y P(Y = y)

0 0,2

1 0,6

2 0,2

P(Y = y) 1,0

Fonte: Elaborada pelo autor.


96 Estatística aplicada às ciências sociais

Tabela 5 – Distribuição de probabilidades marginais de X

X P(X = x)

0 0,2

1 0,6

2 0,2

P(X = x) 1,0

Fonte: Elaborada pelo autor.

As noções de probabilidade e de distribuição de probabilidades abordadas neste capítulo


objetivaram apresentar as ferramentas básicas para que um pesquisador da área de ciências sociais
possa ter mais intimidade com o uso da noção de probabilidades, que será muito útil quando utili-
zar métodos quantitativos indutivos como complemento da investigação sociológica.

Atividades
1. Dois grupos de pessoas foram formados: o primeiro composto somente de mulheres, con-
junto M = {Carmen, Luisa, Helena, Flávia, Julia, Natália}, e o segundo contendo apenas
homens, H = {Luiz, João, Carlos, Samuel, Paulo}. Duas pessoas, um homem e uma mulher,
foram sorteadas ao acaso. Qual é a probabilidade de que o conjunto resultante seja formado
por um homem e por uma mulher, ambos com a primeira letra do nome C?

2. O quadro a seguir apresenta a distribuição de frequências de pessoas de dois municípios em


diversas faixas etárias. Com base nele, construa as distribuições de probabilidades marginais
e apresente os resultados obtidos.

Município 15-24 25-34 35-44 45-54 55-64 65 ou+ Total

A 38 129 98 75 67 82 489

B 23 85 105 77 86 102 478

Total 61 214 203 152 153 184 967

3. Calcule a esperança da distribuição marginal das idades da atividade 2 e apresente o signifi-


cado dos resultados encontrados.
8
Inferência

Chamar o especialista em estatística depois que o experimento foi feito


pode ser o mesmo que pedir a ele para fazer um exame post mortem.
Talvez ele consiga dizer de que foi que o experimento morreu.

Sir Ronald Fisher (1890-1962)1

8.1 Investigação sociológica


Chamaremos o conjunto de procedimentos relacionados à investigação não experimental
que tem por objeto o estudo das relações entre variáveis sociais de investigação sociológica. Esses
procedimentos são não experimentais porque são resultado de observações realizadas na socieda-
de, independentemente da intervenção do pesquisador para estabelecer as relações entre as variá-
veis. Dessa forma, a investigação sociológica é fundamentalmente observacional, pois advém de
fatos sociais que ocorrem devido a fatores não controlados.
Essa distinção entre o que se conhece por ensaios experimentais controlados e estudos observa-
cionais será sempre determinante da técnica utilizada para a observação de fenômenos e análise das
variáveis neles contidas. O fato de ser observacional não significa que os propósitos não possam ser
inferenciais, isto é, que não possam utilizar procedimentos que impliquem tirar conclusões para um
conjunto maior de indivíduos com base na observação de uma pequena parcela deles.
O conjunto de metodologias empregadas para a realização das inferências desejadas faz
parte do rol dos métodos denominados indutivos. Em geral, esses métodos utilizam observa-
ções quantitativas por meio de contagem ou medidas em uma amostra, parte representativa da
população, para estabelecer relações entre as variáveis no conjunto maior, que representa uma
determinada parcela da sociedade, chamada de população-alvo.
Esses procedimentos inferenciais podem ser realizados em certo corte no tempo ou, ainda,
com base em observações do passado e do presente para tentar compreender um fenômeno no
futuro. Esta última abordagem é conhecida como análise de séries temporais e não faz parte do
escopo deste livro.
As técnicas empregadas para o estudo das variáveis sociais e de suas relações, quando adota-
mos procedimentos numéricos de observação das variáveis, contam com um vasto ferramental de
técnicas estatísticas, que têm recebido enorme contribuição desde o início do século XX, sobretudo
do grande domínio da informática, que permite o trato com grandes massas de dados e em alta
velocidade de processamento.

1 Geneticista inglês considerado o pai da estatística moderna.


98 Estatística aplicada às ciências sociais

O nível de sofisticação dos procedimentos está diretamente relacionado à complexidade dos


fenômenos que desejamos estudar. Há, no entanto, procedimentos utilizados universalmente que
possibilitam análises consistentes por meio de técnicas básicas e facilmente acessíveis, sem perder
o poder de auxiliar o cientista social na construção de uma base de conhecimento alicerçada em
observações empíricas que podem servir de evidência para a comprovação e/ou verificação de
hipóteses e teorias relativas à compreensão de fenômenos sociais.
A investigação sociológica inclui uma gama ilimitada de variáveis caracterizadas por sua
orientação social, como preferência política, status social, orientação religiosa, afiliação a associa-
ções, escolaridade, renda, ocupação, idade, cor da pele, sexo, entre outras. Essas variáveis sociais
são medidas ou atributos de indivíduos que têm a característica comum de serem membros de
grupos sociais grandes ou pequenos e, assim, de serem compartilhadas por muitos ou pela maioria
dos indivíduos.
Em resumo, esses estudos têm como características comuns usar variáveis sociológicas, ser
não experimentais, dirigir-se a problemas sociais importantes e utilizar um conjunto de procedi-
mentos analíticos de uso comum e de eficácia comprovada.

8.2 Procedimentos inferenciais


Estabelecemos que é possível fazer declarações acerca de parâmetros populacionais com
base em observações amostrais. Se desejarmos, por exemplo, fazer um estudo sobre a renda
média de um grupo social, podemos estabelecer arbitrariamente um valor mínimo de renda que
consideremos digno para a sobrevivência das famílias da comunidade em questão. Para verificar
o nível de renda, tomaremos uma amostra aleatória de famílias, esperando que esse pequeno
grupo represente a totalidade da comunidade.
Como esse processo envolve certo nível de incerteza, não se pode garantir de maneira
absoluta que o valor encontrado para a média amostral das rendas familiares seja igual ao valor
da renda média de toda a população.
Dois procedimentos, então, podem ser realizados com base no resultado amostral. O pri-
meiro é construir um intervalo em torno do valor da média amostral, no qual se possa afirmar com
certo nível de confiança que o verdadeiro valor da média populacional pertença a esse intervalo.
O segundo procedimento é o de testar se, com base na média amostral, o valor mínimo de renda
média populacional pode ser aceito.
Para um ou outro caso, podemos também estar interessados em comparar a renda média de
dois grupos. Nesse caso, estabeleceremos um intervalo em torno do valor da diferença entre as mé-
dias amostrais e também podemos testar a hipótese de que as rendas sejam iguais. Em se tratando
de rendas iguais, a diferença deve ser muito próxima a zero.
Assim, três procedimentos de estimação foram estabelecidos. O primeiro é chamado de
estimação pontual, em que o valor da média amostral é uma estimativa da média populacional.
Com base nele, constroem-se os outros dois procedimentos, um denominado de estimação por
intervalo ou construção de um intervalo de confiança e outro de testagem de hipóteses estatísticas.
Inferência 99

No caso de trabalharmos com diferenças entre médias, a diferença entre as médias amostrais é
um estimador da diferença entre as médias das populações. Vale, nesse caso também, o esforço
de construção de um intervalo de confiança para a diferença entre as médias populacionais ou
testar a hipótese de que a diferença entre elas seja igual a zero.
Em geral, estamos interessados em verificar como uma variável de uma determinada popu-
lação se comporta. Em um estudo sobre a aceitação de um novo artigo alimentar, pode ser interes-
sante conhecer variáveis que caracterizem o estado nutricional da população a quem o produto é
destinado. O peso da população, por exemplo, pode ser uma dessas variáveis.
A caracterização do peso da população pode ser feita mediante uma distribuição de fre-
quências, que pode aproximar uma distribuição de probabilidades. Essa distribuição tem algumas
características importantes, como o valor da média, do desvio-padrão e da forma da distribuição,
e pode ser discreta ou contínua. Neste capítulo, estudaremos algumas distribuições contínuas de
grande utilidade para se fazer inferência. Vale lembrar que a chamada distribuição discreta diz
respeito à contagem, e a distribuição contínua é fruto de alguma forma de medição. Vamos nos res-
tringir às distribuições contínuas mais importantes para o propósito de estimação: a distribuição
normal e a distribuição “t” de Student.

8.3 A distribuição normal


No tratamento de dados, quando construímos uma distribuição de frequências com base em
observações, podemos aproximá-la de uma distribuição de probabilidades. Os dados podem levar
a diferentes tipos de distribuição, no entanto uma delas atribui um papel central à teoria e à prática
estatística: a distribuição normal.

8.3.1 Propriedades da curva normal


A distribuição normal é uma distribuição contínua. Enquanto as distribuições discretas assu-
mem valores com base em números inteiros, as distribuições contínuas assumem todos os valores
entre os números inteiros, ou seja, seu domínio é o dos números reais. A distribuição normal parti-
cularmente tem como domínio qualquer valor real entre menos infinito e mais infinito.
Uma característica importante desse tipo de distribuição é que ela é uma função de x que
pode ser inteiramente determinada com o conhecimento dos valores da média e do desvio-padrão.
Fala-se que X tem distribuição normal com média e desvio-padrão . A sua expressão matemá-
tica é dada pela função:

1 –1/2 x – μ
2

f(x) = .e ,– <x<
σ 2π

Nessa equação, a média μ e o desvio-padrão σ, que determinam o ponto central e a dispersão


da distribuição em torno da média, são os dois parâmetros da distribuição normal. Substituindo x
por seus valores, obtemos os valores de f(x) e podemos então traçar o gráfico da função.
100 Estatística aplicada às ciências sociais

O seu aspecto é o de um sino, por isso muitas vezes é chamado de curva do sino.
Figura 1 – Gráfico da função: curva do sino

Ponto de inflexão Ponto de inflexão


μ–σ μ+σ

x
μ

Fonte: Elaborada pelo autor.

O valor central é o da média μ, e a curva é simétrica em relação a μ. A área total sob a cur-
va é igual à unidade. Nos pontos de inflexão (quando a curva muda sua convexidade) de cada
lado da curva, temos o valor de X igual a μ – 1σ e μ + 1σ. A curva é assintótica ao eixo X, ou seja,
ela se aproxima do eixo X em - e em + . Representamos essa distribuição como X ~ N( ; ).
Em muitos livros, a representação leva em conta o valor da variância, nesses casos, a notação
fica X ~ N( ; 2).

8.3.2 Áreas abaixo da curva normal


Como a área abaixo da curva é igual a 1, podemos associar áreas a valores de probabilidade,
a exemplo do que se pode fazer com o histograma. Assim, a probabilidade de sortearmos um ele-
mento da população cujo valor da variável seja maior do que é de 0,5 ou 50%, da mesma forma
que 50% da área da curva está associada a valores menores do que . Esses fatos podem ser descri-
tos por meio das expressões:
P(X ≤ ) = 0,5 e P(X ≥ ) = 0,5
Figura 2 – Gráfico de áreas abaixo da curva normal

f(X)

Fonte: Elaborada pelo autor.

Observe que essas probabilidades são complementares. Dessa forma, se pudermos calcular
a área entre dois pontos da curva, ela será igual à probabilidade de sortearmos um elemento cujo
valor esteja entre esses dois pontos.
Vejamos algumas probabilidades associadas a algumas áreas particulares:
P(– < X ≤ + 1 ) = 0,8413, isto é, a área sob a curva entre - e +1 é sempre de
84,13%, independentemente dos valores de e de .
Inferência 101

f(X)

+1 x

Outras probabilidades particulares importantes são:


P(– < X ≤ + 2 ) = 0,9772

f(X)

+2 x

P(– < X ≤ + 3 ) = 0,9987

f(X)

+3 x

P(– < X ≤ + 4 ) = 0,9999

f(X)

+4 x

Observe que, embora X varie de - até + , praticamente 100% da área da curva está entre
- e + 4 . Veremos mais adiante que, na verdade, o intervalo (-4 , +4 ) abrange quase 100% de
toda a área.
102 Estatística aplicada às ciências sociais

Exemplos
Considerando um estudo nutricional, se a variável for o peso da população
com média de 70 kg e desvio-padrão de 10 kg, e se sortearmos um elemento
ao acaso dessa população, poderemos calcular algumas probabilidades:

• Probabilidade de sortearmos uma pessoa com mais de 70 kg:


P(X ≥ 70) = 0,5

f(X)

70 x

• Probabilidade de sortearmos uma pessoa com peso entre 60 kg e 80 kg:

P(60 ≤ X ≤ 80) = P(70 –10 ≤ X ≤ 70 + 10) = P( – 1σ ≤ X ≤ + 1σ) =


P(– < X ≤ μ + 1 ) – P(– < X ≤ – 1 )
O gráfico a seguir ilustra bem essa situação, fazendo de fato uma diferença
entre áreas. A área correspondente a P( – 1 ≤ X ≤ + 1 ) é igual à
área correspondente a P(– < X ≤ + 1 ) menos a área equivalente a
P(– < X ≤ – 1 ).

–1 0 +1
área sob a curva área sob a curva
normal padrão normal padrão
abaixo de -1 abaixo de +1

Mas P(– < X ≤ + 1 ) = 0,8413 e P(– < X ≤ – 1 ) = 1 – 0,8413


= 0,1587, observe que as áreas são simétricas ao ponto central . Logo,
P(60 ≤ X ≤ 80) = 0,8423 – 0,1587 = 0,6426.
Inferência 103

f(X)

60 80 x

• Probabilidade de sortearmos uma pessoa com peso entre 70 kg e 80 kg:


P(70 ≤ X ≤ 80) = P(70 ≤ X ≤ 70 + 10) = P(– < X ≤ + 1 ) – P(– < X ≤ ) =
0,8413 – 0,5 = 0,3413
Lembre-se novamente de que as áreas são simétricas em relação a ,
então P(– < X ≤ ) = 0,5.

f(X)

70 80 x

• Probabilidade de sortearmos uma pessoa com menos de 60 kg:


P(X ≤ 60) = P(X ≤ 70 – 10) = P(X ≤ – 1 ) = 1 – 0,8413 = 0,1587

f(X)

60 x

• Probabilidade de sortearmos uma pessoa com peso entre 60 kg e 90 kg:


P(60 ≤ X ≤ 90) = P(70 –10 ≤ X ≤ 70 + 20) = P( – 1 ≤ X ≤ + 2 ) =
P(– < X ≤ + 2 ) – P(– < X ≤ – 1 ) = 0,9772 – 0,1587 = 0,8185

f(X)

60 90 x
104 Estatística aplicada às ciências sociais

• Probabilidade de sortearmos uma pessoa com peso entre 80 kg e 100 kg:


P(80 ≤ X ≤ 100) = P(70 –10 ≤ X ≤ 70 + 30) = P( + 1 ≤ X ≤ + 3 ) =
P(– < X ≤ + 3 ) – P(– < X ≤ + 1 ) = 0,9987 – 0,8413 = 0,1574

f(X)

80 100 x
Z

Duas observações devem ser feitas nesse ponto:


1. A probabilidade em um ponto numa distribuição contínua é sempre igual a zero. Não há
como calcularmos área. Então, por ser indiferente, determinamos por convenção que, no
cálculo dessas probabilidades, usaremos um intervalo aberto à esquerda, isto é, P( – 1
≤ X ≤ + 1 ) = P( – 1 < X ≤ + 1 ), e essa convenção vale para todos os intervalos.
2. Precisamos sempre verificar a quantos desvios-padrão está o valor de X em relação à mé-
dia. Seja X ~ N(70,10). Então, em P(60 ≤ X ≤ 90) = P(70 – 10 ≤ X ≤ 70 + 20) = P(70 –1
≤ X ≤ 70 + 2 ). Para determinar o valor “z” de quantos desvios-padrão 90 está distante
da média, fazemos 90 = + z . Isolando “z”, temos z = (90 – )/ . Como = 70 e = 10,
temos que z = (90 – 70)/10 = 2. Ou seja, “z” é o número de desvios-padrão que separam
a média do valor desejado.

8.3.3 Normal padrão


Vimos que, para identificar quantos desvios-padrão separam a média dos valores para os
quais desejamos determinar as probabilidades, basta saber a área associada ao número de desvios-
-padrão. Isso equivale a trabalhar com uma distribuição normal com média 0 e desvio-padrão 1.
Essa distribuição é chamada de distribuição normal padrão e a representamos por Z ~ N(O,1), em
que z = (X – )/ .
A forma como foram determinadas as probabilidades fornecidas anteriormente, entre -
e a média mais um desvio-padrão, entre - e a média mais dois, três e quatro desvios-padrão,
é a forma usual no cálculo de áreas de funções, que é o cálculo da integral da função entre - e
+ 1 da função normal padrão para o primeiro caso. O mesmo vale para os demais casos. A área
entre - e + 2 foi determinada pelo cálculo da integral definida da função f(x) da expressão da
distribuição normal padrão, tendo como limites - e + 2 .
Então, a probabilidade P(X ≤ 60) = P(X ≤ – 1 ) = P(– < X ≤ – 1 ) = P(– < Z ≤ 1)
é a integral definida de f(x) de - e -1 e fornecerá o valor exato dessa probabilidade. Está claro que
Inferência 105

esse cálculo seria tedioso, além de envolver um procedimento altamente complexo de cálculo de
integrais.
Vale ressaltar uma característica importantíssima da distribuição normal: independente-
mente dos valores da média e do desvio-padrão, essas áreas são sempre as mesmas. Queremos
dizer com isso que, para qualquer população normal, a área entre - e –1 será sempre a mes-
ma. Se temos duas populações normais, sendo a primeira X com média 70 e desvio-padrão 10,
e a segunda Y com média 20 e desvio-padrão 2, as probabilidades P(X ≤ 60) e P(Y ≤ 18) serão
iguais, porque ambas representam P(X ≤ – 1 ) = P(Z ≤ 1).
Se a área entre - e 1 é 0,8413, correspondente à função de distribuição acumulada, então
a área entre e ( + 1 ) será 0,8413 – 0,5 = 0,3413.

f(X)

+1 x

8.3.4 Função de distribuição acumulada da distribuição normal


Como vimos, a área acumulada entre - e um certo valor de Z pode ser utilizada para
calcularmos as probabilidades correspondentes. Então, se queremos P( – 1 ≤ X ≤ + 2 ),
devemos calcular P(X ≤ + 2 ) – P(X ≤ + 1 ). Essa diferença é igual a P(Z ≤ 2) – P(Z ≤ – 1) =
F(2) – F(–1).

= –

–1 2 2 –1

A Tabela A, que pode ser consultada na seção dos anexos deste livro, representa as áreas de
uma distribuição normal padrão acumulada. No exemplo anterior, temos que F(2,00) – F(1,00) =
0,9772 – 0,1587 = 0,8185. Na tabela, o cruzamento do valor 2,0 na primeira coluna e o valor 0 na
primeira linha representam o valor 2,00, da mesma forma que o valor 1,00 está na casa correspon-
dente a 1,0 na primeira coluna e 0 na primeira linha.
Se a variável considerada for o peso da população com média de 70 kg e desvio-padrão de 10 kg,
e se sortearmos um elemento ao acaso dessa população, poderemos calcular as probabilidades.
106 Estatística aplicada às ciências sociais

Exemplos
• Probabilidade de sortearmos uma pessoa com mais de 70 kg:
P(X ≥ 70) = 1 – P(X ≤ 70) = 1 – P[(X – )/ ≤ (70 – )/ ] = 1 – P[Z ≤
(70 – 70)/ 10] = 1 – P(Z ≤ 0) = 1 – F(0) = 1 – 0,5 = 0,5
f(X)

70 x

• Probabilidade de sortearmos uma pessoa com peso entre 60 kg e 80 kg:


P(60 ≤ X ≤ 80) = P[(60 – )/ ≤ (X– μ)/ ≤ (80 – )/ ] =
P[(60 – 70)/10 ≤ Z ≤ (80 – 70)/10] = P(– 1 ≤ Z ≤ 1) = F(1) – F(– 1)
Observamos na Tabela A que F(1) = 0,8413 e F(–1) = 0,1587, então F(1)
– F(– 1) = 0,8413 – 0,1587 = 0,6426.

= –

–1 1 1 –1

Veja que podemos calcular qualquer probabilidade, mesmo que os nú-


meros não sejam redondos. Por exemplo:
P(56,5 ≤ X ≤ 64,8) = P[(56,5 – 70)/10 ≤ Z ≤ (64,8 – 70)/10] =
F(– 0,52) – F(–1,35) = 0,3015 – 0,0885 = 0,2130
Tomamos na Tabela A o valor de F(–0,52) no cruzamento de -0,5 na pri-
meira coluna e 2 na primeira linha, e o valor de F(–1,35) no cruzamento
de -1,3 e 5. Observe que o 2 de -0,52 corresponde a 0,02 e o 5 de -1,35
equivale a 0,05.
Inferência 107

f(X)

56,5 64,8 x

• Probabilidade de sortearmos uma pessoa com peso entre 70 kg e 80 kg:


P(70 ≤ X ≤ 80) = P[(70 – 70)/10 ≤ Z ≤ (80 – 70)/10] = P(0 ≤ Z ≤ 1) =
F(1) – F(0) = 0,8413 – 0,5 = 0,3413
f(X)

70 80 x

• Probabilidade de sortearmos uma pessoa com menos de 60 kg:


P(X ≤ 60) = P[Z ≤ (60 –70)/10] = P(Z ≤ – 1) = 0,1587
f(X)

60 x

• Probabilidade de sortearmos uma pessoa com peso entre 60 kg e 90 kg:


P(60 ≤ X ≤ 90) = P((60 – 70)/10 ≤ Z ≤ (90 – 70)/10) = P(– 1 ≤ Z ≤ 2) =
F(2) – F(– 1) = 0,9772 – 0,1587 = 0,8185

f(X)

60 90 x
108 Estatística aplicada às ciências sociais

• Probabilidade de sortearmos uma pessoa com peso entre 80 kg e 100 kg:


P(80 ≤ X ≤ 100) = P[(80 – 70)/10 ≤ Z ≤ (100 – 70)/10] = P(1 ≤ Z ≤ 3) =
F(3) – F(1) = 0,9987 – 0,8413 = 0,1574

f(X)

80 100 x

8.4 A distribuição “t” de Student


A distribuição “t” de Student é atribuída ao químico e matemático inglês William Sealy
Gosset, que a desenvolveu trabalhando na cervejaria Guinness. “Student” era seu pseudônimo,
porque a cervejaria não permitia que seus empregados divulgassem qualquer tipo de estudo.
Essa distribuição de probabilidade é utilizada para a construção de intervalos de confiança
que envolvem médias populacionais e para teste de hipóteses de médias quando não conhecemos o
valor da variância populacional ( 2).

8.4.1 O aspecto da distribuição “t” de Student


A distribuição “t” de Student é muito parecida com a distribuição normal, mas seu aspecto
e o valor das probabilidades dependem do número de elementos da amostra. Para as situações de
determinação do intervalo de confiança para uma média populacional ou para um teste de hipó-
tese para uma média populacional, se a amostra tem “n” elementos, trabalharemos com “n – 1”
graus de liberdade para acessar o valor da probabilidade na Tabela “t” de Student (veja o anexo
referente a ela no fim deste livro).
Os graus de liberdade, no geral chamados de g.l., são números reais maiores do que zero
(normalmente utilizamos números inteiros, por estarem relacionados com o tamanho da amostra).
Fixando o valor de g.l., definimos uma situação particular da família de distribuições “t”. Uma
distribuição “t” com um g.l. menor tem mais área nas caudas da distribuição do que uma distri-
buição com um g.l. maior. A figura a seguir representa três distribuições “t” com diferentes graus
de liberdade.
Inferência 109

Figura 3 – Gráfico de distribuições “t”

g.l. = g.l. = 6
g.l. = 3

-3.18 -2.45 -1.96 tcrit 1.96 2.45 3.18

Fonte: Elaborada pelo autor.

Os valores apontados no eixo “X” estão associados a uma área abaixo da curva de 95%. Note
que, para g.l. = , a curva da distribuição “t” é igual à curva normal padrão, com os valores -1,96
e 1,96 para 95% de área. Para propósitos práticos, os valores de distribuição “t” aproximam-se dos
valores da distribuição normal padronizada relativamente depressa; já com n = 30, ou 29 graus de
liberdade, esses valores são quase idênticos.

8.5 Intervalo de confiança


Quando fazemos um processo de amostragem, verificamos em uma única amostra o valor
de uma estatística, a média do peso dos elementos da amostra, por exemplo, e tentamos inferir algo
sobre o parâmetro da população, nesse caso, a média do peso da população. Portanto, a média da
amostra é um estimador da média da população.
Como verificado no estudo de amostragem, a estimativa pontual de um parâmetro nem
sempre é suficiente. Como se trata de um processo que envolve amostragem e, portanto, incerteza,
vamos querer calcular um valor amostral, uma estatística, para estimar um valor do parâmetro,
adicionando a essa estimativa um intervalo para o qual tenhamos certo nível de confiança de que
o parâmetro possa pertencer.
No caso de estarmos estimando a proporção da preferência entre dois candidatos que com-
petem em uma eleição, podemos concluir, por meio de um processo de amostragem, que a propor-
ção da preferência pelo candidato A pode ser maior do que a do candidato B, mas que, no entanto,
essa diferença pode ocorrer somente devido a variações daquela amostra particular que foi toma-
da. Nesse caso, caracterizamos o fenômeno do empate técnico ou empate estatístico.
Devemos construir, então, em torno do valor estimado pontualmente, o chamado intervalo
de confiança. A seguir, forneceremos as expressões para o cálculo de intervalos de confiança para
diversas situações que ocorrem na prática, sem entrar nas considerações matemáticas que levam à
construção desses intervalos.

8.5.1 Intervalo de confiança para a média com σ conhecido


Se o desvio-padrão é conhecido, utilizamos o seu valor para o cálculo do intervalo, além do
valor da média e da estatística Z da distribuição normal.
110 Estatística aplicada às ciências sociais

P(X – z. X
≤ ≤ X + z. X) = 1 –

O que desejamos é fazer uma declaração sobre a média da população ( ), com base em uma
informação sobre a média das medidas da amostra (X).
Assim, estará em um intervalo de X d, em que “d” é um desvio, também chamado de
“margem de erro”.
O valor de “d”, conforme a teoria de amostragem, é dado por d = z. X. O erro-padrão pode
ser calculado por meio da fórmula: X
=
, em que n é o tamanho da amostra e σ é o valor do
n
desvio-padrão da medida já conhecido antes do trabalho de amostragem, com certeza comum a
outra pesquisa semelhante.
Este intervalo (X – z. X ≤ ≤ X + z. X) está associado a uma probabilidade de confiança,
chamada de nível de confiança, representada por: (1 – ). O valor de , conhecido como erro esta-
tístico, está relacionado com o valor de “z” da curva normal.
O exemplo a seguir pode facilitar a compreensão da utilização do intervalo de confiança.

Exemplo
Os acidentes automobilísticos no Brasil se tornaram uma das principais
causas de mortalidade. Além da imprudência dos motoristas, a falta de
conservação dos equipamentos dos automóveis leva ao aumento do nú-
mero de acidentes. O órgão público responsável pelas estradas resolveu
verificar, por meio de uma pesquisa, a qualidade dos pneus. Para tanto,
realizou uma pesquisa por amostragem com 100 pneus, retirada de um
grande lote, observando sua vida média. Para essa amostra, a vida útil foi
verificada em 32.500 km para rodar com segurança. Sabe-se, por pesqui-
sas anteriores, que o desvio-padrão da população de pneus é de 3.000 km.
Desejamos construir para todo o lote um intervalo de confiança de
95%, no sentido de que o verdadeiro valor da vida média possa estar
nesse intervalo.
Para construir esse intervalo, que terá como limites X z. X, sabemos que
X = 32.500 e que X = = 3.000 = 300.
n 100
O valor de Z pode ser buscado na Tabela A da distribuição normal
padrão. Construiremos então três regiões na curva normal: a pri-
meira correspondendo à probabilidade de 0,025, a segunda a 0,95 e
a terceira também a 0,025. A origem desses valores está relacionada
Inferência 111

à determinação de frequências relativas. Buscando dentro da tabela


da distribuição normal padrão o valor 0,025, encontramos Z = -1,96.
Como a curva é simétrica, o valor de Z correspondendo a 0,975 será
Z = 1,96.
Portanto, o intervalo construído com base na expressão
P(X – z. X
≤ ≤ X + z. X) = 1 –
será: [32.500 – (1,96)(300)] ≤ ≤ [32.500 + (1,96)(300)].
Obteríamos, então, o intervalo: (31.912 km, 33.088 km).
Pode-se concluir que temos uma probabilidade de 0,95 de que o ver-
dadeiro valor da vida média dos pneus estará no intervalo (31.912 km,
33.088 km)? Rigorosamente não. O valor de μ é um dado real, portanto
não é uma variável aleatória e, no contexto da estatística clássica, um
parâmetro não tem distribuição de probabilidade nem se pode atribuir
uma probabilidade a ele. A interpretação de intervalo de confiança é a de
que, se construirmos 100 intervalos baseados em 100 amostras, o valor
do parâmetro deve estar dentro de 95 desses intervalos.
Para efeitos práticos, no entanto, não estaremos muito errados ao afir-
mar que temos uma confiança aproximada de 95% de que o parâmetro
esteja dentro do intervalo construído com base em uma única amostra.

8.5.2 Intervalo de confiança para a média com σ desconhecido


Na maior parte das aplicações práticas, o valor do desvio-padrão não é conhecido. A forma
de se construir o intervalo de confiança da média é feita com a estimação do valor de σ. O desvio-
-padrão populacional pode ser estimado pelo valor do desvio-padrão da amostra, S, que é a raiz
quadrada da variância.
Mas aqui surge o problema: quando é conhecido, a expressão do intervalo é X   z  X

com X
= ; como ficará então a expressão para o intervalo utilizando “s”, e não “σ”? A res-
n
posta é que o intervalo para a média com σ desconhecido será:

X t . sX , sendo que: sX = s
n

O que muda é simplesmente a utilização de “t” no lugar de “z”, que pode ser acessado na
tabela da distribuição “t” de Student.
112 Estatística aplicada às ciências sociais

8.5.3 Utilização da distribuição “t” para a determinação do intervalo de


confiança para μ
Quando não conhecemos o valor da variância populacional ( 2), devemos substituir, na
expressão do intervalo de confiança para a média populacional ( ), o valor de “z” por “t” e o valor
de 2 por S2, este último o valor da variância calculada com base nos dados amostrais. Então, a
expressão do intervalo original, quando conhecemos a variância populacional, será:

P(X – z. X
≤ ≤ X + z. X) = 1 –

Expressa por:

P(X – t.SX ≤ ≤ X + t.SX) = 1 –

Em que:
S
SX =
n

8.5.4 Como acessar o valor de “t” utilizando a


tabela da distribuição “t” de Student
Se queremos construir um intervalo de 95% de confiança, verificamos no topo da Tabela B,
nos anexos deste livro, o valor 0,05, que é igual a 1 – 0,95, e, com a determinação dos graus de
liberdade, verificamos o valor de “t”. Por exemplo, se o tamanho da amostra é igual a 20, podemos
identificar que o valor de “t” para 95% de confiança será igual a 2,093, que corresponde a 19 graus
de liberdade.
Para, por exemplo, construir o intervalo de confiança de 95% para a média populacional,
com base em uma amostra de tamanho 25, que resultou em média igual a 70 kg e desvio-padrão
igual a 10 kg, utilizamos a expressão:

P(X – t.SX ≤ ≤ X + t.SX) = 1 –

S 10 10
Como X = 70, SX = = = = 2 e tn–1 = t24 = 2,064, teremos:
n 25 5
P (70 – (2,064)(2) ≤ ≤ 70 + (2,064)(2)) = 1 – 0,05

P (70 – 4,13 ≤ ≤ 70 + 4,13) = 0,95

P (65,87 ≤ ≤ 74,13) = 0,95

Ou seja, com base nas evidências amostrais, temos 95% de confiança de que a média da po-
pulação será um valor entre 65,9 kg e 74,1 kg.
Quando a amostra for muito grande, os valores da distribuição “t” se aproximam muito da
distribuição normal, e, por isso, nessa situação será indiferente o uso de uma ou de outra. No caso
de amostras menores, é necessário calcular o valor de “t”, que é sempre referenciado pelos graus de
Inferência 113

liberdade do erro-padrão. Em se tratando da média, trabalharemos sempre com n – 1 graus de li-


berdade. Assim, se a amostra tem tamanho 20, buscamos na tabela da distribuição “t” o valor de “t”
correspondente ao nível de confiança do intervalo (1 – ) com os graus de liberdade equivalentes.
Na Tabela B dos anexos do fim deste livro, verificamos na parte superior as probabilidades
denominadas bicaudais. Então, se queremos um intervalo de 95% de confiança, buscamos na tabe-
la o valor de 0,05. Para o caso de uma amostra de tamanho 20, o valor de “t0,95” é de 2.093. Observe
também que, para amostras muito grandes, o valor de “t” se aproxima dos valores de “Z” da distri-
buição normal padrão.

Exemplo
Vamos considerar o mesmo exemplo anterior, no qual desejamos verifi-
car, por meio de uma amostra de 100 pneus retirada de um grande lote, a
vida média desses pneus. Não se conhece o desvio-padrão da população.
Para a amostra de 100 pneus, a vida útil foi determinada como 32.500
km para rodar com segurança, e o desvio-padrão amostral foi calculado
em 3.000 km. Observe que, nesse caso, o desvio-padrão populacional é
tido como desconhecido.
Desejamos construir para todo o lote um intervalo de confiança de
95%, no sentido de que o verdadeiro valor da vida média possa estar
nesse intervalo.
Para construir esse intervalo, que terá como limites X t.SX , sabemos
S 3 000
que X = 32.500 e que SX = = = 300.
n 100
O valor de “t” pode ser buscado na Tabela B da distribuição “t” de Student
com 95 graus de liberdade. Esse valor será de aproximadamente 1,98.
Portanto, o intervalo construído por meio da expressão P(X – t. X
≤ ≤
X + t. X ) = 1 – será:

[32.500 – (1,98)(300) ≤ ≤ 32.500 + (1,98)(300)]


Obteríamos, então, o resultado: (31.906 km, 33.094 km).

Veja que esses valores não diferem muito dos obtidos para quando σ era conhecido.
Mas e se a amostra for pequena, por exemplo, n = 36? Em primeiro lugar, o valor de SX =
S 3 000
= = 500. O valor de “t” para 95% e 35 graus de liberdade é aproximadamente igual a
n 36
2,030. Então, o intervalo será determinado por:

[32.500 – (2,03)(500) ≤ ≤ 32.500 + (2,03)(500)] = (31.485 km, 33.515 km).


114 Estatística aplicada às ciências sociais

Veja que, nessa situação, a precisão da estimativa dos limites do intervalo é ainda menor
do que no caso de amostras de tamanho 100 e do desvio-padrão conhecido. É bastante intuitivo
perceber que, quanto menor é o nosso nível de informação, menos precisas serão as estimativas.

8.5.5 Intervalo de confiança para outros parâmetros


Ficou claro da exposição feita anteriormente que, para construirmos um intervalo de con-
fiança, precisamos saber quem é o estimador do parâmetro, quem é o erro-padrão da estimativa e
qual é a estatística associada ao estimador.
Tendo essas informações, podemos construir o intervalo de confiança para o parâmetro ,
sabendo quem é , quem é o seu erro-padrão ou o seu estimador S e qual é a estatística asso-
ciada. E o intervalo, no geral, terá como limites:

Z ou tS

Ou seja, Parâmetros (Estimador Estatística x Erro-padrão).


O parâmetro é o valor que se observaria na população. Mas a amostragem substitui o le-
vantamento de toda a população, assim, o estimador é calculado com base nos valores observados
na amostra e, como o nome diz, pretende ser um valor que estime o parâmetro. A estatística está
relacionada ao tipo de intervalo que se deseja construir.
O quadro a seguir apresenta os principais elementos para a construção de intervalos
de confiança2:
Quadro 1 – Elementos do intervalo de confiança

Erro-padrão
Parâmetro Parâmetro θ Estimador Estatística
ou S

Média
X n Z
conhecido

Média
X S n tn–1
desconhecido

Proporção P P pq/n Z

Diferença de 2 2
1
+
2
médias com 1 e – X1 – X 2 Z
1 2
n1 n2
2
conhecidos

Diferença de S12 S22


médias com σ1 e 1
– 2
X1 – X2
n1
+ n2
t n1 + n2 –2
σ2 desconhecidos

Diferença de p1q1 p2q2


proporções
P1 – P2 P1 – P2
n1
+ n2
Z

Fonte: Elaborado pelo autor.

2 Outros intervalos de confiança podem ser construídos, como o chamado intervalo de confiança para a variância e
para a razão de duas variâncias. As distribuições de probabilidades associadas a esses intervalos são conhecidas como
distribuição qui-quadrado e distribuição “F” de Snedecor, que, pelo pouco uso no contexto deste livro, não foram incluídas
nele. Qualquer obra de estatística intermediária traz esses intervalos, caso haja necessidade de consultar.
Inferência 115

8.6 Testes de hipóteses


Uma outra forma de se fazer inferência sobre parâmetros da população com base em
dados da amostra é por meio da escolha de uma entre duas possibilidades, minimizando o
risco na tomada de decisões.
Um teste estatístico de hipóteses consiste em se fazer declarações sobre o parâmetro e
submetê-las às evidências amostrais.

8.6.1 Hipótese nula versus hipótese alternativa


Duas hipóteses então são estabelecidas: a hipótese da igualdade ou hipótese nula versus uma
hipótese alternativa.
A hipótese nula é denotada por H0 e nela se faz uma suposição sobre o valor do parâmetro;
e a hipótese alternativa, denotada por H1, contrapõe-se à declaração da hipótese nula, podendo-se
afirmar que o parâmetro é diferente, maior ou menor do que o valor estabelecido pela hipótese da
igualdade. A representação formal de um teste é dada por:
• Teste bilateral:
H0: = c
H1: c
• Teste unilateral à direita:
H0: = c
H1: > c
• Teste unilateral à esquerda:
H0: = c
H1: < c
A escolha de com qual dos três tipos de teste deve-se proceder depende da quantidade e
qualidade de informação que se tenha antes da coleta dos dados. No caso de se ter informação
suficiente sobre a direção do teste, os testes unilaterais são preferíveis ao bilateral, devido à maior
força de seu resultado.
Como o teste está associado à amostragem e, portanto, à incerteza, existem quatro possíveis
resultados: rejeitar H0 (incorreta ou corretamente) e não rejeitar H0 (incorreta ou corretamente).
O quadro a seguir apresenta essas quatro possibilidades:

Ação com relação a H0 H0 é verdadeira H0 é falsa

Não rejeitar H0 Decisão correta Erro tipo II

Rejeitar H0 Erro tipo I Decisão correta


116 Estatística aplicada às ciências sociais

8.6.2 Erro tipo I e erro tipo II


O tamanho de cada tipo de erro é dado pela sua probabilidade de ocorrência. A probabili-
dade de se cometer o erro tipo I é chamada de , e a probabilidade de se cometer o erro tipo II é
chamada de .
Para o cálculo do tamanho da amostra e para a tomada de decisões, no geral, controla-se o
erro tipo I, por ser considerado o mais grave. Uma analogia pode ser feita com um julgamento, em
que a hipótese nula é a de que o réu é inocente. Pergunta-se: o que é mais grave, rejeitar H0 quando
H0 é verdadeira, que significa condenar um inocente, ou não rejeitar H0 quando ela é falsa, que sig-
nifica absolver um culpado? Do ponto de vista ético, parece ser mais grave condenar um inocente.
O erro tipo I é também chamado de erro do consumidor. Por exemplo, um laboratório testa
um novo medicamento; rejeitar H0 significa que esse medicamento é melhor do que o que está na
praça. Se ele não for de fato, isto é, se H0 for verdadeira, o consumidor estará sendo prejudicado.
O erro tipo II é chamado de erro do produtor e ocorre quando o novo medicamento é
melhor e, por isso, H0 deveria ser rejeitado, no entanto os testes não permitem rejeitar H0 e o
fabricante terá prejuízo por não colocar um novo medicamento melhor do que o tradicional
no mercado.

8.6.3 Procedimento de testagem de hipóteses para a média populacional μ


Vamos expor o procedimento de testagem de hipóteses por meio de uma aplicação: suponha
que a renda média das famílias de certo município foi determinada pelo censo como sendo igual a
R$ 2.000,00 para um particular ano e, dois anos depois, desejamos verificar se houve alguma mu-
dança na renda familiar, por meio de um levantamento amostral.
No Brasil, as pesquisas nacionais por amostra de domicílios (PNAD)3 cumprem esse papel
entre os censos que são realizados a cada 10 anos.
Devemos estabelecer as duas hipóteses estatísticas. A hipótese nula é de que a renda média
familiar continua sendo de R$ 2.000,00. A hipótese alternativa é contrária a essa. Se não há qual-
quer informação adicional de que a renda média possa ter aumentado ou diminuído, toma-se
como alternativa a hipótese de que a renda média é diferente de R$ 2.000,00. Os dados dirão se ela
aumentou ou diminuiu e se essa mudança foi significativa ou se a diferença pode ter ocorrido por
pequenas variações do acaso.
Se algum novo empreendimento foi realizado no município, pode-se supor que houve um
aumento do nível de emprego, gerando maior renda média familiar. Então, a hipótese alternativa
pode ser a de que a média é maior do que R$ 2.000,00. Por outro lado, se alguma indústria deixou
a cidade ou se houve movimentos migratórios importantes, como a chegada de pessoas de municí-
pios mais pobres ou a saída de força de trabalho para centros maiores, a hipótese alternativa pode
ser a de que a média é menor do que R$ 2.000,00.

3 As pesquisas mais recentes podem ser consultadas no site do IBGE, disponível em: https://ww2.ibge.gov.br/home/
estatistica/pesquisas/pesquisa_resultados.php?id_pesquisa=40. Acesso em: 30 out. 2018.
Inferência 117

Vamos ficar, inicialmente, com a primeira possibilidade. O primeiro passo é estabelecer as


hipóteses estatísticas para um teste bilateral:
H0: = 2.000
H1: 2.000

Suponhamos, então, que uma amostra de 25 famílias foi pesquisada e que a média amostral
da renda familiar foi calculada em R$ 2.200,00. Pergunta-se, com base nesse dado e sabendo-se
que o desvio-padrão da renda familiar foi determinado no censo como tendo o valor de R$ 500,00,
se há uma diferença significativa da renda média familiar nesses dois anos.
Precisamos agora estabelecer a estatística do teste. A estatística X – tem distribuição
/ n
normal padrão, Z. Então:
2.200 – 2.000 200
Z= = =2
500 / 25 100
Feito isso, temos de verificar qual é a área sob a curva normal padrão entre -2 e 2, por ser
este um teste bilateral.
P(– 2 < Z ≤ 2) = F(2) – F(– 2) = 0,9772 – 0,0228 = 0,9544

Essa probabilidade está associada a um valor de = 1 – 0,9544 = 0,0456 e é chamada


de p-valor.
Para a tomada de decisão, precisamos compreender o significado desse p-valor. O p-valor é
a probabilidade de rejeitarmos H0 quando ele é verdadeiro. Ou seja, dizemos que 2.000, quando
de fato não é. Nesse caso, temos uma probabilidade de 4,56% de estarmos errando se afirmarmos
que a renda média familiar mudou nesses dois anos.
Por outro lado, podemos dizer que temos uma confiança de 95,44% de que houve
mudança na renda média familiar do município. O que decidir? Tradicionalmente, quando o
p-valor for menor do que 5%, decidimos por H1. Nessas circunstâncias, diríamos que houve,
sim, uma mudança na renda.
Mas esse padrão de 5% não deve ser tomado de maneira absoluta. A decisão deve depender
das consequências da gravidade da admissão da possibilidade de se estar cometendo um erro. Se as
consequências forem graves, talvez o tomador de decisões resolva ser mais rigoroso e só admitir H1
se o p-valor for menor do que 0,01, por exemplo. Isto é, ele deseja uma confiança de, no mínimo,
99% para rejeitar H0.
Por outro lado, se as consequências da tomada de decisão incorreta forem menos traumáti-
cas, ele pode admitir tomar a decisão com 90% de confiança e, portanto, somente se o p-valor for
maior do que 0,10 ele não admitirá a hipótese alternativa.
Esse é o procedimento-padrão para testagem de hipóteses estatísticas.
118 Estatística aplicada às ciências sociais

8.6.4 Variações no procedimento de testagem de hipóteses


para a média populacional μ
Nesse procedimento adotado, duas variações importantes podem acontecer:
(i) Pode-se supor, no exemplo, que haveria uma mudança para maior na renda média men-
sal e, portanto, um teste unilateral deveria ter sido feito.
(ii) Não se conhece o valor de .
Analisando os dados para a suposição (i), devemos fazer o teste unilateral; assim, as hipóteses
estatísticas seriam estabelecidas como:
H0: = 2.000
H1: > 2.000

A estatística do teste é a mesma, e o seu valor, determinado com base nos valores amostrais,
foi de Z = 2. Agora, (1 – ) compreende toda a área da curva normal de - até 2, que corresponde
a P( Z ≤ 2) = 0,9772. Então, ou o p-valor = 1 – 0,9772 = 0,0228.
O tomador de decisões tem agora um risco menor em afirmar que a renda familiar aumentou.
O seu nível de confiança subiu para 97,7%. Por que isso ocorreu no teste unilateral? O nível de con-
fiança cresceu porque foi agregada maior quantidade de informação por meio do direcionamento do
teste. Já supúnhamos que haveria aumento da renda.
Para o caso de não se conhecer o valor de , ele deve ser estimado com base nos dados da
amostra, tendo como estimador o desvio-padrão amostral, S. Vamos supor que o valor calculado
de S na amostra tenha sido de R$ 500,00. Tomamos o mesmo valor dos primeiros dois exemplos
apenas para comparação, é preciso enfatizar que o valor de S da amostra não tem qualquer corres-
pondência com algum valor determinado no censo.
Vamos manter o teste unilateral, a exemplo do último exercício:
H0: = 2.000
H1: > 2.000

Uma vez que desconhecemos o desvio-padrão, a estatística do teste agora muda, e a distri-
X–
buição de não é mais normal, mas sim uma distribuição “t” com n – 1 graus de liberdade.
S/ n
O valor de “t” será determinado, com base nos dados amostrais, como:

2.200 – 2.000 200


t= = =2
500 / 25 100

O nível de significância de t = 2 com 24 graus de liberdade é aproximadamente 0,028. Esse


valor pode ser determinado por interpolação ou com o auxílio de uma planilha eletrônica para a
função distribuição “t”.
Inferência 119

Com p-valor de 0,028, o nível de confiança para a rejeição de H0 será de 97,1%. Observe que
esse valor é a favor de H1, mas com menos força do que o 97,7% para o caso de conhecermos o valor
de σ, porque, quando temos conhecimento dele, possuímos mais informação agregada.
Se o teste “t” tivesse sido realizado para a hipótese bilateral, o p-valor seria igual a 0,057 e o
nível de confiança de 94,3%, porque não teríamos a informação de nem a fornecida pelo direcio-
namento do teste.

8.6.5 Utilização da distribuição “t” para teste de hipóteses


Vamos supor que queremos testar a hipótese de que a média do peso da população seja igual
a 65 kg, baseados nos dados amostrais de uma amostra de 25 elementos, que resultou em média da
amostra de 70 kg e desvio-padrão, também calculado na amostra, de 10 kg.
Podemos usar dois procedimentos para responder a essa questão:
• Procedimento 1: utilizando o intervalo de confiança.
Verificamos que o intervalo de confiança para 95% para a média é (65,9; 74,1). Então, a
média da população deve ser de, no mínimo, 65,9 kg, e assim podemos rejeitar a hipótese
de que a média da população possa ser igual a 65 kg.
• Procedimento 2: utilizando a estatística do teste.
No caso de conhecermos a variância populacional (σ2), utilizamos a estatística “z”, que é
dada por:
– –
Z= X = X
X
n
Mas, se não conhecemos “σ”, ele deve ser substituído por “S”, que o estima, e a estatística
do teste será dada por:

t= X– = X
SX S
n
E essa estatística estará associada a “n – 1” graus de liberdade, em que “n” é o tamanho
da amostra.
Para esse exemplo, o valor de “t” calculado com base nos dados da amostra será:
70 – 65 5
t= = = 2,5
10 2
5
Observamos na tabela que o valor de “t” para 24 graus de liberdade e 95% de confiança
é igual a 2,064. Como o valor calculado de “t” é maior do que o valor tabelado, isto é,
tcalc.= 2,5 > ttab.= 2,064, devemos rejeitar a hipótese de que a média populacional possa
ser igual a 65 kg.
120 Estatística aplicada às ciências sociais

8.6.6 Testes de hipóteses para outros parâmetros


Estudamos neste capítulo como realizar testes de hipóteses para a média populacional μ.
O procedimento passo a passo seguido foi:
i. estabelecimento das hipóteses estatísticas;
ii. cálculo da estatística do teste – ;
iii. determinação do p-valor.
Esse procedimento vale para as testagens de hipótese sobre os parâmetros estabelecidos no
quadro a seguir, a exemplo do que foi realizado com intervalos de confiança.

Parâmetro Parâmetro θ Estimador ô Erro-padrão Estatística

Média
X n Z
conhecido

Média
X S n tn–1
desconhecido

Proporção P P ^^
PQ/n Z

Diferença de 2 2
1
+
2
médias com 1 e – X1 – X 2 Z
1 2
n1 n2
2
conhecidos

Diferença de S12 S22


médias com σ1 e 1
– 2
X1 – X 2
n1
+ n2
tn1 + n2 –2
σ2 desconhecidos

Diferença de P1Q1 P2Q2


proporções
P1 – P2 P1 – P 2 + n2
Z
n1

Para efeito de ilustração, construiremos um exemplo de testagem de hipóteses para a dife-


rença entre duas médias.

Exemplo
Uma empresa de consultoria foi contratada para verificar se os níveis
salariais de trabalhadores não qualificados de uma indústria eram dife-
rentes com relação ao sexo. Suponhamos que as mulheres tivessem uma
média salarial menor do que a dos homens. Uma amostra estratificada
proporcional por sexo foi coletada e os dados resultantes do levanta-
mento amostral são apresentados na seguinte tabela:

Salário médio Desvio-padrão Tamanho da


Sexo
amostral amostral amostra

Feminino X1 = R$ 590,00 S1 = R$ 8,00 n1= 10

Masculino X2 = R$ 600,00 S2 = R$ 9,00 n2 = 20


Inferência 121

• Hipóteses estatísticas:
H 0: 1
= 2

H1: 1
< 2

Essas hipóteses podem ser reescritas como:


H0: 1
– 2
=0
H1: 1
– 2
<0

• Estatística do teste:

(X 1 – X 2) – ( – )
t= 1 2
“t” com 10 + 20 – 2 = 28 g.l.
S12 S22
+
n1 n2

(590 – 600) – 0 –10


t= = = -3,09
8 2
9 2
3,233
+
10 20

Observe que testar as hipóteses


H0: 1
= 2

H1: 1
< 2

é equivalente a testar as hipóteses


H0: 1
– 2
=0
H1: 1
– 2
<0
Por isso, o valor “0” deve entrar no cálculo de “t” no lugar de 1
– .
2

• Cálculo do p-valor:

O valor de probabilidade associado a t = -3,09 e 28 graus de liberdade é


aproximadamente o que segue:

p-valor = 0,0022

O nível de confiança será 1 – 0,0022 = 0,998 ou 99,8%.


Conclusão: com nível de confiança de 99,8%, podemos concluir que de
fato o nível salarial das mulheres da indústria pesquisada é menor do
que o dos homens.

Neste capítulo, estudamos as principais técnicas de inferência estatística utilizadas em aná-


lises sociológicas que usam métodos quantitativos de indução. Os intervalos de confiança e os
testes de hipóteses podem ser úteis para a avaliação de situações mais complexas quando usamos
métodos quantitativos em sociologia.
122 Estatística aplicada às ciências sociais

Atividades
1. A construção de intervalos de confiança para a média pode ser feita por meio da distribui-
ção normal padrão ou da distribuição “t” de Student. Qual é a diferença de utilização das
duas distribuições?

2. Em certo estado, 840 dos 2.000 eleitores inquiridos em uma sondagem sobre a intenção de
voto declararam votar no candidato do partido A. Construa um intervalo de 95% para a
proporção de votos do candidato e responda: qual é a margem de erro da estimativa e qual
é o erro estatístico admitido? Apresente o significado desses dois parâmetros.

3. Diversas políticas salariais em relação às filiais de uma rede de supermercado estão asso-
ciadas ao gasto médio dos clientes em cada compra. Deseja-se comparar esse parâmetro
para uma filial, por meio de uma amostra de 64 clientes cada, sendo que a média obtida na
amostra foi de R$ 70,00. Sabe-se que o desvio-padrão é igual a R$ 32,00. É possível afirmar
que o gasto médio na filial seja maior do que R$ 65,00 com 10% de significância? Justifique.
9
Estudos demográficos

Nós, os estatísticos, somos como os músicos.


Onde todos só veem cifras, o maestro escuta a melodia, e onde todos só
veem números, nós enxergamos a realidade.

Giorgio Mortara (1885-1967)1

9.1 Demografia
A demografia é uma disciplina científica dedicada ao estudo das populações humanas, que
engloba tamanho, composição, distribuição, densidade, crescimento e outras características estru-
turais e socioeconômicas de uma população, bem como as causas e consequências de mudança
nesses elementos.
A evolução da tendência demográfica tem implicações diretas na determinação das políticas
públicas e na partilha da arrecadação tributária pelos estados. Os principais instrumentos de medidas
demográficas são coeficientes ou taxas, razões, proporções, medidas de coorte2 e medidas em dado
momento e em diferentes períodos.
A demografia inclui uma análise estática e uma análise dinâmica da população. A primeira
estuda a população em um ponto fixo no tempo, enquanto a segunda abrange as mudanças das
populações e de seus componentes.
Os estudos demográficos podem ser realizados por meio da observação de todos os elemen-
tos da população e, nesse caso, esses levantamentos são chamados de censo ou de recenseamento.
Quando somente uma parte representativa da população é observada, o levantamento é conhecido
como amostragem.
Os primeiros recenseamentos de que se tem notícia foram realizados na China, por volta do
ano 2200 antes de Cristo. Vários censos também foram feitos pelos judeus – o Livro dos Números,
no Pentateuco, por exemplo, é o resultado de um censo realizado por Moisés. O Império Romano
também promoveu diversos censos com objetivos administrativos e políticos. Jesus Cristo nasceu em
Belém em razão da origem de Maria e José, que para lá se dirigiram para serem recenseados.
No entanto, somente no século XVIII a análise dos levantamentos populacionais recebeu
tratamento científico mais adequado, com base nos censos realizados nos países escandinavos:
Suécia, em 1749; Noruega, em 1760 e; Dinamarca, em 1769. Os Estados Unidos realizaram seu
primeiro censo em 1790, logo após a sua independência. A Inglaterra e a França fizeram seus

1 Estatístico italiano, coordenador do censo no Brasil em 1940.


2 Em estatística, coorte é um conjunto de pessoas que tem em comum um evento que se deu no mesmo período.
124 Estatística aplicada às ciências sociais

primeiros levantamentos populacionais nos primeiros anos do século XIX, e a Itália, na segunda
metade desse século.
No Brasil, o primeiro recenseamento realizado em bases científicas foi feito em 1940, tendo
como assessor técnico o demógrafo italiano Giorgio Mortara, que veio ao Brasil fugindo de per-
seguição política pelo regime de Mussolini. Antes desse censo, outros três levantamentos foram
realizados: em 1872, em 1890 e em 1920. Para a realização dos sete censos em 1940 (demográfico,
agrícola, industrial, comercial, dos transportes e comunicações, dos serviços e social), Mortara
organizou no Instituto Brasileiro de Geografia e Estatística (IBGE) o laboratório de estatística, que
proporcionou grande avanço na ciência da demografia no Brasil.
As técnicas demográficas podem ser compreendidas nos estudos de: (i) estimativa da po-
pulação; (ii) taxas demográficas; (iii) fenômenos demográficos e; (iv) estrutura das populações.
Os três primeiros itens dizem respeito à chamada dinâmica populacional, e o restante, à estática
populacional, todavia não faz parte do escopo deste livro o estudo das doutrinas populacionais.

9.2 Estrutura e estimativas da população


Os recenseamentos a partir de 1940, no Brasil, deveriam ser realizados em períodos fixos
de 10 em 10 anos. Ocorre que, em 1990, o Governo Federal do então presidente Fernando Collor
de Melo não conseguiu organizar o país para a realização do censo no ano de final zero, que foi
feito apenas em 1991. Esse fato cria um grande problema quando é necessário trabalhar com
estimativas, dado que a quebra da sequência de intervalo de 10 anos faz com que os modelos de
projeção fiquem mais complexos.
Os censos demográficos objetivam fazer a contagem da população e determinar a estrutura
socioeconômica de um país. Entende-se por população o conjunto de indivíduos que habitam uma
área ou zona geográfica em determinado tempo. Os recenseamentos são operações muito amplas
e onerosas, cujos resultados demoram a ser publicados, por essa razão dificilmente eles podem ser
repetidos com frequência menor do que 10 anos.
Nos períodos intercensitários, é necessário o conhecimento de dados sobre a população
para o planejamento governamental. Uma forma de se realizar estimativas do tamanho da po-
pulação seria adicionar à população recenseada o crescimento natural e o saldo líquido de mi-
gração. Entende-se por crescimento natural a diferença entre os nascimentos e os óbitos, e por
saldo líquido de migração a diferença entre os que entram no país (imigrantes) e os que saem dele
(emigrantes). Assim, para estimar a população no tempo 2, P2, soma-se à população no tempo 1,
P1, o crescimento natural (N – O) e o saldo líquido de migração (I – E).

P2 = P1 + (N – O) + (I – E)

Ocorre, no entanto, que essas estatísticas não são definitivas. Há, ainda, um sub-registro
de nascimentos e óbitos, da mesma forma que os registros de imigração e emigração são pouco
confiáveis no país. Dessa maneira, esse método, conhecido como método dos componentes, não é o
mais adequado para se fazer estimativas populacionais ano a ano.
Estudos demográficos 125

Após a realização do censo de 2010, o IBGE fez diversas estimativas da população no Brasil.
A tabela a seguir apresenta aquelas feitas para o ano de 2018, publicadas no Diário Oficial da União
e tendo como referência o dia 1º de julho de 2018, segundo os Estados da União e as cinco Regiões
do Brasil, totalizando os 5.570 municípios.
Tabela 1 – População estimada, segundo as Grandes Regiões e as Unidades da Federação – 2018

Brasil 208.494.900

Norte 18.182.253

Rondônia 1.757.589

Acre 869.265

Amazonas 4.080.611

Roraima 576.568

Pará 8.513.497

Amapá 829.494

Tocantins 1.555.229

Nordeste 56.760.780

Maranhão 7.035.055

Piauí 3.264.531

Ceará 9.075.649

Rio Grande do Norte 3.479.010

Paraíba 3.996.496

Pernambuco 9.496.294

Alagoas 3.322.820

Sergipe 2.278.308

Bahia 14.812.617

Sudeste 87.711.946

Minas Gerais 21.040.662

Espírito Santo 3.972.388

Rio de Janeiro 17.159.960

São Paulo 45.538.936

Sul 29.754.036

Paraná 11.348.937

Santa Catarina 7.075.494

Rio Grande do Sul 11.329.605

(Continua)
126 Estatística aplicada às ciências sociais

Centro-Oeste 16.085.885

Mato Grosso do Sul 2.748.023

Mato Grosso 3.441.998

Goiás 6.921.161

Distrito Federal 2.974.703

Fonte: Brasil, 2018.

As tabelas detalhadas dos municípios por estado, de acordo com o sexo e a idade, podem
ser encontradas na página do IBGE3. A estrutura ou a distribuição da população pode ser repre-
sentada pelas pirâmides etárias, como será visto mais adiante neste capítulo.

9.3 Estimativas populacionais


Como comentado anteriormente, o método dos componentes não é o mais adequado para a
realização das estimativas do crescimento populacional, devido à precariedade dos dados necessá-
rios para a sua elaboração. Dessa forma, foram criados métodos matemáticos para avaliar o desen-
volvimento de uma população, partindo da suposição de que ela cresce segundo um determinado
modelo matemático, definido de acordo com observações sobre o seu comportamento no passado
e no presente.
Esses modelos são utilizados para interpolar estimativas populacionais entre dois períodos
censitários, ou para extrapolar resultados futuros. Há várias propostas de modelos de estimativas
de populações que devem sempre ser corrigidas a cada novo levantamento censitário, para a verifi-
cação de que o modelo proposto é adequado e a realização das correções necessárias.

9.3.1 Modelo aritmético


O modelo de crescimento aritmético é o mais simples e se baseia na suposição de crescimen-
to constante da população. Ele serve mais como ponto de partida para a apresentação dos vários
modelos do que para uso real. A suposição de crescimento constante leva à construção de um mo-
delo baseado na progressão aritmética.
Se P0 for a população recenseada em um primeiro censo no tempo t0, e Pn a população de
um censo seguinte realizado no tempo tn, o crescimento médio anual será dado por sua taxa de
crescimento, “b”:

Pn – P0
b=
tn – t0

3 Disponível em: https://www.ibge.gov.br/estatisticas-novoportal/sociais/populacao/9103-estimativas-de-populacao.


html?=&t=resultados. Acesso em: 31 out. 2018.
Estudos demográficos 127

Se o objetivo é estimar a população P no ano “t” desse período, seu valor será dado por:

Pn – P0
P = P0 + (t – t0)
tn – t0

Os dados da tabela a seguir apresentam os valores da população brasileira em 2000 e em 2007:


Tabela 2 – População brasileira: 2000 e 2007

População – Brasil

Ano População

2000 169.590.693

2007 183.987.291

Fonte: IBGE.

A população de 2005 poderia ser calculada pela seguinte interpolação:

P2007 – P2000
P2005 = P2000 + (2005 – 2000) =
2007 – 2000

P2005 = 169.590.693 + 183.987.297 – 169.590.693 (5) = 179.873.977


2007 – 2000

Para determinarmos uma estimativa da população para 2010, será necessário supor que a
taxa de crescimento populacional para o próximo período será a mesma do período anterior con-
siderado, ou seja:
P2007 – P2000 P – P2007
b= = 2010 = 2.056.656,9
t2007 – t2000 t2010 – t2007
Então:

P2010 = P2007 + 2.056.656,9(3) = 190.157.261

Ou seja, com base nos dados de 2000 e 2007, podemos estimar, segundo o modelo aritméti-
co, uma população de 190.157.261 habitantes no Brasil em 2010.
O censo de 2010 determinou que o tamanho da população brasileira era de 190.732.694.
Apesar de o modelo aritmético não ser o mais adequado, a projeção realizada foi bastante razoável.
A principal crítica a esse modelo é que dificilmente encontraremos uma população com cresci-
mento constante, conforme o modelo linear.
128 Estatística aplicada às ciências sociais

9.3.2 Modelo geométrico


Outra proposta de modelo matemático de estimativa de crescimento populacional é o
modelo geométrico. Nesse caso, sendo “r” a taxa de crescimento anual, o modelo será dado por:

Pt = P0(1 + r)(t –t )
0

A taxa será, então, calculada por meio de operações matemáticas simples, conforme segue:

Pt P P
= (1 + r)(t –t ) .:. ( 1 + r) = (t –t ) t .:. r = (t –t ) t – 1
0 0 0

P0 P0 P0

Se quisermos estimar a população do Brasil para 2010, segundo o modelo geométrico,


teremos:

r = (t –t ) Pt – 1 = 7 183.987.291 – 1 = 1,011707841 – 1 = 0,011707841


0

P0 169.590.693

Mantida a taxa de aproximadamente 1,2% de crescimento geométrico para os anos ante-


riores, a população estimada para 2010 foi de 190.525.527. Verificou-se que o IBGE apurou uma
população de 190.732.604, não muito diferente da estimada, como se pode comprovar pelos
cálculos apresentados a seguir:

P2010 = P2007(1,011707841)(3) = 183.987.291(1,011707841)(3) = 190.525.527

Nessa perspectiva, a estimativa da população brasileira para 2010 foi em torno de 2,4 mi-
lhões de habitantes, maior do que a feita pela projeção aritmética.
Segundo projeções do IBGE, a taxa de crescimento populacional para o Brasil em 2020 deve
chegar a aproximadamente 0,71%, taxa de crescimento negativo, portanto, seguindo uma tendên-
cia mundial de arrefecimento do crescimento populacional (IBGE, 2018d).

9.3.3 Outros modelos


Existem várias outras propostas de escolha de modelos para se fazer a estimativa de cres-
cimento populacional. Alguns modelos mais complexos levam em conta taxas de fecundidade,
método do coeficiente específico de mortalidade por idade, método da razão, método de com-
ponentes de coorte, métodos baseados na economia e outros de determinação indireta, que são
indicados para pesquisas mais aprofundadas. Um método muito utilizado é o da equação logís-
tica, cuja indicação genérica é apresentada a seguir:
K
P=
1 + ea–bt
Em que:

2P0.P1.P2 – P12 . (P0 + P2)


K=
P0 . P2 – P12
Estudos demográficos 129

Aqui se levam em consideração três observações populacionais no tempo, “e” é a base do


logaritmo neperiano4 e “a” e “b” são determinados pelas expressões:

1 K – P0 1 P (K – P1)
a= x log eb= x log 0
log e P0 n1 log e P1 (K – P0)

Em que: n1 corresponde ao intervalo de tempo entre P1 e P0, ou entre P2 e P1. Se utilizarmos o


modelo logístico para fazer a projeção da população brasileira de 1980 com base nos dados de 1950
(51,944 milhões), 1960 (70,119 milhões) e 1970 (93,139 milhões), o resultado obtido seria uma
previsão de população de aproximadamente 121 milhões de habitantes. O censo de 1980 indicou
uma população de 119 milhões, bem próxima do valor estimado, mas já com a indicação de uma
diminuição do ritmo de crescimento populacional a partir daqueles anos (IBGE, 2018d).
A forma da curva logística para crescimento é a apresentada na sequência:
Figura 1 – Gráfico de curva logística para o crescimento

Pn

Ps Ps
P=
Ps 1 + 1a + bt
2 T3 – T1 = 2x (T2 – T1)
P1
P2 P3 P22 P1 x P3
T2–T1 Tn
T3 – T1

Fonte: Elaborada pelo autor.

Temos que “b” é a razão de crescimento da população, “K” é o limite superior, isto é, o
ponto de saturação da população, “t” é o tempo e “a” um valor tal que para t = a/b a curva passa
pelo ponto de inflexão.

9.4 Taxas demográficas


Uma taxa demográfica é uma medida relativa de um determinado fenômeno, que permite
compará-lo nas suas variações no espaço e no tempo. Quando dizemos que a taxa bruta de nata-
lidade brasileira é de 14 pessoas por mil e que, em 1900, ela era de 46 por mil, estamos afirmando
que para cada 1.000 pessoas da população brasileira nascem hoje 14 novos brasileiros, enquanto
em 1900 nasciam 46 por 1.000. A atual taxa brasileira é comparável com a taxa americana em 2004
(14,01 por mil).
Podemos, então, reduzir os fenômenos demográficos a um mesmo número de habitantes,
geralmente 1.000, para podermos fazer comparações no tempo e no espaço.

4 A explicação da utilização do algarismo neperiano “e” e do logaritmo neperiano está fora do escopo deste livro.
O objetivo aqui é apenas ilustrar esse modelo de estimativa populacional de frequente utilização.
130 Estatística aplicada às ciências sociais

9.4.1 Taxa de natalidade


A taxa de natalidade de um determinado ano é obtida dividindo-se o número de nascidos
vivos pela população média do país, estado ou região naquele ano e multiplicando-se o resultado
por 1.000. A população média é aquela calculada ou estimada em 30 de junho do ano em questão.
Para esse cálculo, é necessário conhecermos o número de novos nascimentos. Embora seja
obrigatório por lei, o registro civil do nascimento nem sempre é feito de maneira regular, o que nos
leva sempre a uma subestimação do valor real da taxa de nascimento, particularmente nas regiões
menos organizadas do país. De maneira aproximada, a taxa de natalidade é uma medida relativa
da velocidade em que ocorrem os nascimentos em uma população. Essa taxa é influenciada pela
composição da população por idade e sexo, pela organização familiar, pela fertilidade, entre outros
determinantes. A sua expressão é:
Número de nascidos vivos x 1.000
In =
População média anual

9.4.2 Taxa de fecundidade


Uma das mais importantes taxas específicas relacionadas à natalidade é a de fecundidade,
que pode ser definida como a relação entre os nascimentos multiplicados por mil com o total da
população feminina ou com apenas uma parte dela. Chama-se taxa de fecundidade total a que se
obtém dividindo-se o total de nascimentos (vivos ou mortos) multiplicados por 1.000 pelo total
de mulheres na idade de 15 a 49 anos. A taxa de fecundidade é dita efetiva quando os nascimentos
considerados são apenas os vivos. Assim:

Total de nascimentos x 1.000


If =
População feminina média de 15 a 49 anos

Em um período de aproximadamente 50 anos, a taxa de fecundidade (número de filhos por


mulher por período reprodutivo) no Brasil caiu de 6,3 (censo de 1960) para 1,77 em 2018, segundo
a agência de notícias do IBGE, que informa também que em 2060 o número médio de filhos por
mulher deverá reduzir para 1,66. Esse valor é comparável ao da China, que tem a política de filho
único imposta pelo governo, devido à sua grande população de cerca de 1,3 bilhão de habitantes.
Com a taxa de fecundidade nesse nível, a população brasileira deverá começar a diminuir antes do
esperado, daqui a cerca de 30 anos. Essa queda na fecundidade acelera o envelhecimento da popu-
lação e afeta o sistema previdenciário que, daqui a alguns anos, estará com saldo negativo, ou seja,
com mais dependentes do que contribuintes na balança (IBGE, 2018d).

9.4.3 Taxa de mortalidade


A taxa de mortalidade é calculada como a razão entre o número de óbitos ocorridos em um
ano pela população média anual. Embora os registros de falecimentos sejam mais confiáveis do que
os de nascimentos, também aqui informações são perdidas, o que não permite o cálculo exato da
taxa de mortalidade.
Estudos demográficos 131

Número de óbitos x 1.000


Im =
População média anual

Uma taxa de mortalidade específica e muito importante é a taxa de mortalidade infantil. Ela
é obtida pela razão entre o número de óbitos no primeiro ano de vida sobre o total da população
nessa idade para um determinado ano.

Óbitos menores de um ano x 1.000


Imi =
Total de nascidos vivos

A taxa de mortalidade infantil é considerada o principal indicador de qualidade da saúde


pública, segundo a Organização Mundial de Saúde (OMS). A taxa tem diminuído bastante no
Brasil nos últimos anos: em 1990, entre crianças de até 1 ano de idade ela era de 46,9 mortes para
cada mil, já em 2016 esse índice caiu para 13,3, praticamente um terço do patamar anterior. No
mesmo período, a redução da mortalidade entre crianças de até 5 anos de idade foi de cerca de
67%. Mas a situação não é uniforme no país. Por exemplo, enquanto em São Paulo a taxa de mor-
talidade infantil foi de 9,9, a situação é mais crítica em regiões como o semiárido nordestino, que
alcançou taxas acima de 40 no mesmo período. No Amapá, por exemplo, a taxa em 2016 era de
23,2 óbitos no primeiro ano de vida entre 1.000 nascidos vivos (IBGE, 2018d).
O aprimoramento da assistência ao parto e à gestante, a ampliação do acesso ao pré-natal,
a expansão do saneamento básico, o uso de água tratada, a utilização de recursos médicos mais
avançados e a vacinação em massa de crianças pelo Sistema Único de Saúde (SUS) são os princi-
pais motivos para a queda da taxa de mortalidade infantil. Para efeitos comparativos, observa-se
também a queda da taxa de mortalidade infantil em outros países, como: Japão, 3 por mil; Cuba,
5,8; Chile, 7,8; Argentina, 16,5 e; México, 19,7. Por outro lado, há países com enormes taxas de
mortalidade infantil, como vários da África e no Afeganistão, em que suas taxas superam 100
óbitos por 1.000 habitantes.
Outras taxas relacionadas à mortalidade infantil são: taxa de mortalidade neonatal (óbitos
de crianças com menos de 28 dias), taxa de mortalidade infantil tardia (óbitos de crianças de 28
dias até menos de 1 ano), taxa de mortalidade perinatal (óbitos fetais tardios + óbitos de crianças
com menos de uma semana), taxa de natimortalidade (óbitos fetais tardios ocorridos no período
de 1 ano).
As estatísticas vitais utilizam-se também de outra taxa, denominada taxa de mortalidade
materna, que é a razão entre os óbitos de causas puerperais (aquelas ocorridas durante a gestação
ou até 42 dias após o parto) na população feminina divididos pelo número de nascidos vivos, ocor-
ridos no ano e área especificados, vezes 100.000.

Óbitos maternos puerperais x 100.000


Imm =
Total de nascidos vivos

Um dos objetivos do milênio estabelecidos pela ONU foi o de reduzir em três quartos, entre
1990 e 2015, a taxa de mortalidade materna. Para o Brasil, isso significou sair da taxa de 64 óbitos
132 Estatística aplicada às ciências sociais

maternos a cada 100 mil nascidos vivos em 1990 e alcançar 48 óbitos a cada 100 mil nascidos vivos
em 2015. Dados levantados no Brasil em 2016 revelam que essa taxa foi em torno de 69, não tendo,
portanto, o país alcançado a meta proposta. Essa mesma taxa é calculada em 10 óbitos maternos
em 100.000 como média mundial.
Em países/regiões desenvolvidos, as taxas podem variar de 5 a 15 por 100.000 nascidos
vivos, e em países/regiões subdesenvolvidos, podem ter um mínimo de 80 por 100.000 nasci-
dos vivos, podendo chegar a 500 mortes por 100.000 nascidos vivos, como no caso de alguns
países africanos.

9.5 Fenômenos demográficos


A demografia tem a finalidade de estudar o estado e o movimento da população. O movi-
mento populacional é o resultante de fenômenos demográficos como nascimento, óbitos, entre
outros. O estudo das taxas não é suficiente para a compreensão dos fenômenos sociais. Cada
ciência destaca da realidade social alguns aspectos e os estuda em profundidade, utilizando-se
de métodos próprios.
O estudo da mortalidade é um dos mais importantes na análise demográfica. Além de ser
um dos componentes da estrutura da população, os seus determinantes ajudam a compreender o
nível de organização social de um grupo, as suas prioridades e de seus governantes, o estado geral
de higiene e de saúde das comunidades, os progressos na medicina e como eles alcançam as par-
celas da população de uma região ou de um país, além da capacidade de um povo de se prevenir
contra as causas de mortalidade.
Desde quando nasce, o ser humano está exposto a dois tipos de riscos de morte. O pri-
meiro, dito endógeno, caracteriza-se pelo risco que a criança traz consigo ao nascer ou que so-
fre durante o parto, e é consequência principal da própria constituição da criança, das condições
pré-natais, de más-formações ocasionais ou das condições do parto. Esse risco persiste até o final
do primeiro ano de vida, razão pela qual a taxa de mortalidade infantil é determinada levando-se
em conta os óbitos nessa faixa etária. Países com menor grau de desenvolvimento produzem maior
número de óbitos devido a causas endógenas.
Depois de vencido o primeiro ano de vida, a criança fica exposta a um outro tipo de risco,
relacionado às chamadas causas exógenas, que derivam fundamentalmente do ambiente em que
a criança se desenvolve. São agressões que a criança sofre do meio físico e social, como acidentes
respiratórios e corporais (asfixia, queda, fogo, infecções), falta de cuidado com a higiene, má e de-
ficiente alimentação, além de precárias condições de saúde.
No ano 2000, representantes de 189 países da ONU reuniram-se em Nova Iorque, na maior
reunião de dirigentes mundiais de todos os tempos, e se comprometeram a cumprir oito grandes
objetivos até o ano de 2015, conhecidos como os Objetivos do Milênio (ONUBR, 2010), sendo eles:
Estudos demográficos 133

Objetivos do Milênio

1. Acabar com a fome e a miséria.


2. Educação básica e de qualidade para todos.
3. Igualdade entre sexos e valorização da mulher.
4. Reduzir a mortalidade infantil.
5. Melhorar a saúde das gestantes.
6. Combater a aids, a malária e outras doenças.
7. Qualidade de vida e respeito ao meio ambiente.
8. Todo mundo trabalhando pelo desenvolvimento.

Figura 2 – Objetivos do Milênio: 2000-2015

1 2 3 4

ACABAR COM A EDUCAÇÃO BÁSICA E IGUALDADE ENTRE REDUZIR A


FOME E A MISÉRIA. DE QUALIDADE PARA SEXOS E VALORIZAÇÃO MORTALIDADE
TODOS. DA MULHER. INFANTIL.

5 6 7 8

MELHORAR A SAÚDE COMBATER A AIDS, A QUALIDADE DE VIDA TODO MUNDO


DAS GESTANTES. MALÁRIA E OUTRAS E RESPEITO AO MEIO TRABALHANDO PELO
DOENÇAS. AMBIENTE. DESENVOLVIMENTO.

Fonte: ODM, 2018.

Para cada um dos objetivos, algumas metas foram traçadas. Para o Objetivo 4, foi determi-
nada a seguinte meta: reduzir em dois terços, entre 1990 e 2015, a mortalidade de crianças menores
de 5 anos. Foram escolhidos os seguintes indicadores para verificação do desenvolvimento dessa
meta: (i) taxa de mortalidade de crianças menores do que 5 anos; (ii) taxa de mortalidade infantil
e; (iii) proporção de crianças de 1 ano vacinadas contra o sarampo.
Segundo o Programa das Nações Unidas para o Desenvolvimento (PNUD):
O Brasil reduziu a mortalidade infantil (crianças com menos de um ano) de
4,7% em 1990 para 2,5% em 2006. Mas a desigualdade ainda é grande: crian-
ças pobres têm mais do que o dobro de chance de morrer do que as ricas, e as
134 Estatística aplicada às ciências sociais

nascidas de mães negras e indígenas têm maior taxa de mortalidade. Por região,
o Nordeste apresentou a maior queda nas mortes de zero a cinco anos, mas a
mortalidade na infância ainda é quase o dobro da média nacional, de acordo
com o relatório Situação Mundial da Infância 2008, do UNICEF. (PNUD, 2008)

Verifica-se, portanto, que os fatores biológicos e físicos para a mortalidade, e em particular


para a mortalidade infantil, podem ser agravados por fatores sociais, como hábitos alimentares,
hábitos de higiene, habitat, meio social, nível de instrução e nível de renda, entre outros.
Em 2015, findado o período dos ODM, os países tiveram a oportunidade de adotar uma
nova agenda de desenvolvimento sustentável e chegar a um acordo global sobre a mudança climá-
tica. As ações tomadas em 2015 resultaram nos novos Objetivos de Desenvolvimento Sustentável
(ODS), que se baseiam nos oito Objetivos de Desenvolvimento do Milênio.
Foram estabelecidos, então, novos 17 Objetivos de Desenvolvimento Sustentável e 169 metas
para serem cumpridas até 2030. Esses objetivos e metas demonstram a escala e a ambição dessa
nova agenda universal. Eles se constroem sobre o legado dos Objetivos de Desenvolvimento do
Milênio e pretendem concluir o que estes não conseguiram atingir, buscando concretizar os di-
reitos humanos de todos e alcançar a igualdade de gênero e o empoderamento das mulheres e
meninas. Eles são integrados e indivisíveis, e equilibram as três dimensões do desenvolvimento
sustentável: a econômica, a social e a ambiental (PNUD, 2018a).
Figura 3 – Objetivos de Desenvolvimento Sustentável: 2016-2030

Fonte: PNUD, 2018a.


Estudos demográficos 135

Objetivos Globais
1. Acabar com a pobreza em todas as suas formas, em todos os lugares.
2. Acabar com a fome, alcançar a segurança alimentar e melhoria da nu-
trição e promover a agricultura sustentável.
3. Assegurar uma vida saudável e promover o bem-estar para todos, em
todas as idades.
4. Assegurar a educação inclusiva e equitativa e de qualidade, e promo-
ver oportunidades de aprendizagem ao longo da vida para todos.
5. Alcançar a igualdade de gênero e empoderar todas as mulheres
e meninas.
6. Assegurar a disponibilidade e gestão sustentável da água e saneamento
para todos.
7. Assegurar o acesso confiável, sustentável, moderno e a preço acessível
à energia para todos.
8. Promover o crescimento econômico sustentado, inclusivo e susten-
tável, emprego pleno e produtivo e trabalho decente para todos.
9. Construir infraestruturas resilientes, promover a industrialização in-
clusiva e sustentável e fomentar a inovação.
10. Reduzir a desigualdade dentro dos países e entre eles.
11. Tornar as cidades e os assentamentos humanos inclusivos, seguros,
resilientes e sustentáveis.
12. Assegurar padrões de produção e de consumo sustentáveis.
13. Tomar medidas urgentes para combater a mudança do clima e
seus impactos.
14. Conservação e uso sustentável dos oceanos, dos mares e dos recur-
sos marinhos para o desenvolvimento sustentável.
15. Proteger, recuperar e promover o uso sustentável dos ecossis-
temas terrestres, gerir de forma sustentável as florestas, combater a
desertificação, deter e reverter a degradação da terra e deter a perda
de biodiversidade.
16. Promover sociedades pacíficas e inclusivas para o desenvolvimento
sustentável, proporcionar o acesso à justiça para todos e construir insti-
tuições eficazes, responsáveis e inclusivas em todos os níveis.
17. Fortalecer os meios de implementação e revitalizar a parceria global
para o desenvolvimento sustentável.
136 Estatística aplicada às ciências sociais

9.6 Estrutura das populações


Uma forma de compreender melhor uma população é aliar a contagem de habitantes a
suas principais características, sendo que as mais importantes são o sexo e a idade. Planejamentos
socioeconômicos necessitam dessas informações para, por exemplo, promover a criação de novos
empregos, em razão da chegada de mão de obra ao mercado.
A representação dessas informações pode ser feita, dependendo do objeto de estudo, (i) por
meio de indicadores, como a taxa de masculinidade, a razão de dependência ou a expectativa de
vida ou; (ii) por meio da pirâmide etária.
A taxa de masculinidade (razão de sexo) é definida como o número de homens para cada
grupo de 100 mulheres, na população residente em determinado espaço geográfico, em um ano
considerado, para toda a população ou para alguma faixa etária específica, conforme segue:

Número de homens
Imasc. = x 100
Número de mulheres

A razão de sexo por ocasião do nascimento é maior do que 100, isto é, nascem mais homens
do que mulheres. Durante a vida, essa situação se modifica por várias razões. Já no final do primeiro
ano de vida, a taxa de mortalidade infantil masculina é maior do que a feminina, no entanto não há
ainda estudos que esclareçam a razão dessa ocorrência. Mais tarde, a exposição masculina a riscos é
maior do que a feminina, e essa tendência segue até o final da vida.
A tabela a seguir apresenta, como exemplo, as razões de sexo das regiões Nordeste e Sul do
Brasil para pessoas em faixas etárias acima de 60 anos em 2010. Cada um dos valores representa o
número de homens para cada 100 mulheres.
Tabela 3 – Razão de sexo das pessoas em faixas etárias acima de 60 anos de idade, segundo as regiões
Nordeste e Sul e Unidades de Federação – 2010.

80 anos
Localidade 60 a 64 anos 65 a 69 anos 70 a 74 anos 75 a 79 anos
ou mais

Brasil 87,7 86,0 80,4 74,0 62,9

Nordeste 86,5 84,5 80,2 76,4 70,7

Maranhão 95,2 95,9 92,8 93,8 81,1

Piauí 89,6 90,1 84,7 82,9 77,3

Ceará 85,6 84,6 79,8 76,7 72,8

Rio Grande do
83,8 81,5 78,7 74,0 71,9
Norte

Paraíba 81,5 79,3 74,9 72,2 69,5

Pernambuco 80,3 77,0 73,2 69,3 65,0

Alagoas 86,8 84,5 79,9 74,3 69,6

Sergipe 87,3 82,8 77,0 70,6 65,2

Bahia 89,5 86,4 82,1 76,3 69,2


(Continua)
Estudos demográficos 137

80 anos
Localidade 60 a 64 anos 65 a 69 anos 70 a 74 anos 75 a 79 anos
ou mais

Sul 89,2 85,8 80,6 71,5 57,6

Paraná 89,8 88,3 86,9 79,9 68,1

Santa
91,7 87,4 81,0 71,9 58,3
Catarina

Rio Grande do
87,6 83,0 75,7 65,3 50,5
Sul
Fonte: IBGE.

Várias análises podem ser feitas com relação à estrutura da população, com base na observa-
ção das razões de sexo. Observamos, na tabela anterior, que a partir dos 60 anos há uma forte queda
na relação entre o número de homens e o de mulheres, nas duas regiões consideradas e também
no Brasil. No Rio Grande do Sul, por exemplo, o número de mulheres é duas vezes o de homens,
quando se consideram pessoas com mais de 80 anos.

9.6.1 Razão de dependência


A razão de dependência expressa a proporção entre as pessoas potencialmente inativas
(crianças de 0 a 14 anos e idosos de 65 anos ou mais de idade) e as potencialmente ativas (com
idades entre 15 e 64 anos) ou disponíveis para as atividades econômicas.

Pop. menor de 15 anos + Pop. maior de 64 anos


RD = x 100
Pop. de 15 a 64 anos

Segundo a Revisão 2018 da Projeção da População do IBGE:


Em 2060, o percentual da população com 65 anos ou mais de idade chegará a
25,5% (58,2 milhões de idosos), enquanto em 2018 essa proporção é de 9,2%
(19,2 milhões). Já os jovens (0 a 14 anos) deverão representar 14,7% da popula-
ção (33,6 milhões) em 2060, frente a 21,9% (44,5 milhões) em 2018.
O envelhecimento afeta a razão de dependência da população, que é representa-
da pela relação entre os segmentos considerados economicamente dependentes
(pessoas com menos de 15 e 65 anos ou mais de idade) e o segmento etário po-
tencialmente produtivo (15 a 64 anos), que é a proporção da população que, em
tese, deveria ser sustentada pela parcela economicamente produtiva.
A razão de dependência da população em 2018 é de 44%. Esse indicador sig-
nifica que 44 indivíduos com menos de 15 e com mais de 64 anos dependem
de cada grupo de 100 pessoas em idade de trabalhar (15 a 64 anos). Em 2039, a
razão de dependência total deverá ser de 51,5%, quando a proporção de jovens
(25,7%) e idosos (25,8%) se equivalerá. Essa proporção total deverá aumentar
para 67,2% em 2060.
Ainda em 2010, a razão de dependência era de 47,1%, e atingiu seu valor mí-
nimo em 2017 (44,0%). A partir de então, essa proporção voltaria a crescer,
chegando, em 2028, a 47,4%, o mesmo nível de 2010. (IBGE, 2018a)
138 Estatística aplicada às ciências sociais

9.6.2 Expectativa de vida


A expectativa de vida ou a esperança de vida ao nascer pode ser considerada como o número
de anos que, em média, uma geração terá probabilidade de viver.
A esperança de vida pode ser calculada para idades específicas. Por exemplo, podemos cal-
cular qual é a expectativa de vida de um grupo de pessoas com 50 anos no Brasil. Essa medida
representará o número médio de anos a mais que vive uma pessoa daquela idade.
O aumento da esperança de vida ao nascer em combinação com a queda do nível geral da
fecundidade resulta nos aumentos absoluto e relativo da população idosa. De fato, a esperança
média de vida ao nascer no Brasil foi calculada, em 2018, como 76 anos de idade. A vida média ao
nascer, entre 1995 e 2018, incrementou-se em 7,5 anos, com as mulheres em situação bem mais
favorável do que a dos homens (72,3 para 79,6 anos, no caso das mulheres, e 64,8 para 72,4 anos,
para os homens). Nesse sentido, a taxa bruta de mortalidade, que representa a frequência com
que ocorrem os óbitos em uma população, caiu de 6,6%, em 1995, para 6,1%, em 2016. A taxa de
fecundidade total manteve sua tendência de declínio ao passar de 1,72 para 2,3 filhos por mulher
em idade fértil no mesmo período.
As pirâmides etárias são representações gráficas da população classificada por sexo e idade.
As barras da esquerda representam a população masculina, e as barras da direita representam a
população feminina. As faixas etárias estão indicadas no eixo vertical (y), de zero até 80 anos ou
mais, e no eixo horizontal (x) está a quantidade de população. As pirâmides etárias a seguir são
correspondentes a duas populações que apresentam perfis bastante diferentes.
Figura 4 – Gráfico de pirâmides etárias

+ de 80
75 – 80
70 – 74
65 – 69
60 – 64
55 – 59
50 – 54
45 – 49
40 – 44
35 – 39
30 – 34
25 – 29
20 – 24
15 – 19
10 – 14
5–9
0–4
% 4 2 0 2 4 8 6 4 2 0 2 4 6 8 %

Homens
Mulheres

Fonte: Elaborada pelo autor.

As pirâmides com base estreita e cume largo correspondem a países com maior quantidade
de população adulta e envelhecida, caso dos países desenvolvidos que tendem para estabilização
demográfica. As pirâmides de base larga e forma triangular representam países com população
mais jovem e menor expectativa de vida, caso dos países subdesenvolvidos, em fase de crescimento
e ainda em transição demográfica.
Estudos demográficos 139

No Brasil, a pirâmide etária tem se modificado rapidamente e caracteriza uma situação


intermediária entre as duas pirâmides apresentadas.
Os estudos demográficos são parte essencial do trabalho de compreensão das atividades
humanas de um país, de uma região ou de uma cidade e, portanto, são matéria-prima funda-
mental do cientista social. Assim, a associação do estudo da estrutura e estimativa da população
ao estudo dos fenômenos Demográficos introduz a leitura da realidade. Neste capítulo, foram
vistos os principais aspectos da demografia, algo que pode ser estendido com a consulta da vasta
literatura disponível em livros e na internet. Um dado importante da população brasileira é o ín-
dice de urbanização, que corresponde à percentagem de pessoas que vivem nas cidades. O Brasil
deixou de ser rural nos últimos 70 anos. Em 1950, a taxa de urbanização do país era de 36,2%,
passou a ser de 55,9 em 1970 e de 81,2 em 2000. O IBGE projeta uma taxa de urbanização de
90% a partir do ano 2020.

Atividades
1. Dos Oito Objetivos do Milênio citados a seguir, qual está mais relacionado aos estudos
demográficos? Em qual das áreas da demografia esse objetivo pode ser estudado? Justifique.

• Objetivo 1: Acabar com a fome e a miséria.


• Objetivo 2: Educação básica e de qualidade para todos.
• Objetivo 3: Igualdade entre sexos e valorização da mulher.
• Objetivo 4: Reduzir a mortalidade infantil.
• Objetivo 5: Melhorar a saúde das gestantes.
• Objetivo 6: Combater a aids, a malária e outras doenças.
• Objetivo 7: Qualidade de vida e respeito ao meio ambiente.
• Objetivo 8: Todo mundo trabalhando pelo desenvolvimento.

2. Apresente a relação entre a razão de dependência com a forma da pirâmide etária e a carac-
terística socioeconômica dos países.

3. Faça uma comparação entre os modelos de projeção populacional, aritmético e geométrico,


estabelecendo as limitações de cada um deles.
10
Indicadores sociais e econômicos

3% excede 2% em 50%, não em 1%.

Edward Denison (1840-1870)1

10.1 Indicadores sociais e Estado


Indicadores sociais são estatísticas que objetivam retratar o estado social em que vivem os
habitantes de uma região geográfica (município, região metropolitana, estado, país etc.) em um
determinado tempo. A análise de um conjunto de indicadores, que formam um sistema, pode auxi-
liar o analista social na sua tarefa de estudar fenômenos sociais, gerais ou particulares, de maneira
mais objetiva.
O seu desenvolvimento histórico está relacionado à necessidade de planejamento do setor
público ao longo do século XX. Seu aparecimento data da organização do Estado, mas somente a
partir de meados desse século a definição de indicadores ganhou corpo científico, quando a ciência
se preocupou com a organização de sistemas mais abrangentes de acompanhamento das transfor-
mações sociais por meio da medição do impacto das políticas públicas nas sociedades.
Não há ainda um consenso sobre os critérios de seleção dos aspectos que melhor retratam
as condições sociais das comunidades, mas já há uma tendência conceitual de quais são mais
relevantes quando se busca medir o desenvolvimento social das comunidades.
Os principais aspectos considerados na construção de indicadores dizem respeito às con-
dições de saúde, educação e riqueza. A grande questão é verificar se esses aspectos abrangem as
necessidades de uma população quanto ao desenvolvimento pleno de seus cidadãos, levando-se
também em conta o oferecimento de condições que possam satisfazê-los sob o ponto de vista cul-
tural, político, ambiental e de autonomia e que lhes propiciem melhor qualidade de vida. O que
se observou mais recentemente foi o grande descompasso entre a riqueza de uma nação e o seu
crescimento econômico com as condições de vida de suas populações.
Indicadores sociais constituem-se, portanto, em valores numéricos que procuram sintetizar
uma condição social. Além da verificação acadêmica da condição de vida de um grupo populacio-
nal, a escolha de um indicador ou de um sistema de indicadores é essencial em razão de sua utili-
zação cada vez mais frequente pelos governantes como instrumento de Estado para a elaboração
de políticas públicas e a distribuição de recursos.

1 Filantropista e político inglês, estudioso dos problemas sociais da pobreza.


142 Estatística aplicada às ciências sociais

10.2 Concepção de indicadores


Indicadores sociais são necessários para a análise das políticas sociais e, em particular, para
a avaliação dessas políticas. Para isso, a informação estatística deve ser organizada em torno de
objetivos concretos de análise, procurando captar da realidade social os aspectos considerados
mais relevantes. O conhecimento de certo problema social exige que ele seja bem caracterizado nas
suas manifestações, que se conheçam os fatores que estão na sua origem e que se possa ter alguma
informação sobre a sua previsibilidade.
Uma boa leitura da evolução da sociedade e do seu bem-estar depende da construção de
indicadores. Por outro lado, os indicadores não estão isentos de refletir uma dada concepção do
problema em estudo.

10.3 Limitações do PIB como indicador social


A riqueza das nações é medida por meio do cálculo de seu produto interno bruto (PIB),
que representa a soma (em valores monetários) de todos os bens e serviços finais produzidos em
uma determinada região durante um período. O seu cálculo não é simples, como será visto mais
à frente. No Brasil, ele é feito pelo Instituto Brasileiro de Geografia e Estatística (IBGE), órgão
vinculado ao Ministério do Planejamento.
Verifica-se, no entanto, que países ricos (de PIB elevado) possuem, em seu território nacional,
situações de altos níveis de pobreza e com acentuadas desigualdades sociais. Constata-se, então,
que riqueza e crescimento econômico não implicam diretamente em desenvolvimento social. Dessa
forma, o indicador PIB per capita, resultado da divisão da riqueza total do país pelo número de
habitantes, é insuficiente para medir a condição de qualidade de vida de uma população.
Como foi apontado, mais recentemente, sob orientação de organismos internacionais – como
a Organização das Nações Unidas (ONU), a Organização para a Cooperação do Desenvolvimento
Econômico (OCDE), a Organização das Nações Unidas para a Educação, a Ciência e a Cultura
(Unesco), a Organização das Nações Unidas para a Agricultura e Alimentação (FAO), a Organização
Internacional do Trabalho (OIT), a Organização Mundial de Saúde (OMS) e o Fundo das Nações
Unidas para as Crianças (Unicef), entre outros –, tem sido realizado um grande esforço conceitual e
metodológico para o desenvolvimento de instrumentos de mensuração de bem-estar e de mudança
social. Esses são marcos importantes de produção e disseminação de estatísticas públicas que passa-
ram a incorporar novas dimensões investigativas e de produção de relatórios sociais de maneira mais
organizada e sistemática.
Uma série de novos indicadores tem sido proposta por estudiosos e órgãos dedicados à
análise das condições de vida das populações. No entanto, existem alguns que têm sido usados uni-
versalmente, e que por isso são importantes para estudos comparativos, como o índice de desen-
volvimento humano (IDH) e o índice de Gini, que serão objeto de seções posteriores deste capítulo.
A construção de indicadores alternativos aos estritamente econômicos, e mesmo ao IDH,
tem alcançado propostas metodológicas bastante inovadoras, mas que, no entanto, ainda não tem
sua difusão irradiada globalmente.
Indicadores sociais e econômicos 143

O índice de bem-estar econômico, proposto por Osberg e Sharpe (2002 apud VIDIGAL,
2011) no Canadá, por exemplo, admite que o desenvolvimento da sociedade depende de qua-
tro fatores: o consumo por habitante, a acumulação de capital, a repartição do rendimento e a
segurança econômica diante da ocorrência de riscos sociais. O Reseau d´Alerte sur les Inegalités
(RAI), desenvolvido na França, pretende constituir um indicador sintético de alerta para proble-
mas sociais, centrado nas desigualdades sociais e na pobreza.
Mesmo assim, compreender o que informam os índices mais conhecidos é fundamental
para o cientista social, não só para acompanhar as análises correntes, mas também, e talvez
principalmente, para propor formas complementares ou alternativas de análise dos principais
fenômenos sociais.
Neste capítulo, serão apresentados três tipos de indicadores úteis para a análise dos princi-
pais fenômenos sociais: índices que medem qualidade de vida e desenvolvimento social; índices
que medem grau de distribuição de renda e; índices que medem a evolução do custo de vida e dos
preços de mercadorias e serviços. Antes, porém, vamos verificar quais são as principais fontes de
dados para o cálculo desses índices.

10.4 Produção e disseminação de estatísticas públicas no Brasil


O sistema de estatísticas públicas brasileiro sofreu uma modificação expressiva a partir da
década de 1960, quando o IBGE implementou uma série de novas pesquisas. Além dos censos
demográficos, iniciados em 1940, o Brasil faz uma série de pesquisas para acompanhamento das
modificações demográficas e das características socioeconômicas da população, como as Pesquisas
Nacionais de Amostra Domiciliares (PNAD) e as pesquisas nos setores agropecuário, de serviços e
industrial. Coordenada pelo IBGE, essa grande rede é formada também pelas agências estaduais de
estatísticas, secretarias estaduais e municipais e órgãos federais, como os ministérios e seus órgãos.
O censo demográfico, devido à sua abrangência temática e territorial, continua sendo a
principal fonte de informação para construção de indicadores. No último censo, em 2010, foram
levantados dados sobre diversas características demográficas da população (sexo, idade, migração,
nupcialidade, fecundidade, mortalidade), socioeconômicas (renda, posse de bens de consumo,
trabalho, ocupação, escolaridade) e relacionadas aos domicílios (composição material, número de
cômodos, dormitórios, banheiros etc.).
O tamanho da população, determinado nos censos e atualizado nas contagens populacio-
nais realizadas nos períodos intercensitários, é um parâmetro fundamental para a organização da
vida nacional, a começar pela determinação da representação política e repartição dos recursos
públicos arrecadados a nível municipal e estadual.

10.5 O índice de desenvolvimento humano (IDH)


O conceito de desenvolvimento humano é a base do relatório de desenvolvimento humano
(RDH), publicado anualmente pelo Programa das Nações Unidas para o Desenvolvimento (PNUD)
144 Estatística aplicada às ciências sociais

no Brasil, a partir de 1993, e também do índice de desenvolvimento humano (IDH). Os RDH bus-
cam aferir os avanços de uma população por meio da análise de suas características sociais, cultu-
rais e políticas, além da dimensão econômica.
Os RDH propõem também uma agenda sobre temas relevantes ligados ao desenvolvimento
humano e reúnem tabelas estatísticas e informações sobre os assuntos tratados. O relatório foi
idealizado pelo economista paquistanês Mahbub ul Haq, que em 1990 propôs a sua utilização
como contraponto a outro indicador muito usado, o PIB per capita (PNUD, 2018b). O IDH é uma
medida geral e sintética que não abrange todos os aspectos do desenvolvimento humano, mas é um
índice-chave dos Objetivos de Desenvolvimento do Milênio das Nações Unidas.
Além de computar o PIB per capita, após corrigi-lo de acordo com o poder de compra da
moeda de cada país, ou seja, em dólar PPC (paridade do poder de compra, que elimina as dife-
renças de custo de vida entre os países), o IDH também leva em conta dois outros componentes: a
longevidade e a educação.
Para aferir a longevidade, o indicador utiliza números de expectativa de vida ao nascer, en-
quanto o item educação é avaliado pelo índice de analfabetismo e pela taxa de matrícula em todos
os níveis de ensino.
Para calcular o IDH de uma localidade, determina-se a seguinte média aritmética:

L+E+R
IDH =
3

Em que:

• L = longevidade;
• E = educação;
• R = renda.

10.5.1 Longevidade
A longevidade é determinada pela fórmula a seguir, em que EV significa a expectativa de
vida ao nascer de uma população, isto é, a média de anos de vida de uma geração.

EV – 25
L=
60
A lógica da determinação do índice é supor que a expectativa máxima de vida é de 85 anos
e a mínima de 25 anos, empregada na expressão geral para o cálculo de índices:

X – Xmin
I=
Xmin –Xmáx
Indicadores sociais e econômicos 145

O indicador de longevidade sintetiza aproximadamente as condições de saúde e salubridade


do local, uma vez que, quanto mais mortes houver nas faixas etárias mais precoces, menor será a
expectativa de vida observada.

10.5.2 Escolarização
A escolarização é a média ponderada da taxa de alfabetização e da taxa de escolarização:

E = 2TA – TE
3

Uma vez que a taxa de alfabetização é um dado que revela um determinado resultado
e a taxa de escolarização diz respeito a um processo, utiliza-se a média ponderada para evitar
distorções e diferenciar países que tenham variações em cada uma dessas taxas.
A taxa de alfabetização (TA) é definida como o percentual de pessoas com 15 anos ou mais
de idade que sabem ler e escrever um bilhete simples no idioma que conhecem, na população total
na mesma faixa etária, em determinado espaço geográfico, no ano considerado.
A taxa de escolarização (TE) é dada pela razão entre o número total de estudantes no ensino
fundamental, médio e superior e a população em idade escolar para esses três níveis.
Os valores das taxas de alfabetização e de frequência já variam entre 0 e 1 (0 a 100%),
tornando-se desnecessário convertê-las em um índice, como nas dimensões longevidade acima
e renda abaixo.

10.5.3 Renda
O IDH da renda segue a lógica de construção de índices, levando-se em conta os valores
máximos e mínimos do PIB per capita (PIBpc). Para um município, por exemplo, determina-se a
renda municipal per capita (R) e, em seguida, aplica-se a fórmula:

log10 de renda média municipal per capita – log10 do valor de referência mínimo
IDHM – R =
log10 do valor de referência máximo – log10 do valor de referência mínimo

O valor de referência máximo adotado é R$ 40.000,00 e o valor de referência mínimo é


R$ 100,00. Observe que log10 100 = 2 e que log10 40.000 = 4,60206, por isso o denominador é igual
a 4,60206 – 2 = 2,60206.
log10 PIBpc – 2
R=
2,60206
146 Estatística aplicada às ciências sociais

Veja que R$ 10,00 a mais por mês para quem ganha R$ 100,00 proporciona um maior
retorno em bem-estar do que R$ 10,00 para quem ganha R$ 40.000,00. Essa é a razão de se usar
o logaritmo.

10.5.4 Classificação
O IDH é um índice que varia de zero (nenhum desenvolvimento humano) até 1 (desenvol-
vimento humano total), e a classificação de uma região é dada por:
• IDH entre 0 e 0,499 é considerado baixo.
• IDH entre 0,500 e 0,799 é considerado médio.
• IDH entre 0,800 e 1 é considerado alto.

10.5.5 Exemplos de IDH


O quadro a seguir apresenta o valor do IDH dos 20 países com maiores índices.
Quadro 1 – Vinte países com maiores IDH

País IDH

Noruega 0,953

Suíça 0,944

Austrália 0,939

Irlanda 0,938

Alemanha 0,936

Islândia 0,935

Hong Kong 0,933

Suécia 0,933

Singapura 0,932

Holanda 0,931

Dinamarca 0,929

Canadá 0,926

Estados Unidos 0,924

Reino Unido 0,922

Finlândia 0,920

Nova Zelândia 0,917

Bélgica 0,916
(Continua)
Indicadores sociais e econômicos 147

Liechtenstein 0,916

Japão 0,909

Áustria 0,908

Fonte: EBC, 2017.

O próximo quadro apresenta os 10 países com menores IDH, ocupando as posições de


162 a 171.
Quadro 2 – Dez países com menores IDH

País IDH

Uganda 0,516

Benin 0,515

Senegal 0,505

Comores 0,503

Togo 0,503

Sudão 0,502

Haiti 0,498

Afeganistão 0,498

Costa do Marfim 0,492

Holanda 0,477

Fonte: IDH, 2018.

Segundo dados do PNUD, o Brasil ocupa em 2018 a 79ª posição, com valor de IDH igual a
0,759 (IDH, 2018). Convém observar, para efeito de comparação, que em 2006 o Brasil ocupava
a 70ª posição, com IDH igual a 0,807 (IDH, 2008)2.

10.6 O índice de Gini


Essa é uma medida de desigualdade desenvolvida pelo estatístico italiano Corrado Gini
em 1912. É utilizada para se calcular a desigualdade da distribuição de renda. O índice consiste
em um número entre 0 e 1, em que 0 corresponde à completa igualdade de renda (todos têm
a mesma renda) e 1 corresponde à completa desigualdade (uma pessoa tem toda a renda, e as
demais não têm nada) (SCHLINDWEIN, 2008).
O índice de Gini é calculado como a razão das áreas no diagrama da curva de Lorenz e de-
finido pela razão a/(a+b), em que “a” é a área entre a linha diagonal, a linha da perfeita igualdade e
a curva de Lorenz, e “b” é a área abaixo da curva de Lorenz.

2 Diversas informações complementares, bem como os Relatórios de Desenvolvimento Humano, podem ser acessadas
no site: http://www.br.undp.org/content/brazil/pt/home/idh0/relatorios-de-desenvolvimento-humano/rdhs-globais.html.
Acesso em: 5 dez. 2018.
148 Estatística aplicada às ciências sociais

Figura 1 – Índice de Gini

Quantidade de pessoas
a

Renda

Fonte: Elaborada pelo autor.

A diagonal representa a igualdade perfeita de renda, e a área pintada é o coeficiente de Gini.


A curva que delimita o coeficiente denomina-se curva de Lorenz.
Cada ponto da curva representa a percentagem acumulada das pessoas. A linha de 45 graus
que passa pela origem demonstra uma distribuição perfeita, isso significa, por exemplo, que 40%
da população recebe 40% da renda. Por outro lado, se uma pessoa detivesse toda a renda, a curva
coincidiria com o eixo X. Em geral, a curva encontra-se em uma situação intermediária entre esses
dois extremos.
Se a área entre a linha de perfeita igualdade e a curva de Lorenz é “a”, e a área abaixo da curva
de Lorenz é “b”, então o índice de Gini é:

a
G=
a+b
A razão a/(a+b) é sempre um número entre 0 e 1, e pode ser pensada como uma percenta-
gem, então, por exemplo, 0,6 representa 60%. A fórmula de Brown é o meio mais prático para se
calcular o valor do índice de Gini.

k=n–1
G = |1 Xi (Xk+1 – Xk) (Yk+1 + Yk)|
k =1

Em que:

• G = coeficiente de Gini;
• X = proporção acumulada da variável população;
• Y = proporção acumulada da variável renda.

10.6.1 Exemplos de índice de Gini


O quadro a seguir apresenta os 10 países com pior distribuição de renda, segundo o índice
de Gini.
Indicadores sociais e econômicos 149

Quadro 3 – Dez países com pior distribuição de renda

País IDH

África do Sul 0,634

Namíbia 0,61

Haiti 0,608

Botsuana 0,605

Rep. Centro-Africana 0,562

Zâmbia 0,556

Lesoto 0,542

Colômbia 0,535

Paraguai 0,517

Brasil 0,515

Fonte: Corrêa, 2018.

O quadro a seguir apresenta os 12 países com melhor distribuição de renda, segundo o


índice de Gini.
Quadro 4 – Doze países com melhor distribuição de renda

País IDH

Islândia 0,24,1

Eslováquia 0,243

Eslovênia 0,244

Noruega 0,25

Rep. Checa 0,251

Finlândia 0,254

Bélgica 0,263

Holanda 0,269

Áustria 0,272

Suécia 0,276

Dinamarca 0,277

Hungria 0,282

Fonte: Corrêa, 2018.


150 Estatística aplicada às ciências sociais

A distribuição de renda no Brasil está muito próxima daquela dos países com pior distri-
buição de renda do mundo. O valor do índice de Gini no Brasil é de 0,515 (CORRÊA, 2018). Para
comparação, o índice de Gini dos Estados Unidos é de 0,415, de Portugal é de 0,339, da Itália é
de 0,331 e da Alemanha é de 0,2353.

10.7 Índices de preço


Índices de preços são números que agregam e representam os valores de uma determinada
cesta de produtos, medindo, portanto, a sua variação média. Podem se referir, por exemplo,
aos preços ao consumidor, preços ao produtor, custos de produção ou preços de exportação e
importação. De acordo com o Banco Central do Brasil, os principais índices utilizados no país são
(BRASIL, 2016):
• Índice geral de preços (IGP): calculado pela Fundação Getulio Vargas (FGV), é uma
média ponderada do índice de preços no atacado (IPA), com peso 6; de preços ao con-
sumidor (IPC) no Rio de Janeiro e São Paulo, com peso 3; e do custo da construção civil
(INCC), com peso 1. É usado em contratos de prazo mais longo, como aluguel.
• Índice de preços no atacado (IPA): calculado pela FGV, com base na variação dos preços
no mercado atacadista, esse índice é calculado para três intervalos diferentes e compõe
os demais índices calculados pela FGV (IGP-M, IGP-DI e IGP-10) com um peso de 60%.
• Índice geral de preços – disponibilidade interna (IGP-DI): calculado pela FGV, esse
índice procura refletir as variações mensais de preços, pesquisados do dia 1º ao último dia
do mês corrente. É formado pelo índice de preços por atacado (IPA), índice de preços ao
consumidor (IPC) e índice nacional do custo da construção (INCC), com pesos de 60%,
30% e 10%, respectivamente, e apura as variações de preços de matérias-primas agrícolas
e industriais no atacado e de bens e serviços finais no consumo.
• Índice geral de preços do mercado (IGP-M): também é produzido pela FGV, com me-
todologia igual à utilizada no cálculo do IGP-DI. A principal diferença é que, enquanto
este abrange o mês fechado, o IGP-M é pesquisado entre os dias 21 de um mês e 20 do
mês seguinte. Foi criado por solicitação de entidades do setor financeiro, que, diante das
mudanças frequentes promovidas pelo governo nos índices oficiais de inflação na década
de 1980, desejavam um índice com mais credibilidade e independência. O contrato de
prestação de serviços entre essas entidades e a FGV foi celebrado em maio de 1989.
• Índice geral de preços 10 (IGP-10): também da FGV, é elaborado com a mesma metodo-
logia do IGP e do IGP-M, mudando apenas o período de coleta de preços: entre o dia 11
de um mês e o dia 10 do mês seguinte.
• Índice de preços ao consumidor (IPC) – Rio de Janeiro: considera a variação dos preços
na cidade do Rio de Janeiro e é calculado mensalmente pela FGV, tomando por base os
gastos de famílias com renda de 1 a 33 salários mínimos.

3 A lista completa dos valores do índice de Gini pode ser encontrada no seguinte endereço eletrônico: https://
observatorio-das-desigualdades.com/2018/04/17/coeficiente-de-gini/. Acesso em: 6 dez. 2018.
Indicadores sociais e econômicos 151

• Índice de preços ao consumidor da Fundação Instituto de Pesquisas Econômicas


(IPC-Fipe): índice da Universidade de São Paulo (USP), pesquisado no município de São
Paulo, tenta refletir o custo de vida de famílias com renda de 1 a 20 salários mínimos, di-
vulgando taxas quadrissemanais. No cálculo, são utilizados sete grupos de despesas: habi-
tação (32,79%), alimentação (22,73%), transportes (16,03%), despesas pessoais (12,30%),
saúde (7,08%), vestuário (5,29%) e educação (3,78%).

O IPC-Fipe mede a variação de preços para o consumidor na cidade de São Paulo com base
nos gastos de quem ganha de 1 a 20 salários mínimos. Os grupos de despesas estão compostos
de acordo com as pesquisas de orçamentos familiares (POF), em constante atualização. A
estrutura de ponderação atual é restrita a assinantes e pode ser verificada no portal da Fipe4.
De maneira geral, a ponderação é similar ao INPC/IBGE e ao IPCA/IBGE. O período de
pesquisa das variações de preços é do primeiro ao último dia de cada mês. A publicação
dos índices ocorre normalmente entre os dias 10 e 20 do mês subsequente. A Fipe divulga
também as variações de preços das últimas quatro semanas imediatamente anteriores.
Desse modo, esse índice “evita” sustos e indica tendências fortes das variações de preços,
principalmente da camada de renda da população analisada.
O índice de preços ao consumidor do município de São Paulo é o mais tradicional indica-
dor da evolução do custo de vida das famílias paulistanas e um dos mais antigos do Brasil.
Começou a ser calculado em janeiro de 1939 pela Divisão de Estatística e Documentação
da prefeitura do município de São Paulo. Em 1968, a responsabilidade do cálculo foi
transferida para o Instituto de Pesquisas Econômicas da USP e, posteriormente, em 1973,
com a criação da Fipe, para essa instituição.
• Índice de preços ao consumidor do Centro de Estudos e Pesquisas Econômicas (IPC-
Iepe): é pesquisado pelo Iepe, um centro de estudos da Universidade Federal do Rio
Grande do Sul, no município de Porto Alegre, utilizando 281 itens com grande frequência
de compra.
• Índice do custo de vida (ICV-Dieese): publicado pelo Departamento Intersindical de
Estatística e Estudos Socioeconômicos (Dieese), também é medido na cidade de São
Paulo e reflete o custo de vida de famílias com renda média de R$ 2.800 (há ainda índices
para a baixa renda e a intermediária).
• Índice nacional de preços ao consumidor (INPC): média do custo de vida nas nove
principais regiões metropolitanas do país para famílias com renda de um a seis salários
mínimos, medido pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Compõe-se
do cruzamento de dois parâmetros: a pesquisa de preços de nove regiões de produção
econômica e a pesquisa de orçamento familiar (POF), que abrange famílias com ren-
da de um a seis salários mínimos. As regiões e ponderações são as seguintes: São Paulo
(28,46%); Rio de Janeiro (12,52%); Belo Horizonte (11,36%); Salvador (9,10%); Porto
Alegre (7,83%); Recife (7,10%); Brasília (6,92%); Fortaleza (5,61%); (Belém – 4,20%).

4 FIPE – Fundação Instituto de Pesquisas Econômicas. Disponível em: http://www.fipe.org.br/. Acesso em:
6 nov. 2018.
152 Estatística aplicada às ciências sociais

• Índice de preços ao consumidor amplo (IPCA): também do IBGE, calculado desde 1980,
é semelhante ao INPC, porém reflete o custo de vida para famílias com renda mensal de
1 a 40 salários mínimos. A pesquisa é feita nas mesmas nove regiões metropolitanas apre-
sentadas anteriormente, tendo sido escolhida como alvo das metas de inflação (inflation
targeting) no Brasil.
• Índice nacional do custo da construção (INCC): um dos componentes das três versões
do IGP, o de menor peso, reflete o ritmo dos preços de materiais de construção e da mão
de obra no setor. É utilizado em financiamento direto de construtoras/incorporadoras.
• Custo unitário básico (CUB): índice que reflete o ritmo dos preços de materiais de
construção e da mão de obra no setor, calculado por sindicatos estaduais da indústria
da construção, Sinduscon, e usado em financiamentos de imóveis.
Apresentamos neste capítulo alguns dos principais índices utilizados para a análise da rea-
lidade socioeconômica do Brasil e de outros países. É importante ter o conhecimento de como
são calculados e interpretados esses índices, porque eles fazem parte da informação corrente para
avaliação de condições de vida dos habitantes de uma cidade, de uma região ou de um país.

Atividades
1. Quais são as principais limitações do IDH como indicador da qualidade de vida de um
grupo populacional?

2. Um município tem PIB per capita igual a R$ 827,35 (o que equivale a PIBpc PPC de
US$ 21.214,10 – derivado do cálculo de 827,35x(100/3,9), segundo metodologia do PNUD),
e log10 21.214,10 = 4,3266. O município tem uma taxa bruta de frequência à escola de 85%
e a taxa de alfabetização é de 91%. A esperança de vida ao nascer nesse município foi deter-
minada como sendo igual a 70 anos. Calcule o IDH do município e apresente os resultados
intermediários e final.

3. Entre os oito Objetivos do Milênio, aponte quais são os que podem ser relacionados ao IDH
direta e indiretamente. Justifique.

1. Acabar com a fome e a miséria.


2. Educação básica e de qualidade para todos.
3. Igualdade entre sexos e valorização da mulher.
4. Reduzir a mortalidade infantil.
5. Melhorar a saúde das gestantes.
6. Combater a aids, a malária e outras doenças.
7. Qualidade de vida e respeito ao meio ambiente.
8. Todo mundo trabalhando pelo desenvolvimento.
11
Análise de associação entre variáveis

Assim como sonhos, estatísticas são uma forma de alcançar um desejo.

Jean Baudrillard (1929-2007)1

11.1 Associação entre variáveis econômicas e sociológicas


A inovação tecnológica tem tido papel central na economia de países desenvolvidos e da-
queles que cresceram a taxas em torno de 10% nas últimas décadas. O investimento em pesquisa
e desenvolvimento (P&D) nas empresas de base tecnológica tem sido apontado como fator deter-
minante do crescimento desses países, em consequência também da melhoria dos resultados de
produção das empresas de setores estratégicos.
A inovação consiste na realização de alguma novidade ou renovação, em fazer algo que
nunca foi feito, e normalmente surge associada à tecnologia. O surgimento da máquina a vapor
é um exemplo claro de inovação tecnológica, que transformou profundamente todo o sistema
produtivo conhecido. A posição humana no trabalho é condicionada à utilização da máquina,
pois ela permite aumentar a produtividade, modificando a tarefa humana, que adquire maior
importância nas atividades de controle. Algumas profissões têm desaparecido nesse novo con-
texto, e outras, no geral mais especializadas, têm surgido.
O ponto principal das discussões acerca da inovação tem sido de ordem econômica, como
competitividade, investimento e pressões de demanda. Incluir variáveis socioculturais em avaliações
e estudos sobre a implementação da inovação em contextos locais e nacionais passa a exercer um
papel fundamental, uma vez que as ciências sociais não estão inseridas tão fortemente nessa agenda
de pesquisa, em comparação com a economia e as ciências organizacionais.
Mais recentemente, os teóricos do risco social apontaram a crise das certezas do mundo
contemporâneo, em que a contingência e a instabilidade das práticas tecnológicas repercutem
diretamente na sociabilidade. O princípio de precaução e a desconfiança no desenvolvimento
tecnológico vêm adquirindo proeminência no pensamento social contemporâneo (BRUESEKE,
2002). Eles propiciam modelos e fazem cruzar determinadas variáveis, mas não lograram ainda
explicar como os processos inovativos aparecem e se desenvolvem.
O debate em torno dos efeitos da inovação tecnológica sobre o mercado de trabalho vem
crescendo à medida que o processo de inovação se intensifica, tornando-se cada vez mais indis-
pensável ao crescimento e à competitividade das organizações. Não há um consenso na literatura a
respeito dos impactos da inovação sobre o emprego. Intuitivamente, com a finalidade de aumentar

1 Sociólogo e filósofo francês que estudou o impacto da comunicação e da mídia na sociedade.


154 Estatística aplicada às ciências sociais

a eficiência produtiva, a inovação tende a diminuir o número de trabalhadores por equipamento,


gerando desemprego ou diminuição na taxa de crescimento do emprego. Por outro lado, ao criar
um novo produto, a inovação tende a estimular a demanda e a aumentar a produção e o emprego.
Um modelo teórico foi proposto objetivando sintetizar em uma equação a taxa de cresci-
mento da mão de obra empregada. O resultado final do modelo indica que a taxa de crescimento
do emprego dependerá (inversamente) da taxa de crescimento da eficiência produtiva e (direta-
mente) da quantidade produzida. Devido à limitação da base de dados, a quantidade produzida
foi substituída por valores reais de vendas. Dessa forma, a taxa de crescimento do emprego tende
a aumentar quando as vendas aumentam e tende a diminuir quando a produtividade dos fatores
aumenta. A proposta de modelo econométrico que descreve tal relação é a que segue:

= + 1
x1 + 2
x2 +
Em que indica a taxa de crescimento do emprego; o intercepto ( )
refere-se ao crescimento da eficiência produtiva; X1 é a taxa de cres-
cimento das vendas do produto velho; X2 é a receita proveniente das
vendas do produto novo (em casos nos quais a empresa não inova em
produto, essa variável é zero) e; ε é o efeito do acaso, composto por
variáveis não controladas e do acaso propriamente dito.

O que o modelo pretende é relacionar as variáveis que medem a taxa de crescimento da


eficiência tecnológica e a quantidade de bens produzidos com a taxa de crescimento do emprego.
Esse é um bom exemplo de utilização de técnicas estatísticas que propõem uma associação
entre variáveis econômicas e sociais. O modelo proposto é chamado de modelo de regressão linear.
Acompanha o estudo da eficácia do modelo em explicar as relações entre as variáveis o estudo da
força dessas relações, levado a efeito pela análise de correlação.
Outro exemplo, que será tratado neste capítulo, diz respeito à relação entre a renda familiar
mensal e os investimentos em educação por ano de 15 famílias. Supõe-se, a princípio, que famílias
com maior rendimento devem fazer mais investimento em educação.

11.2 Análise de regressão e de correlação


A tarefa de se fazer predições é inerente a muitos dos aspectos da investigação sociológica.
Avaliação de fluxos migratórios e de crescimento populacional, empregabilidade, educação, saúde
e demais políticas públicas fazem parte dos fundamentos do planejamento de políticas sociais e,
consequentemente, das metas de investimento governamental e da distribuição dos recursos públicos.
Há uma série de técnicas para se fazer predição. A maioria delas são modelos não deter-
minísticos, isto é, que levam em conta certo grau de incerteza, embora haja propostas também de
modelos determinísticos. A técnica mais utilizada para a construção de modelos que envolvem
certo grau de incerteza é chamada de regressão. Associado ao modelo de regressão, é comum
Análise de associação entre variáveis 155

fazermos uma análise que mede a força da ligação entre as variáveis e a aptidão do modelo em
explicar a ligação entre essas variáveis, conhecida como análise de correlação. A primeira provi-
dência ao buscar a construção do modelo é a verificação que existe entre a relação teórica e as
variáveis consideradas.

11.2.1 Análise de regressão


A análise de regressão é o método de construir, com base nos dados amostrais, uma função
matemática que relacione a chamada variável independente a uma outra variável que dependa desta,
conhecida como variável dependente. A forma geral do modelo que descreve essa relação é:

Y = f(X) +

Sendo que: X é a variável independente; Y é a variável dependente e;


é o erro estatístico. Esse modelo possui, portanto, uma componente de-
terminística f(X) e uma componente aleatória . A função f(X) pode ser
linear ou não.

11.2.2 Análise de regressão linear


Se a relação entre a variável independente e a variável dependente puder ser expressa por
meio da equação de uma reta, então esse é um modelo de regressão linear. A expressão geral dele é:

Y= + X+

Em que: e são os parâmetros do modelo. Como a construção


do modelo é baseada em observações amostrais, esses parâmetros
nunca são conhecidos. Eles são os verdadeiros valores do modelo
do mundo real e devem ser estimados mediante estimadores esta-
tísticos com base nos dados de uma amostra.

11.2.3 Análise de regressão não linear


A relação entre as variáveis nem sempre pode ser expressa por meio da equação de uma
reta, porque esssa relação pode ser não linear. Outros modelos, como o exponencial, o potencial e
o logístico, podem ser melhor descritores da relação entre as variáveis.
156 Estatística aplicada às ciências sociais

11.2.4 Análise de regressão simples


Um modelo de regressão simples é definido quando somente duas variáveis estão envolvidas.
Dessa forma, só participarão do modelo uma variável independente e uma variável dependente.
Um modelo de regressão simples pode ser linear ou não linear.

11.2.5 Análise de regressão múltipla


Se a variável dependente estiver relacionada a mais de uma variável independente, então
trata-se de um modelo de regressão múltipla, que pode ser linear ou não. No caso de a relação ser
linear com duas variáveis independentes, o modelo a ser construído será o de um plano. Se esti-
verem envolvidas mais do que duas variáveis independentes, o modelo será um hiperplano: um
plano em um espaço de mais de três dimensões. Um modelo de regressão linear múltipla pode ser
expresso mediante a seguinte função:

Y= 0
+ 1X1 + 2
X2 + ... + pXp +

A troca de por 0
, por , e assim por diante, é feita aqui somente por comodidade
1

de notação.

11.2.6 Erro estatístico


O termo ε é definido como o erro estatístico ou resíduo. Ele é a componente aleatória do
modelo e precisa ser bem compreendida. Lembre-se de que esses modelos são construídos por
meio de observações amostrais e, sempre que se faz um levantamento de dados mediante amostra,
os resultados obtidos referem-se a determinado grau de incerteza. Nos modelos estatísticos, eles
são considerados de natureza aleatória, ou seja, associados a certa distribuição de probabilidades.
Na parte determinística do modelo de regressão estão todas as variáveis independentes que
explicam as variações da variável dependente. Nesse modelo devemos usar o menor número de
variáveis possível, desde que se possa explicar bem a relação entre as variáveis independentes e a
variável dependente. Na componente aleatória estão, além das variações devidas ao acaso, todas
aquelas que têm importância reduzida na explicação da variável dependente.
Alguns pressupostos são impostos ao erro, para que se possa construir o modelo de re-
gressão mediante os critérios de redução de funções do erro, mas essa discussão está fora do
escopo deste livro.

11.2.7 Gráfico de dispersão


Os gráficos de dispersão apresentam os valores da variável dependente no eixo das abscissas
(X) e o valor da variável independente no eixo (Y) das ordenadas. O gráfico a seguir apresenta os
dados de renda familiar mensal de 15 famílias, relacionados com os investimentos em educação
por ano. Eles são muito úteis para uma impressão visual do relacionamento entre as variáveis.
Análise de associação entre variáveis 157

Figura 1 – Gráfico de renda familiar mensal e investimento anual em educação

Investimento em
educação

250

200

150

100

50

0
0 2 4 6 8 10 12 14 16
Renda familiar

Fonte: Elaborada pelo autor.

11.2.8 Variáveis independente e dependente


Conforme exposto anteriormente, a variável dependente depende da variável independente.
No caso apresentado, o investimento em educação supostamente depende da renda familiar.
A variável independente recebe também o nome de preditor e é sempre apontada no
eixo X das abscissas. A variável dependente é chamada de resposta e é sempre plotada no eixo
Y das ordenadas.
O que se pode observar inicialmente no gráfico é que a relação entre X e Y pode ser aproxi-
mada por uma reta que passa pelo “meio” dos pontos. Mas essa relação não é perfeita, no sentido
de que não é possível construirmos uma reta que passe por todos os pontos amostrais. Talvez uma
curva não linear possa também ser ajustada aos dados. O estudo da escolha da forma da curva (ou
reta) será feito mais adiante.

11.2.9 Reta de regressão


Para um modelo de regressão linear simples, o objetivo será o de se construir uma reta que
passe próxima dos pontos amostrais por meio de uma expressão determinada pelas estimativas de
α e de β no modelo Y = + X + . Ela será chamada de reta de regressão e terá como sua expressão
analítica a forma:

Ŷ = a + bX

Na reta, o coeficiente linear “a” é o estimador de ; o coeficiente angular


“b” é o estimador de e; Ŷ será o valor da estimativa do verdadeiro valor
de Y observado na amostra para cada um dos pontos de X.
158 Estatística aplicada às ciências sociais

A figura a seguir é um exemplo da construção da reta de regressão.


Figura 2 – Gráfico da reta de regressão
Investimento em
educação
250

200

150

100

50

0
0 2 4 6 8 10 12 14 16
Renda familiar

Fonte: Elaborada pelo autor.

11.3 A construção da reta de regressão


Um dos objetivos da análise de regressão é a construção de um modelo matemático que
relacione a variável dependente e a variável independente. Se o modelo é o de regressão linear
simples, a tarefa é determinar a equação da reta que melhor aproxime os pontos observados dos
dados amostrais. Vamos fazer um estudo da equação de uma reta para melhor compreendermos o
significado do que iremos construir.

11.3.1 Equação da reta


A função Y = a + bX é a equação de uma reta. Nela, “a” e “b” são, respectivamente, os coe-
ficientes linear e angular. Se supusermos que a reta seja dada pela expressão Y = 2 + X, então o
coeficiente linear da reta é o valor 2 e o coeficiente angular da reta é o valor 1.
Vamos fazer um estudo dessa reta, começando por verificar os valores de Y para diferentes
valores de X. Então, se Y = 2 + X, os valores a seguir são pontos da reta:
Tabela 1 – Valores de X e Y na reta

X Y

0 2

1 3

2 4

3 5

4 6
Fonte: Elaborada pelo autor.
Análise de associação entre variáveis 159

O gráfico correspondente é:
Figura 3 – Gráfico da reta

4
y
3

0
0 1 2 3 4 5

x
Fonte: Elaborada pelo autor.

Com base nesses dados e no gráfico, podemos analisar agora o significado do coeficiente
linear e o do coeficiente angular.
O coeficiente angular “a” é o ponto em que a reta corta o eixo Y. Isso ocorre para o valor de
X = 0. Valores negativos de “a” implicam que a reta cruze o eixo Y abaixo da origem, enquanto
valores positivos de “a” implicam que a reta corte o eixo Y acima da origem.
O coeficiente linear “b” é a inclinação da reta, ou seja, é o valor da tangente do ângulo θ
formado pelo eixo X e a reta. Ele representa também a variação da variável Y para cada variação de
um ponto de X. Se tomarmos um pequeno triângulo de base unitária, verificaremos que a altura
desse triângulo definido pela reta Y = 2 + X também será unitária. Tomando, então, a razão entre
o cateto oposto e o cateto adjacente desse triângulo retângulo, verificaremos que a tg = 1, isto é,
a inclinação da reta é igual a 1 e o ângulo correspondente será de 45°.
Valores positivos de “b” significam que a reta crescerá na medida em que X cresce, e valores
negativos de “b” significam que a reta decrescerá em Y quando X cresce. Ou seja, no primeiro caso
dizemos que a relação entre X e Y é de proporcionalidade direta, enquanto no segundo caso que a
relação entre as variáveis é de proporcionalidade indireta.

11.3.2 Significado dos elementos da reta de regressão


O significado dos coeficientes linear e angular da reta de regressão é o mesmo empregado na
geometria analítica. No entanto, no caso da regressão, esses coeficientes ganham significados con-
cretos relacionados ao problema real que está sendo tratado, enquanto que na geometria analítica
os eixos X e Y não representam necessariamente nenhum fenômeno real.
Supondo que a reta construída com os dados das rendas familiares versus investimento em
educação das famílias fosse a reta estudada anteriormentte, Ŷ = 2 + X. Algumas conclusões imedia-
tas poderiam ser tomadas, como:
160 Estatística aplicada às ciências sociais

• Se o valor de “a” é igual a 2, isso significa que, se não houvesse renda, o investimento em
educação seria de duas unidades monetárias. Para o exemplo em foco, essa análise não
faria muito sentido.
• Para o valor de “b”, o coeficiente angular, teríamos como resultado que para cada variação
de uma unidade de X teríamos a variação de Y. Ou seja, o coeficiente angular mede quanto
aumenta o investimento em educação para cada um real a mais da renda.
• O valor de “b” positivo significa que a relação entre as variáveis é de proporcionalidade
direta, isto é, o aumento da renda implica em aumento do investimento em educação.
• Podemos calcular o valor esperado de investimento em educação (Ŷ) para certa renda
familiar (X). Por exemplo, se a renda for de R$ 3 mil, o investimento em educação espe-
rado poderá ser verificado por meio do cálculo:

Ŷ=2+X
Ŷ=2+3=5

Ou seja, R$ 5 mil por ano.


Um pouco mais adiante, determinaremos o valor da reta de regressão para os dados do pro-
blema em questão. Por ora, o objetivo é o de compreender o significado da reta de regressão e de
seus elementos.

11.3.3 O método dos mínimos quadrados ordinários


No gráfico a seguir, verificamos que para cada valor do eixo X (Xi) há um correspondente
de Y (Yi) e um de Ŷi. Os valores Yi são os verdadeiros observados na amostra e os de Ŷi são os es-
timados pela substituição do valor de Xi na reta de regressão. A diferença entre o valor observado
e o valor estimado é chamada de erro estatístico ou resíduo. Assim, podemos definir cada erro de
observação como:
εi = Yi – Ŷi

yi

yi
Análise de associação entre variáveis 161

O critério dos mínimos quadrados ordinários consiste na minimização da soma dos


quadrados dos erros. Ou seja, o critério expresso em termos matemáticos é:

Min i
2

Minimizar a soma dos erros ao quadrado significa minimizar i2 = (Yi – Ŷi)2. O que se
deseja é que a soma das distâncias de cada ponto até a reta seja a mínima. Usamos o quadrado
porque, sendo uma reta média, a soma dos desvios (ou distâncias) seria igual a zero. Essa é uma
propriedade da média.
Com esse procedimento, encontra-se o sistema de equações normais. Todavia, não vale a
pena, no contexto deste livro, discutir mais profundamente essa questão. O sistema de duas equa-
ções e duas incógnitas formado é chamado de sistema de equações normais, conforme apresentado
na sequência:

Y = n.a + b. X
XY = a X + b. X2

Assim, podemos verificar nas equações que os valores de Y, n, X, XY e X2 podem ser


calculados diretamente dos valores da amostra, ficando por determinar os valores das incógnitas
“a” e “b”, que são os valores dos coeficientes da reta Ŷ = a + bX, resolvendo, assim, o nosso problema.
O sistema de equações anterior pode ser rearranjado com manipulações matemáticas de
maneira a facilitar o cálculo de “a” e de “b” por meio das expressões:
a = Y – bX

XY – X. Y
n
b=
( X)2
XY2 –
n

Embora muitos softwares estatísticos estejam disponíveis para o cálculo direto da reta de
regressão e mesmo alguns aplicativos do Excel possam calcular a expressão da reta, é conveniente
demonstrar esse processo para a compreensão do engenhoso método de construção da equação da
reta de regressão com base nos dados amostrais.
162 Estatística aplicada às ciências sociais

11.3.4 Determinação da equação da reta para o problema


do investimento em educação
Uma pesquisa foi realizada com 15 famílias, com o intuito de verificar se a quantidade de
renda adquirida implicou em investimentos significativos em educação.
A tabela a seguir apresenta as rendas mensais das famílias e os investimentos em educação
durante o ano:
Tabela 2 – Renda familiar mensal e investimento anual em educação

Gasto mensal
Renda familiar
Família em educação em
em 2017 (R$)
2018 (em R$)

A 221,00 15.000,00

B 83,00 8.500,00

C 147,00 12.000,00

D 69,00 6.500,00

E 41,00 4.500,00

F 26,00 2.000,00

G 35,00 500,00

H 40,00 1.500,00

I 125,00 14.000,00

J 97,00 9.000,00

K 53,00 7.500,00

L 12,00 500,00

M 34,00 2.500,00

N 48,00 3.000,00

O 64,00 6.000,00
Fonte: Elaborada pelo autor.

Com base nos dados das 15 famílias, vamos determinar, por meio do método de mínimos
quadrados ordinários, a equação da reta que explica a relação entre as rendas familiares (X) e o
investimento em educação (Y).
A tabela a seguir apresenta os cálculos necessários para a determinação de “a” e de “b”:
Tabela 3 – Cálculos para determinação de “a” e “b”

Famílias X Y XY X2 Y2

A 15 221 3.315,0 225,00 48.841

B 8,5 83 705,5 72,25 6.889

C 12 147 1.764,0 144,00 21.609


(Continua)
Análise de associação entre variáveis 163

D 6,5 69 448,5 42,25 4.761

E 4,5 41 184,5 20,25 1.681

F 2,0 26 52,0 4,00 676

G 0,5 35 17,5 0,25 1.225

H 1,5 40 60,0 2,25 1.600

I 14 125 1.750,0 196,00 15.625

J 9,0 97 873,0 81,00 9.409

K 7,5 53 397,5 56,25 2.809

L 0,5 12 6,0 0,25 144

M 2,5 34 85,0 6,25 1.156

N 3,0 48 144,0 9,00 2.304

O 6,0 64 384,0 36,00 4.096

Total 93,0 1.095 10.186,5 895,00 122.825


Fonte: Elaborada pelo autor.

Assim, os valores de “a” e de “b” são determinados pelas expressões (1) e (2) a seguir:
(1) a = Y – bX

Y 1.095
Y= = = 73
n 15
X 93
X= = = 6,2
n 15

a = 73 – 6,2 b
O cálculo de “a” se completará após o cálculo do valor de “b”, que é dado por:
X. Y
XY –
n
(2) b =
( X)2
X2 –
n

93.1095
10.186,5 –
15
b=
(93)2
895 –
15

b = 10,67054
Retornando ao cálculo de “a”, teremos:

a = 73 – (6,2) (10,67054) = 6,842651


164 Estatística aplicada às ciências sociais

Portanto, a reta de regressão calculada terá a forma:

Ŷ = 6,84 + 10,67 X

Com base nesse resultado, podem-se fazer predições para o valor do investimento em edu-
cação em relação a um dado valor de renda, bastando, para isso, substituir X pelo valor da renda.
Por exemplo, se uma família tiver uma renda anual de R$ 2.000,00, deverá fazer um investimento
em educação mensal de Ŷ = 6,84 + 10,67 (2) = 28,18, ou R$ 28,18. Observe que a família F, que tem
uma renda anual de R$ 2.000,00, investiu em educação o total de R$ 26,00 por mês, bem próximo
ao esperado. Essa diferença entre o valor de investimento estimado para a família F e o realmente
realizado é devida ao acaso.

11.4 Verificação da bondade do modelo


Até aqui determinamos a equação da reta de regressão, verificamos o significado dos coefi-
cientes angular e linear e fizemos uma estimativa pontual de valores de investimento em educação
(Y) para um certo valor de renda (X).
É conveniente neste ponto verificar se o modelo ajustado é adequado para descrever a
relação entre X e Y. Faremos essa verificação mediante alguns procedimentos: calcularemos os
coeficientes de determinação e de correlação.

11.4.1 Coeficiente de determinação


O cálculo do coeficiente de determinação, ou coeficiente de explicação, será útil para dizer o
quanto da variação de Y pode ser explicado pela variação de X.
Vamos verificar exatamente de que forma o coeficiente de determinação (r2) pode auxiliar
na tarefa de verificação da bondade do modelo. A interpretação será feita em termos da variação na
variável dependente Y. A figura a seguir, na qual somente um ponto será considerado, fornece uma
interpretação gráfica da situação.

Y–Y

Y–Y

Y–Y
Análise de associação entre variáveis 165

Nesse contexto, três pontos e três distâncias serão considerados. O ponto Y é o valor real obser-
vado para um determinado X; o ponto Ŷ é o valor da estimativa de Y para o valor de X considerado
e; o ponto Y é a média dos valores de Y. Se o modelo não fosse significativo, a reta de regressão estaria
muito próxima da reta Ŷ = Y, paralela ao eixo X. Ou seja, a mudança dos valores de X não implicaria
em mudanças em Y. Esse conceito será reforçado no estudo do coeficiente de correlação.
Para o ponto considerado, podemos pensar que a variação total (Y – Y) é a soma das par-
celas correspondentes à variação devida à regressão (Ŷ – Y) e à variação devida ao acaso (Y – Ŷ).
A variação devida à regressão, ou explicada pela regressão, pode ser expressa pela diferença
(Ŷ – Y), porque, se não houvesse regressão, o valor de Ŷ seria a própria média de Y, Y.
A variação devida ao acaso é o erro estatístico ou resíduo, conforme já apresentado anterior-
mente. Se o modelo fosse determinístico, todos os pontos estariam sobre a reta de regressão, Y seria
igual a Ŷ e a diferença Y – Ŷ seria igual a zero.
Se considerarmos todos os pontos amostrais, podemos estabelecer a seguinte relação:

(Y – Y)2 = (Ŷ – Y)2 + (Y – Ŷ)2


Variação total = variação explicada + variação não explicada

(Ŷ – Y)2
A razão r2 = entre a variação explicada pela regressão e a variação total é a
(Y – Y)2
proporção da variação que é explicada pelo modelo. Esse valor é conhecido como coeficiente de
explicação ou coeficiente de determinação.

(Ŷ – Y)2
r2 = Variação explicada =
Variação total (Y – Y)2
Pode-se observar que r2 varia de zero até um.
Se não houver regressão, todos os pontos estimados estarão sobre a reta Y e, portanto, o
(Y – Y)2 será igual a zero. Se o numerador for igual a zero, significa que r2 também será igual a zero.
Nesse caso, a variação total será igual somente à variação não explicada. Ou ainda, qualquer varia-
ção na observação de Y será devida ao acaso e, portanto, o modelo matemático não explicará nada.
Esse é o menor valor possível para r2. O modelo explica zero por cento da variação de Y.
Por outro lado, se todos os pontos de Y observados estiverem sobre a reta, não há nenhuma
variação devida ao acaso. Toda variação é explicada pelo modelo e, nesse caso, ela é igual à variação
total – assim, r2 = 1. Ou seja, 100% da variação total é devido à regressão.
Uma forma simplificada de realizar esse cálculo é por meio da expressão:
166 Estatística aplicada às ciências sociais

r2 = a Y + b XY – n(Y)
2

Y2 – n (Ŷ – Y)2

Em nosso exemplo:
(6,84)(1.095) + (10,67)(10.186,5) – (15)(73)2
r2 =
(12.2825) – (15)(73)2
r2 = 0,845

Assim, concluímos que 84,5% da variação de Y (investimento em educação) são explicados


por X (renda da família). Os outros 15,5% da variação do investimento em educação são explica-
dos por outras variáveis, como gastos em alimentação, poupança etc. Podemos também afirmar
que o modelo de regressão construído tem alto poder de explicação, e esta última afirmação pode
ser confirmada por meio da análise de correlação que será feita na sequência.
Quando a população é pequena, o coeficiente de determinação pode ser afetado pelo
tamanho da amostra. Nesse caso, sugere-se o cálculo do coeficiente de determinação ajustado2.
A expressão utilizada para isso é a seguinte:

(n – 1)
r2ajustado = 1 – (1– r2)
(n – k)

O elemento k corresponde ao número de parâmetros do modelo. No


caso da regressão linear simples, são dois parâmetros, e , e, portanto,
o valor é k = 2.

No nosso problema, de maneira semelhante, k é igual a 2, e o valor do coeficiente de deter-


minação ajustado será:

(15 – 1)
r2ajustado = 1 – (1– 0,8452) = 0,833
(15 – 2)

Podemos perceber que o valor obtido não difere de modo substancial do primeiro valor
encontrado.

2 Observe que uma regressão realizada somente com dois pontos amostrais terá sempre coeficiente de determi-
nação igual a 1.
Análise de associação entre variáveis 167

11.4.2 Coeficiente de correlação


O coeficiente de correlação é uma medida da relação entre as variáveis X e Y. Ele varia entre
os valores -1 e 1, passando pelo zero. Esse coeficiente de correlação será igual a zero quando não
existe correlação entre as variáveis X e Y. Se a relação entre X e Y for perfeita, isto é, se todos os
pontos amostrais estiverem sobre a reta de regressão, o coeficiente de variação terá valor igual a 1.
Há duas possibilidades para esse caso: a correlação ser perfeita e positiva, isto é, se o crescimento de
X implicar em crescimento de Y, ou ser perfeita e negativa, e o coeficiente de correlação for igual a
-1, de modo que a correlação, ou seja, o crescimento de X, implica em decrescimento de Y.
No caso da correlação igual a zero, não haverá tendência da reta, ela será paralela ao eixo X.
O diagrama de dispersão se constituirá de uma nuvem de pontos em torno da reta de regressão
paralela ao eixo X, conforme demonstra a figura 4 a seguir:
Figura 4 – Diagrama de dispersão de correlação igual a zero

Fonte: Elaborada pelo autor.

Se a correlação for perfeita e positiva, o coeficiente de correlação será igual a 1.


Figura 5 – Diagrama de dispersão de correlação perfeita e positiva

Fonte: Elaborada pelo autor.

Se a correlação for perfeita e negativa, o coeficiente de correlação será igual a -1.


168 Estatística aplicada às ciências sociais

Figura 6 – Diagrama de dispersão de correlação perfeita e negativa

Fonte: Elaborada pelo autor.

O que ocorre na prática, no entanto, é que o coeficiente de correlação assume valores inter-
mediários entre os extremos expostos anteriormente. Não há uma regra única para se avaliar a força
da relação por meio do coeficiente de correlação. No entanto, há indicativos que podem orientar a
decisão sobre a força de uma relação. Uma proposta bem-aceita é a que segue:
Quadro 1 – Indicativos de força da relação

Coeficiente de
Força da relação
correlação (r)

r=0 Não há correlação

0 < |‌r| ≤ 0,5 Correlação fraca

0,5 < |‌r| ≤ 0,75 Correlação moderada

0,75 < |‌r| ≤ 0,9 Correlação forte

0,9 < |‌r| < 1 Correlação muito forte

|‌r| =1 Correlação perfeita

Os gráficos a seguir apresentam algumas das situações expostas no quadro anterior:


Figura 7 – Diagrama de correlação forte e negativa

Fonte: Elaborada pelo autor.


Análise de associação entre variáveis 169

Figura 8 – Diagrama de correlação forte e positiva

Fonte: Elaborada pelo autor.

Figura 9 – Diagrama de correlação fraca e positiva

Fonte: Elaborada pelo autor.

Figura 10 – Diagrama de correlação não linear

Fonte: Elaborada pelo autor.

Como vimos, o coeficiente de correlação pode ser calculado como a raiz quadrada do coe-
ficiente de determinação. Uma outra forma de identificar diretamente o valor do coeficiente de
correlação é por meio da expressão:
170 Estatística aplicada às ciências sociais

( X)( Y)
XY –
n
r=
X2 – ( X)
2
( Y)2
Y2 –
n n

As ferramentas apresentadas neste capítulo fazem parte de um conjunto bem vasto de proce-
dimentos para o estudo da relação entre duas variáveis ou mais. Se bem equacionados, problemas
em ciências sociais podem ser mais bem compreendidos com a utilização dessas técnicas.

Atividades
1. Seja a reta de regressão Ŷ = 2 + X, analise o significado dos coeficientes da equação da reta.

2. Se o coeficiente de correlação entre as variáveis X e Y for igual a 0,8, qual é o poder de expli-
cação do modelo Y = a + bX?

3. Por que é importante o cálculo do coeficiente de determinação ajustado?


12
Análise de variáveis qualitativas

É fácil mentir com estatísticas, mas é ainda mais fácil sem.

Frederick Mosteller (1916-2006)1

12.1 Métodos qualitativos e métodos para variáveis qualitativas


Uma primeira importante distinção deve ser feita entre métodos qualitativos e métodos
quantitativos para variáveis qualitativas.
As chamadas variáveis qualitativas ou variáveis categorizadas são medidas em escala nomi-
nal, como sexo, setor de trabalho e faixa etária. É interessante destacar que, embora a idade possa
ser medida em valores numéricos, consideramos aqui a faixa etária, que se constitui em categorias.
Poderíamos, por exemplo, de maneira arbitrária dividir uma população em cinco faixas etá-
rias: faixa 1 (de 0 a 12 anos), infância; faixa 2 (de 12 a 18 anos), adolescência; faixa 3 (de 19 a 35
anos), adulta; faixa 4 (de 35 a 60 anos), maturidade e; faixa 5 (de 61 anos em diante), velhice. Essas
variáveis não comportam as operações aritméticas como soma, diferença, produto e razão. A faixa
etária 4 não é o dobro da faixa etária 2. Homens e mulheres não se somam, e assim por diante.
Decorrente, então, da natureza do trabalho de pesquisa, podemos ter os métodos qualitati-
vos e os métodos quantitativos. Os primeiros não envolvem análise numérica e são chamados de
análise qualitativa. Por outro lado, temos entre os métodos quantitativos aqueles que trabalham
com variáveis qualitativas, e esses estudos são chamados de análise de variáveis qualitativas e serão
tratados também como análise de dados categorizados.
Conforme Cláudia Augusto Dias (2000, p. 1), pode-se dizer que, “de forma geral, os métodos
qualitativos são menos estruturados, proporcionam um relacionamento mais longo e flexível entre
o pesquisador e os entrevistados, e lidam com informações mais subjetivas, amplas e com maior
riqueza de detalhes do que os métodos quantitativos”. Ainda segundo a autora:
A pesquisa quantitativa normalmente se mostra apropriada quando existe a
possibilidade de medidas quantificáveis de variáveis e inferências a partir de
amostras de uma população. Esse tipo de pesquisa usa medidas numéricas para
testar constructos científicos e hipóteses, ou busca padrões numéricos rela-
cionados a conceitos cotidianos. Em contrapartida, a pesquisa qualitativa se
caracteriza, principalmente, pela ausência de medidas numéricas e análises es-
tatísticas, examinando aspectos mais profundos e subjetivos do tema em estudo.
(DIAS, 2000, p. 1)

1 Estatístico americano que deu enorme contribuição à estatística, à ciência e às políticas públicas.
172 Estatística aplicada às ciências sociais

12.2 Análise de dados qualitativos


A história dos métodos qualitativos ou compreensivos é ainda recente. Há pouco mais de
um século, surgiram as ciências humanas, criadas em contraponto às então já organizadas ciências
naturais. De acordo com Egberto Ribeiro Turato (2005, p. 507):
Com seus métodos qualitativos, a disciplina de Antropologia desenvolveu a
chamada etnografia, cuja revolução ocorreu nos anos 1920 com as publicações
de Malinowski. Esse antropólogo permaneceu alguns anos convivendo com na-
tivos da Oceania, observando participativamente o que lá ocorria. A partir deste
fato, a história da ciência atribuiu-lhe o pioneirismo na metodologia científica
qualitativa, já que ele procurou descrever sistematicamente como havia obtido
seus dados e como ocorria a experiência de campo.
Também Marx, Freud, entre outros, contribuíram para a construção de novas e profundas
compreensões da história e do ser humano, realizando estudos científicos na área das ciências
humanas. Darwin desenvolveu a teoria da evolução das espécies com base nas observações das di-
ferenças das espécies da vida selvagem e da análise de dados puramente qualitativos, sem qualquer
esforço de medir essas diferenças.
Turato (2005) traz um exemplo ilustrativo dessas questões: os fenômenos relacionados à
drogadição, por exemplo, podem ser explicados pela psiquiatria, pela epidemiologia ou pela far-
macologia clínica. Mas a compreensão do que a dependência química significa para a vida do
doente é um tema para os investigadores qualitativistas, como psicólogos, psicanalistas, sociólogos,
antropólogos ou educadores.
No contexto da metodologia para dados qualitativos, emprega-se a concepção segundo a
qual não se busca estudar o fenômeno em si, mas entender seu significado individual ou coletivo
na vida das pessoas.
Os principais métodos de pesquisa qualitativa são: pesquisa participativa, pesquisa-ação,
enquete operária e pesquisa etnográfica.

12.3 Análise de variáveis qualitativas


O termo qualitativo, aqui, não diz respeito à qualidade de um objeto, mas ao tipo de variável
que se está observando. Essas variáveis são também conhecidas como variáveis categorizadas, pos-
to que são vistas quantidades de ocorrências para variáveis que podem se organizar em categorias
como sexo e grau de instrução. O tipo de pesquisa que se faz lança mão de recursos como números,
cálculos de percentagem, técnicas estatísticas mais sofisticadas, tabelas, amostras representativas,
ensaios aleatórios, questionários ou escalas de avaliação.
Assim, dados categorizados são provenientes de variáveis discretas, relativos a uma ou mais
variáveis definidas por meio de um número finito de níveis ou categorias. Essas variáveis podem
ser ordinais ou nominais, conforme suas categorias sejam ordenadas ou não.
Análise de variáveis qualitativas 173

Uma primeira abordagem mais descritiva de análise de dados qualitativos é feita por meio
do estudo das distribuições de frequências. O objetivo central deste capítulo é o de realizar estudos
em um contexto mais inferencial, isto é, coletando informação de uma amostra para tirar con-
clusões para a população, quando duas variáveis qualitativas são organizadas em tabelas de dupla
entrada, conhecidas assim porque cruzamos duas variáveis, a idade e o sexo. Podemos estar inte-
ressados, por exemplo, em verificar a relação entre sexo e idade de eleitores de um certo candidato
a prefeito. Vejamos uma situação hipotética de uma tabela de dupla entrada, chamada de tabela de
contingência, para a situação descrita:
Tabela 1 – Sexo e idade dos eleitores do candidato A

Sexo
Idade Total
Masculino Feminino

Menos de 30 60 50 110

30 e mais 80 10 90

Total 140 60 200


Fonte: Elaborada pelo autor.

O que podemos inferir dos valores observados nessa amostra de 200 eleitores? Em quais ca-
tegorias o candidato A pode ser considerado mais forte? Homens jovens ou mulheres mais velhas?
Essas e outras tantas perguntas poderiam ser respondidas com base na examinação da tabela.
Para a realização dessa análise e de outras semelhantes, existe um procedimento estatístico
muito difundido e útil, chamado de teste qui-quadrado, que associa tabelas de contingência a
um modelo matemático conhecido como distribuição qui-quadrado. Observe que é distribuição
qui-quadrado, e não qui-quadrada, porque quem está ao quadrado é o (qui – letra grega cor-
respondente ao “q”), e não a distribuição. A notação é, portanto, 2 tanto para o teste como para
a distribuição.
Dois tipos de estudos para tabelas de dupla entrada podem ser realizados por meio dessa
metodologia, dependendo do enfoque que o pesquisador esteja dando à sua investigação:
1. teste qui-quadrado para independência de variáveis e;
2. teste qui-quadrado para a homogeneidade ou para a diferença entre proporções amostrais.
Uma terceira forma de utilização do teste qui-quadrado é o teste da bondade de um ajus-
tamento ou teste de aderência, quando se deseja verificar se as observações de uma dada variável
qualitativa “aderem” a uma particular distribuição. Neste último caso, não se tratam de tabelas de
dupla entrada.

12.4 O teste qui-quadrado


Qui-quadrado é uma distribuição de probabilidades, simbolizada por 2, cujo objetivo é
encontrar um valor de associação de duas variáveis qualitativas. O princípio básico do método
é comparar proporções, ou seja, as possíveis divergências entre as frequências observadas e
esperadas para certo evento.
174 Estatística aplicada às ciências sociais

A estatística utilizada para essa verificação é calculada pela expressão:

(o – e)2
2
=
e
Em que:

• “o” é a frequência observada para cada classe;


• “e” é a frequência esperada para aquela classe.

As frequências observadas são obtidas diretamente dos dados das amostras, enquanto que as
frequências esperadas são calculadas com base nessas. É importante notar que (o – e) é a diferença
entre a frequência observada e a esperada em uma classe. Se as frequências observadas são muito
próximas às esperadas, o valor de 2 é pequeno. De maneira inversa, quando as divergências são
grandes, (o – e) passa a ser também grande e, consequentemente, 2 assume valores altos.
Podemos, portanto, afirmar que dois grupos se comportam de modo semelhante se as di-
ferenças entre as frequências observadas e as esperadas em cada categoria forem muito pequenas,
próximas a zero.
Para a comparação, é necessário realizar um teste de hipóteses:
• Hipótese nula (H0): as frequências observadas não são diferentes das esperadas. Não exis-
te diferença entre as frequências (contagens) dos grupos: eles são independentes.
• Hipótese alternativa (H1): as frequências observadas são diferentes das esperadas, portanto
existe diferença entre as frequências: os grupos não são independentes.
É necessário também obter duas estatísticas: aquelas denominadas 2 calculado e 2 tabelado.
O 2 calculado é obtido com base nos dados experimentais, levando-se em consideração os valores
observados e os esperados. O 2 tabelado depende do número de graus de liberdade e do nível de
significância adotado. A tomada de decisão é feita comparando-se os dois valores de 2: se 2 calcu-
lado for maior ou igual ao 2 tabelado, rejeita-se H0. Se 2 calculado for menor do que 2 tabelado,
aceita-se H0.

12.4.1 Como usar a tabela de qui-quadrado


A tabela de qui-quadrado mostra o número de graus de liberdade nas linhas e o valor da
probabilidade nas colunas.
Na coluna referente a 5% de probabilidade, encontra-se o chamado valor crítico de qui-qua-
drado 2, com o qual deve ser comparado o valor calculado de 2. Cinco por cento é a probabilidade
de rejeitarmos a hipótese nula quando ela é verdadeira, ou seja, é a probabilidade de estarmos co-
metendo o erro de dizer que as frequências são diferentes quando de fato elas não são. Essa proba-
bilidade é chamada de erro estatístico, que deve ser bem pequeno, de preferência menor do que 5%.
Análise de variáveis qualitativas 175

Tabela 2 – Qui-quadrado

2
tabelado

GL 0,99 0,95 0,90 0,80 ... 0,05 0,02 0,01 0,001

1 0,0002 0,004 0,016 0,064 ... 3,841 5,412 6,635 10,827

2 0,020 0,103 0,211 0,446 ... 5,991 7,824 9,210 13,815

3 0,115 0,352 0,584 1,005 ... 7,815 9,837 11,345 16,266

4 0,297 0,711 1,064 1,649 ... 9,488 11,668 13,277 18,467

5 0,554 1,145 1,610 2,343 ... 11,070 13,388 15,080 20,515

...
Fonte: Elaborada pelo autor.

Exemplo
Se um dado não viciado for jogado seis vezes, espera-se obter uma vez
cada face (1, 2, 3, 4, 5 e 6), já que a probabilidade de cair qualquer face é
de 1/6. Supondo que um dado foi jogado 186 vezes e se obteve:

Face 1 Face 2 Face 3 Face 4 Face 5 Face 6


34 29 30 32 28 33

Qual será o valor de 2


?
As frequências esperadas em cada classe são calculadas por (1/6)
(186) = 31.
Assim, os valores parciais são somados e chega-se ao valor de 2:

Observado 34 29 30 32 28 33

Esperado 31 31 31 31 31 31

2
parcial 0,2903 0,1290 0,0322 0,0322 0,2903 0,1290

(29 – 31)2 (30 – 31)2 (32 – 31)2 (28 – 31)2 (33 – 31)2
= (34 – 31) +
2
2
+ + + +
31 31 31 31 31 31
2
= (0,2903 + 0,1290 + 0,0322 + 0,0322 + 0,2903 + 0,1290)

2
= 0,903

Como podemos interpretar esse valor?


Para avaliar esse resultado, é necessário relacionar as estatísticas 2 cal-
culado e 2 tabelado. Em outras palavras, a tomada de decisão é feita
comparando-se os dois valores de 2: se 2 calculado for maior ou igual ao
2
tabelado, rejeita-se Ho; e se 2 calculado for menor do que 2 tabelado,
aceita-se Ho.
176 Estatística aplicada às ciências sociais

O 2 tabelado depende do número de graus de liberdade e do nível de


significância adotado. Se temos uma tabela kxp, ou seja, uma tabela com
“k” linhas e “p” colunas, a estatística do teste tem distribuição 2 com
(k-1)(p-1) graus de liberdade. Em uma tabela 2x2, por exemplo, a esta-
tística do teste terá 1 grau de liberdade.
Para encontrar 2, deveremos recorrer à tabela de qui-quadrado, presen-
te nos anexos no fim deste livro. Lembrando que em nosso exemplo,
como há seis classes (relativas aos números de lados dos dados), g.l. = 5.
Verificando-se a tabela de 2 na linha 5, encontra-se que 2 tabelado é
igual a 11,070. Como o valor de qui-quadrado calculado (0,903) foi me-
nor que o tabelado, admite-se que o dado seja honesto.

12.5 O teste qui-quadrado para a independência


O procedimento do teste consiste em verificar se há diferença significativa entre os valo-
res observados em uma amostra e os correspondentes valores esperados. No caso do exemplo
da característica dos eleitores do candidato A com relação a sexo e idade, poderíamos estar
interessados em verificar se a proporção de homens e de mulheres eleitores do candidato A é
diferente ou não, ou, de outra forma, desejamos verificar se há independência entre as variá-
veis sexo e idade para os eleitores.
Teoricamente, para que as proporções fossem as mesmas, deveríamos esperar a seguinte
distribuição entre os 200 eleitores, divididos em 140 homens e 60 mulheres e em 110 pessoas
com menos de 30 anos e 90 com mais de 30. Esses números são chamados de valores ou dis-
tribuições marginais e permanecem os mesmos da tabela original, o que muda são os valores
internos ou das caselas.

Sexo
Idade Total
Masculino Feminino

Menos de 30 60 50 110

30 e mais 80 10 90

Total 140 60 200

Observe que 55% dos homens (77 em 140) são eleitores com menos de 30 anos, da mesma
forma que 55% das mulheres (33 em 60) também têm menos do que 30 anos. Ou, de outra maneira,
77 em 110 eleitores com menos de 30 anos (70%) são homens. Essa proporção corresponde tam-
bém para os eleitores com mais de 30 anos (63 em 90).
Vale dizer, portanto, que, para não haver interferência do sexo ou da idade na preferência
dos eleitores, a distribuição esperada dos 200 eleitores deve seguir a tabela apresentada. Por isso,
esses valores são chamados de valores esperados, enquanto os originais observados na amostra são
os valores observados.
Análise de variáveis qualitativas 177

E como são obtidos os valores esperados? Basta multiplicar os valores marginais entre si.
Por exemplo, o valor 77 corresponde ao produto de 140 homens por 110 pessoas com menos de 30
anos dividido por 200.
140 x 110
= 77
200
Perceba que os outros valores esperados (e) foram calculados de modo similar. A lógica
do cálculo consiste em manter a proporção 110 em 200, correspondente ao total de pessoas com
menos de 30, para os homens com menos de 30, ou seja:
110 = e 110
e = 140 x = 77
200 140 200
Observe agora que as proporções de homens, mulheres e do total são as mesmas tanto para
eleitores com menos de 30 anos
77 110
= 33 = = 0,55
140 60 200
como para eleitores com 30 anos ou mais:
63 27
= = 90 = 0,45
140 60 200
Sabemos que a expressão da estatística do teste será dada por:
(o – e)2
2
=
e
Em que “o” é o valor observado e “e” o valor esperado. Para o exemplo desse problema,
temos como valor da estatística:
(10 – 27)2
= (60 – 77) + (80 – 63) + (50 – 33) +
2 2 2
2
= 27,8
77 63 33 27
Se o valor do qui-quadrado for próximo a zero, a probabilidade associada é igual a 1, ou
100%. Quanto mais cresce esse valor, mais a probabilidade associada se aproxima de zero. Em uma
tabela de dupla entrada, como a do exercício, se o valor do qui-quadrado for igual a 6, a proba-
bilidade será igual a 0,05 (5%), e, se for igual a 9, a probabilidade será igual a 0,01 (1%). Pode-se
verificar que o valor da probabilidade associado ao valor calculado da estatística será muito próxi-
mo a zero, o que significa que devemos rejeitar a hipótese de que os resultados das proporções são
independentes, ou seja, a relação amostral não pode ser atribuída ao acaso.
De outra forma, a proporção de homens com menos de 30 anos que votam no candidato A
(60/140 = 42,9%) é estatisticamente diferente da proporção das eleitoras com menos de 30 anos
(50/60 = 83,3%). Ou seja, o candidato tem preferencialmente entre seus eleitores jovens as mulhe-
res e, portanto, há uma relação entre a idade e o sexo dos eleitores do candidato A.

12.6 Testes das diferenças de K proporções amostrais


ou da homogeneidade
O procedimento do teste para a comparação de proporções amostrais é exatamente o mes-
mo do teste para independência entre variáveis, exceto pelo fato de que aqui as amostras são ex-
traídas de populações diferentes. Devemos, então, determinar se essas populações têm as mesmas
178 Estatística aplicada às ciências sociais

proporções das características em estudo. Observe que se tratam de enfoques diferentes: enquanto
no presente caso o objetivo é verificar diferenças entre proporções, no teste realizado na seção an-
terior a preocupação estava na relação entre as variáveis.
Como um teste de homogeneidade utiliza dados amostrais extraídos de populações diferen-
tes, temos totais predeterminados, ou para as linhas ou para as colunas, na tabela de contingência.
Assim, um teste de homogeneidade envolve escolhas aleatórias feitas de modo que ou os totais das
linhas ou o total das colunas são predeterminados.
Se os tamanhos das amostras usadas para diferentes populações foram predeterminados, es-
tamos no contexto do chamado teste de homogeneidade. Se, por outro lado, extraímos uma grande
amostra de modo que tanto os totais de linhas como os de colunas foram determinados aleatoria-
mente, temos um teste de independência.
Suponhamos que queiramos verificar a opinião dos eleitores dos estados do sul do país em
relação à aprovação das ações do Governo Federal. Se optarmos por determinar a opinião de 3.000
eleitores do Rio Grande do Sul, 2.800 do Paraná e 1.500 de Santa Catarina, então na tabela de con-
tingência que resume os resultados estarão predeterminados os totais das colunas. Os valores são
3.000, 2.800 e 1.500.
Veremos um exemplo dessa aplicação. A tabela a seguir especifica que em uma determinada
comunidade, de uma amostra de 50 famílias, 10 assistiam a um programa especial de televisão,
enquanto em outra comunidade, de uma amostra de 50 famílias, 15 assistiam a tal programa. Nesse
exemplo, testa-se a hipótese nula de que as duas proporções são iguais.
Tabela 3 – Programa de TV por comunidade

Programa TV Comunidade I Comunidade II Total


Assistem 10 15 25

Não assistem 40 35 75

Total 50 50 100
Fonte: Elaborada pelo autor.

Com base nos dados dessa tabela, podemos determinar, da mesma forma que na seção an-
terior, os valores teóricos ou esperados para cada casela.

Programa TV Comunidade I Comunidade II Total

Assistem 12,5 12,5 25

Não assistem 37,5 37,5 75

Total 50 50 100

Calculando o valor da estatística qui-quadrado pela expressão


(o –e)2
2
=
e

= (10 – 12,5) + (15 – 12,5) + (40 – 37,5) + (35 – 37,5) = 1,34


2 2 2 2
2

100 100 100 100


Análise de variáveis qualitativas 179

Assim, obtemos que o valor da estatística calculada foi igual a 1,34 e devemos comparar com
o valor crítico de 99% de confiança ou = 0,01, que é igual a 6,63. Nessa situação, a hipótese nula
não pode ser rejeitada a um nível de significância de 1%, porque o valor calculado foi menos do
que o valor tabelado, concluindo-se que não diferem as proporções de telespectadores do progra-
ma nas duas comunidades.

12.7 Teste da bondade de ajustamento


A hipótese nula, em testes de bondade de ajustamento, é uma condição estipulada referida
ao padrão esperado de frequências em uma série de categorias. O padrão esperado pode ajus-
tar-se à suposição de igual verossimilhança e ser uniforme ou pode ajustar-se a distribuições de
probabilidade teóricas. O termo bondade refere-se à aproximação de uma distribuição esperada.
Se a distribuição observada for próxima da esperada, dizemos que a aproximação é “boa”, daí o
termo bondade.
Vamos tomar um exemplo hipotético em que se afirma que o número de homens e mulheres
que busca o auxílio-desemprego em uma determinada comunidade é o mesmo. Observa-se uma
amostra aleatória de 40 pessoas, sendo 25 homens e 15 mulheres. Desejamos testar a hipótese nula
de que o número total de homens e mulheres é igual, e que a diferença observada foi fruto do acaso.
Nesse exemplo acredita-se que, teoricamente, em uma amostra de 40 pessoas, deveríamos
encontrar 20 homens e 20 mulheres. Essa é a distribuição teórica ou esperada. A tabela a seguir
resume a situação:
Tabela 4 – Auxílio-desemprego entre homens e mulheres

Homens Mulheres Total

Nº na amostra 25 15 40

Nº esperado 20 20 40

Fonte: Elaborada pelo autor.

Quando há apenas um grau de liberdade associado com o teste qui-quadrado, a menos que
a amostra seja muito grande, o valor calculado de 2 é sistematicamente supervalorizado, devido ao
caráter discreto de dados. O estatístico Frank Yates demonstrou que a seguinte fórmula, que inclui
uma correção de continuidade, é apropriada para 1 grau de liberdade. Quando n ≥ 50, o fator de
correção tem pouco efeito e pode ser desconsiderado. Além disso, não deve ser aplicado a nenhu-
ma casela para qual a diferença entre o valor observado e o valor esperado for menor do que 0,5. A
estatística é dada, então, pela expressão:
2
= (|o –e| – 0,5)2
e
Portanto,

(|25 – 20| – 0,5)2 (|15 – 20| – 0,5)2 (4,5)2 (4,5)2


2
= + = + = 2,02
20 20 20 20
180 Estatística aplicada às ciências sociais

Encontramos o valor da estatística 2


= 2,02, fruto da inclusão da correção de continuidade,
uma vez que a amostra é pequena.
O valor crítico do 2 com 1 grau de liberdade e = 0,05 é igual a 3,84. Portanto, não é pos-
sível rejeitar a hipótese nula ao nível de significância de 5% e concluímos que de fato o número
de homens e de mulheres da comunidade em questão que buscam o seguro-desemprego pode ser
considerado igual. Ou seja, a razão 25/40 pode ser considerada muito próxima da razão 15/40.
O trabalho com tabelas de dupla entrada, com a utilização de resultados da distribuição qui-
-quadrado, tem uma vasta aplicação para análise de variáveis qualitativas, muito presentes em estu-
dos socioeconômicos. O seu emprego é simples e abrange uma enormidade de questões relevantes.

Atividades
1. Qual é a diferença essencial entre os testes qui-quadrado para (i) bondade do ajustamento,
(ii) independência entre variáveis e (iii) homogeneidade de proporções?

2. O governo deseja avaliar a expansão do Programa Bolsa Família em dois estados da Federa-
ção. Para tanto, encomendou uma pesquisa para saber se havia relação entre as opiniões dos
habitantes dos estados com relação à expansão do programa. Os resultados encontrados são
apresentados na tabela a seguir:

Reação Estado A Estado B Total

A favor 20 19 39

Contra 10 16 26

Total 30 35 65

Sabendo-se que o valor crítico do 2 com = 0,05 e 1 grau de liberdade é igual a 3,84, per-
gunta-se: pode-se afirmar que há independência entre as localizações e a opinião de seus
habitantes? Justifique.

3. Em seu campo de trabalho, encontre uma situação em que poderíamos utilizar o teste qui-
-quadrado para ajudar a resolver uma hipótese acerca da relação entre duas variáveis, ou
testar homogeneidade de duas proporções, ou realizar um teste de bondade de ajustamento.
Anexos

Tabela A
Probabilidade sob a área da curva normal padrão
P(– ≤X≤Z)
f(X)

Z x

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

-4,0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001

-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001

-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001

-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002

-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002

-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003

-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005

-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007

-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010

-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014

-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019

-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026

-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036

-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048

-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064

-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084

-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110

-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143

-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183

-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233

-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
(Continua)
182 Estatística aplicada às ciências sociais

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367

-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455

-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559

-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681

-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823

-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985

-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170

-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379

-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611

-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867

-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148

-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451

-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776

-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121

-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483

-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859

-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247

0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641

0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359

0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753

0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141

0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517

0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879

0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224

0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549

0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852

0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133

0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389

1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621

1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830

1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015

1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177

1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319

1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441

1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
(Continua)
Anexos 183

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09

1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633

1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706

1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767

2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817

2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857

2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890

2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916

2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936

2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952

2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964

2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974

2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981

2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986

3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990

3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993

3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995

3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997

3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998

3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998

3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999

3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

4,0 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Fonte: Elaborada pelo autor.

Tabela B
Distribuição “t” de Student
Exemplo: para 19 graus de liberdade, área de 0,05, t = 2,093.
f(X)

-t t x
184 Estatística aplicada às ciências sociais

Bicaudal

G.L. / Área 0,10 0,05 0,02 0,01

1 6,314 12,706 31,821 63,656

2 2,920 4,303 6,965 9,925

3 2,353 3,182 4,541 5,841

4 2,132 2,776 3,747 4,604

5 2,015 2,571 3,365 4,032

6 1,943 2,447 3,143 3,707

7 1,895 2,365 2,998 3,499

8 1,860 2,306 2,896 3,355

9 1,833 2,262 2,821 3,250

10 1,812 2,228 2,764 3,169

11 1,796 2,201 2,718 3,106

12 1,782 2,179 2,681 3,055

13 1,771 2,160 2,650 3,012

14 1,761 2,145 2,624 2,977

15 1,753 2,131 2,602 2,947

16 1,746 2,120 2,583 2,921

17 1,740 2,110 2,567 2,898

18 1,734 2,101 2,552 2,878

19 1,729 2,093 2,539 2,861

20 1,725 2,086 2,528 2,845

21 1,721 2,080 2,518 2,831

22 1,717 2,074 2,508 2,819

23 1,714 2,069 2,500 2,807

24 1,711 2,064 2,492 2,797

25 1,708 2,060 2,485 2,787

26 1,706 2,056 2,479 2,779

27 1,703 2,052 2,473 2,771

28 1,701 2,048 2,467 2,763

29 1,699 2,045 2,462 2,756

30 1,697 2,042 2,457 2,750

40 1,684 2,021 2,423 2,704

60 1,671 2,000 2,390 2,660

120 1,658 1,980 2,358 2,617

D. normal 1,645 1,96 2,326 2,576

Unicaudal 0,05 0,025 0,01 0,005


Anexos 185

f(X)

t x
Fonte: Elaborada pelo autor.

Tabela C
Distribuição qui-quadrado

G.L /
0,990 0,950 0,900 0,500 0,100 0,050 0,025 0,010 0,005
P

1 0,0002 0,0039 0,0158 0,4549 2,7055 3,8415 5,0239 6,6349 7,8794

2 0,0201 0,1026 0,2107 1,3863 4,6052 5,9915 7,3778 9,2104 10,5965

3 0,1148 0,3518 0,5844 2,3660 6,2514 7,8147 9,3484 11,3449 12,8381

4 0,2971 0,7107 1,0636 3,3567 7,7794 9,4877 11,1433 13,2767 14,8602

5 0,5543 1,1455 1,6103 4,3515 9,2363 11,0705 12,8325 15,0863 16,7496

6 0,8721 1,6354 2,2041 5,3481 10,6446 12,5916 14,4494 16,8119 18,5475

7 1,2390 2,1673 2,8331 6,3458 12,0170 14,0671 16,0128 18,4753 20,2777

8 1,6465 2,7326 3,4895 7,3441 13,3616 15,5073 17,5345 20,0902 21,9549

9 2,0879 3,3251 4,1682 8,3428 14,6837 16,9190 19,0228 21,6660 23,5893

10 2,5582 3,9403 4,8652 9,3418 15,9872 18,3070 20,4832 23,2093 25,1881

11 3,0535 4,5748 5,5778 10,3410 17,2750 19,6752 21,9200 24,7250 26,7569

12 3,5706 5,2260 6,3038 11,3403 18,5493 21,0261 23,3367 26,2170 28,2997

13 4,1069 5,8919 7,0415 12,3398 19,8119 22,3620 24,7356 27,6882 29,8193

14 4,6604 6,5706 7,7895 13,3393 21,0641 23,6848 26,1189 29,1412 31,3194

15 5,2294 7,2609 8,5468 14,3389 22,3071 24,9958 27,4884 30,5780 32,8015

16 5,8122 7,9616 9,3122 15,3385 23,5418 26,2962 28,8453 31,9999 34,2671

17 6,4077 8,6718 10,0852 16,3382 24,7690 27,5871 30,1910 33,4087 35,7184

18 7,0149 9,3904 10,8649 17,3379 25,9894 28,8693 31,5264 34,8052 37,1564

19 7,6327 10,1170 11,6509 18,3376 27,2036 30,1435 32,8523 36,1908 38,5821

20 8,2604 10,8508 12,4426 19,3374 28,4120 31,4104 34,1696 37,5663 39,9969

21 8,8972 11,5913 13,2396 20,3372 29,6151 32,6706 35,4789 38,9322 41,4009

(Continua)
186 Estatística aplicada às ciências sociais

G.L /
0,990 0,950 0,900 0,500 0,100 0,050 0,025 0,010 0,005
P

22 9,5425 12,3380 14,0415 21,3370 30,8133 33,9245 36,7807 40,2894 42,7957

23 10,1957 13,0905 14,8480 22,3369 32,0069 35,1725 38,0756 41,6383 44,1814

24 10,8563 13,8484 15,6587 23,3367 33,1962 36,4150 39,3641 42,9798 45,5584

25 11,5240 14,6114 16,4734 24,3366 34,3816 37,6525 40,6465 44,3140 46,9280

26 12,1982 15,3792 17,2919 25,3365 35,5632 38,8851 41,9231 45,6416 48,2898

27 12,8785 16,1514 18,1139 26,3363 36,7412 40,1133 43,1945 46,9628 49,6450

28 13,5647 16,9279 18,9392 27,3362 37,9159 41,3372 44,4608 48,2782 50,9936

29 14,2564 17,7084 19,7677 28,3361 39,0875 42,5569 45,7223 49,5878 52,3355

30 14,9535 18,4927 20,5992 29,3360 40,2560 43,7730 46,9792 50,8922 53,6719

35 18,5089 22,4650 24,7966 34,3356 46,0588 49,8018 53,2033 57,3420 60,2746

40 22,1642 26,5093 29,0505 39,3353 51,8050 55,7585 59,3417 63,6908 66,7660

45 25,9012 30,6123 33,3504 44,3351 57,5053 61,6562 65,4101 69,9569 73,1660

50 29,7067 34,7642 37,6886 49,3349 63,1671 67,5048 71,4202 76,1538 79,4898

55 33,5705 38,9581 42,0596 54,3348 68,7962 73,3115 77,3804 82,2920 85,7491

60 37,4848 43,1880 46,4589 59,3347 74,3970 79,0820 83,2977 88,3794 91,9518

70 45,4417 51,7393 55,3289 69,3345 85,5270 90,5313 95,0231 100,4251 104,2148

80 53,5400 60,3915 64,2778 79,3343 96,5782 101,8795 106,6285 112,3288 116,3209

90 61,7540 69,1260 73,2911 89,3342 107,5650 113,1452 118,1359 124,1162 128,2987

100 70,0650 77,9294 82,3581 99,3341 118,4980 124,3421 129,5613 135,8069 140,1697

110 78,4582 86,7916 91,4710 109,3341 129,3852 135,4802 140,9165 147,4143 151,9482

120 86,9233 95,7046 100,6236 119,3340 140,2326 146,5673 152,2113 158,9500 163,6485

Fonte: Elaborada pelo autor.


Gabarito

1 Introdução e conceitos básicos


1. A busca do material de pesquisa faz parte dessa atividade. Podemos listar, como exemplo,
três materiais acerca do assunto:

• Artigo 1: OLIVEIRA, Cleane S. de; NETO, Francisco Lotufo. Suicídio entre povos
indígenas: um panorama estatístico brasileiro. Revista Psiquiatria Clínica, v. 30, n. 1,
p. 4-10, 2003. Disponível em: http://www.scielo.br/pdf/rpc/v30n1/20583.pdf. Acesso
em: 7 nov. 2018.
• Artigo 2: MARIZ, Renata. Taxa de suicídio entre indígenas é três vezes maior que a
média nacional. O Globo, 21 set. 2017. Disponível em: https://oglobo.globo.com/so-
ciedade/saude/taxa-de-suicidio-entre-indigenas-tres-vezes-maior-que-media-nacio-
nal-21850401. Acesso em: 8 nov. 2018.
• Artigo 3: SOUZA, Maximiliano Loiola Ponte de; ONETY JR., Ricardo Tadeu da Silva.
Caracterização da morte por suicídio entre indígenas e não indígenas em Roraima,
Brasil, 2009-2013. Revista Epidemiologia e Serviços de Saúde, Brasília, v. 26, n. 4, p. 887-
893, out-dez. 2017. Disponível em: http://www.scielo.br/pdf/ress/v26n4/2237-9622-
ress-26-04-00887.pdf. Acesso em: 8 nov. 2018.
A questão do suicídio já havia sido objeto de estudo de Émile Durkheim, que assinalou sua
ocorrência habitual nas mais variadas sociedades. Isso fez com que o sociólogo o compreen-
desse como um fenômeno normal, devido à sua frequência e incidência regular. O que a
bibliografia acerca do suicídio indígena nos aponta é que a ocorrência desse fenômeno nas
sociedades indígenas é ainda mais frequente e gera proporcionalmente mais problemas, po-
dendo ser compreendida, nos termos de Durkheim, como uma situação patológica. As causas
para esse problema são variadas e envolvem fatores de natureza social, econômica, política,
religiosa e cultural, derivadas da situação de fragilidade e dificuldade de perpetuação e sub-
sistência dessas sociedades.

2. Acessar alguma pesquisa eleitoral realizada em um município brasileiro e verificar se há


grandes diferenças entre os resultados estimados e os obtidos. Como ilustração, segundo
os dados do Ibope de 2004, podemos perceber que não houve grande variação no resultado
e, portanto, que a pesquisa divulgada pelo instituto estava adequada, como mostra a tabela
a seguir.
188 Estatística aplicada às ciências sociais

Porto Alegre – comparativo entre prognóstico, pesquisa de boca de urna e resultados oficiais1:

Ibope TRE

30/10/2004 31/10/2004 31/10/2004

Fogaça – PPS-23 52% 51% 53%

Raul Pont – PT-13 48% 49% 47%

% de votos previstos corretamente 99% 98%

Brancos/Nulos (TRE): 3,90%

3. Acessar uma publicação qualquer e verificar se na reportagem foi utilizada alguma ferramenta
estatística, conforme solicitado na questão. Tomaremos como exemplo a notícia veicula-
da na página: UNICAMP – Universidade Estadual de Campinas. Anpesq 2005: anuário de
pesquisa. Disponível em: http://www.unicamp.br/anuario/2005/IntroducaoAnuario2005.
Acesso em: 7 nov. 2018.

Exemplo de análise:
• Tabelas e medidas estatísticas
O documento apresenta sete tabelas, permitindo uma comparação entre instituições de
ensino público dos estados de São Paulo, Rio de Janeiro e Rio Grande do Sul, por meio de
indicadores que possibilitam uma avaliação do desenvolvimento da pesquisa nas princi-
pais universidades do país. Há, no entanto, muitas informações que exigiriam mais espa-
ço para discussão. Uma das tabelas, a de número V, é muito carregada de informações e
cores, o que dificulta seu uso para a análise proposta.
• Gráficos
São apresentados três gráficos: dois gráficos de setores e um gráfico de linha. Eles são uti-
lizados corretamente, de acordo com as normas tradicionais de apresentação de gráficos.
Os dois primeiros permitem uma leitura comparativa de dois momentos diferentes, e o
gráfico de linha é de fato o mais adequado para apresentar séries temporais.
É bastante inovador inserir vários gráficos com respostas diferentes em um mesmo gráfico,
o que permite verificar que, apesar da manutenção quase constante do número de pesqui-
sadores, houve um aumento importante nos principais indicadores de desenvolvimento da
pesquisa científica, demonstrado por meio do estudo da evolução do número de disserta-
ções e teses publicadas, de publicações indexadas e de congressos de iniciação científica.
Todos esses indicadores tiveram aumento consistente ao longo do período considerado.

1 Percentuais calculados sobre os votos válidos do 2º turno das eleições de 2004.


Gabarito 189

2 Análise de dados
1.
a)
Pesos (em g) Freq.

1000 1 500 13

1500 2 000 15

2000 2 500 8

2500 3 000 10

3000 3 500 3

3500 4 000 1

Total 50

b)
Pesos (em g) Vivos Óbitos Total

1 000 1 500 2 11 13

1 500 2 000 6 9 15

2 000 2 500 5 3 8

2 500 3 000 6 4 10

3 000 3 500 3 0 3

3 500 4 000 1 0 1

Total 23 27 50

Com base na tabela anterior, conclui-se que:


Pesos (em g) Vivos Óbitos Total

Baixo peso
13 (56,5%) 23 (63,9%) 36
1000 2500

Não baixo peso


10 (43,5%) 4 (28,6%) 14
2500 4000

Total 23 27 50

c) A percentagem de óbitos para crianças com baixo peso (63,9%) é maior do que para
crianças em condições normais de peso (28,6%). Concluímos que, apesar de não se saber
exatamente qual é a causa de óbito (desconforto idiopático), esse desconforto provoca
baixo peso, causando uma maior percentagem de óbitos em recém-nascidos.
190 Estatística aplicada às ciências sociais

2.

Número de Número de Percentagem Percentagem


Idade
homens mulheres de homens de mulheres

0–29 185 4 20% 9%

30–39 207 13 23% 30%

40–49 260 10 29% 22,5%

50–59 180 7 20% 16%

60– 71 10 8% 22,5%

Total 903 44 100% 100%

Percentagem de condenados, por sexo:


35%

30%

25%
Percentagem de
20% homens

15% Percentagem de
mulheres
10%

5%

0%
1 2 3 4 5

A observação das frequências absolutas mostra que o número de homens condenados por
embriaguez é bastante maior do que o número de mulheres (903 casos contra 44). Quando
se observam os percentuais, verifica-se que a distribuição das condenações de homens é
mais uniforme, variando de 20% a 30% em praticamente todas as faixas, menos na dos ho-
mens acima de 60 anos. Já para as mulheres não há essa uniformidade.
Quando comparadas as proporções de homens e mulheres por faixa etária, o destaque se
dá para mulheres acima de 60 anos, que têm maior condenação do que os homens da mes-
ma faixa etária. A diferença para a percentagem de condenação de mulheres na faixa de 30
a 39 anos não é tão significativa: 7 pontos percentuais. Vale observar que a percentagem
de condenação para mulheres mais jovens (até 29 anos) é muito menor do que aquela para
os homens.
Gabarito 191

3.
Altura (em metros) Freq. Perc.

1,40 1,45 1 0,3%

1,45 1,50 11 3,2%

1,50 1,55 52 14,8%

1,55 1,60 109 31,1%

1,60 1,65 106 30,2%

1,65 1,70 50 14,2%

1,70 1,75 18 5,1%

1,75 1,80 4 1,1%

Total 351 100,0%

Altura de mulheres:

1,40 – 1,45
1,45 – 1,50
1,50 – 1,55
1,55 – 1,60
Freq.

1,60 – 1,65
1,65 – 1,70
1,70 – 1,75
1,75 – 1,80

Freq.

Alturas

As alturas das mulheres consideradas concentram-se entre 1,55 m e 1,65 m, com cerca de
61,3% das mulheres. Quanto mais afastadas do centro, menor é o número de mulheres. A
distribuição é relativamente simétrica em torno dessas classes centrais, tendo pouquíssimas
mulheres nas classes extremas: uma de 1,40 m a 1,45 m e quatro de 1,70 m a 1,75 m.

3 Medidas estatísticas de posição


1. Cada taxa é calculada como o número de ocorrências multiplicado por 100.000, dividido
pelo total da população de cada município e também pelo total de cada região. A única
forma de se obter o mesmo resultado para a média e para a taxa total é calculando a média
ponderada, levando-se em conta o número de habitantes de cada município.

2. O esquema de cinco números apresenta os valores mínimo e máximo, o 1º e o 3º quartil e a


mediana, conforme mostra a figura a seguir:

1º Quartil Mediana 3º Quartil

x min. x max.
192 Estatística aplicada às ciências sociais

Deve-se colocar, inicialmente, os municípios em ordem crescente de suas taxas:

Município Taxa

Jaraguá do Sul 61,5

Blumenau 163,3

Lages 173,6

Criciúma 188,8

Tubarão 205,8

Chapecó 245,7

Joinville 343,1

Palhoça 437,2

Itajaí 448,7

Florianópolis 569,9

São José 797,2

Xmin. = 61,5
Xmax. = 797,2
Como são 11 municípios, a posição da mediana será o 6º elemento ((11+1)/2).
Mediana = 245,7.
A posição do Quartil 1 será 1(n+1)/4 = 12/4 = 3, portanto Q1 = 173,6.
A posição do Quartil 3 será 3(n+1)/4 = 3(12)/4 = 9, portanto Q3 = 448,7.
Assim, o esquema de cinco números para as taxas dos municípios será:

173,6 245,7 448,7

61,5 797,2

3. O box-plot corresponde à figura a seguir e haverá outliers se existir algum valor fora do in-
tervalo (Q1 – 1,5 dq; Q3 + 1,5 dq).

Q1–1,5dq Q3+1,5dq

Q1 Mediana Q2

Como são 11 municípios, a posição da mediana será o 6º elemento ((11+1)/2).


Mediana = 245,7.
A posição do Quartil 1 será 1(n+1)/4 = 12/4 = 3, portanto Q1 = 173,6.
A posição do Quartil 3 será 3(n+1)/4 = 3(12)/4 = 9, portanto Q3 = 448,7.
Gabarito 193

Assim:
dq = Q3 – Q1 = 448,7 – 173,6 – 275,1
1,5 dq = 412,65

Q1–1,5dq < 0, então não há outlier para valores pequenos.


Q3+1,5dq = 448,7 + 412,65 = 831,65 e também não há outlier para valores grandes.
E o box-plot será:

0 831,65

173,6 245,7 448,7

4 Medidas estatísticas de dispersão


1. Sabendo que X = X , temos X = 144.144 = 3.276. Assim, a média é 3.276 g.
n 44
Aplicando a fórmula da variância S = VAR(X) = (X – X) , teremos que:
2
2

n–1
(3.837 – 3.276)2 + (3.380 – 3.276)2 ... (Xn – 3.276)2
S2 = VAR(X) = = 278.856,9
44 – 1
Para encontrar o desvio-padrão, basta extrair a raiz quadrada da variância, obtendo o valor
de S = 528,069 g.
Por fim, para calcular o coeficiente de variação, utilizamos a fórmula:
528,069
C.V. = S .100% e encontramos C.V. = .100% = 16,12%.
X 3276
Um coeficiente de variação de 16,12% revela que os dados são bastante homogêneos.

2. O coeficiente de variação é a razão entre o desvio-padrão e a média, multiplicada por 100.


Ele substitui o desvio-padrão para dados que não têm a mesma média, levando em conta,
assim, a dimensionalidade dos dados. Quando dois ou mais conjuntos têm a mesma média,
a comparação da variabilidade entre eles pode ser feita pelo desvio-padrão. Se os dados tive-
rem médias diferentes, a comparação da variabilidade deve ser feita por meio do coeficiente
de variação.

3. O procedimento para o trato de um outlier é inicialmente verificar se podemos classificar um


dado como outlier (ou valor discrepante). Caso seja, devemos primeiro averiguar se a medida
não foi feita de maneira errada, isto é, observar se o dado foi medido corretamente. Se esse for
o caso, devemos verificar se a grande diferença dos outliers em relação ao conjunto principal de
dados pode revelar alguma tendência ou sazonalidade. Se não for o caso, precisamos analisar
os dados com e sem os outliers e comparar os resultados. É necessário também prestar atenção
nas medidas que não são influenciadas pelos outliers, como a mediana.
194 Estatística aplicada às ciências sociais

5 Técnicas de amostragem
1. No processo de amostragem estratificada proporcional, os elementos dos estratos são sor-
teados. No caso de cotas, eles são escolhidos pelo entrevistador. No restante, os processos
são idênticos.

2. Não há semelhança entre os processos. A diferença é que, no processo de amostragem alea-


tória proporcional, os elementos da amostra são sorteados, e mais, todos os elementos da
população têm a mesma probabilidade de participar da amostra.

3. Esse é um processo de amostragem sistemática. A cada dez famílias pesquisadas, uma res-
ponde o questionário completo.

6 Tamanho de uma amostra


1. Vemos na curva C que há um crescimento linear do tamanho da amostra com o aumento
do tamanho da população. Essa relação não é adequada, porque, a partir de um certo valor,
o tamanho da amostra vai estabilizando, conforme mostra a curva B. No caso de não fazer-
mos a correção para a população finita, amostras de populações pequenas serão do mesmo
tamanho de amostras para populações grandes, o que não é adequado.

2. Quanto maior for o tamanho da amostra, mais cara será a pesquisa. Para baratear o trabalho
de pesquisa, devemos aumentar a margem de erro ou diminuir o nível de confiança.

3. Tamanho da amostra sem considerar o tamanho da população:

n’ = z.
2

d
22 x 0,25 1
n’ = = = 1.111
0,03 2
0,0009
Com correção para população finita:

n = n’ . (N – n)
(N – 1)
São Paulo:

n = 1.111 . 7 595 993 – 1 111 = 1.111 x 0,9999 = 1 110,9 1.111


7 595 993 – 1)
Sergipe:

n = 1.111 . 356.796 – 1.111 = 1.111 x 0,9984 = 1 109,3 1.109


356.796 – 1)

Observamos que não há grande diferença entre os resultados obtidos, porque o valor
356.796 já pode ser considerado muito grande, próximo ao infinito, para as considerações
da estatística.
Gabarito 195

7 Noções úteis de probabilidades


1. O espaço amostral é formado por 30 combinações possíveis (6 mulheres x 5 homens).
Temos, então, cardinal de S (#S = 30).

O conjunto definido, que pode ser chamado de C, é composto por Carmen e Carlos, e seu
cardinal é igual a 1. Assim, #C = 1.
Então, a probabilidade de C será dada por:
#C 1
P (C) = =
#S 30
Portanto, a P(C) é um trinta avos, ou 0,03, ou 3%.

2. Calcular as probabilidades marginais dividindo cada valor total pelo total geral, conforme
mostra a tabela a seguir:

Município 15-24 25-34 35-44 45-54 55-64 65 ou+ Total

A 489/967

B 478/967

Total 61/967 214/967 203/9677 152/967 153/967 184/967 967/967

Os resultados obtidos são:

Município 18-24 25-34 35-44 45-54 55-64 65 ou+ Total

A 0,51

B 0,49

Total 0,06 0,22 0,21 0,16 0,16 0,19 1,00

Assim, as distribuições de probabilidade marginais são, por município:

Município Total

A 0,51

B 0,49

Total 1,00

Idade Total

15-24 0,06

25-34 0,22

35-44 0,21

45-54 0,16

55-64 0,16

65 ou+ 0,19

Total 1,00
196 Estatística aplicada às ciências sociais

3. A esperança é definida por E(X) = X.P(X = x).

Idade central
Idade P(X = x) XP(X = x)
da classe (X)

15-24 20 0,06 1,2

25-34 30 0,22 6,6

35-44 40 0,21 8,4

45-54 50 0,16 8,0

55-64 60 0,16 9,6

65 ou+ 70 0,19 13,3

Total 1,00 47,1

Então, E(X) = 47,1. A esperança representa a média aritmética do grupo considerado.


Assim, a idade média dos habitantes das duas cidades é de 47,1 anos.

8 Inferência
1. Quando temos σ conhecido, utilizamos a distribuição normal para a construção do intervalo
de confiança para a média:

P (X – z. X
X + z. X) = 1 –
Em que, =
n
Quando σ não é conhecido, utilizamos S no seu lugar e a distribuição “t” de Student com n–1
graus de liberdade, em que n é o tamanho da amostra.
P (X – t.SX X + t.SX) = 1 –
S
Sendo: SX =
n
2. Pr (P– z. P
p P + z. ) = 1 –P

840
P= = 0,42
2000
Z = 1,96
pq 0,5 x 0,5
P
= = = 0,01118
n 2000
Pr(0,42 – (1,96)(0,01118) P 0,42 + (1,96)(0,01118)) = 1 – 0,05

Pr(0,42 – 0,02 P 0,42 + 0,02) = 0,95

Pr(0,40) P 0,44) = 0,95

O intervalo de 95% de confiança da proporção de votos do candidato considerado é (0,40;


0,44). Ou seja, podemos afirmar com 95% de confiança que o candidato teria entre 40% e
44% dos votos se a eleição fosse realizada no dia da pesquisa.
Gabarito 197

A margem de erro é de 2% e o erro estatístico é de 5%, sendo este o complementar do nível


de confiança.

3. Estatística do teste:
– –
z= X = X
X

n
70 – 65 5
z= = 70 – 65 = 5 = = 1,25
X 32 32 4
64 8
O valor de p-valor associado a z = 1,25 é 0,89. Então, podemos rejeitar H0 de que a média
seja igual a R$ 65,00 com 89% de confiança, mas não podemos rejeitar com 90% de con-
fiança. Logo, concluímos que a média de compras dos clientes não é maior do que R$ 65,00.

9 Estudos demográficos
1. A demografia pode auxiliar no estudo dos oito objetivos, mas aquele que está diretamente
relacionado ao tema é o Objetivo 4: reduzir a mortalidade infantil, já que ela é estudada na
área de taxas demográficas.

2. Países com maior taxa de dependência têm a população mais jovem e mais idosa em pro-
porção maior com relação à população economicamente ativa. Países com essa caracterís-
tica possuem pirâmides etárias mais achatadas na base e com base próxima ao cume, que
correspondem a países mais desenvolvidos. Portanto, os países mais desenvolvidos e com
população mais estabilizada precisam adequar suas políticas previdenciárias de tal forma
que a população economicamente ativa possa sustentar os que já se aposentaram.

3. O modelo aritmético supõe que a taxa de crescimento seja constante, e isso não se verifica
na prática a longo prazo. Por outro lado, o modelo de progressão geométrico supõe que
a população cresce rapidamente e sem limites. Embora o crescimento populacional esteja
mais relacionado a taxas crescentes – portanto, geométricas – a tendência mundial é de que,
à medida que os países vão alcançando maior desenvolvimento, haja estabilização do cres-
cimento em algum limite. Portanto, o modelo mais adequado é o do crescimento logístico.

10 Indicadores sociais e econômicos


1. As duas principais limitações do IDH são:

• O PIB per capita não consegue dar conta da má distribuição de renda.


• O índice de escolaridade não leva em conta a qualidade do ensino dado.

2. O índice de desenvolvimento humano é dado por:


L+E+R
IDH =
3
198 Estatística aplicada às ciências sociais

• IDH da longevidade:
EV – 25 70 – 25 55
L= = = = 0,916667
60 60 60
Valor considerado alto. A população tem expectativa de vida de 70 anos.
• IDH da educação:
2 (0,91) + 0,85
L = 2TA + TE = = 0,89
3 3
Valor também considerado alto, por ser maior do que 0,80.
• IDH da renda:
log10 PIBpc – 2 4,3266 – 2
L= = = 0,8941
2,60260 2,60260
Valor considerado alto para a média de rendimentos de toda a população.
IDH total:

• IDH = L + E + R = 0,916667 + 0,89 + 0,8941 = 0,90


3 3
O valor do IDH total de 0,90 é considerado alto. O fator que mais colaborou para esse alto
valor é o IDH da longevidade.

3. Critérios observados no IDH:

a) longevidade;
b) educação;
c) renda.

Relação direta:
a) A longevidade está relacionada aos objetivos 4 e 5.
b) A educação está relacionada ao objetivo 2.
c) A renda está relacionada ao objetivo 1.

Indiretamente, o Objetivo 3 está relacionado à educação e à renda. O Objetivo 6 está


relacionado à longevidade, assim como o Objetivo 7. O Objetivo 8 pode ser relacionado
aos três critérios.

11 Análise de associação entre variáveis


1. A reta de regressão é expressa por Y = a + bX, em que “a” é o coeficiente linear da reta e “b”
o coeficiente angular.

O coeficiente linear “a” é o valor de Y quando X = 0, e o coeficiente angular “b” diz qual é
a variação de Y quando X tem variação de uma unidade. O valor de b = 1 significa que a
variação de uma unidade de X corresponderá a uma variação de uma unidade de Y . Nesse
caso, o ângulo que a reta faz com o eixo X é de 45º, isso porque a tangente de 45º é igual a 1.
Gabarito 199

2. Se o coeficiente de correlação “r” é igual a 0,8, o seu quadrado é r2 = 0,64, que é o coeficiente
de explicação. Assim, a variação de Y é explicada em 64% por X. Os outros 36% da variação de
Y são explicados por outras variáveis.

3. O coeficiente de determinação ajustado leva em conta o número de observações amos-


trais. Quanto menor for o tamanho da amostra, a tendência é de aumento artificial do
valor do coeficiente de determinação. No extremo, se a amostra for de tamanho 2, o coe-
ficiente de determinação será igual a 1 ou 100%, independentemente da relação entre as
variáveis do modelo.

12 Análise de variáveis qualitativas


1. Dois tipos de estudos para tabelas de dupla entrada podem ser realizados mediante essa
metodologia, dependendo do enfoque que o pesquisador esteja dando à sua investigação:

i) teste qui-quadrado para a homogeneidade ou para a diferença entre proporções


amostrais;
ii) teste qui-quadrado para a independência entre variáveis.

O procedimento do teste para a comparação de proporções amostrais é exatamente o mes-


mo do teste para independência entre variáveis, exceto pelo fato de que no teste de homoge-
neidade trabalhamos com duas amostras ou mais, enquanto no teste para a independência
trabalha-se com uma única variável.

2. A tabela representada é a dos valores observados. A tabela dos valores esperados é dada
a seguir:

Reação Estado A Estado B Total

A favor (30)(39)/65 (35)(39)/65 39

Contra (30)(26)/65 (35)(26)/65 26

Total 30 35 65

Efetuando-se os cálculos, temos:

Reação Estado A Estado B Total

A favor 18 21 39

Contra 12 14 26

Total 30 35 65

Cálculo da estatística do teste:


(o – e)2
2
=
e
(20 – 18)2 (10 – 12)2 (19 – 21)2 (16 – 14)2
2
= + + + = 1,0317
18 12 21 14
200 Estatística aplicada às ciências sociais

Como o valor calculado (1,0317) é menor do que o valor crítico (3,84), não podemos rejeitar
a hipótese da igualdade. Logo, não podemos dizer que as percentagens de elementos contra
e a favor sejam diferentes nos dois estados.

3. O objetivo dessa atividade é adaptar o teste qui-quadrado como ferramenta importante na


análise de dados relacionados aos seus interesses profissionais ou acadêmicos. É possível,
por exemplo, comparar os dados de ingresso de estudantes afrodescendentes nas univer-
sidades públicas e privadas, para verificar o andamento dos projetos de cotas do governo,
ou relacionar o nível salarial de uma empresa com o sexo de seus funcionários. Esses dados
podem ser fundamentais para suscitar, endossar ou mesmo justificar a análise sociológica
nas mais diversas aplicações possíveis.
Referências

ASSOCIAÇÃO Brasileira de Normas Técnicas. NBR 6023: informação e documentação – referências –


elaboração. Rio de Janeiro, 2002. Disponível em: https://www.usjt.br/arq.urb/arquivos/abntnbr6023.pdf.
Acesso em: 25 out. 2018.

BIOGRAFÍAS Y VIDAS – La enciclopedia biográfica en línea. Émile Durkheim. Disponível em: https://
www.biografiasyvidas.com/biografia/d/durkheim.htm. Acesso em: 31 out. 2018.

BRADLEY, W.; James; SHAEFER, Kurt. The uses and misuses of data and models: the mathematization of
the human sciences. Thousand Oaks: Sage Publications, 1998.

BRASIL. Banco Central do Brasil. Índices de preços no Brasil. Série Perguntas mais frequentes.
Brasília, DF, mar. 2016. Disponível em: https://www.bcb.gov.br/conteudo/home-ptbr/FAQs/FAQ%20
02-%C3%8Dndices%20de%20Pre%C3%A7os%20no%20Brasil.pdf. Acesso em: 23 nov. 2018.

BRASIL. Resolução n. 2, de 28 de agosto de 2018. Diário Oficial da União, Poder Legislativo,


Brasília, DF, 29 ago. 2018. Disponível em: http://portal.imprensanacional.gov.br/materia/-/asset_
publisher/Kujrw0TZC2Mb/content/id/38727425/do1-2018-08-29-resolucao-n-2-de-28-de-agostode-
2018-38727285. Acesso em: 31 out. 2018.

BRUESEKE, Franz. A modernidade técnica. Revista Brasileira de Ciências Sociais, v. 17, n. 49,
p. 135-144, 2002.

CORRÊA, Marcello. Brasil é o 10° país mais desigual do mundo. O Globo, 28 jun. 2018. Disponível em:
https://oglobo.globo.com/economia/brasil-o-10-pais-mais-desigual-do-mundo-21094828. Acesso em:
6 nov. 2018.

DIAS, Cláudia A. Grupo focal: técnica de coleta de dados em pesquisas qualitativas. Informação e sociedade,
João Pessoa: UFPB, v. 10, n. 2, 2000.

DURKHEIM, Émile. Da divisão social do trabalho. São Paulo: Martins Fontes, 2008.

DURKHEIM, Émile. As regras do método sociológico. São Paulo: Martin Claret, 2001.

DURKHEIM, Émile. O suicídio. São Paulo: Martins Fontes, 2000.

EBC. Agência Brasil. ONU: crise econômica emperra desenvolvimento humano no Brasil. 21 mar. 2017.
Disponível em: http://agenciabrasil.ebc.com.br/direitos-humanos/noticia/2017-03/crise-economica-
emperra-desenvolvimento-humano-no-brasil. Acesso em: 6 nov. 2018.

FIPE – Fundação Instituto de Pesquisas Econômicas. Disponível em: http://www.fipe.org.br/. Acesso


em: 6 nov. 2018.

GALLUP. Analytics e advice about everything that matters. Disponível em: https://www.gallup.com/
home.aspx. Acesso em: 25 out. 2018.

HAND, David J. et al. A handbook of small data sets. London: Chapman & Hall, 1994.

HUFF, Darell. How to lie with statistics. Londres: Penguin, 1991.

IBGE – Instituto Brasileiro de Geografia e Estatística. Agência de notícias. Projeção da População 2018:
número de habitantes do país deve parar de crescer em 2047. 1º ago. 2018. Disponível em: https://agencia
denoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/21837-projecao-
da-populacao-2018-numero-de-habitantes-do-pais-deve-parar-de-crescer-em-2047. Acesso em: 31 out. 2018a.
202 Estatística aplicada às ciências sociais

IBGE – Instituto Brasileiro de Geografia e Estatística. Nossos sites. Disponível em: https://www.ibge.gov.br/
nossos-sites.html. Acesso em: 26 out. 2018b.

IBGE – Instituto Brasileiro de Geografia e Estatística. Estimativas de população: tabelas 2018. Disponível em:
https://www.ibge.gov.br/estatisticas-novoportal/sociais/populacao/9103-estimativas-de-populacao.html?=
&t=resultados. Acesso em: 31 out. 2018c.

IBGE – Instituto Brasileiro de Geografia e Estatística. Tendências demográficas no período de 1950/2000.


Disponível em: https://ww2.ibge.gov.br/home/estatistica/populacao/censo2000/tendencias_demograficas/
comentarios.pdf. Acesso em: 5 nov. 2018d.

IDH do Brasil segue puxado por taxa de alfabetização. BBC Brasil, Brasília, 18 dez. 2008. Disponível em:
https://www.bbc.com/portuguese/reporterbbc/story/2008/12/081218_idhbrasil_ac.shtml. Acesso em: 7 nov. 2018.

IDH 2018: Brasil ocupa a 79.ª posição. Veja a lista completa. UOL notícias internacional, São Paulo, 14 set. 2018.
Disponível em: https://noticias.uol.com.br/internacional/ultimas-noticias/2018/09/14/idh-2018-brasil-ocupa
-a-79-posicao-veja-a-lista-completa.htm. Acesso em: 23 nov. 2018.

MARIZ, Renata. Taxa de suicídio entre indígenas é três vezes maior que a média nacional. O Globo, 21
set. 2017. Disponível em: https://oglobo.globo.com/sociedade/saude/taxa-de-suicidio-entre-indigenas-tres-
vezes-maior-que-media-nacional-21850401. Acesso em: 8 nov. 2018.

MATOSO, Filipe. Em 79º lugar, Brasil estaciona no ranking de desenvolvimento humano da ONU. G1,
Brasília, 21 mar. 2017. Disponível em: https://g1.globo.com/mundo/noticia/em-79-lugar-brasil-estaciona-
-no-ranking-de-desenvolvimento-humano-da-onu.ghtml. Acesso em: 7 nov. 2018.

OBSERVATÓRIO das desigualdades. Coeficiente de Gini: valor de 2016 é o mais baixo num período de década
e meia. 19 jun. 2018. Disponível em: https://observatorio-das-desigualdades.com/2018/04/17/coeficiente-
de-gini/. Acesso em: 6 nov. 2018.

ODM Brasil. Os objetivos de desenvolvimento do milênio. Disponível em: http://www.odmbrasil.gov.br/


os-objetivos-de-desenvolvimento-do-milenio. Acesso em: 6 nov. 2018.

OLIVEIRA, Cleane S. de; NETO, Francisco Lotufo. Suicídio entre povos indígenas: um panorama estatístico
brasileiro. Disponível em: http://www.scielo.br/pdf/rpc/v30n1/20583.pdf. Acesso em: 7 nov. 2018.

ONUBR – Nações Unidas do Brasil. Os objetivos de desenvolvimento do milênio. 22 jun. 2010. Disponível em:
https://nacoesunidas.org/os-oito-odms/. Acesso em: 8 nov. 2018.

ONUBR – Nações Unidas do Brasil. Brasil está entre os cinco países mais desiguais, diz estudo de centro da ONU.
29 jan. 2018. Disponível em: https://nacoesunidas.org/brasil-esta-entre-os-cinco-paises-mais-desiguais-diz-
estudo-de-centro-da-onu/. Acesso em: 18 out. 2018.

PACHECO, Hellen; JATENE, Íris. Multicampi social prevê melhorias na qualidade de vida no Pará. 17 abr.
2008. Disponível em: https://ww2.ufpa.br/imprensa/noticia.php?cod=1954. Acesso em: 31 out. 2018.

PARANÁ (Estado). Secretaria da Educação do Paraná. Perfil biográfico de Émile Durkheim (1858-1917).
Disponível em: http://www.sociologia.seed.pr.gov.br/modules/conteudo/conteudo.php?conteudo=207.
Acesso em: 10 out. 2018.

PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. Objetivos de desenvolvimento do
milênio. Disponível em: www.pnud.org.br/odm/objetivo_4. Acesso em: 1º dez. 2008.

PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. ODS: objetivos de desenvolvimento
sustentável. Disponível em: http://www.br.undp.org/content/brazil/pt/home/sustainable-development-goals.
html. Acesso em: 31 out. 2018a.
Referências 203

PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. O que é o relatório de desenvolvi-
mento humano. Disponível em: http://www.br.undp.org/content/brazil/pt/home/idh0/conceitos/o-que
-e-o-rdh.html. Acesso em: 5 nov. 2018b.

PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. Relatórios de desenvolvimento
humano globais. Disponível em: http://www.br.undp.org/content/brazil/pt/home/idh0/relatorios-de-
desenvolvimento-humano/rdhs-globais.html. Acesso em: 7 nov. 2018c.

SANTA CATARINA (Estado). Secretaria de Estado da Segurança Pública de Santa Catarina. Roubo em Santa
Catarina. 2 jan. 2018. Disponível em: http://www.ssp.sc.gov.br/files/6.-ROUBO---SANTA-CATARINA-2-1.
pdf. Acesso em: 29 nov. 2018.

SCHLINDWEIN, Manoel. Desigualdade: quando chegaremos lá? IPEA: desafios do desenvolvimento hu-
mano, Brasília, ano 5, ed. 41, 16 mar. 2008. Disponível em: http://desafios.ipea.gov.br/index.php?option=
com_content&view=article&id=1183:reportagens-materias&Itemid=39. Acesso em: 6 nov. 2018.

SOUZA, Maximiliano Loiola Ponte de; ONETY JR., Ricardo Tadeu da Silva. Caracterização da morte por
suicídio entre indígenas e não indígenas em Roraima, Brasil, 2009-2013. Revista Epidemiologia e Serviços de
Saúde, Brasília, v. 26, n. 4, p. 887-893, out-dez. 2017. Disponível em: http://www.scielo.br/pdf/ress/v26n4/
2237-9622-ress-26-04-00887.pdf. Acesso em: 8 nov. 2018.

TEIXEIRA, Ricardo Rodrigues. Três fórmulas para compreender “O suicídio” de Durkheim. Interface –
Comunicação, Saúde, Educação, v. 6, n. 11, p. 143-52, ago. 2002.

TURATO, Egberto Ribeiro. Métodos qualitativos e quantitativos na área da saúde: definições, diferenças e
seus objetos de pesquisa. Revista de Saúde Pública, São Paulo, p. 507-514, v. 39, n. 3, jun. 2005. Disponível
em: http://www.scielo.br/pdf/rsp/v39n3/24808.pdf. Acesso em: 7 nov. 2018.

UFPA – Universidade Federal do Pará. Frases: estatística – matemática. 18 jul. 2018. Disponível em: http://
www.ufpa.br/dicas/cartao/fra-esta.html. Acesso em: 31 out. 2018.

UNICAMP – Universidade Estadual de Campinas. ANPESQ 2005: anuário de pesquisa. Disponível em:
http://www.unicamp.br/anuario/2005/IntroducaoAnuario2005. Acesso em: 7 nov.

VIDIGAL, Cláudia Bueno Rocha. Índice de bem-estar econômico: uma proposta para os estados brasilei-
ros. 2011. 123 f. Dissertação (Mestrado em Ciências) – Universidade de São Paulo – USP, São Paulo, 2011.
Disponível em: www.teses.usp.br/teses/disponiveis/11/11132/.../Claudia_Bueno_Rocha_Vidigal.pdf. Acesso
em: 23 nov. 2018.
ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS
Trabalhar com métodos quantitativos para a compreensão de fenômenos
econômicos e notadamente de fenômenos sociais não significa absolu-
tamente diminuir as discussões a um patamar reducionista ao buscar
equacionar esses fenômenos por meio de expressões matemáticas.
A estatística deve ser compreendida em suas exatas potencialidades
e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma
forma de quantificação. Ela não se basta nem deve pretender substituir
outras ferramentas analíticas tão próprias das ciências humanas; o que
ela pode desejar é ser seu complemento, e apenas eventualmente.

PAULO AFONSO BRACARENSE


Código Logístico

57423

Fundação Biblioteca Nacional


ISBN 978-85-387-6448-9

9 788538 764489

Você também pode gostar