Estatistica Aplicada As Ciencias Sociais 2018

ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS
Trabalhar com métodos quantitativos para a compreensão de fenômenos

econômicos e notadamente de fenômenos sociais não significa absolu-
tamente diminuir as discussões a um patamar reducionista ao buscar
equacionar esses fenômenos por meio de expressões matemáticas.
A estatística deve ser compreendida em suas exatas potencialidades
e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma
forma de quantificação. Ela não se basta nem deve pretender substituir
outras ferramentas analíticas tão próprias das ciências humanas; o que
ela pode desejar é ser seu complemento, e apenas eventualmente.
PAULO AFONSO BRACARENSE

Código Logístico
57423
Fundação Biblioteca Nacional

ISBN 978-85-387-6448-9
9 788538 764489
Estatística aplicada às
ciências sociais
Paulo Afonso Bracarense
IESDE BRASIL S/A

2018
© 2009-2018 – IESDE BRASIL S/A.
É proibida a reprodução, mesmo parcial, por qualquer processo, sem autorização por escrito do autor e do detentor dos
direitos autorais.
Projeto de capa e imagem: IESDE BRASIL S/A.
CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO

SINDICATO NACIONAL DOS EDITORES DE LIVROS, RJ
B788e Bracarense, Paulo Afonso
Estatística aplicada às ciências sociais / Paulo Afonso
Bracarense. - [2. ed.] - Curitiba [PR] : IESDE Brasil, 2018.
204 p. : il.
Inclui bibliografia
ISBN 978-85-387-6448-9
1. Modelos matemáticos - Aspectos sociais. 2. Ciências

sociais - Métodos estatísticos. I. Título.
CDD: 310
18-53172
CDU: 311
Todos os direitos reservados.
IESDE BRASIL S/A.

Al. Dr. Carlos de Carvalho, 1.482. CEP: 80730-200
Batel – Curitiba – PR
0800 708 88 88 – www.iesde.com.br
Paulo Afonso Bracarense
Doutor em Engenharia de Produção pela Universidade Federal de Santa Catarina (UFSC),
com estágio de doutoramento na University of South Florida, nos Estados Unidos. Mestre em
Agronomia (Estatística e Experimentação Agronômica) pela Universidade de São Paulo (USP) e
em Políticas Públicas pela Humboldt University of Berlin (HUB) e European Viadrina University
of Frankfurt (Oder), na Alemanha. Especialista em Gestão Municipal de Recursos Hídricos pelo
Instituto Federal de Educação do Ceará (IFCE) e pela Agência Nacional de Águas (ANA). Bacharel
em Estatística pela Universidade Federal do Paraná (UFPR). Professor da UFPR.
Sumário
Apresentação 9
1 Introdução e conceitos básicos 11

1.1 Sociologia e estatística 11
1.2 Os métodos estatísticos 12
1.3 Variáveis e escalas de mensuração 14
1.4 Medidas que revelam circunstâncias 15
1.5 Análise de associação entre variáveis 16
1.6 Metodologias qualitativas em ciências sociais 16
2 Análise de dados 19
2.1 Análise exploratória de dados e estatística descritiva 19
2.2 Tipos de medidas 19
3 Medidas estatísticas de posição 35

3.1 Medidas estatísticas 35
3.2 Medidas de posição 36
4 Medidas estatísticas de dispersão 45

4.1 A amplitude total 46
4.2 A variância 47
4.3 Desvio-padrão 51
4.4 Coeficiente de variação 52
5 Técnicas de amostragem 55
5.1 Sociologia e amostragem 55
5.2 População 56
5.3 Amostra 57
5.4 Tipos de amostragem 59
5.5 Principais técnicas de amostragem 64
6 Tamanho de uma amostra 71
6.1 A “margem de erro” 71
6.2 O nível de confiança 73
6.3 A variabilidade 75
6.4 Determinação do tamanho da amostra 75
6.5 Custo da pesquisa 77
6.6 Correção para populações finitas 78
7 Noções úteis de probabilidades 81

7.1 O papel do acaso 81
7.2 Teoria das probabilidades 81
7.3 Conceitos fundamentais 82
7.4 Definição de probabilidade 84
7.5 Axiomas e regras de probabilidades 85
7.6 Probabilidades conjunta, marginal, condicional e independência 88
7.7 Regra da multiplicação 90
7.8 Distribuições de probabilidades discretas 91
8 Inferência 97
8.1 Investigação sociológica 97
8.2 Procedimentos inferenciais 98
8.3 A distribuição normal 99
8.4 A distribuição “t” de Student 108
8.5 Intervalo de confiança 109
8.6 Testes de hipóteses 115
9 Estudos demográficos 123

9.1 Demografia 123
9.2 Estrutura e estimativas da população 124
9.3 Estimativas populacionais 126
9.4 Taxas demográficas 129
9.5 Fenômenos demográficos 132
9.6 Estrutura das populações 136
10 Indicadores sociais e econômicos 141
10.1 Indicadores sociais e Estado 141
10.2 Concepção de indicadores 142
10.3 Limitações do PIB como indicador social 142
10.4 Produção e disseminação de estatísticas públicas no Brasil 143
10.5 O índice de desenvolvimento humano (IDH) 143
10.6 O índice de Gini 147
10.7 Índices de preço 150
11 Análise de associação entre variáveis 153

11.1 Associação entre variáveis econômicas e sociológicas 153
11.2 Análise de regressão e de correlação 154
11.3 A construção da reta de regressão 158
11.4 Verificação da bondade do modelo 164
12 Análise de variáveis qualitativas 171

12.1 Métodos qualitativos e métodos para variáveis qualitativas 171
12.2 Análise de dados qualitativos 172
12.3 Análise de variáveis qualitativas 172
12.4 O teste qui-quadrado 173
12.5 O teste qui-quadrado para a independência 176
12.6 Testes das diferenças de K proporções amostrais ou da homogeneidade 177
12.7 Teste da bondade de ajustamento 179
Anexos 181
Gabarito 187
Referências 201
Apresentação
Este livro não é apenas resultado da experiência do autor como professor de Estatística para
alunos de Sociologia e Economia, mas também de seu extenso trabalho prático na área, inclusive
na tarefa de formulação de políticas públicas que, por sua natureza, exigem muita responsabilidade
e envolvem grandes contingentes da população brasileira.
O principal desafio consistiu em trabalhar conteúdos que exigiam certo trato com a mate-
mática para um público que está acostumado a lidar com outro tipo de linguagem e lógica. Mesmo
sendo essa uma tarefa difícil, não deixou de ser prazerosa.
A questão central colocada é a de como desenvolver esses conteúdos de modo a aproveitar

o que de mais rico têm os leitores desta obra (o raciocínio crítico e contestador) e a elaboração
de ideias e de conceitos de maneira multifacetada, o que nem sempre facilita o domínio de outra
linguagem, como a linguagem matemática.
Há que se fazer um alerta importante nesta discussão: trabalhar com métodos quantita-
tivos para a compreensão de fenômenos econômicos e notadamente de fenômenos sociais não
significa absolutamente diminuir as discussões a um patamar reducionista ao buscar equacionar
esses fenômenos por meio de expressões matemáticas. A estatística deve ser compreendida em
suas exatas potencialidades e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma forma de quantificação.
E só isso. Ela não se basta nem deve pretender substituir outras ferramentas analíticas tão próprias
das ciências humanas; o que ela pode desejar é ser seu complemento, e apenas eventualmente.
Não há dúvidas de que a estatística serve muito bem para dar suporte ao chamado “paradig-
ma reducionista”, do qual faz parte a ideia de diminuir um problema complexo em partes menores,
analisar cada uma delas e depois encontrar uma forma de aglutiná-las para compreender o todo. Ela
pode e merece ser muito mais do que isso. As metodologias para análise de fenômenos complexos
são necessariamente mais complexas do que aquelas para análise de fenômenos mais simples. É assim
para qualquer ciência, inclusive para aquelas que utilizam métodos quantitativos. O que pode atribuir
maior empregabilidade ao método estatístico, e que não é a vocação de qualquer método matemático,
é a sua proposta de fazer uma grande negociação entre complexidade e incerteza na busca de com-
preensão do mundo real.
Apelamos, portanto, a você, leitor, que dê uma chance aos métodos propostos. Eles podem
(e devem) ser úteis em algum momento no exercício profissional de análise da realidade, a despeito
de algum esforço adicional para a leitura de seus conteúdos matemáticos, cujas exigências não serão
superiores àquelas dos cursos médios. Sabemos perfeitamente que muitos dos nossos leitores
gostariam de ter abandonado esse “sacrifício” quando optaram por um curso de ciências humanas,
todavia você verá que, após um eventual período de estranhamento, terá, a partir de agora, mais um
aliado em seu desafio cotidiano da análise dos fenômenos sociais: a ferramenta estatística.
Boa leitura!
1
Introdução e conceitos básicos
Usa a estatística como o bêbado o poste.

Mais pelo apoio do que pela iluminação.
Andrew Lang (1844-1912)1
1.1 Sociologia e estatística

A estatística adquiriu o status de ciência no momento em que evoluiu de fazer levantamen-
tos de informações destinados ao conhecimento do Estado para se tornar uma fonte adicional de
evidências a fim de explicar fenômenos da natureza e das relações humanas e sociais. Segundo
Teixeira (2002), foi Émile Durkheim quem estabeleceu que o verdadeiro conhecimento socioló-
gico é o das chamadas correlações funcionais entre as diversas variáveis, que consiste em observar,
comparar e explicar uma variável em relação a outra.
Durkheim nasceu na França e viveu de 1858 até 1917 (PARANÁ, 2018). É considerado um
dos pais da sociologia moderna, tendo sido o fundador da Escola Francesa de Sociologia, que com-
binava a pesquisa empírica com a teoria sociológica, fortalecendo essa área de estudo. Defendeu
sua tese de doutorado em 1893, sob o título Da divisão social do trabalho. Logo depois, em 1895,
publicou As regras do método sociológico, considerada a primeira obra exclusivamente metodoló-
gica escrita por um sociólogo.
Os principais conceitos sociológicos desenvolvidos nesses trabalhos foram observados em
1897 no livro O suicídio, no qual variáveis e dados empíricos são utilizados pela primeira vez de
maneira sistemática na área da sociologia. Em 1896, Durkheim publica A proibição do incesto e
suas origens, obra na qual o método de análise de dados etnográficos é aplicado em uma perspec-
tiva sociológica. Essa metodologia permite analisar representações coletivas como representações
mentais ou simbólicas que são imagens da realidade empírica (BIOGRAFÍAS Y VIDAS, 2018).
Em O suicídio, Durkheim só admite observar, comparar e explicar o fato social por in-
termédio de outros fatos sociais (as taxas de suicídio só podem ser explicadas em função dos
meios sociais, dos divórcios, das crises econômicas e de outras variáveis). Ele compara a taxa de
mortalidade por suicídio com a taxa de mortalidade geral, particularmente suas variações ao
longo do tempo, e observa que a primeira taxa permanece constante durante longos períodos
e que sua invariabilidade é muito maior do que a ocorrida nos principais fenômenos demo-
gráficos. Além disso, compara as variações anuais das taxas de suicídio com as de diferentes
sociedades, que podem ser bastante diversas.
1 Escritor escocês e crítico literário com contribuição na área de antropologia.

12 Estatística aplicada às ciências sociais
1.2 Os métodos estatísticos

O tópico anterior introduz o escopo da metodologia estatística, que pode ser utilizada
para a comprovação ou não de hipóteses de pesquisas na área social. Podemos entender a tare-
fa estatística com base em suas duas principais dimensões: (i) a análise exploratória de dados
e; (ii) a inferência estatística.
Se um fenômeno social pode ser investigado por meio de observações empíricas, a organização
delas de maneira sistemática pode ser enormemente auxiliada por metodologias estatísticas simples,
conhecidas como análise exploratória de dados (AED). Anteriormente chamada de estatística descri-
tiva, a análise adquiriu essa nova denominação em razão do desenvolvimento de novas técnicas, ditas
robustas, que consistem em explorar os dados com o intuito de produzir informações relevantes sobre
o fenômeno em estudo.
Trata-se, portanto, de buscar na observação empírica elementos que possam auxiliar o ana-
lista social em sua tarefa de compreender o fenômeno em foco. É importante salientar que a análise
de dados não substitui o instrumental teórico desse profissional, sua sensibilidade e experiência
em olhar determinado fenômeno; mas, se os dados forem manipulados, no sentido positivo da
palavra, com prudência e competência, podem ser de grande valia para ele. Para isso, é necessário
despir-se de preconceitos do tipo “trabalhar com dados é uma atitude cartesiana” ou “só os positi-
vistas usam informações numéricas”.
Por outro lado, não se pode atribuir toda a responsabilidade de uma análise à informação
estatística. Ela não tem, e não deve querer ter, a função principal; precisa ser utilizada muito
mais para apoiar as teses envolvidas na investigação sociológica do que propriamente para lhes
fornecer luz.
Essa forma de tratar os dados deve ser estendida também ao trabalho da segunda dimensão
(e talvez a mais nobre) da estatística, que é o de ser uma ferramenta poderosa para a chamada indução
ou inferência estatística, que objetiva tirar conclusões aproximadas por meio da observação de uma
parcela da população, ou, ainda, determinar níveis de confiança acerca de elementos da população
mediante a observação de uma amostra que melhor a represente. Também com os devidos cuidados,
observações de dados numéricos do passado e do presente podem ser úteis para produzir inferên-
cias sobre o futuro.
Essa tarefa de filtragem de dados, que podem auxiliar na concepção de um modelo
matemático que explique relações entre variáveis, começa por definições teóricas sobre essas
relações e a determinação de quais variáveis têm o poder de medir certos fenômenos e de
como é possível medi-los. Naturalmente, fenômenos mais complexos exigem a construção de
modelos também mais complexos.
1.2.1 A análise exploratória de dados

Essa dimensão reúne um conjunto de técnicas constituídas pelas análises tabular e grá-
fica e pelas medidas estatísticas. A forma de apresentação dos dados por meio de tabelas e
gráficos obedece às normas específicas determinadas internacionalmente. No caso brasileiro,
Introdução e conceitos básicos 13
essas normas são definidas pela Associação Brasileira de Normas Técnicas (ABNT) e, portanto,
devem ser respeitadas.
O clássico manual de Darrell Huff, Como mentir com estatística [How to lie with statistics],
publicado originalmente em 1954, expõe formas de manipulação da apresentação de dados em ta-
belas e gráficos que podem levar o analista a cometer erros interpretativos. Antes de ensinar como
mentir com estatísticas, o livro alerta para a utilização incorreta da apresentação de dados mesmo
por analistas desavisados e bem-intencionados. Existem outros vários títulos sobre o uso e o mau
uso de estatística para análise de fenômenos reais. O livro Usos e maus usos de dados e modelos: a
matematização das ciências humanas [The uses and misuses of data and models: the mathematization
of the human sciences], de W. James Bradley e Kurt Shaefer (1998), alerta para os cuidados que
precisam ser tomados para a utilização da estatística como auxiliar na compreensão de fenômenos
sociais. Os autores desenvolveram princípios que devem servir de guias para o uso de dados e
modelos nas ciências humanas. Normas, valores e propósitos precisam se tornar parte do discurso
comum de pesquisadores, promovendo estudos mais responsáveis ética e socialmente.
Novas formas de apresentação gráfica são utilizadas na AED, como o diagrama de caixas
(box-plot), o esquema de cinco números e o diagrama ramo e folhas. A apresentação tabular e grá-
fica será abordada posteriormente.
Faz parte também da AED sintetizar dados com base nas chamadas medidas estatísticas.
Elas podem ser classificadas em quatro grupos: (i) medidas de posição, entre elas as medidas de
tendência central e as separatrizes; (ii) medidas de dispersão, como a variância e o desvio-padrão;
(iii) medidas de assimetria e; (iv) medidas de achatamento ou de curtose. O estudo das medidas
de posição e das medidas de dispersão, por serem as mais importantes, será assunto tratado em
capítulos posteriores, e as medidas de assimetria e de curtose não serão tratadas em profundidade
por não fazerem parte do escopo principal deste livro.
1.2.2 A inferência estatística

Essa análise ocupa-se de buscar explicações para um fenômeno que ocorre na grande popu-
lação por meio da observação de uma pequena parte dela, chamada de amostra. Inferências podem
então ser feitas da parte para o todo e também com base em observações do passado e do presente
para o futuro.
As técnicas de amostragem desenvolvidas a partir da primeira metade do século XX permi-
tem tirar conclusões aproximadas acerca de parâmetros que descrevem um fenômeno real ocorri-
do na população. O exemplo das pesquisas de opinião pública, notadamente das pesquisas eleito-
rais, ilustra a utilização de técnicas seguras de indução.
Os institutos de pesquisa conseguem produzir resultados muito próximos da realidade por
meio da aplicação de inquéritos a pequenos grupos representativos da população. Afirmações
como “temos 95% de confiança que o candidato ‘A’ terá 40% dos votos, com uma margem de erro
de mais ou menos 3%” são obtidas na pesquisa com um grupo muito pequeno de eleitores. Essa
declaração pode ser expressa matematicamente por:
Pr (40% – 3% < P < 40% + 3%) = 0,95
A letra “P” é indicativa da percentagem de votos que o candidato A teria se as eleições fos-
sem no dia em que a pesquisa de campo foi realizada. O valor de 40% representa a percentagem de
eleitores na amostra que disseram votar nesse candidato. A margem de erro de 3% indica o grau
de precisão (ou desvio) do resultado em razão do trabalho amostral, e o nível de confiança de 95%
equivale à chance de que a amostra sorteada realmente represente o universo de eleitores.
Essas duas medidas – margem de erro e nível de confiança – são predeterminadas para o
cálculo do número de eleitores que será pesquisado, ou, como é tecnicamente conhecido, o tamanho
da amostra. Esses temas serão tratados em capítulos específicos sobre técnicas de amostragem e
inferência estatística.
No capítulo referente à amostragem, serão apresentadas as principais técnicas (amostra
aleatória simples, amostra estratificada proporcional e amostra sistemática), além da discussão de
métodos de amostragem não probabilísticos – que não suportam o trabalho de inferência – e as
maneiras de se determinar o tamanho adequado de uma amostra representativa.
No tópico sobre inferência estatística, o trato com a curva normal e com o chamado teorema
central do limite permitirá a construção de inferências sobre os parâmetros populacionais com base
nas observações amostrais. Dois aspectos centrais serão tratados nesse capítulo: a construção de
intervalos de confiança, como o anteriormente apresentado, e o procedimento conhecido como
teste de hipóteses.
Os procedimentos de realização de uma pesquisa de opinião pública serão também abor-
dados posteriormente, bem como aqueles para realizar uma pesquisa que revele a opinião de um
determinado grupo de pessoas. A forma de organização de um questionário e o estabelecimento
de perguntas que tenham o potencial de revelar opiniões serão tratados de maneira sistemática.
1.3 Variáveis e escalas de mensuração

As universidades públicas brasileiras vêm adotando, nos últimos anos, políticas afirmativas,
que buscam reparar o que seus dirigentes consideram injustiças históricas. Incansáveis discussões
foram realizadas, por exemplo, em relação à reserva de vagas para estudantes afrodescendentes.
Um dos núcleos da crítica a essa política de cotas é o argumento de que elas acirrariam o precon-
ceito racial no país.
Sem entrar no mérito da questão, seria de interesse científico verificar se essa última afirmação
tem respaldo na realidade. Porém, medir a intensidade do preconceito racial, ou, mais simplificada-
mente, avaliar se a pessoa tem algum grau de preconceito, é uma tarefa desafiadora.
Acrescente-se que um problema potencial existente, quando se mede comportamento, é a
chamada reatividade. Diz-se que uma medida é reativa se a consciência de estar sendo submetido
a uma mensuração mudar o comportamento do indivíduo. Uma medida reativa informa como ele
se comportaria em circunstâncias de estar sendo observado, mas não em condições naturais.
Portanto, fenômenos complexos, como os tratados pelas ciências humanas, não são de fácil
aferição. A definição clara das variáveis a serem estudadas e de como medi-las, estabelecendo-se
escalas de mensuração, é uma das tarefas mais difíceis para o cientista social.
Uma variável é um conceito abstrato, que precisa ser traduzido em formas concretas de
observação e manipulação. Ela pode ser compreendida como um evento, uma situação ou um
comportamento e exige-se que a medida realizada por meio de uma variável seja válida e fidedigna.
Para algo ser válido, deve ser “verdadeiro”, no sentido de estar fundamentado nas evidências
disponíveis. A fidedignidade diz respeito à variável estar medindo o que realmente se propõe a
medir. Por meio de medidas, escalas podem ser construídas, sendo elas de natureza nominal,
ordinal, numérica ou intervalar.
1.4 Medidas que revelam circunstâncias

Vários fenômenos sociais e econômicos adquiriram, ao longo do amadurecimento da utiliza-
ção de métodos numéricos nas ciências humanas, medidas que são aceitas universalmente. Mesmo
assim, muitas dessas medidas ainda são questionadas quanto ao seu potencial de verificação de um
fenômeno real. O índice de desenvolvimento humano (IDH), por exemplo, é uma medida compara-
tiva de riqueza, alfabetização, educação, esperança média de vida e outros fatores. É a padronização
de avaliação e medida do bem-estar de uma população. O índice foi desenvolvido em 1990 pelo eco-
nomista paquistanês Mahbub ul Haq e é usado desde 1993 pelo Programa das Nações Unidas para o
Desenvolvimento (PNUD) no seu relatório anual (PACHECO; JATENE, 2008).
No entanto, há uma série de críticas com relação à capacidade de o IDH medir de fato o
desenvolvimento humano com certa precisão. No caso de medidas de riqueza e riqueza per capita,
não se leva em consideração a distribuição da renda. Por isso, a análise do IDH deve ser acompa-
nhada de uma discussão da distribuição da riqueza, que pode ser realizada por meio do estudo do
índice de Gini, por exemplo.
Determinadas medidas são importantes para se tentar compreender certas relações e situa-
ções de grupos de pessoas e mesmo de países. Por exemplo: o Brasil está entre os países com os
maiores índices de desigualdade social do planeta (ONUBR, 2018). Como realizar essa medida?
O índice de Gini é o indicador mais utilizado para se verificar a estrutura da distribuição de renda
de um grupo social.
Interessa também saber como são determinados os índices que medem o aumento dos preços.
Várias são as propostas metodológicas apresentadas, como o índice de custo de vida (ICV) e o índice
de preço ao consumidor (IPC), que medem quantidades diferentes: o primeiro é um indicador geral
de custo de vida, enquanto o segundo é um índice agregado de preços.
Outros indicadores importantes a serem tratados são os índices de mortalidade infantil e a
esperança de vida. Como está estruturada a distribuição etária de uma população? Como ela enve-
lhece e como se renova? Esses indicadores e o estudo da estrutura populacional serão tratados em
capítulo posterior.
1.5 Análise de associação entre variáveis

A tarefa de verificação da relação entre duas ou mais variáveis é um dos temas centrais na
confirmação de hipóteses em ciências humanas. Suponhamos que um pesquisador está interessado
em verificar se pessoas que habitam aglomerações residenciais têm piores resultados em um teste
de avaliação. Chamaremos a primeira variável de X, local de habitação, e a segunda, resultado no
teste, de Y.
A primeira determinação não diz respeito propriamente à estatística; as variáveis devem
hipotética ou teoricamente estar relacionadas. A segunda tarefa diz respeito à forma de me-
dir essas variáveis. Algumas restrições precisam ser impostas para que se consiga estabelecer
uma escala de medidas para aglomeração. Feito isso, pode-se construir um modelo matemático
que relacione essas duas variáveis. Eventualmente, uma terceira variável pode estar escondida,
ou ser uma variável latente, como quando se controla a classe social. O modelo mais simples,
que relaciona somente duas variáveis, pode ser expresso da seguinte maneira:
y= + X+
Esse é o modelo clássico chamado de regressão linear simples, no qual a relação entre as
variáveis é linear e envolve somente duas delas, sendo, X a variável independente ou explicativa
e Y a dependente ou variável de resposta.
Duas componentes fazem parte desse modelo: uma determinística, + X, e outra aleatória,
ε. A primeira descreve aproximadamente a relação funcional entre X e Y, enquanto a segunda diz
respeito a todas as outras variáveis que não foram analisadas no modelo, e que possivelmente são
de menor importância, mais o efeito do acaso.
A força da relação entre X e Y será determinada por um indicador de força, chamado de
coeficiente de correlação. Se for alto, isto é, próximo de 1, significa que, existindo a relação entre X
e Y, ela será forte. Essas determinações serão estudadas posteriormente.
1.6 Metodologias qualitativas em ciências sociais

A utilização de métodos quantitativos pode não ser a mais adequada para algum tipo par-
ticular de estudo. Enquanto eles supõem uma população de objetos de observação comparáveis
entre si, os métodos qualitativos enfatizam as especificidades de um fenômeno em termos de suas
origens e de sua razão de ser.
Entre os principais métodos de pesquisa qualitativa estão a pesquisa-ação, a pesquisa par-
ticipante e a enquete operária. Estudaremos neste livro os métodos quantitativos para variáveis
qualitativas, e não os métodos qualitativos.
Atividades
1. Um fenômeno complexo e problemático que ocorre com maior expressão em diversas so-
ciedades indígenas da atualidade é o suicídio. Faça uma pesquisa bibliográfica sobre essa
questão, procurando identificar algumas de suas possíveis causas. Atente-se para a utilização
de indicadores na explicação desse problema.
2. Escolha um município qualquer do Brasil e compare o resultado das últimas eleições muni-
cipais com alguma pesquisa eleitoral realizada um pouco antes do pleito. O site do Instituto
Brasileiro de Opinião Pública e Estatística2 concentra grande parte dessas informações. O
que se pode concluir?
3. Em uma publicação – jornal ou revista –, observe as técnicas estatísticas utilizadas para

análise de fenômenos sociais (medidas, gráficos, análises estatísticas etc.) e faça uma crítica
procurando refletir se a ferramenta consegue ser representativa e sintetiza adequadamente
a informação veiculada.
2 IBOPE. Disponível em: www. ibope.com.br. Acesso em: 18 out. 2018.

2
Análise de dados
As estatísticas não substituem o julgamento.
Henry Clay (1777-1852)1
2.1 Análise exploratória de dados e estatística descritiva

A estatística é a ciência da obtenção da informação com base em dados numéricos.
A utilização desses dados para análise de fenômenos naturais e/ou sociais vem crescendo de
modo considerável com a evolução de técnicas de obtenção de dados e com o acentuado cresci-
mento da computação.
A ideia central da utilização de dados numéricos para a análise de fenômenos do mundo real
está em acrescentar mais uma peça de evidências ao corpo teórico e observações sobre achados da
realidade. No entanto, essa utilização deve estar cercada de alguns cuidados, de modo a prevenir o
mau uso das técnicas estatísticas, que pode levar a sérias distorções de entendimento da realidade.
De maneira sintética, podemos dizer que a análise de dados consiste em métodos e técnicas
que permitem ao investigador reforçar, confirmar ou desconfirmar ideias acerca de um fenômeno
real. Dois conjuntos de métodos podem ser distinguidos de acordo com essa ideia. O primeiro,
mais simples, consiste em aplicar tratamentos gráficos e numéricos de modo a compreender o
comportamento dos dados. Esses tratamentos são conhecidos modernamente como análise explo-
ratória de dados. O outro conjunto de técnicas, chamado de inferência estatística, permite que, com
base na observação de uma parte dos dados, a amostra, sejam feitas ilações para um grupo maior,
a população, que abrange aquele grupo menor.
A análise exploratória de dados pertence, portanto, ao campo do que era conhecido como
estatística descritiva, que, com o acréscimo de técnicas chamadas robustas, permite dar tratamento
mais detalhado aos dados, explorando pontos de vista não abrangidos anteriormente.
Fazem parte do escopo da discussão da AED o tratamento tabular e gráfico, as medidas esta-
tísticas e técnicas que permitem compor gráficos e medidas.
2.2 Tipos de medidas

Existem fundamentalmente dois tipos de medidas que estão relacionadas com a natureza
da variável a ser observada. Associados a cada indivíduo, temos medidas ou atributos que o
definem. As medidas são características de variáveis quantitativas e os atributos são de variáveis
categorizadas ou qualitativas.
1 Advogado norte-americano que representou o Kentucky na Câmara dos Representantes e no Senado.

As variáveis quantitativas podem ser contínuas ou discretas. Elas são contínuas quando entre
dois quaisquer valores possam estar novos valores e são fruto de medidas que podem ser expressas
pelos números reais. O salário dos empregados de uma empresa, por exemplo, pode ser considerado
uma variável contínua. As variáveis são discretas quando são resultados de contagem e podem ser
expressas por números inteiros, como a idade dos funcionários. Outra característica importante das
variáveis quantitativas é que elas possibilitam fazer operações matemáticas com seus valores, como
soma, subtração, multiplicação e divisão.
As variáveis categorizadas ou qualitativas são expressas em escalas ordinais, como é o caso da
ordem em que os funcionários foram contratados, ou em categorias, como o sexo do funcionário
ou o setor em que ele trabalha. Não se pode, nesse caso, fazer as operações matemáticas usuais com
os resultados obtidos.
2.2.1 Tabelas e quadros estatísticos

Existe uma pequena diferença entre tabela e quadro estatístico. A tabela estatística é o
resultado de alguma forma de resumo dos dados. A primeira linha vertical à esquerda e a última
linha vertical à direita de uma tabela estatística devem ser somente linhas imaginárias, segundo
as normas da ABNT2. As tabelas são utilizadas para apresentação de resultados estatísticos e
também como ferramenta de desenvolvimento de operações. Uma tabela bastante importante
utilizada em estatística é a distribuição de frequências, na qual é anotado o número de casos
(frequência) para cada classe ou categoria considerada.
Já o quadro serve para a apresentação de dados, como os do exemplo dos empregados de
uma empresa, ou para a apresentação de resultados-resumo, como um quadro de médias. O quadro
tem seus limites à esquerda e à direita fechados por linhas.
2.2.1.1 Apresentação gráfica

Os dados de uma tabela estatística podem ser apresentados por meio de gráficos estatísticos.
O tipo de gráfico deve ser compatível com a natureza dos dados. Os principais gráficos são o de
colunas ou de barras, o de setores ou pizza, o de linhas e o histograma.
Existem também, na análise exploratória de dados, algumas apresentações gráficas que au-
xiliam a compreensão do comportamento dos dados, como o diagrama ramo e folhas, o esquema
de cinco números e o diagrama de caixas ou box-plot.
O detalhamento da utilização de cada tipo de gráfico será assunto ainda deste capítulo.
Exemplo
Usaremos a situação a seguir, da composição dos empregados de uma
empresa imaginária, chamada aqui de empresa ABC, para ilustrar a
natureza das variáveis e os recursos estatísticos disponíveis para uma
2 ASSOCIAÇÃO Brasileira de Normas Técnicas. NBR 6023: informação e documentação – referências – elaboração.
Rio de Janeiro, 2002. Disponível em: https://www.usjt.br/arq.urb/arquivos/abntnbr6023.pdf. Acesso em: 25 out. 2018.
Análise de dados 21
primeira análise de dados, que comporte a verificação do perfil de seu

corpo funcional.
Observe, então, a seguinte situação: o coordenador do Departamento de
Recursos Humanos (RH) da empresa solicitou, para um estudo prelimi-
nar sobre uma possível reorganização das funções e dos salários, a rela-
ção dos funcionários, na qual deveriam constar algumas variáveis para
esse primeiro estudo: tempo de casa, sexo, idade, salário e setor.
Um auxiliar administrativo apresentou o seguinte quadro como resultado:
Quadro 1 – Relação dos funcionários da empresa ABC por sexo, idade, salário e setor de trabalho
Número de
Nome Sexo Idade Salário Setor
ordem
1 A. L. Ferraz M 49 1.714,00 Oper.
2 R. Abreu M 48 1.701,00 Oper.
3 R. S. Reis M 64 1.589,00 Oper.
4 N. Farias F 37 1.418,00 Oper.
5 J. L. Jansen F 42 1.000,00 Aux. Adm.
6 U. S. Machado M 40 3.732,00 Tec.
7 F. Nogueira F 21 1.330,00 Oper.
8 M. Pinheiro F 33 1.307,00 Oper.
9 M. A. da Silva M 39 1.282,00 Oper.
10 P. A. B. Costa F 42 1.260,00 Oper.
11 H. F. Minho F 39 975,00 Aux. Adm.
12 N. M. de Lima M 32 1.256,00 Oper.
13 C. F. Loureiro M 22 1.185,00 Oper.
14 M. E. M. Ferreira M 21 3.535,00 Tec.
15 J. A. Isaias F 37 2.956,00 Tec.
16 J. Martins F 24 1.179,00 Oper.
17 A. P. Ribeiro M 28 966,00 Aux. Adm.
18 L. C. Batista M 32 3.204,00 Adm.
19 A. F. dos Santos M 31 881,00 Aux. Adm.
20 C. A. Brandão F 38 3.080,00 Adm.
21 D. J. Feltrin M 23 2.872,00 Tec.
22 L. S. Prestes M 22 826,00 Aux. Adm.
23 J. L. Campos M 46 1.010,00 Oper.
24 S. I. Magalhães F 34 708,00 Aux. Adm.

(Continua)
Número de
Nome Sexo Idade Salário Setor
ordem
25 P. R. Gonçalves M 47 2.960,00 Adm.
26 M. I. Machado M 42 2.797,00 Tec.
27 M. Paraná F 32 1.001,00 Oper.
28 U. V. Guimarães F 29 2.315,00 Adm.
29 E. M. Moreira M 41 5.572,00 Ger.
30 A. P. de Andrade M 30 2.372,00 Tec.
31 L. R. de Souza F 51 4.829,00 Ger.
32 R. T. Moraes F 23 1.826,00 Adm.
33 J. Pilloto M 20 540,00 Oper.
34 F. C. Lopes F 27 489,00 Oper.
35 C. A. Meier F 33 479,00 Oper.
36 H. O. Silveira F 22 1.904,00 Tec.
37 K. D. Almeida M 41 659,00 Aux. Adm.
38 M. J. D. Colares F 34 1.827,00 Tec.
39 R. F. L. Silvério M 24 472,00 Oper.
40 M. N. Messias F 20 640,00 Aux. Adm.
Fonte: Elaborado pelo autor.
Os dados apresentados foram organizados de modo a oferecer ao coorde-

nador do RH as informações que revelassem a distribuição dos salários de
acordo com estas variáveis: (i) número de ordem, no sentido de que o mais
antigo na organização recebeu o número 1 e o mais novo o número 40,
não importando muito o tempo de contratação, uma vez que a empresa foi
constituída há pouco tempo; (ii) sexo; (iii) idade; (iv) salário e; (v) setor,
dividindo os funcionários de acordo com as funções: operacional (Oper.),
auxiliar administrativo (Aux. Adm.), técnico (Tec.), administrativo (Adm.)
e gerência (Ger.), sendo uma gerência técnica e outra administrativa.
O coordenador analisou o quadro e verificou imediatamente que os
funcionários mais antigos eram, em sua maioria, do setor operacional,
com exceção de dois auxiliares administrativos. Observou também que
poucos ganhavam menos do que R$ 1 mil e que havia uma pequena
predominância de funcionários do sexo masculino. Percebeu que o
Reis de fato era o mais velho, com 64 anos, e que a empresa não tinha
nenhum funcionário com menos de 20 anos. Verificou, também, que
ele era o décimo oitavo contratado e que, entre os administradores, era
o mais antigo, recebendo um salário maior em comparação com seus
pares, no valor de R$ 3.204,00. Concluiu, finalmente, que, da forma
como os dados foram apresentados, havia dificuldade de obter infor-

mações mais detalhadas sobre a distribuição de cargos e salários. Sendo
assim, o coordenador chamou um dos administradores e pediu que ele
organizasse melhor os dados, afirmando que, em termos gerais, não
importava o nome das pessoas. Foi prontamente atendido e recebeu o
seguinte novo quadro:
Quadro 2 – Atualização das variáveis de funcionários da empresa ABC
Número Média
Sexo Idade Setor Salário
de ordem salarial
M 41 Ger. 29 5.572,00
F 51 Ger. 31 4.829,00 5.200,50
M 40 Tec. 6 3.732,00
M 21 Tec. 14 3.535,00
F 37 Tec. 15 2.956,00
M 23 Tec. 21 2.872,00
M 42 Tec. 26 2.797,00
M 30 Tec. 30 2.372,00
F 22 Tec. 36 1.904,00
F 34 Tec. 38 1.827,00 2.749,38
M 32 Adm. 18 3.204,00
F 38 Adm. 20 3.080,00
M 47 Adm. 25 2.960,00
F 29 Adm. 28 2.315,00
F 23 Adm. 32 1.826,00 2.677,00
M 49 Oper. 1 1.714,00
M 48 Oper. 2 1.701,00
M 64 Oper. 3 1.589,00
F 37 Oper. 4 1.418,00
F 21 Oper. 7 1.330,00
F 33 Oper. 8 1.307,00
M 39 Oper. 9 1.282,00
F 42 Oper. 10 1.260,00
M 32 Oper. 12 1.256,00
M 22 Oper. 13 1.185,00
F 24 Oper. 16 1.179,00
M 46 Oper. 23 1.010,00
(Continua)
Número Média
Sexo Idade Setor Salário
de ordem salarial
F 32 Oper. 27 1.001,00
M 20 Oper. 33 540,00
F 27 Oper. 34 489,00
F 33 Oper. 35 479,00
M 24 Oper. 39 472,00 1.130,12
F 42 Aux. Adm. 5 1.000,00
F 39 Aux. Adm. 11 975,00
M 28 Aux. Adm. 17 966,00
M 31 Aux. Adm. 19 881,00
M 22 Aux Adm. 22 826,00
F 34 Aux .Adm. 24 708,00
M 41 Aux. Adm. 37 659,00
F 20 Aux. Adm. 40 640,00 831,88

Com base no novo quadro, o coordenador pôde verificar uma série de

novas informações, como média salarial e número de funcionários por
categoria, e também que havia certa coerência dentro de cada catego-
ria com relação ao tempo de serviço e salário, pois funcionários mais
antigos da mesma categoria recebiam salários maiores. Mas sobre sexo,
idade e suas relações com as demais informações, o coordenador ainda
tinha muita dificuldade de tirar conclusões.
Esse tipo simples de organização dos dados pode ser útil no dia a dia da
análise de situações sociais. Os dados individuais, por mais bem organi-
zados que estejam, trazem poucas informações. É necessário que sejam
sintetizados em quadros, tabelas, gráficos e medidas que possam resu-
mir as informações, agregando-as.
2.2.2 Variáveis categorizadas

As variáveis categorizadas são medidas de atributos, como sexo, grau de instrução, setor de
trabalho, categoria profissional, preferência eleitoral etc. Os indivíduos estão relacionados a alguma
categoria dentro de cada variável, como sexo e função, no caso dos empregados da empresa ABC.
2.2.2.1 Distribuição por sexo

A tabela e os gráficos a seguir apresentam a distribuição por sexo dos indivíduos da empresa
que estamos tomando como exemplo.
Tabela 1 – Distribuição por sexo dos funcionários da empresa ABC
Sexo Número Perc.
Fem. 19 47,5%
Masc. 21 52,5%
Total 40 100,0%
Fonte: Elaborada pelo autor.
A utilização de um gráfico estatístico objetiva representar visualmente os dados. Os gráficos

adequados para a representação dessa tabela são os de colunas ou de barras e o gráfico de setores.
Figura 1 – Gráfico de colunas: representação da categoria sexo dos funcionários da empresa ABC
20
15
Número
10
0
Fem. Masc.
Sexo
Figura 2 – Gráfico de barras: representação da categoria sexo dos funcionários da empresa ABC
Masc.
Sexo
Fem.
0 5 10 15 20
Número
Figura 3 – Gráfico de setores: representação da categoria sexo dos funcionários da empresa ABC
Fem.
52% 48%
Masc.
O gráfico de setores é útil quando queremos observar o valor relativo da participação de

cada categoria no total.
2.2.2.2 Distribuição por função na empresa

A tabela e os gráficos a seguir apresentam a distribuição dos indivíduos de acordo com sua
função na empresa.
Tabela 2 – Distribuição por função dos funcionários da empresa ABC
Função Número Perc.
Gerência 2 5,0%
Adm. 5 12,5%
Tec. 8 20,0%
Aux. Adm. 8 20,0%
Oper. 17 42,5%
Total 40 100,0%
Figura 4 – Gráfico de colunas: representação da categoria função dos funcionários da empresa ABC
18
16
14
12
Número
10
0
Gerência Adm. Tec. Aux. Adm. Oper.
Categorias
Figura 5 – Gráfico de setores: representação da categoria função dos funcionários da empresa ABC
5%
13%
Gerência
Adm.
42%
20% Tec.
Aux. Adm.
Oper.
20%
2.2.3 Variáveis quantitativas

As variáveis quantitativas, sejam elas discretas ou contínuas, são apresentadas por meio da
chamada distribuição de frequências. Nos dois casos podemos construir distribuições de frequên-
cias, indicando os valores da variável e a sua correspondente frequência de ocorrência.
No caso de variável contínua, ou mesmo de variável discreta com um grande número de
possibilidades, é comum a construção de classes nas quais mais de um valor é contemplado.
Vamos estudar, inicialmente, o caso de uma variável discreta por meio da verificação da dis-
tribuição de frequências das idades dos funcionários. Pode ser de interesse do pesquisador saber
qual é a distribuição de idade dos funcionários com menos de 30 anos. A tabela da distribuição de
frequências correspondente a esses dados será a seguinte:
Tabela 3 – Distribuição de frequências dos funcionários até 30 anos
Idade Freq.
20 2
21 2
22 3
23 2
24 2
25 0
26 0
27 0
28 1
29 1
Total 13
O gráfico correspondente à distribuição de frequências dessas idades é o gráfico de bastões.

Figura 6 – Gráfico de distribuição de frequências dos funcionários até 30 anos
3,5
2,5
1,5
0,5
0
20 21 22 23 24 25 26 27 28 29
2.2.3.1 Diagrama ramo e folhas

Uma outra forma de representação gráfica utilizando as próprias idades é o diagrama
ramo e folhas, no qual o ramo representa os algarismos relativos às dezenas e as folhas referem-se
àqueles quanto à unidade. Na primeira linha, o 2 equivale à dezena e os números à direita repre-
sentam as unidades. Estão representadas na primeira linha as idades 20, 20, 21, 21, 22 e assim
por diante, até a idade 29.
Figura 7 – Diagrama ramo e folhas das idades dos 40 funcionários
2 00112223344789
3 01222334477899
4 0112226789
5 1
6 4
Observe o aspecto da informação gráfica do diagrama ramo e folhas em analogia com o

histograma que será apresentado na sequência. A vantagem da utilização do primeiro é que ele
mostra o desenho da distribuição sem perder a informação detalhada.
2.2.3.2 Série temporal

Muitas variáveis são medidas em intervalos de tempo. O gráfico de linhas é a maneira
mais adequada de apresentar a evolução de uma variável, sendo que o eixo X sempre será corres-
pondente a uma escala de tempo.
Quando não há um número demasiado grande de pontos, a ligação entre eles por segmentos
de retas ajuda a visualizar o padrão de variação ao longo do tempo.
Suponha que no exemplo da empresa ABC os dados tivessem sido apresentados conforme
a solicitação original, que incluía o tempo de casa de cada funcionário. Uma possível organização
dos dados seria verificar quantos funcionários a empresa tinha em cada um de seus quatro anos de
existência, conforme tabela a seguir:
Tabela 4 – Número de funcionários da empresa ABC por ano
Ano Funcionários
Ano 1 15
Ano 2 20
Ano 3 32
Ano 4 40
Figura 8 – Gráfico de linhas: representação do número de funcionários da empresa ABC por ano
45
40
35
30
25
20
15
10
0
Ano 1 Ano 2 Ano 3 Ano 4
2.2.4 Distribuição de frequências

Poderíamos, eventualmente, considerar a idade como uma variável aleatória contínua
cuja representação está aproximada para os valores inteiros das idades. A rigor, a variável idade
é mesmo contínua, porque poderíamos medir o tempo de vida em anos, dias e mesmo segun-
dos. Nesse caso, seria possível construir classes entre certas idades de tal forma que elas repre-
sentassem um contínuo.
A tabela da distribuição de frequências das idades, quando organizada em classes, recebe o
nome de histograma, um gráfico de colunas adjacentes representando um contínuo.
Tabela 5 – Distribuição de frequências das idades dos funcionários da empresa ABC
Idade Freq. Perc.

20 a 29 14 35,0%
30 a 39 14 35,0%
40 a 49 10 25,0%
50 a 59 1 2,5%
60 ou + 1 2,5%
Total 40 100,0%

Figura 9 – Histograma de distribuição de frequências das idades dos funcionários da empresa ABC
16
14
12
20 a 29 anos
Frequência
10 30 a 39 anos
8 40 a 49 anos
6 50 a 59 anos
4 60 anos ou mais
2
0
1
Idade
Tabela 6 – Distribuição salarial dos funcionários da empresa ABC
Salário Freq. Freq. Rel.

Até 999 11 0,28
De 1.000 a 1.999 17 0,43
De 2.000 a 2.999 6 0,15
De 3.000 a 3.999 4 0,10
Acima de 4.000 2 0,05
Total 40 1,00
Observe que podemos utilizar indistintamente percentagem ou frequência relativa. Na ver-

dade, a percentagem é a frequência relativa multiplicada por 100.
Figura 10 – Gráfico de distribuição salarial dos funcionários da empresa ABC
18
16
14
12 Até 999
Frequência
De 1.000 a 1.999
10
De 2.000 a 2.999
8 De 3.000 a 3.999
Acima de 4.000
6
0
1
Salários
2.2.4.1 Elementos de uma distribuição de frequências

A distribuição de frequências, como foi apresentada, é útil não só para apresentação de dados,
mas para análises um pouco mais aprofundadas. A seguir, vamos reapresentar a distribuição de fre-
quências dos salários, porém de uma maneira mais matematicamente formal.
Tabela 7 – Distribuição de frequências salariais dos funcionários da empresa ABC
Salário (X) Freq. Freq. Rel.
X < 1.000 11 0,28
1.000 ≤ X < 2.000 17 0,43
2000 ≤ X < 3.000 6 0,15
3.000 ≤ X < 4.000 4 0,10
X ≥ 4.000 2 0,05
Total 40 1,00
Observe que a distribuição é apresentada como um contínuo. Não há descontinuidade entre

R$ 1.999,00 e R$ 2.000,00, por exemplo, portanto podemos ter a representação de qualquer valor,
como R$ 1.999,85.
Definimos cinco classes. O número de classes de uma distribuição de frequências não deve
ser muito grande, em torno de cinco a oito já é bastante razoável, e elas devem ter igual amplitude.
No nosso caso, como temos poucos valores acima de R$ 4.000,00, agregamos todos na última classe.
Cada uma delas tem um limite inferior de classe e um limite superior. A diferença entre eles chama-
mos de amplitude do intervalo de classe.
Podemos ainda definir o ponto médio de cada classe. Esse valor será útil para a determi-
nação das medidas estatísticas quando não temos os dados brutos. O ponto médio representará
todos os valores da classe. Em nosso exemplo, entre R$ 1.000,00 e R$ 2.000,00 temos 17 valores.
Todos eles serão considerados como R$ 1.500,00. Perdemos um pouco em informação, mas
ganhamos em poder de síntese.
A frequência relativa será uma aproximação de probabilidades. A probabilidade de um dos
40 funcionários da empresa ABC ser sorteado e ele ter um salário entre R$ 3.000,00 e R$ 4.000,00
será de 4/40 ou de 0,10. Formalmente, P(3.000 ≤ X < 4.000) = 0,10. Podemos dizer, sem perder muito
o rigor, que essa probabilidade é de 10%. A probabilidade de sortearmos um funcionário que ganhe
menos do que R$ 2.000,00 pode ser definida como P(X < 2.000) = 28/40. Também P(X ≥ 2.000)
= 12/40. Observe que P(X < 2.000) + P(X ≥ 2.000) = 1; sempre que isso ocorre, dizemos que essas
probabilidades são complementares.
Se considerarmos a amplitude do intervalo de classe como a unidade, a probabilidade pode
ser calculada como a área de cada retângulo no histograma, que terá como base o valor 1 e como
altura a frequência relativa. Esse cálculo de probabilidades por meio de áreas será fundamental
quando tratarmos da inferência estatística.
Um outro elemento importante em uma distribuição de frequências é a chamada frequên-

cia acumulada. Até R$ 2.000,00, temos 28 elementos, como acabamos de ver. Até R$ 3.000,00,
temos 34 elementos, e assim por diante. A seguir, apresentamos a tabela completa.
Tabela 8 – Distribuição de frequências
Salário (X) Freq. Freq. Rel. Ponto médio Freq. acumulada

X < 1.000 11 0,28 500 11
1.000 ≤ X < 2.000 17 0,43 1.500 28
2.000 ≤ X < 3.000 6 0,15 2.500 34
3.000 ≤ X < 4.000 4 0,10 3.500 38
X ≥ 4.000 2 0,05 4.500 40
Total 40 1,00
Outra aproximação possível é suavizar a apresentação do histograma, construindo um

novo gráfico que una os pontos médios das classes. Esse novo gráfico é chamado de polígono de
frequências e estará, possivelmente, mais próximo dos dados reais. Observe que com o polígono
de frequências podemos determinar, utilizando o cálculo de áreas, as probabilidades de qualquer
intervalo, como P(1.022,34 ≤ X < 3.087,53).
Na representação do polígono de frequências a seguir, observe que a área do polígono é
também igual à unidade, ou seja, toda área retirada do histograma é recolocada. Podemos veri-
ficar isso na semelhança de triângulos: a área do triângulo acima do retângulo de bolinhas que
será inserida no gráfico é a mesma que será retirada do triângulo do lado esquerdo do retângulo
de linhas tracejadas.
Figura 11 – Polígono de frequências de distribuição salarial
18
16
14
12 Até 1.000
Frequências
De 1.000 a 2.000
10
De 2.000 a 3.000
8 De 3.000 a 4.000
Acima de 4.000
6
0
1
Salários
Os instrumentos de tabelas e gráficos apresentados são suficientes para se fazer uma

primeira análise dos dados, que pode ser complementada com o cálculo de medidas estatísticas
e análises inferenciais.
Atividades
1. Os dados a seguir são relativos ao peso, ao nascer (em gramas), de recém-nascidos com sín-
drome de desconforto idiopático grave, ou seja, de causa desconhecida. Algumas crianças
foram a óbito (*) e outras sobreviveram.
1.030* 1.300* 1.720 2.090 2.570
1.050* 1.310* 1.750* 2.200* 2.600
1.100* 1.410 1.760 2.200 2.700
1.130 1.500* 1.770* 2.270* 2.730*
1.175* 1.550* 1.820* 2.750* 2.830
1.185* 1.575 1.890* 2.400 2.950
1.225* 1.600* 1.930 2.440* 3.005
1.230* 1.680 1.940* 2.500* 3.160
1.262* 1.715 2.015 2.550 3.400
1.295* 1.720* 2.040 2.560* 3.640

Fonte: Hand et al., 1994.
a) Apresente a distribuição de frequências dos dados, em forma de tabela unidimensional.

b) Classifique a variável peso ao nascer em duas categorias: baixo peso (abaixo de 2.500 g) e
não baixo peso (acima de 2.500 g) e faça uma tabela bidimensional cruzando as variáveis:
condição do recém-nascido (sobrevivente ou não sobrevivente) e peso ao nascer (baixo
peso e não baixo peso).
c) Avalie e interprete os resultados encontrados nas atividades a e b.
2. Os dados a seguir foram publicados pela Unidade de Recuperação de Alcoólatras, em
Camberwell, Reino Unido. A tabela mostra o número de pessoas condenadas por embria-
guez nos tribunais de Tower Bridge e Lambeth, Londres, durante 6 meses, de 1º de janeiro
a 27 de junho de 1970, classificados por idade e sexo. A distribuição etária é a mesma, de
acordo com o sexo? Interprete os resultados com percentagens e análise gráfica.
Número Número
Idade
de homens de mulheres
0 – 29 185 4
30 – 39 207 13
40 – 49 260 10
50 – 59 180 7
60 – 71 10
Total 903 44
3. Os dados a seguir são relacionados à altura (em centímetros) de uma amostra de 351 mulhe-
res idosas selecionadas aleatoriamente em uma comunidade, para um estudo de osteoporose.
Faça uma apuração dos dados e os represente em uma tabela e em um gráfico. Em seguida,
interprete os resultados.
156 163 169 161 154 156 163 164 156 166 177 158
150 164 159 157 166 163 153 161 170 159 170 157
156 156 153 178 161 164 158 158 162 160 150 162
155 161 158 163 158 162 163 152 173 159 154 155
164 163 164 157 152 154 173 154 162 163 163 165
160 162 155 160 151 163 160 165 166 178 153 160
156 151 165 169 157 152 164 166 160 165 163 158
153 162 163 162 164 155 155 161 162 156 169 159
159 159 158 160 165 152 157 149 169 154 146 156
157 163 166 165 155 151 157 156 160 170 158 165
167 162 153 156 163 157 147 163 161 161 153 155
166 159 157 152 159 166 160 157 153 159 156 152
151 171 162 158 152 157 162 168 155 155 155 161
157 158 153 155 161 160 160 170 163 153 159 169
155 161 156 153 156 158 164 160 157 158 157 156
160 161 167 162 158 163 147 153 155 159 156 161
158 164 163 155 155 158 165 176 158 155 150 154
164 145 153 169 160 159 159 163 148 171 158 158
157 158 168 161 165 167 158 158 161 160 163 163
169 163 164 150 154 165 158 161 156 171 163 170
154 158 162 164 158 165 158 156 162 160 164 165
157 167 142 166 163 163 151 163 153 157 159 152
169 154 155 167 164 170 174 155 157 170 159 170
155 168 152 165 158 162 173 154 167 158 159 152
158 167 164 170 164 166 170 160 148 168 151 153
150 165 165 147 162 165 158 145 150 164 161 157
163 166 162 163 160 162 153 168 163 160 165 156
158 155 168 160 153 163 161 145 161 166 154 147
161 155 158 161 163 157 156 152 156 165 159 170
160 152 153

3
Medidas estatísticas de posição
Com o pé no forno e a cabeça na geladeira, em

média, a temperatura do corpo está agradável.
K. Dunnigan
3.1 Medidas estatísticas

A utilização de medidas estatísticas serve para resumir os dados mediante valores represen-
tativos. Existem quatro tipos de medidas: as de posição, as de dispersão, as de assimetria e as de
achatamento ou de curtose.
As medidas de posição objetivam verificar pontos que representem o conjunto de dados.
Elas podem ser medidas de tendência central – como a média aritmética ou simplesmente média –,
que dizem em torno de que ponto os dados se concentram, ou ainda as separatrizes, que informam
o valor em que os dados se dividem, podendo ser em quatro, dez ou cem partes.
Já as medidas de dispersão dizem respeito à intensidade da concentração dos dados em
torno de medidas de tendência central. As principais medidas de dispersão são a variância,
o desvio-padrão e o coeficiente de variação.
As medidas de assimetria são utilizadas para verificar se os dados são simétricos em relação
a um valor central, enquanto as medidas de achatamento ou de curtose servem para verificar se
o gráfico de dados concentra-se em valores próximos ou distantes do eixo X do plano cartesiano.
Esses dois últimos tipos de medidas são de menor interesse em uma primeira abordagem, portanto
não serão tratados neste livro.
Existem valores que, embora pertençam a um conjunto de dados, são muito diferentes dos
valores da maioria deles, os chamados valores discrepantes ou outliers, e destoam do conjunto prin-
cipal dos dados. É sempre importante verificar a existência desses valores em um conjunto, pois eles
podem representar um erro de medida ou apontar que o fenômeno em estudo pode alcançar valores
muito fora da tendência principal. Podem, portanto, servir de alerta para o fato de que o fenômeno
em estudo eventualmente apresente um comportamento fora do padrão. O estudo detalhado dessa
circunstância servirá de alerta ao analista para a possibilidade de eventual saída da normalidade em
situações particulares.
Na análise de dados, ocasionalmente o pesquisador pode retirar esse outlier para verificar
o comportamento da maioria dos dados e depois recolocá-lo para refazer a análise e ver se houve
alguma alteração importante em suas conclusões. Essa tarefa faz parte da análise exploratória de
dados e um pesquisador cuidadoso deve preocupar-se com tal situação.
Se um cientista social está interessado no estudo da qualidade de vida dos moradores da

região metropolitana de uma capital e se ele utilizará, por exemplo, o índice de desenvolvimento
humano (IDH) como um dos indicadores que o auxiliará em seu estudo, deve verificar se o valor
do IDH da capital não será muito diferente dos valores do índice nos municípios vizinhos que
adquirem características dos bairros da periferia da capital, onde os indicadores de qualidade
de vida são sempre inferiores. Em uma situação como essa, se o valor do IDH da capital não for
tratado de maneira diferenciada, poderá afetar o resumo dos conjuntos de todos os municípios.
A sintetização das informações tem sido realizada até aqui mediante apresentação tabular e
gráfica dos dados originais. A forma de se completar essa tarefa é por meio do cálculo das medidas
estatísticas. Para tanto, serão abordados dois tipos de medidas: (i) as medidas de posição e (ii) as
medidas de dispersão. Este capítulo é dedicado ao estudo das primeiras.
3.2 Medidas de posição

Trabalharemos aqui com dois tipos de medidas: as medidas de tendência central e as separa-
trizes. As medidas de tendência central resumem os dados no centro da a média aritmética,
a mediana e a moda.
3.2.1 A média aritmética

Também chamada simplesmente de média, é uma das medidas mais importantes da esta-
tística. Além de resumir os dados, serve para os propósitos de estimação da amostra para a popu-
lação. Ela tem as melhores propriedades de um estimador.
A média é a soma dos dados dividida pelo número de observações, e sua expressão mate-
mática é:
n
Xi X1 + X2 + ... + Xn
X= i=1
=
n n
n
A expressão i = X
1
i significa somar valores de Xi com i variando de 1 até n. Cada Xi é um ele-
mento da amostra. O quadro a seguir apresenta o conjunto de indivíduos da empresa ABC junto à
sua idade e a seu salário. Esses dados servirão para introduzir as medidas.
Quadro 1 – Idade e salário dos funcionários da empresa ABC
Número de ordem Nome Idade Salário
1 A. L. Ferraz 49 1.714,00
2 R. Abreu 48 1.701,00
3 R. S. Reis 64 1.589,00
4 N. Farias 37 1.418,00
5 J. L. Jansen 42 1.000,00
(Continua)
Medidas estatísticas de posição 37
6 U. S. Machado 40 3.732,00
7 F. Nogueira 21 1.330,00
8 M. Pinheiro 33 1.307,00
9 M. A. da Silva 39 1.282,00
10 P. A. B. Costa 42 1.260,00
11 H. F. Minho 39 975,00
12 N. M. de Lima 32 1.256,00
13 C. F. Loureiro 22 1.185,00
14 M. E. M. Ferreira 21 3.535,00
15 J. A. Isaias 37 2.956,00
16 J. Martins 24 1.179,00
17 A. P. Ribeiro 28 966,00
18 L. C. Batista 32 3.204,00
19 A. F. dos Santos 31 881,00
20 C. A. Brandão 38 3.080,00
21 D. J. Feltrin 23 2.872,00
22 L. S. Prestes 22 826,00
23 J. L. Campos 46 1.010,00
24 S. I. Magalhães 34 708,00
25 P. R. Gonçalves 47 2.960,00
26 M. I. Machado 42 2.797,00
27 M. Paraná 32 1.001,00
28 U. V. Guimarães 29 2.315,00
29 E. M. Moreira 41 5.572,00
30 A. P. de Andrade 30 2.372,00
31 L. R. de Souza 51 4.829,00
32 R. T. Moraes 23 1.826,00
33 J. Pilloto 20 540,00
34 F. C. Lopes 27 489,00
35 C. A. Meier 33 479,00
36 H. O. Silveira 22 1.904,00
37 K. D. Almeida 41 659,00
38 M. J. D. Colares 34 1.827,00
39 R. F. L. Silvério 24 472,00
40 M. N. Messias 20 640,00
O valor da variável em estudo do primeiro indivíduo, ou número 1, o funcionário A. L.

Ferraz, será o valor X1. Se a variável em estudo for a idade, então X1 = 49. Já X2 representará a
idade do indivíduo 2, sendo
n
X2 = 48 anos, e assim por diante. Como temos 40 indivíduos, “n”
será igual a 40. Assim, i =X1 i será a soma das idades dos 40 indivíduos, isto é, essa expressão diz
que devemos somar todos os Xi com “i” variando de 1 até n, ou seja, com “i” variando de 1 até 40.
n
Quando não houver confusão, Xi será apresentado simplesmente como X.

i=1
A média aritmética representa o centro de gravidade dos dados. Alguns cuidados, no en-
tanto, devem ser tomados quando desejamos resumir os dados pelo valor de sua média, pois ela é
muito sensível a valores extremos. Um único valor muito grande ou muito pequeno pode mudar
substancialmente o valor da média, podendo ela perder sua representatividade.
No exemplo dado, o valor da média das idades dos empregados da empresa ABC é de
34 anos, e o valor da média dos salários é de R$ 1.791,20. Se considerarmos a idade de 64 anos
como um outlier, a nova média será de 33,2 anos, e, se considerarmos os salários R$ 4.829,00 e
R$ 5.572,00 como valores muito acima dos demais, teremos uma média salarial de R$ 1.611,76,
quase R$ 200,00 de diferença com relação à primeira média.
No primeiro caso, a diferença parece não ter sido de grande significância, mas, para a média
salarial, pode ser considerada importante, mesmo porque seria um dos elementos centrais em uma
análise de cargos e salários. No cálculo da média, retirar o salário dos dois gerentes pode ser útil
para a construção de uma política de cargos e salários.
Essa sensibilidade da média a valores extremos pode ser mais bem compreendida com a
seguinte frase: “Se coloco os pés no congelador e a cabeça num forno aceso, a temperatura média
do corpo será agradável...” (UFPA, 2018).
3.2.2 A média ponderada

Para calcular a média do seguinte conjunto (2, 2, 2, 2, 2, 3, 3, 4, 4, 4), a soma dos dados pode
ser realizada da seguinte forma: 2x5 + 3x2 + 4x3 = 10 + 6 +12 = 28. Isso porque a frequência do 2 é
5, a do 3 é 2 e a do 4 é 3. Observe que a soma das frequências é 10 (5 + 2 + 3), igual ao número de
observações. Podemos expressar esse fato por:
X= Xf
f
Na expressão apresentada, f é a frequência de cada um dos valores de X. Essa fórmula repre-

senta a chamada média aritmética ponderada, ou simplesmente média ponderada. Os ponderado-
res são as frequências.
Esse cálculo é muito útil quando os dados são apresentados em uma distribuição de frequên-
cias na qual X será o ponto médio de cada classe e a frequência será o ponderador. Se observarmos
que a frequência relativa é igual à frequência dividida pelo número de observações, como visto na
distribuição de frequências, isto é, frel = freq. , podemos representar a média ponderada como:
f
X = Xfrel
Nesse caso, o valor de X será o do ponto médio de cada classe.

Nas tabelas a seguir são realizados os cálculos das médias das idades e dos salários do grupo
de funcionários considerado. A notação [20;30) significa que o valor 20 anos pertence a essa classe
e que o valor 30 anos pertence à classe seguinte. O intervalo é fechado à esquerda e aberto à direita.
A notação para indicação dos intervalos de salários é diferente, embora represente a mesma coisa.
O intervalo 1.000 ≤ X < 2.000 poderia ser representado por [1.000;2.000).
Tabela 1 – Cálculo da idade média ponderada
Número de
Idade Ponto médio (X) frel X. frel
trabalhadores (freq.)
[20;30) 14 25 0,35 8,575
[30;40) 14 35 0,35 12,075
[40;50) 10 45 0,25 11,125
[50;60) 1 55 0,025 1,3625
[60;70) 1 65 0,025 1,6125
Total 40 34,75
Tabela 2 – Cálculo do salário médio ponderado
Número de
Salário Ponto médio (X) frel X frel
salários (freq.)
X < 1000 11 500 0,28 140
1000 ≤ X < 2000 17 1.500 0,43 645
2000 ≤ X < 3000 6 2.500 0,15 375
3000 ≤ X < 4000 4 3.500 0,1 350
X ≥ 4000 2 4.500 0,05 225
Total 40 1.735
No cálculo da média ponderada das idades e dos salários, com o auxílio das tabelas anterior-
mente apresentadas, encontramos os seguintes valores para as médias: idade média de 34,75 anos
e salário médio de R$ 1.735,00.
Se compararmos esses valores com os encontrados para os dados brutos, cuja idade média é
de 34 anos e cujo salário médio é de R$ 1.791,20, percebemos que pequenas alterações ocorreram,
principalmente no valor do salário médio, em razão de termos considerado o valor dos salários dos
gerentes como R$ 4.500,00 na distribuição de frequências, quando de fato eles eram bem superiores
a isso.
Essas distorções costumam desaparecer quando retiramos os outliers do cálculo ou quando
o número de observações cresce.
3.2.3 A mediana
Como foi observado anteriormente, a média é uma medida muito útil para a análise de certo
fenômeno por meio de indicadores numéricos, mas é também muito sensível a valores extremos.
Assim, é necessário determinar outras medidas que possam auxiliar o analista a compreender o
comportamento dos dados além da determinação da média. Algumas medidas não são influencia-
das por valores extremos e são úteis então para a complementação da análise. Uma das principais
que tem essa característica é a mediana.
A mediana é o valor que divide o rol em duas partes iguais. O rol é definido como a sequên-
cia ordenada de dados. Por exemplo, para o seguinte conjunto de dados (2, 3, 7, 7, 9), a mediana é
o número 7, que divide o rol em duas partes iguais.
A posição da mediana será definida por PMed = n + 1 . No exemplo apresentado, a posição
5+1 2
da mediana será PMed = = 6 = 3, portanto a mediana será o terceiro elemento do rol.
2 3
O valor da mediana será o do elemento que ocupa a terceira posição, nesse caso, Med = 7. Quando o
número de dados é muito grande, convém definir a posição da mediana antes de sua determinação.
No caso de “n” ser par, o procedimento é semelhante: define-se a posição da mediana e de-
pois calcula-se a média aritmética dos dois números imediatamente inferior e superior do valor
da posição da mediana. No exemplo da empresa ABC, em que n = 40, teremos PMed = 40 + 1 =
41 2
= 20,5. A mediana será, então, a média entre os valores que ocupam a vigésima e a vigésima
2
primeira posições da variável em consideração.
No nosso exemplo, após a organização dos valores em ordem crescente, a idade mediana
será Med = 33, porque X20 = X21 = 33. O salário mediano será Med = R$ 1.318,50, porque
X20 = 1.307,00 e X21 = 1.330,00.
3.2.3.1 Mediana para dados agrupados

Uma forma aproximada de determinação da mediana para dados agrupados consiste em
localizar inicialmente a classe que a contém, com o auxílio da distribuição de frequências acumu-
lada. Em seguida, deve-se tomar o ponto médio da classe mediana como o valor da mediana, pois
ele será um valor aproximado do verdadeiro valor dela.
Observe na tabela a seguir que o vigésimo e o vigésimo primeiro valores estão na segunda
classe, que contém do décimo segundo ao vigésimo oitavo elementos. Podemos, por simplicidade,
determinar o valor da mediana como aproximadamente R$ 1.500,00, o valor do ponto médio da
classe mediana.
Essa aproximação para esse caso foi bastante razoável, como podemos observar pela com-
paração do valor obtido nesse cálculo e o valor real determinado pelos dados do rol. Quando a
posição da mediana estiver muito próxima de algum dos limites da classe, uma interpolação pode
ser realizada, mas a sua determinação está fora do escopo deste livro.
Tabela 3 – Mediana para dados agrupados de salário
Salário (X) Freq. Ponto médio Freq. acumulada

X < 1.000 11 500 11
1.000 ≤ X < 2.000 17 1.500 28
2.000 ≤ X < 3.000 6 2.500 34
3.000 ≤ X < 4.000 4 3.500 38
X ≥ 4.000 2 4.500 40
Total 40
3.2.4 A moda
A moda é o valor que ocorre com maior frequência. Para o conjunto de dados (2, 3, 3, 3, 4),
a moda será o valor 3. Quando um conjunto tem uma só moda, ele é chamado de unimodal.
Se tiver duas é bimodal; três modas, trimodal; e polimodal se tiver quatro ou mais. Se o conjunto
não tiver nenhuma moda, será chamado de amodal.
O gráfico a seguir apresenta os aspectos de curvas que representam conjuntos unimodal,
bimodal e trimodal.
Figura 1 – Gráfico das curvas dos conjuntos modais
Unimodal Bimodal Trimodal
3.2.5 Separatrizes
As separatrizes são medidas que dividem um rol em duas partes proporcionais a certos va-
lores. A medida que separa os dados em duas partes iguais, ou em 50% e 50%, é a mediana, como
vimos a pouco.
Uma série de três medidas pode separar o rol em quatro partes iguais. Elas são chamadas
de quartis. O primeiro quartil (Q1) separa o rol em 25% e 75%, o segundo quartil (Q2) é a própria
mediana, e o terceiro quartil (Q3) divide o rol em 75% e 25%.
Da mesma forma que a mediana, para encontrar os quartis devemos inicialmente calcular
a sua posição, para depois determinar o seu valor. A posição do quartil de ordem i, com i = 1... 3 é
dada por PQi = i(n + 1) .
4
No nosso exemplo, se desejamos verificar o valor dos quartis para os salários, teremos
como posição do primeiro quartil PQ1 = 1( 40+ 1) = 10,25, e como posição do terceiro quartil
3( 40+ 1) 4
PQ3 = = 30,75, lembrando que o segundo quartil é a própria mediana. Então, organi-
4
zando os dados em um rol crescente, teremos como valor do quartil 1 a média aritmética entre o
10º elemento do rol e o 11º, portanto Q1 = R$ 987,50, uma vez que o décimo salário é de R$ 975,00
e o décimo primeiro de R$ 1.000,00. O terceiro quartil será a média aritmética entre o 30º e o 31º
elementos, resultando em Q3 = R$ 2.584,50, porque o trigésimo elemento é R$ 2.372,00 e o trigé-
simo primeiro, R$ 2.797,00. Naturalmente, esses são valores aproximados, mas podemos verificar
que são aproximações bastante razoáveis.
Podemos também definir um conjunto de nove medidas que separam o rol em 10 partes,
chamadas de decis, e um conjunto de 99 medidas que separam o rol em 100 partes, chamadas
de percentis. Basta, para isso, determinar as posições de cada decil pela expressão i (n+ 1) e de
10
cada percentil por i (n+ 1) . É fácil verificar que o vigésimo quinto percentil, por exemplo, é o
100
primeiro quartil.
Com base nas separatrizes, é possível construir duas representações que fazem parte tam-
bém da chamada análise exploratória de dados, que são: o esquema de cinco números e o diagrama
de caixa ou box-plot.
3.2.6 Gráficos que utilizam medidas

Os dois gráficos a seguir, o esquema de cinco números e o box-plot, utilizam medidas esta-
tísticas para fazer sumarizações.
• Esquema de cinco números: consiste em apresentar os valores extremos (Xmin e Xmax);
os quartis (Q1 e Q3), que representam o primeiro quartil, Q1, e o terceiro quartil, Q3; e a
mediana, conforme figura a seguir:
Figura 2 – Esquema de cinco números
Med
Q1 Q3
Xmin Xmáx
• Box-plot: constitui-se de uma caixa ou um retângulo cujo valor superior é o terceiro quar-
til e o valor inferior é o primeiro quartil. Um traço no meio da caixa representa a mediana
e os pontos extremos são mostrados fora da caixa. Define-se como outlier valores que
estejam fora do intervalo [Q1 – 1,5 (Q3 – Q1); Q3 + 1,5 (Q3 – Q1)].
Figura 3 – Diagrama de caixa ou box-plot

Box-plot
Outlier
(fora da distância do Q3 + 1,5 vezes Q3 menos Q1)
* Observação máxima
(para uma distância de 1,5 vezes Q3 menos Q2)
Q3 – Terceiro quartil
Q2 – Segundo quartil (Mediana)
Q1 – Primeiro quartil
Observação mínima
(para uma distância de 1,5 vezes Q3 menos Q1)
Este capítulo apresentou as principais medidas de posição e os gráficos relacionados a

elas. Esses procedimentos são úteis para que o analista possa compreender melhor o compor-
tamento dos dados que julga representar algum fenômeno sociológico que possa ser descrito
numericamente.
Atividades
Os dados a seguir referem-se ao número de roubos realizados no estado de Santa Catarina
no ano de 2017.
Número de roubos no estado de Santa Catarina – 2017
Região Município Número Taxa População do município

Grande Florianópolis Florianópolis 2.769 569,94 485.838
São José 1.911 797,20 239.718
Palhoça 721 437,20 164.926
Outros Municípios 367 132,60 276.780
Total 6.608 566,10 1.167.262
Região sul Tubarão 215 205,83 104.457
Criciúma 399 188,77 211.369
Outros Municípios 1.068 157,05 679.775
Total 1.682 168,90 995.601
Região norte Joinville 1.980 343,11 577.077
Jaraguá do Sul 105 61,46 170.835
Total 2.310 168,90 1.367.410
(Continua)
Número de roubos no estado de Santa Catarina – 2017
Região Município Número Taxa População do município

Região Vale do Itajaí Blumenau 569 163,27 348.513
Itajaí 954 448,70 212.615
Outros Municípios 2.362 197,10 1.198.453
Total 3.885 220,80 1.759.581
Região do Planalto Lages 275 173,49 158.508
Total 481 114,10 421.413
Região oeste Chapecó 524 245,69 213.279
Outros Municípios 833 77,37 1.076.613
Total 1.357 105,20 1.289.892
Total do estado 16.503 235,72 7.001.159
Fonte: Santa Catarina, 2018.
1. Por que as médias de cada região não são iguais à sua taxa total? Justifique.
2. Faça um esquema de cinco números dos dados apresentados, relativo ao número de roubos
para 10.000 habitantes nos municípios catarinenses.
3. Construa um box-plot para os dados de roubos, verificando a existência de outliers.

4
Medidas estatísticas de dispersão
Garfield explica por que a soma dos desvios em

relação à média aritmética é sempre igual a zero:
“Se eu chutar o Odie para lá... e depois para lá
– no sentido contrário –... é como se eu não tivesse chutado”.
Jim Davis (1945 -)1
As medidas de dispersão são úteis para que se possa verificar a homogeneidade ou hete-
rogeneidade das medidas de um grupo. Grupos mais homogêneos têm medidas de variabilidade
menores do que os mais heterogêneos, enquanto os absolutamente homogêneos têm medidas de
variabilidade iguais a zero.
Estes dois aspectos – variabilidade zero implica em medida de dispersão igual a zero, e me-
nor variabilidade implica em medida de dispersão menor – são a base da construção das medidas
de dispersão, como veremos a seguir.
O estudo da variabilidade é, com certeza, um dos aspectos mais importantes de todo o corpo
teórico da estatística, seja na compreensão de um fenômeno com base na análise exploratória de
dados ou em estudos inferenciais.
Na comparação entre dois conjuntos de dados, podemos ter situações em que, apesar de as
medidas de tendência central serem muito próximas, elas podem representar comportamentos
muito diversos, devido à sua variabilidade ou dispersão. Para ilustrar o que estamos dizendo, observe
os três conjuntos a seguir, resultado de uma simulação estritamente numérica.
Sejam os conjuntos A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}, observe que, se procurarmos
analisar o fenômeno que produziu esses números por meio de suas medidas de tendência central,
obteríamos como resultado que os três conjuntos têm a mesma média, igual a 2; a mesma
mediana, também igual a 2; e que, ainda, o número 2 é moda para os três conjuntos. Dessa forma,
poderíamos ser levados a crer que eles representam exatamente a mesma situação, todavia isso
não ocorre. A simples observação dos dados nos mostra que os conjuntos representam situações
muito diferentes.
O conjunto A representa uma situação de absoluta homogeneidade, não havendo qualquer
variação entre os valores medidos em três diferentes indivíduos; o conjunto B apresenta pequenas
variações; e o conjunto C tem uma variação ainda maior. Sendo assim, é necessária a construção
de medidas que possam auxiliar o analista a compreender melhor o comportamento dos dados e,
assim, entender melhor o fenômeno que os produziu.
1 Cartunista americano.
A forma mais comum de se verificar o quanto os dados variam é observar o quanto eles se
dispersam em torno de algum valor central, comumente a média. Mas é possível também utilizar
os valores extremos.
As principais medidas de variabilidade são: (i) a amplitude total; (ii) a variância; (iii) o
desvio-padrão; e (iv) o coeficiente de variação.
4.1 A amplitude total

A amplitude total de um conjunto de dados é determinada pela diferença entre o maior valor
da amostra e seu menor valor. Se Xmax é o maior valor e Xmin é o menor valor, podemos definir a
amplitude total (At) como:
At = Xmax – Xmin
É possível determinar para o conjunto de funcionários da empresa ABC a dispersão das

idades e dos salários da seguinte maneira:
Quadro 1 – Relação dos funcionários da empresa ABC de acordo com sexo, idade e salário
1 A. L. Ferraz 49 1.714,00
2 R. Abreu 48 1.701,00
3 R. S. Reis 64 1.589,00
4 N. Farias 37 1.418,00
5 J. L. Jansen 42 1.000,00
6 U. S. Machado 40 3.732,00
7 F. Nogueira 21 1.330,00
8 M. Pinheiro 33 1.307,00
9 M. A. da Silva 39 1.282,00
10 P. A. B. Costa 42 1.260,00
11 H. F. Minho 39 975,00
12 N. M. de Lima 32 1.256,00
13 C. F. Loureiro 22 1.185,00
14 M. E. M. Ferreira 21 3.535,00
15 J. A. Isaias 37 2.956,00
16 J. Martins 24 1.179,00
17 A. P. Ribeiro 28 966,00
18 L. C. Batista 32 3.204,00
19 A. F. dos Santos 31 881,00
20 C. A. Brandão 38 3.080,00
21 D. J. Feltrin 23 2.872,00
(Continua)
Medidas estatísticas de dispersão 47
22 L. S. Prestes 22 826,00
23 J. L. Campos 46 1.010,00
24 S. I. Magalhães 34 708,00
25 P. R. Gonçalves 47 2.960,00
26 M. I. Machado 42 2.797,00
27 M. Paraná 32 1.001,00
28 U. V. Guimarães 29 2.315,00
29 E. M. Moreira 41 5.572,00
30 A. P. de Andrade 30 2.372,00
31 L. R. de Souza 51 4.829,00
32 R. T. Moraes 23 1.826,00
33 J. Pilloto 20 540,00
34 F. C. Lopes 27 489,00
35 C. A. Meier 33 479,00
36 H. O. Silveira 22 1.904,00
37 K. D. Almeida 41 659,00
38 M. J. D. Colares 34 1.827,00
39 R. F. L. Silvério 24 472,00
40 M. N. Messias 20 640,00
O funcionário mais velho da empresa é o senhor R. S. Reis, que tem 64 anos, e os mais novos
são os jovens J. Piloto e M. N. Messias, com 20 anos. Assim, Xmax = 64 e Xmin = 20. A amplitude
total será:
At = Xmax – Xmin = 64 – 20 = 44 anos
A amplitude total dos salários será a diferença entre Xmax = 5.572 e Xmin = 472, corres-
pondente aos salários dos funcionários E. M. Moreira e R. F. L. Silvério.
At = Xmax – Xmin = 5.572 – 472 = 5.100 ou R$ 5.100,00
4.2 A variância
Se utilizarmos os desvios de um conjunto de dados em relação a um valor central desse con-
junto, é razoável pensarmos em determinar a distância de cada dado quanto ao valor médio – o que
pode ser feito por meio de (X – X) – e depois somarmos essas distâncias.
A ideia de fazer essa soma é interessante, porque permite que todos os dados sejam
considerados ou, de outra forma, que a distância de todos os dados da média componha a medida
de dispersão, mas esbarra em uma restrição importante, que é uma das características da média:
a soma dos desvios em relação à média de um conjunto de dados é sempre igual a zero.
Vamos verificar essa propriedade utilizando novamente três conjuntos simples de dados:
A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}. A média de cada um desses conjuntos é igual a 2.
Assim, para o conjunto A, a soma dos desvios em relação à média produzirá:
(X – X ) = {(2 – 2) + (2 – 2) + (2 – 2)} = 0 + 0 + 0 = 0
Para o conjunto B:
(X – X) = {(1 – 2) + (2 – 2) + (3 – 2)} = (–1) + 0 + 1 = 0
E para o conjunto C:
(X – X) = {(0 – 2) + (2 – 2) + (4 – 2)} = (–2) + 0 + 2 = 0
Essa propriedade vale para qualquer conjunto de dados. Então, para contornarmos esse pro-
blema, mantendo a ideia de somar desvios em relação à média, teremos de encontrar uma forma
de que essa soma seja sempre positiva. Duas alternativas apresentam-se: (i) a soma dos desvios em
módulo; e (ii) a soma dos quadrados dos desvios.
Se tomarmos a média da soma dos desvios em módulo (de seus valores absolutos), defini-
remos uma medida de dispersão conhecida como desvio médio, que, embora resolva o problema
apresentado, não é muito usual. De qualquer forma, sua expressão pode ser dada por:
Desvio médio = |x – X |
n
Essa medida é a média da somatória dos desvios em relação à média aritmética, isto
é, tomamos as distâncias de cada ponto até a média. Consideramos as distâncias sem levar em
consideração os sinais, por isso usamos o módulo. Somamos todos os desvios em valor absoluto
(em módulo) e depois dividimos por “n”, o que resulta na média das distâncias ou desvios em
relação à média aritmética, por isso essa medida é denominada desvio médio.
Os desvios médios dos conjuntos citados serão iguais a 0 para o conjunto A, 2 para o
conjunto B e 4 para o C. Esses resultados obedecem aos critérios estabelecidos para uma medida
de dispersão, ou seja, conjuntos sem variabilidade (todos os valores são iguais) têm medida de
dispersão igual a zero, como é o caso do conjunto A, e conjuntos mais heterogêneos têm maior
medida de variabilidade. O conjunto C tem medida de variabilidade maior do que B, que, por sua
vez, tem medida maior do que A.
A outra maneira de contornar o problema da soma dos desvios em relação à média ser igual
a zero é elevar o valor dos desvios ou distâncias ao quadrado. Dessa forma, podemos encontrar a
variância, definida como a média da soma dos quadrados dos desvios quanto à média. Aqui vale
a pena destacar uma diferença quando se tratam de dados provenientes de uma população ou de
uma amostra: a média dos dados da população é denotada por μ, enquanto a média dos dados
de uma amostra é X.
Assim, a variância mede a variabilidade média dos quadrados dos desvios dos valores em
torno da média e pode ser representada por VAR(X) ou σ2.
Vamos utilizar o quadrado porque, como vimos, a média tem sempre a propriedade de a
soma dos desvios em torno dela ser igual a zero, ou seja, Σ(X – μ) = 0. Dessa forma, a variância
populacional pode ser definida como:
2
= VAR (X) = (X – )2
N
Na expressão anterior, N é o tamanho da população ou o número de valores populacionais

considerados. Quando tratamos de amostra, em vez de população, como no caso acima, N é subs-
tituído por (n – 1), sendo “n” o tamanho da amostra. A justificativa de utilizarmos n – 1, e não N,
nesse caso será apresentada no capítulo referente à estimação, quando tratarmos de distribuições
amostrais. Aqui, substituímos σ2 por S2 e, assim, para o caso de amostra, teremos:
(X – X )2
S2 = VAR (X) =
n–1
Uma forma alternativa de determinar o valor da variância, derivada da expressão anterior,

é dada por:
S2 = VAR (X) = X2 – nX 2
n–1
Utilizando essa fórmula, podemos calcular a variância das idades por meio do procedimento
a seguir, em que identificamos a média e a subtraímos dos valores de X:
Tabela 1 – Variância das idades dos funcionários da empresa ABC
Número de ordem Idade (X) X– X (X – X )2 X2
1 49 15 225 2.401
2 48 14 196 2.304
3 64 30 900 4.096
4 37 3 9 1.369
5 42 8 64 1.764
6 40 6 36 1.600
7 21 -13 169 441
8 33 -1 1 1.089
9 39 5 25 1.521
10 42 8 64 1.764
11 39 5 25 1.521
12 32 -2 4 1.024
13 22 -12 144 484
14 21 -13 169 441
15 37 3 9 1.369
(Continua)
Número de ordem Idade (X) X– X (X – X )2 X2
16 24 -10 100 576
17 28 -6 36 784
18 32 -2 4 1.024
19 31 -3 9 961
20 38 4 16 1.444
21 23 -11 121 529
22 22 -12 144 484
23 46 12 144 2.116
24 34 0 0 1.156
25 47 13 169 2.209
26 42 8 64 1.764
27 32 -2 4 1.024
28 29 -5 25 841
29 41 7 49 1.681
30 30 -4 16 900
31 51 17 289 2.601
32 23 -11 121 529
33 20 -14 196 400
34 27 -7 49 729
35 33 -1 1 1.089
36 22 -12 144 484
37 41 7 49 1.681
38 34 0 0 1.156
39 24 -10 100 576
40 20 -14 196 400
X 1.360 (X – X ) =
2
4.086 50.326
X= X 1.360 34 (X – X)2 4.086 104,7692

= S2 = VAR (X) = =
n 40 n–1 39
Como vimos, uma forma simplificada de calcular a variância de um conjunto de dados

amostrais pode ser realizada por meio da expressão:
X2 – nX 2
S2 = VAR (X) =
n–1
Aplicando a fórmula para o exemplo apresentado, temos:

X2 – nX 2 50.326 – (40) (342)
S2 = VAR (X) = = = 104,7692
n–1 39
4.2.1 Variância para dados agrupados

Essa variância pode ser determinada pela expressão:
(X – X)2f
S2 = VAR (X) =
n–1
Sendo que: f é a frequência relativa de cada classe, X é o ponto médio de cada classe e X é a
média aritmética dos dados.
Tomando como exemplo a distribuição de frequências das idades dos funcionários da
empresa ABC, temos:
Tabela 2 – Frequências das idades dos funcionários da empresa ABC
Idade f X Xf X– X (X – X)22 (X – X)2f
[20,30) 14 25 350 -10,25 105,0625 1.470,875
[30,40) 14 35 490 -0,25 0,0625 0,875
[40,50) 10 45 450 9,75 95,0625 950,625
[50,60) 1 55 55 19,75 390,0625 390,0625
[60,70) 1 65 65 29,75 885,0625 885,0625
Total 40 Xf = 1.410 (X – X ) f = 3.697,50
Xf 1.410 (X – X )2f 3.697,5

X= = = 35,25 S2 = = = 94,8077
n 40 n–1 39
Nesse caso, é importante observar algumas suposições realizadas. O ponto médio da

primeira classe, por exemplo, representa as idades dos 14 funcionários que têm entre 20 e 30 anos,
não inclusos os de 30 anos. Estamos, portanto, considerando que todos os 14 funcionários têm 25
anos. Dessa forma, ganha-se em síntese e perdem-se detalhes – com isso, pode haver uma pequena
distorção nos valores da média e da variância. A variância para os dados brutos foi de 104,7692,
enquanto para os dados organizados em distribuição de frequências esse valor foi calculado em
94,80769. Houve essa distorção principalmente em razão do valor extremo da idade, mas, ainda
assim, os resultados foram bastante razoáveis. Nessa situação, a consideração em relação aos
outliers passa a ter um papel importante, o que não acontece para grandes amostras, nas quais tal
distorção praticamente desaparece.
Ocorre que, no geral, o cientista social só tem acesso a dados já agregados em classes e
raramente aos dados brutos, como nos casos das grandes pesquisas nacionais, como o Censo
e a Pesquisa Nacional de Amostras Domiciliares (PNAD). Nesses casos, as pequenas distor-
ções são inevitáveis.
4.3 Desvio-padrão
Como a unidade da variância (S2) é sempre ao quadrado, a forma de representar uma me-
dida de dispersão na mesma unidade dos dados é calculando a raiz quadrada da variância. Essa
medida é chamada de desvio-padrão, sendo uma das mais importantes da estatística.
A expressão do desvio-padrão é a raiz quadrada da variância, conforme se observa na

seguinte expressão:
X2 – n X 2
S = D.P. (X). =
n–1
No exemplo supracitado, o desvio-padrão para os dados brutos será igual a:

S = 104,7692 =10,2357
Já para os dados organizados em distribuição de frequências, o valor do desvio-padrão
sofrerá uma pequena distorção:
S = 94,8077 = 9,7369
A média tem um significado físico muito claro. Além de estar na mesma unidade das medidas,
ela representa o centro de gravidade dos dados, que pode se alterar com pequenas mudanças nos
valores extremos da série de dados. Já a interpretação física do desvio-padrão não é tão clara,
embora também esteja na mesma unidade dos dados.
4.4 Coeficiente de variação

Mesmo o desvio-padrão estando na mesma unidade dos dados, ele não consegue revelar
a dimensionalidade dessas informações. Um mesmo valor de desvio-padrão pode ser grande ou
pequeno, dependendo da dimensionalidade. Vamos ilustrar esse fato comparando a variabilidade
entre três conjuntos de dados e explorar um pouco a intuição.
Suponha que desejamos verificar qual entre três conjuntos de dados é o mais homogêneo e
qual é o mais heterogêneo. Tomaremos os conjuntos A = {1, 2, 3}, B = {11, 12, 13} e C = {111, 112,
113} e tentaremos identificar a heterogeneidade de cada um deles de maneira intuitiva.
Imagine que essas sejam medidas de distância entre dois pontos, que serão repetidas três
vezes para cada um dos aparelhos de medir distância A, B e C. Então, o aparelho A faz uma medida
que tem como resultado o valor 1 m, repete-se a medida e o valor observado agora é 2 m e, final-
mente, repete-se pela terceira vez a medida e o resultado é 3 m. A pergunta é: será que o aparelho
está bem calibrado? A resposta natural é: não. O aparelho erra muito, alterando os resultados a
cada vez que faz a medida.
Repetindo a experiência com o aparelho B, observamos que ele também erra. Em três repe-
tições, o aparelho aponta para 11, 12 e 13 m. Mas o erro é menor do que o cometido anteriormente.
Por fim, fazemos o mesmo com o aparelho C e verificamos que o erro agora é bem pequeno em
relação aos outros dois aparelhos, mas ainda ocorre. Isso indica que a variabilidade do conjunto A
é maior do que a do conjunto B, que, por sua vez, é maior do que a do conjunto C. Logo, o conjunto
A é mais heterogêneo do que o conjunto B, que é mais heterogêneo do que o conjunto C.
Vamos verificar se o desvio-padrão é capaz de identificar essas diferenças. Usaremos a expres-
são do desvio-padrão amostral, que é calculado como a raiz quadrada da variância amostral, ou seja,
o denominador será igual a n – 1. Observando que n = 3 para cada uma das amostras, temos:
(X – X)2
S=
n–1
Calculando o desvio-padrão da amostra A, que tem média igual a 2, teremos:
(1 – 2)2 + (2 – 2)2 + (3 – 2)2 12 + 02 12 2
SA = = = = 1 =1
2 2 2
Repetindo o procedimento para a amostra B, que tem média igual a 12, obtemos:
(11 – 12)2 + (12 – 12)2 + (13 – 12)2

SA = =1
2
O mesmo para a amostra C, que tem média igual a 112:
(111 – 112)2 + (112 – 112)2 + (113 – 112)2
SA = =1
2
Pudemos perceber que, embora as amostras tenham homogeneidades diferentes, o valor
do desvio-padrão de cada uma delas é igual a 1. Ou seja, se as amostras têm médias diferentes, o
desvio-padrão não é adequado para realizar tal comparação, porque o seu cálculo não é sensível
à dimensionalidade dos dados, que diz respeito aos valores de cada um deles. O número 1 tem
dimensionalidade zero, que corresponde à unidade (100); o número 10 tem dimensionalidade um,
que corresponde à dezena (101); e o 100 tem dimensionalidade dois, que corresponde à centena (102).
Precisamos, então, encontrar uma forma de padronizar os valores dos desvios-padrões, cal-
culados de modo a considerar a dimensionalidade dos dados. Podemos fazer isso igualando a
média a 100, a fim de produzir valores percentuais, e calculando a medida correspondente de
dispersão. Isso pode ser feito por meio de uma regra de três simples, e a nova medida será definida
como coeficiente de variação (C.V.):
X – 100
S – C.V.
Dessa forma, o coeficiente de variação será dado pela seguinte fórmula:
C.V. = S . 100%
X
Observe que esse coeficiente é uma medida cuja unidade é o percentual. Isso significa que
ele passa também a ter uma interpretação física.
Vamos determinar o valor dos coeficientes de variação para cada um dos conjuntos de
dados anteriores:
C.VA = S x 100 = (1/2). 100 = 50%

XA
S
C.VB = x 100 = (1/12). 100 = 8,33%
XB
S
C.Vc = x 100 = (1/112). 100 = 0,9%
Xc
Esses resultados confirmam a nossa intuição de que o conjunto A é o mais homogêneo e o

conjunto C é o mais heterogêneo.
Em resumo, o desvio-padrão tem várias utilidades em estatística, e uma delas é comparar
a variabilidade entre dois conjuntos que têm a mesma média. Ele é a raiz quadrada da variância.
Como não tem um significado físico mais bem definido, o seu valor será grande ou pequeno, de-
pendendo da dimensionalidade dos dados.
Um mesmo valor para o desvio-padrão pode ser mínimo ou imenso, dependendo da di-
mensão dos dados de que estamos tratando. Existe, no entanto, uma possibilidade de compara-
ção da variabilidade entre dois conjuntos, padronizando o valor do desvio-padrão pelo valor da
média do conjunto de dados. Essa nova medida é chamada de coeficiente de variação.
Essas são as principais medidas de dispersão utilizadas na comparação de dados prove-
nientes de fenômenos sociais, desde que eles possam ser quantificados.
Atividades
1. Os dados a seguir referem-se ao peso, em gramas, de 44 bebês recém-nascidos, no período
de 24 horas, em um hospital de Brisbane, na Austrália. Determine a média do peso dos bebês
e verifique se eles podem ser considerados uma amostra homogênea.
3.837 3.380 3.430 3.428
3.334 3.294 3.480 4.162
3.554 2.576 3.116 3.630
3.838 3.208 3.428 3.406
3.625 3.521 3.783 3.402
2.208 3.746 3.345 3.500
1.745 3.523 3.034 3.736
2.846 2.902 2.184 3.370
3.166 2.635 3.300 3.692
3.520 3.920 2.383 2.121
3.150 3.866 3.542 3.278
2. Explique a relação entre média, desvio-padrão e coeficiente de variação.
3. Um outlier pode influenciar fortemente uma medida de variação como influencia a média
aritmética. Que procedimento deve ser utilizado em uma análise de dados sociológicos que
apresentam mais de um outlier?
5
Técnicas de amostragem
Não ponha fé no que as estatísticas dizem até que

você tenha considerado cuidadosamente o que elas não dizem.
William W. Watt (1860-1947)1
5.1 Sociologia e amostragem

Os levantamentos estatísticos em ciências humanas são realizados para buscarmos evidências
sobre certo fenômeno social. Além de caracterizar um grupo, pode interessar ao pesquisador fazer
interpretações sociológicas das respostas obtidas em um inquérito ou sondagem, relacionando o
que foi respondido com as características do grupo social pesquisado.
De outra forma, podemos afirmar que, apesar de as respostas obtidas em uma pesquisa
refletirem atitudes, valores e opiniões dos pesquisados, elas poderão ser insuficientes do ponto de
vista sociológico. A interpretação dos dados obtidos exige que nos preocupemos em fazer associa-
ções entre as respostas dadas e o grupo que as forneceu.
Os levantamentos sociológicos podem ser realizados por meio da pesquisa de todo o universo
ou população de interesse. Nesse caso, estamos nos referindo a levantamentos censitários ou censos.
Se o procedimento é realizado com base em uma parte do universo, chamado de amostra,
o levantamento é conhecido como amostragem. A amostra resultante de tal levantamento deve
representar toda a população para que possamos fazer afirmações a respeito dela. Para essa re-
presentatividade, uma agenda metodológica deve ser cumprida: em primeiro lugar, por meio da
construção de um plano amostral em que possamos determinar o tamanho da amostra e o tipo
de amostragem a ser realizado, e, depois, por meio de um levantamento de campo realizado com
cuidado e critério.
Proteger o plano amostral de possíveis vícios é um procedimento necessário para a realiza-
ção de uma boa pesquisa, o qual é chamado de controle interno. Conferir ao trabalho de campo
rigor metodológico determina-se controle externo.
5.1.1 Definições preliminares

Um levantamento amostral, ou por meio de amostragem, é uma pesquisa realizada em parte
de uma população, com o objetivo de se calcular medidas na amostra que sirvam de estimativas
dessas medidas na população como um todo. A proporção de mulheres na amostra, por exemplo,
serve como uma estimativa da proporção de mulheres na população. Além da proporção, outras
1 Geólogo britânico.
medidas muito comuns realizadas na amostra como estimadores de parâmetros populacionais são
a média e o desvio-padrão.
Mais formalmente podemos conceituar população e amostra conforme apresentado nos pró-
ximos tópicos.
5.2 População
Definimos população como um conjunto de pessoas, animais, objetos ou coisas que têm
uma característica em comum e que sejam objeto de investigação. Alguns exemplos são:
• População de pessoas que habitam uma cidade.
• População de eleitores de uma cidade. Nesse caso, são consideradas somente as pessoas
cadastradas no Tribunal Regional Eleitoral (TRE) das zonas eleitorais do município em
questão. Não importa se a pessoa de fato reside na cidade ou não. Muitos eleitores das
capitais moram na Região Metropolitana.
• População de empregados de uma empresa, ou de um setor dela.
• População de cachorros de rua de uma cidade.
• População de refrigeradores produzidos por uma indústria no ano Y.
• População das carteiras de uma escola.
As medidas observadas em uma população são chamadas de parâmetros e, em geral, são
apresentadas em caracteres maiúsculos ou por letras gregas.
Tamanho da população: N.
Média da população: (letra grega mi).
Desvio-padrão da população: σ (letra grega sigma).
Um levantamento realizado com todos os elementos de uma população é chamado de censo.

Os primeiros censos de que se têm notícia foram realizados na China; mais tarde, ficaram famosos
os censos do Império Romano, cujo objetivo era conhecer o tamanho de seu domínio. Um desses
censos foi realizado no ano do nascimento de Jesus Cristo, e os cristãos acreditam que foi utilizado
justamente para identificar a figura de uma criança que mais tarde se tornaria o filho de Deus.
Os censos populacionais são realizados em todo o mundo, de dez em dez anos, por reco-
mendação da Organização das Nações Unidas (ONU). No Brasil, o primeiro censo feito segundo
padrões internacionais foi organizado pelo estatístico italiano Giorgio Mortara, em 1940, que tam-
bém foi o fundador do Instituto Brasileiro de Geografia e Estatística (IBGE). Atualmente, o IBGE
é considerado um dos maiores e mais competentes institutos do mundo, trabalhando com técnicas
estatísticas complexas e sofisticadas2.
2 Os censos brasileiros mais recentes podem ser consultados no site do IBGE, disponível em: https://www.ibge.gov.br/
nossos-sites.html. Acesso em: 26 nov. 2018.
Técnicas de amostragem 57
5.3 Amostra
Define-se Amostra como um subconjunto de uma população com o objetivo de representá-la.
As medidas realizadas em uma amostra são conhecidas como estatísticas. Como elas pretendem esti-
mar o valor da mesma medida na população, os seus valores calculados são chamados de estimativa.
A expressão utilizada para calcular a medida é o que se conhece como estimador.
Por exemplo, a proporção de mulheres em uma população é um parâmetro. A proporção
de mulheres na amostra é um estimador desse parâmetro. O seu valor, por exemplo 52%, é uma
estimativa do valor do parâmetro. Amostras diferentes podem resultar em valores diferentes para
os estimadores. Espera-se, no entanto, que, apesar de possíveis diferenças, os valores não estejam
muito distantes do verdadeiro valor do parâmetro. Na prática, somente uma amostra é realizada.
A média da amostra é um estimador da média da população, mas ele não é o único possível.
A mediana da amostra, por exemplo, também pode ser um estimador, mas ocorre que a média da
amostra é um estimador da média da população que tem certas propriedades que a tornam um
estimador melhor do que a mediana amostral.
As medidas realizadas na amostra são representadas por letras minúsculas ou em caracteres
especiais. Quando são um estimador, também podem ser representadas pela mesma letra do pa-
râmetro que desejamos estimar, com acréscimo de um acento circunflexo, chamado de “chapéu”.
Tamanho da amostra: n.
Média da amostra: X, ^ (mi chapéu).
^
Desvio-padrão da amostra: S, s, (sigma chapéu).
Exemplo
Em uma eleição para a prefeitura de uma cidade, há dois candidatos:
o candidato A e o candidato B. O primeiro parece ter a preferência dos
eleitores, mas, durante a campanha, o segundo pode eventualmente
melhorar seu desempenho. Um instituto é contratado por um jornal
da cidade para realizar uma pesquisa de opinião pública a fim de
avaliar a aceitação dos candidatos e verificar quais são os principais
anseios da população.
A pesquisa deve ser conduzida por meio de um processo de amostragem,
uma vez que, se fosse feita com toda a população, equivaleria a realizar a
própria eleição. O levantamento abrangendo toda a população é conhecido
como censo, seja o feito pelo IBGE para a contagem e caracterização da
população de uma cidade, de um estado ou do país, seja o realizado com
uma população específica de pessoas ou mesmo de objetos. A palavra
censo diz respeito, portanto, a qualquer levantamento que abranja uma
coleção completa de pessoas, animais ou objetos; o censo agropecuário,
por exemplo, estima a produção agrícola e pecuária de uma região ou de

um país.
Para realizar tal pesquisa, o instituto elabora um plano amostral e um
questionário para o levantamento. Faz parte do planejamento a determi-
nação do tipo de sorteio que será realizado, o tamanho da amostra e a
estratégia de campo a ser seguida.
A determinação do tamanho da amostra depende fundamentalmente
de três fatores: a precisão ou margem de erro, o nível de confiança e
a heterogeneidade da população. Os dois primeiros são determinados
pelo pesquisador e uma medida de heterogeneidade deverá ser estimada.
É usual em pesquisas eleitorais trabalhar-se com uma margem de erro de
mais ou menos 3% e com um nível de confiança de 95%, que correspon-
de a um erro amostral, ou erro estatístico, de 5%.
Margem de erro e erro estatístico são duas medidas de natureza distinta.
Nesse caso, a margem de erro é uma percentagem, e o nível de confiança
e o erro estatístico são medidas de incerteza, de probabilidade.
Assim, se um candidato tiver 60% das intenções de voto na pesquisa
amostral, nas condições impostas por ela, podemos dizer que temos
95% de confiança de que na eleição, que abrange todos os eleitores, a sua
proporção de votos estará dentro de um intervalo de 60% mais ou menos
3%, ou seja, o candidato terá entre 57% e 63% das intenções de voto
caso a eleição tenha ocorrido no mesmo dia em que a pesquisa eleitoral
foi realizada. Embora a expressão margem de erro seja de uso comum,
academicamente ela corresponde ao chamado desvio, mas em ambos
os casos equivale a um dado nível de imprecisão. Dessa forma, quanto
menor o desvio estabelecido, maior será a imprecisão.
O nível de confiança diz respeito à probabilidade de que a amostra
sorteada seja representativa da população, considerando que
nenhum processo de amostragem garante com 100% de confiança
essa representatividade. Um nível de confiança de 95% implica em
uma probabilidade de apenas 5% de que a amostra não represente a
população. O nível de confiança e o erro de amostragem são, portanto,
probabilidades complementares, ou seja, a sua soma é sempre igual a
100%. Se a pesquisa for realizada com um erro amostral de 1%, o nível
de confiança será então de 99%.
Partindo do resultado do levantamento amostral, uma declaração será
feita com base no desvio (ou margem de erro) e no nível de confiança
(complementar ao erro estatístico). Essa declaração pode ser escrita
em termos matemáticos, por meio de um intervalo de confiança. Para

uma intenção de votos de 60% com margem de erro de 3% e nível de
confiança de 95%, podemos escrever:
Pr(57% < P < 63%) = 0,95
Pr(60% – 3% < P < 60% + 3%) = 1 – 0,05
De maneira genérica, o intervalo de confiança para uma proporção é
dado pela seguinte expressão:
Pr (p – d < P < p + d) = 1 –
Nesse caso, Pr significa probabilidade, P (maiúsculo) é a proporção de
votos do candidato A na população, p (minúsculo) é a proporção de votos
do candidato na amostra, d é o desvio e α é o erro amostral. Portanto,
(1 – α)x100% é definido como o nível de confiança.
Rigorosamente, segundo a teoria estatística clássica, uma vez que P é
um parâmetro da população, portanto um valor exato, não se pode falar
em probabilidade de um parâmetro estar dentro de um intervalo. Além
disso, a interpretação de um intervalo de confiança é a de que, se fossem
retiradas 100 amostras, em 95 delas o parâmetro deveria pertencer ao
intervalo. Mas essa simplificação não atrapalha o raciocínio realizado.
5.4 Tipos de amostragem

5.4.1 Quanto à repetição de elementos da amostra
Se estabelecermos que um mesmo elemento da população não pode participar da amostra
mais do que uma vez, dizemos que a amostragem é sem reposição. Caso contrário, isto é, se for
permitido que um elemento participe mais de uma vez na amostra, o processo será com reposição.
Na loteria federal, por exemplo, quando são sorteados seis números de 0 a 9 para formar
uma centena de milhar, o processo de amostragem é com reposição. Sorteia-se de um globo uma
bola que representará a unidade. Esse número é verificado e colocado novamente no globo para o
sorteio do número correspondente à dezena, e assim por diante, até o sorteio da bola da centena de
milhar. Na realidade, o sorteio é feito com seis globos, um para a unidade, outro para a dezena etc.,
o que equivale ao processo descrito acima.
No sorteio da Mega Sena, por outro lado, a amostragem é sem reposição, porque são sortea-
das seis bolas de um globo que tem um total de 60 bolas numeradas.
Em um processo sem reposição, a probabilidade de um número ser sorteado de uma po-
pulação de tamanho N é 1 . Em um processo com reposição, a probabilidade de n números
N 1
especiais participarem da amostra é , sendo CN,n a combinação de N elementos tomados n a n.
CN,n
Curiosidades
Se um vendedor de bilhetes da loteria federal tiver somente duas opções
de bilhetes para a venda, a cobra 333 333 ou o cachorro 234 320, qual
deles tem maior probabilidade de ser o bilhete vencedor? Qual deles
você compraria?
A tendência imediata de qualquer apostador seria dizer intuitivamente
que o segundo bilhete tem maior chance de ocorrer, porque é muito difícil
sortear o mesmo número seis vezes. No entanto, como em muitos outros
casos, a intuição da probabilidade é enganosa. A chance de ocorrer 3 ou
0 no sorteio da unidade é idêntica e igual a 1/10. Da mesma forma, a
chance de ocorrer 3 ou 2 no sorteio da dezena também é idêntica e igual
a 1/10. Os sorteios são com reposição e independentes. A chance final
dos dois bilhetes serem vencedores é idêntica e igual a (1/10)6, porque
é resultado da multiplicação da fração (1/10) por ela mesma seis vezes,
ou uma chance em 1 milhão. De fato, uma probabilidade bem pequena.
1
A probabilidade de se ganhar na Mega Sena é de , que é igual a 1
C60,6
em 50.063.860, porque C60,6 é o número de possibilidades de se combi-
nar 60 valores em grupos de seis, ou seja, uma chance em 50 milhões,
uma probabilidade bem menor do que a da loteria federal. E se alguém
jogar dois bilhetes na Mega Sena? A probabilidade então será de 2 em 50
milhões, ou uma chance em 25 milhões. Ainda assim será muito difícil
de ganhar. Então seria melhor jogar em sete números? Sem dúvida, mas
a probabilidade de acertar seis números é de uma chance em 7.151.980,
aproximadamente uma em 7 milhões, exatamente sete vezes maior do
que jogar somente em seis números. Por isso, se o bilhete de aposta com
seis números custa R$ 3,50, um com sete números custa R$ 24,50, preci-
samente sete vezes mais.
5.4.2 Quanto à representatividade

Para efeito de inferência, isto é, se o propósito é o de estimar valores de parâmetros da
população, somente amostras probabilísticas conseguem ser úteis. Ou seja, só é possível fazer
inferências para a população por meio de observações da amostra se os elementos forem escolhidos
mediante algum processo de sorteio.
Em um processo de amostragem probabilístico, pode-se calcular o valor da probabilidade de
um elemento da população participar da amostra.
Amostragens não probabilísticas servem para se fazer sondagens sem propósitos infe-
renciais. Nesses casos, os procedimentos que envolvem comparações estatísticas que impliquem
em cálculos científicos não são válidos.
5.4.2.1 Processos de amostragem não probabilísticos

• Amostragem por cotas
O procedimento de amostragem por cotas consiste em buscar repetir na amostra a pro-
porção de elementos de cada estrato da população. O que diferencia a amostragem por
cotas da amostragem estratificada proporcional é que, no primeiro caso, os elementos da
amostra não são selecionados por meio de sorteio. Em ambos os casos, se a proporção de
mulheres, por exemplo, na população for de 60%, a percentagem de mulheres na amostra
deverá ser também de 60%.
Alguns institutos de pesquisa utilizam o levantamento por cotas com entrevistas na
rua, em que o pesquisador de campo escolhe as pessoas até que cada uma das cotas seja
completada. A escolha dos elementos da amostra pode ser influenciada pelo pesquisador
de campo, o que torna o levantamento frágil para que se possa fazer previsões para a
população da qual derivou a amostra. Pessoas andando rápido ou mais concentradas
acabam não sendo abordadas pelo agente de campo, apesar de poderem representar uma
parcela importante de opinião, dependendo do objeto do estudo. Pesquisas de mercado,
por exemplo, podem ter resultados completamente tendenciosos em razão da escolha
da amostra.
Se a divulgação do resultado de pesquisas eleitorais pudesse de fato influenciar a opinião
de eleitores indecisos, candidatos poderiam forçar esse resultado induzindo que colabora-
dores de sua campanha participassem várias vezes de uma pesquisa de rua. Não há um es-
tudo sistemático no Brasil sobre a influência das pesquisas na opção de voto dos eleitores.
• Amostragem de voluntários
Quando os próprios componentes da população se voluntariam para participar da pes-
quisa, o processo é caracterizado como amostragem de voluntários. Ele é muito comum
quando periódicos, como revistas ou jornais, querem saber a opinião de seus leitores so-
bre o conteúdo da publicação e também ocorre com frequência quando se deseja conhe-
cer o que pensam usuários de certos serviços, como restaurantes.
Muitas revistas anexam encartes a determinados números, para que o leitor opine sobre a
qualidade da publicação ou de certas seções específicas. Ocorre, em geral, que a maioria
das pessoas que responde ao questionário o faz porque não está satisfeita com a publica-
ção ou ao menos com parte dela. Ainda assim essa sondagem pode ser útil para os edito-
res da revista, porque terão uma ideia do que podem melhorar, mas não há como se fazer
estimativas acerca do que a maioria dos leitores pensa da publicação. O mesmo ocorre em
restaurantes ou em conferências, quando os comensais ou os participantes são instados a
responderem questionários.
• Amostragem intencional
Nesse tipo de amostragem, o pesquisador busca na população uma parte que lhe in-
teressa. Os participantes da amostra são escolhidos por terem alguma característica
que seja objeto de pesquisa. Como não é um processo probabilístico, ele não serve
para propósitos inferenciais.
Uma pesquisa sobre qualidade de atendimento de serviços de saúde municipais, por
exemplo, pode ser realizada em dois ou três postos de saúde, nos quais sejam escolhidos
alguns pacientes para participarem da amostra. No entanto, os resultados obtidos dessa
forma não podem ser estendidos para toda a rede de saúde municipal.
• Amostragem a esmo
A palavra aleatória tem como origem alea do latim “sorte”– muito conhecida pela expres-
são “alea jacta est”, “a sorte está lançada”, de Júlio César ao cruzar o Rubicão, a 250 km de
Roma). No contexto da estatística, a palavra está relacionada ao processo de escolha por
sorteio. Muitas vezes, o vocábulo aleatória ou a expressão ao acaso são utilizados para
uma escolha sem nenhum critério. Essa forma de escolha é denominada amostragem a
esmo. Nesse processo, como os elementos da população que irão participar da amostra
não são escolhidos de acordo com um critério bem definido, esse tipo de amostragem
não serve para se tirar conclusões sobre a população com base nos elementos da amostra.
5.4.2.2 Processos de amostragem probabilísticos

As amostragens que têm valor científico são aquelas em que se consegue determinar a
probabilidade de um elemento da população participar da amostra. Não necessariamente
todos os elementos devem ter a mesma chance de participação, como no caso da amos-
tragem estratificada proporcional, conforme será visto logo a seguir.
As principais técnicas de amostragem probabilística são: amostragem aleatória simples,
estratificada proporcional, sistemática, por conglomerados e em dois estágios. Para a rea-
lização desses processos, utilizamos uma tabela de números aleatórios.
5.4.3 Tabela de números aleatórios

Um modo de se sortear elementos de uma população de tamanho N é numerá-los de 1 a N
e escolher uma forma de sorteio, como colocar bolas numeradas em uma urna e retirar o número
de bolas equivalentes ao tamanho da amostra.
Outra forma de simular tal situação é utilizando uma tabela de números aleatórios, com
algarismos gerados por um computador. Ela pode ser gerada em programas simples, como o
Microsoft Excel, e é util quando não se tem um computador ou uma máquina de calcular científica
em mãos. A tabela a seguir, gerada por um programa, serve para a apresentação dos processos de
amostragem probabilísticos.
Tabela 1 – Números aleatórios
1 2 3 4 5 6 7 8 9
1 5 7 5 1 8 1 9 6 1
2 2 6 6 5 9 1 2 4 5
3 4 5 3 6 1 7 4 7 9
4 7 2 8 3 2 3 9 7 4
5 5 6 9 6 0 5 5 4 6
6 0 6 8 7 3 7 1 2 1
7 6 9 2 0 3 1 7 2 8
8 4 1 5 6 3 6 0 1 5
9 7 2 4 7 1 3 8 3 1
10 7 5 1 1 7 3 1 3 6
11 1 7 0 3 5 7 8 3 5
12 4 6 2 8 3 1 4 5 6
13 5 5 6 6 5 2 4 8 8
14 5 2 4 4 6 2 3 6 5
15 5 6 8 8 7 4 7 8 6
16 4 4 6 0 6 8 4 4 2
17 8 2 1 0 5 6 9 6 2
18 9 9 5 9 4 3 7 9 8
19 8 2 9 4 3 5 4 5 3
20 9 7 8 8 6 4 9 2 2
21 2 3 2 7 4 9 0 6 7
22 4 6 5 8 2 8 8 1 4
23 3 0 1 8 1 1 7 5 9
24 3 8 1 6 4 4 5 2 3
25 1 3 8 3 4 7 7 7 7
26 5 1 0 0 3 8 6 6 3
27 3 0 1 4 4 5 1 2 6
28 3 5 8 7 7 5 3 7 6
29 1 3 3 5 1 7 6 8 1
30 9 6 4 9 5 2 3 1 9

A tabela apresentada é composta de 30 linhas e 9 colunas. Se queremos sortear um número

de um indivíduo de uma população com 80 elementos numerados de 1 a 80, primeiramente deve-
mos escolher uma linha e uma coluna para início do processo. Vamos selecionar uma data qual-
quer para começar: dia 16 de abril, data de nascimento de Charles Chaplin, do estatístico moldavo
Jerzy Neyman e do cardeal Ratzinger (Papa Bento XVI). Ao observarmos a tabela, verificamos na
linha 16 e coluna 4 que o dígito sorteado foi 0. Mas, como precisamos de um número com dois
dígitos, tomaremos 0 e o seu vizinho imediatamente à direita para compor o número sorteado.
Dessa forma, o número sorteado foi 06. Como a população está numerada de 1 a 80, selecionamos
o elemento de número 6 e verificamos o valor da variável de interesse correspondente a ele. Se for
a idade, por exemplo, identificamos qual é a idade do elemento 6.
5.5 Principais técnicas de amostragem

5.5.1 Amostra aleatória simples
Esse processo de amostragem é o mais simples, como o nome já demonstra. Nele, todos os
elementos da população têm a mesma probabilidade de participar da amostra. Como exemplo, se a
população tem 80 elementos, a probabilidade de um elemento da população participar da amostra
é de 1/80.
Se desejarmos tomar uma amostra maior e o processo for com reposição, essa probabilidade
permanece 1/80 para cada etapa do sorteio. Se for sem reposição, na segunda etapa a probabilidade é
de 1/79, a seguinte 1/78, e assim por diante. Nesse caso, embora as chances variem de acordo com o
sorteio, todos os elementos da população têm a mesma probabilidade de participar da amostra, quando
se considera o processo como um todo.
Se quisermos sortear uma amostra de tamanho 10, teremos que selecionar 10 elementos
da população numerada de 1 a 80. Utilizando a mesma entrada, linha 16 e coluna 4, já tínhamos
verificado que o primeiro elemento a participar da amostra era o de número 06. Estabelecendo
o critério de selecionar os números a seguir para baixo na tabela, o próximo número sorteado é
o 05. O número seguinte é o 94, que é maior do que 80 e, portanto, não serve. Não há ninguém
da população com esse número. Selecionamos, então, o próximo, que é o número 43, e assim por
diante, até completar os 10 números: 74, 64, 34, 03, 44 e 51, quando termina a tabela. Mas, como
ainda nos falta um número, retomamos o processo da linha 1 nas colunas 5 e 6 e encontramos os
números 81, 91 e 17. Os dois primeiros não servem, então o último número sorteado é o 17. Dessa
forma, completamos o processo e os números sorteados foram: 06, 05, 43, 74, 64, 34, 03, 44, 51 e 17.
Se o sorteio for sem reposição, precisamos verificar se há números repetidos. Caso não haja,
como é o caso, o processo está completo. Essa determinação deve ser realizada antes de se iniciar o
sorteio. No geral, os processos de amostragem são sem reposição e, sendo assim, todos os elemen-
tos sorteados devem ser diferentes.
Determinados os números dos elementos da amostra, precisamos verificar o valor das va-
riáveis ou dos atributos associados a cada um dos elementos sorteados. Se estivéssemos sorteando
elementos para a verificação de intenção de votos, poderíamos estar interessados em, além da
determinação de qual candidato seria escolhido em virtude de cada elemento, saber ainda a idade,
o sexo, o grau de instrução e a escolaridade dos eleitores, por exemplo.
5.5.2 Amostra estratificada proporcional

Se a população pode ser dividida em estratos que constituem-se em diferenças de caracterís-
ticas que podem afetar o resultado da pesquisa, a proporção que cada estrato tem na composição
da população deve ser repetida na amostra. A diferença desse processo para o de amostragem por
cotas é que, nesse segundo caso, não há sorteio.
Na amostragem estratificada proporcional, a divisão em estratos deve ter um intuito que
faça sentido, ou seja, só fazemos a estratificação se esperamos respostas diferentes para os diferen-
tes estratos. Se, por exemplo, o objetivo é fazer uma pesquisa sobre a inteligência de um grupo, que
será mensurada por meio da medida do quociente de inteligência (QI) – supondo que essa possa
ser uma boa medida, apesar das críticas que recebe – não parece razoável dividir a população em
estratos por sexo, pois não há nenhuma comprovação científica de que as mulheres sejam mais
inteligentes do que os homens, ou vice-versa.
Por outro lado, se desejamos fazer um estudo antropométrico de uma população por meio
da medida da altura média dela, parece bastante razoável dividi-la em estratos de acordo com o
sexo. Vejamos, nesse caso, a justificativa para esse procedimento com base em uma simulação.
Suponha que somente 20% da população em questão seja de mulheres. Como é sabido, os homens
são, de uma forma geral, mais altos do que as mulheres, e, se fizermos um sorteio por meio de uma
amostra aleatória simples, poderemos correr o risco de termos na amostra 40% de mulheres ou
mais, o que nos levaria a subestimar a altura média daquela população.
Suponha que tal pesquisa seja realizada em uma população com 60 pessoas e que uma amos-
tra de tamanho 10 deva ser coletada de uma população com 12 mulheres e 48 homens.
Primeiramente, verifica-se a proporção de homens e mulheres na população. A proporção
de mulheres (pm) é dada por:
Nm
pm =
N
Nm é o número de mulheres e N o total da população. Assim:
pm = 12 .100 = 20%
60
Se a amostra é de tamanho 10, então o número de mulheres na amostra será dado por:
20
nm = n x pm = 10 x 20% = 10. =2
100
Então, o número de homens será 8, representando 80% da amostra. Em uma tabela, teríamos:
Tabela 2 – População e amostra de homens e mulheres
Sexo População Amostra

Homens Nh nh
Mulheres Nm nm
Total N n
Para uma população com essa composição, o número de mulheres na amostra é determi-
nado por:
Nm
nm = ·n
N
E o número de homens por:
Nh
nh = ·n
N
Exemplo
Deseja-se fazer uma estimativa do salário médio dos empregados de
uma empresa por meio de uma amostra de tamanho 10, em um sorteio
sem reposição, utilizando a tabela de números aleatórios a partir da li-
nha 29 e coluna 3, correspondente a 29 de março, dia do aniversário da
cidade de Curitiba, no estado do Paraná.
A tabela a seguir mostra a divisão dos funcionários de acordo com os
seus setores na empresa:
Tabela 3 – Número de funcionários de uma empresa por setor
Setor Empregados
Técnico 20
Administrativo 60
Operacional 120
Total 200
Supondo que o valor dos salários dos técnicos seja maior do que o do
pessoal administrativo, que por sua vez é maior do que o dos emprega-
dos do setor de operações, faz sentido realizar uma amostragem estrati-
ficada proporcional.
O primeiro passo é determinar o número de funcionários de cada setor
que irá compor a amostra de tamanho 10, respeitadas as proporções de
cada setor na população. Então:
Tabela 4 – População e amostra de funcionários de uma empresa por setor
Setor População Amostra

Técnico 20 (20/200)x10 = 1
Administrativo 60 (60/200)x10 = 3
Operacional 120 (120/200)x10 = 6
Total 200 10
Determinado o tamanho de cada estrato na amostra, procede-se o

sorteio. Antes, porém, é necessário numerar os empregados de 1 até 200.
Em seguida, pode-se atribuir aos empregados do setor técnico a numeração
de 1 a 20; para os do setor administrativo, de 21 a 80; e, para os do setor
operacional, de 81 a 200.
Tabela 5 – Indivíduos sorteados por setor de ocupação
Setor Amostra Números sorteados

Técnico [1,20] 1 015
Administrativo [21,80] 3 031,068,056
Operacional [81,200] 6 181,173,174,138,117,176
Total 10
Sorteados os números dos empregados, deve-se verificar qual é o salário

de cada um deles e depois calcular a média salarial da amostra, que será o
valor que estimará a média salarial de todos os empregados da empresa.
5.5.3 Amostra sistemática

Quando os dados da população já se encontram organizados em alguma forma de arquivo,
a amostra sistemática é a mais recomendada.
Suponha que desejamos fazer uma revisão tipográfica em um livro de 400 páginas por meio
de uma amostra de tamanho 10. O processo consiste em determinar, em primeiro lugar, o valor da
fração amostral, que é dada por:
N
f=
n
No exemplo, a fração amostral é igual a 400 = 40.

10
O segundo passo é sortear o primeiro elemento da amostra por meio da tabela de números
aleatórios. O segundo elemento será determinado pela soma do primeiro número com a fração
amostral. O terceiro será o segundo mais a fração amostral, e assim por diante, até completar o
tamanho da amostra.
Se determinarmos a entrada pela linha 1, coluna 1, primeiro dia do ano, encontraremos
como primeiro valor sorteado o número 57, que corresponde à página 57. A segunda página será
57 + 40 = 97. A terceira, 137, e, na sequência, as páginas 177, 217, 257, 297, 337, 377. A seguinte
seria a página 417, mas que supera o número de páginas do livro. Subtraímos, então, 400 de 417
e a página sorteada será a de número 17. A próxima seria a página 57, mas já foi sorteada, então
o processo se completa com a determinação da décima página, que é a de número 17. As páginas
que serão verificadas são, dessa forma, as de número: 17, 57, 97, 137, 177, 217, 257, 297, 337 e 377.
Esse é um processo circular, portanto não importa onde seja o início. A amostra sistemática
é um caso particular de uma amostra estratificada proporcional, em que cada estrato corresponde
a um conjunto de 40 páginas e de onde se sorteia um elemento.
É o processo utilizado pelo IBGE durante os censos decenais para determinação de quem
responderá o questionário completo com uma fração amostral igual a 10. Seleciona-se uma casa
para fazer o questionário completo e, a cada dez casas, ele é repassado para a família que o respon-
derá. Esse processo é também utilizado para a realização de pesquisas eleitorais. Sorteia-se uma
quadra, determina-se a primeira residência em que uma pessoa será entrevistada (no geral, a que
atende à visita ou a de aniversário mais próximo, desde que seja eleitor no município), salta-se o
número de casas correspondentes à fração amostral e a nova entrevista será feita na casa determi-
nada por esse processo.
5.5.4 Amostra por conglomerados

Na amostragem por conglomerados, divide-se a área a ser pesquisada em setores bem
definidos, sorteia-se uma certa quantidade deles por meio de uma amostra aleatória simples e
pesquisam-se todos os elementos da população desses setores.
Quanto mais os elementos dentro do setor forem “parecidos” com a população como um todo,
melhor será o resultado obtido. Isto é, se a variância interna dentro do setor for alta, a variabilidade
total será menor. Exatamente o oposto do que ocorre com a amostra estratificada proporcional, na
qual as variâncias dentro de cada estrato devem ser pequenas.
Amostragens por conglomerados são bastante utilizadas em pesquisas de campo que en-
volvem a opinião de moradores de uma cidade. Os setores podem ser as zonas eleitorais em uma
pesquisa de intenção de votos ou os setores censitários do IBGE, que são áreas bem definidas com
cerca de 300 domicílios que são visitados para determinar o censo demográfico.
A principal vantagem de uma amostra por conglomerados é a facilidade de execução do
trabalho de campo, que pode implicar em uma economia bastante grande de recursos empregados
para a realização da pesquisa.
5.5.5 Amostragem em dois estágios

Quando os elementos de um setor têm grande homogeneidade, a eficiência da amostra-
gem por conglomerados pode ficar comprometida. Uma forma de contornar esse problema é
com a realização de sorteio entre os elementos de cada setor já sorteado na amostragem por
conglomerados. No geral, ambos os sorteios são realizados por meio de uma amostra aleatória
simples, ou o primeiro usando esse processo e o segundo uma amostra sistemática.
O procedimento de amostragem em dois estágios, ou em duplo estágio, consiste em:
• organização da população em setores (conglomerados);
• sorteio de alguns conglomerados por meio de uma amostra aleatória simples;
• dentro de cada setor, sorteio dos elementos que participarão da amostra por meio de um
processo de amostragem aleatória simples ou amostragem sistemática.
Os processos de amostragem apresentados neste capítulo abrangem os utilizados vastamen-

te em pesquisas sociológicas. É muito importante que o processo escolhido seja o mais adequado
para cada objetivo de pesquisa. Além de proporcionar maior confiabilidade nos resultados, a es-
colha do método adequado trará a vantagem da economicidade, uma vez que proporcionará um
menor tamanho de amostra.
Atividades
1. Qual é a diferença entre um processo de amostragem por cotas e um processo de amostra-
gem estratificada proporcional? Justifique.
2. Uma amostragem aleatória simples não pode ser confundida com uma amostragem a esmo.
Quais são as diferenças e as semelhanças entre os dois processos?
3. Na realização dos censos decenais há um processo de amostragem realizado com uma parte
da população. Qual é a forma de amostragem utilizada na determinação de quem participa
da amostra?
6
Tamanho de uma amostra
A morte de uma pessoa é uma tragédia;

a de milhões é uma estatística.
Joseph Stalin (1879-1953)1
A realização de uma pesquisa por amostragem exige do pesquisador um amplo e detalhado

planejamento, envolvendo ao menos três etapas: a escolha do tipo de amostragem, a determinação
do tamanho da amostra e a elaboração da estratégia de campo. Uma das tarefas mais complexas
em um processo de pesquisa é a determinação do tamanho da amostra, que requer um trabalho
bastante criterioso.
Uma falsa ideia deve ser abandonada: a de que se pode determinar o tamanho da amostra
por meio de uma determinação percentual em relação ao tamanho da população – por exemplo,
tomar uma amostra de 5% ou 10% como representativa dela. Dependendo do tamanho da popula-
ção e da técnica de amostragem utilizada, uma amostra de 0,1% pode ser representativa e uma de
20% pode não ser. Uma última consideração deverá ser feita com relação ao tamanho da amostra
no que diz respeito ao da população: para populações pequenas, há de se fazer uma correção na
determinação do tamanho da amostra, chamada de correção para populações finitas.
A quantidade de recursos financeiros disponíveis para a realização do levantamento amostral
é um fator importante na determinação do tamanho da amostra e que pode, inclusive, inviabilizar
o trabalho de pesquisa.
A margem de erro, o nível de confiança e a variabilidade da população são os três fatores
técnicos considerados no cálculo do tamanho da amostra.
6.1 A “margem de erro”

O que é chamado de margem de erro ou erro máximo da estimativa é, na verdade, a dife-
rença máxima provável entre a medida do estimador observado na amostra e o verdadeiro valor
do parâmetro da população. Trata-se, portanto, do desvio entre o valor calculado na amostra e o
real valor do parâmetro da população.
Em uma pesquisa eleitoral na qual um candidato tenha 60% das intenções de voto, com mais
ou menos 3%, esses 3% correspondem ao desvio com base no valor central que a pesquisa se pro-
pôs a admitir. Ou seja, o candidato deverá ter entre 57% e 63% na pesquisa com toda a população,
isto é, no processo eleitoral. Esse desvio é conhecido coloquialmente como “margem de erro”.
1 Líder soviético, dirigindo-se a Churchill, em Potsdam, 1945.

Reforçando: a “margem de erro”, ou desvio, tem natureza absolutamente diferente do cha-

mado erro estatístico. Enquanto o desvio é uma percentagem, ou uma medida na unidade em que
se está observando os valores (cm, anos, m2 etc.), o erro estatístico é uma medida de probabilidade.
No exemplo da pesquisa eleitoral na qual o candidato tem 60% das intenções de voto, temos
95% de confiança (erro estatístico de 5%) de que ele terá entre 57% e 63% dos votos se a eleição for
realizada no mesmo dia da pesquisa. Qualquer resultado dentro desse intervalo pode acontecer;
é preciso que se compreenda isso para não cometer erros de interpretação dos resultados.
Suponha, no exemplo apresentado, que temos somente dois candidatos e que a estimativa
da proporção de votos válidos de um deles seja de 48% e, portanto, a do outro seja de 52%. Será que
realmente o primeiro candidato está à frente do segundo? A resposta tem que ser um definitivo
não. De fato, o que a pesquisa amostral informa é que a proporção de votos do primeiro candidato
na população, salvo o erro amostral, estará dentro do intervalo [45%, 51%] e que a do segundo
estará entre [49%, 55%]. Assim, qualquer resultado dentro desses intervalos é admissível, por
exemplo: 51% para o segundo e 49% para o primeiro candidato – assim, embora aparentemente
o primeiro estivesse à frente, ele poderia perder a eleição. Esse fato é conhecido como empate
técnico ou empate estatístico. Convém ao primeiro candidato fazer a leitura correta da pesquisa.
Mas será que ele não está ao menos um pouquinho à frente do segundo? Com base no resultado
da pesquisa, pode-se afirmar categoricamente que não necessariamente.
Uma pesquisa que antecedeu uma eleição para prefeito de uma capital trouxe como resulta-
do as seguintes intenções de voto, com um nível de confiança de 95%:
Candidato A – 67%
Candidato B – 15%
Candidato C – 11%
Candidato D – 7%
O instituto que realizou a pesquisa afirmou que entrevistou 405 eleitores em um dia e que a
“margem de erro” foi de mais ou menos 5%. O que se pode concluir da pesquisa?
Em primeiro lugar, que o candidato A seria virtualmente eleito no primeiro turno com,
no mínimo, 62% dos votos. E mais, não há como saber qual dos outros três candidatos teria
mais votos se a eleição fosse realizada naquele dia. O candidato B, por exemplo, poderia ter
10% dos votos (15% – 5%), e o candidato D receber 12% dos votos (7% + 5%) e estar à frente do
candidato B. Essa é a leitura correta do resultado da pesquisa de intenções de voto realizada,
não há outra leitura possível.
Esse resultado pode ser útil para informar que, no momento, o candidato A seria eleito no
primeiro turno. Mais próximo da eleição, essa margem de erro deve ser diminuída, resultando em
aumento do tamanho da amostra.
Tamanho de uma amostra 73
Outro fato a ser considerado é que, em situações nas quais a percentagem dos candidatos
está mais próxima, uma pesquisa com essa margem de erro pode não ser informativa. Com uma
margem de erro de 5%, para mais ou para menos, um candidato com 55% dos votos pode perder
para um candidato com 45% dos votos, por exemplo. Quanto maior for a precisão desejada, maior
deve ser o tamanho da amostra, o que equivale a dizer que, quanto menor for a margem de erro,
maior será o tamanho da amostra. Para uma pesquisa com margem de erro zero, a amostra deve ser
tão grande quanto a população e, sendo assim, só é possível para levantamentos por censo.
Não adianta selecionar uma amostra pequena que não consiga ser sensível para observar
pequenas diferenças. Por outro lado, se essa escolha implicar em uma amostra muito grande e não
houver recursos para a realização da pesquisa, ela pode ser inviabilizada.
A determinação da margem de erro é feita antes da realização da pesquisa, a fim de calcular
o tamanho da amostra. A margem de erro é escolhida pelo pesquisador e será do tamanho neces-
sário para que possa discriminar as medidas que serão realizadas.
Dizer que um candidato terá 60% dos votos mais ou menos 30% de precisão significa
que ele pode ter entre 30% e 90% dos votos. Esse resultado realmente não interessa, porque não
é informativo.
Matematicamente, pode-se dizer que o desvio é inversamente proporcional ao tamanho da
amostra, lembrando, no entanto, que essa não é uma relação linear. Se d é o desvio e n é o tamanho
da amostra, temos a relação:
d n
6.2 O nível de confiança

O erro estatístico é a probabilidade de se sortear uma amostra que não seja representativa
da população. É importante salientar que, toda vez que se faz um sorteio, existe o risco de que a
amostra não represente a população.
Para ilustrar essa ideia, suponha uma população de tamanho quatro, composta pelos ele-
mentos A, B, C e D, colocados em ordem crescente de medida. Imagine que esses quatro elementos
são pessoas, sendo A a mais nova e D a mais velha.
Quantas amostras de dois elementos são possíveis de serem sorteadas? Esse número pode
ser calculado por meio da determinação da combinação de quatro elementos, dois a dois: C4,2 = 6.
Dessa forma, as possíveis combinações são:
AB, AC, AD, BC, BD, CD
Qual é a probabilidade de cada uma delas ser sorteada? É de 1 em 6, ou 1/6. As amostras
derivadas das combinações AB e CD parecem não representar bem a população: a primeira
subestimaria a média de idade e a segunda a superestimaria. As melhores combinações seriam,

possivelmente, AD e BC, mas AC e BD também poderiam trazer resultados bastante razoáveis.
Então, qual seria a probabilidade de se tomar uma amostra “ruim”, que não representa a
população? Seria de 2/6, correspondente às amostras AB e CD. Essa probabilidade é de 1/3 = 0,33.
Assim, o nível de confiança associado a essa amostragem é de 67% (100-33), e o erro estatístico é
de 0,33.
Um erro estatístico de 33% é muito alto, usamos apenas uma simulação para ilustrar o seu
significado. Com uma população tão pequena, não faz sentido um procedimento de amostragem.
O erro estatístico está relacionado com o escore “z” da tabela da distribuição normal padrão,
que, por sua vez, relaciona-se ao cálculo de probabilidades, o qual não é objeto de estudo deste
capítulo. Quanto menor for o erro, maior será “z” e, consequentemente, maior será o tamanho
da amostra. Se o erro estatístico for designado por “ ”, o nível de confiança será (1 – )x 100%.
Maior confiança implica em maior tamanho da amostra. Matematicamente, podemos estabelecer
a seguinte relação:
(1 – ) z n
Qual valor deve ser determinado para o erro estatístico? Isso depende da gravidade de se
cometer tal erro. Em uma pesquisa de verificação da qualidade de componentes de avião em uma
fábrica, pode-se fazer uma inspeção nas mesinhas de lanche do avião com um erro estatístico mais
dilatado do que o de um componente de vedação da janela. Nesse último caso, o erro deve ser igual
a zero e, portanto, a inspeção precisa ser realizada em todas as unidades, então a amostra deverá
ser do tamanho da população.
Em pesquisas eleitorais, é muito comum se trabalhar com um erro de 5%, ou uma probabi-
lidade de 1/20 de que a amostra não seja boa – o que é uma probabilidade muito pequena. Para se
construir uma ideia intuitiva por meio de comparação, a probabilidade de se acertar o número na
face superior de um dado é de 1/6. Imagine, então, em um dado de 20 lados.
Mas, ainda com um erro tão pequeno, pode-se tomar uma amostra ruim ou não repre-
sentativa da população? É possível, mas muito raro. O pesquisador mais experiente percebe nas
primeiras determinações dos resultados da amostragem se a amostra pode ser ruim. Se em uma
pesquisa eleitoral a maioria dos entrevistados for muito jovem, ou se, por exemplo, a amostra
contemplou um número excessivamente grande de homens ou de mulheres – como em torno de
80% –, deve-se desconfiar do processo amostral, haja vista que é sabido que as mulheres equiva-
lem a pouco mais de 50% da população.
6.3 A variabilidade
Esse é um componente importante na determinação do tamanho da amostra. Talvez o mais
simples processo de amostragem seja o de exame de sangue. Tira-se uma pequena amostra do san-
gue e, com base nela, determinações completas sobre o tipo, o fator RH, a saúde da pessoa, entre
outras verificações, podem ser feitas. Isso porque o sangue é uma substância homogênea e uma
simples gota representa todo o volume do sangue do corpo humano.
Por outro lado, populações heterogêneas exigirão maior número de elementos da amostra,
para que ela possa captar as diferenças entre esses componentes da população.
A variabilidade pode ser medida por meio da variância ou do desvio-padrão, raiz quadrada
da variância. Matematicamente, pode-se estabelecer uma relação direta entre o tamanho da
amostra e o desvio-padrão, isto é:
O problema aqui está em determinar um valor estimativo para o desvio-padrão, porque,

uma vez que a pesquisa ainda não foi feita – e precisaremos dessa medida para o cálculo do ta-
manho da amostra –, enfrentamos um problema circular. Existem algumas soluções: a primeira é
“emprestar” o resultado de uma pesquisa anterior semelhante à que se está realizando; a segunda
é buscar uma estimativa para o desvio-padrão por meio da realização de uma amostra-piloto; e a
terceira é obter essa informação com algum tipo de simulação. Esses dois últimos processos estão
fora do escopo deste texto.
6.4 Determinação do tamanho da amostra

Estabelecidos os principais componentes para a determinação do tamanho da amostra,
podemos construir uma expressão matemática de maneira intuitiva, com base nas relações de
proporcionalidade verificadas.
Vimos que o tamanho da amostra é diretamente proporcional ao nível de confiança – que
está relacionado com o valor “z” da distribuição normal padrão – e ao desvio-padrão ( ) e inver-
samente proporcional ao valor estabelecido pelo desvio (d). Dessa forma, uma possível expressão
para o tamanho da amostra seria:
(z )
n=
d
Mas essa relação não é linear, e é, portanto, necessária uma determinação mais técnica da
expressão para o cálculo do tamanho da amostra.
Para isso, partiremos do intervalo de confiança estabelecido inicialmente:
Pr ( p – d < P < p + d ) = 1 –
Essa expressão é conhecida da inferência estatística, na qual o desvio pode ser expresso como:
z
d=
n
Isolando o valor de n da expressão anterior, teremos:
z 2
n=
d
Essa é a expressão inicial para o cálculo do tamanho da amostra.
Exemplo 1
Pretende-se calcular o tamanho de uma amostra para uma pesquisa elei-
toral na cidade do Rio de Janeiro, com nível de confiança de 95% e desvio
de mais ou menos 5%. Sabe-se, por meio de uma pesquisa anterior, que
a variância ( 2) é de 0,5.
O valor z = 2 refere-se ao escore aproximado da distribuição normal para
a probabilidade de 95%; rigorosamente, esse valor na tabela é de 1,96.
O desvio de mais ou menos 5% pode ser expresso em forma da fração
5/100 = 0,05, e o valor de 2 = 0,5 foi selecionado de uma pesquisa ante-
rior semelhante, conforme o enunciado do problema. Então, z = 2; σ2 =
0,5; e d = 0,05:
n = 2 x 0,5 = 400
2
0,05
A rigor, para exatos 5% de erro estatístico, o valor de z é igual a 1,96,
portanto o tamanho da amostra poderia ser de 385 pessoas e as margens
estabelecidas estariam asseguradas.
Conforme afirmado anteriormente, a relação entre o tamanho da amos-
tra e o erro estatístico, a “margem de erro” e a variabilidade, não é li-
nearmente proporcional. Pode-se verificar essa propriedade por meio
de exemplos em que a “margem de erro” ou o erro estatístico variem nas
diferentes direções.
Exemplo 2
Pretende-se calcular o tamanho da amostra para “margens de erro” de
1%, 2%, 3%, 5% e 10% e erros estatísticos de 1%, 5% e 10%.
Aplicando a expressão para o cálculo do tamanho da amostra para esses
dados, e tendo os valores de z correspondentes a 1%, 5% e 10%, respecti-
vamente 2,58, 1,96 e 1,64, obtemos os seguintes números:
Tabela 1 – Margem de erro e erro estatístico
Erro estatístico
Margem de erro
0,01 0,05 0,1
0,01 16.641 9.604 6.724
0,02 4.160 2.401 1.681
0,03 1.849 1.067 747
0,05 666 384 269
0,1 166 96 67
Observe na tabela o valor encontrado anteriormente, de 384 eleitores,

para “margem de erro” de 5% e nível de confiança de 95%, e compare
com os resultados vizinhos.
6.5 Custo da pesquisa

Supondo que a produção de cada questionário para uma pesquisa eleitoral tenha um custo
de R$ 10,00, sendo já inclusos trabalho de campo, seguros para os pesquisadores, planejamento,
análise dos dados, impressão e impostos, uma pesquisa com ± 5% de desvio e nível de confiança de
95% resultaria em uma amostra de 384 eleitores e custaria em torno de R$ 3.840,00. Em uma situa-
ção mais precisa, mudando somente a “margem de erro” para ± 2% de desvio, o custo da pesquisa
subiria para R$ 24.000,00. Mesmo que se pudesse admitir um erro estatístico de 10%, ou seja, uma
confiança de 90%, o custo da pesquisa para um desvio de ± 2% seria de R$ 16.810,00.
Como visto, o fator custo é extremamente limitante da potencialidade da pesquisa. Mas essa
discussão chama atenção para que a leitura da pesquisa seja feita sempre observando o nível de
confiança e a “margem de erro”, e não somente a estimativa pontual das percentagens.
A pesquisa eleitoral discutida anteriormente, com a margem de erro de 5% e o nível de
confiança de 95%, justifica-se pelo acerto do instituto em verificar que a eleição se resolveria no
primeiro turno, mas, para os demais candidatos, que não o vencedor, candidato A, a pesquisa não
informa com precisão a situação.
Em datas mais próximas da eleição, quando o quadro pode tender a uma aproximação per-
centual dos demais candidatos ao candidato preferido, o instituto deverá modificar sua estratégia,
melhorando a precisão e, consequentemente, o volume da amostra, resultando fatalmente no au-
mento do custo da pesquisa2.
2 Há expressões estatísticas apropriadas que já embutem o custo da pesquisa no próprio cálculo do tamanho da
amostra, mas é uma sofisticação que pode ser contornada com um estudo comparativo como o que foi feito. Há livros
de estatística teórica que apresentam essas circunstâncias para o caso de necessidade de aprofundamento da discussão.
6.6 Correção para populações finitas

As observações realizadas até o momento neste livro não consideram o tamanho da popu-
lação, uma vez que esses cálculos não mudam substancialmente quando as populações são muito
grandes. Os cálculos realizados para as cidades de Fortaleza ou São Paulo, por exemplo, indicarão
que não haverá mudança significativa no cálculo do tamanho das amostras. Para efeito de cálculos
estatísticos, essas populações são consideradas infinitas.
A estratégia de campo deve ser modificada dependendo do tipo de amostragem a ser rea-
lizada, e o tamanho da amostra pode mudar um pouco. Para populações finitas, é necessário que
se proceda uma correção, chamada de correção para populações finitas. A expressão do desvio é
modificada, então, para:
d= z · N–n
n N–1
Este último fator, N – n , é a correção para a população finita. Utilizando essa fórmula,
N–1
podemos isolar o valor de n, obtendo a seguinte expressão:
[N . 2 . z2]
n=
[(N – 1) . d2 + 2 . z2]
Outra forma de encontrar o valor de n é empregar a expressão original n’ e depois corrigi-la,
multiplicando o valor obtido pela correção para população finita:
z. 2
n’ =
d
(N – n)
n = n’ ·
(N – 1)
Foram apresentadas neste capítulo as principais técnicas básicas de amostragem. Elas são
bastante úteis, tanto para a leitura e análise de resultados de pesquisas quantitativas quanto para
sua elaboração. São, portanto, ferramentas essenciais para o trabalho do sociólogo, uma vez que a
cada dia são mais frequentes as pesquisas por amostragem em substituição às que abrangem toda
a população.
Atividades
1. A figura a seguir ilustra o percentual da população que deve ser abrangido para que uma amostra
seja representativa da população estudada. A curva A não tem correção para a população
finita, a curva B tem essa correção e a C representa uma percentagem fixa da população (10%).
Com base na figura, que tipo de relação entre a amostra e a população pode ser estabelecida?
5.000 C
Tamanho da amostra
4.000
3.000
A n0
n = f(n0, N)
2.000 B
n = 10%N
1.000
0
0 10.000 20.000 30.000 40.000 50.000
Tamanho da população
2. Justifique a relevância de se considerar o custo da pesquisa na determinação do tamanho da

amostra, considerando “negociações” em relação à margem de erro e ao nível de confiança.
3. Em duas pesquisas eleitorais para prefeito, uma realizada em São Paulo e outra em Campo
Grande, qual deverá ser o tamanho das amostras se desejarmos fazer pesquisas com nível de
confiança de 95% e margem de erro de 3%? Considere que São Paulo tem 9.052.724 eleitores
e Aracaju, no Sergipe, tem 408.312 e utilize o valor 0,25 para a variância.
7
Noções úteis de probabilidades
Um homem, que viaja muito, ficou preocupado

com a hipótese de haver uma bomba a bordo de um avião em que ele se encontrava.
Nos dias que correm, ele viaja sempre com uma bomba na sua mala.
A razão que ele apresenta é que a probabilidade de duas bombas
estarem a bordo seria infinitesimal.
John Allen Paulos (1945-)1
7.1 O papel do acaso

As sociedades atuais são de alta complexidade. Nelas, os seres humanos convivem em uma
composição de inter-relações múltiplas, envolvidos em uma ordem social em processo de recom-
posição permanente. Esse quadro dinâmico mergulhado em incertezas é o objeto de observação do
cientista social. As variáveis sociais são vistas em circunstâncias particulares e nunca estão livres
de uma grande influência de uma categoria bem definida cientificamente chamada de acaso.
Diferentemente do conhecido como caos, outra categoria científica, as manifestações do
acaso são mais facilmente equacionadas, seja pela sua natureza ou pela experiência humana mais
desenvolvida nessa área. Modernamente, há várias teorias organizadas para medir incerteza e,
particularmente, aquela relativa ao acaso vem sendo avaliada pela teoria das probabilidades.
7.2 Teoria das probabilidades

Essa teoria foi desenvolvida para solucionar jogos de azar durante o século XVII, mas
somente no início do século XX – graças ao matemático russo Andrei Nikolaevich Kolmogorov,
que formulou toda a teoria com base em axiomas básicos – ela ganhou status próprio, como um
ramo autônomo da matemática. Nem por isso a sua utilização está livre de polêmicas. Diferentes
escolas propõem diferentes meios de se acessar valores de probabilidades, o que gera certa con-
trovérsia sobre os fundamentos da teoria.
Há ao menos três enfoques conceituais, mas, independentemente das diferentes defini-
ções, todos usam as mesmas regras matemáticas e a probabilidade é uma medida objetiva de
incerteza. Esses enfoques são: o da probabilidade clássica, o da frequência relativa de ocorrências
e o da probabilidade subjetiva, que, apesar do nome, trata a probabilidade como uma medida
objetiva, o que é subjetivo é a forma de sua determinação. Aqui a palavra objetiva significa uma
medida exata que se submete ao corpo axiomático da teoria de Kolmogorov.
1 Matemático americano que ensina a matemática como uma forma de pensamento, um molde rigoroso, mas criativo,
para o exame do mundo.
Há uma gama de ricas discussões acerca do significado de “ler” os fenômenos sociais mergu-
lhados em um ambiente de incerteza e as implicações de mudanças do paradigma determinístico e
reducionista para um outro menos confortável metodologicamente, que entende que as proprieda-
des de um sistema não podem ser explicadas apenas pela soma de seus componentes. Esse pensa-
mento holístico (todo) institui a importância do conjunto (síntese) sobre os detalhes (análise) para
uma compreensão da realidade social.
Antes de reducionista, o uso de observações mensuráveis numericamente corrobora com
essa nova tendência. Como para a termodinâmica, na sociologia não é propriamente o individual
que interessa, mas sim o coletivo. Não é o certo, mas o probabilístico.
O conteúdo abordado neste capítulo introduz o ferramental metodológico que servirá de
base para a construção de modelos que busquem compreender aspectos de um dado fenômeno
sociológico. A apresentação das noções básicas de probabilidade expõe aqui, então, o papel central
de preparar a discussão sobre a utilização das técnicas estatísticas da indução, isto é, a inferência
estatística. No entanto, como a noção intuitiva de probabilidade falha na maior parte das vezes,
apreender a forma de seu cálculo pode, em outras circunstâncias, colaborar para leituras mais ade-
quadas da realidade quando considerada a componente aleatória em complemento à componente
determinística de todo fenômeno social.
Em outras palavras, o paradigma determinístico é aquele em que os sistemas são reduzidos às
suas partes para, com base na análise e compreensão de cada uma delas, somá-las a fim de entender
o todo. Busca-se, portanto, um outro paradigma, que é menos confortável metodologicamente e
admite trabalhar em ambientes de incerteza, com o intuito de compreender o todo (o conjunto dos
indivíduos) em detrimento do trabalho com os detalhes, ou seja, com cada indivíduo. Esse para-
digma é chamado de holístico, porque busca trabalhar com o todo e com as inter-relações entre as
variáveis que o definem.
O conjunto representa a síntese, que é o estudo do comportamento em torno de valores
centrais, como a média, que é o centro de gravidade dos dados, além da dispersão dos dados (a
variância), relacionada à imprecisão e à incerteza. A estatística pode ser um instrumento para uma
concepção, diferente do estudo dos fenômenos. Não interessa o comportamento de um só indiví-
duo, analisado em profundidade (e, portanto, em detalhes), como em um estudo de caso.
Se tentarmos compreender a realidade social por meio do estudo de indivíduos, e não do
conjunto de indivíduos e suas relações, verificadas com base em medidas de inúmeras variáveis,
voltamos ao paradigma determinístico. Temos, então, que admitir a incerteza, e a medida da incer-
teza pode ser acessada com a teoria das probabilidades.
7.3 Conceitos fundamentais

A seguir, abordaremos uma série de definições básicas que ajudarão na construção de
toda a teoria de probabilidades necessária para a solução dos problemas apresentados nos
demais capítulos.
Noções úteis de probabilidades 83
7.3.1 Experimento aleatório

No experimento aleatório, não se sabe de antemão que resultado ocorrerá, mas se sabe que
resultados podem ocorrer e, dessa forma, pode-se determinar a probabilidade associada a cada um
deles. Por exemplo, no lance de um dado honesto, sabe-se que os resultados possíveis são 1, 2, 3, 4,
5 ou 6 na face superior, o que significa que cada resultado tem probabilidade de 1/6.
Como determinaríamos a probabilidade de sair um número par? Por meio da teoria clássica
de probabilidades verificamos que há seis resultados possíveis. A probabilidade de sair um número
par é determinada pela razão entre o número de casos favoráveis e o número de casos possíveis, ou
seja, três casos favoráveis sobre seis casos possíveis – sendo assim, essa probabilidade é de 3/6 ou ½.
Podemos calcular a probabilidade de sair um número par lançando um dado mil vezes,
por exemplo, verificando, então, quantas vezes saiu um número par e dividindo esse valor por
1.000. Esse método é chamado de probabilidade frequentista.
Podemos também acessar o valor da probabilidade intuitivamente, por meio da conhecida
como probabilidade subjetiva. O resultado “sair um número par” no lance de um dado é equiva-
lente a “sair cara” no lance de uma moeda e, portanto, pela vivência da pessoa, ela pode concluir
que essa probabilidade seja de ½.
7.3.2 Evento
Cada um dos resultados possíveis de um experimento aleatório é chamado de evento.
O evento “sair cara” no lance de uma moeda é conhecido como evento simples, porque estamos
interessados em um resultado singular do experimento aleatório. O evento “sair um número
par” no lance de um dado chama-se evento composto, porque o resultado está associado a três
possíveis eventos simples.
Aos eventos, no geral, associamos elementos de um conjunto, e a notação utilizada será a da
conhecida como teoria dos conjuntos, que estabelece denotar o conjunto com letras maiúsculas e,
quando necessário, os elementos dele com letras minúsculas. Então, se o evento sair um número
par, pode ser representado pelo conjunto A = {2, 4, 6}.
Também podemos pensar, no caso da moeda, que o resultado do lance pode ser 1, se houver
sucesso e sair uma cara, e 0, se sair uma coroa. Assim, se X é o resultado do lance de uma moeda,
X = 1 representa cara e X = 0 representa coroa.
7.3.3 Espaço amostral

O espaço amostral pode ser definido, de maneira simples, como o conjunto de todos os resul-
tados possíveis de um experimento aleatório, ou, de outra forma, como o conjunto de todos os
eventos simples desse experimento. No geral, o espaço amostral é denominado por S (space, em
inglês) ou pela letra grega Ω (ômega).
No lance de um dado, o espaço amostral será o conjunto S = {1, 2, 3, 4, 5, 6}. No lance de
uma moeda, o espaço amostral será S = {C, K}, em que C representa cara e K, coroa. Em muitos
livros traduzidos do inglês encontramos o espaço amostral para esse experimento aleatório como
S = {H, T}. Aqui, H representa cara e T, coroa, porque o jogo cara ou coroa, em inglês, é chamado
de head or tail, cabeça ou rabo.
Observe que o espaço amostral é o conjunto de todos os elementos ou o conjunto universo
da teoria de conjuntos.
7.3.4 Evento certo e eventos mutuamente exclusivos

Quando não há a possibilidade de ocorrência de outro evento, ele é chamado de evento certo.
O conhecido como evento impossível é aquele que não tem qualquer possibilidade de ocorrência.
No lance de um dado, se um número de 1 a 6 aparecer na face superior, ele é um evento certo. No lance
de dois dados, se a soma das faces superiores for 13, é um evento impossível.
Eventos cujos elementos não podem pertencer a dois conjuntos ao mesmo tempo são cha-
mados de eventos mutuamente exclusivos. No lance de um dado, os eventos par e ímpar são mu-
tuamente exclusivos, porque não há elementos comuns nos dois conjuntos. Por outro lado, se no
evento A sair um número par e no evento B sair um número menor do que 4, então A e B não
são mutuamente exclusivos, porque o evento 2 ocorre em ambos os conjuntos: A = {2, 4, 6} e
B = {1, 2, 3}.
7.3.5 Eventos complementares

Dois eventos são chamados de complementares quando os seus elementos pertencem a eventos
mutuamente exclusivos e a reunião de todos os elementos é igual ao espaço amostral. Por exemplo, no
lance de um dado, o evento A = {1, 2, 3, 4} é complementar ao evento B = {5, 6}. Também, se no evento
sair um número par na face superior no lançamento de um dado, ele é complementar ao evento que sair
um número ímpar. Denotamos o evento complementar de A como A ou Ac.
7.4 Definição de probabilidade

Probabilidade é uma medida de incerteza que pode assumir valores entre 0 e 1. Não existe
probabilidade negativa nem maior do que 1, por isso a probabilidade de sair cara no lance de uma
moeda é igual a ½ ou 0,5, e não 50%, como se costuma dizer coloquialmente. Embora probabili-
dade e percentagem sejam medidas de naturezas diferentes, não é incomum que se utilize o termo
percentagem com o sentido de probabilidade. Quando isso não nos atrapalhar, utilizaremos indis-
tintamente as duas acepções.
A probabilidade de um evento A pode ser definida como o número de elementos favorá-
veis sobre o número de elementos possíveis. O cardinal do conjunto A, denotado por #A, repre-
senta o número de elementos favoráveis do evento A, e o #S, o número de elementos do espaço
amostral. Então:
#A
P (A) =
#S
No evento número par no lance de um dado, A = {2, 4, 6}, cujo número de elementos é dado
por #A = 3 e S = {1, 2, 3, 4, 5, 6}, com #S = 6, então:
#A 1
P (A) = = 3 = = 0,5
#S 6 2
7.4.1 Probabilidade, chance e verossimilhança

Essas três palavras representam fenômenos diferentes, embora sejam muitas vezes utiliza-
das indistintamente.
Dizemos que a chance de se ganhar na Mega Sena é de aproximadamente 1 para 50 milhões
se jogarmos um bilhete com seis unidades. A ideia de chance está relacionada a jogo. É curioso
notar que a teoria de probabilidades, em seus primórdios, era denominada nos meios acadêmicos
como a teoria das chances, somente mais tarde se distinguiu chance de probabilidades, tendo sido
reservada para esta última a primazia de denominar a teoria que se encarrega de medir incerteza.
A palavra verossimilhança, por outro lado, também não tem o mesmo significado de proba-
bilidade. Por exemplo, é bem sabido que em uma noite de inverno, se o frio for intenso e o céu
estiver estrelado, a possibilidade de ocorrência de geada na manhã do dia seguinte é bastante grande.
Devemos dizer que é verossímil, e não que é provável a ocorrência de geada. A palavra verossímil é
muito pouco utilizada coloquialmente em português, por isso falamos em provável ou verossímil
indistintamente2.
7.5 Axiomas e regras de probabilidades

As regras para o uso de probabilidades, muitas vezes apresentadas como teoremas, partem
de um conjunto de princípios que leva em conta a natureza da medida de probabilidade. Esse con-
junto é conhecido como Axiomas de Kolmogorov, em homenagem ao matemático russo que o es-
tabeleceu no início do século XX e morreu, com 84 anos, em um acidente de bicicleta em Moscou,
em 1987.
7.5.1 Axiomas de Kolmogorov

Seja A um evento e S o espaço amostral de um experimento aleatório, o primeiro axioma
estabelece que:
0 ≤ P(A) ≤ 1
2 Na língua inglesa, a palavra correspondente à verossimilhança é likelihood, bastante comum no uso coloquial.
Então, em muitos livros de estatística traduzidos do inglês para o português, o tradutor prefere utilizar probabilidade
nos locais em que aparece likelihood, e isso pode resultar em alguma confusão conceitual. Forçaremos um pouco o
uso correto e distinto de probabilidade e verossimilhança quando for necessário no texto.
A probabilidade é definida, então, como uma medida não negativa e menor do que a unida-
de, ou seja, um número no intervalo de 0 a 1, e não uma percentagem. Ela pode ser apresentada em
forma de fração (4/10), com o numerador sempre menor ou igual ao denominador, ou em forma
decimal (0,4). Não teremos preferência neste livro na maneira de apresentação final das probabi-
lidades calculadas, mas sempre convém fazer as operações por meio de frações, para não haver
acúmulo de erros devido a arredondamentos.
O segundo axioma é expresso pela seguinte expressão:
P (S) = 1
Ele nos informa que a probabilidade do espaço amostral é sempre 1. O espaço amostral pode
ser tomado como o evento composto certo. Por outro lado, o evento complementar a S é o conjunto
vazio, denotado por { } ou ø, cuja probabilidade será igual a zero. Por fim, o terceiro axioma pode
ser compreendido segundo a seguinte sentença:
P(A U B) = P(A) + P(B) – P(A B), se A e B não são eventos mutuamente exclusivos.
O terceiro axioma diz que a probabilidade da união de dois eventos é a soma das pro-
babilidades dos eventos menos a probabilidade de sua interseção. Se A e B são mutuamente
exclusivos, então A B = ø. Para esclarecer essa questão, retomaremos o exemplo de eventos não
mutuamente exclusivos.
No lance de um dado, consideramos os eventos A “sair um número par” e B “sair um nú-
mero menor do que 4”. Então, A = {2, 4, 6} e B = {1, 2, 3}. Podemos perceber que a união dos dois
eventos seria A U B = {1, 2, 3, 4, 6} e que a interseção de A e B seria A B = {2}. Uma vez que:
3 1
P(A) = =
6 2
3 1
P(B) = =
6 2
E que:
#(A B) 1
P(A B) = =
#(S) 6
Então:
1 1 1 5
P(A U B) = + – =
2 2 6 6
É necessário fazer a subtração porque, caso contrário, o elemento {2} entraria duas vezes,
enquanto na união ele só aparece uma vez, apesar de ser elemento dos conjuntos A e B.
Perceba que de fato o cardinal de A U B é #(A U B) = 5 e que, portanto, P(A U B) = 5 ,
ou seja, o conjunto possui agora cinco, e não seis elementos. 6
7.5.2 Regras de probabilidades

Algumas regras úteis derivadas dos axiomas de probabilidades serão apresentadas sem
prova. Em um contexto mais formal, elas poderiam ser dadas como teoremas com as devidas
provas, mas esse não é o interesse neste livro.
7.5.2.1 Eventos complementares

Se A é um evento e A é o seu evento complementar, então P(A) + P(A) = 1 ou, ainda,
P(A) = 1 – P(A).
Um caso particular ocorre para o conjunto vazio, sabidamente complementar ao conjunto
universo: P(ø) = 1 – P(S), então como P(S) = 1, P(ø) = 0.
7.5.2.2 Regra da adição

Se A e B são eventos mutuamente excludentes, isto é, A B = ø, então P(A U B) = P(A) +
P(B), haja vista que P(ø) = 0.
Sejam os eventos A = {2, 4} e B = { 3, 5} e S = {1, 2, 3, 4, 5, 6}, então P(A U B) = P(A) + P(B) =
2/6 +2/6 = 4/6. Perceba que A U B = {2, 3, 4, 5}, cujo cardinal é #(A U B) = 4, correspondente a cada
um dos elementos do conjunto união.
Figura 1 – Espaço amostral: conjuntos A e B
A B
2 5
4 3
6
1 S
7.5.2.3 Regra da diferença

Se A e B são dois conjuntos quaisquer, podemos definir a diferença entre eles, A\B, como
o conjunto de todos os elementos que pertencem a A e que não pertencem a B. Então, P(A\B) =
P(A) – P(A B).
Sejam os eventos A = {2, 4) e B = {2, 3, 5} e S = {1, 2, 3, 4, 5, 6}, então P(A\B) = P(A) –
2 1 1
P(A B) = – = . Perceba que A\B = {4}, cujo cardinal é #(A\B) = 1.
6 6 6
Figura 2 – Espaço amostral: interseção dos conjuntos A e B
A B
5
4 2
6
1 S
7.6 Probabilidades conjunta, marginal,

condicional e independência
7.6.1 Probabilidade conjunta
Em muitas aplicações, estaremos interessados na probabilidade de ocorrência conjunta de
dois ou mais eventos. Para ilustrar esse fenômeno, recorreremos a um exemplo: considere uma
pesquisa de mercado em que dois produtos, A e B, foram apresentados para uma amostra de 1.000
pessoas, sendo 500 homens e 500 mulheres. O resultado das preferências foi sintetizado na tabela
a seguir:
Tabela 1 – Pesquisa de mercado
Prefere Prefere
Sexo Total
Produto A Produto B
Masculino (H) 200 300 500
Feminino (M) 100 400 500
Total 300 700 1.000
O evento quando um homem prefere o produto A é representado por (H e A), e assim por
diante, e a probabilidade associada a esse evento é representada por P(H e A). Assim, temos: pode
P(H e A) = 200/1.000 = 0,2. Com base nessas definições, podemos construir uma tabela de proba-
bilidades conjuntas, conforme segue:
Prefere Prefere
Sexo Total
Produto A Produto B
Masculino (H) 0,2 0,3 0,5
Feminino (M) 0,1 0,4 0,5
Total 0,3 0,7 1,0

7.6.2 Probabilidade marginal

Adicionalmente às probabilidades conjuntas, é possível determinar as probabilidades margi-
nais (também chamadas de incondicionais) quanto ao sexo e à preferência por produto. A probabi-
lidade marginal, no exemplo anterior, de que um indivíduo escolhido aleatoriamente seja homem é
P(H) = 0,5, e a probabilidade de que o produto A seja escolhido é de P(A) = 0,3.
Observe que a probabilidade de que o produto A seja escolhido é a soma de duas probabi-
lidades mutuamente excludentes: P[(A e H) ou (A e M)] = P(A e H) + P(A e M) = 0,2 + 0,1 = 0,3.
7.6.3 Probabilidade condicional

Se estivermos interessados na probabilidade de ocorrência de um evento uma vez que outro
já ocorreu, podemos definir probabilidades condicionais. Por exemplo, podemos estar interessados
em saber qual é a probabilidade de ocorrência do evento “preferência pelo produto A” dado que o
elemento sorteado foi um homem.
Definimos, então, P(A|H) como a probabilidade condicional e diz-se “probabilidade de A
dado H”:
P (A H) 0,2 2
P(A|H) = = = = 0,4
P (H) 0,5 5
Uma vez que partimos de H, esse dado promove uma restrição em nosso espaço amostral
e procuraremos descobrir, dado H, qual é a probabilidade de A.
De maneira inversa, poderemos também determinar a probabilidade de escolhermos um
homem dado que o produto preferido foi o A. Desejaremos, então, calcular P(H|A), ou a “proba-
bilidade de H dado A”:
P (H A) 0,2 2
P(H|A) = = = = 0,67
P (A) 0,3 3
7.6.4 Independência
Verificamos que a probabilidade de preferência do produto A, dado que um homem foi
sorteado, foi de 0,4. Se calcularmos a probabilidade de preferência do produto B, dado que uma
mulher for sorteada, teremos:
P (A M) 0,1 1
P(A|M) = = = = 0,2
P (M) 0,5 5
Podemos concluir, com base nesses cálculos, que a preferência pelo produto A depende do
sexo da pessoa sorteada. Definimos assim, decorrente desse fato, que dois eventos são estatistica-
mente independentes quando a ocorrência de um não afeta a do outro. E, portanto, se C e D são
independentes (C D):
P (C|D) = P(C)
É possível enumerar diversos exemplos interessantes de eventos independentes: sendo o

evento C o sexo do segundo filho e o evento D o sexo do primeiro filho, a probabilidade de o
segundo filho ser homem dado que o primeiro foi mulher é igual à probabilidade de o segundo
filho ser homem. Isso também ocorreria sendo o evento C o resultado do lance da segunda moeda
e o evento D o resultado do lance da primeira moeda, ou o evento C sendo o sorteio do número
correspondente à dezena da loteria federal e o evento D o resultado do número correspondente à
unidade da loteria federal.
7.7 Regra da multiplicação

Vimos que, quando dois eventos são independentes, temos que P(C|D) = P(C). Observe
também que:
P (C D)
Se P (C|D) = , então P(C D) = P(C|D) . P(D)
P (D)
Utilizando a afirmação de independência, temos, que, se C e D são eventos independentes,
então:
P(C D) = P(C) P(D)
Com base em outro exemplo de pesquisa de mercado, sintetizado na tabela a seguir,

poderemos verificar que os eventos “preferência por um produto” e “sexo” são independentes:
Prefere Prefere
Sexo Total
Produto A Produto B
Masculino (H) 0,08 0,32 0,4
Feminino (M) 0,12 0,48 0,6
Total 0,2 0,8 1,0
A preferência pelo produto A entre os homens corresponde à expressão:

0,08 8 1
P(A|H) = = = = 0,2
0,4 40 5
Já a preferência pelo produto A entre as mulheres corresponde à expressão:
0,12 12 2
P(A|M) = = = = 0,2
0,6 60 10
Nesse caso, pode-se verificar que o produto das probabilidades marginais correspondentes
é igual à probabilidade conjunta.
P(A) P(H) = 0,2 x 0,4 = 0,08 = P(A e H)
Perceba na tabela que na coluna “prefere o produto A”, para o caso dos homens, 0,08/0,2 =
0,4, ou seja, 40% dos que preferem o produto A são homens. Da mesma forma que “prefere o
produto B” para homens é 0,32/0,8 = 0,4. Também dos que preferem o produto B, 40% são homens,
e o mesmo é válido para o total 0,4/1,0. Ou seja, a preferência dos homens por qualquer um dos
produtos é de 40%, por isso essas probabilidades são ditas independentes. Seja qual for o produto, a
preferência dos homens é sempre de 40%. Observe que na tabela original isso não ocorria.
7.8 Distribuições de probabilidades discretas

7.8.1 Variável aleatória
Podemos definir aproximadamente variável aleatória como uma função que assume valores
numéricos em razão do acaso. Rigorosamente, do ponto de vista matemático, uma variável alea-
tória é uma função consistindo de elementos de um espaço amostral associados a números reais
relacionados a esses elementos.
São exemplos de variáveis aleatórias: sair cara no lance de uma moeda, a soma dos números
das faces superiores no lançamento de dois dados, o faturamento de uma empresa no final de um
período, o rendimento de aplicação de uma dada carteira etc. Qualquer variável que seja função de
resultados que dependem de incerteza pode ser considerada uma variável aleatória.
7.8.2 Distribuição de probabilidades de uma variável aleatória

Podemos associar os valores possíveis de uma variável aleatória a certo nível de probabi-
lidade. A tabela formada por esse conjunto é chamada de distribuição de probabilidades.
Adotaremos como exemplo a situação de um grupo de pessoas idosas de 67 a 71 anos
de idade. A distribuição de probabilidades das idades pode ser sintetizada conforme o quadro
a seguir:
Quadro 1 – Distribuição de probabilidades por idade de idosos
Probabilidade
Idade (X)
de X, P(X = x)
67 0,10
68 0,25
69 0,50
70 0,10
71 0,05
A probabilidade de sortearmos uma pessoa que tenha 69 anos é igual a um em cada dois
sorteios, ou P(X = 69) = 0,5.
A representação gráfica de uma variável aleatória pode ser feita por meio de um gráfico
de bastões.
Figura 3 – Gráfico de probabilidades por idade de idosos
0,6
0,5
0,4
Probabilidade
0,3
0,2
0,1
0
1 2 3 4 5
Idade
7.8.3 Propriedades de uma variável aleatória discreta

Uma variável aleatória discreta X tem duas propriedades:
P(X = x) ≥ 0
P(X = x) = 1
Podemos representar essa propriedade P(X = x) com base em sua frequência f(x), então as
condições anteriores poderiam também ser expressas da seguinte forma:
f(x) ≥ 0
f( x) = 1
No exemplo supracitado, teremos para cada valor de X um valor de P(X = x) maior ou igual
a zero (nesse caso, sempre maior do que zero, pois não há idades não representadas) e a soma das
probabilidades é igual a 1, conforme tabela a seguir:
Tabela 2 – Probabilidades por idade de idosos
Probabilidade
Idade (X)
de X, P(X = x)
67 0,10
68 0,25
69 0,50
70 0,10
71 0,05
Total 1,00
7.8.4 Função de distribuição acumulada

Dada uma variável aleatória X, o valor da função de distribuição acumulada no ponto x,
denotada por F(x), é a probabilidade de que X tome valores menores ou iguais a x. Ou seja,
F(x) = P(X ≤ x)
No exemplo das idades, teremos:
Probabilidade Probabilidade
Idade (X)
X de P(X = x) acumulada F(x)
67 0,10 0,10
68 0,25 0,35
69 0,50 0,85
70 0,10 0,95
71 0,05 1,00
Verificamos, então, que, se sortearmos uma pessoa ao acaso, a probabilidade de que a sua
idade seja de até 69 anos será igual a 0,85.
7.8.5 Esperança e variância de uma variável aleatória discreta

A esperança de uma variável aleatória discreta, também chamada de expectância ou valor
esperado, é a média aritmética ponderada pelas probabilidades. Ela pode ser definida como:
= E(X) = X.P(X = x)
Observe que a representação da média pode ser feita por meio do símbolo µ, que é a repre-
sentação da média da população e, nesse caso, a média da distribuição de probabilidades de X,
ou por meio do símbolo E(X), esperança ou expectância da variável X, que é, em última análise,
o valor da média dos valores que X pode assumir.
1
Perceba que E(X) = 1 X, então, o E de esperança pode ser substituído por de
N N
alguma coisa – nesse caso, dos valores de X.
A variância de uma variável aleatória discreta é definida como:
2
= VAR(X) = E(X – )2 = E(X2) – [E(X)]2
Aqui, novamente, E é o símbolo da esperança ou da média. A variância é, então, a média das

distâncias ao quadrado de cada valor em relação ao ponto central µ. A letra µ representa a média
dos valores de X. Utilizando a ideia da esperança usada para a média, isto é, E sendo substituído
por 1 , teremos: 1 (X – )2, a conhecida expressão da variância populacional, em que:
N N
E(X2) = X2 P(X = x)
Para o exemplo das idades, temos:
X P(X = x) X P(X = x) X2 X2 P(X = x)
67 0,10 6,7 4.489 448,9
68 0,25 17 4.624 1.156
69 0,50 34,5 4.761 2.380,5
70 0,10 7 4.900 490
71 0,05 3,55 5.041 252,05
Total E(X) = 68,75 E(X2) = 4.727,45
E(X) = 68,75
VAR(X) = E(X2) – [E(X)]2 = 4.727,45 – (68,75)2 = 0,8875
Portanto, a idade média do grupo é de 68,75 anos, e sua variância é igual a 0,8875.
7.8.6 Distribuição conjunta de probabilidades

Quando consideramos mais de uma variável aleatória, podemos construir uma distribuição
conjunta de probabilidades.
Sejam, por exemplo, duas variáveis, X e Y, cada uma delas pode assumir três valores: 0, 1 ou 2.
A variável X assume o valor 0 com probabilidade 0,2, o valor 1 com probabilidade 0,6 e o valor 2
com probabilidade 0,2, conforme a última linha da Tabela 3 a seguir, na qual temos P(X = 0) =
0,2, P(X = 1) = 0,6 e P(X = 2) = 0,2.
Também a variável Y pode assumir os três valores. Podemos observar na última coluna da
tabela que P(Y = 0) = 0,2, P(Y = 1) = 0,6 e P(Y = 2) = 0,2.
Essas probabilidades definidas são chamadas de distribuição de probabilidade marginal
de X e distribuição de probabilidade marginal de Y. Observe também, na tabela a seguir, que
P(X = 1, Y = 2) = 0.
Tabela 3 – Distribuição de probabilidades marginais de X e Y
X
Y
0 1 2 P(Y = y)
0 0,1 0,1 0 0,2
1 0,1 0,5 0 0,6
2 0 0 0,2 0,2
P(X = x) 0,2 0,6 0,2 1,0
As probabilidades marginais podem ser separadas em duas tabelas, apresentadas a seguir:

Tabela 4 – Distribuição de probabilidades marginais de Y
Y P(Y = y)
0 0,2
1 0,6
2 0,2
P(Y = y) 1,0

Tabela 5 – Distribuição de probabilidades marginais de X
X P(X = x)
0 0,2
1 0,6
2 0,2
P(X = x) 1,0
As noções de probabilidade e de distribuição de probabilidades abordadas neste capítulo

objetivaram apresentar as ferramentas básicas para que um pesquisador da área de ciências sociais
possa ter mais intimidade com o uso da noção de probabilidades, que será muito útil quando utili-
zar métodos quantitativos indutivos como complemento da investigação sociológica.
Atividades
1. Dois grupos de pessoas foram formados: o primeiro composto somente de mulheres, con-
junto M = {Carmen, Luisa, Helena, Flávia, Julia, Natália}, e o segundo contendo apenas
homens, H = {Luiz, João, Carlos, Samuel, Paulo}. Duas pessoas, um homem e uma mulher,
foram sorteadas ao acaso. Qual é a probabilidade de que o conjunto resultante seja formado
por um homem e por uma mulher, ambos com a primeira letra do nome C?
2. O quadro a seguir apresenta a distribuição de frequências de pessoas de dois municípios em

diversas faixas etárias. Com base nele, construa as distribuições de probabilidades marginais
e apresente os resultados obtidos.
Município 15-24 25-34 35-44 45-54 55-64 65 ou+ Total
A 38 129 98 75 67 82 489
B 23 85 105 77 86 102 478
Total 61 214 203 152 153 184 967
3. Calcule a esperança da distribuição marginal das idades da atividade 2 e apresente o signifi-

cado dos resultados encontrados.
8
Inferência
Chamar o especialista em estatística depois que o experimento foi feito

pode ser o mesmo que pedir a ele para fazer um exame post mortem.
Talvez ele consiga dizer de que foi que o experimento morreu.
Sir Ronald Fisher (1890-1962)1
8.1 Investigação sociológica

Chamaremos o conjunto de procedimentos relacionados à investigação não experimental
que tem por objeto o estudo das relações entre variáveis sociais de investigação sociológica. Esses
procedimentos são não experimentais porque são resultado de observações realizadas na socieda-
de, independentemente da intervenção do pesquisador para estabelecer as relações entre as variá-
veis. Dessa forma, a investigação sociológica é fundamentalmente observacional, pois advém de
fatos sociais que ocorrem devido a fatores não controlados.
Essa distinção entre o que se conhece por ensaios experimentais controlados e estudos observa-
cionais será sempre determinante da técnica utilizada para a observação de fenômenos e análise das
variáveis neles contidas. O fato de ser observacional não significa que os propósitos não possam ser
inferenciais, isto é, que não possam utilizar procedimentos que impliquem tirar conclusões para um
conjunto maior de indivíduos com base na observação de uma pequena parcela deles.
O conjunto de metodologias empregadas para a realização das inferências desejadas faz
parte do rol dos métodos denominados indutivos. Em geral, esses métodos utilizam observa-
ções quantitativas por meio de contagem ou medidas em uma amostra, parte representativa da
população, para estabelecer relações entre as variáveis no conjunto maior, que representa uma
determinada parcela da sociedade, chamada de população-alvo.
Esses procedimentos inferenciais podem ser realizados em certo corte no tempo ou, ainda,
com base em observações do passado e do presente para tentar compreender um fenômeno no
futuro. Esta última abordagem é conhecida como análise de séries temporais e não faz parte do
escopo deste livro.
As técnicas empregadas para o estudo das variáveis sociais e de suas relações, quando adota-
mos procedimentos numéricos de observação das variáveis, contam com um vasto ferramental de
técnicas estatísticas, que têm recebido enorme contribuição desde o início do século XX, sobretudo
do grande domínio da informática, que permite o trato com grandes massas de dados e em alta
velocidade de processamento.
1 Geneticista inglês considerado o pai da estatística moderna.

O nível de sofisticação dos procedimentos está diretamente relacionado à complexidade dos

fenômenos que desejamos estudar. Há, no entanto, procedimentos utilizados universalmente que
possibilitam análises consistentes por meio de técnicas básicas e facilmente acessíveis, sem perder
o poder de auxiliar o cientista social na construção de uma base de conhecimento alicerçada em
observações empíricas que podem servir de evidência para a comprovação e/ou verificação de
hipóteses e teorias relativas à compreensão de fenômenos sociais.
A investigação sociológica inclui uma gama ilimitada de variáveis caracterizadas por sua
orientação social, como preferência política, status social, orientação religiosa, afiliação a associa-
ções, escolaridade, renda, ocupação, idade, cor da pele, sexo, entre outras. Essas variáveis sociais
são medidas ou atributos de indivíduos que têm a característica comum de serem membros de
grupos sociais grandes ou pequenos e, assim, de serem compartilhadas por muitos ou pela maioria
dos indivíduos.
Em resumo, esses estudos têm como características comuns usar variáveis sociológicas, ser
não experimentais, dirigir-se a problemas sociais importantes e utilizar um conjunto de procedi-
mentos analíticos de uso comum e de eficácia comprovada.
8.2 Procedimentos inferenciais

Estabelecemos que é possível fazer declarações acerca de parâmetros populacionais com
base em observações amostrais. Se desejarmos, por exemplo, fazer um estudo sobre a renda
média de um grupo social, podemos estabelecer arbitrariamente um valor mínimo de renda que
consideremos digno para a sobrevivência das famílias da comunidade em questão. Para verificar
o nível de renda, tomaremos uma amostra aleatória de famílias, esperando que esse pequeno
grupo represente a totalidade da comunidade.
Como esse processo envolve certo nível de incerteza, não se pode garantir de maneira
absoluta que o valor encontrado para a média amostral das rendas familiares seja igual ao valor
da renda média de toda a população.
Dois procedimentos, então, podem ser realizados com base no resultado amostral. O pri-
meiro é construir um intervalo em torno do valor da média amostral, no qual se possa afirmar com
certo nível de confiança que o verdadeiro valor da média populacional pertença a esse intervalo.
O segundo procedimento é o de testar se, com base na média amostral, o valor mínimo de renda
média populacional pode ser aceito.
Para um ou outro caso, podemos também estar interessados em comparar a renda média de
dois grupos. Nesse caso, estabeleceremos um intervalo em torno do valor da diferença entre as mé-
dias amostrais e também podemos testar a hipótese de que as rendas sejam iguais. Em se tratando
de rendas iguais, a diferença deve ser muito próxima a zero.
Assim, três procedimentos de estimação foram estabelecidos. O primeiro é chamado de
estimação pontual, em que o valor da média amostral é uma estimativa da média populacional.
Com base nele, constroem-se os outros dois procedimentos, um denominado de estimação por
intervalo ou construção de um intervalo de confiança e outro de testagem de hipóteses estatísticas.
Inferência 99
No caso de trabalharmos com diferenças entre médias, a diferença entre as médias amostrais é
um estimador da diferença entre as médias das populações. Vale, nesse caso também, o esforço
de construção de um intervalo de confiança para a diferença entre as médias populacionais ou
testar a hipótese de que a diferença entre elas seja igual a zero.
Em geral, estamos interessados em verificar como uma variável de uma determinada popu-
lação se comporta. Em um estudo sobre a aceitação de um novo artigo alimentar, pode ser interes-
sante conhecer variáveis que caracterizem o estado nutricional da população a quem o produto é
destinado. O peso da população, por exemplo, pode ser uma dessas variáveis.
A caracterização do peso da população pode ser feita mediante uma distribuição de fre-
quências, que pode aproximar uma distribuição de probabilidades. Essa distribuição tem algumas
características importantes, como o valor da média, do desvio-padrão e da forma da distribuição,
e pode ser discreta ou contínua. Neste capítulo, estudaremos algumas distribuições contínuas de
grande utilidade para se fazer inferência. Vale lembrar que a chamada distribuição discreta diz
respeito à contagem, e a distribuição contínua é fruto de alguma forma de medição. Vamos nos res-
tringir às distribuições contínuas mais importantes para o propósito de estimação: a distribuição
normal e a distribuição “t” de Student.
8.3 A distribuição normal

No tratamento de dados, quando construímos uma distribuição de frequências com base em
observações, podemos aproximá-la de uma distribuição de probabilidades. Os dados podem levar
a diferentes tipos de distribuição, no entanto uma delas atribui um papel central à teoria e à prática
estatística: a distribuição normal.
8.3.1 Propriedades da curva normal

A distribuição normal é uma distribuição contínua. Enquanto as distribuições discretas assu-
mem valores com base em números inteiros, as distribuições contínuas assumem todos os valores
entre os números inteiros, ou seja, seu domínio é o dos números reais. A distribuição normal parti-
cularmente tem como domínio qualquer valor real entre menos infinito e mais infinito.
Uma característica importante desse tipo de distribuição é que ela é uma função de x que
pode ser inteiramente determinada com o conhecimento dos valores da média e do desvio-padrão.
Fala-se que X tem distribuição normal com média e desvio-padrão . A sua expressão matemá-
tica é dada pela função:
1 –1/2 x – μ
2
f(x) = .e ,– <x<
σ 2π
Nessa equação, a média μ e o desvio-padrão σ, que determinam o ponto central e a dispersão

da distribuição em torno da média, são os dois parâmetros da distribuição normal. Substituindo x
por seus valores, obtemos os valores de f(x) e podemos então traçar o gráfico da função.
O seu aspecto é o de um sino, por isso muitas vezes é chamado de curva do sino.
Figura 1 – Gráfico da função: curva do sino
Ponto de inflexão Ponto de inflexão

μ–σ μ+σ
x
μ
O valor central é o da média μ, e a curva é simétrica em relação a μ. A área total sob a cur-
va é igual à unidade. Nos pontos de inflexão (quando a curva muda sua convexidade) de cada
lado da curva, temos o valor de X igual a μ – 1σ e μ + 1σ. A curva é assintótica ao eixo X, ou seja,
ela se aproxima do eixo X em - e em + . Representamos essa distribuição como X ~ N( ; ).
Em muitos livros, a representação leva em conta o valor da variância, nesses casos, a notação
fica X ~ N( ; 2).
8.3.2 Áreas abaixo da curva normal

Como a área abaixo da curva é igual a 1, podemos associar áreas a valores de probabilidade,
a exemplo do que se pode fazer com o histograma. Assim, a probabilidade de sortearmos um ele-
mento da população cujo valor da variável seja maior do que é de 0,5 ou 50%, da mesma forma
que 50% da área da curva está associada a valores menores do que . Esses fatos podem ser descri-
tos por meio das expressões:
P(X ≤ ) = 0,5 e P(X ≥ ) = 0,5
Figura 2 – Gráfico de áreas abaixo da curva normal
f(X)
Observe que essas probabilidades são complementares. Dessa forma, se pudermos calcular
a área entre dois pontos da curva, ela será igual à probabilidade de sortearmos um elemento cujo
valor esteja entre esses dois pontos.
Vejamos algumas probabilidades associadas a algumas áreas particulares:
P(– < X ≤ + 1 ) = 0,8413, isto é, a área sob a curva entre - e +1 é sempre de
84,13%, independentemente dos valores de e de .
Inferência 101
f(X)
+1 x
Outras probabilidades particulares importantes são:

P(– < X ≤ + 2 ) = 0,9772
f(X)
+2 x
P(– < X ≤ + 3 ) = 0,9987
f(X)
+3 x
P(– < X ≤ + 4 ) = 0,9999
f(X)
+4 x
Observe que, embora X varie de - até + , praticamente 100% da área da curva está entre
- e + 4 . Veremos mais adiante que, na verdade, o intervalo (-4 , +4 ) abrange quase 100% de
toda a área.
Exemplos
Considerando um estudo nutricional, se a variável for o peso da população
com média de 70 kg e desvio-padrão de 10 kg, e se sortearmos um elemento
ao acaso dessa população, poderemos calcular algumas probabilidades:
• Probabilidade de sortearmos uma pessoa com mais de 70 kg:

P(X ≥ 70) = 0,5
f(X)
70 x
• Probabilidade de sortearmos uma pessoa com peso entre 60 kg e 80 kg:
P(60 ≤ X ≤ 80) = P(70 –10 ≤ X ≤ 70 + 10) = P( – 1σ ≤ X ≤ + 1σ) =

P(– < X ≤ μ + 1 ) – P(– < X ≤ – 1 )
O gráfico a seguir ilustra bem essa situação, fazendo de fato uma diferença
entre áreas. A área correspondente a P( – 1 ≤ X ≤ + 1 ) é igual à
área correspondente a P(– < X ≤ + 1 ) menos a área equivalente a
P(– < X ≤ – 1 ).
–1 0 +1
área sob a curva área sob a curva
normal padrão normal padrão
abaixo de -1 abaixo de +1
Mas P(– < X ≤ + 1 ) = 0,8413 e P(– < X ≤ – 1 ) = 1 – 0,8413

= 0,1587, observe que as áreas são simétricas ao ponto central . Logo,
P(60 ≤ X ≤ 80) = 0,8423 – 0,1587 = 0,6426.
Inferência 103
f(X)
60 80 x

P(70 ≤ X ≤ 80) = P(70 ≤ X ≤ 70 + 10) = P(– < X ≤ + 1 ) – P(– < X ≤ ) =
0,8413 – 0,5 = 0,3413
Lembre-se novamente de que as áreas são simétricas em relação a ,
então P(– < X ≤ ) = 0,5.
f(X)
70 80 x
• Probabilidade de sortearmos uma pessoa com menos de 60 kg:

P(X ≤ 60) = P(X ≤ 70 – 10) = P(X ≤ – 1 ) = 1 – 0,8413 = 0,1587
f(X)
60 x

P(60 ≤ X ≤ 90) = P(70 –10 ≤ X ≤ 70 + 20) = P( – 1 ≤ X ≤ + 2 ) =
P(– < X ≤ + 2 ) – P(– < X ≤ – 1 ) = 0,9772 – 0,1587 = 0,8185
f(X)
60 90 x

P(80 ≤ X ≤ 100) = P(70 –10 ≤ X ≤ 70 + 30) = P( + 1 ≤ X ≤ + 3 ) =
P(– < X ≤ + 3 ) – P(– < X ≤ + 1 ) = 0,9987 – 0,8413 = 0,1574
f(X)
80 100 x
Z
Duas observações devem ser feitas nesse ponto:

1. A probabilidade em um ponto numa distribuição contínua é sempre igual a zero. Não há
como calcularmos área. Então, por ser indiferente, determinamos por convenção que, no
cálculo dessas probabilidades, usaremos um intervalo aberto à esquerda, isto é, P( – 1
≤ X ≤ + 1 ) = P( – 1 < X ≤ + 1 ), e essa convenção vale para todos os intervalos.
2. Precisamos sempre verificar a quantos desvios-padrão está o valor de X em relação à mé-
dia. Seja X ~ N(70,10). Então, em P(60 ≤ X ≤ 90) = P(70 – 10 ≤ X ≤ 70 + 20) = P(70 –1
≤ X ≤ 70 + 2 ). Para determinar o valor “z” de quantos desvios-padrão 90 está distante
da média, fazemos 90 = + z . Isolando “z”, temos z = (90 – )/ . Como = 70 e = 10,
temos que z = (90 – 70)/10 = 2. Ou seja, “z” é o número de desvios-padrão que separam
a média do valor desejado.
8.3.3 Normal padrão

Vimos que, para identificar quantos desvios-padrão separam a média dos valores para os
quais desejamos determinar as probabilidades, basta saber a área associada ao número de desvios-
-padrão. Isso equivale a trabalhar com uma distribuição normal com média 0 e desvio-padrão 1.
Essa distribuição é chamada de distribuição normal padrão e a representamos por Z ~ N(O,1), em
que z = (X – )/ .
A forma como foram determinadas as probabilidades fornecidas anteriormente, entre -
e a média mais um desvio-padrão, entre - e a média mais dois, três e quatro desvios-padrão,
é a forma usual no cálculo de áreas de funções, que é o cálculo da integral da função entre - e
+ 1 da função normal padrão para o primeiro caso. O mesmo vale para os demais casos. A área
entre - e + 2 foi determinada pelo cálculo da integral definida da função f(x) da expressão da
distribuição normal padrão, tendo como limites - e + 2 .
Então, a probabilidade P(X ≤ 60) = P(X ≤ – 1 ) = P(– < X ≤ – 1 ) = P(– < Z ≤ 1)
é a integral definida de f(x) de - e -1 e fornecerá o valor exato dessa probabilidade. Está claro que
Inferência 105
esse cálculo seria tedioso, além de envolver um procedimento altamente complexo de cálculo de
integrais.
Vale ressaltar uma característica importantíssima da distribuição normal: independente-
mente dos valores da média e do desvio-padrão, essas áreas são sempre as mesmas. Queremos
dizer com isso que, para qualquer população normal, a área entre - e –1 será sempre a mes-
ma. Se temos duas populações normais, sendo a primeira X com média 70 e desvio-padrão 10,
e a segunda Y com média 20 e desvio-padrão 2, as probabilidades P(X ≤ 60) e P(Y ≤ 18) serão
iguais, porque ambas representam P(X ≤ – 1 ) = P(Z ≤ 1).
Se a área entre - e 1 é 0,8413, correspondente à função de distribuição acumulada, então
a área entre e ( + 1 ) será 0,8413 – 0,5 = 0,3413.
f(X)
+1 x
8.3.4 Função de distribuição acumulada da distribuição normal

Como vimos, a área acumulada entre - e um certo valor de Z pode ser utilizada para
calcularmos as probabilidades correspondentes. Então, se queremos P( – 1 ≤ X ≤ + 2 ),
devemos calcular P(X ≤ + 2 ) – P(X ≤ + 1 ). Essa diferença é igual a P(Z ≤ 2) – P(Z ≤ – 1) =
F(2) – F(–1).
= –
–1 2 2 –1
A Tabela A, que pode ser consultada na seção dos anexos deste livro, representa as áreas de
uma distribuição normal padrão acumulada. No exemplo anterior, temos que F(2,00) – F(1,00) =
0,9772 – 0,1587 = 0,8185. Na tabela, o cruzamento do valor 2,0 na primeira coluna e o valor 0 na
primeira linha representam o valor 2,00, da mesma forma que o valor 1,00 está na casa correspon-
dente a 1,0 na primeira coluna e 0 na primeira linha.
Se a variável considerada for o peso da população com média de 70 kg e desvio-padrão de 10 kg,
e se sortearmos um elemento ao acaso dessa população, poderemos calcular as probabilidades.
Exemplos
• Probabilidade de sortearmos uma pessoa com mais de 70 kg:
P(X ≥ 70) = 1 – P(X ≤ 70) = 1 – P[(X – )/ ≤ (70 – )/ ] = 1 – P[Z ≤
(70 – 70)/ 10] = 1 – P(Z ≤ 0) = 1 – F(0) = 1 – 0,5 = 0,5
f(X)
70 x

P(60 ≤ X ≤ 80) = P[(60 – )/ ≤ (X– μ)/ ≤ (80 – )/ ] =
P[(60 – 70)/10 ≤ Z ≤ (80 – 70)/10] = P(– 1 ≤ Z ≤ 1) = F(1) – F(– 1)
Observamos na Tabela A que F(1) = 0,8413 e F(–1) = 0,1587, então F(1)
– F(– 1) = 0,8413 – 0,1587 = 0,6426.
= –
–1 1 1 –1
Veja que podemos calcular qualquer probabilidade, mesmo que os nú-

meros não sejam redondos. Por exemplo:
P(56,5 ≤ X ≤ 64,8) = P[(56,5 – 70)/10 ≤ Z ≤ (64,8 – 70)/10] =
F(– 0,52) – F(–1,35) = 0,3015 – 0,0885 = 0,2130
Tomamos na Tabela A o valor de F(–0,52) no cruzamento de -0,5 na pri-
meira coluna e 2 na primeira linha, e o valor de F(–1,35) no cruzamento
de -1,3 e 5. Observe que o 2 de -0,52 corresponde a 0,02 e o 5 de -1,35
equivale a 0,05.
Inferência 107
f(X)
56,5 64,8 x

P(70 ≤ X ≤ 80) = P[(70 – 70)/10 ≤ Z ≤ (80 – 70)/10] = P(0 ≤ Z ≤ 1) =
F(1) – F(0) = 0,8413 – 0,5 = 0,3413
f(X)
70 80 x
• Probabilidade de sortearmos uma pessoa com menos de 60 kg:

P(X ≤ 60) = P[Z ≤ (60 –70)/10] = P(Z ≤ – 1) = 0,1587
f(X)
60 x

P(60 ≤ X ≤ 90) = P((60 – 70)/10 ≤ Z ≤ (90 – 70)/10) = P(– 1 ≤ Z ≤ 2) =
F(2) – F(– 1) = 0,9772 – 0,1587 = 0,8185
f(X)
60 90 x

P(80 ≤ X ≤ 100) = P[(80 – 70)/10 ≤ Z ≤ (100 – 70)/10] = P(1 ≤ Z ≤ 3) =
F(3) – F(1) = 0,9987 – 0,8413 = 0,1574
f(X)
80 100 x
8.4 A distribuição “t” de Student

A distribuição “t” de Student é atribuída ao químico e matemático inglês William Sealy
Gosset, que a desenvolveu trabalhando na cervejaria Guinness. “Student” era seu pseudônimo,
porque a cervejaria não permitia que seus empregados divulgassem qualquer tipo de estudo.
Essa distribuição de probabilidade é utilizada para a construção de intervalos de confiança
que envolvem médias populacionais e para teste de hipóteses de médias quando não conhecemos o
valor da variância populacional ( 2).
8.4.1 O aspecto da distribuição “t” de Student

A distribuição “t” de Student é muito parecida com a distribuição normal, mas seu aspecto
e o valor das probabilidades dependem do número de elementos da amostra. Para as situações de
determinação do intervalo de confiança para uma média populacional ou para um teste de hipó-
tese para uma média populacional, se a amostra tem “n” elementos, trabalharemos com “n – 1”
graus de liberdade para acessar o valor da probabilidade na Tabela “t” de Student (veja o anexo
referente a ela no fim deste livro).
Os graus de liberdade, no geral chamados de g.l., são números reais maiores do que zero
(normalmente utilizamos números inteiros, por estarem relacionados com o tamanho da amostra).
Fixando o valor de g.l., definimos uma situação particular da família de distribuições “t”. Uma
distribuição “t” com um g.l. menor tem mais área nas caudas da distribuição do que uma distri-
buição com um g.l. maior. A figura a seguir representa três distribuições “t” com diferentes graus
de liberdade.
Inferência 109
Figura 3 – Gráfico de distribuições “t”
g.l. = g.l. = 6
g.l. = 3
-3.18 -2.45 -1.96 tcrit 1.96 2.45 3.18
Os valores apontados no eixo “X” estão associados a uma área abaixo da curva de 95%. Note
que, para g.l. = , a curva da distribuição “t” é igual à curva normal padrão, com os valores -1,96
e 1,96 para 95% de área. Para propósitos práticos, os valores de distribuição “t” aproximam-se dos
valores da distribuição normal padronizada relativamente depressa; já com n = 30, ou 29 graus de
liberdade, esses valores são quase idênticos.
8.5 Intervalo de confiança

Quando fazemos um processo de amostragem, verificamos em uma única amostra o valor
de uma estatística, a média do peso dos elementos da amostra, por exemplo, e tentamos inferir algo
sobre o parâmetro da população, nesse caso, a média do peso da população. Portanto, a média da
amostra é um estimador da média da população.
Como verificado no estudo de amostragem, a estimativa pontual de um parâmetro nem
sempre é suficiente. Como se trata de um processo que envolve amostragem e, portanto, incerteza,
vamos querer calcular um valor amostral, uma estatística, para estimar um valor do parâmetro,
adicionando a essa estimativa um intervalo para o qual tenhamos certo nível de confiança de que
o parâmetro possa pertencer.
No caso de estarmos estimando a proporção da preferência entre dois candidatos que com-
petem em uma eleição, podemos concluir, por meio de um processo de amostragem, que a propor-
ção da preferência pelo candidato A pode ser maior do que a do candidato B, mas que, no entanto,
essa diferença pode ocorrer somente devido a variações daquela amostra particular que foi toma-
da. Nesse caso, caracterizamos o fenômeno do empate técnico ou empate estatístico.
Devemos construir, então, em torno do valor estimado pontualmente, o chamado intervalo
de confiança. A seguir, forneceremos as expressões para o cálculo de intervalos de confiança para
diversas situações que ocorrem na prática, sem entrar nas considerações matemáticas que levam à
construção desses intervalos.
8.5.1 Intervalo de confiança para a média com σ conhecido

Se o desvio-padrão é conhecido, utilizamos o seu valor para o cálculo do intervalo, além do
valor da média e da estatística Z da distribuição normal.
P(X – z. X
≤ ≤ X + z. X) = 1 –
O que desejamos é fazer uma declaração sobre a média da população ( ), com base em uma
informação sobre a média das medidas da amostra (X).
Assim, estará em um intervalo de X d, em que “d” é um desvio, também chamado de
“margem de erro”.
O valor de “d”, conforme a teoria de amostragem, é dado por d = z. X. O erro-padrão pode
ser calculado por meio da fórmula: X
=
, em que n é o tamanho da amostra e σ é o valor do
n
desvio-padrão da medida já conhecido antes do trabalho de amostragem, com certeza comum a
outra pesquisa semelhante.
Este intervalo (X – z. X ≤ ≤ X + z. X) está associado a uma probabilidade de confiança,
chamada de nível de confiança, representada por: (1 – ). O valor de , conhecido como erro esta-
tístico, está relacionado com o valor de “z” da curva normal.
O exemplo a seguir pode facilitar a compreensão da utilização do intervalo de confiança.
Exemplo
Os acidentes automobilísticos no Brasil se tornaram uma das principais
causas de mortalidade. Além da imprudência dos motoristas, a falta de
conservação dos equipamentos dos automóveis leva ao aumento do nú-
mero de acidentes. O órgão público responsável pelas estradas resolveu
verificar, por meio de uma pesquisa, a qualidade dos pneus. Para tanto,
realizou uma pesquisa por amostragem com 100 pneus, retirada de um
grande lote, observando sua vida média. Para essa amostra, a vida útil foi
verificada em 32.500 km para rodar com segurança. Sabe-se, por pesqui-
sas anteriores, que o desvio-padrão da população de pneus é de 3.000 km.
Desejamos construir para todo o lote um intervalo de confiança de
95%, no sentido de que o verdadeiro valor da vida média possa estar
nesse intervalo.
Para construir esse intervalo, que terá como limites X z. X, sabemos que
X = 32.500 e que X = = 3.000 = 300.
n 100
O valor de Z pode ser buscado na Tabela A da distribuição normal
padrão. Construiremos então três regiões na curva normal: a pri-
meira correspondendo à probabilidade de 0,025, a segunda a 0,95 e
a terceira também a 0,025. A origem desses valores está relacionada
Inferência 111
à determinação de frequências relativas. Buscando dentro da tabela

da distribuição normal padrão o valor 0,025, encontramos Z = -1,96.
Como a curva é simétrica, o valor de Z correspondendo a 0,975 será
Z = 1,96.
Portanto, o intervalo construído com base na expressão
P(X – z. X
≤ ≤ X + z. X) = 1 –
será: [32.500 – (1,96)(300)] ≤ ≤ [32.500 + (1,96)(300)].
Obteríamos, então, o intervalo: (31.912 km, 33.088 km).
Pode-se concluir que temos uma probabilidade de 0,95 de que o ver-
dadeiro valor da vida média dos pneus estará no intervalo (31.912 km,
33.088 km)? Rigorosamente não. O valor de μ é um dado real, portanto
não é uma variável aleatória e, no contexto da estatística clássica, um
parâmetro não tem distribuição de probabilidade nem se pode atribuir
uma probabilidade a ele. A interpretação de intervalo de confiança é a de
que, se construirmos 100 intervalos baseados em 100 amostras, o valor
do parâmetro deve estar dentro de 95 desses intervalos.
Para efeitos práticos, no entanto, não estaremos muito errados ao afir-
mar que temos uma confiança aproximada de 95% de que o parâmetro
esteja dentro do intervalo construído com base em uma única amostra.
8.5.2 Intervalo de confiança para a média com σ desconhecido

Na maior parte das aplicações práticas, o valor do desvio-padrão não é conhecido. A forma
de se construir o intervalo de confiança da média é feita com a estimação do valor de σ. O desvio-
-padrão populacional pode ser estimado pelo valor do desvio-padrão da amostra, S, que é a raiz
quadrada da variância.
Mas aqui surge o problema: quando é conhecido, a expressão do intervalo é X z X
com X
= ; como ficará então a expressão para o intervalo utilizando “s”, e não “σ”? A res-
n
posta é que o intervalo para a média com σ desconhecido será:
X t . sX , sendo que: sX = s
n
O que muda é simplesmente a utilização de “t” no lugar de “z”, que pode ser acessado na
tabela da distribuição “t” de Student.
8.5.3 Utilização da distribuição “t” para a determinação do intervalo de

confiança para μ
Quando não conhecemos o valor da variância populacional ( 2), devemos substituir, na
expressão do intervalo de confiança para a média populacional ( ), o valor de “z” por “t” e o valor
de 2 por S2, este último o valor da variância calculada com base nos dados amostrais. Então, a
expressão do intervalo original, quando conhecemos a variância populacional, será:
P(X – z. X
≤ ≤ X + z. X) = 1 –
Expressa por:
P(X – t.SX ≤ ≤ X + t.SX) = 1 –
Em que:
S
SX =
n
8.5.4 Como acessar o valor de “t” utilizando a

tabela da distribuição “t” de Student
Se queremos construir um intervalo de 95% de confiança, verificamos no topo da Tabela B,
nos anexos deste livro, o valor 0,05, que é igual a 1 – 0,95, e, com a determinação dos graus de
liberdade, verificamos o valor de “t”. Por exemplo, se o tamanho da amostra é igual a 20, podemos
identificar que o valor de “t” para 95% de confiança será igual a 2,093, que corresponde a 19 graus
de liberdade.
Para, por exemplo, construir o intervalo de confiança de 95% para a média populacional,
com base em uma amostra de tamanho 25, que resultou em média igual a 70 kg e desvio-padrão
igual a 10 kg, utilizamos a expressão:
P(X – t.SX ≤ ≤ X + t.SX) = 1 –
S 10 10
Como X = 70, SX = = = = 2 e tn–1 = t24 = 2,064, teremos:
n 25 5
P (70 – (2,064)(2) ≤ ≤ 70 + (2,064)(2)) = 1 – 0,05
P (70 – 4,13 ≤ ≤ 70 + 4,13) = 0,95
P (65,87 ≤ ≤ 74,13) = 0,95
Ou seja, com base nas evidências amostrais, temos 95% de confiança de que a média da po-
pulação será um valor entre 65,9 kg e 74,1 kg.
Quando a amostra for muito grande, os valores da distribuição “t” se aproximam muito da
distribuição normal, e, por isso, nessa situação será indiferente o uso de uma ou de outra. No caso
de amostras menores, é necessário calcular o valor de “t”, que é sempre referenciado pelos graus de
Inferência 113
liberdade do erro-padrão. Em se tratando da média, trabalharemos sempre com n – 1 graus de li-

berdade. Assim, se a amostra tem tamanho 20, buscamos na tabela da distribuição “t” o valor de “t”
correspondente ao nível de confiança do intervalo (1 – ) com os graus de liberdade equivalentes.
Na Tabela B dos anexos do fim deste livro, verificamos na parte superior as probabilidades
denominadas bicaudais. Então, se queremos um intervalo de 95% de confiança, buscamos na tabe-
la o valor de 0,05. Para o caso de uma amostra de tamanho 20, o valor de “t0,95” é de 2.093. Observe
também que, para amostras muito grandes, o valor de “t” se aproxima dos valores de “Z” da distri-
buição normal padrão.
Exemplo
Vamos considerar o mesmo exemplo anterior, no qual desejamos verifi-
car, por meio de uma amostra de 100 pneus retirada de um grande lote, a
vida média desses pneus. Não se conhece o desvio-padrão da população.
Para a amostra de 100 pneus, a vida útil foi determinada como 32.500
km para rodar com segurança, e o desvio-padrão amostral foi calculado
em 3.000 km. Observe que, nesse caso, o desvio-padrão populacional é
tido como desconhecido.
Desejamos construir para todo o lote um intervalo de confiança de
95%, no sentido de que o verdadeiro valor da vida média possa estar
nesse intervalo.
Para construir esse intervalo, que terá como limites X t.SX , sabemos
S 3 000
que X = 32.500 e que SX = = = 300.
n 100
O valor de “t” pode ser buscado na Tabela B da distribuição “t” de Student
com 95 graus de liberdade. Esse valor será de aproximadamente 1,98.
Portanto, o intervalo construído por meio da expressão P(X – t. X
≤ ≤
X + t. X ) = 1 – será:
[32.500 – (1,98)(300) ≤ ≤ 32.500 + (1,98)(300)]

Obteríamos, então, o resultado: (31.906 km, 33.094 km).
Veja que esses valores não diferem muito dos obtidos para quando σ era conhecido.
Mas e se a amostra for pequena, por exemplo, n = 36? Em primeiro lugar, o valor de SX =
S 3 000
= = 500. O valor de “t” para 95% e 35 graus de liberdade é aproximadamente igual a
n 36
2,030. Então, o intervalo será determinado por:
[32.500 – (2,03)(500) ≤ ≤ 32.500 + (2,03)(500)] = (31.485 km, 33.515 km).

Veja que, nessa situação, a precisão da estimativa dos limites do intervalo é ainda menor
do que no caso de amostras de tamanho 100 e do desvio-padrão conhecido. É bastante intuitivo
perceber que, quanto menor é o nosso nível de informação, menos precisas serão as estimativas.
8.5.5 Intervalo de confiança para outros parâmetros

Ficou claro da exposição feita anteriormente que, para construirmos um intervalo de con-
fiança, precisamos saber quem é o estimador do parâmetro, quem é o erro-padrão da estimativa e
qual é a estatística associada ao estimador.
Tendo essas informações, podemos construir o intervalo de confiança para o parâmetro ,
sabendo quem é , quem é o seu erro-padrão ou o seu estimador S e qual é a estatística asso-
ciada. E o intervalo, no geral, terá como limites:
Z ou tS
Ou seja, Parâmetros (Estimador Estatística x Erro-padrão).

O parâmetro é o valor que se observaria na população. Mas a amostragem substitui o le-
vantamento de toda a população, assim, o estimador é calculado com base nos valores observados
na amostra e, como o nome diz, pretende ser um valor que estime o parâmetro. A estatística está
relacionada ao tipo de intervalo que se deseja construir.
O quadro a seguir apresenta os principais elementos para a construção de intervalos
de confiança2:
Quadro 1 – Elementos do intervalo de confiança
Erro-padrão
Parâmetro Parâmetro θ Estimador Estatística
ou S
Média
X n Z
conhecido
Média
X S n tn–1
desconhecido
Proporção P P pq/n Z
Diferença de 2 2
1
+
2
médias com 1 e – X1 – X 2 Z
1 2
n1 n2
2
conhecidos
Diferença de S12 S22

médias com σ1 e 1
– 2
X1 – X2
n1
+ n2
t n1 + n2 –2
σ2 desconhecidos
Diferença de p1q1 p2q2

proporções
P1 – P2 P1 – P2
n1
+ n2
Z
2 Outros intervalos de confiança podem ser construídos, como o chamado intervalo de confiança para a variância e
para a razão de duas variâncias. As distribuições de probabilidades associadas a esses intervalos são conhecidas como
distribuição qui-quadrado e distribuição “F” de Snedecor, que, pelo pouco uso no contexto deste livro, não foram incluídas
nele. Qualquer obra de estatística intermediária traz esses intervalos, caso haja necessidade de consultar.
Inferência 115
8.6 Testes de hipóteses

Uma outra forma de se fazer inferência sobre parâmetros da população com base em
dados da amostra é por meio da escolha de uma entre duas possibilidades, minimizando o
risco na tomada de decisões.
Um teste estatístico de hipóteses consiste em se fazer declarações sobre o parâmetro e
submetê-las às evidências amostrais.
8.6.1 Hipótese nula versus hipótese alternativa

Duas hipóteses então são estabelecidas: a hipótese da igualdade ou hipótese nula versus uma
hipótese alternativa.
A hipótese nula é denotada por H0 e nela se faz uma suposição sobre o valor do parâmetro;
e a hipótese alternativa, denotada por H1, contrapõe-se à declaração da hipótese nula, podendo-se
afirmar que o parâmetro é diferente, maior ou menor do que o valor estabelecido pela hipótese da
igualdade. A representação formal de um teste é dada por:
• Teste bilateral:
H0: = c
H1: c
• Teste unilateral à direita:
H0: = c
H1: > c
• Teste unilateral à esquerda:
H0: = c
H1: < c
A escolha de com qual dos três tipos de teste deve-se proceder depende da quantidade e
qualidade de informação que se tenha antes da coleta dos dados. No caso de se ter informação
suficiente sobre a direção do teste, os testes unilaterais são preferíveis ao bilateral, devido à maior
força de seu resultado.
Como o teste está associado à amostragem e, portanto, à incerteza, existem quatro possíveis
resultados: rejeitar H0 (incorreta ou corretamente) e não rejeitar H0 (incorreta ou corretamente).
O quadro a seguir apresenta essas quatro possibilidades:
Ação com relação a H0 H0 é verdadeira H0 é falsa
Não rejeitar H0 Decisão correta Erro tipo II
Rejeitar H0 Erro tipo I Decisão correta

8.6.2 Erro tipo I e erro tipo II

O tamanho de cada tipo de erro é dado pela sua probabilidade de ocorrência. A probabili-
dade de se cometer o erro tipo I é chamada de , e a probabilidade de se cometer o erro tipo II é
chamada de .
Para o cálculo do tamanho da amostra e para a tomada de decisões, no geral, controla-se o
erro tipo I, por ser considerado o mais grave. Uma analogia pode ser feita com um julgamento, em
que a hipótese nula é a de que o réu é inocente. Pergunta-se: o que é mais grave, rejeitar H0 quando
H0 é verdadeira, que significa condenar um inocente, ou não rejeitar H0 quando ela é falsa, que sig-
nifica absolver um culpado? Do ponto de vista ético, parece ser mais grave condenar um inocente.
O erro tipo I é também chamado de erro do consumidor. Por exemplo, um laboratório testa
um novo medicamento; rejeitar H0 significa que esse medicamento é melhor do que o que está na
praça. Se ele não for de fato, isto é, se H0 for verdadeira, o consumidor estará sendo prejudicado.
O erro tipo II é chamado de erro do produtor e ocorre quando o novo medicamento é
melhor e, por isso, H0 deveria ser rejeitado, no entanto os testes não permitem rejeitar H0 e o
fabricante terá prejuízo por não colocar um novo medicamento melhor do que o tradicional
no mercado.
8.6.3 Procedimento de testagem de hipóteses para a média populacional μ

Vamos expor o procedimento de testagem de hipóteses por meio de uma aplicação: suponha
que a renda média das famílias de certo município foi determinada pelo censo como sendo igual a
R$ 2.000,00 para um particular ano e, dois anos depois, desejamos verificar se houve alguma mu-
dança na renda familiar, por meio de um levantamento amostral.
No Brasil, as pesquisas nacionais por amostra de domicílios (PNAD)3 cumprem esse papel
entre os censos que são realizados a cada 10 anos.
Devemos estabelecer as duas hipóteses estatísticas. A hipótese nula é de que a renda média
familiar continua sendo de R$ 2.000,00. A hipótese alternativa é contrária a essa. Se não há qual-
quer informação adicional de que a renda média possa ter aumentado ou diminuído, toma-se
como alternativa a hipótese de que a renda média é diferente de R$ 2.000,00. Os dados dirão se ela
aumentou ou diminuiu e se essa mudança foi significativa ou se a diferença pode ter ocorrido por
pequenas variações do acaso.
Se algum novo empreendimento foi realizado no município, pode-se supor que houve um
aumento do nível de emprego, gerando maior renda média familiar. Então, a hipótese alternativa
pode ser a de que a média é maior do que R$ 2.000,00. Por outro lado, se alguma indústria deixou
a cidade ou se houve movimentos migratórios importantes, como a chegada de pessoas de municí-
pios mais pobres ou a saída de força de trabalho para centros maiores, a hipótese alternativa pode
ser a de que a média é menor do que R$ 2.000,00.
3 As pesquisas mais recentes podem ser consultadas no site do IBGE, disponível em: https://ww2.ibge.gov.br/home/
estatistica/pesquisas/pesquisa_resultados.php?id_pesquisa=40. Acesso em: 30 out. 2018.
Inferência 117
Vamos ficar, inicialmente, com a primeira possibilidade. O primeiro passo é estabelecer as

hipóteses estatísticas para um teste bilateral:
H0: = 2.000
H1: 2.000
Suponhamos, então, que uma amostra de 25 famílias foi pesquisada e que a média amostral
da renda familiar foi calculada em R$ 2.200,00. Pergunta-se, com base nesse dado e sabendo-se
que o desvio-padrão da renda familiar foi determinado no censo como tendo o valor de R$ 500,00,
se há uma diferença significativa da renda média familiar nesses dois anos.
Precisamos agora estabelecer a estatística do teste. A estatística X – tem distribuição
/ n
normal padrão, Z. Então:
2.200 – 2.000 200
Z= = =2
500 / 25 100
Feito isso, temos de verificar qual é a área sob a curva normal padrão entre -2 e 2, por ser
este um teste bilateral.
P(– 2 < Z ≤ 2) = F(2) – F(– 2) = 0,9772 – 0,0228 = 0,9544
Essa probabilidade está associada a um valor de = 1 – 0,9544 = 0,0456 e é chamada

de p-valor.
Para a tomada de decisão, precisamos compreender o significado desse p-valor. O p-valor é
a probabilidade de rejeitarmos H0 quando ele é verdadeiro. Ou seja, dizemos que 2.000, quando
de fato não é. Nesse caso, temos uma probabilidade de 4,56% de estarmos errando se afirmarmos
que a renda média familiar mudou nesses dois anos.
Por outro lado, podemos dizer que temos uma confiança de 95,44% de que houve
mudança na renda média familiar do município. O que decidir? Tradicionalmente, quando o
p-valor for menor do que 5%, decidimos por H1. Nessas circunstâncias, diríamos que houve,
sim, uma mudança na renda.
Mas esse padrão de 5% não deve ser tomado de maneira absoluta. A decisão deve depender
das consequências da gravidade da admissão da possibilidade de se estar cometendo um erro. Se as
consequências forem graves, talvez o tomador de decisões resolva ser mais rigoroso e só admitir H1
se o p-valor for menor do que 0,01, por exemplo. Isto é, ele deseja uma confiança de, no mínimo,
99% para rejeitar H0.
Por outro lado, se as consequências da tomada de decisão incorreta forem menos traumáti-
cas, ele pode admitir tomar a decisão com 90% de confiança e, portanto, somente se o p-valor for
maior do que 0,10 ele não admitirá a hipótese alternativa.
Esse é o procedimento-padrão para testagem de hipóteses estatísticas.
8.6.4 Variações no procedimento de testagem de hipóteses

para a média populacional μ
Nesse procedimento adotado, duas variações importantes podem acontecer:
(i) Pode-se supor, no exemplo, que haveria uma mudança para maior na renda média men-
sal e, portanto, um teste unilateral deveria ter sido feito.
(ii) Não se conhece o valor de .
Analisando os dados para a suposição (i), devemos fazer o teste unilateral; assim, as hipóteses
estatísticas seriam estabelecidas como:
H0: = 2.000
H1: > 2.000
A estatística do teste é a mesma, e o seu valor, determinado com base nos valores amostrais,
foi de Z = 2. Agora, (1 – ) compreende toda a área da curva normal de - até 2, que corresponde
a P( Z ≤ 2) = 0,9772. Então, ou o p-valor = 1 – 0,9772 = 0,0228.
O tomador de decisões tem agora um risco menor em afirmar que a renda familiar aumentou.
O seu nível de confiança subiu para 97,7%. Por que isso ocorreu no teste unilateral? O nível de con-
fiança cresceu porque foi agregada maior quantidade de informação por meio do direcionamento do
teste. Já supúnhamos que haveria aumento da renda.
Para o caso de não se conhecer o valor de , ele deve ser estimado com base nos dados da
amostra, tendo como estimador o desvio-padrão amostral, S. Vamos supor que o valor calculado
de S na amostra tenha sido de R$ 500,00. Tomamos o mesmo valor dos primeiros dois exemplos
apenas para comparação, é preciso enfatizar que o valor de S da amostra não tem qualquer corres-
pondência com algum valor determinado no censo.
Vamos manter o teste unilateral, a exemplo do último exercício:
H0: = 2.000
H1: > 2.000
Uma vez que desconhecemos o desvio-padrão, a estatística do teste agora muda, e a distri-
X–
buição de não é mais normal, mas sim uma distribuição “t” com n – 1 graus de liberdade.
S/ n
O valor de “t” será determinado, com base nos dados amostrais, como:
2.200 – 2.000 200

t= = =2
500 / 25 100
O nível de significância de t = 2 com 24 graus de liberdade é aproximadamente 0,028. Esse

valor pode ser determinado por interpolação ou com o auxílio de uma planilha eletrônica para a
função distribuição “t”.
Inferência 119
Com p-valor de 0,028, o nível de confiança para a rejeição de H0 será de 97,1%. Observe que
esse valor é a favor de H1, mas com menos força do que o 97,7% para o caso de conhecermos o valor
de σ, porque, quando temos conhecimento dele, possuímos mais informação agregada.
Se o teste “t” tivesse sido realizado para a hipótese bilateral, o p-valor seria igual a 0,057 e o
nível de confiança de 94,3%, porque não teríamos a informação de nem a fornecida pelo direcio-
namento do teste.
8.6.5 Utilização da distribuição “t” para teste de hipóteses

Vamos supor que queremos testar a hipótese de que a média do peso da população seja igual
a 65 kg, baseados nos dados amostrais de uma amostra de 25 elementos, que resultou em média da
amostra de 70 kg e desvio-padrão, também calculado na amostra, de 10 kg.
Podemos usar dois procedimentos para responder a essa questão:
• Procedimento 1: utilizando o intervalo de confiança.
Verificamos que o intervalo de confiança para 95% para a média é (65,9; 74,1). Então, a
média da população deve ser de, no mínimo, 65,9 kg, e assim podemos rejeitar a hipótese
de que a média da população possa ser igual a 65 kg.
• Procedimento 2: utilizando a estatística do teste.
No caso de conhecermos a variância populacional (σ2), utilizamos a estatística “z”, que é
dada por:
– –
Z= X = X
X
n
Mas, se não conhecemos “σ”, ele deve ser substituído por “S”, que o estima, e a estatística
do teste será dada por:
–
t= X– = X
SX S
n
E essa estatística estará associada a “n – 1” graus de liberdade, em que “n” é o tamanho
da amostra.
Para esse exemplo, o valor de “t” calculado com base nos dados da amostra será:
70 – 65 5
t= = = 2,5
10 2
5
Observamos na tabela que o valor de “t” para 24 graus de liberdade e 95% de confiança
é igual a 2,064. Como o valor calculado de “t” é maior do que o valor tabelado, isto é,
tcalc.= 2,5 > ttab.= 2,064, devemos rejeitar a hipótese de que a média populacional possa
ser igual a 65 kg.
8.6.6 Testes de hipóteses para outros parâmetros

Estudamos neste capítulo como realizar testes de hipóteses para a média populacional μ.
O procedimento passo a passo seguido foi:
i. estabelecimento das hipóteses estatísticas;
ii. cálculo da estatística do teste – ;
iii. determinação do p-valor.
Esse procedimento vale para as testagens de hipótese sobre os parâmetros estabelecidos no
quadro a seguir, a exemplo do que foi realizado com intervalos de confiança.
Parâmetro Parâmetro θ Estimador ô Erro-padrão Estatística
Média
X n Z
conhecido
Média
X S n tn–1
desconhecido
Proporção P P ^^
PQ/n Z
Diferença de 2 2
1
+
2
médias com 1 e – X1 – X 2 Z
1 2
n1 n2
2
conhecidos
Diferença de S12 S22

médias com σ1 e 1
– 2
X1 – X 2
n1
+ n2
tn1 + n2 –2
σ2 desconhecidos
Diferença de P1Q1 P2Q2

proporções
P1 – P2 P1 – P 2 + n2
Z
n1
Para efeito de ilustração, construiremos um exemplo de testagem de hipóteses para a dife-

rença entre duas médias.
Exemplo
Uma empresa de consultoria foi contratada para verificar se os níveis
salariais de trabalhadores não qualificados de uma indústria eram dife-
rentes com relação ao sexo. Suponhamos que as mulheres tivessem uma
média salarial menor do que a dos homens. Uma amostra estratificada
proporcional por sexo foi coletada e os dados resultantes do levanta-
mento amostral são apresentados na seguinte tabela:
Salário médio Desvio-padrão Tamanho da

Sexo
amostral amostral amostra
Feminino X1 = R$ 590,00 S1 = R$ 8,00 n1= 10
Masculino X2 = R$ 600,00 S2 = R$ 9,00 n2 = 20

Inferência 121
• Hipóteses estatísticas:
H 0: 1
= 2
H1: 1
< 2
Essas hipóteses podem ser reescritas como:

H0: 1
– 2
=0
H1: 1
– 2
<0
• Estatística do teste:
(X 1 – X 2) – ( – )
t= 1 2
“t” com 10 + 20 – 2 = 28 g.l.
S12 S22
+
n1 n2
(590 – 600) – 0 –10

t= = = -3,09
8 2
9 2
3,233
+
10 20
Observe que testar as hipóteses

H0: 1
= 2
H1: 1
< 2
é equivalente a testar as hipóteses

H0: 1
– 2
=0
H1: 1
– 2
<0
Por isso, o valor “0” deve entrar no cálculo de “t” no lugar de 1
– .
2
• Cálculo do p-valor:
O valor de probabilidade associado a t = -3,09 e 28 graus de liberdade é

aproximadamente o que segue:
p-valor = 0,0022
O nível de confiança será 1 – 0,0022 = 0,998 ou 99,8%.

Conclusão: com nível de confiança de 99,8%, podemos concluir que de
fato o nível salarial das mulheres da indústria pesquisada é menor do
que o dos homens.
Neste capítulo, estudamos as principais técnicas de inferência estatística utilizadas em aná-

lises sociológicas que usam métodos quantitativos de indução. Os intervalos de confiança e os
testes de hipóteses podem ser úteis para a avaliação de situações mais complexas quando usamos
métodos quantitativos em sociologia.
Atividades
1. A construção de intervalos de confiança para a média pode ser feita por meio da distribui-
ção normal padrão ou da distribuição “t” de Student. Qual é a diferença de utilização das
duas distribuições?
2. Em certo estado, 840 dos 2.000 eleitores inquiridos em uma sondagem sobre a intenção de
voto declararam votar no candidato do partido A. Construa um intervalo de 95% para a
proporção de votos do candidato e responda: qual é a margem de erro da estimativa e qual
é o erro estatístico admitido? Apresente o significado desses dois parâmetros.
3. Diversas políticas salariais em relação às filiais de uma rede de supermercado estão asso-
ciadas ao gasto médio dos clientes em cada compra. Deseja-se comparar esse parâmetro
para uma filial, por meio de uma amostra de 64 clientes cada, sendo que a média obtida na
amostra foi de R$ 70,00. Sabe-se que o desvio-padrão é igual a R$ 32,00. É possível afirmar
que o gasto médio na filial seja maior do que R$ 65,00 com 10% de significância? Justifique.
9
Estudos demográficos
Nós, os estatísticos, somos como os músicos.

Onde todos só veem cifras, o maestro escuta a melodia, e onde todos só
veem números, nós enxergamos a realidade.
Giorgio Mortara (1885-1967)1
9.1 Demografia
A demografia é uma disciplina científica dedicada ao estudo das populações humanas, que
engloba tamanho, composição, distribuição, densidade, crescimento e outras características estru-
turais e socioeconômicas de uma população, bem como as causas e consequências de mudança
nesses elementos.
A evolução da tendência demográfica tem implicações diretas na determinação das políticas
públicas e na partilha da arrecadação tributária pelos estados. Os principais instrumentos de medidas
demográficas são coeficientes ou taxas, razões, proporções, medidas de coorte2 e medidas em dado
momento e em diferentes períodos.
A demografia inclui uma análise estática e uma análise dinâmica da população. A primeira
estuda a população em um ponto fixo no tempo, enquanto a segunda abrange as mudanças das
populações e de seus componentes.
Os estudos demográficos podem ser realizados por meio da observação de todos os elemen-
tos da população e, nesse caso, esses levantamentos são chamados de censo ou de recenseamento.
Quando somente uma parte representativa da população é observada, o levantamento é conhecido
como amostragem.
Os primeiros recenseamentos de que se tem notícia foram realizados na China, por volta do
ano 2200 antes de Cristo. Vários censos também foram feitos pelos judeus – o Livro dos Números,
no Pentateuco, por exemplo, é o resultado de um censo realizado por Moisés. O Império Romano
também promoveu diversos censos com objetivos administrativos e políticos. Jesus Cristo nasceu em
Belém em razão da origem de Maria e José, que para lá se dirigiram para serem recenseados.
No entanto, somente no século XVIII a análise dos levantamentos populacionais recebeu
tratamento científico mais adequado, com base nos censos realizados nos países escandinavos:
Suécia, em 1749; Noruega, em 1760 e; Dinamarca, em 1769. Os Estados Unidos realizaram seu
primeiro censo em 1790, logo após a sua independência. A Inglaterra e a França fizeram seus
1 Estatístico italiano, coordenador do censo no Brasil em 1940.

2 Em estatística, coorte é um conjunto de pessoas que tem em comum um evento que se deu no mesmo período.
primeiros levantamentos populacionais nos primeiros anos do século XIX, e a Itália, na segunda
metade desse século.
No Brasil, o primeiro recenseamento realizado em bases científicas foi feito em 1940, tendo
como assessor técnico o demógrafo italiano Giorgio Mortara, que veio ao Brasil fugindo de per-
seguição política pelo regime de Mussolini. Antes desse censo, outros três levantamentos foram
realizados: em 1872, em 1890 e em 1920. Para a realização dos sete censos em 1940 (demográfico,
agrícola, industrial, comercial, dos transportes e comunicações, dos serviços e social), Mortara
organizou no Instituto Brasileiro de Geografia e Estatística (IBGE) o laboratório de estatística, que
proporcionou grande avanço na ciência da demografia no Brasil.
As técnicas demográficas podem ser compreendidas nos estudos de: (i) estimativa da po-
pulação; (ii) taxas demográficas; (iii) fenômenos demográficos e; (iv) estrutura das populações.
Os três primeiros itens dizem respeito à chamada dinâmica populacional, e o restante, à estática
populacional, todavia não faz parte do escopo deste livro o estudo das doutrinas populacionais.
9.2 Estrutura e estimativas da população

Os recenseamentos a partir de 1940, no Brasil, deveriam ser realizados em períodos fixos
de 10 em 10 anos. Ocorre que, em 1990, o Governo Federal do então presidente Fernando Collor
de Melo não conseguiu organizar o país para a realização do censo no ano de final zero, que foi
feito apenas em 1991. Esse fato cria um grande problema quando é necessário trabalhar com
estimativas, dado que a quebra da sequência de intervalo de 10 anos faz com que os modelos de
projeção fiquem mais complexos.
Os censos demográficos objetivam fazer a contagem da população e determinar a estrutura
socioeconômica de um país. Entende-se por população o conjunto de indivíduos que habitam uma
área ou zona geográfica em determinado tempo. Os recenseamentos são operações muito amplas
e onerosas, cujos resultados demoram a ser publicados, por essa razão dificilmente eles podem ser
repetidos com frequência menor do que 10 anos.
Nos períodos intercensitários, é necessário o conhecimento de dados sobre a população
para o planejamento governamental. Uma forma de se realizar estimativas do tamanho da po-
pulação seria adicionar à população recenseada o crescimento natural e o saldo líquido de mi-
gração. Entende-se por crescimento natural a diferença entre os nascimentos e os óbitos, e por
saldo líquido de migração a diferença entre os que entram no país (imigrantes) e os que saem dele
(emigrantes). Assim, para estimar a população no tempo 2, P2, soma-se à população no tempo 1,
P1, o crescimento natural (N – O) e o saldo líquido de migração (I – E).
P2 = P1 + (N – O) + (I – E)
Ocorre, no entanto, que essas estatísticas não são definitivas. Há, ainda, um sub-registro
de nascimentos e óbitos, da mesma forma que os registros de imigração e emigração são pouco
confiáveis no país. Dessa maneira, esse método, conhecido como método dos componentes, não é o
mais adequado para se fazer estimativas populacionais ano a ano.
Estudos demográficos 125
Após a realização do censo de 2010, o IBGE fez diversas estimativas da população no Brasil.
A tabela a seguir apresenta aquelas feitas para o ano de 2018, publicadas no Diário Oficial da União
e tendo como referência o dia 1º de julho de 2018, segundo os Estados da União e as cinco Regiões
do Brasil, totalizando os 5.570 municípios.
Tabela 1 – População estimada, segundo as Grandes Regiões e as Unidades da Federação – 2018
Brasil 208.494.900
Norte 18.182.253
Rondônia 1.757.589
Acre 869.265
Amazonas 4.080.611
Roraima 576.568
Pará 8.513.497
Amapá 829.494
Tocantins 1.555.229
Nordeste 56.760.780
Maranhão 7.035.055
Piauí 3.264.531
Ceará 9.075.649
Rio Grande do Norte 3.479.010
Paraíba 3.996.496
Pernambuco 9.496.294
Alagoas 3.322.820
Sergipe 2.278.308
Bahia 14.812.617
Sudeste 87.711.946
Minas Gerais 21.040.662
Espírito Santo 3.972.388
Rio de Janeiro 17.159.960
São Paulo 45.538.936
Sul 29.754.036
Paraná 11.348.937
Santa Catarina 7.075.494
Rio Grande do Sul 11.329.605
(Continua)
Centro-Oeste 16.085.885
Mato Grosso do Sul 2.748.023
Mato Grosso 3.441.998
Goiás 6.921.161
Distrito Federal 2.974.703
Fonte: Brasil, 2018.
As tabelas detalhadas dos municípios por estado, de acordo com o sexo e a idade, podem
ser encontradas na página do IBGE3. A estrutura ou a distribuição da população pode ser repre-
sentada pelas pirâmides etárias, como será visto mais adiante neste capítulo.
9.3 Estimativas populacionais

Como comentado anteriormente, o método dos componentes não é o mais adequado para a
realização das estimativas do crescimento populacional, devido à precariedade dos dados necessá-
rios para a sua elaboração. Dessa forma, foram criados métodos matemáticos para avaliar o desen-
volvimento de uma população, partindo da suposição de que ela cresce segundo um determinado
modelo matemático, definido de acordo com observações sobre o seu comportamento no passado
e no presente.
Esses modelos são utilizados para interpolar estimativas populacionais entre dois períodos
censitários, ou para extrapolar resultados futuros. Há várias propostas de modelos de estimativas
de populações que devem sempre ser corrigidas a cada novo levantamento censitário, para a verifi-
cação de que o modelo proposto é adequado e a realização das correções necessárias.
9.3.1 Modelo aritmético

O modelo de crescimento aritmético é o mais simples e se baseia na suposição de crescimen-
to constante da população. Ele serve mais como ponto de partida para a apresentação dos vários
modelos do que para uso real. A suposição de crescimento constante leva à construção de um mo-
delo baseado na progressão aritmética.
Se P0 for a população recenseada em um primeiro censo no tempo t0, e Pn a população de
um censo seguinte realizado no tempo tn, o crescimento médio anual será dado por sua taxa de
crescimento, “b”:
Pn – P0
b=
tn – t0
3 Disponível em: https://www.ibge.gov.br/estatisticas-novoportal/sociais/populacao/9103-estimativas-de-populacao.

html?=&t=resultados. Acesso em: 31 out. 2018.
Se o objetivo é estimar a população P no ano “t” desse período, seu valor será dado por:
Pn – P0
P = P0 + (t – t0)
tn – t0
Os dados da tabela a seguir apresentam os valores da população brasileira em 2000 e em 2007:

Tabela 2 – População brasileira: 2000 e 2007
População – Brasil
Ano População
2000 169.590.693
2007 183.987.291
Fonte: IBGE.
A população de 2005 poderia ser calculada pela seguinte interpolação:
P2007 – P2000
P2005 = P2000 + (2005 – 2000) =
2007 – 2000
P2005 = 169.590.693 + 183.987.297 – 169.590.693 (5) = 179.873.977

2007 – 2000
Para determinarmos uma estimativa da população para 2010, será necessário supor que a
taxa de crescimento populacional para o próximo período será a mesma do período anterior con-
siderado, ou seja:
P2007 – P2000 P – P2007
b= = 2010 = 2.056.656,9
t2007 – t2000 t2010 – t2007
Então:
P2010 = P2007 + 2.056.656,9(3) = 190.157.261
Ou seja, com base nos dados de 2000 e 2007, podemos estimar, segundo o modelo aritméti-
co, uma população de 190.157.261 habitantes no Brasil em 2010.
O censo de 2010 determinou que o tamanho da população brasileira era de 190.732.694.
Apesar de o modelo aritmético não ser o mais adequado, a projeção realizada foi bastante razoável.
A principal crítica a esse modelo é que dificilmente encontraremos uma população com cresci-
mento constante, conforme o modelo linear.
9.3.2 Modelo geométrico

Outra proposta de modelo matemático de estimativa de crescimento populacional é o
modelo geométrico. Nesse caso, sendo “r” a taxa de crescimento anual, o modelo será dado por:
Pt = P0(1 + r)(t –t )
0
A taxa será, então, calculada por meio de operações matemáticas simples, conforme segue:
Pt P P
= (1 + r)(t –t ) .:. ( 1 + r) = (t –t ) t .:. r = (t –t ) t – 1
0 0 0
P0 P0 P0
Se quisermos estimar a população do Brasil para 2010, segundo o modelo geométrico,

teremos:
r = (t –t ) Pt – 1 = 7 183.987.291 – 1 = 1,011707841 – 1 = 0,011707841

0
P0 169.590.693
Mantida a taxa de aproximadamente 1,2% de crescimento geométrico para os anos ante-

riores, a população estimada para 2010 foi de 190.525.527. Verificou-se que o IBGE apurou uma
população de 190.732.604, não muito diferente da estimada, como se pode comprovar pelos
cálculos apresentados a seguir:
P2010 = P2007(1,011707841)(3) = 183.987.291(1,011707841)(3) = 190.525.527
Nessa perspectiva, a estimativa da população brasileira para 2010 foi em torno de 2,4 mi-
lhões de habitantes, maior do que a feita pela projeção aritmética.
Segundo projeções do IBGE, a taxa de crescimento populacional para o Brasil em 2020 deve
chegar a aproximadamente 0,71%, taxa de crescimento negativo, portanto, seguindo uma tendên-
cia mundial de arrefecimento do crescimento populacional (IBGE, 2018d).
9.3.3 Outros modelos

Existem várias outras propostas de escolha de modelos para se fazer a estimativa de cres-
cimento populacional. Alguns modelos mais complexos levam em conta taxas de fecundidade,
método do coeficiente específico de mortalidade por idade, método da razão, método de com-
ponentes de coorte, métodos baseados na economia e outros de determinação indireta, que são
indicados para pesquisas mais aprofundadas. Um método muito utilizado é o da equação logís-
tica, cuja indicação genérica é apresentada a seguir:
K
P=
1 + ea–bt
Em que:
2P0.P1.P2 – P12 . (P0 + P2)

K=
P0 . P2 – P12
Aqui se levam em consideração três observações populacionais no tempo, “e” é a base do

logaritmo neperiano4 e “a” e “b” são determinados pelas expressões:
1 K – P0 1 P (K – P1)
a= x log eb= x log 0
log e P0 n1 log e P1 (K – P0)
Em que: n1 corresponde ao intervalo de tempo entre P1 e P0, ou entre P2 e P1. Se utilizarmos o

modelo logístico para fazer a projeção da população brasileira de 1980 com base nos dados de 1950
(51,944 milhões), 1960 (70,119 milhões) e 1970 (93,139 milhões), o resultado obtido seria uma
previsão de população de aproximadamente 121 milhões de habitantes. O censo de 1980 indicou
uma população de 119 milhões, bem próxima do valor estimado, mas já com a indicação de uma
diminuição do ritmo de crescimento populacional a partir daqueles anos (IBGE, 2018d).
A forma da curva logística para crescimento é a apresentada na sequência:
Figura 1 – Gráfico de curva logística para o crescimento
Pn
Ps Ps
P=
Ps 1 + 1a + bt
2 T3 – T1 = 2x (T2 – T1)
P1
P2 P3 P22 P1 x P3
T2–T1 Tn
T3 – T1
Temos que “b” é a razão de crescimento da população, “K” é o limite superior, isto é, o
ponto de saturação da população, “t” é o tempo e “a” um valor tal que para t = a/b a curva passa
pelo ponto de inflexão.
9.4 Taxas demográficas

Uma taxa demográfica é uma medida relativa de um determinado fenômeno, que permite
compará-lo nas suas variações no espaço e no tempo. Quando dizemos que a taxa bruta de nata-
lidade brasileira é de 14 pessoas por mil e que, em 1900, ela era de 46 por mil, estamos afirmando
que para cada 1.000 pessoas da população brasileira nascem hoje 14 novos brasileiros, enquanto
em 1900 nasciam 46 por 1.000. A atual taxa brasileira é comparável com a taxa americana em 2004
(14,01 por mil).
Podemos, então, reduzir os fenômenos demográficos a um mesmo número de habitantes,
geralmente 1.000, para podermos fazer comparações no tempo e no espaço.
4 A explicação da utilização do algarismo neperiano “e” e do logaritmo neperiano está fora do escopo deste livro.
O objetivo aqui é apenas ilustrar esse modelo de estimativa populacional de frequente utilização.
9.4.1 Taxa de natalidade

A taxa de natalidade de um determinado ano é obtida dividindo-se o número de nascidos
vivos pela população média do país, estado ou região naquele ano e multiplicando-se o resultado
por 1.000. A população média é aquela calculada ou estimada em 30 de junho do ano em questão.
Para esse cálculo, é necessário conhecermos o número de novos nascimentos. Embora seja
obrigatório por lei, o registro civil do nascimento nem sempre é feito de maneira regular, o que nos
leva sempre a uma subestimação do valor real da taxa de nascimento, particularmente nas regiões
menos organizadas do país. De maneira aproximada, a taxa de natalidade é uma medida relativa
da velocidade em que ocorrem os nascimentos em uma população. Essa taxa é influenciada pela
composição da população por idade e sexo, pela organização familiar, pela fertilidade, entre outros
determinantes. A sua expressão é:
Número de nascidos vivos x 1.000
In =
População média anual
9.4.2 Taxa de fecundidade

Uma das mais importantes taxas específicas relacionadas à natalidade é a de fecundidade,
que pode ser definida como a relação entre os nascimentos multiplicados por mil com o total da
população feminina ou com apenas uma parte dela. Chama-se taxa de fecundidade total a que se
obtém dividindo-se o total de nascimentos (vivos ou mortos) multiplicados por 1.000 pelo total
de mulheres na idade de 15 a 49 anos. A taxa de fecundidade é dita efetiva quando os nascimentos
considerados são apenas os vivos. Assim:
Total de nascimentos x 1.000

If =
População feminina média de 15 a 49 anos
Em um período de aproximadamente 50 anos, a taxa de fecundidade (número de filhos por

mulher por período reprodutivo) no Brasil caiu de 6,3 (censo de 1960) para 1,77 em 2018, segundo
a agência de notícias do IBGE, que informa também que em 2060 o número médio de filhos por
mulher deverá reduzir para 1,66. Esse valor é comparável ao da China, que tem a política de filho
único imposta pelo governo, devido à sua grande população de cerca de 1,3 bilhão de habitantes.
Com a taxa de fecundidade nesse nível, a população brasileira deverá começar a diminuir antes do
esperado, daqui a cerca de 30 anos. Essa queda na fecundidade acelera o envelhecimento da popu-
lação e afeta o sistema previdenciário que, daqui a alguns anos, estará com saldo negativo, ou seja,
com mais dependentes do que contribuintes na balança (IBGE, 2018d).
9.4.3 Taxa de mortalidade

A taxa de mortalidade é calculada como a razão entre o número de óbitos ocorridos em um
ano pela população média anual. Embora os registros de falecimentos sejam mais confiáveis do que
os de nascimentos, também aqui informações são perdidas, o que não permite o cálculo exato da
taxa de mortalidade.
Número de óbitos x 1.000

Im =
População média anual
Uma taxa de mortalidade específica e muito importante é a taxa de mortalidade infantil. Ela
é obtida pela razão entre o número de óbitos no primeiro ano de vida sobre o total da população
nessa idade para um determinado ano.
Óbitos menores de um ano x 1.000

Imi =
Total de nascidos vivos
A taxa de mortalidade infantil é considerada o principal indicador de qualidade da saúde

pública, segundo a Organização Mundial de Saúde (OMS). A taxa tem diminuído bastante no
Brasil nos últimos anos: em 1990, entre crianças de até 1 ano de idade ela era de 46,9 mortes para
cada mil, já em 2016 esse índice caiu para 13,3, praticamente um terço do patamar anterior. No
mesmo período, a redução da mortalidade entre crianças de até 5 anos de idade foi de cerca de
67%. Mas a situação não é uniforme no país. Por exemplo, enquanto em São Paulo a taxa de mor-
talidade infantil foi de 9,9, a situação é mais crítica em regiões como o semiárido nordestino, que
alcançou taxas acima de 40 no mesmo período. No Amapá, por exemplo, a taxa em 2016 era de
23,2 óbitos no primeiro ano de vida entre 1.000 nascidos vivos (IBGE, 2018d).
O aprimoramento da assistência ao parto e à gestante, a ampliação do acesso ao pré-natal,
a expansão do saneamento básico, o uso de água tratada, a utilização de recursos médicos mais
avançados e a vacinação em massa de crianças pelo Sistema Único de Saúde (SUS) são os princi-
pais motivos para a queda da taxa de mortalidade infantil. Para efeitos comparativos, observa-se
também a queda da taxa de mortalidade infantil em outros países, como: Japão, 3 por mil; Cuba,
5,8; Chile, 7,8; Argentina, 16,5 e; México, 19,7. Por outro lado, há países com enormes taxas de
mortalidade infantil, como vários da África e no Afeganistão, em que suas taxas superam 100
óbitos por 1.000 habitantes.
Outras taxas relacionadas à mortalidade infantil são: taxa de mortalidade neonatal (óbitos
de crianças com menos de 28 dias), taxa de mortalidade infantil tardia (óbitos de crianças de 28
dias até menos de 1 ano), taxa de mortalidade perinatal (óbitos fetais tardios + óbitos de crianças
com menos de uma semana), taxa de natimortalidade (óbitos fetais tardios ocorridos no período
de 1 ano).
As estatísticas vitais utilizam-se também de outra taxa, denominada taxa de mortalidade
materna, que é a razão entre os óbitos de causas puerperais (aquelas ocorridas durante a gestação
ou até 42 dias após o parto) na população feminina divididos pelo número de nascidos vivos, ocor-
ridos no ano e área especificados, vezes 100.000.
Óbitos maternos puerperais x 100.000

Imm =
Total de nascidos vivos
Um dos objetivos do milênio estabelecidos pela ONU foi o de reduzir em três quartos, entre
1990 e 2015, a taxa de mortalidade materna. Para o Brasil, isso significou sair da taxa de 64 óbitos
maternos a cada 100 mil nascidos vivos em 1990 e alcançar 48 óbitos a cada 100 mil nascidos vivos
em 2015. Dados levantados no Brasil em 2016 revelam que essa taxa foi em torno de 69, não tendo,
portanto, o país alcançado a meta proposta. Essa mesma taxa é calculada em 10 óbitos maternos
em 100.000 como média mundial.
Em países/regiões desenvolvidos, as taxas podem variar de 5 a 15 por 100.000 nascidos
vivos, e em países/regiões subdesenvolvidos, podem ter um mínimo de 80 por 100.000 nasci-
dos vivos, podendo chegar a 500 mortes por 100.000 nascidos vivos, como no caso de alguns
países africanos.
9.5 Fenômenos demográficos

A demografia tem a finalidade de estudar o estado e o movimento da população. O movi-
mento populacional é o resultante de fenômenos demográficos como nascimento, óbitos, entre
outros. O estudo das taxas não é suficiente para a compreensão dos fenômenos sociais. Cada
ciência destaca da realidade social alguns aspectos e os estuda em profundidade, utilizando-se
de métodos próprios.
O estudo da mortalidade é um dos mais importantes na análise demográfica. Além de ser
um dos componentes da estrutura da população, os seus determinantes ajudam a compreender o
nível de organização social de um grupo, as suas prioridades e de seus governantes, o estado geral
de higiene e de saúde das comunidades, os progressos na medicina e como eles alcançam as par-
celas da população de uma região ou de um país, além da capacidade de um povo de se prevenir
contra as causas de mortalidade.
Desde quando nasce, o ser humano está exposto a dois tipos de riscos de morte. O pri-
meiro, dito endógeno, caracteriza-se pelo risco que a criança traz consigo ao nascer ou que so-
fre durante o parto, e é consequência principal da própria constituição da criança, das condições
pré-natais, de más-formações ocasionais ou das condições do parto. Esse risco persiste até o final
do primeiro ano de vida, razão pela qual a taxa de mortalidade infantil é determinada levando-se
em conta os óbitos nessa faixa etária. Países com menor grau de desenvolvimento produzem maior
número de óbitos devido a causas endógenas.
Depois de vencido o primeiro ano de vida, a criança fica exposta a um outro tipo de risco,
relacionado às chamadas causas exógenas, que derivam fundamentalmente do ambiente em que
a criança se desenvolve. São agressões que a criança sofre do meio físico e social, como acidentes
respiratórios e corporais (asfixia, queda, fogo, infecções), falta de cuidado com a higiene, má e de-
ficiente alimentação, além de precárias condições de saúde.
No ano 2000, representantes de 189 países da ONU reuniram-se em Nova Iorque, na maior
reunião de dirigentes mundiais de todos os tempos, e se comprometeram a cumprir oito grandes
objetivos até o ano de 2015, conhecidos como os Objetivos do Milênio (ONUBR, 2010), sendo eles:
Objetivos do Milênio
1. Acabar com a fome e a miséria.

2. Educação básica e de qualidade para todos.
3. Igualdade entre sexos e valorização da mulher.
4. Reduzir a mortalidade infantil.
5. Melhorar a saúde das gestantes.
6. Combater a aids, a malária e outras doenças.
7. Qualidade de vida e respeito ao meio ambiente.
8. Todo mundo trabalhando pelo desenvolvimento.
Figura 2 – Objetivos do Milênio: 2000-2015
1 2 3 4
ACABAR COM A EDUCAÇÃO BÁSICA E IGUALDADE ENTRE REDUZIR A

FOME E A MISÉRIA. DE QUALIDADE PARA SEXOS E VALORIZAÇÃO MORTALIDADE
TODOS. DA MULHER. INFANTIL.
5 6 7 8
MELHORAR A SAÚDE COMBATER A AIDS, A QUALIDADE DE VIDA TODO MUNDO

DAS GESTANTES. MALÁRIA E OUTRAS E RESPEITO AO MEIO TRABALHANDO PELO
DOENÇAS. AMBIENTE. DESENVOLVIMENTO.
Fonte: ODM, 2018.
Para cada um dos objetivos, algumas metas foram traçadas. Para o Objetivo 4, foi determi-
nada a seguinte meta: reduzir em dois terços, entre 1990 e 2015, a mortalidade de crianças menores
de 5 anos. Foram escolhidos os seguintes indicadores para verificação do desenvolvimento dessa
meta: (i) taxa de mortalidade de crianças menores do que 5 anos; (ii) taxa de mortalidade infantil
e; (iii) proporção de crianças de 1 ano vacinadas contra o sarampo.
Segundo o Programa das Nações Unidas para o Desenvolvimento (PNUD):
O Brasil reduziu a mortalidade infantil (crianças com menos de um ano) de
4,7% em 1990 para 2,5% em 2006. Mas a desigualdade ainda é grande: crian-
ças pobres têm mais do que o dobro de chance de morrer do que as ricas, e as
nascidas de mães negras e indígenas têm maior taxa de mortalidade. Por região,
o Nordeste apresentou a maior queda nas mortes de zero a cinco anos, mas a
mortalidade na infância ainda é quase o dobro da média nacional, de acordo
com o relatório Situação Mundial da Infância 2008, do UNICEF. (PNUD, 2008)
Verifica-se, portanto, que os fatores biológicos e físicos para a mortalidade, e em particular

para a mortalidade infantil, podem ser agravados por fatores sociais, como hábitos alimentares,
hábitos de higiene, habitat, meio social, nível de instrução e nível de renda, entre outros.
Em 2015, findado o período dos ODM, os países tiveram a oportunidade de adotar uma
nova agenda de desenvolvimento sustentável e chegar a um acordo global sobre a mudança climá-
tica. As ações tomadas em 2015 resultaram nos novos Objetivos de Desenvolvimento Sustentável
(ODS), que se baseiam nos oito Objetivos de Desenvolvimento do Milênio.
Foram estabelecidos, então, novos 17 Objetivos de Desenvolvimento Sustentável e 169 metas
para serem cumpridas até 2030. Esses objetivos e metas demonstram a escala e a ambição dessa
nova agenda universal. Eles se constroem sobre o legado dos Objetivos de Desenvolvimento do
Milênio e pretendem concluir o que estes não conseguiram atingir, buscando concretizar os di-
reitos humanos de todos e alcançar a igualdade de gênero e o empoderamento das mulheres e
meninas. Eles são integrados e indivisíveis, e equilibram as três dimensões do desenvolvimento
sustentável: a econômica, a social e a ambiental (PNUD, 2018a).
Figura 3 – Objetivos de Desenvolvimento Sustentável: 2016-2030
Fonte: PNUD, 2018a.

Objetivos Globais
1. Acabar com a pobreza em todas as suas formas, em todos os lugares.
2. Acabar com a fome, alcançar a segurança alimentar e melhoria da nu-
trição e promover a agricultura sustentável.
3. Assegurar uma vida saudável e promover o bem-estar para todos, em
todas as idades.
4. Assegurar a educação inclusiva e equitativa e de qualidade, e promo-
ver oportunidades de aprendizagem ao longo da vida para todos.
5. Alcançar a igualdade de gênero e empoderar todas as mulheres
e meninas.
6. Assegurar a disponibilidade e gestão sustentável da água e saneamento
para todos.
7. Assegurar o acesso confiável, sustentável, moderno e a preço acessível
à energia para todos.
8. Promover o crescimento econômico sustentado, inclusivo e susten-
tável, emprego pleno e produtivo e trabalho decente para todos.
9. Construir infraestruturas resilientes, promover a industrialização in-
clusiva e sustentável e fomentar a inovação.
10. Reduzir a desigualdade dentro dos países e entre eles.
11. Tornar as cidades e os assentamentos humanos inclusivos, seguros,
resilientes e sustentáveis.
12. Assegurar padrões de produção e de consumo sustentáveis.
13. Tomar medidas urgentes para combater a mudança do clima e
seus impactos.
14. Conservação e uso sustentável dos oceanos, dos mares e dos recur-
sos marinhos para o desenvolvimento sustentável.
15. Proteger, recuperar e promover o uso sustentável dos ecossis-
temas terrestres, gerir de forma sustentável as florestas, combater a
desertificação, deter e reverter a degradação da terra e deter a perda
de biodiversidade.
16. Promover sociedades pacíficas e inclusivas para o desenvolvimento
sustentável, proporcionar o acesso à justiça para todos e construir insti-
tuições eficazes, responsáveis e inclusivas em todos os níveis.
17. Fortalecer os meios de implementação e revitalizar a parceria global
para o desenvolvimento sustentável.
9.6 Estrutura das populações

Uma forma de compreender melhor uma população é aliar a contagem de habitantes a
suas principais características, sendo que as mais importantes são o sexo e a idade. Planejamentos
socioeconômicos necessitam dessas informações para, por exemplo, promover a criação de novos
empregos, em razão da chegada de mão de obra ao mercado.
A representação dessas informações pode ser feita, dependendo do objeto de estudo, (i) por
meio de indicadores, como a taxa de masculinidade, a razão de dependência ou a expectativa de
vida ou; (ii) por meio da pirâmide etária.
A taxa de masculinidade (razão de sexo) é definida como o número de homens para cada
grupo de 100 mulheres, na população residente em determinado espaço geográfico, em um ano
considerado, para toda a população ou para alguma faixa etária específica, conforme segue:
Número de homens
Imasc. = x 100
Número de mulheres
A razão de sexo por ocasião do nascimento é maior do que 100, isto é, nascem mais homens
do que mulheres. Durante a vida, essa situação se modifica por várias razões. Já no final do primeiro
ano de vida, a taxa de mortalidade infantil masculina é maior do que a feminina, no entanto não há
ainda estudos que esclareçam a razão dessa ocorrência. Mais tarde, a exposição masculina a riscos é
maior do que a feminina, e essa tendência segue até o final da vida.
A tabela a seguir apresenta, como exemplo, as razões de sexo das regiões Nordeste e Sul do
Brasil para pessoas em faixas etárias acima de 60 anos em 2010. Cada um dos valores representa o
número de homens para cada 100 mulheres.
Tabela 3 – Razão de sexo das pessoas em faixas etárias acima de 60 anos de idade, segundo as regiões
Nordeste e Sul e Unidades de Federação – 2010.
80 anos
Localidade 60 a 64 anos 65 a 69 anos 70 a 74 anos 75 a 79 anos
ou mais
Brasil 87,7 86,0 80,4 74,0 62,9
Nordeste 86,5 84,5 80,2 76,4 70,7
Maranhão 95,2 95,9 92,8 93,8 81,1
Piauí 89,6 90,1 84,7 82,9 77,3
Ceará 85,6 84,6 79,8 76,7 72,8
Rio Grande do
83,8 81,5 78,7 74,0 71,9
Norte
Paraíba 81,5 79,3 74,9 72,2 69,5
Pernambuco 80,3 77,0 73,2 69,3 65,0
Alagoas 86,8 84,5 79,9 74,3 69,6
Sergipe 87,3 82,8 77,0 70,6 65,2
Bahia 89,5 86,4 82,1 76,3 69,2

(Continua)
80 anos
Localidade 60 a 64 anos 65 a 69 anos 70 a 74 anos 75 a 79 anos
ou mais
Sul 89,2 85,8 80,6 71,5 57,6
Paraná 89,8 88,3 86,9 79,9 68,1
Santa
91,7 87,4 81,0 71,9 58,3
Catarina
Rio Grande do
87,6 83,0 75,7 65,3 50,5
Sul
Fonte: IBGE.
Várias análises podem ser feitas com relação à estrutura da população, com base na observa-
ção das razões de sexo. Observamos, na tabela anterior, que a partir dos 60 anos há uma forte queda
na relação entre o número de homens e o de mulheres, nas duas regiões consideradas e também
no Brasil. No Rio Grande do Sul, por exemplo, o número de mulheres é duas vezes o de homens,
quando se consideram pessoas com mais de 80 anos.
9.6.1 Razão de dependência

A razão de dependência expressa a proporção entre as pessoas potencialmente inativas
(crianças de 0 a 14 anos e idosos de 65 anos ou mais de idade) e as potencialmente ativas (com
idades entre 15 e 64 anos) ou disponíveis para as atividades econômicas.
Pop. menor de 15 anos + Pop. maior de 64 anos

RD = x 100
Pop. de 15 a 64 anos
Segundo a Revisão 2018 da Projeção da População do IBGE:

Em 2060, o percentual da população com 65 anos ou mais de idade chegará a
25,5% (58,2 milhões de idosos), enquanto em 2018 essa proporção é de 9,2%
(19,2 milhões). Já os jovens (0 a 14 anos) deverão representar 14,7% da popula-
ção (33,6 milhões) em 2060, frente a 21,9% (44,5 milhões) em 2018.
O envelhecimento afeta a razão de dependência da população, que é representa-
da pela relação entre os segmentos considerados economicamente dependentes
(pessoas com menos de 15 e 65 anos ou mais de idade) e o segmento etário po-
tencialmente produtivo (15 a 64 anos), que é a proporção da população que, em
tese, deveria ser sustentada pela parcela economicamente produtiva.
A razão de dependência da população em 2018 é de 44%. Esse indicador sig-
nifica que 44 indivíduos com menos de 15 e com mais de 64 anos dependem
de cada grupo de 100 pessoas em idade de trabalhar (15 a 64 anos). Em 2039, a
razão de dependência total deverá ser de 51,5%, quando a proporção de jovens
(25,7%) e idosos (25,8%) se equivalerá. Essa proporção total deverá aumentar
para 67,2% em 2060.
Ainda em 2010, a razão de dependência era de 47,1%, e atingiu seu valor mí-
nimo em 2017 (44,0%). A partir de então, essa proporção voltaria a crescer,
chegando, em 2028, a 47,4%, o mesmo nível de 2010. (IBGE, 2018a)
9.6.2 Expectativa de vida

A expectativa de vida ou a esperança de vida ao nascer pode ser considerada como o número
de anos que, em média, uma geração terá probabilidade de viver.
A esperança de vida pode ser calculada para idades específicas. Por exemplo, podemos cal-
cular qual é a expectativa de vida de um grupo de pessoas com 50 anos no Brasil. Essa medida
representará o número médio de anos a mais que vive uma pessoa daquela idade.
O aumento da esperança de vida ao nascer em combinação com a queda do nível geral da
fecundidade resulta nos aumentos absoluto e relativo da população idosa. De fato, a esperança
média de vida ao nascer no Brasil foi calculada, em 2018, como 76 anos de idade. A vida média ao
nascer, entre 1995 e 2018, incrementou-se em 7,5 anos, com as mulheres em situação bem mais
favorável do que a dos homens (72,3 para 79,6 anos, no caso das mulheres, e 64,8 para 72,4 anos,
para os homens). Nesse sentido, a taxa bruta de mortalidade, que representa a frequência com
que ocorrem os óbitos em uma população, caiu de 6,6%, em 1995, para 6,1%, em 2016. A taxa de
fecundidade total manteve sua tendência de declínio ao passar de 1,72 para 2,3 filhos por mulher
em idade fértil no mesmo período.
As pirâmides etárias são representações gráficas da população classificada por sexo e idade.
As barras da esquerda representam a população masculina, e as barras da direita representam a
população feminina. As faixas etárias estão indicadas no eixo vertical (y), de zero até 80 anos ou
mais, e no eixo horizontal (x) está a quantidade de população. As pirâmides etárias a seguir são
correspondentes a duas populações que apresentam perfis bastante diferentes.
Figura 4 – Gráfico de pirâmides etárias
+ de 80
75 – 80
70 – 74
65 – 69
60 – 64
55 – 59
50 – 54
45 – 49
40 – 44
35 – 39
30 – 34
25 – 29
20 – 24
15 – 19
10 – 14
5–9
0–4
% 4 2 0 2 4 8 6 4 2 0 2 4 6 8 %
Homens
Mulheres
As pirâmides com base estreita e cume largo correspondem a países com maior quantidade
de população adulta e envelhecida, caso dos países desenvolvidos que tendem para estabilização
demográfica. As pirâmides de base larga e forma triangular representam países com população
mais jovem e menor expectativa de vida, caso dos países subdesenvolvidos, em fase de crescimento
e ainda em transição demográfica.
No Brasil, a pirâmide etária tem se modificado rapidamente e caracteriza uma situação

intermediária entre as duas pirâmides apresentadas.
Os estudos demográficos são parte essencial do trabalho de compreensão das atividades
humanas de um país, de uma região ou de uma cidade e, portanto, são matéria-prima funda-
mental do cientista social. Assim, a associação do estudo da estrutura e estimativa da população
ao estudo dos fenômenos Demográficos introduz a leitura da realidade. Neste capítulo, foram
vistos os principais aspectos da demografia, algo que pode ser estendido com a consulta da vasta
literatura disponível em livros e na internet. Um dado importante da população brasileira é o ín-
dice de urbanização, que corresponde à percentagem de pessoas que vivem nas cidades. O Brasil
deixou de ser rural nos últimos 70 anos. Em 1950, a taxa de urbanização do país era de 36,2%,
passou a ser de 55,9 em 1970 e de 81,2 em 2000. O IBGE projeta uma taxa de urbanização de
90% a partir do ano 2020.
Atividades
1. Dos Oito Objetivos do Milênio citados a seguir, qual está mais relacionado aos estudos
demográficos? Em qual das áreas da demografia esse objetivo pode ser estudado? Justifique.
• Objetivo 1: Acabar com a fome e a miséria.

• Objetivo 2: Educação básica e de qualidade para todos.
• Objetivo 3: Igualdade entre sexos e valorização da mulher.
• Objetivo 4: Reduzir a mortalidade infantil.
• Objetivo 5: Melhorar a saúde das gestantes.
• Objetivo 6: Combater a aids, a malária e outras doenças.
• Objetivo 7: Qualidade de vida e respeito ao meio ambiente.
• Objetivo 8: Todo mundo trabalhando pelo desenvolvimento.
2. Apresente a relação entre a razão de dependência com a forma da pirâmide etária e a carac-
terística socioeconômica dos países.
3. Faça uma comparação entre os modelos de projeção populacional, aritmético e geométrico,

estabelecendo as limitações de cada um deles.
10
Indicadores sociais e econômicos
3% excede 2% em 50%, não em 1%.
Edward Denison (1840-1870)1
10.1 Indicadores sociais e Estado

Indicadores sociais são estatísticas que objetivam retratar o estado social em que vivem os
habitantes de uma região geográfica (município, região metropolitana, estado, país etc.) em um
determinado tempo. A análise de um conjunto de indicadores, que formam um sistema, pode auxi-
liar o analista social na sua tarefa de estudar fenômenos sociais, gerais ou particulares, de maneira
mais objetiva.
O seu desenvolvimento histórico está relacionado à necessidade de planejamento do setor
público ao longo do século XX. Seu aparecimento data da organização do Estado, mas somente a
partir de meados desse século a definição de indicadores ganhou corpo científico, quando a ciência
se preocupou com a organização de sistemas mais abrangentes de acompanhamento das transfor-
mações sociais por meio da medição do impacto das políticas públicas nas sociedades.
Não há ainda um consenso sobre os critérios de seleção dos aspectos que melhor retratam
as condições sociais das comunidades, mas já há uma tendência conceitual de quais são mais
relevantes quando se busca medir o desenvolvimento social das comunidades.
Os principais aspectos considerados na construção de indicadores dizem respeito às con-
dições de saúde, educação e riqueza. A grande questão é verificar se esses aspectos abrangem as
necessidades de uma população quanto ao desenvolvimento pleno de seus cidadãos, levando-se
também em conta o oferecimento de condições que possam satisfazê-los sob o ponto de vista cul-
tural, político, ambiental e de autonomia e que lhes propiciem melhor qualidade de vida. O que
se observou mais recentemente foi o grande descompasso entre a riqueza de uma nação e o seu
crescimento econômico com as condições de vida de suas populações.
Indicadores sociais constituem-se, portanto, em valores numéricos que procuram sintetizar
uma condição social. Além da verificação acadêmica da condição de vida de um grupo populacio-
nal, a escolha de um indicador ou de um sistema de indicadores é essencial em razão de sua utili-
zação cada vez mais frequente pelos governantes como instrumento de Estado para a elaboração
de políticas públicas e a distribuição de recursos.
1 Filantropista e político inglês, estudioso dos problemas sociais da pobreza.

10.2 Concepção de indicadores

Indicadores sociais são necessários para a análise das políticas sociais e, em particular, para
a avaliação dessas políticas. Para isso, a informação estatística deve ser organizada em torno de
objetivos concretos de análise, procurando captar da realidade social os aspectos considerados
mais relevantes. O conhecimento de certo problema social exige que ele seja bem caracterizado nas
suas manifestações, que se conheçam os fatores que estão na sua origem e que se possa ter alguma
informação sobre a sua previsibilidade.
Uma boa leitura da evolução da sociedade e do seu bem-estar depende da construção de
indicadores. Por outro lado, os indicadores não estão isentos de refletir uma dada concepção do
problema em estudo.
10.3 Limitações do PIB como indicador social

A riqueza das nações é medida por meio do cálculo de seu produto interno bruto (PIB),
que representa a soma (em valores monetários) de todos os bens e serviços finais produzidos em
uma determinada região durante um período. O seu cálculo não é simples, como será visto mais
à frente. No Brasil, ele é feito pelo Instituto Brasileiro de Geografia e Estatística (IBGE), órgão
vinculado ao Ministério do Planejamento.
Verifica-se, no entanto, que países ricos (de PIB elevado) possuem, em seu território nacional,
situações de altos níveis de pobreza e com acentuadas desigualdades sociais. Constata-se, então,
que riqueza e crescimento econômico não implicam diretamente em desenvolvimento social. Dessa
forma, o indicador PIB per capita, resultado da divisão da riqueza total do país pelo número de
habitantes, é insuficiente para medir a condição de qualidade de vida de uma população.
Como foi apontado, mais recentemente, sob orientação de organismos internacionais – como
a Organização das Nações Unidas (ONU), a Organização para a Cooperação do Desenvolvimento
Econômico (OCDE), a Organização das Nações Unidas para a Educação, a Ciência e a Cultura
(Unesco), a Organização das Nações Unidas para a Agricultura e Alimentação (FAO), a Organização
Internacional do Trabalho (OIT), a Organização Mundial de Saúde (OMS) e o Fundo das Nações
Unidas para as Crianças (Unicef), entre outros –, tem sido realizado um grande esforço conceitual e
metodológico para o desenvolvimento de instrumentos de mensuração de bem-estar e de mudança
social. Esses são marcos importantes de produção e disseminação de estatísticas públicas que passa-
ram a incorporar novas dimensões investigativas e de produção de relatórios sociais de maneira mais
organizada e sistemática.
Uma série de novos indicadores tem sido proposta por estudiosos e órgãos dedicados à
análise das condições de vida das populações. No entanto, existem alguns que têm sido usados uni-
versalmente, e que por isso são importantes para estudos comparativos, como o índice de desen-
volvimento humano (IDH) e o índice de Gini, que serão objeto de seções posteriores deste capítulo.
A construção de indicadores alternativos aos estritamente econômicos, e mesmo ao IDH,
tem alcançado propostas metodológicas bastante inovadoras, mas que, no entanto, ainda não tem
sua difusão irradiada globalmente.
Indicadores sociais e econômicos 143
O índice de bem-estar econômico, proposto por Osberg e Sharpe (2002 apud VIDIGAL,
2011) no Canadá, por exemplo, admite que o desenvolvimento da sociedade depende de qua-
tro fatores: o consumo por habitante, a acumulação de capital, a repartição do rendimento e a
segurança econômica diante da ocorrência de riscos sociais. O Reseau d´Alerte sur les Inegalités
(RAI), desenvolvido na França, pretende constituir um indicador sintético de alerta para proble-
mas sociais, centrado nas desigualdades sociais e na pobreza.
Mesmo assim, compreender o que informam os índices mais conhecidos é fundamental
para o cientista social, não só para acompanhar as análises correntes, mas também, e talvez
principalmente, para propor formas complementares ou alternativas de análise dos principais
fenômenos sociais.
Neste capítulo, serão apresentados três tipos de indicadores úteis para a análise dos princi-
pais fenômenos sociais: índices que medem qualidade de vida e desenvolvimento social; índices
que medem grau de distribuição de renda e; índices que medem a evolução do custo de vida e dos
preços de mercadorias e serviços. Antes, porém, vamos verificar quais são as principais fontes de
dados para o cálculo desses índices.
10.4 Produção e disseminação de estatísticas públicas no Brasil

O sistema de estatísticas públicas brasileiro sofreu uma modificação expressiva a partir da
década de 1960, quando o IBGE implementou uma série de novas pesquisas. Além dos censos
demográficos, iniciados em 1940, o Brasil faz uma série de pesquisas para acompanhamento das
modificações demográficas e das características socioeconômicas da população, como as Pesquisas
Nacionais de Amostra Domiciliares (PNAD) e as pesquisas nos setores agropecuário, de serviços e
industrial. Coordenada pelo IBGE, essa grande rede é formada também pelas agências estaduais de
estatísticas, secretarias estaduais e municipais e órgãos federais, como os ministérios e seus órgãos.
O censo demográfico, devido à sua abrangência temática e territorial, continua sendo a
principal fonte de informação para construção de indicadores. No último censo, em 2010, foram
levantados dados sobre diversas características demográficas da população (sexo, idade, migração,
nupcialidade, fecundidade, mortalidade), socioeconômicas (renda, posse de bens de consumo,
trabalho, ocupação, escolaridade) e relacionadas aos domicílios (composição material, número de
cômodos, dormitórios, banheiros etc.).
O tamanho da população, determinado nos censos e atualizado nas contagens populacio-
nais realizadas nos períodos intercensitários, é um parâmetro fundamental para a organização da
vida nacional, a começar pela determinação da representação política e repartição dos recursos
públicos arrecadados a nível municipal e estadual.
10.5 O índice de desenvolvimento humano (IDH)

O conceito de desenvolvimento humano é a base do relatório de desenvolvimento humano
(RDH), publicado anualmente pelo Programa das Nações Unidas para o Desenvolvimento (PNUD)
no Brasil, a partir de 1993, e também do índice de desenvolvimento humano (IDH). Os RDH bus-
cam aferir os avanços de uma população por meio da análise de suas características sociais, cultu-
rais e políticas, além da dimensão econômica.
Os RDH propõem também uma agenda sobre temas relevantes ligados ao desenvolvimento
humano e reúnem tabelas estatísticas e informações sobre os assuntos tratados. O relatório foi
idealizado pelo economista paquistanês Mahbub ul Haq, que em 1990 propôs a sua utilização
como contraponto a outro indicador muito usado, o PIB per capita (PNUD, 2018b). O IDH é uma
medida geral e sintética que não abrange todos os aspectos do desenvolvimento humano, mas é um
índice-chave dos Objetivos de Desenvolvimento do Milênio das Nações Unidas.
Além de computar o PIB per capita, após corrigi-lo de acordo com o poder de compra da
moeda de cada país, ou seja, em dólar PPC (paridade do poder de compra, que elimina as dife-
renças de custo de vida entre os países), o IDH também leva em conta dois outros componentes: a
longevidade e a educação.
Para aferir a longevidade, o indicador utiliza números de expectativa de vida ao nascer, en-
quanto o item educação é avaliado pelo índice de analfabetismo e pela taxa de matrícula em todos
os níveis de ensino.
Para calcular o IDH de uma localidade, determina-se a seguinte média aritmética:
L+E+R
IDH =
3
Em que:
• L = longevidade;
• E = educação;
• R = renda.
10.5.1 Longevidade
A longevidade é determinada pela fórmula a seguir, em que EV significa a expectativa de
vida ao nascer de uma população, isto é, a média de anos de vida de uma geração.
EV – 25
L=
60
A lógica da determinação do índice é supor que a expectativa máxima de vida é de 85 anos
e a mínima de 25 anos, empregada na expressão geral para o cálculo de índices:
X – Xmin
I=
Xmin –Xmáx
O indicador de longevidade sintetiza aproximadamente as condições de saúde e salubridade

do local, uma vez que, quanto mais mortes houver nas faixas etárias mais precoces, menor será a
expectativa de vida observada.
10.5.2 Escolarização
A escolarização é a média ponderada da taxa de alfabetização e da taxa de escolarização:
E = 2TA – TE
3
Uma vez que a taxa de alfabetização é um dado que revela um determinado resultado
e a taxa de escolarização diz respeito a um processo, utiliza-se a média ponderada para evitar
distorções e diferenciar países que tenham variações em cada uma dessas taxas.
A taxa de alfabetização (TA) é definida como o percentual de pessoas com 15 anos ou mais
de idade que sabem ler e escrever um bilhete simples no idioma que conhecem, na população total
na mesma faixa etária, em determinado espaço geográfico, no ano considerado.
A taxa de escolarização (TE) é dada pela razão entre o número total de estudantes no ensino
fundamental, médio e superior e a população em idade escolar para esses três níveis.
Os valores das taxas de alfabetização e de frequência já variam entre 0 e 1 (0 a 100%),
tornando-se desnecessário convertê-las em um índice, como nas dimensões longevidade acima
e renda abaixo.
10.5.3 Renda
O IDH da renda segue a lógica de construção de índices, levando-se em conta os valores
máximos e mínimos do PIB per capita (PIBpc). Para um município, por exemplo, determina-se a
renda municipal per capita (R) e, em seguida, aplica-se a fórmula:
log10 de renda média municipal per capita – log10 do valor de referência mínimo
IDHM – R =
log10 do valor de referência máximo – log10 do valor de referência mínimo
O valor de referência máximo adotado é R$ 40.000,00 e o valor de referência mínimo é

R$ 100,00. Observe que log10 100 = 2 e que log10 40.000 = 4,60206, por isso o denominador é igual
a 4,60206 – 2 = 2,60206.
log10 PIBpc – 2
R=
2,60206
Veja que R$ 10,00 a mais por mês para quem ganha R$ 100,00 proporciona um maior
retorno em bem-estar do que R$ 10,00 para quem ganha R$ 40.000,00. Essa é a razão de se usar
o logaritmo.
10.5.4 Classificação
O IDH é um índice que varia de zero (nenhum desenvolvimento humano) até 1 (desenvol-
vimento humano total), e a classificação de uma região é dada por:
• IDH entre 0 e 0,499 é considerado baixo.
• IDH entre 0,500 e 0,799 é considerado médio.
• IDH entre 0,800 e 1 é considerado alto.
10.5.5 Exemplos de IDH

O quadro a seguir apresenta o valor do IDH dos 20 países com maiores índices.
Quadro 1 – Vinte países com maiores IDH
País IDH
Noruega 0,953
Suíça 0,944
Austrália 0,939
Irlanda 0,938
Alemanha 0,936
Islândia 0,935
Hong Kong 0,933
Suécia 0,933
Singapura 0,932
Holanda 0,931
Dinamarca 0,929
Canadá 0,926
Estados Unidos 0,924
Reino Unido 0,922
Finlândia 0,920
Nova Zelândia 0,917
Bélgica 0,916
(Continua)
Liechtenstein 0,916
Japão 0,909
Áustria 0,908
Fonte: EBC, 2017.
O próximo quadro apresenta os 10 países com menores IDH, ocupando as posições de

162 a 171.
Quadro 2 – Dez países com menores IDH
País IDH
Uganda 0,516
Benin 0,515
Senegal 0,505
Comores 0,503
Togo 0,503
Sudão 0,502
Haiti 0,498
Afeganistão 0,498
Costa do Marfim 0,492
Holanda 0,477
Fonte: IDH, 2018.
Segundo dados do PNUD, o Brasil ocupa em 2018 a 79ª posição, com valor de IDH igual a
0,759 (IDH, 2018). Convém observar, para efeito de comparação, que em 2006 o Brasil ocupava
a 70ª posição, com IDH igual a 0,807 (IDH, 2008)2.
10.6 O índice de Gini

Essa é uma medida de desigualdade desenvolvida pelo estatístico italiano Corrado Gini
em 1912. É utilizada para se calcular a desigualdade da distribuição de renda. O índice consiste
em um número entre 0 e 1, em que 0 corresponde à completa igualdade de renda (todos têm
a mesma renda) e 1 corresponde à completa desigualdade (uma pessoa tem toda a renda, e as
demais não têm nada) (SCHLINDWEIN, 2008).
O índice de Gini é calculado como a razão das áreas no diagrama da curva de Lorenz e de-
finido pela razão a/(a+b), em que “a” é a área entre a linha diagonal, a linha da perfeita igualdade e
a curva de Lorenz, e “b” é a área abaixo da curva de Lorenz.
2 Diversas informações complementares, bem como os Relatórios de Desenvolvimento Humano, podem ser acessadas
no site: http://www.br.undp.org/content/brazil/pt/home/idh0/relatorios-de-desenvolvimento-humano/rdhs-globais.html.
Acesso em: 5 dez. 2018.
Figura 1 – Índice de Gini
Quantidade de pessoas
a
Renda
A diagonal representa a igualdade perfeita de renda, e a área pintada é o coeficiente de Gini.

A curva que delimita o coeficiente denomina-se curva de Lorenz.
Cada ponto da curva representa a percentagem acumulada das pessoas. A linha de 45 graus
que passa pela origem demonstra uma distribuição perfeita, isso significa, por exemplo, que 40%
da população recebe 40% da renda. Por outro lado, se uma pessoa detivesse toda a renda, a curva
coincidiria com o eixo X. Em geral, a curva encontra-se em uma situação intermediária entre esses
dois extremos.
Se a área entre a linha de perfeita igualdade e a curva de Lorenz é “a”, e a área abaixo da curva
de Lorenz é “b”, então o índice de Gini é:
a
G=
a+b
A razão a/(a+b) é sempre um número entre 0 e 1, e pode ser pensada como uma percenta-
gem, então, por exemplo, 0,6 representa 60%. A fórmula de Brown é o meio mais prático para se
calcular o valor do índice de Gini.
k=n–1
G = |1 Xi (Xk+1 – Xk) (Yk+1 + Yk)|
k =1
Em que:
• G = coeficiente de Gini;
• X = proporção acumulada da variável população;
• Y = proporção acumulada da variável renda.
10.6.1 Exemplos de índice de Gini

O quadro a seguir apresenta os 10 países com pior distribuição de renda, segundo o índice
de Gini.
Quadro 3 – Dez países com pior distribuição de renda
País IDH
África do Sul 0,634
Namíbia 0,61
Haiti 0,608
Botsuana 0,605
Rep. Centro-Africana 0,562
Zâmbia 0,556
Lesoto 0,542
Colômbia 0,535
Paraguai 0,517
Brasil 0,515
Fonte: Corrêa, 2018.
O quadro a seguir apresenta os 12 países com melhor distribuição de renda, segundo o

índice de Gini.
Quadro 4 – Doze países com melhor distribuição de renda
País IDH
Islândia 0,24,1
Eslováquia 0,243
Eslovênia 0,244
Noruega 0,25
Rep. Checa 0,251
Finlândia 0,254
Bélgica 0,263
Holanda 0,269
Áustria 0,272
Suécia 0,276
Dinamarca 0,277
Hungria 0,282
Fonte: Corrêa, 2018.

A distribuição de renda no Brasil está muito próxima daquela dos países com pior distri-
buição de renda do mundo. O valor do índice de Gini no Brasil é de 0,515 (CORRÊA, 2018). Para
comparação, o índice de Gini dos Estados Unidos é de 0,415, de Portugal é de 0,339, da Itália é
de 0,331 e da Alemanha é de 0,2353.
10.7 Índices de preço

Índices de preços são números que agregam e representam os valores de uma determinada
cesta de produtos, medindo, portanto, a sua variação média. Podem se referir, por exemplo,
aos preços ao consumidor, preços ao produtor, custos de produção ou preços de exportação e
importação. De acordo com o Banco Central do Brasil, os principais índices utilizados no país são
(BRASIL, 2016):
• Índice geral de preços (IGP): calculado pela Fundação Getulio Vargas (FGV), é uma
média ponderada do índice de preços no atacado (IPA), com peso 6; de preços ao con-
sumidor (IPC) no Rio de Janeiro e São Paulo, com peso 3; e do custo da construção civil
(INCC), com peso 1. É usado em contratos de prazo mais longo, como aluguel.
• Índice de preços no atacado (IPA): calculado pela FGV, com base na variação dos preços
no mercado atacadista, esse índice é calculado para três intervalos diferentes e compõe
os demais índices calculados pela FGV (IGP-M, IGP-DI e IGP-10) com um peso de 60%.
• Índice geral de preços – disponibilidade interna (IGP-DI): calculado pela FGV, esse
índice procura refletir as variações mensais de preços, pesquisados do dia 1º ao último dia
do mês corrente. É formado pelo índice de preços por atacado (IPA), índice de preços ao
consumidor (IPC) e índice nacional do custo da construção (INCC), com pesos de 60%,
30% e 10%, respectivamente, e apura as variações de preços de matérias-primas agrícolas
e industriais no atacado e de bens e serviços finais no consumo.
• Índice geral de preços do mercado (IGP-M): também é produzido pela FGV, com me-
todologia igual à utilizada no cálculo do IGP-DI. A principal diferença é que, enquanto
este abrange o mês fechado, o IGP-M é pesquisado entre os dias 21 de um mês e 20 do
mês seguinte. Foi criado por solicitação de entidades do setor financeiro, que, diante das
mudanças frequentes promovidas pelo governo nos índices oficiais de inflação na década
de 1980, desejavam um índice com mais credibilidade e independência. O contrato de
prestação de serviços entre essas entidades e a FGV foi celebrado em maio de 1989.
• Índice geral de preços 10 (IGP-10): também da FGV, é elaborado com a mesma metodo-
logia do IGP e do IGP-M, mudando apenas o período de coleta de preços: entre o dia 11
de um mês e o dia 10 do mês seguinte.
• Índice de preços ao consumidor (IPC) – Rio de Janeiro: considera a variação dos preços
na cidade do Rio de Janeiro e é calculado mensalmente pela FGV, tomando por base os
gastos de famílias com renda de 1 a 33 salários mínimos.
3 A lista completa dos valores do índice de Gini pode ser encontrada no seguinte endereço eletrônico: https://
observatorio-das-desigualdades.com/2018/04/17/coeficiente-de-gini/. Acesso em: 6 dez. 2018.
• Índice de preços ao consumidor da Fundação Instituto de Pesquisas Econômicas

(IPC-Fipe): índice da Universidade de São Paulo (USP), pesquisado no município de São
Paulo, tenta refletir o custo de vida de famílias com renda de 1 a 20 salários mínimos, di-
vulgando taxas quadrissemanais. No cálculo, são utilizados sete grupos de despesas: habi-
tação (32,79%), alimentação (22,73%), transportes (16,03%), despesas pessoais (12,30%),
saúde (7,08%), vestuário (5,29%) e educação (3,78%).
O IPC-Fipe mede a variação de preços para o consumidor na cidade de São Paulo com base
nos gastos de quem ganha de 1 a 20 salários mínimos. Os grupos de despesas estão compostos
de acordo com as pesquisas de orçamentos familiares (POF), em constante atualização. A
estrutura de ponderação atual é restrita a assinantes e pode ser verificada no portal da Fipe4.
De maneira geral, a ponderação é similar ao INPC/IBGE e ao IPCA/IBGE. O período de
pesquisa das variações de preços é do primeiro ao último dia de cada mês. A publicação
dos índices ocorre normalmente entre os dias 10 e 20 do mês subsequente. A Fipe divulga
também as variações de preços das últimas quatro semanas imediatamente anteriores.
Desse modo, esse índice “evita” sustos e indica tendências fortes das variações de preços,
principalmente da camada de renda da população analisada.
O índice de preços ao consumidor do município de São Paulo é o mais tradicional indica-
dor da evolução do custo de vida das famílias paulistanas e um dos mais antigos do Brasil.
Começou a ser calculado em janeiro de 1939 pela Divisão de Estatística e Documentação
da prefeitura do município de São Paulo. Em 1968, a responsabilidade do cálculo foi
transferida para o Instituto de Pesquisas Econômicas da USP e, posteriormente, em 1973,
com a criação da Fipe, para essa instituição.
• Índice de preços ao consumidor do Centro de Estudos e Pesquisas Econômicas (IPC-
Iepe): é pesquisado pelo Iepe, um centro de estudos da Universidade Federal do Rio
Grande do Sul, no município de Porto Alegre, utilizando 281 itens com grande frequência
de compra.
• Índice do custo de vida (ICV-Dieese): publicado pelo Departamento Intersindical de
Estatística e Estudos Socioeconômicos (Dieese), também é medido na cidade de São
Paulo e reflete o custo de vida de famílias com renda média de R$ 2.800 (há ainda índices
para a baixa renda e a intermediária).
• Índice nacional de preços ao consumidor (INPC): média do custo de vida nas nove
principais regiões metropolitanas do país para famílias com renda de um a seis salários
mínimos, medido pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Compõe-se
do cruzamento de dois parâmetros: a pesquisa de preços de nove regiões de produção
econômica e a pesquisa de orçamento familiar (POF), que abrange famílias com ren-
da de um a seis salários mínimos. As regiões e ponderações são as seguintes: São Paulo
(28,46%); Rio de Janeiro (12,52%); Belo Horizonte (11,36%); Salvador (9,10%); Porto
Alegre (7,83%); Recife (7,10%); Brasília (6,92%); Fortaleza (5,61%); (Belém – 4,20%).
4 FIPE – Fundação Instituto de Pesquisas Econômicas. Disponível em: http://www.fipe.org.br/. Acesso em:
6 nov. 2018.
• Índice de preços ao consumidor amplo (IPCA): também do IBGE, calculado desde 1980,
é semelhante ao INPC, porém reflete o custo de vida para famílias com renda mensal de
1 a 40 salários mínimos. A pesquisa é feita nas mesmas nove regiões metropolitanas apre-
sentadas anteriormente, tendo sido escolhida como alvo das metas de inflação (inflation
targeting) no Brasil.
• Índice nacional do custo da construção (INCC): um dos componentes das três versões
do IGP, o de menor peso, reflete o ritmo dos preços de materiais de construção e da mão
de obra no setor. É utilizado em financiamento direto de construtoras/incorporadoras.
• Custo unitário básico (CUB): índice que reflete o ritmo dos preços de materiais de
construção e da mão de obra no setor, calculado por sindicatos estaduais da indústria
da construção, Sinduscon, e usado em financiamentos de imóveis.
Apresentamos neste capítulo alguns dos principais índices utilizados para a análise da rea-
lidade socioeconômica do Brasil e de outros países. É importante ter o conhecimento de como
são calculados e interpretados esses índices, porque eles fazem parte da informação corrente para
avaliação de condições de vida dos habitantes de uma cidade, de uma região ou de um país.
Atividades
1. Quais são as principais limitações do IDH como indicador da qualidade de vida de um
grupo populacional?
2. Um município tem PIB per capita igual a R$ 827,35 (o que equivale a PIBpc PPC de
US$ 21.214,10 – derivado do cálculo de 827,35x(100/3,9), segundo metodologia do PNUD),
e log10 21.214,10 = 4,3266. O município tem uma taxa bruta de frequência à escola de 85%
e a taxa de alfabetização é de 91%. A esperança de vida ao nascer nesse município foi deter-
minada como sendo igual a 70 anos. Calcule o IDH do município e apresente os resultados
intermediários e final.
3. Entre os oito Objetivos do Milênio, aponte quais são os que podem ser relacionados ao IDH
direta e indiretamente. Justifique.
1. Acabar com a fome e a miséria.

2. Educação básica e de qualidade para todos.
3. Igualdade entre sexos e valorização da mulher.
4. Reduzir a mortalidade infantil.
5. Melhorar a saúde das gestantes.
6. Combater a aids, a malária e outras doenças.
7. Qualidade de vida e respeito ao meio ambiente.
8. Todo mundo trabalhando pelo desenvolvimento.
11
Análise de associação entre variáveis
Assim como sonhos, estatísticas são uma forma de alcançar um desejo.
Jean Baudrillard (1929-2007)1
11.1 Associação entre variáveis econômicas e sociológicas

A inovação tecnológica tem tido papel central na economia de países desenvolvidos e da-
queles que cresceram a taxas em torno de 10% nas últimas décadas. O investimento em pesquisa
e desenvolvimento (P&D) nas empresas de base tecnológica tem sido apontado como fator deter-
minante do crescimento desses países, em consequência também da melhoria dos resultados de
produção das empresas de setores estratégicos.
A inovação consiste na realização de alguma novidade ou renovação, em fazer algo que
nunca foi feito, e normalmente surge associada à tecnologia. O surgimento da máquina a vapor
é um exemplo claro de inovação tecnológica, que transformou profundamente todo o sistema
produtivo conhecido. A posição humana no trabalho é condicionada à utilização da máquina,
pois ela permite aumentar a produtividade, modificando a tarefa humana, que adquire maior
importância nas atividades de controle. Algumas profissões têm desaparecido nesse novo con-
texto, e outras, no geral mais especializadas, têm surgido.
O ponto principal das discussões acerca da inovação tem sido de ordem econômica, como
competitividade, investimento e pressões de demanda. Incluir variáveis socioculturais em avaliações
e estudos sobre a implementação da inovação em contextos locais e nacionais passa a exercer um
papel fundamental, uma vez que as ciências sociais não estão inseridas tão fortemente nessa agenda
de pesquisa, em comparação com a economia e as ciências organizacionais.
Mais recentemente, os teóricos do risco social apontaram a crise das certezas do mundo
contemporâneo, em que a contingência e a instabilidade das práticas tecnológicas repercutem
diretamente na sociabilidade. O princípio de precaução e a desconfiança no desenvolvimento
tecnológico vêm adquirindo proeminência no pensamento social contemporâneo (BRUESEKE,
2002). Eles propiciam modelos e fazem cruzar determinadas variáveis, mas não lograram ainda
explicar como os processos inovativos aparecem e se desenvolvem.
O debate em torno dos efeitos da inovação tecnológica sobre o mercado de trabalho vem
crescendo à medida que o processo de inovação se intensifica, tornando-se cada vez mais indis-
pensável ao crescimento e à competitividade das organizações. Não há um consenso na literatura a
respeito dos impactos da inovação sobre o emprego. Intuitivamente, com a finalidade de aumentar
1 Sociólogo e filósofo francês que estudou o impacto da comunicação e da mídia na sociedade.

a eficiência produtiva, a inovação tende a diminuir o número de trabalhadores por equipamento,

gerando desemprego ou diminuição na taxa de crescimento do emprego. Por outro lado, ao criar
um novo produto, a inovação tende a estimular a demanda e a aumentar a produção e o emprego.
Um modelo teórico foi proposto objetivando sintetizar em uma equação a taxa de cresci-
mento da mão de obra empregada. O resultado final do modelo indica que a taxa de crescimento
do emprego dependerá (inversamente) da taxa de crescimento da eficiência produtiva e (direta-
mente) da quantidade produzida. Devido à limitação da base de dados, a quantidade produzida
foi substituída por valores reais de vendas. Dessa forma, a taxa de crescimento do emprego tende
a aumentar quando as vendas aumentam e tende a diminuir quando a produtividade dos fatores
aumenta. A proposta de modelo econométrico que descreve tal relação é a que segue:
= + 1
x1 + 2
x2 +
Em que indica a taxa de crescimento do emprego; o intercepto ( )
refere-se ao crescimento da eficiência produtiva; X1 é a taxa de cres-
cimento das vendas do produto velho; X2 é a receita proveniente das
vendas do produto novo (em casos nos quais a empresa não inova em
produto, essa variável é zero) e; ε é o efeito do acaso, composto por
variáveis não controladas e do acaso propriamente dito.
O que o modelo pretende é relacionar as variáveis que medem a taxa de crescimento da

eficiência tecnológica e a quantidade de bens produzidos com a taxa de crescimento do emprego.
Esse é um bom exemplo de utilização de técnicas estatísticas que propõem uma associação
entre variáveis econômicas e sociais. O modelo proposto é chamado de modelo de regressão linear.
Acompanha o estudo da eficácia do modelo em explicar as relações entre as variáveis o estudo da
força dessas relações, levado a efeito pela análise de correlação.
Outro exemplo, que será tratado neste capítulo, diz respeito à relação entre a renda familiar
mensal e os investimentos em educação por ano de 15 famílias. Supõe-se, a princípio, que famílias
com maior rendimento devem fazer mais investimento em educação.
11.2 Análise de regressão e de correlação

A tarefa de se fazer predições é inerente a muitos dos aspectos da investigação sociológica.
Avaliação de fluxos migratórios e de crescimento populacional, empregabilidade, educação, saúde
e demais políticas públicas fazem parte dos fundamentos do planejamento de políticas sociais e,
consequentemente, das metas de investimento governamental e da distribuição dos recursos públicos.
Há uma série de técnicas para se fazer predição. A maioria delas são modelos não deter-
minísticos, isto é, que levam em conta certo grau de incerteza, embora haja propostas também de
modelos determinísticos. A técnica mais utilizada para a construção de modelos que envolvem
certo grau de incerteza é chamada de regressão. Associado ao modelo de regressão, é comum
Análise de associação entre variáveis 155
fazermos uma análise que mede a força da ligação entre as variáveis e a aptidão do modelo em
explicar a ligação entre essas variáveis, conhecida como análise de correlação. A primeira provi-
dência ao buscar a construção do modelo é a verificação que existe entre a relação teórica e as
variáveis consideradas.
11.2.1 Análise de regressão

A análise de regressão é o método de construir, com base nos dados amostrais, uma função
matemática que relacione a chamada variável independente a uma outra variável que dependa desta,
conhecida como variável dependente. A forma geral do modelo que descreve essa relação é:
Y = f(X) +
Sendo que: X é a variável independente; Y é a variável dependente e;

é o erro estatístico. Esse modelo possui, portanto, uma componente de-
terminística f(X) e uma componente aleatória . A função f(X) pode ser
linear ou não.
11.2.2 Análise de regressão linear

Se a relação entre a variável independente e a variável dependente puder ser expressa por
meio da equação de uma reta, então esse é um modelo de regressão linear. A expressão geral dele é:
Y= + X+
Em que: e são os parâmetros do modelo. Como a construção

do modelo é baseada em observações amostrais, esses parâmetros
nunca são conhecidos. Eles são os verdadeiros valores do modelo
do mundo real e devem ser estimados mediante estimadores esta-
tísticos com base nos dados de uma amostra.
11.2.3 Análise de regressão não linear

A relação entre as variáveis nem sempre pode ser expressa por meio da equação de uma
reta, porque esssa relação pode ser não linear. Outros modelos, como o exponencial, o potencial e
o logístico, podem ser melhor descritores da relação entre as variáveis.
11.2.4 Análise de regressão simples

Um modelo de regressão simples é definido quando somente duas variáveis estão envolvidas.
Dessa forma, só participarão do modelo uma variável independente e uma variável dependente.
Um modelo de regressão simples pode ser linear ou não linear.
11.2.5 Análise de regressão múltipla

Se a variável dependente estiver relacionada a mais de uma variável independente, então
trata-se de um modelo de regressão múltipla, que pode ser linear ou não. No caso de a relação ser
linear com duas variáveis independentes, o modelo a ser construído será o de um plano. Se esti-
verem envolvidas mais do que duas variáveis independentes, o modelo será um hiperplano: um
plano em um espaço de mais de três dimensões. Um modelo de regressão linear múltipla pode ser
expresso mediante a seguinte função:
Y= 0
+ 1X1 + 2
X2 + ... + pXp +
A troca de por 0
, por , e assim por diante, é feita aqui somente por comodidade
1
de notação.
11.2.6 Erro estatístico

O termo ε é definido como o erro estatístico ou resíduo. Ele é a componente aleatória do
modelo e precisa ser bem compreendida. Lembre-se de que esses modelos são construídos por
meio de observações amostrais e, sempre que se faz um levantamento de dados mediante amostra,
os resultados obtidos referem-se a determinado grau de incerteza. Nos modelos estatísticos, eles
são considerados de natureza aleatória, ou seja, associados a certa distribuição de probabilidades.
Na parte determinística do modelo de regressão estão todas as variáveis independentes que
explicam as variações da variável dependente. Nesse modelo devemos usar o menor número de
variáveis possível, desde que se possa explicar bem a relação entre as variáveis independentes e a
variável dependente. Na componente aleatória estão, além das variações devidas ao acaso, todas
aquelas que têm importância reduzida na explicação da variável dependente.
Alguns pressupostos são impostos ao erro, para que se possa construir o modelo de re-
gressão mediante os critérios de redução de funções do erro, mas essa discussão está fora do
escopo deste livro.
11.2.7 Gráfico de dispersão

Os gráficos de dispersão apresentam os valores da variável dependente no eixo das abscissas
(X) e o valor da variável independente no eixo (Y) das ordenadas. O gráfico a seguir apresenta os
dados de renda familiar mensal de 15 famílias, relacionados com os investimentos em educação
por ano. Eles são muito úteis para uma impressão visual do relacionamento entre as variáveis.
Figura 1 – Gráfico de renda familiar mensal e investimento anual em educação
Investimento em
educação
250
200
150
100
50
0
0 2 4 6 8 10 12 14 16
Renda familiar
11.2.8 Variáveis independente e dependente

Conforme exposto anteriormente, a variável dependente depende da variável independente.
No caso apresentado, o investimento em educação supostamente depende da renda familiar.
A variável independente recebe também o nome de preditor e é sempre apontada no
eixo X das abscissas. A variável dependente é chamada de resposta e é sempre plotada no eixo
Y das ordenadas.
O que se pode observar inicialmente no gráfico é que a relação entre X e Y pode ser aproxi-
mada por uma reta que passa pelo “meio” dos pontos. Mas essa relação não é perfeita, no sentido
de que não é possível construirmos uma reta que passe por todos os pontos amostrais. Talvez uma
curva não linear possa também ser ajustada aos dados. O estudo da escolha da forma da curva (ou
reta) será feito mais adiante.
11.2.9 Reta de regressão

Para um modelo de regressão linear simples, o objetivo será o de se construir uma reta que
passe próxima dos pontos amostrais por meio de uma expressão determinada pelas estimativas de
α e de β no modelo Y = + X + . Ela será chamada de reta de regressão e terá como sua expressão
analítica a forma:
Ŷ = a + bX
Na reta, o coeficiente linear “a” é o estimador de ; o coeficiente angular

“b” é o estimador de e; Ŷ será o valor da estimativa do verdadeiro valor
de Y observado na amostra para cada um dos pontos de X.
A figura a seguir é um exemplo da construção da reta de regressão.

Figura 2 – Gráfico da reta de regressão
Investimento em
educação
250
200
150
100
50
0
0 2 4 6 8 10 12 14 16
Renda familiar
11.3 A construção da reta de regressão

Um dos objetivos da análise de regressão é a construção de um modelo matemático que
relacione a variável dependente e a variável independente. Se o modelo é o de regressão linear
simples, a tarefa é determinar a equação da reta que melhor aproxime os pontos observados dos
dados amostrais. Vamos fazer um estudo da equação de uma reta para melhor compreendermos o
significado do que iremos construir.
11.3.1 Equação da reta

A função Y = a + bX é a equação de uma reta. Nela, “a” e “b” são, respectivamente, os coe-
ficientes linear e angular. Se supusermos que a reta seja dada pela expressão Y = 2 + X, então o
coeficiente linear da reta é o valor 2 e o coeficiente angular da reta é o valor 1.
Vamos fazer um estudo dessa reta, começando por verificar os valores de Y para diferentes
valores de X. Então, se Y = 2 + X, os valores a seguir são pontos da reta:
Tabela 1 – Valores de X e Y na reta
X Y
0 2
1 3
2 4
3 5
4 6
O gráfico correspondente é:
Figura 3 – Gráfico da reta
4
y
3
0
0 1 2 3 4 5
x
Com base nesses dados e no gráfico, podemos analisar agora o significado do coeficiente
linear e o do coeficiente angular.
O coeficiente angular “a” é o ponto em que a reta corta o eixo Y. Isso ocorre para o valor de
X = 0. Valores negativos de “a” implicam que a reta cruze o eixo Y abaixo da origem, enquanto
valores positivos de “a” implicam que a reta corte o eixo Y acima da origem.
O coeficiente linear “b” é a inclinação da reta, ou seja, é o valor da tangente do ângulo θ
formado pelo eixo X e a reta. Ele representa também a variação da variável Y para cada variação de
um ponto de X. Se tomarmos um pequeno triângulo de base unitária, verificaremos que a altura
desse triângulo definido pela reta Y = 2 + X também será unitária. Tomando, então, a razão entre
o cateto oposto e o cateto adjacente desse triângulo retângulo, verificaremos que a tg = 1, isto é,
a inclinação da reta é igual a 1 e o ângulo correspondente será de 45°.
Valores positivos de “b” significam que a reta crescerá na medida em que X cresce, e valores
negativos de “b” significam que a reta decrescerá em Y quando X cresce. Ou seja, no primeiro caso
dizemos que a relação entre X e Y é de proporcionalidade direta, enquanto no segundo caso que a
relação entre as variáveis é de proporcionalidade indireta.
11.3.2 Significado dos elementos da reta de regressão

O significado dos coeficientes linear e angular da reta de regressão é o mesmo empregado na
geometria analítica. No entanto, no caso da regressão, esses coeficientes ganham significados con-
cretos relacionados ao problema real que está sendo tratado, enquanto que na geometria analítica
os eixos X e Y não representam necessariamente nenhum fenômeno real.
Supondo que a reta construída com os dados das rendas familiares versus investimento em
educação das famílias fosse a reta estudada anteriormentte, Ŷ = 2 + X. Algumas conclusões imedia-
tas poderiam ser tomadas, como:
• Se o valor de “a” é igual a 2, isso significa que, se não houvesse renda, o investimento em
educação seria de duas unidades monetárias. Para o exemplo em foco, essa análise não
faria muito sentido.
• Para o valor de “b”, o coeficiente angular, teríamos como resultado que para cada variação
de uma unidade de X teríamos a variação de Y. Ou seja, o coeficiente angular mede quanto
aumenta o investimento em educação para cada um real a mais da renda.
• O valor de “b” positivo significa que a relação entre as variáveis é de proporcionalidade
direta, isto é, o aumento da renda implica em aumento do investimento em educação.
• Podemos calcular o valor esperado de investimento em educação (Ŷ) para certa renda
familiar (X). Por exemplo, se a renda for de R$ 3 mil, o investimento em educação espe-
rado poderá ser verificado por meio do cálculo:
Ŷ=2+X
Ŷ=2+3=5
Ou seja, R$ 5 mil por ano.

Um pouco mais adiante, determinaremos o valor da reta de regressão para os dados do pro-
blema em questão. Por ora, o objetivo é o de compreender o significado da reta de regressão e de
seus elementos.
11.3.3 O método dos mínimos quadrados ordinários

No gráfico a seguir, verificamos que para cada valor do eixo X (Xi) há um correspondente
de Y (Yi) e um de Ŷi. Os valores Yi são os verdadeiros observados na amostra e os de Ŷi são os es-
timados pela substituição do valor de Xi na reta de regressão. A diferença entre o valor observado
e o valor estimado é chamada de erro estatístico ou resíduo. Assim, podemos definir cada erro de
observação como:
εi = Yi – Ŷi
yi
yi
O critério dos mínimos quadrados ordinários consiste na minimização da soma dos

quadrados dos erros. Ou seja, o critério expresso em termos matemáticos é:
Min i
2
Minimizar a soma dos erros ao quadrado significa minimizar i2 = (Yi – Ŷi)2. O que se
deseja é que a soma das distâncias de cada ponto até a reta seja a mínima. Usamos o quadrado
porque, sendo uma reta média, a soma dos desvios (ou distâncias) seria igual a zero. Essa é uma
propriedade da média.
Com esse procedimento, encontra-se o sistema de equações normais. Todavia, não vale a
pena, no contexto deste livro, discutir mais profundamente essa questão. O sistema de duas equa-
ções e duas incógnitas formado é chamado de sistema de equações normais, conforme apresentado
na sequência:
Y = n.a + b. X
XY = a X + b. X2
Assim, podemos verificar nas equações que os valores de Y, n, X, XY e X2 podem ser

calculados diretamente dos valores da amostra, ficando por determinar os valores das incógnitas
“a” e “b”, que são os valores dos coeficientes da reta Ŷ = a + bX, resolvendo, assim, o nosso problema.
O sistema de equações anterior pode ser rearranjado com manipulações matemáticas de
maneira a facilitar o cálculo de “a” e de “b” por meio das expressões:
a = Y – bX
XY – X. Y
n
b=
( X)2
XY2 –
n
Embora muitos softwares estatísticos estejam disponíveis para o cálculo direto da reta de
regressão e mesmo alguns aplicativos do Excel possam calcular a expressão da reta, é conveniente
demonstrar esse processo para a compreensão do engenhoso método de construção da equação da
reta de regressão com base nos dados amostrais.
11.3.4 Determinação da equação da reta para o problema

do investimento em educação
Uma pesquisa foi realizada com 15 famílias, com o intuito de verificar se a quantidade de
renda adquirida implicou em investimentos significativos em educação.
A tabela a seguir apresenta as rendas mensais das famílias e os investimentos em educação
durante o ano:
Tabela 2 – Renda familiar mensal e investimento anual em educação
Gasto mensal
Renda familiar
Família em educação em
em 2017 (R$)
2018 (em R$)
A 221,00 15.000,00
B 83,00 8.500,00
C 147,00 12.000,00
D 69,00 6.500,00
E 41,00 4.500,00
F 26,00 2.000,00
G 35,00 500,00
H 40,00 1.500,00
I 125,00 14.000,00
J 97,00 9.000,00
K 53,00 7.500,00
L 12,00 500,00
M 34,00 2.500,00
N 48,00 3.000,00
O 64,00 6.000,00
Com base nos dados das 15 famílias, vamos determinar, por meio do método de mínimos
quadrados ordinários, a equação da reta que explica a relação entre as rendas familiares (X) e o
investimento em educação (Y).
A tabela a seguir apresenta os cálculos necessários para a determinação de “a” e de “b”:
Tabela 3 – Cálculos para determinação de “a” e “b”
Famílias X Y XY X2 Y2
A 15 221 3.315,0 225,00 48.841
B 8,5 83 705,5 72,25 6.889
C 12 147 1.764,0 144,00 21.609

(Continua)
D 6,5 69 448,5 42,25 4.761
E 4,5 41 184,5 20,25 1.681
F 2,0 26 52,0 4,00 676
G 0,5 35 17,5 0,25 1.225
H 1,5 40 60,0 2,25 1.600
I 14 125 1.750,0 196,00 15.625
J 9,0 97 873,0 81,00 9.409
K 7,5 53 397,5 56,25 2.809
L 0,5 12 6,0 0,25 144
M 2,5 34 85,0 6,25 1.156
N 3,0 48 144,0 9,00 2.304
O 6,0 64 384,0 36,00 4.096
Total 93,0 1.095 10.186,5 895,00 122.825

Assim, os valores de “a” e de “b” são determinados pelas expressões (1) e (2) a seguir:
(1) a = Y – bX
Y 1.095
Y= = = 73
n 15
X 93
X= = = 6,2
n 15
a = 73 – 6,2 b
O cálculo de “a” se completará após o cálculo do valor de “b”, que é dado por:
X. Y
XY –
n
(2) b =
( X)2
X2 –
n
93.1095
10.186,5 –
15
b=
(93)2
895 –
15
b = 10,67054
Retornando ao cálculo de “a”, teremos:
a = 73 – (6,2) (10,67054) = 6,842651

Portanto, a reta de regressão calculada terá a forma:
Ŷ = 6,84 + 10,67 X
Com base nesse resultado, podem-se fazer predições para o valor do investimento em edu-
cação em relação a um dado valor de renda, bastando, para isso, substituir X pelo valor da renda.
Por exemplo, se uma família tiver uma renda anual de R$ 2.000,00, deverá fazer um investimento
em educação mensal de Ŷ = 6,84 + 10,67 (2) = 28,18, ou R$ 28,18. Observe que a família F, que tem
uma renda anual de R$ 2.000,00, investiu em educação o total de R$ 26,00 por mês, bem próximo
ao esperado. Essa diferença entre o valor de investimento estimado para a família F e o realmente
realizado é devida ao acaso.
11.4 Verificação da bondade do modelo

Até aqui determinamos a equação da reta de regressão, verificamos o significado dos coefi-
cientes angular e linear e fizemos uma estimativa pontual de valores de investimento em educação
(Y) para um certo valor de renda (X).
É conveniente neste ponto verificar se o modelo ajustado é adequado para descrever a
relação entre X e Y. Faremos essa verificação mediante alguns procedimentos: calcularemos os
coeficientes de determinação e de correlação.
11.4.1 Coeficiente de determinação

O cálculo do coeficiente de determinação, ou coeficiente de explicação, será útil para dizer o
quanto da variação de Y pode ser explicado pela variação de X.
Vamos verificar exatamente de que forma o coeficiente de determinação (r2) pode auxiliar
na tarefa de verificação da bondade do modelo. A interpretação será feita em termos da variação na
variável dependente Y. A figura a seguir, na qual somente um ponto será considerado, fornece uma
interpretação gráfica da situação.
Y–Y
Y–Y
Y–Y
Nesse contexto, três pontos e três distâncias serão considerados. O ponto Y é o valor real obser-
vado para um determinado X; o ponto Ŷ é o valor da estimativa de Y para o valor de X considerado
e; o ponto Y é a média dos valores de Y. Se o modelo não fosse significativo, a reta de regressão estaria
muito próxima da reta Ŷ = Y, paralela ao eixo X. Ou seja, a mudança dos valores de X não implicaria
em mudanças em Y. Esse conceito será reforçado no estudo do coeficiente de correlação.
Para o ponto considerado, podemos pensar que a variação total (Y – Y) é a soma das par-
celas correspondentes à variação devida à regressão (Ŷ – Y) e à variação devida ao acaso (Y – Ŷ).
A variação devida à regressão, ou explicada pela regressão, pode ser expressa pela diferença
(Ŷ – Y), porque, se não houvesse regressão, o valor de Ŷ seria a própria média de Y, Y.
A variação devida ao acaso é o erro estatístico ou resíduo, conforme já apresentado anterior-
mente. Se o modelo fosse determinístico, todos os pontos estariam sobre a reta de regressão, Y seria
igual a Ŷ e a diferença Y – Ŷ seria igual a zero.
Se considerarmos todos os pontos amostrais, podemos estabelecer a seguinte relação:
(Y – Y)2 = (Ŷ – Y)2 + (Y – Ŷ)2

Variação total = variação explicada + variação não explicada
(Ŷ – Y)2
A razão r2 = entre a variação explicada pela regressão e a variação total é a
(Y – Y)2
proporção da variação que é explicada pelo modelo. Esse valor é conhecido como coeficiente de
explicação ou coeficiente de determinação.
(Ŷ – Y)2
r2 = Variação explicada =
Variação total (Y – Y)2
Pode-se observar que r2 varia de zero até um.
Se não houver regressão, todos os pontos estimados estarão sobre a reta Y e, portanto, o
(Y – Y)2 será igual a zero. Se o numerador for igual a zero, significa que r2 também será igual a zero.
Nesse caso, a variação total será igual somente à variação não explicada. Ou ainda, qualquer varia-
ção na observação de Y será devida ao acaso e, portanto, o modelo matemático não explicará nada.
Esse é o menor valor possível para r2. O modelo explica zero por cento da variação de Y.
Por outro lado, se todos os pontos de Y observados estiverem sobre a reta, não há nenhuma
variação devida ao acaso. Toda variação é explicada pelo modelo e, nesse caso, ela é igual à variação
total – assim, r2 = 1. Ou seja, 100% da variação total é devido à regressão.
Uma forma simplificada de realizar esse cálculo é por meio da expressão:
r2 = a Y + b XY – n(Y)
2
Y2 – n (Ŷ – Y)2
Em nosso exemplo:
(6,84)(1.095) + (10,67)(10.186,5) – (15)(73)2
r2 =
(12.2825) – (15)(73)2
r2 = 0,845
Assim, concluímos que 84,5% da variação de Y (investimento em educação) são explicados

por X (renda da família). Os outros 15,5% da variação do investimento em educação são explica-
dos por outras variáveis, como gastos em alimentação, poupança etc. Podemos também afirmar
que o modelo de regressão construído tem alto poder de explicação, e esta última afirmação pode
ser confirmada por meio da análise de correlação que será feita na sequência.
Quando a população é pequena, o coeficiente de determinação pode ser afetado pelo
tamanho da amostra. Nesse caso, sugere-se o cálculo do coeficiente de determinação ajustado2.
A expressão utilizada para isso é a seguinte:
(n – 1)
r2ajustado = 1 – (1– r2)
(n – k)
O elemento k corresponde ao número de parâmetros do modelo. No

caso da regressão linear simples, são dois parâmetros, e , e, portanto,
o valor é k = 2.
No nosso problema, de maneira semelhante, k é igual a 2, e o valor do coeficiente de deter-

minação ajustado será:
(15 – 1)
r2ajustado = 1 – (1– 0,8452) = 0,833
(15 – 2)
Podemos perceber que o valor obtido não difere de modo substancial do primeiro valor
encontrado.
2 Observe que uma regressão realizada somente com dois pontos amostrais terá sempre coeficiente de determi-
nação igual a 1.
11.4.2 Coeficiente de correlação

O coeficiente de correlação é uma medida da relação entre as variáveis X e Y. Ele varia entre
os valores -1 e 1, passando pelo zero. Esse coeficiente de correlação será igual a zero quando não
existe correlação entre as variáveis X e Y. Se a relação entre X e Y for perfeita, isto é, se todos os
pontos amostrais estiverem sobre a reta de regressão, o coeficiente de variação terá valor igual a 1.
Há duas possibilidades para esse caso: a correlação ser perfeita e positiva, isto é, se o crescimento de
X implicar em crescimento de Y, ou ser perfeita e negativa, e o coeficiente de correlação for igual a
-1, de modo que a correlação, ou seja, o crescimento de X, implica em decrescimento de Y.
No caso da correlação igual a zero, não haverá tendência da reta, ela será paralela ao eixo X.
O diagrama de dispersão se constituirá de uma nuvem de pontos em torno da reta de regressão
paralela ao eixo X, conforme demonstra a figura 4 a seguir:
Figura 4 – Diagrama de dispersão de correlação igual a zero
Se a correlação for perfeita e positiva, o coeficiente de correlação será igual a 1.

Figura 5 – Diagrama de dispersão de correlação perfeita e positiva
Se a correlação for perfeita e negativa, o coeficiente de correlação será igual a -1.

Figura 6 – Diagrama de dispersão de correlação perfeita e negativa
O que ocorre na prática, no entanto, é que o coeficiente de correlação assume valores inter-
mediários entre os extremos expostos anteriormente. Não há uma regra única para se avaliar a força
da relação por meio do coeficiente de correlação. No entanto, há indicativos que podem orientar a
decisão sobre a força de uma relação. Uma proposta bem-aceita é a que segue:
Quadro 1 – Indicativos de força da relação
Coeficiente de
Força da relação
correlação (r)
r=0 Não há correlação
0 < |‌r| ≤ 0,5 Correlação fraca
0,5 < |‌r| ≤ 0,75 Correlação moderada
0,75 < |‌r| ≤ 0,9 Correlação forte
0,9 < |‌r| < 1 Correlação muito forte
|‌r| =1 Correlação perfeita
Os gráficos a seguir apresentam algumas das situações expostas no quadro anterior:

Figura 7 – Diagrama de correlação forte e negativa

Figura 8 – Diagrama de correlação forte e positiva
Figura 9 – Diagrama de correlação fraca e positiva
Figura 10 – Diagrama de correlação não linear
Como vimos, o coeficiente de correlação pode ser calculado como a raiz quadrada do coe-
ficiente de determinação. Uma outra forma de identificar diretamente o valor do coeficiente de
correlação é por meio da expressão:
( X)( Y)
XY –
n
r=
X2 – ( X)
2
( Y)2
Y2 –
n n
As ferramentas apresentadas neste capítulo fazem parte de um conjunto bem vasto de proce-
dimentos para o estudo da relação entre duas variáveis ou mais. Se bem equacionados, problemas
em ciências sociais podem ser mais bem compreendidos com a utilização dessas técnicas.
Atividades
1. Seja a reta de regressão Ŷ = 2 + X, analise o significado dos coeficientes da equação da reta.
2. Se o coeficiente de correlação entre as variáveis X e Y for igual a 0,8, qual é o poder de expli-
cação do modelo Y = a + bX?
3. Por que é importante o cálculo do coeficiente de determinação ajustado?

12
Análise de variáveis qualitativas
É fácil mentir com estatísticas, mas é ainda mais fácil sem.
Frederick Mosteller (1916-2006)1
12.1 Métodos qualitativos e métodos para variáveis qualitativas

Uma primeira importante distinção deve ser feita entre métodos qualitativos e métodos
quantitativos para variáveis qualitativas.
As chamadas variáveis qualitativas ou variáveis categorizadas são medidas em escala nomi-
nal, como sexo, setor de trabalho e faixa etária. É interessante destacar que, embora a idade possa
ser medida em valores numéricos, consideramos aqui a faixa etária, que se constitui em categorias.
Poderíamos, por exemplo, de maneira arbitrária dividir uma população em cinco faixas etá-
rias: faixa 1 (de 0 a 12 anos), infância; faixa 2 (de 12 a 18 anos), adolescência; faixa 3 (de 19 a 35
anos), adulta; faixa 4 (de 35 a 60 anos), maturidade e; faixa 5 (de 61 anos em diante), velhice. Essas
variáveis não comportam as operações aritméticas como soma, diferença, produto e razão. A faixa
etária 4 não é o dobro da faixa etária 2. Homens e mulheres não se somam, e assim por diante.
Decorrente, então, da natureza do trabalho de pesquisa, podemos ter os métodos qualitati-
vos e os métodos quantitativos. Os primeiros não envolvem análise numérica e são chamados de
análise qualitativa. Por outro lado, temos entre os métodos quantitativos aqueles que trabalham
com variáveis qualitativas, e esses estudos são chamados de análise de variáveis qualitativas e serão
tratados também como análise de dados categorizados.
Conforme Cláudia Augusto Dias (2000, p. 1), pode-se dizer que, “de forma geral, os métodos
qualitativos são menos estruturados, proporcionam um relacionamento mais longo e flexível entre
o pesquisador e os entrevistados, e lidam com informações mais subjetivas, amplas e com maior
riqueza de detalhes do que os métodos quantitativos”. Ainda segundo a autora:
A pesquisa quantitativa normalmente se mostra apropriada quando existe a
possibilidade de medidas quantificáveis de variáveis e inferências a partir de
amostras de uma população. Esse tipo de pesquisa usa medidas numéricas para
testar constructos científicos e hipóteses, ou busca padrões numéricos rela-
cionados a conceitos cotidianos. Em contrapartida, a pesquisa qualitativa se
caracteriza, principalmente, pela ausência de medidas numéricas e análises es-
tatísticas, examinando aspectos mais profundos e subjetivos do tema em estudo.
(DIAS, 2000, p. 1)
1 Estatístico americano que deu enorme contribuição à estatística, à ciência e às políticas públicas.
12.2 Análise de dados qualitativos

A história dos métodos qualitativos ou compreensivos é ainda recente. Há pouco mais de
um século, surgiram as ciências humanas, criadas em contraponto às então já organizadas ciências
naturais. De acordo com Egberto Ribeiro Turato (2005, p. 507):
Com seus métodos qualitativos, a disciplina de Antropologia desenvolveu a
chamada etnografia, cuja revolução ocorreu nos anos 1920 com as publicações
de Malinowski. Esse antropólogo permaneceu alguns anos convivendo com na-
tivos da Oceania, observando participativamente o que lá ocorria. A partir deste
fato, a história da ciência atribuiu-lhe o pioneirismo na metodologia científica
qualitativa, já que ele procurou descrever sistematicamente como havia obtido
seus dados e como ocorria a experiência de campo.
Também Marx, Freud, entre outros, contribuíram para a construção de novas e profundas
compreensões da história e do ser humano, realizando estudos científicos na área das ciências
humanas. Darwin desenvolveu a teoria da evolução das espécies com base nas observações das di-
ferenças das espécies da vida selvagem e da análise de dados puramente qualitativos, sem qualquer
esforço de medir essas diferenças.
Turato (2005) traz um exemplo ilustrativo dessas questões: os fenômenos relacionados à
drogadição, por exemplo, podem ser explicados pela psiquiatria, pela epidemiologia ou pela far-
macologia clínica. Mas a compreensão do que a dependência química significa para a vida do
doente é um tema para os investigadores qualitativistas, como psicólogos, psicanalistas, sociólogos,
antropólogos ou educadores.
No contexto da metodologia para dados qualitativos, emprega-se a concepção segundo a
qual não se busca estudar o fenômeno em si, mas entender seu significado individual ou coletivo
na vida das pessoas.
Os principais métodos de pesquisa qualitativa são: pesquisa participativa, pesquisa-ação,
enquete operária e pesquisa etnográfica.
12.3 Análise de variáveis qualitativas

O termo qualitativo, aqui, não diz respeito à qualidade de um objeto, mas ao tipo de variável
que se está observando. Essas variáveis são também conhecidas como variáveis categorizadas, pos-
to que são vistas quantidades de ocorrências para variáveis que podem se organizar em categorias
como sexo e grau de instrução. O tipo de pesquisa que se faz lança mão de recursos como números,
cálculos de percentagem, técnicas estatísticas mais sofisticadas, tabelas, amostras representativas,
ensaios aleatórios, questionários ou escalas de avaliação.
Assim, dados categorizados são provenientes de variáveis discretas, relativos a uma ou mais
variáveis definidas por meio de um número finito de níveis ou categorias. Essas variáveis podem
ser ordinais ou nominais, conforme suas categorias sejam ordenadas ou não.
Análise de variáveis qualitativas 173
Uma primeira abordagem mais descritiva de análise de dados qualitativos é feita por meio
do estudo das distribuições de frequências. O objetivo central deste capítulo é o de realizar estudos
em um contexto mais inferencial, isto é, coletando informação de uma amostra para tirar con-
clusões para a população, quando duas variáveis qualitativas são organizadas em tabelas de dupla
entrada, conhecidas assim porque cruzamos duas variáveis, a idade e o sexo. Podemos estar inte-
ressados, por exemplo, em verificar a relação entre sexo e idade de eleitores de um certo candidato
a prefeito. Vejamos uma situação hipotética de uma tabela de dupla entrada, chamada de tabela de
contingência, para a situação descrita:
Tabela 1 – Sexo e idade dos eleitores do candidato A
Sexo
Idade Total
Masculino Feminino
Menos de 30 60 50 110
30 e mais 80 10 90
Total 140 60 200

O que podemos inferir dos valores observados nessa amostra de 200 eleitores? Em quais ca-
tegorias o candidato A pode ser considerado mais forte? Homens jovens ou mulheres mais velhas?
Essas e outras tantas perguntas poderiam ser respondidas com base na examinação da tabela.
Para a realização dessa análise e de outras semelhantes, existe um procedimento estatístico
muito difundido e útil, chamado de teste qui-quadrado, que associa tabelas de contingência a
um modelo matemático conhecido como distribuição qui-quadrado. Observe que é distribuição
qui-quadrado, e não qui-quadrada, porque quem está ao quadrado é o (qui – letra grega cor-
respondente ao “q”), e não a distribuição. A notação é, portanto, 2 tanto para o teste como para
a distribuição.
Dois tipos de estudos para tabelas de dupla entrada podem ser realizados por meio dessa
metodologia, dependendo do enfoque que o pesquisador esteja dando à sua investigação:
1. teste qui-quadrado para independência de variáveis e;
2. teste qui-quadrado para a homogeneidade ou para a diferença entre proporções amostrais.
Uma terceira forma de utilização do teste qui-quadrado é o teste da bondade de um ajus-
tamento ou teste de aderência, quando se deseja verificar se as observações de uma dada variável
qualitativa “aderem” a uma particular distribuição. Neste último caso, não se tratam de tabelas de
dupla entrada.
12.4 O teste qui-quadrado

Qui-quadrado é uma distribuição de probabilidades, simbolizada por 2, cujo objetivo é
encontrar um valor de associação de duas variáveis qualitativas. O princípio básico do método
é comparar proporções, ou seja, as possíveis divergências entre as frequências observadas e
esperadas para certo evento.
A estatística utilizada para essa verificação é calculada pela expressão:
(o – e)2
2
=
e
Em que:
• “o” é a frequência observada para cada classe;

• “e” é a frequência esperada para aquela classe.
As frequências observadas são obtidas diretamente dos dados das amostras, enquanto que as
frequências esperadas são calculadas com base nessas. É importante notar que (o – e) é a diferença
entre a frequência observada e a esperada em uma classe. Se as frequências observadas são muito
próximas às esperadas, o valor de 2 é pequeno. De maneira inversa, quando as divergências são
grandes, (o – e) passa a ser também grande e, consequentemente, 2 assume valores altos.
Podemos, portanto, afirmar que dois grupos se comportam de modo semelhante se as di-
ferenças entre as frequências observadas e as esperadas em cada categoria forem muito pequenas,
próximas a zero.
Para a comparação, é necessário realizar um teste de hipóteses:
• Hipótese nula (H0): as frequências observadas não são diferentes das esperadas. Não exis-
te diferença entre as frequências (contagens) dos grupos: eles são independentes.
• Hipótese alternativa (H1): as frequências observadas são diferentes das esperadas, portanto
existe diferença entre as frequências: os grupos não são independentes.
É necessário também obter duas estatísticas: aquelas denominadas 2 calculado e 2 tabelado.
O 2 calculado é obtido com base nos dados experimentais, levando-se em consideração os valores
observados e os esperados. O 2 tabelado depende do número de graus de liberdade e do nível de
significância adotado. A tomada de decisão é feita comparando-se os dois valores de 2: se 2 calcu-
lado for maior ou igual ao 2 tabelado, rejeita-se H0. Se 2 calculado for menor do que 2 tabelado,
aceita-se H0.
12.4.1 Como usar a tabela de qui-quadrado

A tabela de qui-quadrado mostra o número de graus de liberdade nas linhas e o valor da
probabilidade nas colunas.
Na coluna referente a 5% de probabilidade, encontra-se o chamado valor crítico de qui-qua-
drado 2, com o qual deve ser comparado o valor calculado de 2. Cinco por cento é a probabilidade
de rejeitarmos a hipótese nula quando ela é verdadeira, ou seja, é a probabilidade de estarmos co-
metendo o erro de dizer que as frequências são diferentes quando de fato elas não são. Essa proba-
bilidade é chamada de erro estatístico, que deve ser bem pequeno, de preferência menor do que 5%.
Tabela 2 – Qui-quadrado
2
tabelado
GL 0,99 0,95 0,90 0,80 ... 0,05 0,02 0,01 0,001
1 0,0002 0,004 0,016 0,064 ... 3,841 5,412 6,635 10,827
2 0,020 0,103 0,211 0,446 ... 5,991 7,824 9,210 13,815
3 0,115 0,352 0,584 1,005 ... 7,815 9,837 11,345 16,266
4 0,297 0,711 1,064 1,649 ... 9,488 11,668 13,277 18,467
5 0,554 1,145 1,610 2,343 ... 11,070 13,388 15,080 20,515
...
Exemplo
Se um dado não viciado for jogado seis vezes, espera-se obter uma vez
cada face (1, 2, 3, 4, 5 e 6), já que a probabilidade de cair qualquer face é
de 1/6. Supondo que um dado foi jogado 186 vezes e se obteve:
Face 1 Face 2 Face 3 Face 4 Face 5 Face 6

34 29 30 32 28 33
Qual será o valor de 2

?
As frequências esperadas em cada classe são calculadas por (1/6)
(186) = 31.
Assim, os valores parciais são somados e chega-se ao valor de 2:
Observado 34 29 30 32 28 33
Esperado 31 31 31 31 31 31
2
parcial 0,2903 0,1290 0,0322 0,0322 0,2903 0,1290
(29 – 31)2 (30 – 31)2 (32 – 31)2 (28 – 31)2 (33 – 31)2
= (34 – 31) +
2
2
+ + + +
31 31 31 31 31 31
2
= (0,2903 + 0,1290 + 0,0322 + 0,0322 + 0,2903 + 0,1290)
2
= 0,903
Como podemos interpretar esse valor?

Para avaliar esse resultado, é necessário relacionar as estatísticas 2 cal-
culado e 2 tabelado. Em outras palavras, a tomada de decisão é feita
comparando-se os dois valores de 2: se 2 calculado for maior ou igual ao
2
tabelado, rejeita-se Ho; e se 2 calculado for menor do que 2 tabelado,
aceita-se Ho.
O 2 tabelado depende do número de graus de liberdade e do nível de

significância adotado. Se temos uma tabela kxp, ou seja, uma tabela com
“k” linhas e “p” colunas, a estatística do teste tem distribuição 2 com
(k-1)(p-1) graus de liberdade. Em uma tabela 2x2, por exemplo, a esta-
tística do teste terá 1 grau de liberdade.
Para encontrar 2, deveremos recorrer à tabela de qui-quadrado, presen-
te nos anexos no fim deste livro. Lembrando que em nosso exemplo,
como há seis classes (relativas aos números de lados dos dados), g.l. = 5.
Verificando-se a tabela de 2 na linha 5, encontra-se que 2 tabelado é
igual a 11,070. Como o valor de qui-quadrado calculado (0,903) foi me-
nor que o tabelado, admite-se que o dado seja honesto.
12.5 O teste qui-quadrado para a independência

O procedimento do teste consiste em verificar se há diferença significativa entre os valo-
res observados em uma amostra e os correspondentes valores esperados. No caso do exemplo
da característica dos eleitores do candidato A com relação a sexo e idade, poderíamos estar
interessados em verificar se a proporção de homens e de mulheres eleitores do candidato A é
diferente ou não, ou, de outra forma, desejamos verificar se há independência entre as variá-
veis sexo e idade para os eleitores.
Teoricamente, para que as proporções fossem as mesmas, deveríamos esperar a seguinte
distribuição entre os 200 eleitores, divididos em 140 homens e 60 mulheres e em 110 pessoas
com menos de 30 anos e 90 com mais de 30. Esses números são chamados de valores ou dis-
tribuições marginais e permanecem os mesmos da tabela original, o que muda são os valores
internos ou das caselas.
Sexo
Idade Total
Masculino Feminino
Menos de 30 60 50 110
30 e mais 80 10 90
Total 140 60 200
Observe que 55% dos homens (77 em 140) são eleitores com menos de 30 anos, da mesma
forma que 55% das mulheres (33 em 60) também têm menos do que 30 anos. Ou, de outra maneira,
77 em 110 eleitores com menos de 30 anos (70%) são homens. Essa proporção corresponde tam-
bém para os eleitores com mais de 30 anos (63 em 90).
Vale dizer, portanto, que, para não haver interferência do sexo ou da idade na preferência
dos eleitores, a distribuição esperada dos 200 eleitores deve seguir a tabela apresentada. Por isso,
esses valores são chamados de valores esperados, enquanto os originais observados na amostra são
os valores observados.
E como são obtidos os valores esperados? Basta multiplicar os valores marginais entre si.
Por exemplo, o valor 77 corresponde ao produto de 140 homens por 110 pessoas com menos de 30
anos dividido por 200.
140 x 110
= 77
200
Perceba que os outros valores esperados (e) foram calculados de modo similar. A lógica
do cálculo consiste em manter a proporção 110 em 200, correspondente ao total de pessoas com
menos de 30, para os homens com menos de 30, ou seja:
110 = e 110
e = 140 x = 77
200 140 200
Observe agora que as proporções de homens, mulheres e do total são as mesmas tanto para
eleitores com menos de 30 anos
77 110
= 33 = = 0,55
140 60 200
como para eleitores com 30 anos ou mais:
63 27
= = 90 = 0,45
140 60 200
Sabemos que a expressão da estatística do teste será dada por:
(o – e)2
2
=
e
Em que “o” é o valor observado e “e” o valor esperado. Para o exemplo desse problema,
temos como valor da estatística:
(10 – 27)2
= (60 – 77) + (80 – 63) + (50 – 33) +
2 2 2
2
= 27,8
77 63 33 27
Se o valor do qui-quadrado for próximo a zero, a probabilidade associada é igual a 1, ou
100%. Quanto mais cresce esse valor, mais a probabilidade associada se aproxima de zero. Em uma
tabela de dupla entrada, como a do exercício, se o valor do qui-quadrado for igual a 6, a proba-
bilidade será igual a 0,05 (5%), e, se for igual a 9, a probabilidade será igual a 0,01 (1%). Pode-se
verificar que o valor da probabilidade associado ao valor calculado da estatística será muito próxi-
mo a zero, o que significa que devemos rejeitar a hipótese de que os resultados das proporções são
independentes, ou seja, a relação amostral não pode ser atribuída ao acaso.
De outra forma, a proporção de homens com menos de 30 anos que votam no candidato A
(60/140 = 42,9%) é estatisticamente diferente da proporção das eleitoras com menos de 30 anos
(50/60 = 83,3%). Ou seja, o candidato tem preferencialmente entre seus eleitores jovens as mulhe-
res e, portanto, há uma relação entre a idade e o sexo dos eleitores do candidato A.
12.6 Testes das diferenças de K proporções amostrais

ou da homogeneidade
O procedimento do teste para a comparação de proporções amostrais é exatamente o mes-
mo do teste para independência entre variáveis, exceto pelo fato de que aqui as amostras são ex-
traídas de populações diferentes. Devemos, então, determinar se essas populações têm as mesmas
proporções das características em estudo. Observe que se tratam de enfoques diferentes: enquanto
no presente caso o objetivo é verificar diferenças entre proporções, no teste realizado na seção an-
terior a preocupação estava na relação entre as variáveis.
Como um teste de homogeneidade utiliza dados amostrais extraídos de populações diferen-
tes, temos totais predeterminados, ou para as linhas ou para as colunas, na tabela de contingência.
Assim, um teste de homogeneidade envolve escolhas aleatórias feitas de modo que ou os totais das
linhas ou o total das colunas são predeterminados.
Se os tamanhos das amostras usadas para diferentes populações foram predeterminados, es-
tamos no contexto do chamado teste de homogeneidade. Se, por outro lado, extraímos uma grande
amostra de modo que tanto os totais de linhas como os de colunas foram determinados aleatoria-
mente, temos um teste de independência.
Suponhamos que queiramos verificar a opinião dos eleitores dos estados do sul do país em
relação à aprovação das ações do Governo Federal. Se optarmos por determinar a opinião de 3.000
eleitores do Rio Grande do Sul, 2.800 do Paraná e 1.500 de Santa Catarina, então na tabela de con-
tingência que resume os resultados estarão predeterminados os totais das colunas. Os valores são
3.000, 2.800 e 1.500.
Veremos um exemplo dessa aplicação. A tabela a seguir especifica que em uma determinada
comunidade, de uma amostra de 50 famílias, 10 assistiam a um programa especial de televisão,
enquanto em outra comunidade, de uma amostra de 50 famílias, 15 assistiam a tal programa. Nesse
exemplo, testa-se a hipótese nula de que as duas proporções são iguais.
Tabela 3 – Programa de TV por comunidade
Programa TV Comunidade I Comunidade II Total

Assistem 10 15 25
Não assistem 40 35 75
Total 50 50 100
Com base nos dados dessa tabela, podemos determinar, da mesma forma que na seção an-
terior, os valores teóricos ou esperados para cada casela.
Programa TV Comunidade I Comunidade II Total
Assistem 12,5 12,5 25
Não assistem 37,5 37,5 75
Total 50 50 100
Calculando o valor da estatística qui-quadrado pela expressão

(o –e)2
2
=
e
= (10 – 12,5) + (15 – 12,5) + (40 – 37,5) + (35 – 37,5) = 1,34

2 2 2 2
2
100 100 100 100

Assim, obtemos que o valor da estatística calculada foi igual a 1,34 e devemos comparar com
o valor crítico de 99% de confiança ou = 0,01, que é igual a 6,63. Nessa situação, a hipótese nula
não pode ser rejeitada a um nível de significância de 1%, porque o valor calculado foi menos do
que o valor tabelado, concluindo-se que não diferem as proporções de telespectadores do progra-
ma nas duas comunidades.
12.7 Teste da bondade de ajustamento

A hipótese nula, em testes de bondade de ajustamento, é uma condição estipulada referida
ao padrão esperado de frequências em uma série de categorias. O padrão esperado pode ajus-
tar-se à suposição de igual verossimilhança e ser uniforme ou pode ajustar-se a distribuições de
probabilidade teóricas. O termo bondade refere-se à aproximação de uma distribuição esperada.
Se a distribuição observada for próxima da esperada, dizemos que a aproximação é “boa”, daí o
termo bondade.
Vamos tomar um exemplo hipotético em que se afirma que o número de homens e mulheres
que busca o auxílio-desemprego em uma determinada comunidade é o mesmo. Observa-se uma
amostra aleatória de 40 pessoas, sendo 25 homens e 15 mulheres. Desejamos testar a hipótese nula
de que o número total de homens e mulheres é igual, e que a diferença observada foi fruto do acaso.
Nesse exemplo acredita-se que, teoricamente, em uma amostra de 40 pessoas, deveríamos
encontrar 20 homens e 20 mulheres. Essa é a distribuição teórica ou esperada. A tabela a seguir
resume a situação:
Tabela 4 – Auxílio-desemprego entre homens e mulheres
Homens Mulheres Total
Nº na amostra 25 15 40
Nº esperado 20 20 40
Quando há apenas um grau de liberdade associado com o teste qui-quadrado, a menos que
a amostra seja muito grande, o valor calculado de 2 é sistematicamente supervalorizado, devido ao
caráter discreto de dados. O estatístico Frank Yates demonstrou que a seguinte fórmula, que inclui
uma correção de continuidade, é apropriada para 1 grau de liberdade. Quando n ≥ 50, o fator de
correção tem pouco efeito e pode ser desconsiderado. Além disso, não deve ser aplicado a nenhu-
ma casela para qual a diferença entre o valor observado e o valor esperado for menor do que 0,5. A
estatística é dada, então, pela expressão:
2
= (|o –e| – 0,5)2
e
Portanto,
(|25 – 20| – 0,5)2 (|15 – 20| – 0,5)2 (4,5)2 (4,5)2

2
= + = + = 2,02
20 20 20 20
Encontramos o valor da estatística 2

= 2,02, fruto da inclusão da correção de continuidade,
uma vez que a amostra é pequena.
O valor crítico do 2 com 1 grau de liberdade e = 0,05 é igual a 3,84. Portanto, não é pos-
sível rejeitar a hipótese nula ao nível de significância de 5% e concluímos que de fato o número
de homens e de mulheres da comunidade em questão que buscam o seguro-desemprego pode ser
considerado igual. Ou seja, a razão 25/40 pode ser considerada muito próxima da razão 15/40.
O trabalho com tabelas de dupla entrada, com a utilização de resultados da distribuição qui-
-quadrado, tem uma vasta aplicação para análise de variáveis qualitativas, muito presentes em estu-
dos socioeconômicos. O seu emprego é simples e abrange uma enormidade de questões relevantes.
Atividades
1. Qual é a diferença essencial entre os testes qui-quadrado para (i) bondade do ajustamento,
(ii) independência entre variáveis e (iii) homogeneidade de proporções?
2. O governo deseja avaliar a expansão do Programa Bolsa Família em dois estados da Federa-
ção. Para tanto, encomendou uma pesquisa para saber se havia relação entre as opiniões dos
habitantes dos estados com relação à expansão do programa. Os resultados encontrados são
apresentados na tabela a seguir:
Reação Estado A Estado B Total
A favor 20 19 39
Contra 10 16 26
Total 30 35 65
Sabendo-se que o valor crítico do 2 com = 0,05 e 1 grau de liberdade é igual a 3,84, per-
gunta-se: pode-se afirmar que há independência entre as localizações e a opinião de seus
habitantes? Justifique.
3. Em seu campo de trabalho, encontre uma situação em que poderíamos utilizar o teste qui-
-quadrado para ajudar a resolver uma hipótese acerca da relação entre duas variáveis, ou
testar homogeneidade de duas proporções, ou realizar um teste de bondade de ajustamento.
Anexos
Tabela A
Probabilidade sob a área da curva normal padrão
P(– ≤X≤Z)
f(X)
Z x
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-4,0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
(Continua)
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
(Continua)
Anexos 183
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4,0 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Tabela B
Distribuição “t” de Student
Exemplo: para 19 graus de liberdade, área de 0,05, t = 2,093.
f(X)
-t t x
Bicaudal
G.L. / Área 0,10 0,05 0,02 0,01
1 6,314 12,706 31,821 63,656
2 2,920 4,303 6,965 9,925
3 2,353 3,182 4,541 5,841
4 2,132 2,776 3,747 4,604
5 2,015 2,571 3,365 4,032
6 1,943 2,447 3,143 3,707
7 1,895 2,365 2,998 3,499
8 1,860 2,306 2,896 3,355
9 1,833 2,262 2,821 3,250
10 1,812 2,228 2,764 3,169
11 1,796 2,201 2,718 3,106
12 1,782 2,179 2,681 3,055
13 1,771 2,160 2,650 3,012
14 1,761 2,145 2,624 2,977
15 1,753 2,131 2,602 2,947
16 1,746 2,120 2,583 2,921
17 1,740 2,110 2,567 2,898
18 1,734 2,101 2,552 2,878
19 1,729 2,093 2,539 2,861
20 1,725 2,086 2,528 2,845
21 1,721 2,080 2,518 2,831
22 1,717 2,074 2,508 2,819
23 1,714 2,069 2,500 2,807
24 1,711 2,064 2,492 2,797
25 1,708 2,060 2,485 2,787
26 1,706 2,056 2,479 2,779
27 1,703 2,052 2,473 2,771
28 1,701 2,048 2,467 2,763
29 1,699 2,045 2,462 2,756
30 1,697 2,042 2,457 2,750
40 1,684 2,021 2,423 2,704
60 1,671 2,000 2,390 2,660
120 1,658 1,980 2,358 2,617
D. normal 1,645 1,96 2,326 2,576
Unicaudal 0,05 0,025 0,01 0,005

Anexos 185
f(X)
t x
Tabela C
Distribuição qui-quadrado
G.L /
0,990 0,950 0,900 0,500 0,100 0,050 0,025 0,010 0,005
P
1 0,0002 0,0039 0,0158 0,4549 2,7055 3,8415 5,0239 6,6349 7,8794
2 0,0201 0,1026 0,2107 1,3863 4,6052 5,9915 7,3778 9,2104 10,5965
3 0,1148 0,3518 0,5844 2,3660 6,2514 7,8147 9,3484 11,3449 12,8381
4 0,2971 0,7107 1,0636 3,3567 7,7794 9,4877 11,1433 13,2767 14,8602
5 0,5543 1,1455 1,6103 4,3515 9,2363 11,0705 12,8325 15,0863 16,7496
6 0,8721 1,6354 2,2041 5,3481 10,6446 12,5916 14,4494 16,8119 18,5475
7 1,2390 2,1673 2,8331 6,3458 12,0170 14,0671 16,0128 18,4753 20,2777
8 1,6465 2,7326 3,4895 7,3441 13,3616 15,5073 17,5345 20,0902 21,9549
9 2,0879 3,3251 4,1682 8,3428 14,6837 16,9190 19,0228 21,6660 23,5893
10 2,5582 3,9403 4,8652 9,3418 15,9872 18,3070 20,4832 23,2093 25,1881
11 3,0535 4,5748 5,5778 10,3410 17,2750 19,6752 21,9200 24,7250 26,7569
12 3,5706 5,2260 6,3038 11,3403 18,5493 21,0261 23,3367 26,2170 28,2997
13 4,1069 5,8919 7,0415 12,3398 19,8119 22,3620 24,7356 27,6882 29,8193
14 4,6604 6,5706 7,7895 13,3393 21,0641 23,6848 26,1189 29,1412 31,3194
15 5,2294 7,2609 8,5468 14,3389 22,3071 24,9958 27,4884 30,5780 32,8015
16 5,8122 7,9616 9,3122 15,3385 23,5418 26,2962 28,8453 31,9999 34,2671
17 6,4077 8,6718 10,0852 16,3382 24,7690 27,5871 30,1910 33,4087 35,7184
18 7,0149 9,3904 10,8649 17,3379 25,9894 28,8693 31,5264 34,8052 37,1564
19 7,6327 10,1170 11,6509 18,3376 27,2036 30,1435 32,8523 36,1908 38,5821
20 8,2604 10,8508 12,4426 19,3374 28,4120 31,4104 34,1696 37,5663 39,9969
21 8,8972 11,5913 13,2396 20,3372 29,6151 32,6706 35,4789 38,9322 41,4009
(Continua)
G.L /
0,990 0,950 0,900 0,500 0,100 0,050 0,025 0,010 0,005
P
22 9,5425 12,3380 14,0415 21,3370 30,8133 33,9245 36,7807 40,2894 42,7957
23 10,1957 13,0905 14,8480 22,3369 32,0069 35,1725 38,0756 41,6383 44,1814
24 10,8563 13,8484 15,6587 23,3367 33,1962 36,4150 39,3641 42,9798 45,5584
25 11,5240 14,6114 16,4734 24,3366 34,3816 37,6525 40,6465 44,3140 46,9280
26 12,1982 15,3792 17,2919 25,3365 35,5632 38,8851 41,9231 45,6416 48,2898
27 12,8785 16,1514 18,1139 26,3363 36,7412 40,1133 43,1945 46,9628 49,6450
28 13,5647 16,9279 18,9392 27,3362 37,9159 41,3372 44,4608 48,2782 50,9936
29 14,2564 17,7084 19,7677 28,3361 39,0875 42,5569 45,7223 49,5878 52,3355
30 14,9535 18,4927 20,5992 29,3360 40,2560 43,7730 46,9792 50,8922 53,6719
35 18,5089 22,4650 24,7966 34,3356 46,0588 49,8018 53,2033 57,3420 60,2746
40 22,1642 26,5093 29,0505 39,3353 51,8050 55,7585 59,3417 63,6908 66,7660
45 25,9012 30,6123 33,3504 44,3351 57,5053 61,6562 65,4101 69,9569 73,1660
50 29,7067 34,7642 37,6886 49,3349 63,1671 67,5048 71,4202 76,1538 79,4898
55 33,5705 38,9581 42,0596 54,3348 68,7962 73,3115 77,3804 82,2920 85,7491
60 37,4848 43,1880 46,4589 59,3347 74,3970 79,0820 83,2977 88,3794 91,9518
70 45,4417 51,7393 55,3289 69,3345 85,5270 90,5313 95,0231 100,4251 104,2148
80 53,5400 60,3915 64,2778 79,3343 96,5782 101,8795 106,6285 112,3288 116,3209
90 61,7540 69,1260 73,2911 89,3342 107,5650 113,1452 118,1359 124,1162 128,2987
100 70,0650 77,9294 82,3581 99,3341 118,4980 124,3421 129,5613 135,8069 140,1697
110 78,4582 86,7916 91,4710 109,3341 129,3852 135,4802 140,9165 147,4143 151,9482
120 86,9233 95,7046 100,6236 119,3340 140,2326 146,5673 152,2113 158,9500 163,6485

Gabarito
1 Introdução e conceitos básicos

1. A busca do material de pesquisa faz parte dessa atividade. Podemos listar, como exemplo,
três materiais acerca do assunto:
• Artigo 1: OLIVEIRA, Cleane S. de; NETO, Francisco Lotufo. Suicídio entre povos
indígenas: um panorama estatístico brasileiro. Revista Psiquiatria Clínica, v. 30, n. 1,
p. 4-10, 2003. Disponível em: http://www.scielo.br/pdf/rpc/v30n1/20583.pdf. Acesso
em: 7 nov. 2018.
• Artigo 2: MARIZ, Renata. Taxa de suicídio entre indígenas é três vezes maior que a
média nacional. O Globo, 21 set. 2017. Disponível em: https://oglobo.globo.com/so-
ciedade/saude/taxa-de-suicidio-entre-indigenas-tres-vezes-maior-que-media-nacio-
nal-21850401. Acesso em: 8 nov. 2018.
• Artigo 3: SOUZA, Maximiliano Loiola Ponte de; ONETY JR., Ricardo Tadeu da Silva.
Caracterização da morte por suicídio entre indígenas e não indígenas em Roraima,
Brasil, 2009-2013. Revista Epidemiologia e Serviços de Saúde, Brasília, v. 26, n. 4, p. 887-
893, out-dez. 2017. Disponível em: http://www.scielo.br/pdf/ress/v26n4/2237-9622-
ress-26-04-00887.pdf. Acesso em: 8 nov. 2018.
A questão do suicídio já havia sido objeto de estudo de Émile Durkheim, que assinalou sua
ocorrência habitual nas mais variadas sociedades. Isso fez com que o sociólogo o compreen-
desse como um fenômeno normal, devido à sua frequência e incidência regular. O que a
bibliografia acerca do suicídio indígena nos aponta é que a ocorrência desse fenômeno nas
sociedades indígenas é ainda mais frequente e gera proporcionalmente mais problemas, po-
dendo ser compreendida, nos termos de Durkheim, como uma situação patológica. As causas
para esse problema são variadas e envolvem fatores de natureza social, econômica, política,
religiosa e cultural, derivadas da situação de fragilidade e dificuldade de perpetuação e sub-
sistência dessas sociedades.
2. Acessar alguma pesquisa eleitoral realizada em um município brasileiro e verificar se há

grandes diferenças entre os resultados estimados e os obtidos. Como ilustração, segundo
os dados do Ibope de 2004, podemos perceber que não houve grande variação no resultado
e, portanto, que a pesquisa divulgada pelo instituto estava adequada, como mostra a tabela
a seguir.
Porto Alegre – comparativo entre prognóstico, pesquisa de boca de urna e resultados oficiais1:
Ibope TRE
30/10/2004 31/10/2004 31/10/2004
Fogaça – PPS-23 52% 51% 53%
Raul Pont – PT-13 48% 49% 47%
% de votos previstos corretamente 99% 98%
Brancos/Nulos (TRE): 3,90%
3. Acessar uma publicação qualquer e verificar se na reportagem foi utilizada alguma ferramenta
estatística, conforme solicitado na questão. Tomaremos como exemplo a notícia veicula-
da na página: UNICAMP – Universidade Estadual de Campinas. Anpesq 2005: anuário de
pesquisa. Disponível em: http://www.unicamp.br/anuario/2005/IntroducaoAnuario2005.
Acesso em: 7 nov. 2018.
Exemplo de análise:
• Tabelas e medidas estatísticas
O documento apresenta sete tabelas, permitindo uma comparação entre instituições de
ensino público dos estados de São Paulo, Rio de Janeiro e Rio Grande do Sul, por meio de
indicadores que possibilitam uma avaliação do desenvolvimento da pesquisa nas princi-
pais universidades do país. Há, no entanto, muitas informações que exigiriam mais espa-
ço para discussão. Uma das tabelas, a de número V, é muito carregada de informações e
cores, o que dificulta seu uso para a análise proposta.
• Gráficos
São apresentados três gráficos: dois gráficos de setores e um gráfico de linha. Eles são uti-
lizados corretamente, de acordo com as normas tradicionais de apresentação de gráficos.
Os dois primeiros permitem uma leitura comparativa de dois momentos diferentes, e o
gráfico de linha é de fato o mais adequado para apresentar séries temporais.
É bastante inovador inserir vários gráficos com respostas diferentes em um mesmo gráfico,
o que permite verificar que, apesar da manutenção quase constante do número de pesqui-
sadores, houve um aumento importante nos principais indicadores de desenvolvimento da
pesquisa científica, demonstrado por meio do estudo da evolução do número de disserta-
ções e teses publicadas, de publicações indexadas e de congressos de iniciação científica.
Todos esses indicadores tiveram aumento consistente ao longo do período considerado.
1 Percentuais calculados sobre os votos válidos do 2º turno das eleições de 2004.

Gabarito 189
2 Análise de dados
1.
a)
Pesos (em g) Freq.
1000 1 500 13
1500 2 000 15
2000 2 500 8
2500 3 000 10
3000 3 500 3
3500 4 000 1
Total 50
b)
Pesos (em g) Vivos Óbitos Total
1 000 1 500 2 11 13
1 500 2 000 6 9 15
2 000 2 500 5 3 8
2 500 3 000 6 4 10
3 000 3 500 3 0 3
3 500 4 000 1 0 1
Total 23 27 50
Com base na tabela anterior, conclui-se que:

Pesos (em g) Vivos Óbitos Total
Baixo peso
13 (56,5%) 23 (63,9%) 36
1000 2500
Não baixo peso

10 (43,5%) 4 (28,6%) 14
2500 4000
Total 23 27 50
c) A percentagem de óbitos para crianças com baixo peso (63,9%) é maior do que para
crianças em condições normais de peso (28,6%). Concluímos que, apesar de não se saber
exatamente qual é a causa de óbito (desconforto idiopático), esse desconforto provoca
baixo peso, causando uma maior percentagem de óbitos em recém-nascidos.
2.
Número de Número de Percentagem Percentagem

Idade
homens mulheres de homens de mulheres
0–29 185 4 20% 9%
30–39 207 13 23% 30%
40–49 260 10 29% 22,5%
50–59 180 7 20% 16%
60– 71 10 8% 22,5%
Total 903 44 100% 100%
Percentagem de condenados, por sexo:

35%
30%
25%
Percentagem de
20% homens
15% Percentagem de
mulheres
10%
5%
0%
1 2 3 4 5
A observação das frequências absolutas mostra que o número de homens condenados por
embriaguez é bastante maior do que o número de mulheres (903 casos contra 44). Quando
se observam os percentuais, verifica-se que a distribuição das condenações de homens é
mais uniforme, variando de 20% a 30% em praticamente todas as faixas, menos na dos ho-
mens acima de 60 anos. Já para as mulheres não há essa uniformidade.
Quando comparadas as proporções de homens e mulheres por faixa etária, o destaque se
dá para mulheres acima de 60 anos, que têm maior condenação do que os homens da mes-
ma faixa etária. A diferença para a percentagem de condenação de mulheres na faixa de 30
a 39 anos não é tão significativa: 7 pontos percentuais. Vale observar que a percentagem
de condenação para mulheres mais jovens (até 29 anos) é muito menor do que aquela para
os homens.
Gabarito 191
3.
Altura (em metros) Freq. Perc.
1,40 1,45 1 0,3%
1,45 1,50 11 3,2%
1,50 1,55 52 14,8%
1,55 1,60 109 31,1%
1,60 1,65 106 30,2%
1,65 1,70 50 14,2%
1,70 1,75 18 5,1%
1,75 1,80 4 1,1%
Total 351 100,0%
Altura de mulheres:
1,40 – 1,45
1,45 – 1,50
1,50 – 1,55
1,55 – 1,60
Freq.
1,60 – 1,65
1,65 – 1,70
1,70 – 1,75
1,75 – 1,80
Freq.
Alturas
As alturas das mulheres consideradas concentram-se entre 1,55 m e 1,65 m, com cerca de
61,3% das mulheres. Quanto mais afastadas do centro, menor é o número de mulheres. A
distribuição é relativamente simétrica em torno dessas classes centrais, tendo pouquíssimas
mulheres nas classes extremas: uma de 1,40 m a 1,45 m e quatro de 1,70 m a 1,75 m.
3 Medidas estatísticas de posição

1. Cada taxa é calculada como o número de ocorrências multiplicado por 100.000, dividido
pelo total da população de cada município e também pelo total de cada região. A única
forma de se obter o mesmo resultado para a média e para a taxa total é calculando a média
ponderada, levando-se em conta o número de habitantes de cada município.
2. O esquema de cinco números apresenta os valores mínimo e máximo, o 1º e o 3º quartil e a

mediana, conforme mostra a figura a seguir:
1º Quartil Mediana 3º Quartil
x min. x max.
Deve-se colocar, inicialmente, os municípios em ordem crescente de suas taxas:
Município Taxa
Jaraguá do Sul 61,5
Blumenau 163,3
Lages 173,6
Criciúma 188,8
Tubarão 205,8
Chapecó 245,7
Joinville 343,1
Palhoça 437,2
Itajaí 448,7
Florianópolis 569,9
São José 797,2
Xmin. = 61,5
Xmax. = 797,2
Como são 11 municípios, a posição da mediana será o 6º elemento ((11+1)/2).
Mediana = 245,7.
A posição do Quartil 1 será 1(n+1)/4 = 12/4 = 3, portanto Q1 = 173,6.
A posição do Quartil 3 será 3(n+1)/4 = 3(12)/4 = 9, portanto Q3 = 448,7.
Assim, o esquema de cinco números para as taxas dos municípios será:
173,6 245,7 448,7
61,5 797,2
3. O box-plot corresponde à figura a seguir e haverá outliers se existir algum valor fora do in-
tervalo (Q1 – 1,5 dq; Q3 + 1,5 dq).
Q1–1,5dq Q3+1,5dq
Q1 Mediana Q2
Como são 11 municípios, a posição da mediana será o 6º elemento ((11+1)/2).

Mediana = 245,7.
A posição do Quartil 1 será 1(n+1)/4 = 12/4 = 3, portanto Q1 = 173,6.
A posição do Quartil 3 será 3(n+1)/4 = 3(12)/4 = 9, portanto Q3 = 448,7.
Gabarito 193
Assim:
dq = Q3 – Q1 = 448,7 – 173,6 – 275,1
1,5 dq = 412,65
Q1–1,5dq < 0, então não há outlier para valores pequenos.

Q3+1,5dq = 448,7 + 412,65 = 831,65 e também não há outlier para valores grandes.
E o box-plot será:
0 831,65
173,6 245,7 448,7
4 Medidas estatísticas de dispersão

1. Sabendo que X = X , temos X = 144.144 = 3.276. Assim, a média é 3.276 g.
n 44
Aplicando a fórmula da variância S = VAR(X) = (X – X) , teremos que:
2
2
n–1
(3.837 – 3.276)2 + (3.380 – 3.276)2 ... (Xn – 3.276)2
S2 = VAR(X) = = 278.856,9
44 – 1
Para encontrar o desvio-padrão, basta extrair a raiz quadrada da variância, obtendo o valor
de S = 528,069 g.
Por fim, para calcular o coeficiente de variação, utilizamos a fórmula:
528,069
C.V. = S .100% e encontramos C.V. = .100% = 16,12%.
X 3276
Um coeficiente de variação de 16,12% revela que os dados são bastante homogêneos.
2. O coeficiente de variação é a razão entre o desvio-padrão e a média, multiplicada por 100.

Ele substitui o desvio-padrão para dados que não têm a mesma média, levando em conta,
assim, a dimensionalidade dos dados. Quando dois ou mais conjuntos têm a mesma média,
a comparação da variabilidade entre eles pode ser feita pelo desvio-padrão. Se os dados tive-
rem médias diferentes, a comparação da variabilidade deve ser feita por meio do coeficiente
de variação.
3. O procedimento para o trato de um outlier é inicialmente verificar se podemos classificar um

dado como outlier (ou valor discrepante). Caso seja, devemos primeiro averiguar se a medida
não foi feita de maneira errada, isto é, observar se o dado foi medido corretamente. Se esse for
o caso, devemos verificar se a grande diferença dos outliers em relação ao conjunto principal de
dados pode revelar alguma tendência ou sazonalidade. Se não for o caso, precisamos analisar
os dados com e sem os outliers e comparar os resultados. É necessário também prestar atenção
nas medidas que não são influenciadas pelos outliers, como a mediana.
5 Técnicas de amostragem
1. No processo de amostragem estratificada proporcional, os elementos dos estratos são sor-
teados. No caso de cotas, eles são escolhidos pelo entrevistador. No restante, os processos
são idênticos.
2. Não há semelhança entre os processos. A diferença é que, no processo de amostragem alea-

tória proporcional, os elementos da amostra são sorteados, e mais, todos os elementos da
população têm a mesma probabilidade de participar da amostra.
3. Esse é um processo de amostragem sistemática. A cada dez famílias pesquisadas, uma res-
ponde o questionário completo.
6 Tamanho de uma amostra

1. Vemos na curva C que há um crescimento linear do tamanho da amostra com o aumento
do tamanho da população. Essa relação não é adequada, porque, a partir de um certo valor,
o tamanho da amostra vai estabilizando, conforme mostra a curva B. No caso de não fazer-
mos a correção para a população finita, amostras de populações pequenas serão do mesmo
tamanho de amostras para populações grandes, o que não é adequado.
2. Quanto maior for o tamanho da amostra, mais cara será a pesquisa. Para baratear o trabalho
de pesquisa, devemos aumentar a margem de erro ou diminuir o nível de confiança.
3. Tamanho da amostra sem considerar o tamanho da população:
n’ = z.
2
d
22 x 0,25 1
n’ = = = 1.111
0,03 2
0,0009
Com correção para população finita:
n = n’ . (N – n)
(N – 1)
São Paulo:
n = 1.111 . 7 595 993 – 1 111 = 1.111 x 0,9999 = 1 110,9 1.111

7 595 993 – 1)
Sergipe:
n = 1.111 . 356.796 – 1.111 = 1.111 x 0,9984 = 1 109,3 1.109

356.796 – 1)
Observamos que não há grande diferença entre os resultados obtidos, porque o valor
356.796 já pode ser considerado muito grande, próximo ao infinito, para as considerações
da estatística.
Gabarito 195
7 Noções úteis de probabilidades

1. O espaço amostral é formado por 30 combinações possíveis (6 mulheres x 5 homens).
Temos, então, cardinal de S (#S = 30).
O conjunto definido, que pode ser chamado de C, é composto por Carmen e Carlos, e seu
cardinal é igual a 1. Assim, #C = 1.
Então, a probabilidade de C será dada por:
#C 1
P (C) = =
#S 30
Portanto, a P(C) é um trinta avos, ou 0,03, ou 3%.
2. Calcular as probabilidades marginais dividindo cada valor total pelo total geral, conforme
mostra a tabela a seguir:
A 489/967
B 478/967
Total 61/967 214/967 203/9677 152/967 153/967 184/967 967/967
Os resultados obtidos são:
A 0,51
B 0,49
Total 0,06 0,22 0,21 0,16 0,16 0,19 1,00
Assim, as distribuições de probabilidade marginais são, por município:
Município Total
A 0,51
B 0,49
Total 1,00
Idade Total
15-24 0,06
25-34 0,22
35-44 0,21
45-54 0,16
55-64 0,16
65 ou+ 0,19
Total 1,00
3. A esperança é definida por E(X) = X.P(X = x).
Idade central
Idade P(X = x) XP(X = x)
da classe (X)
15-24 20 0,06 1,2
25-34 30 0,22 6,6
35-44 40 0,21 8,4
45-54 50 0,16 8,0
55-64 60 0,16 9,6
65 ou+ 70 0,19 13,3
Total 1,00 47,1
Então, E(X) = 47,1. A esperança representa a média aritmética do grupo considerado.

Assim, a idade média dos habitantes das duas cidades é de 47,1 anos.
8 Inferência
1. Quando temos σ conhecido, utilizamos a distribuição normal para a construção do intervalo
de confiança para a média:
P (X – z. X
X + z. X) = 1 –
Em que, =
n
Quando σ não é conhecido, utilizamos S no seu lugar e a distribuição “t” de Student com n–1
graus de liberdade, em que n é o tamanho da amostra.
P (X – t.SX X + t.SX) = 1 –
S
Sendo: SX =
n
2. Pr (P– z. P
p P + z. ) = 1 –P
840
P= = 0,42
2000
Z = 1,96
pq 0,5 x 0,5
P
= = = 0,01118
n 2000
Pr(0,42 – (1,96)(0,01118) P 0,42 + (1,96)(0,01118)) = 1 – 0,05
Pr(0,42 – 0,02 P 0,42 + 0,02) = 0,95
Pr(0,40) P 0,44) = 0,95
O intervalo de 95% de confiança da proporção de votos do candidato considerado é (0,40;

0,44). Ou seja, podemos afirmar com 95% de confiança que o candidato teria entre 40% e
44% dos votos se a eleição fosse realizada no dia da pesquisa.
Gabarito 197
A margem de erro é de 2% e o erro estatístico é de 5%, sendo este o complementar do nível

de confiança.
3. Estatística do teste:
– –
z= X = X
X
n
70 – 65 5
z= = 70 – 65 = 5 = = 1,25
X 32 32 4
64 8
O valor de p-valor associado a z = 1,25 é 0,89. Então, podemos rejeitar H0 de que a média
seja igual a R$ 65,00 com 89% de confiança, mas não podemos rejeitar com 90% de con-
fiança. Logo, concluímos que a média de compras dos clientes não é maior do que R$ 65,00.
9 Estudos demográficos
1. A demografia pode auxiliar no estudo dos oito objetivos, mas aquele que está diretamente
relacionado ao tema é o Objetivo 4: reduzir a mortalidade infantil, já que ela é estudada na
área de taxas demográficas.
2. Países com maior taxa de dependência têm a população mais jovem e mais idosa em pro-
porção maior com relação à população economicamente ativa. Países com essa caracterís-
tica possuem pirâmides etárias mais achatadas na base e com base próxima ao cume, que
correspondem a países mais desenvolvidos. Portanto, os países mais desenvolvidos e com
população mais estabilizada precisam adequar suas políticas previdenciárias de tal forma
que a população economicamente ativa possa sustentar os que já se aposentaram.
3. O modelo aritmético supõe que a taxa de crescimento seja constante, e isso não se verifica
na prática a longo prazo. Por outro lado, o modelo de progressão geométrico supõe que
a população cresce rapidamente e sem limites. Embora o crescimento populacional esteja
mais relacionado a taxas crescentes – portanto, geométricas – a tendência mundial é de que,
à medida que os países vão alcançando maior desenvolvimento, haja estabilização do cres-
cimento em algum limite. Portanto, o modelo mais adequado é o do crescimento logístico.
10 Indicadores sociais e econômicos

1. As duas principais limitações do IDH são:
• O PIB per capita não consegue dar conta da má distribuição de renda.

• O índice de escolaridade não leva em conta a qualidade do ensino dado.
2. O índice de desenvolvimento humano é dado por:

L+E+R
IDH =
3
• IDH da longevidade:
EV – 25 70 – 25 55
L= = = = 0,916667
60 60 60
Valor considerado alto. A população tem expectativa de vida de 70 anos.
• IDH da educação:
2 (0,91) + 0,85
L = 2TA + TE = = 0,89
3 3
Valor também considerado alto, por ser maior do que 0,80.
• IDH da renda:
log10 PIBpc – 2 4,3266 – 2
L= = = 0,8941
2,60260 2,60260
Valor considerado alto para a média de rendimentos de toda a população.
IDH total:
• IDH = L + E + R = 0,916667 + 0,89 + 0,8941 = 0,90

3 3
O valor do IDH total de 0,90 é considerado alto. O fator que mais colaborou para esse alto
valor é o IDH da longevidade.
3. Critérios observados no IDH:
a) longevidade;
b) educação;
c) renda.
Relação direta:
a) A longevidade está relacionada aos objetivos 4 e 5.
b) A educação está relacionada ao objetivo 2.
c) A renda está relacionada ao objetivo 1.
Indiretamente, o Objetivo 3 está relacionado à educação e à renda. O Objetivo 6 está

relacionado à longevidade, assim como o Objetivo 7. O Objetivo 8 pode ser relacionado
aos três critérios.
11 Análise de associação entre variáveis

1. A reta de regressão é expressa por Y = a + bX, em que “a” é o coeficiente linear da reta e “b”
o coeficiente angular.
O coeficiente linear “a” é o valor de Y quando X = 0, e o coeficiente angular “b” diz qual é
a variação de Y quando X tem variação de uma unidade. O valor de b = 1 significa que a
variação de uma unidade de X corresponderá a uma variação de uma unidade de Y . Nesse
caso, o ângulo que a reta faz com o eixo X é de 45º, isso porque a tangente de 45º é igual a 1.
Gabarito 199
2. Se o coeficiente de correlação “r” é igual a 0,8, o seu quadrado é r2 = 0,64, que é o coeficiente
de explicação. Assim, a variação de Y é explicada em 64% por X. Os outros 36% da variação de
Y são explicados por outras variáveis.
3. O coeficiente de determinação ajustado leva em conta o número de observações amos-

trais. Quanto menor for o tamanho da amostra, a tendência é de aumento artificial do
valor do coeficiente de determinação. No extremo, se a amostra for de tamanho 2, o coe-
ficiente de determinação será igual a 1 ou 100%, independentemente da relação entre as
variáveis do modelo.
12 Análise de variáveis qualitativas

1. Dois tipos de estudos para tabelas de dupla entrada podem ser realizados mediante essa
metodologia, dependendo do enfoque que o pesquisador esteja dando à sua investigação:
i) teste qui-quadrado para a homogeneidade ou para a diferença entre proporções

amostrais;
ii) teste qui-quadrado para a independência entre variáveis.
O procedimento do teste para a comparação de proporções amostrais é exatamente o mes-

mo do teste para independência entre variáveis, exceto pelo fato de que no teste de homoge-
neidade trabalhamos com duas amostras ou mais, enquanto no teste para a independência
trabalha-se com uma única variável.
2. A tabela representada é a dos valores observados. A tabela dos valores esperados é dada
a seguir:
A favor (30)(39)/65 (35)(39)/65 39
Contra (30)(26)/65 (35)(26)/65 26
Total 30 35 65
Efetuando-se os cálculos, temos:
A favor 18 21 39
Contra 12 14 26
Total 30 35 65
Cálculo da estatística do teste:

(o – e)2
2
=
e
(20 – 18)2 (10 – 12)2 (19 – 21)2 (16 – 14)2
2
= + + + = 1,0317
18 12 21 14
Como o valor calculado (1,0317) é menor do que o valor crítico (3,84), não podemos rejeitar
a hipótese da igualdade. Logo, não podemos dizer que as percentagens de elementos contra
e a favor sejam diferentes nos dois estados.
3. O objetivo dessa atividade é adaptar o teste qui-quadrado como ferramenta importante na

análise de dados relacionados aos seus interesses profissionais ou acadêmicos. É possível,
por exemplo, comparar os dados de ingresso de estudantes afrodescendentes nas univer-
sidades públicas e privadas, para verificar o andamento dos projetos de cotas do governo,
ou relacionar o nível salarial de uma empresa com o sexo de seus funcionários. Esses dados
podem ser fundamentais para suscitar, endossar ou mesmo justificar a análise sociológica
nas mais diversas aplicações possíveis.
Referências
ASSOCIAÇÃO Brasileira de Normas Técnicas. NBR 6023: informação e documentação – referências –

elaboração. Rio de Janeiro, 2002. Disponível em: https://www.usjt.br/arq.urb/arquivos/abntnbr6023.pdf.
Acesso em: 25 out. 2018.
BIOGRAFÍAS Y VIDAS – La enciclopedia biográfica en línea. Émile Durkheim. Disponível em: https://
www.biografiasyvidas.com/biografia/d/durkheim.htm. Acesso em: 31 out. 2018.
BRADLEY, W.; James; SHAEFER, Kurt. The uses and misuses of data and models: the mathematization of
the human sciences. Thousand Oaks: Sage Publications, 1998.
BRASIL. Banco Central do Brasil. Índices de preços no Brasil. Série Perguntas mais frequentes.
Brasília, DF, mar. 2016. Disponível em: https://www.bcb.gov.br/conteudo/home-ptbr/FAQs/FAQ%20
02-%C3%8Dndices%20de%20Pre%C3%A7os%20no%20Brasil.pdf. Acesso em: 23 nov. 2018.
BRASIL. Resolução n. 2, de 28 de agosto de 2018. Diário Oficial da União, Poder Legislativo,

Brasília, DF, 29 ago. 2018. Disponível em: http://portal.imprensanacional.gov.br/materia/-/asset_
publisher/Kujrw0TZC2Mb/content/id/38727425/do1-2018-08-29-resolucao-n-2-de-28-de-agostode-
2018-38727285. Acesso em: 31 out. 2018.
BRUESEKE, Franz. A modernidade técnica. Revista Brasileira de Ciências Sociais, v. 17, n. 49,
p. 135-144, 2002.
CORRÊA, Marcello. Brasil é o 10° país mais desigual do mundo. O Globo, 28 jun. 2018. Disponível em:
https://oglobo.globo.com/economia/brasil-o-10-pais-mais-desigual-do-mundo-21094828. Acesso em:
6 nov. 2018.
DIAS, Cláudia A. Grupo focal: técnica de coleta de dados em pesquisas qualitativas. Informação e sociedade,
João Pessoa: UFPB, v. 10, n. 2, 2000.
DURKHEIM, Émile. Da divisão social do trabalho. São Paulo: Martins Fontes, 2008.
DURKHEIM, Émile. As regras do método sociológico. São Paulo: Martin Claret, 2001.
DURKHEIM, Émile. O suicídio. São Paulo: Martins Fontes, 2000.
EBC. Agência Brasil. ONU: crise econômica emperra desenvolvimento humano no Brasil. 21 mar. 2017.
Disponível em: http://agenciabrasil.ebc.com.br/direitos-humanos/noticia/2017-03/crise-economica-
emperra-desenvolvimento-humano-no-brasil. Acesso em: 6 nov. 2018.
FIPE – Fundação Instituto de Pesquisas Econômicas. Disponível em: http://www.fipe.org.br/. Acesso

em: 6 nov. 2018.
GALLUP. Analytics e advice about everything that matters. Disponível em: https://www.gallup.com/
home.aspx. Acesso em: 25 out. 2018.
HAND, David J. et al. A handbook of small data sets. London: Chapman & Hall, 1994.
HUFF, Darell. How to lie with statistics. Londres: Penguin, 1991.
IBGE – Instituto Brasileiro de Geografia e Estatística. Agência de notícias. Projeção da População 2018:
número de habitantes do país deve parar de crescer em 2047. 1º ago. 2018. Disponível em: https://agencia
denoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/21837-projecao-
da-populacao-2018-numero-de-habitantes-do-pais-deve-parar-de-crescer-em-2047. Acesso em: 31 out. 2018a.
IBGE – Instituto Brasileiro de Geografia e Estatística. Nossos sites. Disponível em: https://www.ibge.gov.br/
nossos-sites.html. Acesso em: 26 out. 2018b.
IBGE – Instituto Brasileiro de Geografia e Estatística. Estimativas de população: tabelas 2018. Disponível em:
https://www.ibge.gov.br/estatisticas-novoportal/sociais/populacao/9103-estimativas-de-populacao.html?=
&t=resultados. Acesso em: 31 out. 2018c.
IBGE – Instituto Brasileiro de Geografia e Estatística. Tendências demográficas no período de 1950/2000.

Disponível em: https://ww2.ibge.gov.br/home/estatistica/populacao/censo2000/tendencias_demograficas/
comentarios.pdf. Acesso em: 5 nov. 2018d.
IDH do Brasil segue puxado por taxa de alfabetização. BBC Brasil, Brasília, 18 dez. 2008. Disponível em:
https://www.bbc.com/portuguese/reporterbbc/story/2008/12/081218_idhbrasil_ac.shtml. Acesso em: 7 nov. 2018.
IDH 2018: Brasil ocupa a 79.ª posição. Veja a lista completa. UOL notícias internacional, São Paulo, 14 set. 2018.
Disponível em: https://noticias.uol.com.br/internacional/ultimas-noticias/2018/09/14/idh-2018-brasil-ocupa
-a-79-posicao-veja-a-lista-completa.htm. Acesso em: 23 nov. 2018.
MARIZ, Renata. Taxa de suicídio entre indígenas é três vezes maior que a média nacional. O Globo, 21
set. 2017. Disponível em: https://oglobo.globo.com/sociedade/saude/taxa-de-suicidio-entre-indigenas-tres-
vezes-maior-que-media-nacional-21850401. Acesso em: 8 nov. 2018.
MATOSO, Filipe. Em 79º lugar, Brasil estaciona no ranking de desenvolvimento humano da ONU. G1,
Brasília, 21 mar. 2017. Disponível em: https://g1.globo.com/mundo/noticia/em-79-lugar-brasil-estaciona-
-no-ranking-de-desenvolvimento-humano-da-onu.ghtml. Acesso em: 7 nov. 2018.
OBSERVATÓRIO das desigualdades. Coeficiente de Gini: valor de 2016 é o mais baixo num período de década
e meia. 19 jun. 2018. Disponível em: https://observatorio-das-desigualdades.com/2018/04/17/coeficiente-
de-gini/. Acesso em: 6 nov. 2018.
ODM Brasil. Os objetivos de desenvolvimento do milênio. Disponível em: http://www.odmbrasil.gov.br/

os-objetivos-de-desenvolvimento-do-milenio. Acesso em: 6 nov. 2018.
OLIVEIRA, Cleane S. de; NETO, Francisco Lotufo. Suicídio entre povos indígenas: um panorama estatístico
brasileiro. Disponível em: http://www.scielo.br/pdf/rpc/v30n1/20583.pdf. Acesso em: 7 nov. 2018.
ONUBR – Nações Unidas do Brasil. Os objetivos de desenvolvimento do milênio. 22 jun. 2010. Disponível em:
https://nacoesunidas.org/os-oito-odms/. Acesso em: 8 nov. 2018.
ONUBR – Nações Unidas do Brasil. Brasil está entre os cinco países mais desiguais, diz estudo de centro da ONU.
29 jan. 2018. Disponível em: https://nacoesunidas.org/brasil-esta-entre-os-cinco-paises-mais-desiguais-diz-
estudo-de-centro-da-onu/. Acesso em: 18 out. 2018.
PACHECO, Hellen; JATENE, Íris. Multicampi social prevê melhorias na qualidade de vida no Pará. 17 abr.
2008. Disponível em: https://ww2.ufpa.br/imprensa/noticia.php?cod=1954. Acesso em: 31 out. 2018.
PARANÁ (Estado). Secretaria da Educação do Paraná. Perfil biográfico de Émile Durkheim (1858-1917).
Disponível em: http://www.sociologia.seed.pr.gov.br/modules/conteudo/conteudo.php?conteudo=207.
Acesso em: 10 out. 2018.
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. Objetivos de desenvolvimento do
milênio. Disponível em: www.pnud.org.br/odm/objetivo_4. Acesso em: 1º dez. 2008.
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. ODS: objetivos de desenvolvimento
sustentável. Disponível em: http://www.br.undp.org/content/brazil/pt/home/sustainable-development-goals.
html. Acesso em: 31 out. 2018a.
Referências 203
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. O que é o relatório de desenvolvi-
mento humano. Disponível em: http://www.br.undp.org/content/brazil/pt/home/idh0/conceitos/o-que
-e-o-rdh.html. Acesso em: 5 nov. 2018b.
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. Relatórios de desenvolvimento
humano globais. Disponível em: http://www.br.undp.org/content/brazil/pt/home/idh0/relatorios-de-
desenvolvimento-humano/rdhs-globais.html. Acesso em: 7 nov. 2018c.
SANTA CATARINA (Estado). Secretaria de Estado da Segurança Pública de Santa Catarina. Roubo em Santa
Catarina. 2 jan. 2018. Disponível em: http://www.ssp.sc.gov.br/files/6.-ROUBO---SANTA-CATARINA-2-1.
pdf. Acesso em: 29 nov. 2018.
SCHLINDWEIN, Manoel. Desigualdade: quando chegaremos lá? IPEA: desafios do desenvolvimento hu-
mano, Brasília, ano 5, ed. 41, 16 mar. 2008. Disponível em: http://desafios.ipea.gov.br/index.php?option=
com_content&view=article&id=1183:reportagens-materias&Itemid=39. Acesso em: 6 nov. 2018.
SOUZA, Maximiliano Loiola Ponte de; ONETY JR., Ricardo Tadeu da Silva. Caracterização da morte por
suicídio entre indígenas e não indígenas em Roraima, Brasil, 2009-2013. Revista Epidemiologia e Serviços de
Saúde, Brasília, v. 26, n. 4, p. 887-893, out-dez. 2017. Disponível em: http://www.scielo.br/pdf/ress/v26n4/
2237-9622-ress-26-04-00887.pdf. Acesso em: 8 nov. 2018.
TEIXEIRA, Ricardo Rodrigues. Três fórmulas para compreender “O suicídio” de Durkheim. Interface –
Comunicação, Saúde, Educação, v. 6, n. 11, p. 143-52, ago. 2002.
TURATO, Egberto Ribeiro. Métodos qualitativos e quantitativos na área da saúde: definições, diferenças e
seus objetos de pesquisa. Revista de Saúde Pública, São Paulo, p. 507-514, v. 39, n. 3, jun. 2005. Disponível
em: http://www.scielo.br/pdf/rsp/v39n3/24808.pdf. Acesso em: 7 nov. 2018.
UFPA – Universidade Federal do Pará. Frases: estatística – matemática. 18 jul. 2018. Disponível em: http://
www.ufpa.br/dicas/cartao/fra-esta.html. Acesso em: 31 out. 2018.
UNICAMP – Universidade Estadual de Campinas. ANPESQ 2005: anuário de pesquisa. Disponível em:
http://www.unicamp.br/anuario/2005/IntroducaoAnuario2005. Acesso em: 7 nov.
VIDIGAL, Cláudia Bueno Rocha. Índice de bem-estar econômico: uma proposta para os estados brasilei-
ros. 2011. 123 f. Dissertação (Mestrado em Ciências) – Universidade de São Paulo – USP, São Paulo, 2011.
Disponível em: www.teses.usp.br/teses/disponiveis/11/11132/.../Claudia_Bueno_Rocha_Vidigal.pdf. Acesso
em: 23 nov. 2018.
ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS
Trabalhar com métodos quantitativos para a compreensão de fenômenos
econômicos e notadamente de fenômenos sociais não significa absolu-
tamente diminuir as discussões a um patamar reducionista ao buscar
equacionar esses fenômenos por meio de expressões matemáticas.
A estatística deve ser compreendida em suas exatas potencialidades
e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma
forma de quantificação. Ela não se basta nem deve pretender substituir
outras ferramentas analíticas tão próprias das ciências humanas; o que
ela pode desejar é ser seu complemento, e apenas eventualmente.
PAULO AFONSO BRACARENSE

Código Logístico
57423
Fundação Biblioteca Nacional

ISBN 978-85-387-6448-9
9 788538 764489

Estatistica Aplicada As Ciencias Sociais 2018

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatistica Aplicada As Ciencias Sociais 2018

Enviado por

Direitos autorais:

Formatos disponíveis

ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS

Trabalhar com métodos quantitativos para a compreensão de fenômenos

PAULO AFONSO BRACARENSE

Fundação Biblioteca Nacional

Paulo Afonso Bracarense

IESDE BRASIL S/A

CIP-BRASIL. CATALOGAÇÃO NA PUBLICAÇÃO

1. Modelos matemáticos - Aspectos sociais. 2. Ciências

Todos os direitos reservados.

IESDE BRASIL S/A.

1 Introdução e conceitos básicos 11

3 Medidas estatísticas de posição 35

4 Medidas estatísticas de dispersão 45

7 Noções úteis de probabilidades 81

9 Estudos demográficos 123

11 Análise de associação entre variáveis 153

12 Análise de variáveis qualitativas 171

A questão central colocada é a de como desenvolver esses conteúdos de modo a aproveitar

Usa a estatística como o bêbado o poste.

Andrew Lang (1844-1912)1

1.1 Sociologia e estatística

1 Escritor escocês e crítico literário com contribuição na área de antropologia.

1.2 Os métodos estatísticos

1.2.1 A análise exploratória de dados

1.2.2 A inferência estatística

1.3 Variáveis e escalas de mensuração

1.4 Medidas que revelam circunstâncias

1.5 Análise de associação entre variáveis

1.6 Metodologias qualitativas em ciências sociais

3. Em uma publicação – jornal ou revista –, observe as técnicas estatísticas utilizadas para

2 IBOPE. Disponível em: www. ibope.com.br. Acesso em: 18 out. 2018.

As estatísticas não substituem o julgamento.

Henry Clay (1777-1852)1

2.1 Análise exploratória de dados e estatística descritiva

2.2 Tipos de medidas

1 Advogado norte-americano que representou o Kentucky na Câmara dos Representantes e no Senado.

2.2.1 Tabelas e quadros estatísticos

2.2.1.1 Apresentação gráfica

primeira análise de dados, que comporte a verificação do perfil de seu

1 A. L. Ferraz M 49 1.714,00 Oper.

2 R. Abreu M 48 1.701,00 Oper.

3 R. S. Reis M 64 1.589,00 Oper.

4 N. Farias F 37 1.418,00 Oper.

5 J. L. Jansen F 42 1.000,00 Aux. Adm.

6 U. S. Machado M 40 3.732,00 Tec.

7 F. Nogueira F 21 1.330,00 Oper.

8 M. Pinheiro F 33 1.307,00 Oper.

9 M. A. da Silva M 39 1.282,00 Oper.

10 P. A. B. Costa F 42 1.260,00 Oper.

11 H. F. Minho F 39 975,00 Aux. Adm.

12 N. M. de Lima M 32 1.256,00 Oper.

13 C. F. Loureiro M 22 1.185,00 Oper.

14 M. E. M. Ferreira M 21 3.535,00 Tec.

15 J. A. Isaias F 37 2.956,00 Tec.

16 J. Martins F 24 1.179,00 Oper.

17 A. P. Ribeiro M 28 966,00 Aux. Adm.

18 L. C. Batista M 32 3.204,00 Adm.

19 A. F. dos Santos M 31 881,00 Aux. Adm.

20 C. A. Brandão F 38 3.080,00 Adm.

21 D. J. Feltrin M 23 2.872,00 Tec.

22 L. S. Prestes M 22 826,00 Aux. Adm.

23 J. L. Campos M 46 1.010,00 Oper.

24 S. I. Magalhães F 34 708,00 Aux. Adm.