Escolar Documentos
Profissional Documentos
Cultura Documentos
57423
9 788538 764489
Estatística aplicada às
ciências sociais
Apresentação 9
2 Análise de dados 19
2.1 Análise exploratória de dados e estatística descritiva 19
2.2 Tipos de medidas 19
5 Técnicas de amostragem 55
5.1 Sociologia e amostragem 55
5.2 População 56
5.3 Amostra 57
5.4 Tipos de amostragem 59
5.5 Principais técnicas de amostragem 64
6 Tamanho de uma amostra 71
6.1 A “margem de erro” 71
6.2 O nível de confiança 73
6.3 A variabilidade 75
6.4 Determinação do tamanho da amostra 75
6.5 Custo da pesquisa 77
6.6 Correção para populações finitas 78
8 Inferência 97
8.1 Investigação sociológica 97
8.2 Procedimentos inferenciais 98
8.3 A distribuição normal 99
8.4 A distribuição “t” de Student 108
8.5 Intervalo de confiança 109
8.6 Testes de hipóteses 115
Anexos 181
Gabarito 187
Referências 201
Apresentação
Este livro não é apenas resultado da experiência do autor como professor de Estatística para
alunos de Sociologia e Economia, mas também de seu extenso trabalho prático na área, inclusive
na tarefa de formulação de políticas públicas que, por sua natureza, exigem muita responsabilidade
e envolvem grandes contingentes da população brasileira.
O principal desafio consistiu em trabalhar conteúdos que exigiam certo trato com a mate-
mática para um público que está acostumado a lidar com outro tipo de linguagem e lógica. Mesmo
sendo essa uma tarefa difícil, não deixou de ser prazerosa.
Há que se fazer um alerta importante nesta discussão: trabalhar com métodos quantita-
tivos para a compreensão de fenômenos econômicos e notadamente de fenômenos sociais não
significa absolutamente diminuir as discussões a um patamar reducionista ao buscar equacionar
esses fenômenos por meio de expressões matemáticas. A estatística deve ser compreendida em
suas exatas potencialidades e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma forma de quantificação.
E só isso. Ela não se basta nem deve pretender substituir outras ferramentas analíticas tão próprias
das ciências humanas; o que ela pode desejar é ser seu complemento, e apenas eventualmente.
Não há dúvidas de que a estatística serve muito bem para dar suporte ao chamado “paradig-
ma reducionista”, do qual faz parte a ideia de diminuir um problema complexo em partes menores,
analisar cada uma delas e depois encontrar uma forma de aglutiná-las para compreender o todo. Ela
pode e merece ser muito mais do que isso. As metodologias para análise de fenômenos complexos
são necessariamente mais complexas do que aquelas para análise de fenômenos mais simples. É assim
para qualquer ciência, inclusive para aquelas que utilizam métodos quantitativos. O que pode atribuir
maior empregabilidade ao método estatístico, e que não é a vocação de qualquer método matemático,
é a sua proposta de fazer uma grande negociação entre complexidade e incerteza na busca de com-
preensão do mundo real.
Apelamos, portanto, a você, leitor, que dê uma chance aos métodos propostos. Eles podem
(e devem) ser úteis em algum momento no exercício profissional de análise da realidade, a despeito
de algum esforço adicional para a leitura de seus conteúdos matemáticos, cujas exigências não serão
superiores àquelas dos cursos médios. Sabemos perfeitamente que muitos dos nossos leitores
gostariam de ter abandonado esse “sacrifício” quando optaram por um curso de ciências humanas,
todavia você verá que, após um eventual período de estranhamento, terá, a partir de agora, mais um
aliado em seu desafio cotidiano da análise dos fenômenos sociais: a ferramenta estatística.
Boa leitura!
1
Introdução e conceitos básicos
essas normas são definidas pela Associação Brasileira de Normas Técnicas (ABNT) e, portanto,
devem ser respeitadas.
O clássico manual de Darrell Huff, Como mentir com estatística [How to lie with statistics],
publicado originalmente em 1954, expõe formas de manipulação da apresentação de dados em ta-
belas e gráficos que podem levar o analista a cometer erros interpretativos. Antes de ensinar como
mentir com estatísticas, o livro alerta para a utilização incorreta da apresentação de dados mesmo
por analistas desavisados e bem-intencionados. Existem outros vários títulos sobre o uso e o mau
uso de estatística para análise de fenômenos reais. O livro Usos e maus usos de dados e modelos: a
matematização das ciências humanas [The uses and misuses of data and models: the mathematization
of the human sciences], de W. James Bradley e Kurt Shaefer (1998), alerta para os cuidados que
precisam ser tomados para a utilização da estatística como auxiliar na compreensão de fenômenos
sociais. Os autores desenvolveram princípios que devem servir de guias para o uso de dados e
modelos nas ciências humanas. Normas, valores e propósitos precisam se tornar parte do discurso
comum de pesquisadores, promovendo estudos mais responsáveis ética e socialmente.
Novas formas de apresentação gráfica são utilizadas na AED, como o diagrama de caixas
(box-plot), o esquema de cinco números e o diagrama ramo e folhas. A apresentação tabular e grá-
fica será abordada posteriormente.
Faz parte também da AED sintetizar dados com base nas chamadas medidas estatísticas.
Elas podem ser classificadas em quatro grupos: (i) medidas de posição, entre elas as medidas de
tendência central e as separatrizes; (ii) medidas de dispersão, como a variância e o desvio-padrão;
(iii) medidas de assimetria e; (iv) medidas de achatamento ou de curtose. O estudo das medidas
de posição e das medidas de dispersão, por serem as mais importantes, será assunto tratado em
capítulos posteriores, e as medidas de assimetria e de curtose não serão tratadas em profundidade
por não fazerem parte do escopo principal deste livro.
A letra “P” é indicativa da percentagem de votos que o candidato A teria se as eleições fos-
sem no dia em que a pesquisa de campo foi realizada. O valor de 40% representa a percentagem de
eleitores na amostra que disseram votar nesse candidato. A margem de erro de 3% indica o grau
de precisão (ou desvio) do resultado em razão do trabalho amostral, e o nível de confiança de 95%
equivale à chance de que a amostra sorteada realmente represente o universo de eleitores.
Essas duas medidas – margem de erro e nível de confiança – são predeterminadas para o
cálculo do número de eleitores que será pesquisado, ou, como é tecnicamente conhecido, o tamanho
da amostra. Esses temas serão tratados em capítulos específicos sobre técnicas de amostragem e
inferência estatística.
No capítulo referente à amostragem, serão apresentadas as principais técnicas (amostra
aleatória simples, amostra estratificada proporcional e amostra sistemática), além da discussão de
métodos de amostragem não probabilísticos – que não suportam o trabalho de inferência – e as
maneiras de se determinar o tamanho adequado de uma amostra representativa.
No tópico sobre inferência estatística, o trato com a curva normal e com o chamado teorema
central do limite permitirá a construção de inferências sobre os parâmetros populacionais com base
nas observações amostrais. Dois aspectos centrais serão tratados nesse capítulo: a construção de
intervalos de confiança, como o anteriormente apresentado, e o procedimento conhecido como
teste de hipóteses.
Os procedimentos de realização de uma pesquisa de opinião pública serão também abor-
dados posteriormente, bem como aqueles para realizar uma pesquisa que revele a opinião de um
determinado grupo de pessoas. A forma de organização de um questionário e o estabelecimento
de perguntas que tenham o potencial de revelar opiniões serão tratados de maneira sistemática.
Portanto, fenômenos complexos, como os tratados pelas ciências humanas, não são de fácil
aferição. A definição clara das variáveis a serem estudadas e de como medi-las, estabelecendo-se
escalas de mensuração, é uma das tarefas mais difíceis para o cientista social.
Uma variável é um conceito abstrato, que precisa ser traduzido em formas concretas de
observação e manipulação. Ela pode ser compreendida como um evento, uma situação ou um
comportamento e exige-se que a medida realizada por meio de uma variável seja válida e fidedigna.
Para algo ser válido, deve ser “verdadeiro”, no sentido de estar fundamentado nas evidências
disponíveis. A fidedignidade diz respeito à variável estar medindo o que realmente se propõe a
medir. Por meio de medidas, escalas podem ser construídas, sendo elas de natureza nominal,
ordinal, numérica ou intervalar.
Atividades
1. Um fenômeno complexo e problemático que ocorre com maior expressão em diversas so-
ciedades indígenas da atualidade é o suicídio. Faça uma pesquisa bibliográfica sobre essa
questão, procurando identificar algumas de suas possíveis causas. Atente-se para a utilização
de indicadores na explicação desse problema.
2. Escolha um município qualquer do Brasil e compare o resultado das últimas eleições muni-
cipais com alguma pesquisa eleitoral realizada um pouco antes do pleito. O site do Instituto
Brasileiro de Opinião Pública e Estatística2 concentra grande parte dessas informações. O
que se pode concluir?
As variáveis quantitativas podem ser contínuas ou discretas. Elas são contínuas quando entre
dois quaisquer valores possam estar novos valores e são fruto de medidas que podem ser expressas
pelos números reais. O salário dos empregados de uma empresa, por exemplo, pode ser considerado
uma variável contínua. As variáveis são discretas quando são resultados de contagem e podem ser
expressas por números inteiros, como a idade dos funcionários. Outra característica importante das
variáveis quantitativas é que elas possibilitam fazer operações matemáticas com seus valores, como
soma, subtração, multiplicação e divisão.
As variáveis categorizadas ou qualitativas são expressas em escalas ordinais, como é o caso da
ordem em que os funcionários foram contratados, ou em categorias, como o sexo do funcionário
ou o setor em que ele trabalha. Não se pode, nesse caso, fazer as operações matemáticas usuais com
os resultados obtidos.
Exemplo
Usaremos a situação a seguir, da composição dos empregados de uma
empresa imaginária, chamada aqui de empresa ABC, para ilustrar a
natureza das variáveis e os recursos estatísticos disponíveis para uma
2 ASSOCIAÇÃO Brasileira de Normas Técnicas. NBR 6023: informação e documentação – referências – elaboração.
Rio de Janeiro, 2002. Disponível em: https://www.usjt.br/arq.urb/arquivos/abntnbr6023.pdf. Acesso em: 25 out. 2018.
Análise de dados 21
Número de
Nome Sexo Idade Salário Setor
ordem
Número de
Nome Sexo Idade Salário Setor
ordem
Número Média
Sexo Idade Setor Salário
de ordem salarial
M 41 Ger. 29 5.572,00
M 40 Tec. 6 3.732,00
M 21 Tec. 14 3.535,00
F 37 Tec. 15 2.956,00
M 23 Tec. 21 2.872,00
M 42 Tec. 26 2.797,00
M 30 Tec. 30 2.372,00
F 22 Tec. 36 1.904,00
M 32 Adm. 18 3.204,00
F 38 Adm. 20 3.080,00
M 47 Adm. 25 2.960,00
F 29 Adm. 28 2.315,00
M 49 Oper. 1 1.714,00
M 48 Oper. 2 1.701,00
M 64 Oper. 3 1.589,00
F 37 Oper. 4 1.418,00
F 21 Oper. 7 1.330,00
F 33 Oper. 8 1.307,00
M 39 Oper. 9 1.282,00
F 42 Oper. 10 1.260,00
M 32 Oper. 12 1.256,00
M 22 Oper. 13 1.185,00
F 24 Oper. 16 1.179,00
M 46 Oper. 23 1.010,00
(Continua)
24 Estatística aplicada às ciências sociais
Número Média
Sexo Idade Setor Salário
de ordem salarial
F 32 Oper. 27 1.001,00
M 20 Oper. 33 540,00
F 27 Oper. 34 489,00
F 33 Oper. 35 479,00
Fem. 19 47,5%
Masc. 21 52,5%
Total 40 100,0%
Fonte: Elaborada pelo autor.
15
Número
10
0
Fem. Masc.
Sexo
Fonte: Elaborada pelo autor.
Figura 2 – Gráfico de barras: representação da categoria sexo dos funcionários da empresa ABC
Masc.
Sexo
Fem.
0 5 10 15 20
Número
Fonte: Elaborada pelo autor.
Figura 3 – Gráfico de setores: representação da categoria sexo dos funcionários da empresa ABC
Fem.
52% 48%
Masc.
Gerência 2 5,0%
Adm. 5 12,5%
Tec. 8 20,0%
Oper. 17 42,5%
Total 40 100,0%
Fonte: Elaborada pelo autor.
Figura 4 – Gráfico de colunas: representação da categoria função dos funcionários da empresa ABC
18
16
14
12
Número
10
0
Gerência Adm. Tec. Aux. Adm. Oper.
Categorias
Fonte: Elaborada pelo autor.
Figura 5 – Gráfico de setores: representação da categoria função dos funcionários da empresa ABC
5%
13%
Gerência
Adm.
42%
20% Tec.
Aux. Adm.
Oper.
20%
Fonte: Elaborada pelo autor.
Análise de dados 27
Idade Freq.
20 2
21 2
22 3
23 2
24 2
25 0
26 0
27 0
28 1
29 1
Total 13
Fonte: Elaborada pelo autor.
2,5
1,5
0,5
0
20 21 22 23 24 25 26 27 28 29
Fonte: Elaborada pelo autor.
28 Estatística aplicada às ciências sociais
2 00112223344789
3 01222334477899
4 0112226789
5 1
6 4
Fonte: Elaborada pelo autor.
Ano Funcionários
Ano 1 15
Ano 2 20
Ano 3 32
Ano 4 40
Fonte: Elaborada pelo autor.
Análise de dados 29
Figura 8 – Gráfico de linhas: representação do número de funcionários da empresa ABC por ano
45
40
35
30
25
20
15
10
0
Ano 1 Ano 2 Ano 3 Ano 4
Fonte: Elaborada pelo autor.
30 a 39 14 35,0%
40 a 49 10 25,0%
50 a 59 1 2,5%
60 ou + 1 2,5%
Total 40 100,0%
Figura 9 – Histograma de distribuição de frequências das idades dos funcionários da empresa ABC
16
14
12
20 a 29 anos
Frequência
10 30 a 39 anos
8 40 a 49 anos
6 50 a 59 anos
4 60 anos ou mais
2
0
1
Idade
Fonte: Elaborada pelo autor.
Total 40 1,00
Fonte: Elaborada pelo autor.
16
14
12 Até 999
Frequência
De 1.000 a 1.999
10
De 2.000 a 2.999
8 De 3.000 a 3.999
Acima de 4.000
6
0
1
Salários
Fonte: Elaborada pelo autor.
Análise de dados 31
X ≥ 4.000 2 0,05
Total 40 1,00
Fonte: Elaborada pelo autor.
Total 40 1,00
Fonte: Elaborada pelo autor.
16
14
12 Até 1.000
Frequências
De 1.000 a 2.000
10
De 2.000 a 3.000
8 De 3.000 a 4.000
Acima de 4.000
6
0
1
Salários
Fonte: Elaborada pelo autor.
Atividades
1. Os dados a seguir são relativos ao peso, ao nascer (em gramas), de recém-nascidos com sín-
drome de desconforto idiopático grave, ou seja, de causa desconhecida. Algumas crianças
foram a óbito (*) e outras sobreviveram.
Número Número
Idade
de homens de mulheres
0 – 29 185 4
30 – 39 207 13
40 – 49 260 10
50 – 59 180 7
60 – 71 10
Total 903 44
Fonte: Hand et al., 1994.
34 Estatística aplicada às ciências sociais
3. Os dados a seguir são relacionados à altura (em centímetros) de uma amostra de 351 mulhe-
res idosas selecionadas aleatoriamente em uma comunidade, para um estudo de osteoporose.
Faça uma apuração dos dados e os represente em uma tabela e em um gráfico. Em seguida,
interprete os resultados.
156 163 169 161 154 156 163 164 156 166 177 158
150 164 159 157 166 163 153 161 170 159 170 157
156 156 153 178 161 164 158 158 162 160 150 162
155 161 158 163 158 162 163 152 173 159 154 155
164 163 164 157 152 154 173 154 162 163 163 165
160 162 155 160 151 163 160 165 166 178 153 160
156 151 165 169 157 152 164 166 160 165 163 158
153 162 163 162 164 155 155 161 162 156 169 159
159 159 158 160 165 152 157 149 169 154 146 156
157 163 166 165 155 151 157 156 160 170 158 165
167 162 153 156 163 157 147 163 161 161 153 155
166 159 157 152 159 166 160 157 153 159 156 152
151 171 162 158 152 157 162 168 155 155 155 161
157 158 153 155 161 160 160 170 163 153 159 169
155 161 156 153 156 158 164 160 157 158 157 156
160 161 167 162 158 163 147 153 155 159 156 161
158 164 163 155 155 158 165 176 158 155 150 154
164 145 153 169 160 159 159 163 148 171 158 158
157 158 168 161 165 167 158 158 161 160 163 163
169 163 164 150 154 165 158 161 156 171 163 170
154 158 162 164 158 165 158 156 162 160 164 165
157 167 142 166 163 163 151 163 153 157 159 152
169 154 155 167 164 170 174 155 157 170 159 170
155 168 152 165 158 162 173 154 167 158 159 152
158 167 164 170 164 166 170 160 148 168 151 153
150 165 165 147 162 165 158 145 150 164 161 157
163 166 162 163 160 162 153 168 163 160 165 156
158 155 168 160 153 163 161 145 161 166 154 147
161 155 158 161 163 157 156 152 156 165 159 170
K. Dunnigan
A expressão i = X
1
i significa somar valores de Xi com i variando de 1 até n. Cada Xi é um ele-
mento da amostra. O quadro a seguir apresenta o conjunto de indivíduos da empresa ABC junto à
sua idade e a seu salário. Esses dados servirão para introduzir as medidas.
Quadro 1 – Idade e salário dos funcionários da empresa ABC
1 A. L. Ferraz 49 1.714,00
2 R. Abreu 48 1.701,00
3 R. S. Reis 64 1.589,00
4 N. Farias 37 1.418,00
5 J. L. Jansen 42 1.000,00
(Continua)
Medidas estatísticas de posição 37
6 U. S. Machado 40 3.732,00
7 F. Nogueira 21 1.330,00
8 M. Pinheiro 33 1.307,00
9 M. A. da Silva 39 1.282,00
10 P. A. B. Costa 42 1.260,00
11 H. F. Minho 39 975,00
12 N. M. de Lima 32 1.256,00
13 C. F. Loureiro 22 1.185,00
14 M. E. M. Ferreira 21 3.535,00
15 J. A. Isaias 37 2.956,00
16 J. Martins 24 1.179,00
17 A. P. Ribeiro 28 966,00
18 L. C. Batista 32 3.204,00
20 C. A. Brandão 38 3.080,00
21 D. J. Feltrin 23 2.872,00
22 L. S. Prestes 22 826,00
23 J. L. Campos 46 1.010,00
24 S. I. Magalhães 34 708,00
25 P. R. Gonçalves 47 2.960,00
26 M. I. Machado 42 2.797,00
27 M. Paraná 32 1.001,00
28 U. V. Guimarães 29 2.315,00
29 E. M. Moreira 41 5.572,00
30 A. P. de Andrade 30 2.372,00
31 L. R. de Souza 51 4.829,00
32 R. T. Moraes 23 1.826,00
33 J. Pilloto 20 540,00
34 F. C. Lopes 27 489,00
35 C. A. Meier 33 479,00
36 H. O. Silveira 22 1.904,00
37 K. D. Almeida 41 659,00
38 M. J. D. Colares 34 1.827,00
39 R. F. L. Silvério 24 472,00
40 M. N. Messias 20 640,00
Fonte: Elaborado pelo autor.
38 Estatística aplicada às ciências sociais
A média aritmética representa o centro de gravidade dos dados. Alguns cuidados, no en-
tanto, devem ser tomados quando desejamos resumir os dados pelo valor de sua média, pois ela é
muito sensível a valores extremos. Um único valor muito grande ou muito pequeno pode mudar
substancialmente o valor da média, podendo ela perder sua representatividade.
No exemplo dado, o valor da média das idades dos empregados da empresa ABC é de
34 anos, e o valor da média dos salários é de R$ 1.791,20. Se considerarmos a idade de 64 anos
como um outlier, a nova média será de 33,2 anos, e, se considerarmos os salários R$ 4.829,00 e
R$ 5.572,00 como valores muito acima dos demais, teremos uma média salarial de R$ 1.611,76,
quase R$ 200,00 de diferença com relação à primeira média.
No primeiro caso, a diferença parece não ter sido de grande significância, mas, para a média
salarial, pode ser considerada importante, mesmo porque seria um dos elementos centrais em uma
análise de cargos e salários. No cálculo da média, retirar o salário dos dois gerentes pode ser útil
para a construção de uma política de cargos e salários.
Essa sensibilidade da média a valores extremos pode ser mais bem compreendida com a
seguinte frase: “Se coloco os pés no congelador e a cabeça num forno aceso, a temperatura média
do corpo será agradável...” (UFPA, 2018).
X= Xf
f
X = Xfrel
Medidas estatísticas de posição 39
Número de
Idade Ponto médio (X) frel X. frel
trabalhadores (freq.)
[20;30) 14 25 0,35 8,575
Total 40 34,75
Fonte: Elaborada pelo autor.
Número de
Salário Ponto médio (X) frel X frel
salários (freq.)
X < 1000 11 500 0,28 140
Total 40 1.735
Fonte: Elaborada pelo autor.
No cálculo da média ponderada das idades e dos salários, com o auxílio das tabelas anterior-
mente apresentadas, encontramos os seguintes valores para as médias: idade média de 34,75 anos
e salário médio de R$ 1.735,00.
Se compararmos esses valores com os encontrados para os dados brutos, cuja idade média é
de 34 anos e cujo salário médio é de R$ 1.791,20, percebemos que pequenas alterações ocorreram,
principalmente no valor do salário médio, em razão de termos considerado o valor dos salários dos
gerentes como R$ 4.500,00 na distribuição de frequências, quando de fato eles eram bem superiores
a isso.
Essas distorções costumam desaparecer quando retiramos os outliers do cálculo ou quando
o número de observações cresce.
40 Estatística aplicada às ciências sociais
3.2.3 A mediana
Como foi observado anteriormente, a média é uma medida muito útil para a análise de certo
fenômeno por meio de indicadores numéricos, mas é também muito sensível a valores extremos.
Assim, é necessário determinar outras medidas que possam auxiliar o analista a compreender o
comportamento dos dados além da determinação da média. Algumas medidas não são influencia-
das por valores extremos e são úteis então para a complementação da análise. Uma das principais
que tem essa característica é a mediana.
A mediana é o valor que divide o rol em duas partes iguais. O rol é definido como a sequên-
cia ordenada de dados. Por exemplo, para o seguinte conjunto de dados (2, 3, 7, 7, 9), a mediana é
o número 7, que divide o rol em duas partes iguais.
A posição da mediana será definida por PMed = n + 1 . No exemplo apresentado, a posição
5+1 2
da mediana será PMed = = 6 = 3, portanto a mediana será o terceiro elemento do rol.
2 3
O valor da mediana será o do elemento que ocupa a terceira posição, nesse caso, Med = 7. Quando o
número de dados é muito grande, convém definir a posição da mediana antes de sua determinação.
No caso de “n” ser par, o procedimento é semelhante: define-se a posição da mediana e de-
pois calcula-se a média aritmética dos dois números imediatamente inferior e superior do valor
da posição da mediana. No exemplo da empresa ABC, em que n = 40, teremos PMed = 40 + 1 =
41 2
= 20,5. A mediana será, então, a média entre os valores que ocupam a vigésima e a vigésima
2
primeira posições da variável em consideração.
No nosso exemplo, após a organização dos valores em ordem crescente, a idade mediana
será Med = 33, porque X20 = X21 = 33. O salário mediano será Med = R$ 1.318,50, porque
X20 = 1.307,00 e X21 = 1.330,00.
X ≥ 4.000 2 4.500 40
Total 40
Fonte: Elaborada pelo autor.
3.2.4 A moda
A moda é o valor que ocorre com maior frequência. Para o conjunto de dados (2, 3, 3, 3, 4),
a moda será o valor 3. Quando um conjunto tem uma só moda, ele é chamado de unimodal.
Se tiver duas é bimodal; três modas, trimodal; e polimodal se tiver quatro ou mais. Se o conjunto
não tiver nenhuma moda, será chamado de amodal.
O gráfico a seguir apresenta os aspectos de curvas que representam conjuntos unimodal,
bimodal e trimodal.
Figura 1 – Gráfico das curvas dos conjuntos modais
3.2.5 Separatrizes
As separatrizes são medidas que dividem um rol em duas partes proporcionais a certos va-
lores. A medida que separa os dados em duas partes iguais, ou em 50% e 50%, é a mediana, como
vimos a pouco.
Uma série de três medidas pode separar o rol em quatro partes iguais. Elas são chamadas
de quartis. O primeiro quartil (Q1) separa o rol em 25% e 75%, o segundo quartil (Q2) é a própria
mediana, e o terceiro quartil (Q3) divide o rol em 75% e 25%.
42 Estatística aplicada às ciências sociais
Da mesma forma que a mediana, para encontrar os quartis devemos inicialmente calcular
a sua posição, para depois determinar o seu valor. A posição do quartil de ordem i, com i = 1... 3 é
dada por PQi = i(n + 1) .
4
No nosso exemplo, se desejamos verificar o valor dos quartis para os salários, teremos
como posição do primeiro quartil PQ1 = 1( 40+ 1) = 10,25, e como posição do terceiro quartil
3( 40+ 1) 4
PQ3 = = 30,75, lembrando que o segundo quartil é a própria mediana. Então, organi-
4
zando os dados em um rol crescente, teremos como valor do quartil 1 a média aritmética entre o
10º elemento do rol e o 11º, portanto Q1 = R$ 987,50, uma vez que o décimo salário é de R$ 975,00
e o décimo primeiro de R$ 1.000,00. O terceiro quartil será a média aritmética entre o 30º e o 31º
elementos, resultando em Q3 = R$ 2.584,50, porque o trigésimo elemento é R$ 2.372,00 e o trigé-
simo primeiro, R$ 2.797,00. Naturalmente, esses são valores aproximados, mas podemos verificar
que são aproximações bastante razoáveis.
Podemos também definir um conjunto de nove medidas que separam o rol em 10 partes,
chamadas de decis, e um conjunto de 99 medidas que separam o rol em 100 partes, chamadas
de percentis. Basta, para isso, determinar as posições de cada decil pela expressão i (n+ 1) e de
10
cada percentil por i (n+ 1) . É fácil verificar que o vigésimo quinto percentil, por exemplo, é o
100
primeiro quartil.
Com base nas separatrizes, é possível construir duas representações que fazem parte tam-
bém da chamada análise exploratória de dados, que são: o esquema de cinco números e o diagrama
de caixa ou box-plot.
Med
Q1 Q3
Xmin Xmáx
• Box-plot: constitui-se de uma caixa ou um retângulo cujo valor superior é o terceiro quar-
til e o valor inferior é o primeiro quartil. Um traço no meio da caixa representa a mediana
e os pontos extremos são mostrados fora da caixa. Define-se como outlier valores que
estejam fora do intervalo [Q1 – 1,5 (Q3 – Q1); Q3 + 1,5 (Q3 – Q1)].
Medidas estatísticas de posição 43
* Observação máxima
(para uma distância de 1,5 vezes Q3 menos Q2)
Q3 – Terceiro quartil
Q1 – Primeiro quartil
Observação mínima
(para uma distância de 1,5 vezes Q3 menos Q1)
Fonte: Elaborada pelo autor.
Atividades
Os dados a seguir referem-se ao número de roubos realizados no estado de Santa Catarina
no ano de 2017.
(Continua)
44 Estatística aplicada às ciências sociais
1. Por que as médias de cada região não são iguais à sua taxa total? Justifique.
2. Faça um esquema de cinco números dos dados apresentados, relativo ao número de roubos
para 10.000 habitantes nos municípios catarinenses.
As medidas de dispersão são úteis para que se possa verificar a homogeneidade ou hete-
rogeneidade das medidas de um grupo. Grupos mais homogêneos têm medidas de variabilidade
menores do que os mais heterogêneos, enquanto os absolutamente homogêneos têm medidas de
variabilidade iguais a zero.
Estes dois aspectos – variabilidade zero implica em medida de dispersão igual a zero, e me-
nor variabilidade implica em medida de dispersão menor – são a base da construção das medidas
de dispersão, como veremos a seguir.
O estudo da variabilidade é, com certeza, um dos aspectos mais importantes de todo o corpo
teórico da estatística, seja na compreensão de um fenômeno com base na análise exploratória de
dados ou em estudos inferenciais.
Na comparação entre dois conjuntos de dados, podemos ter situações em que, apesar de as
medidas de tendência central serem muito próximas, elas podem representar comportamentos
muito diversos, devido à sua variabilidade ou dispersão. Para ilustrar o que estamos dizendo, observe
os três conjuntos a seguir, resultado de uma simulação estritamente numérica.
Sejam os conjuntos A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}, observe que, se procurarmos
analisar o fenômeno que produziu esses números por meio de suas medidas de tendência central,
obteríamos como resultado que os três conjuntos têm a mesma média, igual a 2; a mesma
mediana, também igual a 2; e que, ainda, o número 2 é moda para os três conjuntos. Dessa forma,
poderíamos ser levados a crer que eles representam exatamente a mesma situação, todavia isso
não ocorre. A simples observação dos dados nos mostra que os conjuntos representam situações
muito diferentes.
O conjunto A representa uma situação de absoluta homogeneidade, não havendo qualquer
variação entre os valores medidos em três diferentes indivíduos; o conjunto B apresenta pequenas
variações; e o conjunto C tem uma variação ainda maior. Sendo assim, é necessária a construção
de medidas que possam auxiliar o analista a compreender melhor o comportamento dos dados e,
assim, entender melhor o fenômeno que os produziu.
1 Cartunista americano.
46 Estatística aplicada às ciências sociais
A forma mais comum de se verificar o quanto os dados variam é observar o quanto eles se
dispersam em torno de algum valor central, comumente a média. Mas é possível também utilizar
os valores extremos.
As principais medidas de variabilidade são: (i) a amplitude total; (ii) a variância; (iii) o
desvio-padrão; e (iv) o coeficiente de variação.
At = Xmax – Xmin
1 A. L. Ferraz 49 1.714,00
2 R. Abreu 48 1.701,00
3 R. S. Reis 64 1.589,00
4 N. Farias 37 1.418,00
5 J. L. Jansen 42 1.000,00
6 U. S. Machado 40 3.732,00
7 F. Nogueira 21 1.330,00
8 M. Pinheiro 33 1.307,00
9 M. A. da Silva 39 1.282,00
10 P. A. B. Costa 42 1.260,00
11 H. F. Minho 39 975,00
12 N. M. de Lima 32 1.256,00
13 C. F. Loureiro 22 1.185,00
14 M. E. M. Ferreira 21 3.535,00
15 J. A. Isaias 37 2.956,00
16 J. Martins 24 1.179,00
17 A. P. Ribeiro 28 966,00
18 L. C. Batista 32 3.204,00
20 C. A. Brandão 38 3.080,00
21 D. J. Feltrin 23 2.872,00
(Continua)
Medidas estatísticas de dispersão 47
22 L. S. Prestes 22 826,00
23 J. L. Campos 46 1.010,00
24 S. I. Magalhães 34 708,00
25 P. R. Gonçalves 47 2.960,00
26 M. I. Machado 42 2.797,00
27 M. Paraná 32 1.001,00
28 U. V. Guimarães 29 2.315,00
29 E. M. Moreira 41 5.572,00
30 A. P. de Andrade 30 2.372,00
31 L. R. de Souza 51 4.829,00
32 R. T. Moraes 23 1.826,00
33 J. Pilloto 20 540,00
34 F. C. Lopes 27 489,00
35 C. A. Meier 33 479,00
36 H. O. Silveira 22 1.904,00
37 K. D. Almeida 41 659,00
38 M. J. D. Colares 34 1.827,00
39 R. F. L. Silvério 24 472,00
40 M. N. Messias 20 640,00
Fonte: Elaborado pelo autor.
O funcionário mais velho da empresa é o senhor R. S. Reis, que tem 64 anos, e os mais novos
são os jovens J. Piloto e M. N. Messias, com 20 anos. Assim, Xmax = 64 e Xmin = 20. A amplitude
total será:
A amplitude total dos salários será a diferença entre Xmax = 5.572 e Xmin = 472, corres-
pondente aos salários dos funcionários E. M. Moreira e R. F. L. Silvério.
4.2 A variância
Se utilizarmos os desvios de um conjunto de dados em relação a um valor central desse con-
junto, é razoável pensarmos em determinar a distância de cada dado quanto ao valor médio – o que
pode ser feito por meio de (X – X) – e depois somarmos essas distâncias.
A ideia de fazer essa soma é interessante, porque permite que todos os dados sejam
considerados ou, de outra forma, que a distância de todos os dados da média componha a medida
de dispersão, mas esbarra em uma restrição importante, que é uma das características da média:
a soma dos desvios em relação à média de um conjunto de dados é sempre igual a zero.
48 Estatística aplicada às ciências sociais
Vamos verificar essa propriedade utilizando novamente três conjuntos simples de dados:
A = {2, 2, 2}, B = {1, 2, 3} e C = {0, 2, 4}. A média de cada um desses conjuntos é igual a 2.
Assim, para o conjunto A, a soma dos desvios em relação à média produzirá:
(X – X ) = {(2 – 2) + (2 – 2) + (2 – 2)} = 0 + 0 + 0 = 0
Para o conjunto B:
E para o conjunto C:
Essa propriedade vale para qualquer conjunto de dados. Então, para contornarmos esse pro-
blema, mantendo a ideia de somar desvios em relação à média, teremos de encontrar uma forma
de que essa soma seja sempre positiva. Duas alternativas apresentam-se: (i) a soma dos desvios em
módulo; e (ii) a soma dos quadrados dos desvios.
Se tomarmos a média da soma dos desvios em módulo (de seus valores absolutos), defini-
remos uma medida de dispersão conhecida como desvio médio, que, embora resolva o problema
apresentado, não é muito usual. De qualquer forma, sua expressão pode ser dada por:
Desvio médio = |x – X |
n
Essa medida é a média da somatória dos desvios em relação à média aritmética, isto
é, tomamos as distâncias de cada ponto até a média. Consideramos as distâncias sem levar em
consideração os sinais, por isso usamos o módulo. Somamos todos os desvios em valor absoluto
(em módulo) e depois dividimos por “n”, o que resulta na média das distâncias ou desvios em
relação à média aritmética, por isso essa medida é denominada desvio médio.
Os desvios médios dos conjuntos citados serão iguais a 0 para o conjunto A, 2 para o
conjunto B e 4 para o C. Esses resultados obedecem aos critérios estabelecidos para uma medida
de dispersão, ou seja, conjuntos sem variabilidade (todos os valores são iguais) têm medida de
dispersão igual a zero, como é o caso do conjunto A, e conjuntos mais heterogêneos têm maior
medida de variabilidade. O conjunto C tem medida de variabilidade maior do que B, que, por sua
vez, tem medida maior do que A.
A outra maneira de contornar o problema da soma dos desvios em relação à média ser igual
a zero é elevar o valor dos desvios ou distâncias ao quadrado. Dessa forma, podemos encontrar a
variância, definida como a média da soma dos quadrados dos desvios quanto à média. Aqui vale
a pena destacar uma diferença quando se tratam de dados provenientes de uma população ou de
uma amostra: a média dos dados da população é denotada por μ, enquanto a média dos dados
de uma amostra é X.
Assim, a variância mede a variabilidade média dos quadrados dos desvios dos valores em
torno da média e pode ser representada por VAR(X) ou σ2.
Medidas estatísticas de dispersão 49
Vamos utilizar o quadrado porque, como vimos, a média tem sempre a propriedade de a
soma dos desvios em torno dela ser igual a zero, ou seja, Σ(X – μ) = 0. Dessa forma, a variância
populacional pode ser definida como:
2
= VAR (X) = (X – )2
N
(X – X )2
S2 = VAR (X) =
n–1
S2 = VAR (X) = X2 – nX 2
n–1
Utilizando essa fórmula, podemos calcular a variância das idades por meio do procedimento
a seguir, em que identificamos a média e a subtraímos dos valores de X:
Tabela 1 – Variância das idades dos funcionários da empresa ABC
1 49 15 225 2.401
2 48 14 196 2.304
3 64 30 900 4.096
4 37 3 9 1.369
5 42 8 64 1.764
6 40 6 36 1.600
8 33 -1 1 1.089
9 39 5 25 1.521
10 42 8 64 1.764
11 39 5 25 1.521
12 32 -2 4 1.024
15 37 3 9 1.369
(Continua)
50 Estatística aplicada às ciências sociais
17 28 -6 36 784
18 32 -2 4 1.024
19 31 -3 9 961
20 38 4 16 1.444
23 46 12 144 2.116
24 34 0 0 1.156
25 47 13 169 2.209
26 42 8 64 1.764
27 32 -2 4 1.024
28 29 -5 25 841
29 41 7 49 1.681
30 30 -4 16 900
31 51 17 289 2.601
34 27 -7 49 729
35 33 -1 1 1.089
37 41 7 49 1.681
38 34 0 0 1.156
X 1.360 (X – X ) =
2
4.086 50.326
X2 – nX 2
S2 = VAR (X) =
n–1
(X – X)2f
S2 = VAR (X) =
n–1
Sendo que: f é a frequência relativa de cada classe, X é o ponto médio de cada classe e X é a
média aritmética dos dados.
Tomando como exemplo a distribuição de frequências das idades dos funcionários da
empresa ABC, temos:
Tabela 2 – Frequências das idades dos funcionários da empresa ABC
4.3 Desvio-padrão
Como a unidade da variância (S2) é sempre ao quadrado, a forma de representar uma me-
dida de dispersão na mesma unidade dos dados é calculando a raiz quadrada da variância. Essa
medida é chamada de desvio-padrão, sendo uma das mais importantes da estatística.
52 Estatística aplicada às ciências sociais
X2 – n X 2
S = D.P. (X). =
n–1
(X – X)2
S=
n–1
Calculando o desvio-padrão da amostra A, que tem média igual a 2, teremos:
(1 – 2)2 + (2 – 2)2 + (3 – 2)2 12 + 02 12 2
SA = = = = 1 =1
2 2 2
Repetindo o procedimento para a amostra B, que tem média igual a 12, obtemos:
X – 100
S – C.V.
C.V. = S . 100%
X
Observe que esse coeficiente é uma medida cuja unidade é o percentual. Isso significa que
ele passa também a ter uma interpretação física.
Vamos determinar o valor dos coeficientes de variação para cada um dos conjuntos de
dados anteriores:
S
C.VB = x 100 = (1/12). 100 = 8,33%
XB
S
C.Vc = x 100 = (1/112). 100 = 0,9%
Xc
54 Estatística aplicada às ciências sociais
Atividades
1. Os dados a seguir referem-se ao peso, em gramas, de 44 bebês recém-nascidos, no período
de 24 horas, em um hospital de Brisbane, na Austrália. Determine a média do peso dos bebês
e verifique se eles podem ser considerados uma amostra homogênea.
3. Um outlier pode influenciar fortemente uma medida de variação como influencia a média
aritmética. Que procedimento deve ser utilizado em uma análise de dados sociológicos que
apresentam mais de um outlier?
5
Técnicas de amostragem
1 Geólogo britânico.
56 Estatística aplicada às ciências sociais
medidas muito comuns realizadas na amostra como estimadores de parâmetros populacionais são
a média e o desvio-padrão.
Mais formalmente podemos conceituar população e amostra conforme apresentado nos pró-
ximos tópicos.
5.2 População
Definimos população como um conjunto de pessoas, animais, objetos ou coisas que têm
uma característica em comum e que sejam objeto de investigação. Alguns exemplos são:
• População de pessoas que habitam uma cidade.
• População de eleitores de uma cidade. Nesse caso, são consideradas somente as pessoas
cadastradas no Tribunal Regional Eleitoral (TRE) das zonas eleitorais do município em
questão. Não importa se a pessoa de fato reside na cidade ou não. Muitos eleitores das
capitais moram na Região Metropolitana.
• População de empregados de uma empresa, ou de um setor dela.
• População de cachorros de rua de uma cidade.
• População de refrigeradores produzidos por uma indústria no ano Y.
• População das carteiras de uma escola.
As medidas observadas em uma população são chamadas de parâmetros e, em geral, são
apresentadas em caracteres maiúsculos ou por letras gregas.
Tamanho da população: N.
Média da população: (letra grega mi).
Desvio-padrão da população: σ (letra grega sigma).
2 Os censos brasileiros mais recentes podem ser consultados no site do IBGE, disponível em: https://www.ibge.gov.br/
nossos-sites.html. Acesso em: 26 nov. 2018.
Técnicas de amostragem 57
5.3 Amostra
Define-se Amostra como um subconjunto de uma população com o objetivo de representá-la.
As medidas realizadas em uma amostra são conhecidas como estatísticas. Como elas pretendem esti-
mar o valor da mesma medida na população, os seus valores calculados são chamados de estimativa.
A expressão utilizada para calcular a medida é o que se conhece como estimador.
Por exemplo, a proporção de mulheres em uma população é um parâmetro. A proporção
de mulheres na amostra é um estimador desse parâmetro. O seu valor, por exemplo 52%, é uma
estimativa do valor do parâmetro. Amostras diferentes podem resultar em valores diferentes para
os estimadores. Espera-se, no entanto, que, apesar de possíveis diferenças, os valores não estejam
muito distantes do verdadeiro valor do parâmetro. Na prática, somente uma amostra é realizada.
A média da amostra é um estimador da média da população, mas ele não é o único possível.
A mediana da amostra, por exemplo, também pode ser um estimador, mas ocorre que a média da
amostra é um estimador da média da população que tem certas propriedades que a tornam um
estimador melhor do que a mediana amostral.
As medidas realizadas na amostra são representadas por letras minúsculas ou em caracteres
especiais. Quando são um estimador, também podem ser representadas pela mesma letra do pa-
râmetro que desejamos estimar, com acréscimo de um acento circunflexo, chamado de “chapéu”.
Tamanho da amostra: n.
Média da amostra: X, ^ (mi chapéu).
^
Desvio-padrão da amostra: S, s, (sigma chapéu).
Exemplo
Em uma eleição para a prefeitura de uma cidade, há dois candidatos:
o candidato A e o candidato B. O primeiro parece ter a preferência dos
eleitores, mas, durante a campanha, o segundo pode eventualmente
melhorar seu desempenho. Um instituto é contratado por um jornal
da cidade para realizar uma pesquisa de opinião pública a fim de
avaliar a aceitação dos candidatos e verificar quais são os principais
anseios da população.
A pesquisa deve ser conduzida por meio de um processo de amostragem,
uma vez que, se fosse feita com toda a população, equivaleria a realizar a
própria eleição. O levantamento abrangendo toda a população é conhecido
como censo, seja o feito pelo IBGE para a contagem e caracterização da
população de uma cidade, de um estado ou do país, seja o realizado com
uma população específica de pessoas ou mesmo de objetos. A palavra
censo diz respeito, portanto, a qualquer levantamento que abranja uma
coleção completa de pessoas, animais ou objetos; o censo agropecuário,
58 Estatística aplicada às ciências sociais
Curiosidades
Se um vendedor de bilhetes da loteria federal tiver somente duas opções
de bilhetes para a venda, a cobra 333 333 ou o cachorro 234 320, qual
deles tem maior probabilidade de ser o bilhete vencedor? Qual deles
você compraria?
A tendência imediata de qualquer apostador seria dizer intuitivamente
que o segundo bilhete tem maior chance de ocorrer, porque é muito difícil
sortear o mesmo número seis vezes. No entanto, como em muitos outros
casos, a intuição da probabilidade é enganosa. A chance de ocorrer 3 ou
0 no sorteio da unidade é idêntica e igual a 1/10. Da mesma forma, a
chance de ocorrer 3 ou 2 no sorteio da dezena também é idêntica e igual
a 1/10. Os sorteios são com reposição e independentes. A chance final
dos dois bilhetes serem vencedores é idêntica e igual a (1/10)6, porque
é resultado da multiplicação da fração (1/10) por ela mesma seis vezes,
ou uma chance em 1 milhão. De fato, uma probabilidade bem pequena.
1
A probabilidade de se ganhar na Mega Sena é de , que é igual a 1
C60,6
em 50.063.860, porque C60,6 é o número de possibilidades de se combi-
nar 60 valores em grupos de seis, ou seja, uma chance em 50 milhões,
uma probabilidade bem menor do que a da loteria federal. E se alguém
jogar dois bilhetes na Mega Sena? A probabilidade então será de 2 em 50
milhões, ou uma chance em 25 milhões. Ainda assim será muito difícil
de ganhar. Então seria melhor jogar em sete números? Sem dúvida, mas
a probabilidade de acertar seis números é de uma chance em 7.151.980,
aproximadamente uma em 7 milhões, exatamente sete vezes maior do
que jogar somente em seis números. Por isso, se o bilhete de aposta com
seis números custa R$ 3,50, um com sete números custa R$ 24,50, preci-
samente sete vezes mais.
Amostragens não probabilísticas servem para se fazer sondagens sem propósitos infe-
renciais. Nesses casos, os procedimentos que envolvem comparações estatísticas que impliquem
em cálculos científicos não são válidos.
• Amostragem de voluntários
Quando os próprios componentes da população se voluntariam para participar da pes-
quisa, o processo é caracterizado como amostragem de voluntários. Ele é muito comum
quando periódicos, como revistas ou jornais, querem saber a opinião de seus leitores so-
bre o conteúdo da publicação e também ocorre com frequência quando se deseja conhe-
cer o que pensam usuários de certos serviços, como restaurantes.
Muitas revistas anexam encartes a determinados números, para que o leitor opine sobre a
qualidade da publicação ou de certas seções específicas. Ocorre, em geral, que a maioria
das pessoas que responde ao questionário o faz porque não está satisfeita com a publica-
ção ou ao menos com parte dela. Ainda assim essa sondagem pode ser útil para os edito-
res da revista, porque terão uma ideia do que podem melhorar, mas não há como se fazer
estimativas acerca do que a maioria dos leitores pensa da publicação. O mesmo ocorre em
restaurantes ou em conferências, quando os comensais ou os participantes são instados a
responderem questionários.
62 Estatística aplicada às ciências sociais
• Amostragem intencional
Nesse tipo de amostragem, o pesquisador busca na população uma parte que lhe in-
teressa. Os participantes da amostra são escolhidos por terem alguma característica
que seja objeto de pesquisa. Como não é um processo probabilístico, ele não serve
para propósitos inferenciais.
Uma pesquisa sobre qualidade de atendimento de serviços de saúde municipais, por
exemplo, pode ser realizada em dois ou três postos de saúde, nos quais sejam escolhidos
alguns pacientes para participarem da amostra. No entanto, os resultados obtidos dessa
forma não podem ser estendidos para toda a rede de saúde municipal.
• Amostragem a esmo
A palavra aleatória tem como origem alea do latim “sorte”– muito conhecida pela expres-
são “alea jacta est”, “a sorte está lançada”, de Júlio César ao cruzar o Rubicão, a 250 km de
Roma). No contexto da estatística, a palavra está relacionada ao processo de escolha por
sorteio. Muitas vezes, o vocábulo aleatória ou a expressão ao acaso são utilizados para
uma escolha sem nenhum critério. Essa forma de escolha é denominada amostragem a
esmo. Nesse processo, como os elementos da população que irão participar da amostra
não são escolhidos de acordo com um critério bem definido, esse tipo de amostragem
não serve para se tirar conclusões sobre a população com base nos elementos da amostra.
1 2 3 4 5 6 7 8 9
1 5 7 5 1 8 1 9 6 1
2 2 6 6 5 9 1 2 4 5
3 4 5 3 6 1 7 4 7 9
4 7 2 8 3 2 3 9 7 4
5 5 6 9 6 0 5 5 4 6
6 0 6 8 7 3 7 1 2 1
7 6 9 2 0 3 1 7 2 8
8 4 1 5 6 3 6 0 1 5
9 7 2 4 7 1 3 8 3 1
10 7 5 1 1 7 3 1 3 6
11 1 7 0 3 5 7 8 3 5
12 4 6 2 8 3 1 4 5 6
13 5 5 6 6 5 2 4 8 8
14 5 2 4 4 6 2 3 6 5
15 5 6 8 8 7 4 7 8 6
16 4 4 6 0 6 8 4 4 2
17 8 2 1 0 5 6 9 6 2
18 9 9 5 9 4 3 7 9 8
19 8 2 9 4 3 5 4 5 3
20 9 7 8 8 6 4 9 2 2
21 2 3 2 7 4 9 0 6 7
22 4 6 5 8 2 8 8 1 4
23 3 0 1 8 1 1 7 5 9
24 3 8 1 6 4 4 5 2 3
25 1 3 8 3 4 7 7 7 7
26 5 1 0 0 3 8 6 6 3
27 3 0 1 4 4 5 1 2 6
28 3 5 8 7 7 5 3 7 6
29 1 3 3 5 1 7 6 8 1
30 9 6 4 9 5 2 3 1 9
determinação de qual candidato seria escolhido em virtude de cada elemento, saber ainda a idade,
o sexo, o grau de instrução e a escolaridade dos eleitores, por exemplo.
pm = 12 .100 = 20%
60
Se a amostra é de tamanho 10, então o número de mulheres na amostra será dado por:
20
nm = n x pm = 10 x 20% = 10. =2
100
Então, o número de homens será 8, representando 80% da amostra. Em uma tabela, teríamos:
Tabela 2 – População e amostra de homens e mulheres
Mulheres Nm nm
Total N n
Fonte: Elaborada pelo autor.
66 Estatística aplicada às ciências sociais
Para uma população com essa composição, o número de mulheres na amostra é determi-
nado por:
Nm
nm = ·n
N
E o número de homens por:
Nh
nh = ·n
N
Exemplo
Deseja-se fazer uma estimativa do salário médio dos empregados de
uma empresa por meio de uma amostra de tamanho 10, em um sorteio
sem reposição, utilizando a tabela de números aleatórios a partir da li-
nha 29 e coluna 3, correspondente a 29 de março, dia do aniversário da
cidade de Curitiba, no estado do Paraná.
A tabela a seguir mostra a divisão dos funcionários de acordo com os
seus setores na empresa:
Tabela 3 – Número de funcionários de uma empresa por setor
Setor Empregados
Técnico 20
Administrativo 60
Operacional 120
Total 200
Fonte: Elaborada pelo autor.
Supondo que o valor dos salários dos técnicos seja maior do que o do
pessoal administrativo, que por sua vez é maior do que o dos emprega-
dos do setor de operações, faz sentido realizar uma amostragem estrati-
ficada proporcional.
O primeiro passo é determinar o número de funcionários de cada setor
que irá compor a amostra de tamanho 10, respeitadas as proporções de
cada setor na população. Então:
Tabela 4 – População e amostra de funcionários de uma empresa por setor
Administrativo 60 (60/200)x10 = 3
Total 200 10
Fonte: Elaborada pelo autor.
Técnicas de amostragem 67
Total 10
Fonte: Elaborada pelo autor.
Esse é um processo circular, portanto não importa onde seja o início. A amostra sistemática
é um caso particular de uma amostra estratificada proporcional, em que cada estrato corresponde
a um conjunto de 40 páginas e de onde se sorteia um elemento.
É o processo utilizado pelo IBGE durante os censos decenais para determinação de quem
responderá o questionário completo com uma fração amostral igual a 10. Seleciona-se uma casa
para fazer o questionário completo e, a cada dez casas, ele é repassado para a família que o respon-
derá. Esse processo é também utilizado para a realização de pesquisas eleitorais. Sorteia-se uma
quadra, determina-se a primeira residência em que uma pessoa será entrevistada (no geral, a que
atende à visita ou a de aniversário mais próximo, desde que seja eleitor no município), salta-se o
número de casas correspondentes à fração amostral e a nova entrevista será feita na casa determi-
nada por esse processo.
Atividades
1. Qual é a diferença entre um processo de amostragem por cotas e um processo de amostra-
gem estratificada proporcional? Justifique.
2. Uma amostragem aleatória simples não pode ser confundida com uma amostragem a esmo.
Quais são as diferenças e as semelhanças entre os dois processos?
3. Na realização dos censos decenais há um processo de amostragem realizado com uma parte
da população. Qual é a forma de amostragem utilizada na determinação de quem participa
da amostra?
6
Tamanho de uma amostra
Candidato A – 67%
Candidato B – 15%
Candidato C – 11%
Candidato D – 7%
O instituto que realizou a pesquisa afirmou que entrevistou 405 eleitores em um dia e que a
“margem de erro” foi de mais ou menos 5%. O que se pode concluir da pesquisa?
Em primeiro lugar, que o candidato A seria virtualmente eleito no primeiro turno com,
no mínimo, 62% dos votos. E mais, não há como saber qual dos outros três candidatos teria
mais votos se a eleição fosse realizada naquele dia. O candidato B, por exemplo, poderia ter
10% dos votos (15% – 5%), e o candidato D receber 12% dos votos (7% + 5%) e estar à frente do
candidato B. Essa é a leitura correta do resultado da pesquisa de intenções de voto realizada,
não há outra leitura possível.
Esse resultado pode ser útil para informar que, no momento, o candidato A seria eleito no
primeiro turno. Mais próximo da eleição, essa margem de erro deve ser diminuída, resultando em
aumento do tamanho da amostra.
Tamanho de uma amostra 73
Outro fato a ser considerado é que, em situações nas quais a percentagem dos candidatos
está mais próxima, uma pesquisa com essa margem de erro pode não ser informativa. Com uma
margem de erro de 5%, para mais ou para menos, um candidato com 55% dos votos pode perder
para um candidato com 45% dos votos, por exemplo. Quanto maior for a precisão desejada, maior
deve ser o tamanho da amostra, o que equivale a dizer que, quanto menor for a margem de erro,
maior será o tamanho da amostra. Para uma pesquisa com margem de erro zero, a amostra deve ser
tão grande quanto a população e, sendo assim, só é possível para levantamentos por censo.
Não adianta selecionar uma amostra pequena que não consiga ser sensível para observar
pequenas diferenças. Por outro lado, se essa escolha implicar em uma amostra muito grande e não
houver recursos para a realização da pesquisa, ela pode ser inviabilizada.
A determinação da margem de erro é feita antes da realização da pesquisa, a fim de calcular
o tamanho da amostra. A margem de erro é escolhida pelo pesquisador e será do tamanho neces-
sário para que possa discriminar as medidas que serão realizadas.
Dizer que um candidato terá 60% dos votos mais ou menos 30% de precisão significa
que ele pode ter entre 30% e 90% dos votos. Esse resultado realmente não interessa, porque não
é informativo.
Matematicamente, pode-se dizer que o desvio é inversamente proporcional ao tamanho da
amostra, lembrando, no entanto, que essa não é uma relação linear. Se d é o desvio e n é o tamanho
da amostra, temos a relação:
d n
(1 – ) z n
Qual valor deve ser determinado para o erro estatístico? Isso depende da gravidade de se
cometer tal erro. Em uma pesquisa de verificação da qualidade de componentes de avião em uma
fábrica, pode-se fazer uma inspeção nas mesinhas de lanche do avião com um erro estatístico mais
dilatado do que o de um componente de vedação da janela. Nesse último caso, o erro deve ser igual
a zero e, portanto, a inspeção precisa ser realizada em todas as unidades, então a amostra deverá
ser do tamanho da população.
Em pesquisas eleitorais, é muito comum se trabalhar com um erro de 5%, ou uma probabi-
lidade de 1/20 de que a amostra não seja boa – o que é uma probabilidade muito pequena. Para se
construir uma ideia intuitiva por meio de comparação, a probabilidade de se acertar o número na
face superior de um dado é de 1/6. Imagine, então, em um dado de 20 lados.
Mas, ainda com um erro tão pequeno, pode-se tomar uma amostra ruim ou não repre-
sentativa da população? É possível, mas muito raro. O pesquisador mais experiente percebe nas
primeiras determinações dos resultados da amostragem se a amostra pode ser ruim. Se em uma
pesquisa eleitoral a maioria dos entrevistados for muito jovem, ou se, por exemplo, a amostra
contemplou um número excessivamente grande de homens ou de mulheres – como em torno de
80% –, deve-se desconfiar do processo amostral, haja vista que é sabido que as mulheres equiva-
lem a pouco mais de 50% da população.
Tamanho de uma amostra 75
6.3 A variabilidade
Esse é um componente importante na determinação do tamanho da amostra. Talvez o mais
simples processo de amostragem seja o de exame de sangue. Tira-se uma pequena amostra do san-
gue e, com base nela, determinações completas sobre o tipo, o fator RH, a saúde da pessoa, entre
outras verificações, podem ser feitas. Isso porque o sangue é uma substância homogênea e uma
simples gota representa todo o volume do sangue do corpo humano.
Por outro lado, populações heterogêneas exigirão maior número de elementos da amostra,
para que ela possa captar as diferenças entre esses componentes da população.
A variabilidade pode ser medida por meio da variância ou do desvio-padrão, raiz quadrada
da variância. Matematicamente, pode-se estabelecer uma relação direta entre o tamanho da
amostra e o desvio-padrão, isto é:
(z )
n=
d
Mas essa relação não é linear, e é, portanto, necessária uma determinação mais técnica da
expressão para o cálculo do tamanho da amostra.
76 Estatística aplicada às ciências sociais
Pr ( p – d < P < p + d ) = 1 –
Essa expressão é conhecida da inferência estatística, na qual o desvio pode ser expresso como:
z
d=
n
Isolando o valor de n da expressão anterior, teremos:
z 2
n=
d
Exemplo 1
Pretende-se calcular o tamanho de uma amostra para uma pesquisa elei-
toral na cidade do Rio de Janeiro, com nível de confiança de 95% e desvio
de mais ou menos 5%. Sabe-se, por meio de uma pesquisa anterior, que
a variância ( 2) é de 0,5.
O valor z = 2 refere-se ao escore aproximado da distribuição normal para
a probabilidade de 95%; rigorosamente, esse valor na tabela é de 1,96.
O desvio de mais ou menos 5% pode ser expresso em forma da fração
5/100 = 0,05, e o valor de 2 = 0,5 foi selecionado de uma pesquisa ante-
rior semelhante, conforme o enunciado do problema. Então, z = 2; σ2 =
0,5; e d = 0,05:
n = 2 x 0,5 = 400
2
0,05
A rigor, para exatos 5% de erro estatístico, o valor de z é igual a 1,96,
portanto o tamanho da amostra poderia ser de 385 pessoas e as margens
estabelecidas estariam asseguradas.
Conforme afirmado anteriormente, a relação entre o tamanho da amos-
tra e o erro estatístico, a “margem de erro” e a variabilidade, não é li-
nearmente proporcional. Pode-se verificar essa propriedade por meio
de exemplos em que a “margem de erro” ou o erro estatístico variem nas
diferentes direções.
Exemplo 2
Pretende-se calcular o tamanho da amostra para “margens de erro” de
1%, 2%, 3%, 5% e 10% e erros estatísticos de 1%, 5% e 10%.
Aplicando a expressão para o cálculo do tamanho da amostra para esses
dados, e tendo os valores de z correspondentes a 1%, 5% e 10%, respecti-
vamente 2,58, 1,96 e 1,64, obtemos os seguintes números:
Tamanho de uma amostra 77
Erro estatístico
Margem de erro
0,01 0,05 0,1
0,1 166 96 67
Fonte: Elaborada pelo autor.
2 Há expressões estatísticas apropriadas que já embutem o custo da pesquisa no próprio cálculo do tamanho da
amostra, mas é uma sofisticação que pode ser contornada com um estudo comparativo como o que foi feito. Há livros
de estatística teórica que apresentam essas circunstâncias para o caso de necessidade de aprofundamento da discussão.
78 Estatística aplicada às ciências sociais
d= z · N–n
n N–1
Este último fator, N – n , é a correção para a população finita. Utilizando essa fórmula,
N–1
podemos isolar o valor de n, obtendo a seguinte expressão:
[N . 2 . z2]
n=
[(N – 1) . d2 + 2 . z2]
Outra forma de encontrar o valor de n é empregar a expressão original n’ e depois corrigi-la,
multiplicando o valor obtido pela correção para população finita:
z. 2
n’ =
d
(N – n)
n = n’ ·
(N – 1)
Foram apresentadas neste capítulo as principais técnicas básicas de amostragem. Elas são
bastante úteis, tanto para a leitura e análise de resultados de pesquisas quantitativas quanto para
sua elaboração. São, portanto, ferramentas essenciais para o trabalho do sociólogo, uma vez que a
cada dia são mais frequentes as pesquisas por amostragem em substituição às que abrangem toda
a população.
Atividades
1. A figura a seguir ilustra o percentual da população que deve ser abrangido para que uma amostra
seja representativa da população estudada. A curva A não tem correção para a população
finita, a curva B tem essa correção e a C representa uma percentagem fixa da população (10%).
Com base na figura, que tipo de relação entre a amostra e a população pode ser estabelecida?
Tamanho de uma amostra 79
5.000 C
Tamanho da amostra
4.000
3.000
A n0
n = f(n0, N)
2.000 B
n = 10%N
1.000
0
0 10.000 20.000 30.000 40.000 50.000
Tamanho da população
Fonte: Elaborada pelo autor.
3. Em duas pesquisas eleitorais para prefeito, uma realizada em São Paulo e outra em Campo
Grande, qual deverá ser o tamanho das amostras se desejarmos fazer pesquisas com nível de
confiança de 95% e margem de erro de 3%? Considere que São Paulo tem 9.052.724 eleitores
e Aracaju, no Sergipe, tem 408.312 e utilize o valor 0,25 para a variância.
7
Noções úteis de probabilidades
1 Matemático americano que ensina a matemática como uma forma de pensamento, um molde rigoroso, mas criativo,
para o exame do mundo.
82 Estatística aplicada às ciências sociais
Há uma gama de ricas discussões acerca do significado de “ler” os fenômenos sociais mergu-
lhados em um ambiente de incerteza e as implicações de mudanças do paradigma determinístico e
reducionista para um outro menos confortável metodologicamente, que entende que as proprieda-
des de um sistema não podem ser explicadas apenas pela soma de seus componentes. Esse pensa-
mento holístico (todo) institui a importância do conjunto (síntese) sobre os detalhes (análise) para
uma compreensão da realidade social.
Antes de reducionista, o uso de observações mensuráveis numericamente corrobora com
essa nova tendência. Como para a termodinâmica, na sociologia não é propriamente o individual
que interessa, mas sim o coletivo. Não é o certo, mas o probabilístico.
O conteúdo abordado neste capítulo introduz o ferramental metodológico que servirá de
base para a construção de modelos que busquem compreender aspectos de um dado fenômeno
sociológico. A apresentação das noções básicas de probabilidade expõe aqui, então, o papel central
de preparar a discussão sobre a utilização das técnicas estatísticas da indução, isto é, a inferência
estatística. No entanto, como a noção intuitiva de probabilidade falha na maior parte das vezes,
apreender a forma de seu cálculo pode, em outras circunstâncias, colaborar para leituras mais ade-
quadas da realidade quando considerada a componente aleatória em complemento à componente
determinística de todo fenômeno social.
Em outras palavras, o paradigma determinístico é aquele em que os sistemas são reduzidos às
suas partes para, com base na análise e compreensão de cada uma delas, somá-las a fim de entender
o todo. Busca-se, portanto, um outro paradigma, que é menos confortável metodologicamente e
admite trabalhar em ambientes de incerteza, com o intuito de compreender o todo (o conjunto dos
indivíduos) em detrimento do trabalho com os detalhes, ou seja, com cada indivíduo. Esse para-
digma é chamado de holístico, porque busca trabalhar com o todo e com as inter-relações entre as
variáveis que o definem.
O conjunto representa a síntese, que é o estudo do comportamento em torno de valores
centrais, como a média, que é o centro de gravidade dos dados, além da dispersão dos dados (a
variância), relacionada à imprecisão e à incerteza. A estatística pode ser um instrumento para uma
concepção, diferente do estudo dos fenômenos. Não interessa o comportamento de um só indiví-
duo, analisado em profundidade (e, portanto, em detalhes), como em um estudo de caso.
Se tentarmos compreender a realidade social por meio do estudo de indivíduos, e não do
conjunto de indivíduos e suas relações, verificadas com base em medidas de inúmeras variáveis,
voltamos ao paradigma determinístico. Temos, então, que admitir a incerteza, e a medida da incer-
teza pode ser acessada com a teoria das probabilidades.
7.3.2 Evento
Cada um dos resultados possíveis de um experimento aleatório é chamado de evento.
O evento “sair cara” no lance de uma moeda é conhecido como evento simples, porque estamos
interessados em um resultado singular do experimento aleatório. O evento “sair um número
par” no lance de um dado chama-se evento composto, porque o resultado está associado a três
possíveis eventos simples.
Aos eventos, no geral, associamos elementos de um conjunto, e a notação utilizada será a da
conhecida como teoria dos conjuntos, que estabelece denotar o conjunto com letras maiúsculas e,
quando necessário, os elementos dele com letras minúsculas. Então, se o evento sair um número
par, pode ser representado pelo conjunto A = {2, 4, 6}.
Também podemos pensar, no caso da moeda, que o resultado do lance pode ser 1, se houver
sucesso e sair uma cara, e 0, se sair uma coroa. Assim, se X é o resultado do lance de uma moeda,
X = 1 representa cara e X = 0 representa coroa.
S = {H, T}. Aqui, H representa cara e T, coroa, porque o jogo cara ou coroa, em inglês, é chamado
de head or tail, cabeça ou rabo.
Observe que o espaço amostral é o conjunto de todos os elementos ou o conjunto universo
da teoria de conjuntos.
No evento número par no lance de um dado, A = {2, 4, 6}, cujo número de elementos é dado
por #A = 3 e S = {1, 2, 3, 4, 5, 6}, com #S = 6, então:
#A 1
P (A) = = 3 = = 0,5
#S 6 2
0 ≤ P(A) ≤ 1
2 Na língua inglesa, a palavra correspondente à verossimilhança é likelihood, bastante comum no uso coloquial.
Então, em muitos livros de estatística traduzidos do inglês para o português, o tradutor prefere utilizar probabilidade
nos locais em que aparece likelihood, e isso pode resultar em alguma confusão conceitual. Forçaremos um pouco o
uso correto e distinto de probabilidade e verossimilhança quando for necessário no texto.
86 Estatística aplicada às ciências sociais
A probabilidade é definida, então, como uma medida não negativa e menor do que a unida-
de, ou seja, um número no intervalo de 0 a 1, e não uma percentagem. Ela pode ser apresentada em
forma de fração (4/10), com o numerador sempre menor ou igual ao denominador, ou em forma
decimal (0,4). Não teremos preferência neste livro na maneira de apresentação final das probabi-
lidades calculadas, mas sempre convém fazer as operações por meio de frações, para não haver
acúmulo de erros devido a arredondamentos.
O segundo axioma é expresso pela seguinte expressão:
P (S) = 1
Ele nos informa que a probabilidade do espaço amostral é sempre 1. O espaço amostral pode
ser tomado como o evento composto certo. Por outro lado, o evento complementar a S é o conjunto
vazio, denotado por { } ou ø, cuja probabilidade será igual a zero. Por fim, o terceiro axioma pode
ser compreendido segundo a seguinte sentença:
P(A U B) = P(A) + P(B) – P(A B), se A e B não são eventos mutuamente exclusivos.
O terceiro axioma diz que a probabilidade da união de dois eventos é a soma das pro-
babilidades dos eventos menos a probabilidade de sua interseção. Se A e B são mutuamente
exclusivos, então A B = ø. Para esclarecer essa questão, retomaremos o exemplo de eventos não
mutuamente exclusivos.
No lance de um dado, consideramos os eventos A “sair um número par” e B “sair um nú-
mero menor do que 4”. Então, A = {2, 4, 6} e B = {1, 2, 3}. Podemos perceber que a união dos dois
eventos seria A U B = {1, 2, 3, 4, 6} e que a interseção de A e B seria A B = {2}. Uma vez que:
3 1
P(A) = =
6 2
3 1
P(B) = =
6 2
E que:
#(A B) 1
P(A B) = =
#(S) 6
Então:
1 1 1 5
P(A U B) = + – =
2 2 6 6
Noções úteis de probabilidades 87
É necessário fazer a subtração porque, caso contrário, o elemento {2} entraria duas vezes,
enquanto na união ele só aparece uma vez, apesar de ser elemento dos conjuntos A e B.
Perceba que de fato o cardinal de A U B é #(A U B) = 5 e que, portanto, P(A U B) = 5 ,
ou seja, o conjunto possui agora cinco, e não seis elementos. 6
A B
2 5
4 3
6
1 S
A B
5
4 2
6
1 S
Prefere Prefere
Sexo Total
Produto A Produto B
O evento quando um homem prefere o produto A é representado por (H e A), e assim por
diante, e a probabilidade associada a esse evento é representada por P(H e A). Assim, temos: pode
P(H e A) = 200/1.000 = 0,2. Com base nessas definições, podemos construir uma tabela de proba-
bilidades conjuntas, conforme segue:
Prefere Prefere
Sexo Total
Produto A Produto B
7.6.4 Independência
Verificamos que a probabilidade de preferência do produto A, dado que um homem foi
sorteado, foi de 0,4. Se calcularmos a probabilidade de preferência do produto B, dado que uma
mulher for sorteada, teremos:
P (A M) 0,1 1
P(A|M) = = = = 0,2
P (M) 0,5 5
Podemos concluir, com base nesses cálculos, que a preferência pelo produto A depende do
sexo da pessoa sorteada. Definimos assim, decorrente desse fato, que dois eventos são estatistica-
mente independentes quando a ocorrência de um não afeta a do outro. E, portanto, se C e D são
independentes (C D):
P (C|D) = P(C)
90 Estatística aplicada às ciências sociais
Prefere Prefere
Sexo Total
Produto A Produto B
Perceba na tabela que na coluna “prefere o produto A”, para o caso dos homens, 0,08/0,2 =
0,4, ou seja, 40% dos que preferem o produto A são homens. Da mesma forma que “prefere o
Noções úteis de probabilidades 91
produto B” para homens é 0,32/0,8 = 0,4. Também dos que preferem o produto B, 40% são homens,
e o mesmo é válido para o total 0,4/1,0. Ou seja, a preferência dos homens por qualquer um dos
produtos é de 40%, por isso essas probabilidades são ditas independentes. Seja qual for o produto, a
preferência dos homens é sempre de 40%. Observe que na tabela original isso não ocorria.
Probabilidade
Idade (X)
de X, P(X = x)
67 0,10
68 0,25
69 0,50
70 0,10
71 0,05
A probabilidade de sortearmos uma pessoa que tenha 69 anos é igual a um em cada dois
sorteios, ou P(X = 69) = 0,5.
A representação gráfica de uma variável aleatória pode ser feita por meio de um gráfico
de bastões.
92 Estatística aplicada às ciências sociais
0,6
0,5
0,4
Probabilidade
0,3
0,2
0,1
0
1 2 3 4 5
Idade
P(X = x) ≥ 0
P(X = x) = 1
Podemos representar essa propriedade P(X = x) com base em sua frequência f(x), então as
condições anteriores poderiam também ser expressas da seguinte forma:
f(x) ≥ 0
f( x) = 1
No exemplo supracitado, teremos para cada valor de X um valor de P(X = x) maior ou igual
a zero (nesse caso, sempre maior do que zero, pois não há idades não representadas) e a soma das
probabilidades é igual a 1, conforme tabela a seguir:
Noções úteis de probabilidades 93
Probabilidade
Idade (X)
de X, P(X = x)
67 0,10
68 0,25
69 0,50
70 0,10
71 0,05
Total 1,00
F(x) = P(X ≤ x)
Probabilidade Probabilidade
Idade (X)
X de P(X = x) acumulada F(x)
67 0,10 0,10
68 0,25 0,35
69 0,50 0,85
70 0,10 0,95
71 0,05 1,00
Verificamos, então, que, se sortearmos uma pessoa ao acaso, a probabilidade de que a sua
idade seja de até 69 anos será igual a 0,85.
= E(X) = X.P(X = x)
94 Estatística aplicada às ciências sociais
Observe que a representação da média pode ser feita por meio do símbolo µ, que é a repre-
sentação da média da população e, nesse caso, a média da distribuição de probabilidades de X,
ou por meio do símbolo E(X), esperança ou expectância da variável X, que é, em última análise,
o valor da média dos valores que X pode assumir.
1
Perceba que E(X) = 1 X, então, o E de esperança pode ser substituído por de
N N
alguma coisa – nesse caso, dos valores de X.
A variância de uma variável aleatória discreta é definida como:
2
= VAR(X) = E(X – )2 = E(X2) – [E(X)]2
E(X2) = X2 P(X = x)
E(X) = 68,75
VAR(X) = E(X2) – [E(X)]2 = 4.727,45 – (68,75)2 = 0,8875
Portanto, a idade média do grupo é de 68,75 anos, e sua variância é igual a 0,8875.
Noções úteis de probabilidades 95
X
Y
0 1 2 P(Y = y)
2 0 0 0,2 0,2
Y P(Y = y)
0 0,2
1 0,6
2 0,2
P(Y = y) 1,0
X P(X = x)
0 0,2
1 0,6
2 0,2
P(X = x) 1,0
Atividades
1. Dois grupos de pessoas foram formados: o primeiro composto somente de mulheres, con-
junto M = {Carmen, Luisa, Helena, Flávia, Julia, Natália}, e o segundo contendo apenas
homens, H = {Luiz, João, Carlos, Samuel, Paulo}. Duas pessoas, um homem e uma mulher,
foram sorteadas ao acaso. Qual é a probabilidade de que o conjunto resultante seja formado
por um homem e por uma mulher, ambos com a primeira letra do nome C?
A 38 129 98 75 67 82 489
No caso de trabalharmos com diferenças entre médias, a diferença entre as médias amostrais é
um estimador da diferença entre as médias das populações. Vale, nesse caso também, o esforço
de construção de um intervalo de confiança para a diferença entre as médias populacionais ou
testar a hipótese de que a diferença entre elas seja igual a zero.
Em geral, estamos interessados em verificar como uma variável de uma determinada popu-
lação se comporta. Em um estudo sobre a aceitação de um novo artigo alimentar, pode ser interes-
sante conhecer variáveis que caracterizem o estado nutricional da população a quem o produto é
destinado. O peso da população, por exemplo, pode ser uma dessas variáveis.
A caracterização do peso da população pode ser feita mediante uma distribuição de fre-
quências, que pode aproximar uma distribuição de probabilidades. Essa distribuição tem algumas
características importantes, como o valor da média, do desvio-padrão e da forma da distribuição,
e pode ser discreta ou contínua. Neste capítulo, estudaremos algumas distribuições contínuas de
grande utilidade para se fazer inferência. Vale lembrar que a chamada distribuição discreta diz
respeito à contagem, e a distribuição contínua é fruto de alguma forma de medição. Vamos nos res-
tringir às distribuições contínuas mais importantes para o propósito de estimação: a distribuição
normal e a distribuição “t” de Student.
1 –1/2 x – μ
2
f(x) = .e ,– <x<
σ 2π
O seu aspecto é o de um sino, por isso muitas vezes é chamado de curva do sino.
Figura 1 – Gráfico da função: curva do sino
x
μ
O valor central é o da média μ, e a curva é simétrica em relação a μ. A área total sob a cur-
va é igual à unidade. Nos pontos de inflexão (quando a curva muda sua convexidade) de cada
lado da curva, temos o valor de X igual a μ – 1σ e μ + 1σ. A curva é assintótica ao eixo X, ou seja,
ela se aproxima do eixo X em - e em + . Representamos essa distribuição como X ~ N( ; ).
Em muitos livros, a representação leva em conta o valor da variância, nesses casos, a notação
fica X ~ N( ; 2).
f(X)
Observe que essas probabilidades são complementares. Dessa forma, se pudermos calcular
a área entre dois pontos da curva, ela será igual à probabilidade de sortearmos um elemento cujo
valor esteja entre esses dois pontos.
Vejamos algumas probabilidades associadas a algumas áreas particulares:
P(– < X ≤ + 1 ) = 0,8413, isto é, a área sob a curva entre - e +1 é sempre de
84,13%, independentemente dos valores de e de .
Inferência 101
f(X)
+1 x
f(X)
+2 x
f(X)
+3 x
f(X)
+4 x
Observe que, embora X varie de - até + , praticamente 100% da área da curva está entre
- e + 4 . Veremos mais adiante que, na verdade, o intervalo (-4 , +4 ) abrange quase 100% de
toda a área.
102 Estatística aplicada às ciências sociais
Exemplos
Considerando um estudo nutricional, se a variável for o peso da população
com média de 70 kg e desvio-padrão de 10 kg, e se sortearmos um elemento
ao acaso dessa população, poderemos calcular algumas probabilidades:
f(X)
70 x
–1 0 +1
área sob a curva área sob a curva
normal padrão normal padrão
abaixo de -1 abaixo de +1
f(X)
60 80 x
f(X)
70 80 x
f(X)
60 x
f(X)
60 90 x
104 Estatística aplicada às ciências sociais
f(X)
80 100 x
Z
esse cálculo seria tedioso, além de envolver um procedimento altamente complexo de cálculo de
integrais.
Vale ressaltar uma característica importantíssima da distribuição normal: independente-
mente dos valores da média e do desvio-padrão, essas áreas são sempre as mesmas. Queremos
dizer com isso que, para qualquer população normal, a área entre - e –1 será sempre a mes-
ma. Se temos duas populações normais, sendo a primeira X com média 70 e desvio-padrão 10,
e a segunda Y com média 20 e desvio-padrão 2, as probabilidades P(X ≤ 60) e P(Y ≤ 18) serão
iguais, porque ambas representam P(X ≤ – 1 ) = P(Z ≤ 1).
Se a área entre - e 1 é 0,8413, correspondente à função de distribuição acumulada, então
a área entre e ( + 1 ) será 0,8413 – 0,5 = 0,3413.
f(X)
+1 x
= –
–1 2 2 –1
A Tabela A, que pode ser consultada na seção dos anexos deste livro, representa as áreas de
uma distribuição normal padrão acumulada. No exemplo anterior, temos que F(2,00) – F(1,00) =
0,9772 – 0,1587 = 0,8185. Na tabela, o cruzamento do valor 2,0 na primeira coluna e o valor 0 na
primeira linha representam o valor 2,00, da mesma forma que o valor 1,00 está na casa correspon-
dente a 1,0 na primeira coluna e 0 na primeira linha.
Se a variável considerada for o peso da população com média de 70 kg e desvio-padrão de 10 kg,
e se sortearmos um elemento ao acaso dessa população, poderemos calcular as probabilidades.
106 Estatística aplicada às ciências sociais
Exemplos
• Probabilidade de sortearmos uma pessoa com mais de 70 kg:
P(X ≥ 70) = 1 – P(X ≤ 70) = 1 – P[(X – )/ ≤ (70 – )/ ] = 1 – P[Z ≤
(70 – 70)/ 10] = 1 – P(Z ≤ 0) = 1 – F(0) = 1 – 0,5 = 0,5
f(X)
70 x
= –
–1 1 1 –1
f(X)
56,5 64,8 x
70 80 x
60 x
f(X)
60 90 x
108 Estatística aplicada às ciências sociais
f(X)
80 100 x
g.l. = g.l. = 6
g.l. = 3
Os valores apontados no eixo “X” estão associados a uma área abaixo da curva de 95%. Note
que, para g.l. = , a curva da distribuição “t” é igual à curva normal padrão, com os valores -1,96
e 1,96 para 95% de área. Para propósitos práticos, os valores de distribuição “t” aproximam-se dos
valores da distribuição normal padronizada relativamente depressa; já com n = 30, ou 29 graus de
liberdade, esses valores são quase idênticos.
P(X – z. X
≤ ≤ X + z. X) = 1 –
O que desejamos é fazer uma declaração sobre a média da população ( ), com base em uma
informação sobre a média das medidas da amostra (X).
Assim, estará em um intervalo de X d, em que “d” é um desvio, também chamado de
“margem de erro”.
O valor de “d”, conforme a teoria de amostragem, é dado por d = z. X. O erro-padrão pode
ser calculado por meio da fórmula: X
=
, em que n é o tamanho da amostra e σ é o valor do
n
desvio-padrão da medida já conhecido antes do trabalho de amostragem, com certeza comum a
outra pesquisa semelhante.
Este intervalo (X – z. X ≤ ≤ X + z. X) está associado a uma probabilidade de confiança,
chamada de nível de confiança, representada por: (1 – ). O valor de , conhecido como erro esta-
tístico, está relacionado com o valor de “z” da curva normal.
O exemplo a seguir pode facilitar a compreensão da utilização do intervalo de confiança.
Exemplo
Os acidentes automobilísticos no Brasil se tornaram uma das principais
causas de mortalidade. Além da imprudência dos motoristas, a falta de
conservação dos equipamentos dos automóveis leva ao aumento do nú-
mero de acidentes. O órgão público responsável pelas estradas resolveu
verificar, por meio de uma pesquisa, a qualidade dos pneus. Para tanto,
realizou uma pesquisa por amostragem com 100 pneus, retirada de um
grande lote, observando sua vida média. Para essa amostra, a vida útil foi
verificada em 32.500 km para rodar com segurança. Sabe-se, por pesqui-
sas anteriores, que o desvio-padrão da população de pneus é de 3.000 km.
Desejamos construir para todo o lote um intervalo de confiança de
95%, no sentido de que o verdadeiro valor da vida média possa estar
nesse intervalo.
Para construir esse intervalo, que terá como limites X z. X, sabemos que
X = 32.500 e que X = = 3.000 = 300.
n 100
O valor de Z pode ser buscado na Tabela A da distribuição normal
padrão. Construiremos então três regiões na curva normal: a pri-
meira correspondendo à probabilidade de 0,025, a segunda a 0,95 e
a terceira também a 0,025. A origem desses valores está relacionada
Inferência 111
com X
= ; como ficará então a expressão para o intervalo utilizando “s”, e não “σ”? A res-
n
posta é que o intervalo para a média com σ desconhecido será:
X t . sX , sendo que: sX = s
n
O que muda é simplesmente a utilização de “t” no lugar de “z”, que pode ser acessado na
tabela da distribuição “t” de Student.
112 Estatística aplicada às ciências sociais
P(X – z. X
≤ ≤ X + z. X) = 1 –
Expressa por:
Em que:
S
SX =
n
S 10 10
Como X = 70, SX = = = = 2 e tn–1 = t24 = 2,064, teremos:
n 25 5
P (70 – (2,064)(2) ≤ ≤ 70 + (2,064)(2)) = 1 – 0,05
Ou seja, com base nas evidências amostrais, temos 95% de confiança de que a média da po-
pulação será um valor entre 65,9 kg e 74,1 kg.
Quando a amostra for muito grande, os valores da distribuição “t” se aproximam muito da
distribuição normal, e, por isso, nessa situação será indiferente o uso de uma ou de outra. No caso
de amostras menores, é necessário calcular o valor de “t”, que é sempre referenciado pelos graus de
Inferência 113
Exemplo
Vamos considerar o mesmo exemplo anterior, no qual desejamos verifi-
car, por meio de uma amostra de 100 pneus retirada de um grande lote, a
vida média desses pneus. Não se conhece o desvio-padrão da população.
Para a amostra de 100 pneus, a vida útil foi determinada como 32.500
km para rodar com segurança, e o desvio-padrão amostral foi calculado
em 3.000 km. Observe que, nesse caso, o desvio-padrão populacional é
tido como desconhecido.
Desejamos construir para todo o lote um intervalo de confiança de
95%, no sentido de que o verdadeiro valor da vida média possa estar
nesse intervalo.
Para construir esse intervalo, que terá como limites X t.SX , sabemos
S 3 000
que X = 32.500 e que SX = = = 300.
n 100
O valor de “t” pode ser buscado na Tabela B da distribuição “t” de Student
com 95 graus de liberdade. Esse valor será de aproximadamente 1,98.
Portanto, o intervalo construído por meio da expressão P(X – t. X
≤ ≤
X + t. X ) = 1 – será:
Veja que esses valores não diferem muito dos obtidos para quando σ era conhecido.
Mas e se a amostra for pequena, por exemplo, n = 36? Em primeiro lugar, o valor de SX =
S 3 000
= = 500. O valor de “t” para 95% e 35 graus de liberdade é aproximadamente igual a
n 36
2,030. Então, o intervalo será determinado por:
Veja que, nessa situação, a precisão da estimativa dos limites do intervalo é ainda menor
do que no caso de amostras de tamanho 100 e do desvio-padrão conhecido. É bastante intuitivo
perceber que, quanto menor é o nosso nível de informação, menos precisas serão as estimativas.
Z ou tS
Erro-padrão
Parâmetro Parâmetro θ Estimador Estatística
ou S
Média
X n Z
conhecido
Média
X S n tn–1
desconhecido
Proporção P P pq/n Z
Diferença de 2 2
1
+
2
médias com 1 e – X1 – X 2 Z
1 2
n1 n2
2
conhecidos
2 Outros intervalos de confiança podem ser construídos, como o chamado intervalo de confiança para a variância e
para a razão de duas variâncias. As distribuições de probabilidades associadas a esses intervalos são conhecidas como
distribuição qui-quadrado e distribuição “F” de Snedecor, que, pelo pouco uso no contexto deste livro, não foram incluídas
nele. Qualquer obra de estatística intermediária traz esses intervalos, caso haja necessidade de consultar.
Inferência 115
3 As pesquisas mais recentes podem ser consultadas no site do IBGE, disponível em: https://ww2.ibge.gov.br/home/
estatistica/pesquisas/pesquisa_resultados.php?id_pesquisa=40. Acesso em: 30 out. 2018.
Inferência 117
Suponhamos, então, que uma amostra de 25 famílias foi pesquisada e que a média amostral
da renda familiar foi calculada em R$ 2.200,00. Pergunta-se, com base nesse dado e sabendo-se
que o desvio-padrão da renda familiar foi determinado no censo como tendo o valor de R$ 500,00,
se há uma diferença significativa da renda média familiar nesses dois anos.
Precisamos agora estabelecer a estatística do teste. A estatística X – tem distribuição
/ n
normal padrão, Z. Então:
2.200 – 2.000 200
Z= = =2
500 / 25 100
Feito isso, temos de verificar qual é a área sob a curva normal padrão entre -2 e 2, por ser
este um teste bilateral.
P(– 2 < Z ≤ 2) = F(2) – F(– 2) = 0,9772 – 0,0228 = 0,9544
A estatística do teste é a mesma, e o seu valor, determinado com base nos valores amostrais,
foi de Z = 2. Agora, (1 – ) compreende toda a área da curva normal de - até 2, que corresponde
a P( Z ≤ 2) = 0,9772. Então, ou o p-valor = 1 – 0,9772 = 0,0228.
O tomador de decisões tem agora um risco menor em afirmar que a renda familiar aumentou.
O seu nível de confiança subiu para 97,7%. Por que isso ocorreu no teste unilateral? O nível de con-
fiança cresceu porque foi agregada maior quantidade de informação por meio do direcionamento do
teste. Já supúnhamos que haveria aumento da renda.
Para o caso de não se conhecer o valor de , ele deve ser estimado com base nos dados da
amostra, tendo como estimador o desvio-padrão amostral, S. Vamos supor que o valor calculado
de S na amostra tenha sido de R$ 500,00. Tomamos o mesmo valor dos primeiros dois exemplos
apenas para comparação, é preciso enfatizar que o valor de S da amostra não tem qualquer corres-
pondência com algum valor determinado no censo.
Vamos manter o teste unilateral, a exemplo do último exercício:
H0: = 2.000
H1: > 2.000
Uma vez que desconhecemos o desvio-padrão, a estatística do teste agora muda, e a distri-
X–
buição de não é mais normal, mas sim uma distribuição “t” com n – 1 graus de liberdade.
S/ n
O valor de “t” será determinado, com base nos dados amostrais, como:
Com p-valor de 0,028, o nível de confiança para a rejeição de H0 será de 97,1%. Observe que
esse valor é a favor de H1, mas com menos força do que o 97,7% para o caso de conhecermos o valor
de σ, porque, quando temos conhecimento dele, possuímos mais informação agregada.
Se o teste “t” tivesse sido realizado para a hipótese bilateral, o p-valor seria igual a 0,057 e o
nível de confiança de 94,3%, porque não teríamos a informação de nem a fornecida pelo direcio-
namento do teste.
Média
X n Z
conhecido
Média
X S n tn–1
desconhecido
Proporção P P ^^
PQ/n Z
Diferença de 2 2
1
+
2
médias com 1 e – X1 – X 2 Z
1 2
n1 n2
2
conhecidos
Exemplo
Uma empresa de consultoria foi contratada para verificar se os níveis
salariais de trabalhadores não qualificados de uma indústria eram dife-
rentes com relação ao sexo. Suponhamos que as mulheres tivessem uma
média salarial menor do que a dos homens. Uma amostra estratificada
proporcional por sexo foi coletada e os dados resultantes do levanta-
mento amostral são apresentados na seguinte tabela:
• Hipóteses estatísticas:
H 0: 1
= 2
H1: 1
< 2
• Estatística do teste:
(X 1 – X 2) – ( – )
t= 1 2
“t” com 10 + 20 – 2 = 28 g.l.
S12 S22
+
n1 n2
H1: 1
< 2
• Cálculo do p-valor:
p-valor = 0,0022
Atividades
1. A construção de intervalos de confiança para a média pode ser feita por meio da distribui-
ção normal padrão ou da distribuição “t” de Student. Qual é a diferença de utilização das
duas distribuições?
2. Em certo estado, 840 dos 2.000 eleitores inquiridos em uma sondagem sobre a intenção de
voto declararam votar no candidato do partido A. Construa um intervalo de 95% para a
proporção de votos do candidato e responda: qual é a margem de erro da estimativa e qual
é o erro estatístico admitido? Apresente o significado desses dois parâmetros.
3. Diversas políticas salariais em relação às filiais de uma rede de supermercado estão asso-
ciadas ao gasto médio dos clientes em cada compra. Deseja-se comparar esse parâmetro
para uma filial, por meio de uma amostra de 64 clientes cada, sendo que a média obtida na
amostra foi de R$ 70,00. Sabe-se que o desvio-padrão é igual a R$ 32,00. É possível afirmar
que o gasto médio na filial seja maior do que R$ 65,00 com 10% de significância? Justifique.
9
Estudos demográficos
9.1 Demografia
A demografia é uma disciplina científica dedicada ao estudo das populações humanas, que
engloba tamanho, composição, distribuição, densidade, crescimento e outras características estru-
turais e socioeconômicas de uma população, bem como as causas e consequências de mudança
nesses elementos.
A evolução da tendência demográfica tem implicações diretas na determinação das políticas
públicas e na partilha da arrecadação tributária pelos estados. Os principais instrumentos de medidas
demográficas são coeficientes ou taxas, razões, proporções, medidas de coorte2 e medidas em dado
momento e em diferentes períodos.
A demografia inclui uma análise estática e uma análise dinâmica da população. A primeira
estuda a população em um ponto fixo no tempo, enquanto a segunda abrange as mudanças das
populações e de seus componentes.
Os estudos demográficos podem ser realizados por meio da observação de todos os elemen-
tos da população e, nesse caso, esses levantamentos são chamados de censo ou de recenseamento.
Quando somente uma parte representativa da população é observada, o levantamento é conhecido
como amostragem.
Os primeiros recenseamentos de que se tem notícia foram realizados na China, por volta do
ano 2200 antes de Cristo. Vários censos também foram feitos pelos judeus – o Livro dos Números,
no Pentateuco, por exemplo, é o resultado de um censo realizado por Moisés. O Império Romano
também promoveu diversos censos com objetivos administrativos e políticos. Jesus Cristo nasceu em
Belém em razão da origem de Maria e José, que para lá se dirigiram para serem recenseados.
No entanto, somente no século XVIII a análise dos levantamentos populacionais recebeu
tratamento científico mais adequado, com base nos censos realizados nos países escandinavos:
Suécia, em 1749; Noruega, em 1760 e; Dinamarca, em 1769. Os Estados Unidos realizaram seu
primeiro censo em 1790, logo após a sua independência. A Inglaterra e a França fizeram seus
primeiros levantamentos populacionais nos primeiros anos do século XIX, e a Itália, na segunda
metade desse século.
No Brasil, o primeiro recenseamento realizado em bases científicas foi feito em 1940, tendo
como assessor técnico o demógrafo italiano Giorgio Mortara, que veio ao Brasil fugindo de per-
seguição política pelo regime de Mussolini. Antes desse censo, outros três levantamentos foram
realizados: em 1872, em 1890 e em 1920. Para a realização dos sete censos em 1940 (demográfico,
agrícola, industrial, comercial, dos transportes e comunicações, dos serviços e social), Mortara
organizou no Instituto Brasileiro de Geografia e Estatística (IBGE) o laboratório de estatística, que
proporcionou grande avanço na ciência da demografia no Brasil.
As técnicas demográficas podem ser compreendidas nos estudos de: (i) estimativa da po-
pulação; (ii) taxas demográficas; (iii) fenômenos demográficos e; (iv) estrutura das populações.
Os três primeiros itens dizem respeito à chamada dinâmica populacional, e o restante, à estática
populacional, todavia não faz parte do escopo deste livro o estudo das doutrinas populacionais.
P2 = P1 + (N – O) + (I – E)
Ocorre, no entanto, que essas estatísticas não são definitivas. Há, ainda, um sub-registro
de nascimentos e óbitos, da mesma forma que os registros de imigração e emigração são pouco
confiáveis no país. Dessa maneira, esse método, conhecido como método dos componentes, não é o
mais adequado para se fazer estimativas populacionais ano a ano.
Estudos demográficos 125
Após a realização do censo de 2010, o IBGE fez diversas estimativas da população no Brasil.
A tabela a seguir apresenta aquelas feitas para o ano de 2018, publicadas no Diário Oficial da União
e tendo como referência o dia 1º de julho de 2018, segundo os Estados da União e as cinco Regiões
do Brasil, totalizando os 5.570 municípios.
Tabela 1 – População estimada, segundo as Grandes Regiões e as Unidades da Federação – 2018
Brasil 208.494.900
Norte 18.182.253
Rondônia 1.757.589
Acre 869.265
Amazonas 4.080.611
Roraima 576.568
Pará 8.513.497
Amapá 829.494
Tocantins 1.555.229
Nordeste 56.760.780
Maranhão 7.035.055
Piauí 3.264.531
Ceará 9.075.649
Paraíba 3.996.496
Pernambuco 9.496.294
Alagoas 3.322.820
Sergipe 2.278.308
Bahia 14.812.617
Sudeste 87.711.946
Sul 29.754.036
Paraná 11.348.937
(Continua)
126 Estatística aplicada às ciências sociais
Centro-Oeste 16.085.885
Goiás 6.921.161
As tabelas detalhadas dos municípios por estado, de acordo com o sexo e a idade, podem
ser encontradas na página do IBGE3. A estrutura ou a distribuição da população pode ser repre-
sentada pelas pirâmides etárias, como será visto mais adiante neste capítulo.
Pn – P0
b=
tn – t0
Se o objetivo é estimar a população P no ano “t” desse período, seu valor será dado por:
Pn – P0
P = P0 + (t – t0)
tn – t0
População – Brasil
Ano População
2000 169.590.693
2007 183.987.291
Fonte: IBGE.
P2007 – P2000
P2005 = P2000 + (2005 – 2000) =
2007 – 2000
Para determinarmos uma estimativa da população para 2010, será necessário supor que a
taxa de crescimento populacional para o próximo período será a mesma do período anterior con-
siderado, ou seja:
P2007 – P2000 P – P2007
b= = 2010 = 2.056.656,9
t2007 – t2000 t2010 – t2007
Então:
Ou seja, com base nos dados de 2000 e 2007, podemos estimar, segundo o modelo aritméti-
co, uma população de 190.157.261 habitantes no Brasil em 2010.
O censo de 2010 determinou que o tamanho da população brasileira era de 190.732.694.
Apesar de o modelo aritmético não ser o mais adequado, a projeção realizada foi bastante razoável.
A principal crítica a esse modelo é que dificilmente encontraremos uma população com cresci-
mento constante, conforme o modelo linear.
128 Estatística aplicada às ciências sociais
Pt = P0(1 + r)(t –t )
0
A taxa será, então, calculada por meio de operações matemáticas simples, conforme segue:
Pt P P
= (1 + r)(t –t ) .:. ( 1 + r) = (t –t ) t .:. r = (t –t ) t – 1
0 0 0
P0 P0 P0
P0 169.590.693
Nessa perspectiva, a estimativa da população brasileira para 2010 foi em torno de 2,4 mi-
lhões de habitantes, maior do que a feita pela projeção aritmética.
Segundo projeções do IBGE, a taxa de crescimento populacional para o Brasil em 2020 deve
chegar a aproximadamente 0,71%, taxa de crescimento negativo, portanto, seguindo uma tendên-
cia mundial de arrefecimento do crescimento populacional (IBGE, 2018d).
1 K – P0 1 P (K – P1)
a= x log eb= x log 0
log e P0 n1 log e P1 (K – P0)
Pn
Ps Ps
P=
Ps 1 + 1a + bt
2 T3 – T1 = 2x (T2 – T1)
P1
P2 P3 P22 P1 x P3
T2–T1 Tn
T3 – T1
Temos que “b” é a razão de crescimento da população, “K” é o limite superior, isto é, o
ponto de saturação da população, “t” é o tempo e “a” um valor tal que para t = a/b a curva passa
pelo ponto de inflexão.
4 A explicação da utilização do algarismo neperiano “e” e do logaritmo neperiano está fora do escopo deste livro.
O objetivo aqui é apenas ilustrar esse modelo de estimativa populacional de frequente utilização.
130 Estatística aplicada às ciências sociais
Uma taxa de mortalidade específica e muito importante é a taxa de mortalidade infantil. Ela
é obtida pela razão entre o número de óbitos no primeiro ano de vida sobre o total da população
nessa idade para um determinado ano.
Um dos objetivos do milênio estabelecidos pela ONU foi o de reduzir em três quartos, entre
1990 e 2015, a taxa de mortalidade materna. Para o Brasil, isso significou sair da taxa de 64 óbitos
132 Estatística aplicada às ciências sociais
maternos a cada 100 mil nascidos vivos em 1990 e alcançar 48 óbitos a cada 100 mil nascidos vivos
em 2015. Dados levantados no Brasil em 2016 revelam que essa taxa foi em torno de 69, não tendo,
portanto, o país alcançado a meta proposta. Essa mesma taxa é calculada em 10 óbitos maternos
em 100.000 como média mundial.
Em países/regiões desenvolvidos, as taxas podem variar de 5 a 15 por 100.000 nascidos
vivos, e em países/regiões subdesenvolvidos, podem ter um mínimo de 80 por 100.000 nasci-
dos vivos, podendo chegar a 500 mortes por 100.000 nascidos vivos, como no caso de alguns
países africanos.
Objetivos do Milênio
1 2 3 4
5 6 7 8
Para cada um dos objetivos, algumas metas foram traçadas. Para o Objetivo 4, foi determi-
nada a seguinte meta: reduzir em dois terços, entre 1990 e 2015, a mortalidade de crianças menores
de 5 anos. Foram escolhidos os seguintes indicadores para verificação do desenvolvimento dessa
meta: (i) taxa de mortalidade de crianças menores do que 5 anos; (ii) taxa de mortalidade infantil
e; (iii) proporção de crianças de 1 ano vacinadas contra o sarampo.
Segundo o Programa das Nações Unidas para o Desenvolvimento (PNUD):
O Brasil reduziu a mortalidade infantil (crianças com menos de um ano) de
4,7% em 1990 para 2,5% em 2006. Mas a desigualdade ainda é grande: crian-
ças pobres têm mais do que o dobro de chance de morrer do que as ricas, e as
134 Estatística aplicada às ciências sociais
nascidas de mães negras e indígenas têm maior taxa de mortalidade. Por região,
o Nordeste apresentou a maior queda nas mortes de zero a cinco anos, mas a
mortalidade na infância ainda é quase o dobro da média nacional, de acordo
com o relatório Situação Mundial da Infância 2008, do UNICEF. (PNUD, 2008)
Objetivos Globais
1. Acabar com a pobreza em todas as suas formas, em todos os lugares.
2. Acabar com a fome, alcançar a segurança alimentar e melhoria da nu-
trição e promover a agricultura sustentável.
3. Assegurar uma vida saudável e promover o bem-estar para todos, em
todas as idades.
4. Assegurar a educação inclusiva e equitativa e de qualidade, e promo-
ver oportunidades de aprendizagem ao longo da vida para todos.
5. Alcançar a igualdade de gênero e empoderar todas as mulheres
e meninas.
6. Assegurar a disponibilidade e gestão sustentável da água e saneamento
para todos.
7. Assegurar o acesso confiável, sustentável, moderno e a preço acessível
à energia para todos.
8. Promover o crescimento econômico sustentado, inclusivo e susten-
tável, emprego pleno e produtivo e trabalho decente para todos.
9. Construir infraestruturas resilientes, promover a industrialização in-
clusiva e sustentável e fomentar a inovação.
10. Reduzir a desigualdade dentro dos países e entre eles.
11. Tornar as cidades e os assentamentos humanos inclusivos, seguros,
resilientes e sustentáveis.
12. Assegurar padrões de produção e de consumo sustentáveis.
13. Tomar medidas urgentes para combater a mudança do clima e
seus impactos.
14. Conservação e uso sustentável dos oceanos, dos mares e dos recur-
sos marinhos para o desenvolvimento sustentável.
15. Proteger, recuperar e promover o uso sustentável dos ecossis-
temas terrestres, gerir de forma sustentável as florestas, combater a
desertificação, deter e reverter a degradação da terra e deter a perda
de biodiversidade.
16. Promover sociedades pacíficas e inclusivas para o desenvolvimento
sustentável, proporcionar o acesso à justiça para todos e construir insti-
tuições eficazes, responsáveis e inclusivas em todos os níveis.
17. Fortalecer os meios de implementação e revitalizar a parceria global
para o desenvolvimento sustentável.
136 Estatística aplicada às ciências sociais
Número de homens
Imasc. = x 100
Número de mulheres
A razão de sexo por ocasião do nascimento é maior do que 100, isto é, nascem mais homens
do que mulheres. Durante a vida, essa situação se modifica por várias razões. Já no final do primeiro
ano de vida, a taxa de mortalidade infantil masculina é maior do que a feminina, no entanto não há
ainda estudos que esclareçam a razão dessa ocorrência. Mais tarde, a exposição masculina a riscos é
maior do que a feminina, e essa tendência segue até o final da vida.
A tabela a seguir apresenta, como exemplo, as razões de sexo das regiões Nordeste e Sul do
Brasil para pessoas em faixas etárias acima de 60 anos em 2010. Cada um dos valores representa o
número de homens para cada 100 mulheres.
Tabela 3 – Razão de sexo das pessoas em faixas etárias acima de 60 anos de idade, segundo as regiões
Nordeste e Sul e Unidades de Federação – 2010.
80 anos
Localidade 60 a 64 anos 65 a 69 anos 70 a 74 anos 75 a 79 anos
ou mais
Rio Grande do
83,8 81,5 78,7 74,0 71,9
Norte
80 anos
Localidade 60 a 64 anos 65 a 69 anos 70 a 74 anos 75 a 79 anos
ou mais
Santa
91,7 87,4 81,0 71,9 58,3
Catarina
Rio Grande do
87,6 83,0 75,7 65,3 50,5
Sul
Fonte: IBGE.
Várias análises podem ser feitas com relação à estrutura da população, com base na observa-
ção das razões de sexo. Observamos, na tabela anterior, que a partir dos 60 anos há uma forte queda
na relação entre o número de homens e o de mulheres, nas duas regiões consideradas e também
no Brasil. No Rio Grande do Sul, por exemplo, o número de mulheres é duas vezes o de homens,
quando se consideram pessoas com mais de 80 anos.
+ de 80
75 – 80
70 – 74
65 – 69
60 – 64
55 – 59
50 – 54
45 – 49
40 – 44
35 – 39
30 – 34
25 – 29
20 – 24
15 – 19
10 – 14
5–9
0–4
% 4 2 0 2 4 8 6 4 2 0 2 4 6 8 %
Homens
Mulheres
As pirâmides com base estreita e cume largo correspondem a países com maior quantidade
de população adulta e envelhecida, caso dos países desenvolvidos que tendem para estabilização
demográfica. As pirâmides de base larga e forma triangular representam países com população
mais jovem e menor expectativa de vida, caso dos países subdesenvolvidos, em fase de crescimento
e ainda em transição demográfica.
Estudos demográficos 139
Atividades
1. Dos Oito Objetivos do Milênio citados a seguir, qual está mais relacionado aos estudos
demográficos? Em qual das áreas da demografia esse objetivo pode ser estudado? Justifique.
2. Apresente a relação entre a razão de dependência com a forma da pirâmide etária e a carac-
terística socioeconômica dos países.
O índice de bem-estar econômico, proposto por Osberg e Sharpe (2002 apud VIDIGAL,
2011) no Canadá, por exemplo, admite que o desenvolvimento da sociedade depende de qua-
tro fatores: o consumo por habitante, a acumulação de capital, a repartição do rendimento e a
segurança econômica diante da ocorrência de riscos sociais. O Reseau d´Alerte sur les Inegalités
(RAI), desenvolvido na França, pretende constituir um indicador sintético de alerta para proble-
mas sociais, centrado nas desigualdades sociais e na pobreza.
Mesmo assim, compreender o que informam os índices mais conhecidos é fundamental
para o cientista social, não só para acompanhar as análises correntes, mas também, e talvez
principalmente, para propor formas complementares ou alternativas de análise dos principais
fenômenos sociais.
Neste capítulo, serão apresentados três tipos de indicadores úteis para a análise dos princi-
pais fenômenos sociais: índices que medem qualidade de vida e desenvolvimento social; índices
que medem grau de distribuição de renda e; índices que medem a evolução do custo de vida e dos
preços de mercadorias e serviços. Antes, porém, vamos verificar quais são as principais fontes de
dados para o cálculo desses índices.
no Brasil, a partir de 1993, e também do índice de desenvolvimento humano (IDH). Os RDH bus-
cam aferir os avanços de uma população por meio da análise de suas características sociais, cultu-
rais e políticas, além da dimensão econômica.
Os RDH propõem também uma agenda sobre temas relevantes ligados ao desenvolvimento
humano e reúnem tabelas estatísticas e informações sobre os assuntos tratados. O relatório foi
idealizado pelo economista paquistanês Mahbub ul Haq, que em 1990 propôs a sua utilização
como contraponto a outro indicador muito usado, o PIB per capita (PNUD, 2018b). O IDH é uma
medida geral e sintética que não abrange todos os aspectos do desenvolvimento humano, mas é um
índice-chave dos Objetivos de Desenvolvimento do Milênio das Nações Unidas.
Além de computar o PIB per capita, após corrigi-lo de acordo com o poder de compra da
moeda de cada país, ou seja, em dólar PPC (paridade do poder de compra, que elimina as dife-
renças de custo de vida entre os países), o IDH também leva em conta dois outros componentes: a
longevidade e a educação.
Para aferir a longevidade, o indicador utiliza números de expectativa de vida ao nascer, en-
quanto o item educação é avaliado pelo índice de analfabetismo e pela taxa de matrícula em todos
os níveis de ensino.
Para calcular o IDH de uma localidade, determina-se a seguinte média aritmética:
L+E+R
IDH =
3
Em que:
• L = longevidade;
• E = educação;
• R = renda.
10.5.1 Longevidade
A longevidade é determinada pela fórmula a seguir, em que EV significa a expectativa de
vida ao nascer de uma população, isto é, a média de anos de vida de uma geração.
EV – 25
L=
60
A lógica da determinação do índice é supor que a expectativa máxima de vida é de 85 anos
e a mínima de 25 anos, empregada na expressão geral para o cálculo de índices:
X – Xmin
I=
Xmin –Xmáx
Indicadores sociais e econômicos 145
10.5.2 Escolarização
A escolarização é a média ponderada da taxa de alfabetização e da taxa de escolarização:
E = 2TA – TE
3
Uma vez que a taxa de alfabetização é um dado que revela um determinado resultado
e a taxa de escolarização diz respeito a um processo, utiliza-se a média ponderada para evitar
distorções e diferenciar países que tenham variações em cada uma dessas taxas.
A taxa de alfabetização (TA) é definida como o percentual de pessoas com 15 anos ou mais
de idade que sabem ler e escrever um bilhete simples no idioma que conhecem, na população total
na mesma faixa etária, em determinado espaço geográfico, no ano considerado.
A taxa de escolarização (TE) é dada pela razão entre o número total de estudantes no ensino
fundamental, médio e superior e a população em idade escolar para esses três níveis.
Os valores das taxas de alfabetização e de frequência já variam entre 0 e 1 (0 a 100%),
tornando-se desnecessário convertê-las em um índice, como nas dimensões longevidade acima
e renda abaixo.
10.5.3 Renda
O IDH da renda segue a lógica de construção de índices, levando-se em conta os valores
máximos e mínimos do PIB per capita (PIBpc). Para um município, por exemplo, determina-se a
renda municipal per capita (R) e, em seguida, aplica-se a fórmula:
log10 de renda média municipal per capita – log10 do valor de referência mínimo
IDHM – R =
log10 do valor de referência máximo – log10 do valor de referência mínimo
Veja que R$ 10,00 a mais por mês para quem ganha R$ 100,00 proporciona um maior
retorno em bem-estar do que R$ 10,00 para quem ganha R$ 40.000,00. Essa é a razão de se usar
o logaritmo.
10.5.4 Classificação
O IDH é um índice que varia de zero (nenhum desenvolvimento humano) até 1 (desenvol-
vimento humano total), e a classificação de uma região é dada por:
• IDH entre 0 e 0,499 é considerado baixo.
• IDH entre 0,500 e 0,799 é considerado médio.
• IDH entre 0,800 e 1 é considerado alto.
País IDH
Noruega 0,953
Suíça 0,944
Austrália 0,939
Irlanda 0,938
Alemanha 0,936
Islândia 0,935
Suécia 0,933
Singapura 0,932
Holanda 0,931
Dinamarca 0,929
Canadá 0,926
Finlândia 0,920
Bélgica 0,916
(Continua)
Indicadores sociais e econômicos 147
Liechtenstein 0,916
Japão 0,909
Áustria 0,908
País IDH
Uganda 0,516
Benin 0,515
Senegal 0,505
Comores 0,503
Togo 0,503
Sudão 0,502
Haiti 0,498
Afeganistão 0,498
Holanda 0,477
Segundo dados do PNUD, o Brasil ocupa em 2018 a 79ª posição, com valor de IDH igual a
0,759 (IDH, 2018). Convém observar, para efeito de comparação, que em 2006 o Brasil ocupava
a 70ª posição, com IDH igual a 0,807 (IDH, 2008)2.
2 Diversas informações complementares, bem como os Relatórios de Desenvolvimento Humano, podem ser acessadas
no site: http://www.br.undp.org/content/brazil/pt/home/idh0/relatorios-de-desenvolvimento-humano/rdhs-globais.html.
Acesso em: 5 dez. 2018.
148 Estatística aplicada às ciências sociais
Quantidade de pessoas
a
Renda
a
G=
a+b
A razão a/(a+b) é sempre um número entre 0 e 1, e pode ser pensada como uma percenta-
gem, então, por exemplo, 0,6 representa 60%. A fórmula de Brown é o meio mais prático para se
calcular o valor do índice de Gini.
k=n–1
G = |1 Xi (Xk+1 – Xk) (Yk+1 + Yk)|
k =1
Em que:
• G = coeficiente de Gini;
• X = proporção acumulada da variável população;
• Y = proporção acumulada da variável renda.
País IDH
Namíbia 0,61
Haiti 0,608
Botsuana 0,605
Zâmbia 0,556
Lesoto 0,542
Colômbia 0,535
Paraguai 0,517
Brasil 0,515
País IDH
Islândia 0,24,1
Eslováquia 0,243
Eslovênia 0,244
Noruega 0,25
Finlândia 0,254
Bélgica 0,263
Holanda 0,269
Áustria 0,272
Suécia 0,276
Dinamarca 0,277
Hungria 0,282
A distribuição de renda no Brasil está muito próxima daquela dos países com pior distri-
buição de renda do mundo. O valor do índice de Gini no Brasil é de 0,515 (CORRÊA, 2018). Para
comparação, o índice de Gini dos Estados Unidos é de 0,415, de Portugal é de 0,339, da Itália é
de 0,331 e da Alemanha é de 0,2353.
3 A lista completa dos valores do índice de Gini pode ser encontrada no seguinte endereço eletrônico: https://
observatorio-das-desigualdades.com/2018/04/17/coeficiente-de-gini/. Acesso em: 6 dez. 2018.
Indicadores sociais e econômicos 151
O IPC-Fipe mede a variação de preços para o consumidor na cidade de São Paulo com base
nos gastos de quem ganha de 1 a 20 salários mínimos. Os grupos de despesas estão compostos
de acordo com as pesquisas de orçamentos familiares (POF), em constante atualização. A
estrutura de ponderação atual é restrita a assinantes e pode ser verificada no portal da Fipe4.
De maneira geral, a ponderação é similar ao INPC/IBGE e ao IPCA/IBGE. O período de
pesquisa das variações de preços é do primeiro ao último dia de cada mês. A publicação
dos índices ocorre normalmente entre os dias 10 e 20 do mês subsequente. A Fipe divulga
também as variações de preços das últimas quatro semanas imediatamente anteriores.
Desse modo, esse índice “evita” sustos e indica tendências fortes das variações de preços,
principalmente da camada de renda da população analisada.
O índice de preços ao consumidor do município de São Paulo é o mais tradicional indica-
dor da evolução do custo de vida das famílias paulistanas e um dos mais antigos do Brasil.
Começou a ser calculado em janeiro de 1939 pela Divisão de Estatística e Documentação
da prefeitura do município de São Paulo. Em 1968, a responsabilidade do cálculo foi
transferida para o Instituto de Pesquisas Econômicas da USP e, posteriormente, em 1973,
com a criação da Fipe, para essa instituição.
• Índice de preços ao consumidor do Centro de Estudos e Pesquisas Econômicas (IPC-
Iepe): é pesquisado pelo Iepe, um centro de estudos da Universidade Federal do Rio
Grande do Sul, no município de Porto Alegre, utilizando 281 itens com grande frequência
de compra.
• Índice do custo de vida (ICV-Dieese): publicado pelo Departamento Intersindical de
Estatística e Estudos Socioeconômicos (Dieese), também é medido na cidade de São
Paulo e reflete o custo de vida de famílias com renda média de R$ 2.800 (há ainda índices
para a baixa renda e a intermediária).
• Índice nacional de preços ao consumidor (INPC): média do custo de vida nas nove
principais regiões metropolitanas do país para famílias com renda de um a seis salários
mínimos, medido pelo Instituto Brasileiro de Geografia e Estatística (IBGE). Compõe-se
do cruzamento de dois parâmetros: a pesquisa de preços de nove regiões de produção
econômica e a pesquisa de orçamento familiar (POF), que abrange famílias com ren-
da de um a seis salários mínimos. As regiões e ponderações são as seguintes: São Paulo
(28,46%); Rio de Janeiro (12,52%); Belo Horizonte (11,36%); Salvador (9,10%); Porto
Alegre (7,83%); Recife (7,10%); Brasília (6,92%); Fortaleza (5,61%); (Belém – 4,20%).
4 FIPE – Fundação Instituto de Pesquisas Econômicas. Disponível em: http://www.fipe.org.br/. Acesso em:
6 nov. 2018.
152 Estatística aplicada às ciências sociais
• Índice de preços ao consumidor amplo (IPCA): também do IBGE, calculado desde 1980,
é semelhante ao INPC, porém reflete o custo de vida para famílias com renda mensal de
1 a 40 salários mínimos. A pesquisa é feita nas mesmas nove regiões metropolitanas apre-
sentadas anteriormente, tendo sido escolhida como alvo das metas de inflação (inflation
targeting) no Brasil.
• Índice nacional do custo da construção (INCC): um dos componentes das três versões
do IGP, o de menor peso, reflete o ritmo dos preços de materiais de construção e da mão
de obra no setor. É utilizado em financiamento direto de construtoras/incorporadoras.
• Custo unitário básico (CUB): índice que reflete o ritmo dos preços de materiais de
construção e da mão de obra no setor, calculado por sindicatos estaduais da indústria
da construção, Sinduscon, e usado em financiamentos de imóveis.
Apresentamos neste capítulo alguns dos principais índices utilizados para a análise da rea-
lidade socioeconômica do Brasil e de outros países. É importante ter o conhecimento de como
são calculados e interpretados esses índices, porque eles fazem parte da informação corrente para
avaliação de condições de vida dos habitantes de uma cidade, de uma região ou de um país.
Atividades
1. Quais são as principais limitações do IDH como indicador da qualidade de vida de um
grupo populacional?
2. Um município tem PIB per capita igual a R$ 827,35 (o que equivale a PIBpc PPC de
US$ 21.214,10 – derivado do cálculo de 827,35x(100/3,9), segundo metodologia do PNUD),
e log10 21.214,10 = 4,3266. O município tem uma taxa bruta de frequência à escola de 85%
e a taxa de alfabetização é de 91%. A esperança de vida ao nascer nesse município foi deter-
minada como sendo igual a 70 anos. Calcule o IDH do município e apresente os resultados
intermediários e final.
3. Entre os oito Objetivos do Milênio, aponte quais são os que podem ser relacionados ao IDH
direta e indiretamente. Justifique.
= + 1
x1 + 2
x2 +
Em que indica a taxa de crescimento do emprego; o intercepto ( )
refere-se ao crescimento da eficiência produtiva; X1 é a taxa de cres-
cimento das vendas do produto velho; X2 é a receita proveniente das
vendas do produto novo (em casos nos quais a empresa não inova em
produto, essa variável é zero) e; ε é o efeito do acaso, composto por
variáveis não controladas e do acaso propriamente dito.
fazermos uma análise que mede a força da ligação entre as variáveis e a aptidão do modelo em
explicar a ligação entre essas variáveis, conhecida como análise de correlação. A primeira provi-
dência ao buscar a construção do modelo é a verificação que existe entre a relação teórica e as
variáveis consideradas.
Y = f(X) +
Y= + X+
Y= 0
+ 1X1 + 2
X2 + ... + pXp +
A troca de por 0
, por , e assim por diante, é feita aqui somente por comodidade
1
de notação.
Investimento em
educação
250
200
150
100
50
0
0 2 4 6 8 10 12 14 16
Renda familiar
Ŷ = a + bX
200
150
100
50
0
0 2 4 6 8 10 12 14 16
Renda familiar
X Y
0 2
1 3
2 4
3 5
4 6
Fonte: Elaborada pelo autor.
Análise de associação entre variáveis 159
O gráfico correspondente é:
Figura 3 – Gráfico da reta
4
y
3
0
0 1 2 3 4 5
x
Fonte: Elaborada pelo autor.
Com base nesses dados e no gráfico, podemos analisar agora o significado do coeficiente
linear e o do coeficiente angular.
O coeficiente angular “a” é o ponto em que a reta corta o eixo Y. Isso ocorre para o valor de
X = 0. Valores negativos de “a” implicam que a reta cruze o eixo Y abaixo da origem, enquanto
valores positivos de “a” implicam que a reta corte o eixo Y acima da origem.
O coeficiente linear “b” é a inclinação da reta, ou seja, é o valor da tangente do ângulo θ
formado pelo eixo X e a reta. Ele representa também a variação da variável Y para cada variação de
um ponto de X. Se tomarmos um pequeno triângulo de base unitária, verificaremos que a altura
desse triângulo definido pela reta Y = 2 + X também será unitária. Tomando, então, a razão entre
o cateto oposto e o cateto adjacente desse triângulo retângulo, verificaremos que a tg = 1, isto é,
a inclinação da reta é igual a 1 e o ângulo correspondente será de 45°.
Valores positivos de “b” significam que a reta crescerá na medida em que X cresce, e valores
negativos de “b” significam que a reta decrescerá em Y quando X cresce. Ou seja, no primeiro caso
dizemos que a relação entre X e Y é de proporcionalidade direta, enquanto no segundo caso que a
relação entre as variáveis é de proporcionalidade indireta.
• Se o valor de “a” é igual a 2, isso significa que, se não houvesse renda, o investimento em
educação seria de duas unidades monetárias. Para o exemplo em foco, essa análise não
faria muito sentido.
• Para o valor de “b”, o coeficiente angular, teríamos como resultado que para cada variação
de uma unidade de X teríamos a variação de Y. Ou seja, o coeficiente angular mede quanto
aumenta o investimento em educação para cada um real a mais da renda.
• O valor de “b” positivo significa que a relação entre as variáveis é de proporcionalidade
direta, isto é, o aumento da renda implica em aumento do investimento em educação.
• Podemos calcular o valor esperado de investimento em educação (Ŷ) para certa renda
familiar (X). Por exemplo, se a renda for de R$ 3 mil, o investimento em educação espe-
rado poderá ser verificado por meio do cálculo:
Ŷ=2+X
Ŷ=2+3=5
yi
yi
Análise de associação entre variáveis 161
Min i
2
Minimizar a soma dos erros ao quadrado significa minimizar i2 = (Yi – Ŷi)2. O que se
deseja é que a soma das distâncias de cada ponto até a reta seja a mínima. Usamos o quadrado
porque, sendo uma reta média, a soma dos desvios (ou distâncias) seria igual a zero. Essa é uma
propriedade da média.
Com esse procedimento, encontra-se o sistema de equações normais. Todavia, não vale a
pena, no contexto deste livro, discutir mais profundamente essa questão. O sistema de duas equa-
ções e duas incógnitas formado é chamado de sistema de equações normais, conforme apresentado
na sequência:
Y = n.a + b. X
XY = a X + b. X2
XY – X. Y
n
b=
( X)2
XY2 –
n
Embora muitos softwares estatísticos estejam disponíveis para o cálculo direto da reta de
regressão e mesmo alguns aplicativos do Excel possam calcular a expressão da reta, é conveniente
demonstrar esse processo para a compreensão do engenhoso método de construção da equação da
reta de regressão com base nos dados amostrais.
162 Estatística aplicada às ciências sociais
Gasto mensal
Renda familiar
Família em educação em
em 2017 (R$)
2018 (em R$)
A 221,00 15.000,00
B 83,00 8.500,00
C 147,00 12.000,00
D 69,00 6.500,00
E 41,00 4.500,00
F 26,00 2.000,00
G 35,00 500,00
H 40,00 1.500,00
I 125,00 14.000,00
J 97,00 9.000,00
K 53,00 7.500,00
L 12,00 500,00
M 34,00 2.500,00
N 48,00 3.000,00
O 64,00 6.000,00
Fonte: Elaborada pelo autor.
Com base nos dados das 15 famílias, vamos determinar, por meio do método de mínimos
quadrados ordinários, a equação da reta que explica a relação entre as rendas familiares (X) e o
investimento em educação (Y).
A tabela a seguir apresenta os cálculos necessários para a determinação de “a” e de “b”:
Tabela 3 – Cálculos para determinação de “a” e “b”
Famílias X Y XY X2 Y2
Assim, os valores de “a” e de “b” são determinados pelas expressões (1) e (2) a seguir:
(1) a = Y – bX
Y 1.095
Y= = = 73
n 15
X 93
X= = = 6,2
n 15
a = 73 – 6,2 b
O cálculo de “a” se completará após o cálculo do valor de “b”, que é dado por:
X. Y
XY –
n
(2) b =
( X)2
X2 –
n
93.1095
10.186,5 –
15
b=
(93)2
895 –
15
b = 10,67054
Retornando ao cálculo de “a”, teremos:
Ŷ = 6,84 + 10,67 X
Com base nesse resultado, podem-se fazer predições para o valor do investimento em edu-
cação em relação a um dado valor de renda, bastando, para isso, substituir X pelo valor da renda.
Por exemplo, se uma família tiver uma renda anual de R$ 2.000,00, deverá fazer um investimento
em educação mensal de Ŷ = 6,84 + 10,67 (2) = 28,18, ou R$ 28,18. Observe que a família F, que tem
uma renda anual de R$ 2.000,00, investiu em educação o total de R$ 26,00 por mês, bem próximo
ao esperado. Essa diferença entre o valor de investimento estimado para a família F e o realmente
realizado é devida ao acaso.
Y–Y
Y–Y
Y–Y
Análise de associação entre variáveis 165
Nesse contexto, três pontos e três distâncias serão considerados. O ponto Y é o valor real obser-
vado para um determinado X; o ponto Ŷ é o valor da estimativa de Y para o valor de X considerado
e; o ponto Y é a média dos valores de Y. Se o modelo não fosse significativo, a reta de regressão estaria
muito próxima da reta Ŷ = Y, paralela ao eixo X. Ou seja, a mudança dos valores de X não implicaria
em mudanças em Y. Esse conceito será reforçado no estudo do coeficiente de correlação.
Para o ponto considerado, podemos pensar que a variação total (Y – Y) é a soma das par-
celas correspondentes à variação devida à regressão (Ŷ – Y) e à variação devida ao acaso (Y – Ŷ).
A variação devida à regressão, ou explicada pela regressão, pode ser expressa pela diferença
(Ŷ – Y), porque, se não houvesse regressão, o valor de Ŷ seria a própria média de Y, Y.
A variação devida ao acaso é o erro estatístico ou resíduo, conforme já apresentado anterior-
mente. Se o modelo fosse determinístico, todos os pontos estariam sobre a reta de regressão, Y seria
igual a Ŷ e a diferença Y – Ŷ seria igual a zero.
Se considerarmos todos os pontos amostrais, podemos estabelecer a seguinte relação:
(Ŷ – Y)2
A razão r2 = entre a variação explicada pela regressão e a variação total é a
(Y – Y)2
proporção da variação que é explicada pelo modelo. Esse valor é conhecido como coeficiente de
explicação ou coeficiente de determinação.
(Ŷ – Y)2
r2 = Variação explicada =
Variação total (Y – Y)2
Pode-se observar que r2 varia de zero até um.
Se não houver regressão, todos os pontos estimados estarão sobre a reta Y e, portanto, o
(Y – Y)2 será igual a zero. Se o numerador for igual a zero, significa que r2 também será igual a zero.
Nesse caso, a variação total será igual somente à variação não explicada. Ou ainda, qualquer varia-
ção na observação de Y será devida ao acaso e, portanto, o modelo matemático não explicará nada.
Esse é o menor valor possível para r2. O modelo explica zero por cento da variação de Y.
Por outro lado, se todos os pontos de Y observados estiverem sobre a reta, não há nenhuma
variação devida ao acaso. Toda variação é explicada pelo modelo e, nesse caso, ela é igual à variação
total – assim, r2 = 1. Ou seja, 100% da variação total é devido à regressão.
Uma forma simplificada de realizar esse cálculo é por meio da expressão:
166 Estatística aplicada às ciências sociais
r2 = a Y + b XY – n(Y)
2
Y2 – n (Ŷ – Y)2
Em nosso exemplo:
(6,84)(1.095) + (10,67)(10.186,5) – (15)(73)2
r2 =
(12.2825) – (15)(73)2
r2 = 0,845
(n – 1)
r2ajustado = 1 – (1– r2)
(n – k)
(15 – 1)
r2ajustado = 1 – (1– 0,8452) = 0,833
(15 – 2)
Podemos perceber que o valor obtido não difere de modo substancial do primeiro valor
encontrado.
2 Observe que uma regressão realizada somente com dois pontos amostrais terá sempre coeficiente de determi-
nação igual a 1.
Análise de associação entre variáveis 167
O que ocorre na prática, no entanto, é que o coeficiente de correlação assume valores inter-
mediários entre os extremos expostos anteriormente. Não há uma regra única para se avaliar a força
da relação por meio do coeficiente de correlação. No entanto, há indicativos que podem orientar a
decisão sobre a força de uma relação. Uma proposta bem-aceita é a que segue:
Quadro 1 – Indicativos de força da relação
Coeficiente de
Força da relação
correlação (r)
Como vimos, o coeficiente de correlação pode ser calculado como a raiz quadrada do coe-
ficiente de determinação. Uma outra forma de identificar diretamente o valor do coeficiente de
correlação é por meio da expressão:
170 Estatística aplicada às ciências sociais
( X)( Y)
XY –
n
r=
X2 – ( X)
2
( Y)2
Y2 –
n n
As ferramentas apresentadas neste capítulo fazem parte de um conjunto bem vasto de proce-
dimentos para o estudo da relação entre duas variáveis ou mais. Se bem equacionados, problemas
em ciências sociais podem ser mais bem compreendidos com a utilização dessas técnicas.
Atividades
1. Seja a reta de regressão Ŷ = 2 + X, analise o significado dos coeficientes da equação da reta.
2. Se o coeficiente de correlação entre as variáveis X e Y for igual a 0,8, qual é o poder de expli-
cação do modelo Y = a + bX?
1 Estatístico americano que deu enorme contribuição à estatística, à ciência e às políticas públicas.
172 Estatística aplicada às ciências sociais
Uma primeira abordagem mais descritiva de análise de dados qualitativos é feita por meio
do estudo das distribuições de frequências. O objetivo central deste capítulo é o de realizar estudos
em um contexto mais inferencial, isto é, coletando informação de uma amostra para tirar con-
clusões para a população, quando duas variáveis qualitativas são organizadas em tabelas de dupla
entrada, conhecidas assim porque cruzamos duas variáveis, a idade e o sexo. Podemos estar inte-
ressados, por exemplo, em verificar a relação entre sexo e idade de eleitores de um certo candidato
a prefeito. Vejamos uma situação hipotética de uma tabela de dupla entrada, chamada de tabela de
contingência, para a situação descrita:
Tabela 1 – Sexo e idade dos eleitores do candidato A
Sexo
Idade Total
Masculino Feminino
Menos de 30 60 50 110
30 e mais 80 10 90
O que podemos inferir dos valores observados nessa amostra de 200 eleitores? Em quais ca-
tegorias o candidato A pode ser considerado mais forte? Homens jovens ou mulheres mais velhas?
Essas e outras tantas perguntas poderiam ser respondidas com base na examinação da tabela.
Para a realização dessa análise e de outras semelhantes, existe um procedimento estatístico
muito difundido e útil, chamado de teste qui-quadrado, que associa tabelas de contingência a
um modelo matemático conhecido como distribuição qui-quadrado. Observe que é distribuição
qui-quadrado, e não qui-quadrada, porque quem está ao quadrado é o (qui – letra grega cor-
respondente ao “q”), e não a distribuição. A notação é, portanto, 2 tanto para o teste como para
a distribuição.
Dois tipos de estudos para tabelas de dupla entrada podem ser realizados por meio dessa
metodologia, dependendo do enfoque que o pesquisador esteja dando à sua investigação:
1. teste qui-quadrado para independência de variáveis e;
2. teste qui-quadrado para a homogeneidade ou para a diferença entre proporções amostrais.
Uma terceira forma de utilização do teste qui-quadrado é o teste da bondade de um ajus-
tamento ou teste de aderência, quando se deseja verificar se as observações de uma dada variável
qualitativa “aderem” a uma particular distribuição. Neste último caso, não se tratam de tabelas de
dupla entrada.
(o – e)2
2
=
e
Em que:
As frequências observadas são obtidas diretamente dos dados das amostras, enquanto que as
frequências esperadas são calculadas com base nessas. É importante notar que (o – e) é a diferença
entre a frequência observada e a esperada em uma classe. Se as frequências observadas são muito
próximas às esperadas, o valor de 2 é pequeno. De maneira inversa, quando as divergências são
grandes, (o – e) passa a ser também grande e, consequentemente, 2 assume valores altos.
Podemos, portanto, afirmar que dois grupos se comportam de modo semelhante se as di-
ferenças entre as frequências observadas e as esperadas em cada categoria forem muito pequenas,
próximas a zero.
Para a comparação, é necessário realizar um teste de hipóteses:
• Hipótese nula (H0): as frequências observadas não são diferentes das esperadas. Não exis-
te diferença entre as frequências (contagens) dos grupos: eles são independentes.
• Hipótese alternativa (H1): as frequências observadas são diferentes das esperadas, portanto
existe diferença entre as frequências: os grupos não são independentes.
É necessário também obter duas estatísticas: aquelas denominadas 2 calculado e 2 tabelado.
O 2 calculado é obtido com base nos dados experimentais, levando-se em consideração os valores
observados e os esperados. O 2 tabelado depende do número de graus de liberdade e do nível de
significância adotado. A tomada de decisão é feita comparando-se os dois valores de 2: se 2 calcu-
lado for maior ou igual ao 2 tabelado, rejeita-se H0. Se 2 calculado for menor do que 2 tabelado,
aceita-se H0.
Tabela 2 – Qui-quadrado
2
tabelado
...
Fonte: Elaborada pelo autor.
Exemplo
Se um dado não viciado for jogado seis vezes, espera-se obter uma vez
cada face (1, 2, 3, 4, 5 e 6), já que a probabilidade de cair qualquer face é
de 1/6. Supondo que um dado foi jogado 186 vezes e se obteve:
Observado 34 29 30 32 28 33
Esperado 31 31 31 31 31 31
2
parcial 0,2903 0,1290 0,0322 0,0322 0,2903 0,1290
(29 – 31)2 (30 – 31)2 (32 – 31)2 (28 – 31)2 (33 – 31)2
= (34 – 31) +
2
2
+ + + +
31 31 31 31 31 31
2
= (0,2903 + 0,1290 + 0,0322 + 0,0322 + 0,2903 + 0,1290)
2
= 0,903
Sexo
Idade Total
Masculino Feminino
Menos de 30 60 50 110
30 e mais 80 10 90
Observe que 55% dos homens (77 em 140) são eleitores com menos de 30 anos, da mesma
forma que 55% das mulheres (33 em 60) também têm menos do que 30 anos. Ou, de outra maneira,
77 em 110 eleitores com menos de 30 anos (70%) são homens. Essa proporção corresponde tam-
bém para os eleitores com mais de 30 anos (63 em 90).
Vale dizer, portanto, que, para não haver interferência do sexo ou da idade na preferência
dos eleitores, a distribuição esperada dos 200 eleitores deve seguir a tabela apresentada. Por isso,
esses valores são chamados de valores esperados, enquanto os originais observados na amostra são
os valores observados.
Análise de variáveis qualitativas 177
E como são obtidos os valores esperados? Basta multiplicar os valores marginais entre si.
Por exemplo, o valor 77 corresponde ao produto de 140 homens por 110 pessoas com menos de 30
anos dividido por 200.
140 x 110
= 77
200
Perceba que os outros valores esperados (e) foram calculados de modo similar. A lógica
do cálculo consiste em manter a proporção 110 em 200, correspondente ao total de pessoas com
menos de 30, para os homens com menos de 30, ou seja:
110 = e 110
e = 140 x = 77
200 140 200
Observe agora que as proporções de homens, mulheres e do total são as mesmas tanto para
eleitores com menos de 30 anos
77 110
= 33 = = 0,55
140 60 200
como para eleitores com 30 anos ou mais:
63 27
= = 90 = 0,45
140 60 200
Sabemos que a expressão da estatística do teste será dada por:
(o – e)2
2
=
e
Em que “o” é o valor observado e “e” o valor esperado. Para o exemplo desse problema,
temos como valor da estatística:
(10 – 27)2
= (60 – 77) + (80 – 63) + (50 – 33) +
2 2 2
2
= 27,8
77 63 33 27
Se o valor do qui-quadrado for próximo a zero, a probabilidade associada é igual a 1, ou
100%. Quanto mais cresce esse valor, mais a probabilidade associada se aproxima de zero. Em uma
tabela de dupla entrada, como a do exercício, se o valor do qui-quadrado for igual a 6, a proba-
bilidade será igual a 0,05 (5%), e, se for igual a 9, a probabilidade será igual a 0,01 (1%). Pode-se
verificar que o valor da probabilidade associado ao valor calculado da estatística será muito próxi-
mo a zero, o que significa que devemos rejeitar a hipótese de que os resultados das proporções são
independentes, ou seja, a relação amostral não pode ser atribuída ao acaso.
De outra forma, a proporção de homens com menos de 30 anos que votam no candidato A
(60/140 = 42,9%) é estatisticamente diferente da proporção das eleitoras com menos de 30 anos
(50/60 = 83,3%). Ou seja, o candidato tem preferencialmente entre seus eleitores jovens as mulhe-
res e, portanto, há uma relação entre a idade e o sexo dos eleitores do candidato A.
proporções das características em estudo. Observe que se tratam de enfoques diferentes: enquanto
no presente caso o objetivo é verificar diferenças entre proporções, no teste realizado na seção an-
terior a preocupação estava na relação entre as variáveis.
Como um teste de homogeneidade utiliza dados amostrais extraídos de populações diferen-
tes, temos totais predeterminados, ou para as linhas ou para as colunas, na tabela de contingência.
Assim, um teste de homogeneidade envolve escolhas aleatórias feitas de modo que ou os totais das
linhas ou o total das colunas são predeterminados.
Se os tamanhos das amostras usadas para diferentes populações foram predeterminados, es-
tamos no contexto do chamado teste de homogeneidade. Se, por outro lado, extraímos uma grande
amostra de modo que tanto os totais de linhas como os de colunas foram determinados aleatoria-
mente, temos um teste de independência.
Suponhamos que queiramos verificar a opinião dos eleitores dos estados do sul do país em
relação à aprovação das ações do Governo Federal. Se optarmos por determinar a opinião de 3.000
eleitores do Rio Grande do Sul, 2.800 do Paraná e 1.500 de Santa Catarina, então na tabela de con-
tingência que resume os resultados estarão predeterminados os totais das colunas. Os valores são
3.000, 2.800 e 1.500.
Veremos um exemplo dessa aplicação. A tabela a seguir especifica que em uma determinada
comunidade, de uma amostra de 50 famílias, 10 assistiam a um programa especial de televisão,
enquanto em outra comunidade, de uma amostra de 50 famílias, 15 assistiam a tal programa. Nesse
exemplo, testa-se a hipótese nula de que as duas proporções são iguais.
Tabela 3 – Programa de TV por comunidade
Não assistem 40 35 75
Total 50 50 100
Fonte: Elaborada pelo autor.
Com base nos dados dessa tabela, podemos determinar, da mesma forma que na seção an-
terior, os valores teóricos ou esperados para cada casela.
Total 50 50 100
Assim, obtemos que o valor da estatística calculada foi igual a 1,34 e devemos comparar com
o valor crítico de 99% de confiança ou = 0,01, que é igual a 6,63. Nessa situação, a hipótese nula
não pode ser rejeitada a um nível de significância de 1%, porque o valor calculado foi menos do
que o valor tabelado, concluindo-se que não diferem as proporções de telespectadores do progra-
ma nas duas comunidades.
Nº na amostra 25 15 40
Nº esperado 20 20 40
Quando há apenas um grau de liberdade associado com o teste qui-quadrado, a menos que
a amostra seja muito grande, o valor calculado de 2 é sistematicamente supervalorizado, devido ao
caráter discreto de dados. O estatístico Frank Yates demonstrou que a seguinte fórmula, que inclui
uma correção de continuidade, é apropriada para 1 grau de liberdade. Quando n ≥ 50, o fator de
correção tem pouco efeito e pode ser desconsiderado. Além disso, não deve ser aplicado a nenhu-
ma casela para qual a diferença entre o valor observado e o valor esperado for menor do que 0,5. A
estatística é dada, então, pela expressão:
2
= (|o –e| – 0,5)2
e
Portanto,
Atividades
1. Qual é a diferença essencial entre os testes qui-quadrado para (i) bondade do ajustamento,
(ii) independência entre variáveis e (iii) homogeneidade de proporções?
2. O governo deseja avaliar a expansão do Programa Bolsa Família em dois estados da Federa-
ção. Para tanto, encomendou uma pesquisa para saber se havia relação entre as opiniões dos
habitantes dos estados com relação à expansão do programa. Os resultados encontrados são
apresentados na tabela a seguir:
A favor 20 19 39
Contra 10 16 26
Total 30 35 65
Sabendo-se que o valor crítico do 2 com = 0,05 e 1 grau de liberdade é igual a 3,84, per-
gunta-se: pode-se afirmar que há independência entre as localizações e a opinião de seus
habitantes? Justifique.
3. Em seu campo de trabalho, encontre uma situação em que poderíamos utilizar o teste qui-
-quadrado para ajudar a resolver uma hipótese acerca da relação entre duas variáveis, ou
testar homogeneidade de duas proporções, ou realizar um teste de bondade de ajustamento.
Anexos
Tabela A
Probabilidade sob a área da curva normal padrão
P(– ≤X≤Z)
f(X)
Z x
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-4,0 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
(Continua)
182 Estatística aplicada às ciências sociais
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
(Continua)
Anexos 183
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
4,0 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000
Fonte: Elaborada pelo autor.
Tabela B
Distribuição “t” de Student
Exemplo: para 19 graus de liberdade, área de 0,05, t = 2,093.
f(X)
-t t x
184 Estatística aplicada às ciências sociais
Bicaudal
f(X)
t x
Fonte: Elaborada pelo autor.
Tabela C
Distribuição qui-quadrado
G.L /
0,990 0,950 0,900 0,500 0,100 0,050 0,025 0,010 0,005
P
(Continua)
186 Estatística aplicada às ciências sociais
G.L /
0,990 0,950 0,900 0,500 0,100 0,050 0,025 0,010 0,005
P
100 70,0650 77,9294 82,3581 99,3341 118,4980 124,3421 129,5613 135,8069 140,1697
110 78,4582 86,7916 91,4710 109,3341 129,3852 135,4802 140,9165 147,4143 151,9482
120 86,9233 95,7046 100,6236 119,3340 140,2326 146,5673 152,2113 158,9500 163,6485
• Artigo 1: OLIVEIRA, Cleane S. de; NETO, Francisco Lotufo. Suicídio entre povos
indígenas: um panorama estatístico brasileiro. Revista Psiquiatria Clínica, v. 30, n. 1,
p. 4-10, 2003. Disponível em: http://www.scielo.br/pdf/rpc/v30n1/20583.pdf. Acesso
em: 7 nov. 2018.
• Artigo 2: MARIZ, Renata. Taxa de suicídio entre indígenas é três vezes maior que a
média nacional. O Globo, 21 set. 2017. Disponível em: https://oglobo.globo.com/so-
ciedade/saude/taxa-de-suicidio-entre-indigenas-tres-vezes-maior-que-media-nacio-
nal-21850401. Acesso em: 8 nov. 2018.
• Artigo 3: SOUZA, Maximiliano Loiola Ponte de; ONETY JR., Ricardo Tadeu da Silva.
Caracterização da morte por suicídio entre indígenas e não indígenas em Roraima,
Brasil, 2009-2013. Revista Epidemiologia e Serviços de Saúde, Brasília, v. 26, n. 4, p. 887-
893, out-dez. 2017. Disponível em: http://www.scielo.br/pdf/ress/v26n4/2237-9622-
ress-26-04-00887.pdf. Acesso em: 8 nov. 2018.
A questão do suicídio já havia sido objeto de estudo de Émile Durkheim, que assinalou sua
ocorrência habitual nas mais variadas sociedades. Isso fez com que o sociólogo o compreen-
desse como um fenômeno normal, devido à sua frequência e incidência regular. O que a
bibliografia acerca do suicídio indígena nos aponta é que a ocorrência desse fenômeno nas
sociedades indígenas é ainda mais frequente e gera proporcionalmente mais problemas, po-
dendo ser compreendida, nos termos de Durkheim, como uma situação patológica. As causas
para esse problema são variadas e envolvem fatores de natureza social, econômica, política,
religiosa e cultural, derivadas da situação de fragilidade e dificuldade de perpetuação e sub-
sistência dessas sociedades.
Porto Alegre – comparativo entre prognóstico, pesquisa de boca de urna e resultados oficiais1:
Ibope TRE
3. Acessar uma publicação qualquer e verificar se na reportagem foi utilizada alguma ferramenta
estatística, conforme solicitado na questão. Tomaremos como exemplo a notícia veicula-
da na página: UNICAMP – Universidade Estadual de Campinas. Anpesq 2005: anuário de
pesquisa. Disponível em: http://www.unicamp.br/anuario/2005/IntroducaoAnuario2005.
Acesso em: 7 nov. 2018.
Exemplo de análise:
• Tabelas e medidas estatísticas
O documento apresenta sete tabelas, permitindo uma comparação entre instituições de
ensino público dos estados de São Paulo, Rio de Janeiro e Rio Grande do Sul, por meio de
indicadores que possibilitam uma avaliação do desenvolvimento da pesquisa nas princi-
pais universidades do país. Há, no entanto, muitas informações que exigiriam mais espa-
ço para discussão. Uma das tabelas, a de número V, é muito carregada de informações e
cores, o que dificulta seu uso para a análise proposta.
• Gráficos
São apresentados três gráficos: dois gráficos de setores e um gráfico de linha. Eles são uti-
lizados corretamente, de acordo com as normas tradicionais de apresentação de gráficos.
Os dois primeiros permitem uma leitura comparativa de dois momentos diferentes, e o
gráfico de linha é de fato o mais adequado para apresentar séries temporais.
É bastante inovador inserir vários gráficos com respostas diferentes em um mesmo gráfico,
o que permite verificar que, apesar da manutenção quase constante do número de pesqui-
sadores, houve um aumento importante nos principais indicadores de desenvolvimento da
pesquisa científica, demonstrado por meio do estudo da evolução do número de disserta-
ções e teses publicadas, de publicações indexadas e de congressos de iniciação científica.
Todos esses indicadores tiveram aumento consistente ao longo do período considerado.
2 Análise de dados
1.
a)
Pesos (em g) Freq.
1000 1 500 13
1500 2 000 15
2000 2 500 8
2500 3 000 10
3000 3 500 3
3500 4 000 1
Total 50
b)
Pesos (em g) Vivos Óbitos Total
1 000 1 500 2 11 13
1 500 2 000 6 9 15
2 000 2 500 5 3 8
2 500 3 000 6 4 10
3 000 3 500 3 0 3
3 500 4 000 1 0 1
Total 23 27 50
Baixo peso
13 (56,5%) 23 (63,9%) 36
1000 2500
Total 23 27 50
c) A percentagem de óbitos para crianças com baixo peso (63,9%) é maior do que para
crianças em condições normais de peso (28,6%). Concluímos que, apesar de não se saber
exatamente qual é a causa de óbito (desconforto idiopático), esse desconforto provoca
baixo peso, causando uma maior percentagem de óbitos em recém-nascidos.
190 Estatística aplicada às ciências sociais
2.
60– 71 10 8% 22,5%
30%
25%
Percentagem de
20% homens
15% Percentagem de
mulheres
10%
5%
0%
1 2 3 4 5
A observação das frequências absolutas mostra que o número de homens condenados por
embriaguez é bastante maior do que o número de mulheres (903 casos contra 44). Quando
se observam os percentuais, verifica-se que a distribuição das condenações de homens é
mais uniforme, variando de 20% a 30% em praticamente todas as faixas, menos na dos ho-
mens acima de 60 anos. Já para as mulheres não há essa uniformidade.
Quando comparadas as proporções de homens e mulheres por faixa etária, o destaque se
dá para mulheres acima de 60 anos, que têm maior condenação do que os homens da mes-
ma faixa etária. A diferença para a percentagem de condenação de mulheres na faixa de 30
a 39 anos não é tão significativa: 7 pontos percentuais. Vale observar que a percentagem
de condenação para mulheres mais jovens (até 29 anos) é muito menor do que aquela para
os homens.
Gabarito 191
3.
Altura (em metros) Freq. Perc.
Altura de mulheres:
1,40 – 1,45
1,45 – 1,50
1,50 – 1,55
1,55 – 1,60
Freq.
1,60 – 1,65
1,65 – 1,70
1,70 – 1,75
1,75 – 1,80
Freq.
Alturas
As alturas das mulheres consideradas concentram-se entre 1,55 m e 1,65 m, com cerca de
61,3% das mulheres. Quanto mais afastadas do centro, menor é o número de mulheres. A
distribuição é relativamente simétrica em torno dessas classes centrais, tendo pouquíssimas
mulheres nas classes extremas: uma de 1,40 m a 1,45 m e quatro de 1,70 m a 1,75 m.
x min. x max.
192 Estatística aplicada às ciências sociais
Município Taxa
Blumenau 163,3
Lages 173,6
Criciúma 188,8
Tubarão 205,8
Chapecó 245,7
Joinville 343,1
Palhoça 437,2
Itajaí 448,7
Florianópolis 569,9
Xmin. = 61,5
Xmax. = 797,2
Como são 11 municípios, a posição da mediana será o 6º elemento ((11+1)/2).
Mediana = 245,7.
A posição do Quartil 1 será 1(n+1)/4 = 12/4 = 3, portanto Q1 = 173,6.
A posição do Quartil 3 será 3(n+1)/4 = 3(12)/4 = 9, portanto Q3 = 448,7.
Assim, o esquema de cinco números para as taxas dos municípios será:
61,5 797,2
3. O box-plot corresponde à figura a seguir e haverá outliers se existir algum valor fora do in-
tervalo (Q1 – 1,5 dq; Q3 + 1,5 dq).
Q1–1,5dq Q3+1,5dq
Q1 Mediana Q2
Assim:
dq = Q3 – Q1 = 448,7 – 173,6 – 275,1
1,5 dq = 412,65
0 831,65
n–1
(3.837 – 3.276)2 + (3.380 – 3.276)2 ... (Xn – 3.276)2
S2 = VAR(X) = = 278.856,9
44 – 1
Para encontrar o desvio-padrão, basta extrair a raiz quadrada da variância, obtendo o valor
de S = 528,069 g.
Por fim, para calcular o coeficiente de variação, utilizamos a fórmula:
528,069
C.V. = S .100% e encontramos C.V. = .100% = 16,12%.
X 3276
Um coeficiente de variação de 16,12% revela que os dados são bastante homogêneos.
5 Técnicas de amostragem
1. No processo de amostragem estratificada proporcional, os elementos dos estratos são sor-
teados. No caso de cotas, eles são escolhidos pelo entrevistador. No restante, os processos
são idênticos.
3. Esse é um processo de amostragem sistemática. A cada dez famílias pesquisadas, uma res-
ponde o questionário completo.
2. Quanto maior for o tamanho da amostra, mais cara será a pesquisa. Para baratear o trabalho
de pesquisa, devemos aumentar a margem de erro ou diminuir o nível de confiança.
n’ = z.
2
d
22 x 0,25 1
n’ = = = 1.111
0,03 2
0,0009
Com correção para população finita:
n = n’ . (N – n)
(N – 1)
São Paulo:
Observamos que não há grande diferença entre os resultados obtidos, porque o valor
356.796 já pode ser considerado muito grande, próximo ao infinito, para as considerações
da estatística.
Gabarito 195
O conjunto definido, que pode ser chamado de C, é composto por Carmen e Carlos, e seu
cardinal é igual a 1. Assim, #C = 1.
Então, a probabilidade de C será dada por:
#C 1
P (C) = =
#S 30
Portanto, a P(C) é um trinta avos, ou 0,03, ou 3%.
2. Calcular as probabilidades marginais dividindo cada valor total pelo total geral, conforme
mostra a tabela a seguir:
A 489/967
B 478/967
A 0,51
B 0,49
Município Total
A 0,51
B 0,49
Total 1,00
Idade Total
15-24 0,06
25-34 0,22
35-44 0,21
45-54 0,16
55-64 0,16
65 ou+ 0,19
Total 1,00
196 Estatística aplicada às ciências sociais
Idade central
Idade P(X = x) XP(X = x)
da classe (X)
8 Inferência
1. Quando temos σ conhecido, utilizamos a distribuição normal para a construção do intervalo
de confiança para a média:
P (X – z. X
X + z. X) = 1 –
Em que, =
n
Quando σ não é conhecido, utilizamos S no seu lugar e a distribuição “t” de Student com n–1
graus de liberdade, em que n é o tamanho da amostra.
P (X – t.SX X + t.SX) = 1 –
S
Sendo: SX =
n
2. Pr (P– z. P
p P + z. ) = 1 –P
840
P= = 0,42
2000
Z = 1,96
pq 0,5 x 0,5
P
= = = 0,01118
n 2000
Pr(0,42 – (1,96)(0,01118) P 0,42 + (1,96)(0,01118)) = 1 – 0,05
3. Estatística do teste:
– –
z= X = X
X
n
70 – 65 5
z= = 70 – 65 = 5 = = 1,25
X 32 32 4
64 8
O valor de p-valor associado a z = 1,25 é 0,89. Então, podemos rejeitar H0 de que a média
seja igual a R$ 65,00 com 89% de confiança, mas não podemos rejeitar com 90% de con-
fiança. Logo, concluímos que a média de compras dos clientes não é maior do que R$ 65,00.
9 Estudos demográficos
1. A demografia pode auxiliar no estudo dos oito objetivos, mas aquele que está diretamente
relacionado ao tema é o Objetivo 4: reduzir a mortalidade infantil, já que ela é estudada na
área de taxas demográficas.
2. Países com maior taxa de dependência têm a população mais jovem e mais idosa em pro-
porção maior com relação à população economicamente ativa. Países com essa caracterís-
tica possuem pirâmides etárias mais achatadas na base e com base próxima ao cume, que
correspondem a países mais desenvolvidos. Portanto, os países mais desenvolvidos e com
população mais estabilizada precisam adequar suas políticas previdenciárias de tal forma
que a população economicamente ativa possa sustentar os que já se aposentaram.
3. O modelo aritmético supõe que a taxa de crescimento seja constante, e isso não se verifica
na prática a longo prazo. Por outro lado, o modelo de progressão geométrico supõe que
a população cresce rapidamente e sem limites. Embora o crescimento populacional esteja
mais relacionado a taxas crescentes – portanto, geométricas – a tendência mundial é de que,
à medida que os países vão alcançando maior desenvolvimento, haja estabilização do cres-
cimento em algum limite. Portanto, o modelo mais adequado é o do crescimento logístico.
• IDH da longevidade:
EV – 25 70 – 25 55
L= = = = 0,916667
60 60 60
Valor considerado alto. A população tem expectativa de vida de 70 anos.
• IDH da educação:
2 (0,91) + 0,85
L = 2TA + TE = = 0,89
3 3
Valor também considerado alto, por ser maior do que 0,80.
• IDH da renda:
log10 PIBpc – 2 4,3266 – 2
L= = = 0,8941
2,60260 2,60260
Valor considerado alto para a média de rendimentos de toda a população.
IDH total:
a) longevidade;
b) educação;
c) renda.
Relação direta:
a) A longevidade está relacionada aos objetivos 4 e 5.
b) A educação está relacionada ao objetivo 2.
c) A renda está relacionada ao objetivo 1.
O coeficiente linear “a” é o valor de Y quando X = 0, e o coeficiente angular “b” diz qual é
a variação de Y quando X tem variação de uma unidade. O valor de b = 1 significa que a
variação de uma unidade de X corresponderá a uma variação de uma unidade de Y . Nesse
caso, o ângulo que a reta faz com o eixo X é de 45º, isso porque a tangente de 45º é igual a 1.
Gabarito 199
2. Se o coeficiente de correlação “r” é igual a 0,8, o seu quadrado é r2 = 0,64, que é o coeficiente
de explicação. Assim, a variação de Y é explicada em 64% por X. Os outros 36% da variação de
Y são explicados por outras variáveis.
2. A tabela representada é a dos valores observados. A tabela dos valores esperados é dada
a seguir:
Total 30 35 65
A favor 18 21 39
Contra 12 14 26
Total 30 35 65
Como o valor calculado (1,0317) é menor do que o valor crítico (3,84), não podemos rejeitar
a hipótese da igualdade. Logo, não podemos dizer que as percentagens de elementos contra
e a favor sejam diferentes nos dois estados.
BIOGRAFÍAS Y VIDAS – La enciclopedia biográfica en línea. Émile Durkheim. Disponível em: https://
www.biografiasyvidas.com/biografia/d/durkheim.htm. Acesso em: 31 out. 2018.
BRADLEY, W.; James; SHAEFER, Kurt. The uses and misuses of data and models: the mathematization of
the human sciences. Thousand Oaks: Sage Publications, 1998.
BRASIL. Banco Central do Brasil. Índices de preços no Brasil. Série Perguntas mais frequentes.
Brasília, DF, mar. 2016. Disponível em: https://www.bcb.gov.br/conteudo/home-ptbr/FAQs/FAQ%20
02-%C3%8Dndices%20de%20Pre%C3%A7os%20no%20Brasil.pdf. Acesso em: 23 nov. 2018.
BRUESEKE, Franz. A modernidade técnica. Revista Brasileira de Ciências Sociais, v. 17, n. 49,
p. 135-144, 2002.
CORRÊA, Marcello. Brasil é o 10° país mais desigual do mundo. O Globo, 28 jun. 2018. Disponível em:
https://oglobo.globo.com/economia/brasil-o-10-pais-mais-desigual-do-mundo-21094828. Acesso em:
6 nov. 2018.
DIAS, Cláudia A. Grupo focal: técnica de coleta de dados em pesquisas qualitativas. Informação e sociedade,
João Pessoa: UFPB, v. 10, n. 2, 2000.
DURKHEIM, Émile. Da divisão social do trabalho. São Paulo: Martins Fontes, 2008.
DURKHEIM, Émile. As regras do método sociológico. São Paulo: Martin Claret, 2001.
EBC. Agência Brasil. ONU: crise econômica emperra desenvolvimento humano no Brasil. 21 mar. 2017.
Disponível em: http://agenciabrasil.ebc.com.br/direitos-humanos/noticia/2017-03/crise-economica-
emperra-desenvolvimento-humano-no-brasil. Acesso em: 6 nov. 2018.
GALLUP. Analytics e advice about everything that matters. Disponível em: https://www.gallup.com/
home.aspx. Acesso em: 25 out. 2018.
HAND, David J. et al. A handbook of small data sets. London: Chapman & Hall, 1994.
IBGE – Instituto Brasileiro de Geografia e Estatística. Agência de notícias. Projeção da População 2018:
número de habitantes do país deve parar de crescer em 2047. 1º ago. 2018. Disponível em: https://agencia
denoticias.ibge.gov.br/agencia-sala-de-imprensa/2013-agencia-de-noticias/releases/21837-projecao-
da-populacao-2018-numero-de-habitantes-do-pais-deve-parar-de-crescer-em-2047. Acesso em: 31 out. 2018a.
202 Estatística aplicada às ciências sociais
IBGE – Instituto Brasileiro de Geografia e Estatística. Nossos sites. Disponível em: https://www.ibge.gov.br/
nossos-sites.html. Acesso em: 26 out. 2018b.
IBGE – Instituto Brasileiro de Geografia e Estatística. Estimativas de população: tabelas 2018. Disponível em:
https://www.ibge.gov.br/estatisticas-novoportal/sociais/populacao/9103-estimativas-de-populacao.html?=
&t=resultados. Acesso em: 31 out. 2018c.
IDH do Brasil segue puxado por taxa de alfabetização. BBC Brasil, Brasília, 18 dez. 2008. Disponível em:
https://www.bbc.com/portuguese/reporterbbc/story/2008/12/081218_idhbrasil_ac.shtml. Acesso em: 7 nov. 2018.
IDH 2018: Brasil ocupa a 79.ª posição. Veja a lista completa. UOL notícias internacional, São Paulo, 14 set. 2018.
Disponível em: https://noticias.uol.com.br/internacional/ultimas-noticias/2018/09/14/idh-2018-brasil-ocupa
-a-79-posicao-veja-a-lista-completa.htm. Acesso em: 23 nov. 2018.
MARIZ, Renata. Taxa de suicídio entre indígenas é três vezes maior que a média nacional. O Globo, 21
set. 2017. Disponível em: https://oglobo.globo.com/sociedade/saude/taxa-de-suicidio-entre-indigenas-tres-
vezes-maior-que-media-nacional-21850401. Acesso em: 8 nov. 2018.
MATOSO, Filipe. Em 79º lugar, Brasil estaciona no ranking de desenvolvimento humano da ONU. G1,
Brasília, 21 mar. 2017. Disponível em: https://g1.globo.com/mundo/noticia/em-79-lugar-brasil-estaciona-
-no-ranking-de-desenvolvimento-humano-da-onu.ghtml. Acesso em: 7 nov. 2018.
OBSERVATÓRIO das desigualdades. Coeficiente de Gini: valor de 2016 é o mais baixo num período de década
e meia. 19 jun. 2018. Disponível em: https://observatorio-das-desigualdades.com/2018/04/17/coeficiente-
de-gini/. Acesso em: 6 nov. 2018.
OLIVEIRA, Cleane S. de; NETO, Francisco Lotufo. Suicídio entre povos indígenas: um panorama estatístico
brasileiro. Disponível em: http://www.scielo.br/pdf/rpc/v30n1/20583.pdf. Acesso em: 7 nov. 2018.
ONUBR – Nações Unidas do Brasil. Os objetivos de desenvolvimento do milênio. 22 jun. 2010. Disponível em:
https://nacoesunidas.org/os-oito-odms/. Acesso em: 8 nov. 2018.
ONUBR – Nações Unidas do Brasil. Brasil está entre os cinco países mais desiguais, diz estudo de centro da ONU.
29 jan. 2018. Disponível em: https://nacoesunidas.org/brasil-esta-entre-os-cinco-paises-mais-desiguais-diz-
estudo-de-centro-da-onu/. Acesso em: 18 out. 2018.
PACHECO, Hellen; JATENE, Íris. Multicampi social prevê melhorias na qualidade de vida no Pará. 17 abr.
2008. Disponível em: https://ww2.ufpa.br/imprensa/noticia.php?cod=1954. Acesso em: 31 out. 2018.
PARANÁ (Estado). Secretaria da Educação do Paraná. Perfil biográfico de Émile Durkheim (1858-1917).
Disponível em: http://www.sociologia.seed.pr.gov.br/modules/conteudo/conteudo.php?conteudo=207.
Acesso em: 10 out. 2018.
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. Objetivos de desenvolvimento do
milênio. Disponível em: www.pnud.org.br/odm/objetivo_4. Acesso em: 1º dez. 2008.
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. ODS: objetivos de desenvolvimento
sustentável. Disponível em: http://www.br.undp.org/content/brazil/pt/home/sustainable-development-goals.
html. Acesso em: 31 out. 2018a.
Referências 203
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. O que é o relatório de desenvolvi-
mento humano. Disponível em: http://www.br.undp.org/content/brazil/pt/home/idh0/conceitos/o-que
-e-o-rdh.html. Acesso em: 5 nov. 2018b.
PNUD Brasil – Programa das Nações Unidas para o Desenvolvimento. Relatórios de desenvolvimento
humano globais. Disponível em: http://www.br.undp.org/content/brazil/pt/home/idh0/relatorios-de-
desenvolvimento-humano/rdhs-globais.html. Acesso em: 7 nov. 2018c.
SANTA CATARINA (Estado). Secretaria de Estado da Segurança Pública de Santa Catarina. Roubo em Santa
Catarina. 2 jan. 2018. Disponível em: http://www.ssp.sc.gov.br/files/6.-ROUBO---SANTA-CATARINA-2-1.
pdf. Acesso em: 29 nov. 2018.
SCHLINDWEIN, Manoel. Desigualdade: quando chegaremos lá? IPEA: desafios do desenvolvimento hu-
mano, Brasília, ano 5, ed. 41, 16 mar. 2008. Disponível em: http://desafios.ipea.gov.br/index.php?option=
com_content&view=article&id=1183:reportagens-materias&Itemid=39. Acesso em: 6 nov. 2018.
SOUZA, Maximiliano Loiola Ponte de; ONETY JR., Ricardo Tadeu da Silva. Caracterização da morte por
suicídio entre indígenas e não indígenas em Roraima, Brasil, 2009-2013. Revista Epidemiologia e Serviços de
Saúde, Brasília, v. 26, n. 4, p. 887-893, out-dez. 2017. Disponível em: http://www.scielo.br/pdf/ress/v26n4/
2237-9622-ress-26-04-00887.pdf. Acesso em: 8 nov. 2018.
TEIXEIRA, Ricardo Rodrigues. Três fórmulas para compreender “O suicídio” de Durkheim. Interface –
Comunicação, Saúde, Educação, v. 6, n. 11, p. 143-52, ago. 2002.
TURATO, Egberto Ribeiro. Métodos qualitativos e quantitativos na área da saúde: definições, diferenças e
seus objetos de pesquisa. Revista de Saúde Pública, São Paulo, p. 507-514, v. 39, n. 3, jun. 2005. Disponível
em: http://www.scielo.br/pdf/rsp/v39n3/24808.pdf. Acesso em: 7 nov. 2018.
UFPA – Universidade Federal do Pará. Frases: estatística – matemática. 18 jul. 2018. Disponível em: http://
www.ufpa.br/dicas/cartao/fra-esta.html. Acesso em: 31 out. 2018.
UNICAMP – Universidade Estadual de Campinas. ANPESQ 2005: anuário de pesquisa. Disponível em:
http://www.unicamp.br/anuario/2005/IntroducaoAnuario2005. Acesso em: 7 nov.
VIDIGAL, Cláudia Bueno Rocha. Índice de bem-estar econômico: uma proposta para os estados brasilei-
ros. 2011. 123 f. Dissertação (Mestrado em Ciências) – Universidade de São Paulo – USP, São Paulo, 2011.
Disponível em: www.teses.usp.br/teses/disponiveis/11/11132/.../Claudia_Bueno_Rocha_Vidigal.pdf. Acesso
em: 23 nov. 2018.
ESTATÍSTICA APLICADA ÀS CIÊNCIAS SOCIAIS
Trabalhar com métodos quantitativos para a compreensão de fenômenos
econômicos e notadamente de fenômenos sociais não significa absolu-
tamente diminuir as discussões a um patamar reducionista ao buscar
equacionar esses fenômenos por meio de expressões matemáticas.
A estatística deve ser compreendida em suas exatas potencialidades
e limitações. A sua proposta é a de ser uma grande auxiliar quando os
fenômenos a serem investigados podem ser expressos mediante alguma
forma de quantificação. Ela não se basta nem deve pretender substituir
outras ferramentas analíticas tão próprias das ciências humanas; o que
ela pode desejar é ser seu complemento, e apenas eventualmente.
57423
9 788538 764489