Você está na página 1de 64

ESTATÍSTICA DESCRITIVA

Prof. MSc. Marcos Antônio Resende Miranda

1
1 - Introdução
Estuda-se estatística para aplicar seus
conceitos como auxílio nas tomadas de
decisão diante de incertezas, justificando
cientificamente as decisões.
Os princípios estatísticos são utilizados
em uma grande variedade de situações –
no governo, nos negócios e na indústria,
bem como no âmbito das ciências sociais,
biológicas e físicas.
2
Estatística é a ciência ou método científico
que estuda os fenômenos multicausais,
coletivos ou de massa e procura inferir as
leis que os mesmos obedecem.

Método estatístico é um processo para se


obter, apresentar e analisar características
ou valores numéricos para uma melhor
tomada de decisão em situações de
incerteza. Os passos da metodologia
estatística são os seguintes:
3
 Definição cuidadosa do problema.
 Formulação de um plano para coleta das
unidades de observação.
 Coleta, resumo e apresentação das
unidades de observação ou de seus
valores numéricos.
 Análise dos resultados.
 Divulgação de relatório com as conclusões,
de tal modo que estas sejam facilmente
entendidas por quem as for usar na
tomada de decisões.
4
Em geral, é aceita a divisão da estatística
em dois grandes grupos: estatística
descritiva indutiva.
Descritiva: corresponde aos procedimentos
relacionados com a coleta, elaboração,
tabulação, análise, interpretação e
apresentação dos dados.

5
Isto é, inclui as técnicas que dizem respeito
à sintetização e à descrição de dados
numéricos. Tais métodos podem ser gráficos
e envolvem a utilização de recursos
computacionais.
O objetivo da estatística descritiva é tornar as
coisas mais fáceis de entender, relatar e
discutir.

6
Indutiva (ou inferencial): parte de uma ou
mais amostras (subconjuntos da população)
e conclui sobre a população. Utiliza técnicas
como a teoria das probabilidades, inferência
estatística, amostragem.
Exemplos de utilização: Pesquisas na Educação,
Pesquisa de Mercado, Pesquisa de opinião pública,
Ensaios de medicamentos e em praticamente todo
experimento.
A inferência estatística procura com base nos
dados amostrais tirar conclusões sobre a população.
7
Com maior freqüência utilizamos o estudo da
amostra do que da população, não só por
serem menos dispendiosas e consumirem
menos tempo no processamento dos dados,
mas também porque muitas vezes não
dispomos de todos os elementos da
população.

8
O esquema a seguir tente sintetizar as etapas
de uma pesquisa estatística:

Fig. 1.1 – Etapas de uma pesquisa estatística


9
Definições:
População: coleção completa de todos os
elementos (valores, pessoas, medidas,...) a
serem estudados.
Amostra: subcoleção de elementos extraídos
da população.
Censo: coleção de dados relativos a todos os
elementos de uma população.

10
Amostragem: coleção de dados relativos a
elementos de uma amostra.
Parâmetro: medida numérica que descreve
uma característica de uma população
Estatística: medida numérica que descreve
uma característica de uma amostra

11
Exemplos:

i) Deseja-se conhecer o perfil sócio-


econômico dos pais dos alunos de uma
escola.
População ou universo: todos os pais dos
alunos.
Características: perfil sócio-econômico.

12
ii) Deseja-se conhecer o consumo de
energia elétrica em MWh nas residências
da cidade de Teófilo Otoni no ano de
2009.
População ou universo: todos as
residências que estavam ligadas a rede
elétrica em Teófilo Otoni , em 2009.
Características: X = consumo anual de
energia elétrica em MWh.

13
iii)Deseja-se saber se nas indústrias
situadas no Estado de Minas Gerais, em
2009, existia algum tipo de controle
ambiental.
População ou universo: indústrias situadas
no Estado de Minas Gerais em 2009.
Característica: X = existência ou não de
algum tipo de controle ambiental na
indústria.

14
iv) Estudo sobre a precipitação pluviométrica
na Região Sudeste no ano 2009.
População ou universo: área referente à
Região Sudeste.
Característica: X = precipitação pluviométrica.

15
Populações finitas e infinitas: Quanto ao
número de elementos, as populações podem
ser classificadas em finita ou infinita,
dependendo do número de elementos que a
compõe.
Exemplos :
i) População finita: empresas do Pólo
Petroquímico de Camaçari.
ii) População infinita: as pressões
atmosféricas ocorridas nos diversos pontos do
Continente em determinado momento. 16
Em geral, como os universos são grandes,
investigar todos os elementos populacionais
para determinarmos a característica
necessita muito tempo, e/ou o custo é
elevado, e/ou o processo de investigação
leva a destruição do elemento observado,
ou, como no caso de populações infinitas, é
impossível observar a totalidade da
população. Assim, estudar parte da
população constitui-se um aspecto
fundamental da Estatística (amostra).
17
Amostragem

O objetivo da amostragem é permitir fazer


inferências sobre uma população após
Inspeção de apenas parte dela. Fatores como
custo, tempo, ensaios destrutivos e populações
infinitas tornam a amostragem preferível a um
estudo completo (censo).
Os principais tipos de amostragem utilizados
são os probabilísticos, onde todos os
indivíduos da população têm a mesma chance
de serem selecionados.
18
Os planos de amostragem probabilística
são delineados de tal modo que se conhece
todas as combinações amostrais possíveis e
suas probabilidades, podendo-se então
determinar o erro amostral.
Os métodos mais comuns de amostragem
probabilística são:

19
 Amostragem aleatória simples: os elementos
de uma população são escolhidos de tal forma
que todos tenham a mesma chance de serem
escolhidos. Pode-se utilizar uma tabela de
números aleatórios ou um programa de
geração de números aleatórios.
 Amostragem estratificada: subdivide-se a

população em, no mínimo, dois estratos


(subpopulações) que compartilham a mesma
característica e em seguida escolhe-se 20
uma amostra de cada. Exemplo: homens e
mulheres.
 Amostragem sistemática: escolhe-se um

ponto de partida e então, sistematicamente,


selecionam-se os outros. Por exemplo: o 3°,
403°, 803°, 1203°,... Indivíduos.
 Amostragem por conglomerados: divide-se a

população em conglomerados (áreas), em


seguida sorteiam-se algumas áreas e analisam-
se todos os elementos dos conglomerados
escolhidos. Por exemplo: bairros. 21
22
23
24
25
Amostragens não probabilísticas são
utilizadas quando a população em estudo é
muito pequena ou de difícil obtenção. Neste
caso a análise de uma amostra poderia
causar distorções. Uma pessoa familiarizada
com a população pode indicar melhor as
unidades amostrais. Este tipo de amostragem
não permite avaliar o erro amostral. EX:
doença rara.
26
Tipos de Variáveis

A característica que nos interessa analisar


recebe o nome de variável.
As características ou variáveis podem ser
divididas em dois tipos: qualitativas e
quantitativas.

27
QUALITATIVA
 NOMINAL (SEXO, COR DOS OLHOS...)

 ORDINAL (CLASSE SOCIAL, GRAU DE


INSTRUÇÃO...)

QUANTITATIVA
 CONTÍNUA (PESO, ALTURA...)
 DISCRETA (NÚMERO DE FILHOS, NÚMERO
DE CARROS...) 28
Variáveis qualitativas - quando o resultado da
observação é apresentado na forma de
qualidade ou atributo. Exemplos: sexo; estado
civil; grau de escolaridade; etc.
Variáveis quantitativas - quando o resultado
da observação é um número, decorrente de
um processo de mensuração ou contagem.
Exemplos: número de filhos; salário mensal;
altura; peso; idade; tamanho da família; etc.
29
Para resumir as informações levantadas
durante uma pesquisa usaremos a técnica e a
representação mais apropriada, a depender do
tipo de variável que estamos analisando.
N a tu re z a d o s D a d o s

V a riá v e is

Q u a n tita tiv a s Q u a lita tiv a s

D is c re ta C o n tín u a A trib u to s / c a te g o ria s

C o n ta g e n s M e d id a s E x : g ra u d e e s c o la rid a d e

E x : n ú m e ro d e h a b ita n te s d e u m a c id a d e E x : re n d a p e r c a p ita d e u m a c id a d e

Fig. 1.2 – Natureza dos dados 30


Apresentação Gráfica de Dados
Após a apuração, há a necessidade de
dispor os dados e os resultados obtidos a partir
deles em uma forma ordenada e resumida, a
fim de auxiliar o pesquisador na análise e
facilitar a compreensão das conclusões
apresentadas ao leitor. Os dados e os
resultados são então apresentados na forma
de tabelas.
Uma tabela possui elementos essenciais, tais
como:
31
 Título – é obrigatório. Deve ser colocado na
parte superior da tabela.
 Corpo da tabela – é o conjunto de linhas e
colunas onde se encontram as informações
sobre o fato observado.
 Cabeçalho – é a parte superior da tabela,
onde se especifica o conteúdo de cada
coluna.
 Coluna indicadora – é a parte da tabela em
que se especifica o conteúdo de cada linha.
 Fonte – é a indicação da entidade
responsável pelo fornecimento ou elaboração
dos dados. É colocado no fim da tabela. 32
Tab. 1.1: Ranking das torcidas no futebol brasileiro

Clubes Porcentagem de
torcedores (%)
A 15
B 11
C 7
D 6
E 5
F 4
G 4
H 3
I 2
Fonte: Rede Globo, 06 de jan. de 2004
33
Os dados estatísticos, apresentados em
tabelas, também podem ser expostos em
gráficos. Desde que não haja necessidade de
grande precisão, os gráficos dão, melhor do
que as tabelas, visão de tendências e ajudam
a interpretar um fenômeno.

34
Tabelas, gráficos e medidas podem ser
utilizados para descrever ou explorar um
conjunto de dados, ou comparar dois ou mais
conjuntos.
 Gráfico de Barras: usado para apresentar

séries cronológicas, geográficas e categóricas.


É mais comum a apresentação das barras em
posição vertical, conforme representado na
Fig. 1.8.
35
No entanto, as barras em posição horizontal
facilitam a identificação das categorias,
principalmente nos casos em que essas
categorias têm nomes muito longos.

 Gráfico de Barras Vertical: facilidade de


identificação das categorias, conforme
representado na Fig. 1.9.

36
Ranking das torcidas
Ranking de torcedores
I
16
H
14
G
12
F

Porcentagemdetorcedores
10
Clubes

E 8

(%)
D 6
C 4
B 2
A 0
A B C D E F G H I
0 5 10 15 20
Clubes
Porcentagem de torcedores (%)

Fonte: não identificada Fonte:


Fig. 1.9Rede Globo,
– Gráfico de06 de jan. de 2004
barras

Fig. 1.8 – Gráfico de barras vertical

37
 Gráfico de Setores: usado para comparar
proporções, conforme representado pela Fig.
1.10.

 Gráfico de Linhas: usado para apresentar


séries cronológicas, conforme representado
pela Fig. 1.11.

38
Os brasileiros de férias no exterior
Consumo de refrigerantes

M ilh ões d e viajan tes


8%
5
10% Coca-Cola 4 4,2

38% Guaraná 3 2,9 2,9


Antártica 2 2,3
Fanta 1,7 1,9
18% 1
Sprite
0
Outros 1 2 3 4 5 6
Ano
26%

Fonte: não identificada Fonte: Revista Veja, 14 de jan. de 2004


Fig. 1.10 – Gráfico de setor Fig. 1.11 – Gráfico de linhas

Gráficos Comparativos: são desenhados dois


gráficos, lado a lado, para melhor estabelecer
a comparação de um fenômeno, conforme
representado na Fig. 1.12.
39
As universidades e o cumprimento da LDB

100,00%
Situações das Instituições:
90,00%
1 – Com ao menos 1/3 do corpo docente
80,00%
trabalhando em regime integral.
70,00%
2 - Com ao menos 1/3 do corpo docente com
Porcentagem

60,00%
50,00%
título de mestre ou doutor
3 – Têm menos de três cursos de pós-graduação
40,00%
Privadas recomendados pela Capes
30,00%
20,00% Públicas
10,00%
Total
0,00%
1 2 3

Situação das Instituições

Fonte: Folha de São Paulo, 12 de jan. de 2004


Fig. 1.12 – Gráfico comparativo

40
Exercícios.
1. Identifique cada número como discreto ou
contínuo.
a) Cada cigarro Camel tem 16,13 mg de
Alcatrão.
b) O altímetro de um avião da Varig indica
uma altitude de 21.359 pés.
c) Uma pesquisa efetuada com 1015
pessoas indica que 40 delas são
assinantes de um serviço de informação
on-line.
41
d) O tempo total gasto anualmente por um
motorista de táxi de Nova York ao dar
passagem a pedestres é de 2367
segundos.
 e) De 1000 consumidores pesquisados,
930 reconheceram a marca da “Coca-
Cola”.
 f) Apresente dois exemplos de dados
discretos ou contínuos de sua empresa /
pesquisa.

42
2. Uma pessoa foi encarregada de pesquisar
o reconhecimento da marca Nike, devendo
contactar por telefone 1500 consumidores.
Por que razão é incorreta a utilização de
listas telefônicas como população para
fornecer a amostra?

43
3. Um relatório patrocinado pela Florida Citrus
Comission concluiu que os níveis de
colesterol podem ser reduzidos mediante
ingestão de produtos cítricos. Por que razão a
conclusão poderia ser suspeita?

4. Identifique o tipo de amostragem utilizado:


a) Um psicólogo de uma Universidade
seleciona 12 homens e 12 mulheres de cada
uma das quatro turmas de inglês. 44
b) Um cabo eleitoral escreve o nome de cada
vereador da cidade, em cartões separados,
mistura-se e extrai 3 nomes.

c) Um pesquisador médico da USP entrevista


todos os portadores de leucemia em cada um
dos 20 hospitais selecionados aleatoriamente.

d) A empresa Sony seleciona cada 200º CD de


sua linha de produção e faz um teste de
qualidade rigoroso. 45
e) Um professor seleciona 15% de
mulheres e 15% de homens de uma
turma para responder a uma pergunta.

f) A supervisora escolhe dentre os 28


professores, 3 para representar a
escola em um evento na cidade.

46
5. Uma população se encontra dividida em
três estratos, com tamanhos, respectivamente,
A = 80, B = 120 e C = 60. Ao se realizar uma
amostragem estratificada proporcional, 12
elementos da amostra foram retirados do
primeiro estrato. Qual é o número de
elementos da amostra?

47
6. Uma amostragem entre os moradores de
uma cidade é realizada da seguinte forma: em
cada bairro, sorteia-se um certo número de
quarteirões proporcional à área do bairro; de
cada quarteirão, são sorteadas cinco
residências, cujos moradores são entrevistados.
a) Essa amostra será representativa da
população ou poderá apresentar algum vício?
b) Que tipo de amostragem foram usados
no procedimento? Justifique.
48
7. Discuta sobre o planejamento de um
experimento enfatizando a importância dos
métodos de boa amostragem.

8. (ENEM/2006) Uma pesquisa de opinião foi


realizada para avaliar os níveis de audiência
de alguns canais de televisão, entre 20h e
21h, durante uma determinada noite. Os
resultados obtidos estão representados no
gráfico de barras abaixo. 49
Nº de residências
100

80

60

40

20

0 A B C D nenhum

Fig. 1.13 - Nº de residências ligadas em um determinado canal de TV, entre 20h e 21h, durante uma noite.

I) O número de residências atingidas nessa


pesquisa foi aproximadamente de:

a) 100 b) 135 c) 150 d) 200 e) 220


50
II) A porcentagem de entrevistados que
declararam estar assistindo ao canal B é
aproximadamente:
a) 15% b) 20% c) 22% d) 27% e) 30%

51
9. O quadro abaixo apresenta o número de novos
casos de AIDS notificados anualmente no Brasil no
período considerado:
20.000

18.000

16.000

14.000

12.000

10.000
1991 1992 1993 1994 1995 1996 1997

Fig. 1.14 - Número de novos casos de AIDS notificados anualmente no Brasil

52
As informações contidas no gráfico permitem
concluir corretamente que, no período
considerado:
a)a partir de 1997, certamente caiu o número de
novos casos de aidéticos;
b)o número aproximado de aidéticos no país,
em 1997, era de 112.000;
c)a maior taxa de variação no número de
aidéticos ocorreu em 1996;
d)a maior taxa de variação no número de
aidéticos ocorreu em 1992;
e)o número máximo de aidéticos ocorreu em
1996. 53
2. REPRESENTAÇÃO GRÁFICA E DISTRIBUIÇÃO
DE FREQÜÊNCIA
2.1 – Introdução
Ao estudarmos grandes conjuntos de dados, é
conveniente organizá-los e resumi-los, construindo
uma tabela de freqüências. A título de ilustração,
considere o exemplo a seguir, de dados brutos,
relativo ao tempo de parada(em minutos) de uma
máquina para manutenção (Tab. 2.1).
A construção de uma distribuição de freqüência
consiste na elaboração de classes a partir de
intervalos, fixando um número adequado de classes.
54
Tab. 2.1 - Tempo de parada (em minutos) de uma
máquina para manutenção

7 3 4 9 5
8 5 3 8 7
9 3 1 9 9
5 7 7 10 3
4 8 8 8 7
8 8 9 3 8
6 10 7 7 9
9 9 7 8 1

55
O primeiro procedimento a ser tomado para a
elaboração de uma distribuição de
freqüências de uma variável contínua consiste
na ordenação dos dados (rol), para permitir
uma melhor manipulação (Tab. 2.2).
Tab. 2.2 - Tempo de parada (em minutos) de uma máquina para
manutenção
1 4 7 8 9
1 5 7 8 9
3 5 7 8 9
3 5 7 8 9
3 6 7 8 9
3 7 8 8 9
3 7 8 9 10
4 7 8 9 10
56
2.2 – Distribuição de Freqüências
A precisão de medida corresponde ao
menor valor detectável pelo instrumento ou
procedimento de medida empregado. No
exemplo dos tempos de parada, a precisão
de medida é x = 1. Deve-se atentar que os
valores presentes no conjunto de dados não
são exatos, mas carregam alguma inexatidão
devido à precisão de medida. Assim, um valor
de 5 não representa necessariamente uma
nota de exatamente 5, mas sim uma nota que
pode estar acontecendo em qualquer ponto
entre 4,5 e 5,5. 57
A elaboração de uma distribuição de freqüência para
variáveis contínuas requer a apresentação de alguns
conceitos:
1 – Amplitude: corresponde à diferença entre o
maior e o menor valor de um conjunto de dados. Em
geral, é simbolizada por “A”.
2 - Amplitude de Classe: consiste na diferença entre
o limite superior e o limite inferior de uma classe em
uma distribuição de freqüência. Será aqui
simbolizada por “c”.

58
A seguir, temos o algoritmo para obtenção de uma
distribuição de freqüência relativa à uma variável
contínua.
Passo 1 – Escolhe-se um número de classes k. É
importante que a distribuição conte com um
número adequado de classes. Se esse número
for escasso, os dados originais ficarão tão
comprimidos que pouca informação poderá ser
extraída desta tabela. Se, por outro lado, forem
utilizadas muitas classes, haverá algumas com
freqüência nula ou muito pequena, apresentando
uma distribuição irregular e prejudicial à
interpretação do fenômeno.
59
k  n

Para determinar o número de classes há


diversos métodos. Veremos dois deles:

(1) k = 5, para n  25 e k = √n , para n > 25.

(2) Fórmula de Sturges: k = 1 + 3,3 log n, onde


n é o tamanho da amostra.

Ex: Se n = 49 teríamos:
k=7
k = 1 + 3,3 log 49 = 6,58  7
60
Mesmo tendo outros critérios de determinação
do número de classes, o que se deve ter em
mente é que a escolha dependerá, sobretudo
da natureza dos dados e da unidade de
medida em que eles se encontram, e não
somente de regras muitas vezes arbitrárias e
pouco flexíveis. Para facilitar a análise é
conveniente que se mantenham os intervalos
de classe sempre constantes.

Passo 2 – Calcula-se a amplitude total A dos


dados: A = MVO – mvo onde MVO: maior valor
observado e mvo: menor valor observado; 61
A  Δx
c
k

Passo 3 – Calcula-se a amplitude de classe c,


através de: fazendo o arredondamento igual
ao número de casas decimais dos dados.
A  Δx
c 
k

Passo 4 – O limite inferior LI1 da 1ª classe é obtido


por: LI1 = mvo - x/2

62
Passo 5 - O limite superior LS1 da 1ª classe é
obtido por: LS1 = LI1 + c, sendo que LS1 = LI2 e
assim, sucessivamente – soma-se ao valor do
limite inferior da primeira classe a amplitude de
classe e obtém-se o limite superior, sendo o
limite superior da primeira classe o inferior da
segunda;
Passo 6 – Construídas as classes, são
contados quantos dados estão em cada classe
(freqüências absolutas de cada classe);
63
Obs: a freqüência absoluta (fa) é o número de
repetições de um valor individual ou de uma
classe de valores da variável.
Passo 7 - São calculadas as freqüências
relativas e percentuais de cada classe.
Obs: a freqüência relativa (fr) representa a
proporção de observações de um valor
individual ou de uma classe, em relação ao
número total de observações. Trata-se,
portanto, de um número relativo.
Obs: a freqüência percentual (fp) é o produto
da freqüência relativa por 100, tendo como
resultado uma porcentagem 64

Você também pode gostar