Você está na página 1de 39

MATERIAL DIDTICO

ESTATSTICA





















Profa. Valeria Ap. Martins Ferreira


2
1. Introduo Estatstica

Em muitas ocasies do nosso cotidiano nos deparamos com situaes em que
precisamos trabalhar com grande quantidade de informaes. Neste material de apoio
formalizaremos alguns conceitos e tcnicas estatsticas que podem ser utilizados na
coleta e anlise de conjuntos de dados, de forma objetiva e segura.

Para comear nossos estudos vamos definir alguns conceitos importantes:

Estatstica: Conjunto de tcnicas que permite, de forma sistemtica, organizar,
descrever, analisar e interpretar dados (conjunto de valores numricos ou no)
provenientes de estudos ou experimentos, realizados em qualquer rea do
conhecimento.
A Estatstica pode ser dividida, basicamente, em trs reas:

- Estatstica Descritiva
- Probabilidade
- Inferncia Estatstica

Estatstica Descritiva: Conjunto de tcnicas destinadas a descrever e resumir os dados a
fim de que possamos tirar concluses a respeito da caracterstica de interesse.

Probabilidade: Teoria matemtica utilizada para se estudar a incerteza proveniente de
fenmenos de carter aleatrio.

I nferncia Estatstica: Estudo de tcnicas que possibilitam a extrapolao, a um grande
conjunto de dados, das informaes e concluses obtidas a partir de subconjuntos de
valores, usualmente de dimenso muito menor, denominados amostras.






3
Estatstica Descritiva
Interpretaes Iniciais




Amostra


Inferncia Estatstica
Estimao de quantidades desconhecidas
Extrapolao dos resultados
Teste de Hiptese

Fonte: Magalhes, Marcos Nascimento e Lima, Antonio Carlos Pedroso. Noes de
Probabilidade e Estatstica.

A seleo da amostra pode ser feita de vrias maneiras, dependendo, entre outros
fatores, do grau de conhecimento que temos da populao, da quantidade de recursos
disponveis e assim por diante. Devemos ressaltar que a seleo da amostra tenta
fornecer um subconjunto de dados o mais parecido possvel com a populao que lhe d
origem. Os dados amostrais devem ser coletados de modo apropriado, tal como atravs
de um processo de seleo aleatria.

1.1 Definies Elementares de Estatstica

Populao: Conjunto formado por todos os elementos (indivduos, objetos e outros) que
contm a caracterstica que temos interesse em estudar.
Amostra: Subconjunto formado por elementos da populao.
Parmetro: Medida numrica que descreve alguma caracterstica de uma populao.
Estatstica: Medida numrica que descreve alguma caracterstica de uma amostra.
Varivel: Caracterstica de interesse no estudo.

Populao



4
As variveis podem ser classificadas como qualitativas ou quantitativas. As
variveis numricas sero denominadas quantitativas, ao passo que as no numricas,
qualitativas.
A varivel qualitativa quando resultar de uma classificao por atributos e/ou
qualidades. Se existir uma ordenao natural, indicando intensidades crescentes de
realizao, ento elas so classificadas como qualitativas ordinais. Caso contrrio, elas
so classificadas como variveis qualitativas nominais.

Exemplos de variveis qualitativas nominais:
- Gnero (feminino ou masculino)
- Estado Civil (solteiro, casado, vivo, divorciado)

Exemplos de variveis qualitativas ordinais:
- Classe Social (baixa, mdia ou alta)
- Desempenho de um professor (pssimo, regular ou bom)

A varivel ser quantitativa quando seus valores forem expressos em nmeros.
As variveis quantitativas podem ser subdivididas em quantitativas discretas e
quantitativas contnuas. As variveis quantitativas discretas podem ser vista como
resultantes de contagens, assumindo, em geral, valores inteiros. J as quantitativas
contnuas assumem valores em intervalos dos nmeros reais e, geralmente, so
provenientes de uma mensurao.

Exemplos de variveis quantitativas discretas:
- Nmero de dependentes (0,1,2,...)
- Nmero de irmos (0,1,2,3,...)

Exemplos de variveis quantitativas contnuas:
- Peso
- Altura




5
Observaes:
1. Podemos discretizar uma varivel contnua para obter uma melhor representao
da ocorrncia de seus valores no conjunto de dados.
2. Podemos associar cdigos numricos a uma varivel qualitativa. Por exemplo,
para a varivel gnero podemos associar o valor 1 ao sexo feminino e 2 ao
masculino. Apesar da varivel ser representada por valores numricos, isto no
a torna uma varivel quantitativa.

1.2 Coleta de Dados

O objetivo de qualquer estudo estatstico coletar dados e ento us-los para
uma tomada de deciso. Toda deciso feita usando os resultados de um estudo
estatstico ser to boa quanto foi o processo de obteno dos dados.
H vrias maneiras de coletar os dados. A seguir so apresentados quatro
mtodos de coleta de dados.

- Censo: todos os elementos da populao so estudados. Apesar de fornecer
informaes completas, frequentemente dispendioso e difcil de ser realizado.
- Amostra: subconjunto da populao de interesse. As estatsticas calculadas a
partir da amostra so usadas para predizer vrios parmetros populacionais.
- Simulao: utilizao de um modelo matemtico ou fsico para reproduzir as
condies de uma situao ou de um processo. As simulaes permitem estudar
situaes que seria pouco prtico ou at mesmo perigoso criar na vida real, alm de
frequentemente poupar tempo e dinheiro. Por exemplo, fabricantes de automveis usam
simulaes com bonecos para estudar os efeitos que as colises tm em seres humanos.
- Experimento: ao se realizar um experimento, aplicado um tratamento a uma
parte da amostra e so observadas as respostas. Uma segunda parte da amostra , em
geral, usada como um grupo de controle. Esse grupo no recebe tratamento algum ou
ento recebe um placebo. Aps serem observadas as respostas dos dois grupos, os
resultados so comparados.




6
1.2.1 Tcnicas de amostragem

Para coletar dados no tendenciosos, importante que a amostra seja
representativa da populao. Tcnicas de amostragem apropriadas devem ser usadas
para garantir que as inferncias sobre a populao sejam vlidas.
Se os dados amostrais no forem coletados de maneira adequada, eles podem
ser de tal modo inteis que nenhuma manipulao estatstica poder salv-los.
A seguir definiremos os mtodos de amostragem mais comuns.

Em uma amostra aleatria, todos os membros da populao tm chances iguais
de serem selecionados.
Uma amostra aleatria simples aquela na qual toda amostra possvel de
mesmo tamanho tem a mesma chance de ser selecionada. Por exemplo: para usar uma
amostra aleatria simples na contagem do nmero de pessoas que vivem nos domiclios
da cidade de Mococa, voc pode atribuir um nmero diferente para cada domiclio, usar
um computador para gerar uma amostra de nmeros aleatrios e depois contar o nmero
de pessoas que vive em cada domiclio selecionado.

Com a amostragem aleatria, esperamos que todos os elementos da populao
sejam (aproximadamente) proporcionalmente representados. A seleo dos dados na
amostra aleatria pode ser feita atravs do uso do computador para gerar nmeros
aleatrios.

Exemplo 1.1: Imagine uma sala de aula com 60 alunos arrumados em seis filas de 10
alunos cada. Suponha que o professor selecione uma amostra de 10 alunos jogando um
dado e selecionando a fila correspondente ao resultado da jogada. O resultado uma
amostra aleatria? amostra aleatria simples? amostra probabilstica?

Resoluo: A amostra uma amostra aleatria porque cada estudante em si tem a
mesma chance (uma chance em seis) de ser escolhido. No entanto, a amostra no uma
amostra aleatria simples porque nem todas as amostras de tamanho 10 tm a mesma
chance de serem escolhidas. Por exemplo, esse planejamento amostral, ao usar um dado


7
para selecionar uma fileira, torna impossvel selecionar 10 estudantes que estejam em
filas diferentes (mas h uma chance em seis de que sejam selecionados os 10 estudantes
da primeira fila). A amostra uma amostra probabilstica porque cada estudante tem
uma chance conhecida (uma chance em seis) de ser selecionado.

Na escolha dos membros de uma amostra, as pessoas envolvidas no
estudo/pesquisa devem decidir se aceitvel ou no ter o mesmo membro da populao
selecionado mais de uma vez. Se for aceitvel, diz-se que o processo de amostragem
feito com reposio. Se no for aceitvel, ento diz-se que o processo feito sem
reposio.
Uma amostra sistemtica aquela na qual atribudo um nmero a cada
elemento da populao. Os elementos da populao so ento ordenados de alguma
maneira, o nmero inicial selecionado aleatoriamente e depois os membros da amostra
so selecionados segundo intervalos regulares que ocorrem a partir do nmero inicial.
(Por exemplo, cada terceiro, quinto ou centsimo elemento selecionado). Por
exemplo, para coletar uma amostra sistemtica do nmero de pessoas que vivem nos
domiclios de Mococa, voc poderia atribuir um nmero diferente para cada domiclio,
escolher aleatoriamente um nmero inicial, selecionar um domiclio a cada cem e contar
ento o nmero de pessoas que vivem em cada um desses domiclios selecionados.
Em uma amostra estratificada, a populao subdividida em, pelo menos, dois
subgrupos (estratos) de modo que os elementos no mesmo subgrupo compartilhem as
mesmas caractersticas (tais como gnero ou faixa etria) e em seguida extrai-se uma
amostra de cada subgrupo (ou estrato). O emprego de uma amostra estratificada nos
assegura que cada segmento da populao est representado.
Na amostragem por conglomerados, primeiro dividimos a rea da populao em
sees (ou conglomerados), depois selecionamos aleatoriamente alguns desses
conglomerados e a seguir escolhemos todos os membros desses conglomerados
selecionados. Um exemplo de amostragem por conglomerado pode ser encontrado nas
pesquisas eleitorais, onde selecionamos aleatoriamente 30 zonas eleitorais dentre um
grande nmero de zonas e, em seguida, entrevistamos todos os eleitores daquelas zonas
selecionadas. Isso muito mais rpido e muito menos dispendioso do que selecionar
uma pessoa de cada uma das muitas zonas na rea populacional.


8
Na amostragem de convenincia, simplesmente usamos resultados de muito
fcil obteno. Este tipo de amostragem leva frequentemente a estudos tendenciosos (e
que, portanto, no recomendvel).

Mesmo planejando e executando bem o processo de coleta da amostra,
provavelmente haver algum erro nos resultados. Por exemplo, se selecionarmos
aleatoriamente 500 adultos e perguntarmos se eles completaram o ensino superior,
encontraremos um percentual de respostas sim. Agora, se selecionarmos outra
amostra de 500 adultos, provvel que obtenhamos um percentual de respostas sim
diferente. Com esta reflexo, chegamos s seguintes definies:

Erro amostral: a diferena entre o resultado amostral e o verdadeiro resultado da
populao; tais erros resultam das flutuaes amostrais devidas ao acaso.
Erro no amostral: Ocorre quando os dados amostrais so coletados, registrados ou
analisados incorretamente (tal como a seleo de uma amostra tendenciosa, o registro
incorreto dos dados ou o uso de um instrumento de medida defeituoso).

1.3 Organizao dos dados

A partir de agora apresentaremos mtodos importantes para organizao, resumo
e obteno de grficos de um conjunto de dados. A finalidade no a simples obteno
de tabelas e grficos, mas, sim, a compreenso dos dados. Quando exploramos um
conjunto de dados, as seguintes caractersticas so, usualmente, de grande importncia:
1. Centro: um valor representativo ou mdio, que indica onde se localiza o meio
do conjunto de dados.
2. Variao: uma medida de quanto os valores dos dados variam entre eles.
3. Distribuio: a natureza ou forma da distribuio dos dados (tal como em forma
de sino, uniforme ou assimtrica).
4. Outliers ou Valores Discrepantes: valores amostrais que se localizam muito
longe da grande maioria dos outros valores amostrais.





9
1.3.1 Distribuio de Frequncia

Ao estudarmos grandes conjuntos de dados conveniente organiz-los e resumi-
los, construindo uma tabela de frequncias. Esta tabela conter os valores ou categorias
da varivel em estudo e suas respectivas contagens, as quais so denominadas
frequncias. Para facilitar a compreenso da distribuio e a comparao de diferentes
conjuntos de dados calculamos a frequncia relativa (%) definida por:

100
s observae de total n
categoria na frequncia
(%) = FR

Exemplo 1.2: Considere um problema de pesquisa de opinio. Nessa pesquisa, 280
alunos de uma universidade foram consultados a respeito de suas opinies sobre o
desempenho de um professor de Estatstica. Na Tabela 1, temos as frequncias
observadas e as frequncias relativas para cada categoria de resposta (bom, regular,
pssimo).

Tabela1: Pesquisa de opinio
Desempenho
do professor
Frequncia F.R(%)
Bom 152 54,29
Regular 77 27,50
Pssimo 51 18,21
Total 280 100,00


Exemplo 1.3: Uma determinada empresa resolveu traar o perfil socioeconmico de
seus empregados. Uma das variveis estudadas foi o nmero de filhos, com idade
inferior a 18 anos, de cada um dos empregados. A Tabela 2 fornece a frequncia e a
frequncia relativa (%) para cada valor obtido.







10

Tabela2: Frequncia dos empregados, segundo o nmero de filhos.
Nmero de
Filhos
Frequncia F.R(%)
0 6 13,33
1 11 24,44
2 13 28,89
3 7 15,56
4 5 11,11
5 1 2,22
6 2 4,44
Total 45 100,00



1.3.2 Organizao dos dados em classes

Na construo da distribuio de frequncias de uma varivel contnua
consideramos intervalos de mesmo comprimento para determinarmos suas frequncias
relativas. Assim, seguimos o seguinte roteiro:

a Achar o mximo e o mnimo dos dados
b Escolher intervalos de mesmo comprimento que cubra a amplitude entre o mnimo e
o mximo. Esses intervalos so chamados de classes.
c Contar o nmero de observaes que pertencem a cada intervalo de classe. Esses
nmeros so as frequncias observadas das classes.
d Calcular as frequncias relativas (%) de cada classe:

s observae de total n
classe de observada frequncia
(%) = FR
e O nmero de classes geralmente calculado por s observae de nmero ~ k . O
nmero de classes deve estar entre 5 e 20, e o nmero que voc escolher deve ser
influenciado pela convenincia de se usar nmeros inteiros. Inclua todas as classes,
mesmo aquelas com frequncia zero.





11
Observaes:

1. H situaes em que a varivel por natureza discreta, mas o conjunto de
possveis valores muito grande. O caminho adequado, neste caso, tratar a
varivel como se fosse contnua e criar classes para representar seus valores.
2. Pode-se verificar tabelas de frequncias com classes de tamanho desiguais.


Exemplo 1.4: Os dados abaixo representam os tempos de vida (em horas) de 40
componentes eletrnicos submetidos a um experimento num laboratrio industrial.

3,20 11,70 13,64 15,60 15,89 28,44 29,07 37,44 41,81 43,35 43,94
49,51 49,82 51,20 51,43 52,47 53,72 53,92 54,03 56,89 63,80 66,40
68,64 70,15 70,98 74,52 76,68 77,84 80,91 84,04 85,70 86,48 88,92
89,28 91,36 91,62 98,79 102,39 104,21 124,27

Considerando intervalos de classes de comprimento 25, temos na Tabela 3 a
distribuio de frequncias para esses dados.

Tabela 3: Distribuio de frequncias da varivel tempo de vida de
componentes eletrnicos.
Tempos de vida Frequncia F.R(%)
0|25 5 12,50
25|50 8 20,00
50|75 13 32,50
75|100 11 27,50
100|125 3 7,50
Total 40 100,00


1.4 Sries Estatsticas

Srie Estatstica toda tabela que apresenta a distribuio de um conjunto de
dados estatsticos em funo da poca, do local ou da espcie. Portanto, numa srie
estatstica, observamos a existncia de 3 elementos: tempo, espao e a espcie.
Conforme varie um dos elementos da srie, podemos classific-la em histrica
(ou cronolgica), geogrfica (ou localizao) e especfica (ou categrica).



12
A srie geogrfica feita para apresentar dados de diferentes regies
geogrficas, em determinado instante.

Tabela 4: Percentual de pessoas com 10 anos e mais que
declararam rendimento de at um salrio mnimo, segundo as
grandes regies do pas.
Regio Percentual
Brasil 25,3
Norte 32,8
Nordeste 48,0
Sudeste 16,0
Sul 18,8
Centro-Oeste 22,3
Fonte: Folha de So Paulo (2002).

A srie cronolgica feita para apresentar dados observados ao longo do tempo,
em determinado local.

Tabela 5: Frango preos mdios em So Paulo 2003-2008
Anos Preo Mdio (R$)
2003 2,56
2004 2,64
2005 2,67
2006 2,53
2007 3,20
2008 3,64
Fonte: Associao Paulista de Avicultura.

A srie categrica feita para apresentar dados que se distribuem em diferentes
categorias, em determinado tempo e local.

Tabela 6: Rebanhos brasileiros Efetivo nos
estabelecimentos agropecurios (2006)
Espcies Quantidade
Bovinos 205.886.244
Bubalinos 1.156.870
Aves 821.541.630
Sunos 35.173.824
Ovinos 16.019.170
Caprinos 10.401.449
Fonte: IBGE.


13
Muitas vezes temos necessidade de apresentar, em uma nica tabela, a variao
de valores de mais de uma varivel, isto , fazer uma conjuno de duas ou mais sries.
Conjugando duas sries em uma nica tabela, obtemos uma tabela de dupla
entrada. Em uma tabela desse tipo ficam criadas duas ordens de classificao: uma
horizontal (linha) e uma vertical (coluna).

Tabela 7: Taxas de analfabetismo de pessoas com 15 anos e
mais, segundo a cor, nos censos demogrficos de 1991 e 2000.
Cor Censo 1991 Censo 2000
Brasil 19,4 12,9
Branca 11,9 8,3
Preta 31,5 21,5
Amarela 5,4 4,9
Parda 27,8 18,2
Indgena 50,8 26,1
Sem declarao 18,7 16,1
Fonte: Retrato do Brasil. Folha de So Paulo, So Paulo, 21
dez. 2002.


Exerccio 1: Substituir por uma nica tabela o trecho do relatrio a seguir: Assim
sendo, podemos concluir que este banco, em 1995, contou com a colaborao de 345
funcionrios, distribudos pelas nossas 5 agncias, a saber: Niteri, 43; Rio de Janeiro,
102; So Paulo, 98; Belo Horizonte, 75; Vitria, 27. Em Niteri, 38 eram do sexo
masculino e no Rio de Janeiro, 87. Apenas em Vitria no existiam funcionrias, mas
em So Paulo trabalharam 11 delas, enquanto que em Belo Horizonte, apenas 3.


1.5 Dados absolutos e dados relativos

Dados absolutos: so dados resultantes da coleta direta da fonte, sem outra
manipulao seno a contagem ou medida.

Dados relativos: so os resultados de comparaes por quocientes (razes) que
se estabelecem entre dados absolutos e tm por finalidade realar ou facilitar as
comparaes entre quantidades.


14
Os dados relativos traduzem-se, em geral, por meio de porcentagens, ndices e
taxas.
Para exemplificar a importncia das porcentagens na interpretao dos dados,
vamos considerar a seguinte srie:

Tabela 8: Populao residente no Brasil, segundo o sexo, de
acordo com o censo demogrfico de 2000.
Sexo Populao
residente
Percentual
Homens 83.576.015 49,22
Mulheres 86.223.155 50,78
Total 169.799.170 100,00
Fonte: IBGE (2003)


Com os valores da coluna do percentual podemos perceber que, de cada 100
brasileiros residentes no Brasil, 49 so do sexo masculino e aproximadamente 51 so do
sexo feminino.
O emprego da porcentagem de grande valia quando o nosso intuito destacar a
participao da parte no todo.

Agora, vamos analisar a srie:

Tabela 9: Matrculas nas escolas das cidades A e B - 2008
Categorias
Nmero de alunos
Cidade A Cidade B
Ensino Fundamental 19.286 38.660
Ensino Mdio 1.681 3.399
Ensino Superior 234 424
Total 21.201 42.483
Dados Fictcios

De acordo com as informaes contidas na tabela, qual das cidades tem,
comparativamente, maior nmero de alunos em cada nvel de ensino?

Como o nmero total de alunos diferente nas duas cidades, no fcil concluir
a respeito usando os dados absolutos. No entanto, usando as porcentagens, tal tarefa
fica bastante facilitada. Assim, acrescentando na tabela anterior as colunas
correspondentes s porcentagens, obtemos:


15
Tabela 10: Matrculas nas escolas das cidades A e B - 2008
Categorias
Cidade A Cidade B
N de alunos % N de alunos %
Ensino Fundamental
19.286 90,97 38.660 91,00
Ensino Mdio
1.681 7,93 3.399 8,00
Ensino Superior
234 1,10 424 1,00
Total 21.201 100,00 42.483 100,00
Dados Fictcios

o que nos permite dizer que, comparativamente, as cidades contam, praticamente, com o
mesmo nmero de alunos em cada nvel de ensino.

Alm das porcentagens, nos deparamos com muitas informaes na mdia a
respeito de razes, ndices, taxas, pontos percentuais e variaes percentuais. Agora,
vamos definir cada um destes conceitos.

1.5.1 Razes

Razo uma relao entre duas grandezas. Para obter a razo entre a e b, basta
dividir a por b.
b
a
razo =

Quando comparamos grandezas da mesma espcie, expressamos a razo na
forma de frao irredutvel. Quando comparamos grandezas diferentes, em geral,
dividimos e representamos o quociente na forma de nmero decimal.
Por exemplo, numa sala com 25 meninos e 15 meninas, podemos afirmar que a
razo entre o nmero de meninos e meninas
3
5
15
25
= , ou seja, para cada 3 meninas, h
5 meninos na sala.
Agora, suponha que um automvel percorra a distncia de So Paulo a Belo
Horizonte em 6,5 horas. Como a distncia entre as duas cidades de 586 km, temos
que a velocidade mdia de, aproximadamente, 90,15km/h.




16
1.5.2 ndices

Os ndices so razes entre duas grandezas tais que uma no inclui a outra.

Exemplos de ndices:

superfcie
populao
a demogrfic Densidade =

ndices econmicos:

populao
bem do consumo
Consumo = capita per

populao
renda
Renda = capita per

1.5.3 Taxas

A taxa tambm uma relao entre duas grandezas, mas, neste caso, o
numerador faz parte do denominador, ou seja, o denominador contm o numerador.
Para obter uma taxa, dividimos a por a + b. O resultado pode ser multiplicado por 100,
ou por 1.000 ou 10.000.

So exemplos de taxas:

000 . 1
perodo e local mesmo do populao
perodo e local dado em bitos de nmero
e mortalidad de Taxa =

000 . 1
perodo e local mesmo do populao
perodo e local dado em vivos nascidos de nmero
natalidade de Taxa =



17
100
matrculas de inicial nmero
evadidos alunos de nmero
escolar evaso de Taxa =

1.5.4 Variaes percentuais e Pontos percentuais

Se Q
1
e Q
2
so duas grandezas quaisquer medidas na mesma unidade, tomando
Q
1
como base de comparao, temos a seguinte definio para variao percentual:


100
Q
Q Q
V
1
1 2

= A
Ou

100 1
Q
Q
V
1
2
= A

A noo de "pontos percentuais", atualmente, bastante empregada nos meios
de comunicao de massa e pelos economistas brasileiros. Vamos explicar seu
significado atravs de alguns exemplos:
- Se a inflao subiu de 8% para 10%, podemos tanto dizer que houve um
aumento de 25% na inflao como dizer que a inflao subiu dois pontos
percentuais.
- Se determinado imposto subiu de 3% para 5%, a mesma coisa dizer que o
aumento foi de 66,67% e dizer que o imposto subiu dois pontos percentuais.
- Se a taxa de juros passou de 20% para 50%, esse aumento pode ser descrito
como sendo um aumento de 150% ou como sendo um aumento de trinta pontos
percentuais.



18
1.6 Grficos

A organizao dos dados em tabelas de frequncias proporciona um meio eficaz
de estudo do comportamento das caractersticas de interesse. Muitas vezes, as
informaes contidas nas tabelas podem ser mais facilmente visualizadas atravs de
grficos. Existem vrios tipos de representao grfica, mas vamos abordar aqui os mais
simples para variveis qualitativas e quantitativas.
Antes de comentarmos especificamente sobre alguns deles, vale ressaltar a
importncia de se interpretar corretamente um grfico. Devemos analisar a informao
numrica fornecida no grfico, de modo a no nos enganarmos por sua forma geral. Por
exemplo, vamos analisar os seguintes grficos:




Figura 1.1: Grficos em colunas para a varivel PIB municipal
Fonte: http://veja.abril.com.br/noticia/brasil/pesquisa-do-ibge-faz-uma-radiografia-da-
riqueza-dos-municipios
154,7
117,5
0
50
100
150
200
Rio de Janeiro Braslia
P
I
B

m
u
n
i
c
i
p
a
l

d
e

2
0
0
8

(
e
m

b
i
l
h

e
s

d
e

r
e
a
i
s
)

154,7
117,5
100
120
140
160
Rio de Janeiro Braslia
P
I
B

m
u
n
i
c
i
p
a
l

d
e

2
0
0
8

(
e
m

b
i
l
h

e
s

d
e

r
e
a
i
s
)



19
Os dois grficos retratam os mesmos dados, mas o segundo feito de modo a
exagerar a diferena entre o PIB no Rio de Janeiro e em Braslia. Pelo fato de no
iniciar o eixo vertical em zero, o segundo grfico tende a produzir uma impresso
subjetiva enganosa, levando o leitor a acreditar que a diferena seja muito maior do que
realmente .

1.6.1 Grfico em Linhas

Quando os dados estiverem distribudos segundo uma varivel no tempo (meses,
anos, etc.), podemos represent-los atravs de um grfico em linhas. Esse tipo de
grfico retrata as mudanas nas quantidades com respeito ao tempo (srie temporal)
atravs de uma srie de segmentos de reta. muito eficiente para mostrar possveis
tendncias no conjunto de dados.


Figura 1.2: Grfico em linha para dados de assinantes de telefones celulares.




1,1
1,3 1,5 1,9
2,4
2,6
3,1
7,4
18,6
21,5
29
0
5
10
15
20
25
30
35
1996 1998 2000 2002 2004 2006 2008
A
s
s
i
n
a
n
t
e
s

(
e
m

m
i
l
h

e
s
)

Anos


20
Exerccio: O grfico em linhas abaixo apresenta a quantidade de turistas que chegaram
ao Brasil, por via area, nos anos de 2009 e 2010.


Fonte: http://www.turismo.gov.br/turismo/home.html

Exerccio 2: Encontre o percentual de aumento do nmero de turistas que chegaram ao
Brasil, via area, no perodo 2009-2010.

Dados: Nmero de turistas em 2009: 3.348.906
Dados: Nmero de turistas em 2010: 3.609.979

1.6.2 Grfico (ou Diagrama) em Barras (ou Colunas)
Os diagramas em barras (ou colunas) so bastante utilizados quando trabalhamos
com variveis qualitativas (dados categricos) ou quantitativas discretas. No eixo
horizontal especificamos os nomes das categorias e no eixo vertical construmos uma
escala com a frequncia ou a frequncia relativa. As barras tero bases de mesma
largura e alturas iguais frequncia ou frequncia relativa. O grfico em barras,


21
quando as barras esto dispostas no sentido vertical, tambm chamado de grfico em
colunas.

Figura 1.3: Grfico em colunas para a varivel desempenho do professor


Figura 1.4: Grfico em barras para a varivel desempenho do professor
0
20
40
60
80
100
120
140
160
Bom Regular Pssimo
F
r
e
q
u

n
c
i
a

Desempenho do professor
0 50 100 150 200
Bom
Regular
Pssimo
Frequncia
D
e
s
e
m
p
e
n
h
o

d
o

p
r
o
f
e
s
s
o
r



22

Figura 1.5: Grfico em colunas para a varivel nmero de filhos
1.6.3 Diagrama de Pareto

Quando construmos o grfico de barras para variveis qualitativas e as barras
so arranjadas em ordem descendente de altura, a partir da esquerda para a direita, com
o atributo que ocorre com maior frequncia aparecendo em primeiro lugar,
denominamos este grfico de barras de Diagrama de Pareto.
A grande utilidade deste diagrama a de permitir uma fcil visualizao e
identificao das causas ou problemas mais importantes, possibilitando a concentrao
de esforos sobre os mesmos. O diagrama de Pareto uma das sete ferramentas da
qualidade.

Exemplo 1.5: Uma indstria de computador preocupada com vrios defeitos que um de
seus produtos vem apresentando, fez um levantamento e constatou os seguintes
problemas:

A : Defeito na cobertura plstica.
B : Defeito no teclado.
C : Defeito na fonte de energia.
D : Soldas soltas.
E : Defeito na placa da unidade de processamento.
F : Defeito no visor.
G : Outros.
0
2
4
6
8
10
12
14
0 1 2 3 4 5 6
F
r
e
q
u

n
c
i
a

Nmero de filhos


23
As frequncias para cada problema esto apresentadas na Tabela 11. Vamos
apresentar as informaes da tabela no diagrama de Pareto.

Tabela 11: Tipos de problemas numa indstria de
computadores.
Tipo de
problema
Frequncia F.R.(%)
D 80 38,65
C 55 26,57
E 32 15,46
B 20 9,66
A 10 4,83
G 7 3,38
F 3 1,45
Total 207 100,00


A Figura 1.6 apresenta o diagrama de Pareto para este conjunto de dados.


Figura 1.6: Diagrama de Pareto.

1.6.4 Grfico (ou Diagrama) em Setores
O diagrama em setores, tambm conhecido como grfico de pizza, um dos
grficos mais utilizados para representar variveis qualitativas (ou categricas) e
0
10
20
30
40
50
60
70
80
90
D C E B A G F
F
r
e
q
u

n
c
i
a

Tipos de Problemas


24
bastante apropriado quando se deseja visualizar a proporo que cada categoria
representa do total.

Figura 1.7: Grfico circular para a varivel desempenho do professor

1.6.5 Histograma e Polgono de Frequncia
Quando os dados estiverem agrupados em intervalos de classe, o grfico que
construmos o histograma. Os histogramas so representaes grficas das
distribuies de frequncias dadas por retngulos. Cada retngulo do histograma tem
largura igual a cada intervalo de classe e altura dada pela frequncia absoluta ou
relativa.



Figura 1.8: Histograma para a varivel tempo de vida de componentes eletrnicos.
54,29%
27,50%
18,21%
Bom
Regular
Pssimo
0
2
4
6
8
10
12
14
12,5 37,5 62,5 87,5 112,5
F
r
e
q
u

n
c
i
a

tempo de vida (horas)


25
O polgono de frequncia outro grfico que ilustra uma distribuio de
freqncia aparentando uma poligonal, que o resultado da interligao de pontos que
representam as freqncias em cada classe.
Cada classe representada na linha de base pelo seu ponto mdio que o ponto
central de uma classe.
A preparao de um quadro para o polgono de freqncia obedece a mesma
tcnica do histograma, variando apenas quanto representao das classes pelo ponto
mdio.
Histograma e polgono de freqncia salientam um fenmeno de maneira
idntica, tanto assim que, construindo ambos em um mesmo sistema de coordenadas,
vamos verificar sua perfeita sobreposio.



Figura 1.9: Histograma para a varivel tempo de vida de componentes eletrnicos.








0
5
8
13
11
3
0 0
2
4
6
8
10
12
14
0 12,5 37,5 62,5 87,5 112,5 137,5
F
r
e
q
u

n
c
i
a

tempo de vida (horas)


26
2 Medidas-Resumo


Vimos, na Unidade 1, que o resumo dos dados por meio de tabelas de
frequncias e grficos fornece muitas informaes sobre o comportamento da varivel
em estudo. Alm destas informaes, na descrio, explorao e comparao de
conjuntos de dados, algumas caractersticas so de extrema importncia: centro,
variao, distribuio, outliers. Nesta unidade estudaremos como calcular e interpretar
cada uma destas caractersticas.

2.1 Medidas de Posio

As medidas de posio fornecem um nmero que representa o valor central de
um conjunto de dados. H vrias maneiras de se determinar o valor central, tais como:
mdia, mediana, moda. Agora, definiremos cada uma destas medidas.

2.1.1 Mdia

A mdia aritmtica a soma das observaes dividida pelo nmero total de
observaes, ou seja,

n
x
n
x x x
x
n
i
i
n

=
=
+ + +
=
1 2 1
...
(2.1)

Quando o conjunto de dados j estiver organizado numa tabela de frequncia
calculamos a mdia por:

n
f x
x
k
i
i i
=
=
1
(2.2)

A mdia representada por x (pronuncia-se x barra) se o conjunto de dados
uma amostra da populao; se so usados todos os valores da populao, ento
representamos a mdia por (letra grega minscula mi).


27
As estatsticas so geralmente representadas por letras do alfabeto latino, e os
parmetros populacionais so, em geral, representados por letras gregas.

Notao:

Somatrio de um conjunto de dados.


i
x : varivel usada para representar valores individuais do conjunto de dados.
n: representa o nmero de valores em uma amostra.
N: representa o nmero de valores em uma populao.


2.1.1.1 Propriedades da Mdia

1. A soma algbrica dos desvios tomados em relao mdia nula:


2. Somando-se (ou subtraindo-se) uma constante (c) de todos os valores de uma
varivel, a mdia do conjunto fica aumentada (ou diminuda) dessa constante:



3. Multiplicando-se (ou dividindo-se) todos os valores de uma varivel por uma
constante (c), a mdia do conjunto fica multiplicada (ou dividida) por essa
constante:










28
2.1.2 Mediana

A mediana o valor que ocupa a posio central dos dados ordenados. Se n for
mpar, a mediana ser o elemento central (de ordem
2
1 + n
). Caso n seja par, a mediana
ser a mdia entre os elementos centrais (de ordem
2
n
e
2
n
+1).

2.1.3 Moda

A moda definida como a observao mais freqente do conjunto de dados
observados.

Observaes:

1. Para calcular a moda de uma varivel precisamos apenas da distribuio de
frequncia. O conjunto de dados pode no ter moda, ser bimodal ou multimodal.
2. Para achar a mediana precisamos ordenar o conjunto de dados.
3. A mdia s pode ser calculada para variveis quantitativas.
4. A mediana uma medida resistente, ao passo que a mdia no o , em particular
para distribuies contendo valores atpicos (extremos).
5. A moda no muito usada com dados numricos. Mas, entre as 3 medidas de
posio estudadas, a nica que pode ser usada com dados qualitativos.

Exerccio 3: Calcular todas as medidas de posio utilizando os dados do Exemplo 1.3.

2.2 Aspecto das distribuies

Uma distribuio de frequncia ser simtrica se a metade esquerda de seu
histograma praticamente uma imagem espelhada de sua metade direita.
Uma distribuio de frequncia ser assimtrica se a cauda do grfico se
prolongar mais de um lado do que do outro. Uma distribuio ser assimtrica
esquerda (negativamente assimtrica) se a sua cauda se prolongar para a esquerda.


29
Uma distribuio ser assimtrica direita (positivamente assimtrica) se a sua
cauda se prolongar para a direita.
Quando uma distribuio for simtrica, a mdia, a mediana e a moda sero
iguais. Se uma distribuio for assimtrica esquerda, a mdia ser menor do que a
mediana que, por sua vez, ser geralmente menor do que a moda. Se uma distribuio
for assimtrica direita, a mdia ser maior do que a mediana que, por sua vez, ser
geralmente maior do que a moda.

2.3 Medidas de Disperso

O resumo de um conjunto de dados por uma nica medida representativa de
posio central esconde toda a informao sobre a variabilidade do conjunto de
observao. Por exemplo, suponhamos que quatro grupos de alunos submeteram-se a
um teste, obtendo-se as seguintes notas:
Grupo A (varivel X): 3,4,5,6,7
Grupo B (varivel Y): 1,3,5,7,9
Grupo C (varivel Z): 5,5,5,5,5
Grupo D (varivel W): 4,5,5,6,5

Vemos que 0 , 5 = = = = w z y x . A identificao de cada uma destas sries por
sua mdia (5, em todos os casos) nada informa sobre suas diferentes variabilidades.
Notamos, ento, a convenincia de serem criadas medidas que sumarizem a
variabilidade de um conjunto de observaes e que nos permita, por exemplo, comparar
conjuntos diferentes de valores, como os dados acima, segundo algum critrio
estabelecido. Vamos definir agora algumas medidas de disperso.

2.3.1 Amplitude

A amplitude de um conjunto de dados a diferena entre o maior e o menor
valor do conjunto de dados.

mnmo valor - mximo valor amplitude = (2.3)


30
Podemos observar que a amplitude muito fcil de ser calculada, mas, como
depende apenas de dois valores de todo o conjunto, no to til quanto as outras
medidas de variao que usam todos os valores. Um critrio frequentemente usado para
tal fim aquele que mede a disperso dos dados em torno de sua mdia, e duas medidas
so as mais usadas: desvio mdio e varincia. O princpio bsico analisar os desvios
das observaes em relao mdia dessas observaes

2.3.2 Desvio Mdio

n
x x
n
i

=

=
1
i
| |
mdio desvio (2.4)

O desvio mdio utiliza a funo mdulo que, por suas caractersticas
matemticas, torna mais difcil o estudo de suas propriedades. Definimos, a seguir, uma
medida de disperso que utiliza o quadrado dos desvios em relao a mdia.

2.3.3 Varincia
.
A varincia definida como:

1 1
) (
2
1
1
2
1
2
2

|
.
|

\
|

|
.
|

\
|

=


=
= =

n
n
x
x
n
x x
X S
n
i
i
n
i
i
n
i
i
(2.5)

Para os dados organizados numa tabela de frequncia temos:


1 1
) (
2
1
1
2
1
2
2

|
.
|

\
|

|
.
|

\
|

=


=
= =

n
n
f x
f x
n
f x x
X S
i
n
i
i
n
i
i i
n
i
i i
(2.6)

Sendo a varincia uma medida de dimenso igual ao quadrado da dimenso dos
dados (por exemplo, se os dados so expressos em cm, a varincia ser expressa em


31
2
cm ), teremos problemas de interpretao. Usaremos, ento, o desvio padro, que
definido como a raiz quadrada da varincia:

) ( ) .( .
2
X S X P D = (2.7)
No caso dos cinco grupos de alunos temos os seguintes valores para os desvios:

Grupo A: 1,58
Grupo B: 3,16
Grupo C: 0,00
Grupo D: 0,71

Podemos dizer, ento, que segundo o desvio-padro, o grupo C no apresenta
variabilidade, seguido pelo grupo D que mais homogneo que os demais.

Observaes:
1. O desvio padro uma medida da variao de todos os valores a partir da
mdia.
2. O valor do desvio padro s positivo. zero apenas quando todos os valores
dos dados so o mesmo nmero. (Ele nunca negativo). Tambm, maiores
valores de s indicam maior variao.
3. O valor do desvio padro s pode crescer drasticamente com a incluso de um ou
mais outliers (valores de dados que esto muito afastados dos demais).
4. As unidades do desvio padro s so as mesmas unidades dos dados originais.

2.3.4 Interpretao do desvio padro
Para um conjunto de dados com distribuio aproximadamente simtrica
podemos afirmar que:
- Cerca de 68% dos dados esto a um desvio-padro da mdia
|
|
.
|

\
|
+ s x s x
_ _
;
- Cerca de 95% dos dados esto a dois desvios-padro da mdia
|
|
.
|

\
|
+ s x s x 2 ; 2
_ _



32
- Cerca de 99% dos dados esto a trs desvios-padro da mdia
|
|
.
|

\
|
+ s x s x 3 ; 3
_ _



Figura 1.10: Grfico da Curva Normal


2.3.4.1 Propriedades do desvio padro

1. Somando-se (ou subtraindo-se) uma constante c de todos os valores de uma
varivel, o desvio padro no se altera:



2 Multiplicando-se (ou dividindo-se) todos os valores de uma varivel por uma
constante (diferente de zero), o desvio padro fica multiplicado (ou dividido) por
essa constante:








33
2.3.5 Teorema de Chebyschev

Para qualquer conjunto de dados o teorema de Chebyschev estabelece que o
intervalo
|
|
.
|

\
|
+ ks x ks x
_ _
; contm pelo menos a proporo ( )
2
/ 1 1 k das observaes.
Em particular, o intervalo
|
|
.
|

\
|
+ s x s x 2 ; 2
_ _
contm pelo menos ( )
2
2 / 1 1 = 3/4 ou 75%
dos dados.

Observao:
Quando precisamos calcular a mdia e o desvio padro para dados agrupados em
intervalos de classe, os valores
i
x sero substitudos pelos pontos mdios dos intervalos
de classes e os resultados obtidos sero apenas aproximados.

Exerccio 4: Calcular a amplitude, a varincia e o desvio padro utilizando os dados do
Exemplo 1.3.


2.4 Medidas de Posio Relativa

2.4.1 Escore z

Um escore padronizado, ou escore z, o nmero de desvios padres a que se
situa determinado valor de x, acima ou abaixo da mdia. Podemos utiliz-lo para a
comparao de valores de conjuntos de dados diferentes ou para a comparao de
valores dentro de um mesmo conjunto de dados.
encontrado usando-se as seguintes expresses:

Amostra:
s
x x
z

= (2.8)



34
Populao:
o

=
x
z (2.9)

Os escores z so medidas de posio, no sentido de que descrevem a localizao
de um valor (em termos de desvios padres) em relao mdia. Um escore z de 2
indica que um valor est dois desvios padres acima da mdia, e um escore z de -3
indica que um valor est trs desvios padres abaixo da mdia. Um valor no usual
se est a mais de 2 desvios padres da mdia. Ento:

Valores comuns: 2 escore 2 s s z
Valores no usuais: 2 escore ou -2 escore > <


Exemplo 2.1: Em uma turma de 9 alunos, as notas em matemtica e histria foram:

N do aluno 1 2 3 4 5 6 7 8 9
Matemtica 6 4 5 7 8 5 4 5 7
Histria 7 8 9 10 6 7 8 9 5
O aluno nmero 6 saiu-se relativamente melhor em histria ou em matemtica?

Soluo: As mdias de matemtica e histria so, respectivamente, 5,67 e 7,67; os
desvios padro so 1,41 e 1,58.
O aluno nmero 6 teve nota inferior mdia de ambas as matrias. Seus escores
padronizados foram:

Matemtica
48 , 0
41 , 1
67 , 5 5
=

=
s
x x
z
Histria
42 , 0
58 , 1
67 , 7 7
=

=
s
x x
z



35
O aluno saiu-se melhor em histria, pois o escore -0,42 maior que -0,48.

2.4.2 Quartis

Como j vimos anteriormente, a mediana de um conjunto de dados o valor do
meio, de modo que 50% dos valores so iguais ou menores do que a mediana, e 50%
dos valores so iguais ou maiores do que a mediana. Assim como a mediana divide os
dados em duas partes iguais, os trs quartis, representados por
, 3 , 2 , 1
e Q Q Q , dividem os
valores ordenados em quatro partes iguais:

-
1
Q (Primeiro Quartil): Separa os 25% inferiores dos valores ordenados dos 75%
superiores (25% dos valores ordenados so menores ou iguais a
1
Q e 75% dos
valores so maiores ou iguais a
1
Q ).
-
2
Q (Segundo Quartil): O mesmo que a mediana: separa os 50% inferiores dos
valores ordenados dos 50% superiores.
-
3
Q (Terceiro Quartil): Separa os 75% inferiores dos valores ordenados dos 25%
superiores (75% dos valores ordenados so menores ou iguais a
3
Q e 25% dos
valores so maiores ou iguais a
3
Q ).

Para calcular o
1
Q e o
3
Q seguiremos o seguinte procedimento: calculado
2
Q ,
esquea a mediana e considere agora as duas partes que ela gerou, uma abaixo da
mediana e outra acima da mediana. Ambas tm o mesmo nmero de observaes. O
1
Q ser calculado com a mediana da parte inferior e o
3
Q ser calculado como a
mediana da parte superior. importante observar que diferentes programas
computacionais podem calcular o
1
Q e o
3
Q de forma ligeiramente diferente, mas os
valores resultantes no sero muito distantes. A forma apresentada aqui a mais
simples, j que envolve apenas o clculo de medianas.





36
Quando o conjunto de dados estiver apresentado em intervalos de classes, os
clculos dos quartis so feitos atravs da seguinte frmula:

i
i
i
q
q
ant a
q i
h
f
f
n i
l Q
(
(
(

+ =
4
inf
(2.10)


onde:

l
inf
: o limite inferior da classe que contm o quartil.
n: o nmero total de observaes da distribuio de frequncia.
i: refere-se ao ordem do quartil, i = 1, 2, 3.
f
a ant
: a frequncia acumulada da classe anterior classe que contm o quartil.
f : o nmero de observaes da classe que contm o quartil.
h: a amplitude do intervalo de classe que contm o quartil.


2.5 Desenho Esquemtico (Boxplot)

Alm dos grficos apresentados na Unidade 1, um desenho esquemtico outro
grfico frequentemente usado. Este grfico til para revelar o centro, a disperso e a
distribuio dos dados, alm da presena de outliers. A construo de um desenho
esquemtico exige que obtenhamos primeiro o valor mnimo, o valor mximo e os
quartis, definidos como resumo dos cinco nmeros.

2.5.1 Procedimento para a construo de um Boxplot

1. Ache o resumo dos cinco nmeros, que consiste no valor mnimo,
1
Q , na
mediana,
3
Q e no valor mximo.
2. Construa uma escala com valores que inclua os valores mximo e mnimo dos
dados.


37
3. Construa uma caixa (retangular) estendendo-se de
1
Q a
3
Q , e trace uma linha na
caixa no valor da mediana.
4. Trace linhas inferiores e superiores que se estendam, respectivamente, do quartil
inferior at o menor valor no inferior ao limite inferior e do quartil superior at
o maior valor no superior ao limite superior. Os limites so calculados da
forma abaixo:



Pontos fora destes limites so considerados valores discrepantes (outliers) e so
denotados por asteriscos.

2.5.2. Interpretao do Boxplot

- A caixa (box) contm a metade (50%) dos dados. O limite superior da caixa
indica o percentil de 75% dos dados e o limite inferior da caixa indica o percentil de
25%. A distncia entre esses dois quartis conhecida como amplitude interquartil
(

).
- A linha dentro da caixa indica o valor da mediana dos dados.
- Se a linha mediana dentro da caixa no equidistante dos extremos, diz-se ento
que os dados so assimtricos.
- Os extremos do grfico indicam os valores de mnimo e mximo, a menos que
valores outliers estejam presentes. Nesse caso o grfico se estende no mximo de 1,5
vezes da distncia interquartil.
- Os pontos fora do grfico so, ento, outliers.

Observao:
Um outlier (ou valor discrepante) um valor que se localiza muito afastado de
quase todos os demais valores. Em relao aos outros valores, um outlier um valor
extremo, que se situa bem fora do padro geral de quase todos os demais dados. Alguns


38
outliers so valores corretos e alguns so erros. Se tivermos certeza de que um outlier
um erro, deveremos corrigi-lo ou ignor-lo.
Um outlier pode ter um efeito drstico sobre a mdia e tambm sobre o desvio
padro. Tambm pode ter efeito sobre a escala do histograma, de modo que a
verdadeira natureza da distribuio pode ser totalmente obscurecida.


Exemplo 2.2: Vamos utilizar os dados do Exemplo 1.4 para a construo do Boxplot.


Figura 2.2: Boxplot para a varivel Tempo de vida (horas) de componentes eletrnicos

O resumo dos cinco nmeros representado no Boxplot so:
Valor Mnimo
1
Q
2
Q
3
Q Valor Mximo
3,20 43,4975 60,3450 85,2850 124,27
Como dito anteriormente, a representao grfica atravs do boxplot muito rica
no sentido de informar, entre outras coisas, a variabilidade e simetria dos dados.
Analisando a Figura 2.1 observamos uma pequena assimetria (a distncia da mediana
para os quartis no a mesma).


39
Referncias Bibliogrficas


ANDERSON, David R.; SWEENEY, Denis J.; WILLIAMS, Thomas A.. Estatstica
aplicada administrao e economia. So Paulo: Pioneira Thomson Learning, 2003.

BUSSAB, Wilton de O.; MORETTIN, Pedro A.. Estatstica bsica. So Paulo: Saraiva,
2003.

COSTA NETO, Pedro Luiz de Oliveira. Estatstica, So Paulo: Edgard Blucher, 2002.

MAGALHES, Marcos Nascimento; LIMA, Antnio Carlos Pedroso de. Noes de
probabilidade e estatstica. So Paulo: Editora da Universidade de So Paulo, 2004.

TRIOLA, Mario F.. Introduo estatstica. Rio de Janeiro: LTC, 1999.