Você está na página 1de 31

UNIVERSIDADE ESTADUAL PAULISTA

"JLIO DE MESQUITA FILHO"


Campus de Presidente Prudente

ESTATSTICA BSICA

Relatrio das atividades desenvolvidas no perodo


da Bolsa de Apoio Acadmico e Extenso I (PAE)
de 26/04/2007 28/02/2008.

Bolsista: Fabiano Jos dos Santos


Orientadora: Vilma Mayumi Tachibana

Presidente Prudente
2008

ndice
1.0 Introduo.......................................................................................................... 2
1.1 O que Estatstica.............................................................................................. 3
Anlise exploratrio de dados

2.0 Resumo de Dados.............................................................................................

2.1 Classificao de variveis..................................................................................


2.2 Distribuio de Freqncia................................................................................
2.3 Grficos..............................................................................................................
2.3.1 Grficos para Variveis Qualitativas...................................................
2.3.2 Grficos para as Variveis Quantitativas............................................
2.4 Ramo-e-Folhas...................................................................................................
2.5 Exerccios...........................................................................................................

4
6
7
7
8
13
13

3.0 Medidas-resumo...............................................................................................

17

3.1 Medida de Posio.............................................................................................


3.2 Medida de Disperso..........................................................................................
3.3 Quantis...............................................................................................................
3.4 Intervalo interquartil.......................................................................................
3.5 Exerccios...........................................................................................................

17
17
18
19
19

4.0 Anlise Bidimensional...................................................................................... 20


4.1 Introduo..........................................................................................................
4.2 Associao entre variveis Qualitativas.............................................................
4.3 Medidas de Associao......................................................................................
4.4 Associao entre Variveis Quantitativas..........................................................
4.5 Associao entre Variveis Qualitativas e Quantitativas...................................
4.6 Exerccios...........................................................................................................

20
21
22
22
24
25

5.0 Probabilidade...................................................................................................

26

5.1 Introduo.......................................................................................................... 26
5.2 Probabilidade condicional e independncia....................................................... 27
5.3 Exerccios........................................................................................................... 28
Dados da Companhia MB..................................................................................

29

Bibliografia ............................................................................................................

30

1.0 Introduo

O projeto inicialmente proposto tem como objetivo o aprendizado, desenvolvimento


da anlise e o entendimento do conjunto de dados do objeto de estudo do pesquisador.
A transformao dos dados em informaes, para compar-los com outros
resultados para um melhor entendimento da anlise em que esta sendo feita ou ainda
julgar sua=adequao a alguma teoria. A Estatstica Descritiva a cincia que apresenta
processos prprios para coletar, apresentar adequadamente conjuntos de dados sejam eles
numricos ou no. Pode-se dizer que o seu objetivo o de apresentar informaes sobre
dados em anlise para que se tenha maior compreenso dos fatos em que os mesmo
representam.
A essncia da cincia a observao e que seu objetivo bsico a Inferncia. Ela
tem com finalidade a coleta, reduo, anlise e modelagem dos dados, e em procedimento
a amostra.
O estudo a ser estudado no projeto ter com base alguns desses procedimentos que
foram abordados, para uma melhor aplicao nos trabalhos em que o pesquisador
precisar observar a anlise e o conjunto de dados.

1.1 O Que Estatstica

Ao longo do sculo XX, os mtodos estatsticos foram desenvolvidos como uma


mistura de cincia, tecnologia e lgica para a soluo e investigao de problemas em
vrias reas do conhecimento humano (Stigler, 1986). Ela foi reconhecida como um
campo da cincia neste perodo, mas sua histria tem incio bem anterior a 1900.
A estatstica no uma caixa-preta, nem bola de cristal, nem mgica. Tampouco
um conjunto de tcnicas teis para algumas reas isoladas ou restritas da cincia. Por
exemplo, ao contrrio do que alguns imaginam, a estatstica no um ramo da
matemtica onde se investigam os processos de obteno, organizao e anlise de
dados sobre uma determinada populao. A estatstica tambm no se limita a um
conjunto de elementos numricos relativos a um fato social, nem a nmeros, tabelas e
grficos usados para o resumo, organizao e apresentao dos dados de uma
pesquisa, embora este seja um aspecto da estatstica que pode ser facilmente percebido
no cotidiano (basta abrir os jornais e revistas para ver o "bombardeio" de estatsticas).
Ela uma cincia multidisciplinar: um mesmo programa de computador que permite a
anlise estatstica de dados de um fsico poderia tambm ser usado por um economista,
agrnomo, qumico, gelogo, matemtico, bilogo, socilogo psiclogo e cientista
poltico. Mesmo que as interpretaes dessas anlises sejam diferentes por causa das
diferenas entre as reas do conhecimento, os conceitos empregados, as limitaes das
tcnicas e as conseqncias dessas interpretaes so essencialmente as mesmas.
Segundo Rao (1999), a estatstica uma cincia que estuda e pesquisa sobre: o
levantamento de dados com a mxima quantidade de informao possvel para um dado
custo; o processamento de dados para a quantificao da quantidade de incerteza
existente na resposta para um determinado problema; a tomada de decises sob
condies de incerteza, sob o menor risco possvel. Finalmente, a estatstica tem sido
utilizada na pesquisa cientfica, para a otimizao de recursos econmicos, para o
aumento da qualidade e produtividade, na otimizao em anlise de decises, em
questes judiciais, previses e em muitas outras reas.

2.0 Resumo de Dados

2.1 Classificao de variveis


Varivel a caracterstica de interesse que medida em cada elemento da
amostra ou populao. Como o nome diz, seus valores variam de elemento para
elemento. As variveis podem ter valores numricos ou no numricos.
Variveis podem ser classificadas da seguinte forma:
Variveis Quantitativas: so as caractersticas que podem ser medidas em uma
escala quantitativa, ou seja, apresentam valores numricos.
Podem ser contnuas ou discretas.
Variveis discretas: caractersticas mensurveis que podem assumir apenas um
nmero finito ou infinito contvel de valores e, assim, somente valores inteiros.
Geralmente so o resultado de contagens. Exemplos: nmero de filhos, nmero de
bactrias por litro de leite, nmero de cigarros fumados por dia.
Variveis contnuas: caractersticas mensurveis que assumem valores em uma
escala contnua (na reta real), para as quais valores fracionais. Usualmente devem ser
medidas atravs de algum instrumento. Exemplos: peso (balana), altura (rgua), tempo
(relgio), presso arterial, idade.
Variveis Qualitativas (ou categricas): so as caractersticas que no possuem
valores quantitativos, mas, ao contrrio, so definidas por vrias categorias, ou seja,
representam uma classificao dos indivduos. Podem ser nominais ou ordinais.
Variveis nominais: no existe ordenao dentre as categorias. Exemplos: sexo,
cor dos olhos, fumante/no fumante, doente/sadio.
Variveis ordinais: existe uma ordenao entre as categorias. Exemplos:
escolaridade (1, 2, 3 graus), estgio da doena (inicial, intermedirio, terminal), ms
de observao (janeiro, fevereiro,..., dezembro).

Exemplo 1.0
Um pesquisador est interessado em fazer um levantamento sobre alguns aspectos
scio econmico dos empregados da seo de oramentos de uma companhia. Usando
informaes obtidas do departamento pessoal, ele elaborou a Tabela 1.0.

Tabela 1.0
Informaes sobre estado civil, grau de instruo, nmero de filhos, salrio
(expresso como frao do salrio mnimo), idade (medida em anos e meses) e
procedncia de 36 empregados da seo de oramentos da Companhia.

Estado
Grau de
Civil
Instruo
1
Solteiro
Fundamental
2
Casado
Fundamental
3
Casado
Fundamental
...
...
...
35
Casado
Mdio
36
Casado
Superior
Fonte: Bussab e Morettin (2002)

N de
Filhos
...
1
2
...
2
3

Salrio
4,00
4,56
5,25
...
19,40
23,30

Idade
Anos Meses
26
3
32
10
36
5
...
...
48
11
42
2

Regio de
Procedncia
Interior
Capital
Capital
...
Capital
Interior

Observaes sobre a Tabela 1.0.

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado
um (ou mais de um) resultado correspondendo realizao de uma caracterstica
(ou caractersticas). Por exemplo, considerando a varivel estado civil, para cada
empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia
haver outras possibilidades, como separado, divorciado, mas somente as duas
mencionadas foram consideradas no estudo).
Resumindo
Como as variveis so classificadas e outros exemplos:

Qualitativa

Nominal
Ordinal

Sexo, Cor dos Olhos.


Classe social, grau de instruo.

Quantitativa

Discreta
Contnua

Nmero de filhos, nmeros de carros.


Peso, altura.

Para cada tipo de varivel existem tcnicas apropriadas para resumir as


informaes dos dados obtidos da amostra. Por exemplo, a utilizao de uma tabela
uma forma de escrever os dados de uma forma resumida.
Em algumas situaes podem-se atribuir valores numricos s vrias qualidades
ou atributos de uma varivel qualitativa e depois se proceder anlise como se esta
fosse quantitativa, desde que o procedimento seja passvel de interpretao.
Existe um tipo de varivel qualitativa para a qual essa quantificao muito til:
a chamada varivel dicotmica. Para essa varivel podem ocorrer somente duas
realizaes, usualmente chamadas de sucesso e fracasso.
Exemplo 1.1: A varivel Civil, Sexo, Hbito de Fumar, etc.
Como as Variveis so classificadas e outros exemplos;

Uma varivel originalmente quantitativa pode ser coletada de forma qualitativa.


Por exemplo, a varivel idade, medida em anos completos, quantitativa (contnua);
mas, se for informada apenas a faixa etria (0 a 5 anos, 6 a 10 anos, etc...), qualitativa
(ordinal). Outro exemplo o peso dos lutadores de boxe, uma varivel quantitativa
(contnua) se trabalha com o valor obtido na balana, mas qualitativa (ordinal) se o
classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).
Outro ponto importante que nem sempre uma varivel representada por nmeros

quantitativa.
O nmero do telefone de uma pessoa, o nmero da casa, o nmero de sua
identidade. s vezes o sexo do indivduo registrado na planilha de dados como 1 se
macho e 2 se fmea, por exemplo. Isto no significa que a varivel sexo passou a ser
quantitativa!

2.2 Distribuio de Freqncia


Quando se estuda uma varivel, o maior interesse do pesquisador conhecer o
comportamento dessa varivel, analisando a ocorrncia de suas possveis realizaes.
Veremos uma maneira de dispor uns conjuntos de realizaes, para se ter uma idia
global sobre elas, ou seja, de sua distribuio.
Exemplo 1.2
A tabela apresenta a distribuio de freqncia da varivel grau de instruo,
usando os dados da tabela 1.0.
Tabela 1.1. Freqncia e porcentagem dos 36 empregados da seo de oramentos
da Companhia MB segundo o grau de instruo.
Grau de Instruo
Freqncia (ni)
Fundamental
12
Mdio
18
Superior
6
Total
36
Fonte: Bussab e Morettin (2002)

Proporo (fi)
0,3333
0,5000
0,1667
1,0000

Porcentagem 100x (fi)


33,33%
50,00%
16,67%
100,00%

Observando os resultados da segunda coluna, v-se que dos 36 empregados da


Companhia, 12 tm o ensino fundamental, 18 o ensino mdio e 6 possuem curso
superior.
Uma medida bastante til na interpretao de tabelas de freqncias proporo
de cada realizao em relao ao total. Assim 6/36-0,1667 dos empregados da
companhia MB tem instruo superior.

2.3 Grficos

A representao grfica da distribuio de uma varivel tem vantagem de rpida e


concisamente, informar sobre sua variabilidade. Existem vrios grficos que podem ser
utilizados e abordaremos aqui os mais simples para as variveis quantitativas.

2.3.1 Grficos para as Variveis Qualitativas


A representao grfica da distribuio de uma varivel tem a vantagem de, rpida
e concisamente, informar sobre sua variabilidade.
Existem vrios tipos de grficos para as variveis Qualitativas. Aqui sero
ilustrados dois deles: Grficos em Barras e de Composio em Setores (Pizza).

(i) Grfico em Barras


O grfico em Barras consiste em construrem retngulos ou barras, em que uma
das dimenses proporcional magnitude a ser representada (ni), sendo a outra
arbitrria, porm igual para todas as barras. Essas barras so dispostas paralelamente
uma s outras, horizontalmente ou verticalmente. No exemplo a seguir temos o grfico
em barras (verticais) para a varivel Grau de Instruo.

Freqncias e Porcentagens dos 36 empregados da seo de oramentos da


Companhia MB segundo o grau de instruo.

Tabela 1.3.
Grau de Instruo
Freqncia (ni)
Fundamental
12
Mdio
18
Superior
6
Total
n = 36
Fonte: Bussab e Morettin (2002)

Proporo (fi)
0,3333
0,5000
0,1667
1,0000

Porcentagem (100 x fi)


33,33%
50,00%
16,67%
100,00%

Figura 1.0
Grfico em Barras para a varivel Grau de Instruo

18

18
16
14

Freqncia (ni)

12

12
10
8
6

4
2
0
Fundamental

Mdio
Grau de Instruo

Superior

(ii) Grfico de Composio em Setores (Pizza)


O grfico de composio em setores (pizza), destina-se a representar a
composio, usualmente em porcentagem, de partes de um todo. Consiste num crculo
de raio arbitrrio, representando o todo, dividido em setores, que correspondem s
partes de maneira proporcional.
Para o exemplo anterior temos o seguinte grfico:
Figura 1.1
Grfico em Setores para a varivel Grau de Instruo

50%
Fundamental
Mdio

33%
Superior

17%

2.3.2 Grficos para as Variveis Quantitativas


Para variveis Quantitativas podemos considerar uma variedade maior de
representaes grficas.

(i) Grfico em Barras


O grfico em Barras para as variveis Quantitativas construdo da mesma forma
ao das variveis Qualitativas.
Como ilustrao, considere a varivel Nmero de Filhos dos empregados
casados da seo de oramentos da Companhia MB. A Tabela 7.2 apresenta os dados.
Tabela 1.4
Freqncias e Porcentagens dos empregados da seo de oramentos da
Companhia MB, segundo o nmero de filhos.
Nmeros de Filhos (xi)
0
1
2
3
4
5
Total
Fonte: Bussab e Morettin (2002)

Freqncia (ni)
4
5
7
3
0
1
n = 20

Porcentagem (100 x fi)


20
25
35
15
0
5
100

Figura 1.2
Grfico de Barra para a varivel Nmeros de Filhos

35

35
30

25

Porcentagem

25
20

20
15

15

10

2
3
Nmeros de Filhos

(ii) Grfico de Pontos (Dot-Plot)


Quando os dados consistem em um pequeno conjunto de nmeros, estes podem
ser representados traando-se uma reta com uma escala que abranja todas as
mensuraes observadas e grafando-se as respectivas freqncias como pontos acima da
reta. Por esse motivo, tambm conhecido como grfico de pontos.

Exemplo1.3: Considere a varivel tempo, em segundos, entre carros que passam


por um cruzamento, viajando na mesma direo.
6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.

Figura 1.3
Grfico de Disperso Dot Plot

10

(iii) Histograma
O Histograma utilizado para representar a distribuio de freqncia. um
grfico de barras contguas, com bases proporcionais aos intervalos de classes e a rea
de cada retngulo proporcional respectiva freqncia relativa. Indicaremos a
amplitude do i-simo intervalo por ai. Para que a rea do retngulo respectivo seja
proporcional a fi, a sua altura deve ser proporcional a fi/ai, que chamada de densidade
de freqncia da i-sima classe. Quanto mais dados tivermos em cada classe, mais alto
deve ser o retngulo. Com essa conveno, a rea total do histograma ser 1 (um).
Exemplo: Considerando a varivel Salrio dos empregados da seo de oramentos da
Companhia MB, temos os seguintes dados:

Tabela 1.5
Freqncias e Porcentagens dos 36 empregados da seo de oramentos da
companhia MB, por faixas de salrio.
Classe de
Freqncia
Proporo
(fi)
Salrio
(ni)
04 |-- 08
10
0,2778
08 |-- 12
12
0,3333
12 |-- 16
8
0,2222
16 |-- 20
5
0,1389
20 |-- 24
1
0,0278
Total
n = 36
1,0000
Fonte: Bussab e Morettin (2002)

Porcentagem
(100 x fi)
27,78
33,33
22,22
13,89
2,78
100,00

Densidade de Freqncia
(fi/ai)
0,0695
0,0833
0,0556
0,0347
0,0070

10

Figura 1.4
Histograma da varivel Salrio

0,09

D en sid a d e d e F req n cia

0,08

0,0833

0,07
0,06

0,0695

0,05

0,0556

0,04

0,0347

0,03
0,02
0,01

0,007

04 |-- 08

08 |-- 12

12 |-- 16
Classes de Salrios

16 |-- 20

20 |-- 24

(iv) Grfico em Linhas


um grfico muito importante utilizado para representar observaes feitas ao
longo do tempo, em intervalos iguais ou no. Tais conjuntos de dados constituem as
chamadas sries histricas, ou sries temporais. Traduzem o comportamento de um
fenmeno em certo intervalo de tempo.

11

Tabela 1.6
Dvida Externa do Brasil de 1956 a 2006, em Milhes de Dlares.
Ano
Dvida
Ano
Dvida
Ano
Dvida
1956
2736
1957
2491
1958
2870
1959
3160
1960
3738
1961
3291
1962
3533
1963
3612
1964
3294
1965
3823
1966
3771
1967
3440
1968
4092
1969
4635
1970
6240
1971
8284
1972
11464
Fonte: IPEADATA

1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989

14857
20032
25115
32145
37951
52187
55803
64259
73963
85487
93745
102127
105171
111203
121188
113511
115506

1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006

123439
123910
135949
145726
148295
159256
179935
199998
241644
241468
236156
226067
227689
235414
220182
187987
191999

Figura 1.5
Grfico de Linhas para a varivel Dvida Externa do Brasil no perodo 1956 a 2006
250000

150000

100000

50000

19
56
19
58
19
60
19
62
19
64
19
66
19
68
19
70
19
72
19
74
19
76
19
78
19
80
19
82
19
84
19
86
19
88
19
90
19
92
19
94
19
96
19
98
20
00
20
02
20
04
20
06

Dvida em Milhes de Dlares

200000

Ano

12

2.4 Ramo-e-Folhas

Tanto o histograma como os grficos em barras do uma idia de forma da


distribuio da varivel sobre considerao. Por exemplo, saber que a renda per capita
de um pas de tantos dlares pode ser um dado interessante, mas saber como esta
renda se distribui mais importante.
Um procedimento alternativo para resumir um conjunto de valores, com o objetivo
de se obter uma idia da forma de sua distribuio, o Ramo-e-Folhas. Uma vantagem
desde diagrama sabre o histograma que no perdermos (ou perdemos pouca)
informao sobre os dados em si.
Exemplo 1.4
Os dados abaixo referem-se dureza de 30 peas de alumnio (Hoaglin, Mosteller
e Tukey, 1983)

53
70
82

70
71
78

84
95
55

69
51
69

77
74
72

87
55
59

53
63
55

82
85
73

67
53
52

54
64
50

Na figura 1.6: Temos o Ramo-e-Folhas correspondente.


Figura 1.6: Ramo-e-folhas para os dados de dureza de peas de alumnio.

5
6
7
8
9

01233345559
34799
00123478
22457
5

2.5 Exerccios
1) Um questionrio foi aplicado aos alunos do primeiro ano de uma escola fornecendo
as seguintes informaes:
ID:
Turma:
Sexo:
Idade:
Alt:
Peso:
Filh:
Fuma:

Identificao do aluno;
Turma a que o aluno foi alocado (A ou B);
Feminino (F) ou Masculino (M);
Idade;
Altura;
Peso;
Nmero de filhos na famlia;
Hbito de fumar (sim ou no);

13

Toler:
Tolerncia ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M)
Incomoda Muito;
Exer:
Horas de atividade fsica, por semana;
Cine:
Nmero de vezes que vai ao cinema por semana;
OpCine:
Opinio a respeito das salas de cinema na cidade: (B) regular a boa e (M)
muito boa
TV:
Horas gastas assistindo TV, por semana
OpTV:
Opinio da programao na TV: (R) Ruim, (M) Mdia, (B) Boa e (N)
no sabe.

Tabela A
Informaes do questionrio estudantil. Dados brutos.
ID Turma Sexo Idade Alt Peso Filh
1 A
F
17
1,60 60,5 2
2 A
F
18
1,69 55,0 1
3 A
M
18
1,85 72,8 2
... ...
...
...
...
...
...
49 B
M
17
1,80 71,0 1
50 B
M
18
1,83 86,0 1
Fonte: Magalhes e Pedroso de Lima (2004).

Fuma
No
No
No
...
No
No

Toler
P
M
P
...
P
P

Exer
0
0
5
...
7
7

Cine
1
1
2
...
0
7

Opcine
B
B
M
...
M
M

Tv
16,5
7
15
...
14
20

Classifique as variveis da Tabela A como:


Varivel Qualitativa Nominal:
Resoluo ID, Turma, Sexo e Fuma.
Varivel Qualitativa Ordinal:
Resoluo Toler, Opcione e Optv.
Varivel Quantitativa Discreta:
Resoluo Filho, Exer e Cine
Varivel Quantitativa Contnua:
Resoluo Idade, Alt, Peso e Tv

2) Classifique as seguintes variveis:


(a) Conceitos obtidos na Disciplina Estatstica (R:Ruim, M:Mdio, B:Bom e O:timo);
Resoluo Varivel Qualitativa Ordinal
(b) Bacias Hidrogrficas (A: Amaznica, P:Platina, SF:So Francisco, N:do Nordeste,
L:do Leste, S:do Sul);
Resoluo Varivel Qualitativa Nominal

14

OpTV
R
R
R
...
R
B

(c) Nmero de sementes germinadas (0, 1, 2, 3, 4, 5);


Resoluo Varivel Quantitativa Discreta
Tabela B: Informaes sobre estado civil, grau de instruo, numero de filhos, salrio
(expresso como frao do salrio mnimo) e procedncia de 36 empregados da seo de
oramento da Companhia MB.
Tabela B
N

Estado civil Grau de


Instrua
1
Solteiro
Ens.fundamental
2
Casado
Ens.Fundamental
3
Casado
Ens.Fundamental
4
Solteiro
Ens.Medio
5
Solteiro
Ens.Fundamental
6
Casado
Ens.Fundamental
7
Solteiro
Ens.Fundamental
Fonte: Bussab e Morettin (2002)

N de
Filhos
0
1
2
0
0
0
0

Idade

Regio de
procedncia
Interior
Capital
Capital
Outra
Outra
Interior
Interior

26
32
36
40
28
41
40

3)Usando os dados da tabela B, Construa a distribuio de freqncia das variveis.


(a)Estado Civil
Resoluo
Estado Civil

Freqncia

Solteiro
Casado
Total

4
3
7

Porcentagem 100x

57,14
42,85
100,00

(b) Regio de procedncia


Resoluo
Regio de Procedncia

Freqncia

Capital
Interior
Outro
Total

2
3
2
7

Porcentagem

28,57
42,85
28,07
100,00

15

c) Idade
Resoluo
Idade

Freqncia

26 32
32 38
38 42
Total

2
2
3
7

Porcentagem

28,27
28,57
42,85
100,00

4) Contou-se o nmero de erros de impresso da primeira pgina de um jornal durante


50 dias, obtendo os resultados abaixo.
8
6
10
7
14

11
10
16
10
8

8
14
10
14
14

12
19
12
5
8

14
6
12
12
12

13
12
8
7
10

11
7
11
9
12

14
5
6
12
22

14
8
7
11
7

15
8
12
9
15

a) Represente os dados graficamente

Resoluo

Freqncia do Nmero de Erros na Primeira pgina de um Jornal


10
9
9

8
7

Freqncia

6
5

5
5

4
4
3
3
2

2
1

0
5

10

11
12
Nmero de Erros

13

14

15

16

19

22

16

3.0 Medidas - Resumo

3.1 Medida de Posio


Vimos que o resumo de dados por meio de tabelas de freqncias e Ramo-eFolhas fornecem muito mais informaes sobre o comportamento de uma varivel do
que a prpria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes
dados apresentando um ou alguns valores que sejam representativos da srie toda>
Quando usamos um s valor, obtemos uma reduo drstica dos dados usualmente,
emprega-se uma das seguintes medidas e posio (ou localizao) central: mdio,
mediana, mximo e mnimo.
Mdia
_

A mdia a medida mais popular e representada por x , ela representa o ponto de


equilbrio da distribuio de seus valores.
Considere uma varivel x com observaes representadas, por x 1 ,x 2 ,.....x n . A
mdia desse conjunto a soma dos valores divididos pelo nmero total de observaes.
Isto
n

x + x 2 + x3 + + x n
x= 1
=
n

x
i =1

Mediana
A mediana representada por md obs o valor que ocupa a posio central dos
dados ordenados. o valor que divide os dados, isto , metade dos dados ser maior que a
mediana e metade ser menor.
Considere a seguinte srie de valores: 5, 2, 6, 13, 9, 15, 10.
De acordo com a definio de mediana, o primeiro passo a ser dado ordenar o
conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a srie em duas partes iguais
9. Logo, a mediana 9.
Moda
A moda dada pelo valor mais freqente do conjunto de dados.
Mximo e Mnimo
O mximo o valor maior da observao do conjunto de dados, enquanto que o
mnimo a menor observao.

3.2 Medidas de Disperso


Apesar das medidas de tendncia central fornecem uma idia do comportamento
das variveis, elas podem esconder valiosas informaes. Essas medidas podem no ser
suficientes para descrever e discriminar diferentes conjuntos de dados. Vamos definir
algumas medidas de disperso.

17

Definio 1.0: Amplitude de uma varivel em um conjunto de dados


A amplitude, referente, a uma varivel, definida como a diferena entre o maior
e o menor valor do conjunto de dados. Ser denotada por A.
A amplitude s leva em conta dois valores de todo o conjunto e, assim, seria mais
conveniente considerarmos uma medida que utilizasse todas as observaes. Uma idia
inicial considerar o desvio de cada observao em relao a um ponto de referncia e
ento tomar sua mdia. Caso a observao seja menor do que a referncia, o desvio
seria negativo, caso seja maior seria positivo.
A soma de tais desvios far com que termos de sinais diferentes se compensem
podendo ocultar o efeito da variabilidade.
Definio 1.1 : varincia e desvio padro em conjuntos de dados.
A varincia, referente varivel x de um conjunto de dados definido por
n

( x x ) 2 + ( x 2 x ) 2 + ( x3 x ) 2 + + ( x n x ) 2
s2 = 1
=
n 1

(x
i =1

x)2

n 1

conveniente definirmos o desvio padro como sendo

s = s2
A expresso apresenta da definio N auxilia o leitor na interpretao da
varincia como uma medida de variabilidade.
Entretanto, possvel obter uma expresso alternativa que facilita os clculos:

1 n 2
2
s =
xi n ( x )
n 1 i =1

Essa expresso evita a operao de subtrao, que em muitos casos envolvem


decimais e torna-se trabalhosa.

3.3 Quantis
Tanto a mdia como o desvio padro podem no ser medidas adequadas para
representar um conjunto de dados, pois:
So afetadas, de forma exagerada, pois valores extremos:
Apenas com estes dois valores no temos idia da simetria ou assimetria da
distribuio dos dados.
Para contornar esses fatos, outras medidas tm de ser consideradas.
Vimos que a medida um valor que deixa metade dos dados abaixo dela e metade
acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p
p-quantil, indicada por q(p), onde uma proporo qualquer 0<p<1, tal que 100% das
observaes sejam menores do que q(p).
Indicamos, abaixo , alguns quantis e seus nomes particulares.
18

q(0,25):1 Quartil=25 Percentil


q(0,50):2Quartil=Mediana=50Percentil
q(0,75):3Quartil=75Percentil
Exemplo 1.3
Suponha que tenhamos os seguintes valores de uma varivel x:
15,5,3,8,10,2,7,11,12
Ordenando os valores, obtemos as estatsticas de ordem x 1 =2, x 2 =3,...,x 9 =15, ou
seja, teremos
2<3 <5<7<8<10<11<12<15
Usando a definio de mediana dada, teremos que md=q(0,5)=x5=8 e o 1 Quartil
q(0,25)=3
3.4 Intervalo Interquartil
O intervalo interquartil a diferencia entre o terceiro quartil (Q 3 ) e o primeiro
quartil (Q 1 ), ou seja,
IQ=Q 3 -Q 1
Essa medida nos d a informao de amplitude dos 50% centrais do conjunto de
dados.
3.5 Exerccios
1) Quer se estudar o nmero de erros de impresso de um livro. Para isso
escolheu se uma amostra de pginas, encontrando se o numero de erros por pginas
da tabela abaixo.
a) Qual o nmero mdio de erros por pagina?
Resoluo

25 x0 + 20 x1 + 3 x 2 + 1x3 + 1x 4
= 0,66
50

b) Calcule a varincia?

Var=

25(0 0,66) 2 + 20(1 0,66) 2 + 3(2 0,66) 2 + 1(3 0,66) 2 + 1(4 0,66) 2
=0,704
50

c) Qual o desvio padro?


Dp= 0,704 =0,8392
d) Se o livro tem 500 pginas, qual o nmero total de erros esperado no livro?
(Pgina)x(Mdia de erros por pgina) =500 x 0,66=330 erros

19

2) Medidas da pulsao de 15 ndios nativos dos Alpes Peruanos esto apresentadas a


seguir:
64

64

68

68

76

60

72

88

60

68

80

60

72

88

60

(a) Calcule: Mdia, Mediana. ;


Resoluo
Mdia=

2 x64 + 3 x68 + 1x76 + 4 x60 + 2 x72 + 2 x72 + 2 x88 + 1x80


= 69,86
15

Colocando em ordem

60,60,60,60,64,64,68,68,68,72,72,72,76,76,80,88,88

Mediana=68
(b) Calcule: Mnimo, Q1, Q2, Q3 e Mximo;
Resoluo
Maximo=60
Mnimo=60
q(0,25) = Q1 = 60
q(0,50) = Q2 = 68
q(0,75) = Q3 =76

4.0 Variveis Bidimensionais


4.1 Introduo
Nos ltimos captulos estudamos o comportamento de apenas uma varivel, neste
capitulo estudaremos o comportamento do conjunto de dados de duas ou mais variveis.
Para trabalharmos com variveis bidimensionais muito simples, basta usarmos
as tabelas de cada varivel e construir um conjunto juntando cada x i com seu respectivo
y i e construir a tabela x/y.
O principal objetivo das analises nessa situao explorar relaes (similaridades)
entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma
varivel que estudamos, a distribuio conjunta das freqncias ser uma instrumento
poderoso para a compreenso do comportamento dos dados.
Quando consideremos duas variveis (ou dois conjunto de dados), podemos ter
trs situaes.
i) as duas variveis so qualitativas:
ii) as duas variveis so quantitativas: e
iii) uma varivel qualitativa e a outra quantitativa.
As tcnicas de analises dos conjuntos de dados nas trs so diferentes.

20

4.2 Associao entre Variveis Qualitativas


Um das principais objetivos de se construir uma distribuio conjunta de duas
variveis qualitativas descrever a associao entre elas, isto , queremos conhecer o
grau de dependncia entre elas de modo, que possamos prever melhor o resultado de
uma delas quando conhecemos a realizao da outra.
Por exemplo, suponhamos que uma pessoa, seja sorteada ao acaso numa indstria
siderrgica, teramos uma respostas mais provvel que a pessoa sorteada do sexo
masculino por ter maior proporo.Ou seja h um grau de dependncia grande entre
sexo e ramo de atividade.

Exemplo 1.4
Queremos verificar se existe ou no associao entre o sexo e a carreira escolhida
por 200 alunos de Economia e Administrao.
Distribuio conjunta das freqncias e propores (em porcentagem), segundo o sexo
(x) e o curso escolhido (y).
x

Masculino

Feminino

Total

85(61%)

35(58%)

120(60%)

Administrao 55(39%)

25(42%)

80(40%)

60(100%)

200(100%)

y
Economia

140(100%)
Total
Fonte: Bussab e Morettin (2002)

A partir dessa tabela podemos observar que independentemente do sexo, 60% das
pessoas preferem Economia a 40% preferem Administrao ( observe na coluna de
total)
No havendo dependncia entre as variveis esperaramos essas mesmas
propores para cada sexo. Observando a tabela, vemos que as propores do sexo
masculino (61% e 39%) e do sexo feminino (60% e 40%). Esses resultados parecem
indicar no haver dependncia entre que, neste caso, as variveis sexo e escolha do
curso parece ser no associados.

21

4.3 Medidas de Associao


Person definiu uma medida de associao chamada coeficiente de contingncia,
dada por
C=

X2
,
X2 +n

Que se interpreta de forma analgica ao coeficiente de correlao, a ser definido


mais adiante. Contudo o coeficiente acima no varia entre 0 e 1. O valor mximo de C
depende de r e s.
Para evitar esse inconveniente, costuma-se definir um outro coeficiente, dado por
X2

T=

n
(r 1)( s 1)

Que atinge o mximo igual a 1 se r = s.

4.4 Associao entre Variveis Quantitativas


Quando as variveis envolvidas so ambos do tipo quantitativas, pode usar o
mesmo tipo de anlise apresentado nas sees anteriores e exemplificado com variveis
qualitativas.
Um dispositivo bastante til para se verificar a associao entre duas variveis
quantitativas, ou entre dois conjuntos de dados, o grfico de disperso, que vamos
introduzir por meio exemplo.

Exemplo 1.5

Neste tipo de grfico temos os possveis pares de valores (x ,y), na ordem que
aparecem.
Para o exemplo, vemos que parece haver uma associao entre as variveis,
porque no conjunto a medida que aumenta o tempo de servio, aumenta o numero de
clientes.

22

Tabela1.5: Numero de anos de servio (x) por numero de clientes (y) de agentes de uma
Companhia de Seguros.

Tabela 1.5
Agente
Anos de Servios(x)
A
2
B
3
C
4
D
5
E
4
F
6
G
7
Fonte: Bussab e Morettin (2002)

Nmeros de clientes (y)


48
50
56
52
43
60
62

Figura1.7
Grficos de disperso para as variveis (x) anos de servios e (y): numero de clientes.

Grfico de Disperso

Numeros de clientes

70
60

50

40

Grfico de
Disperso

30
20
10
0
0

Anos de Servios

23

Se por acaso os pontos dos grficos estivessem disperso e sem ordem de


crescimento ou de diminuio havendo acumulao entres eles, no haver associao
entre as variveis.

4.5 Associao entre variveis Qualitativas e Quantitativas.


comum nessas situaes analisar o que acontece com a varivel quantitativa,
entro de cada categoria da varivel qualitativa.
Exemplo1.6
Na tabela 1.6 e temos os resultados as anlises dos salrios em funo da regio de
procedncia(v), que mostram a inexistncia de uma relao melhor definida entre essas
duas variveis ou, ainda os salrios esto mais relacionados com o grau de instruo do
que com a regio de procedncia.

Tabela 1.6: Medida-resumo para a varivel salrio segundo a regio de procedncia, na


Companhia MB.

Dp(s)
N
Regio de
S
Procedncia
Capital
11
11,46 5,22
Interior
12
11,55 5,07
Outra
13
10,45 3,02
Todos
36
11,12 4,52
Fonte: Bussab e Morettin (2002)

Var(s)

S(1)

q(1)

q(1)

q(1)

S(n)

27,27
25,71
9,13
20,46

4,56
4,00
5,73
4,00

7,41
7,81
8,74
7,05

9,77
10,64
9,80
10,17

16,63
14,70
12,79
14,66

19,40
23,30
16,22
23,30

conveniente poder contar com uma medida que quantifique o grau de


dependncia entre as variveis. Com esse intuito, convm observar que as varincias
podem ser usada como insumo para construir essa medida sem usar a informao da
varivel categorizada, a varincia calculada para a varivel quantitativa para todos os
dados mede a disperso dos dados globalmente. Se a varincia dentro de cada categoria
for pequena e menor do que a global, significa que a varivel qualitativa cada categoria
for pequena e menor do que a global significa que a varivel qualitativa melhora a
capacidade de previso da quantitativa e por tanto existe uma relao entre as duas
variveis.
Dados n pares de valores (x 1 ,y 1 ),..., (x n ,y n ), chamaremos de covarincia entre as
duas variveis x e y a
_

( x x)( y i y )
,
Cov (x,y) = i =1 i
n
n

24

Ou seja, a mdia dos produtos dos valores centrados das variveis.


Com essa definio, o coeficiente de correlao pode ser escrito como,
Corr (x, y) =

Cov( x, y )
dp ( x).dp ( y )

4.6 Exerccios
Com base na tabela abaixo, voc concluiria que o tipo de atividade est
relacionada ao fato de as embarcaes serem de propriedades estatal ou particular ?
Encontre uma medida de dependncia entre as variveis.

Atividades
Propriedades

Estatal
Particular
Total

Total
Costeira

Fluvial

Internacional

5
92
97

141
231
372

51
48
99

197
371
658

Resoluo
Tabela de desvio
Atividades
Propriedades

Estatal
Particular

Total
Costeira

Fluvial

Internacional

5(33,64)
92(63,64)

141(129,02)
231(242,98)

51(34,34)
48(64,66)

197
371

Como X 2 = 51,09 pelo resultado existe associao entre o tipo de atividade e a


propriedade das embarcaes.

25

5.0 Probabilidade
5.1 Introduo
Denominamos fenmeno aleatrio situao ou acontecimento cujos resultados
no podem ser previstos com certeza.
Chamamos de espao amostral ao conjunto de todos os resultados possveis de
certo fenmeno aleatrio. Ele ser representado pela letra grega (Omega). Os
subconjuntos de so denominados eventos e so representados pelas letras latinas
A,B,......O conjunto vazio , como j tradicional, ser denominado por .
A unio de dois eventos A e B, denotada por AUB, representa a ocorrncia de pelo
menos um dos eventos A ou B.
Dois eventos A e B so adjuntos ou mutuamente exclusivos quando no tem
elementos em comum. Isto A B = .
Dizemos que A e B so complementares se sua unio o espao amostral e sua
interseco vazia. O complemento de A ser representado por A c e temos A A c =
e A A c = .
Considera-se probabilidade como sendo uma funo P(.) que atribui valores
numricos aos eventos do espao amostral.
Definio: Probabilidade
Uma funo P(.) denominada probabilidade se satisfaz as condies:
i)0 P(A) 1, A
ii)P()=1

n n
iii)P Aj = p ( Aj ) , com os Aj ' s distintos

j =1 j =1

Pode-se atribuir probabilidade aos elementos do espao amostral de duas


maneiras, uma delas consiste na atribuio de probabilidade baseando=se em
caractersticas tericas da realizao do fenmeno.
Uma outra maneira de obter probabilidade atravs das freqncias de
ocorrncias.
Observando as diversas repeties do fenmeno em que ocorre a varivel de
interesse. Para um nmero grande de realizaes, a freqncia relativa poderia ser usada
como probabilidade.
Por ora ,assumimos que medida que o numero de repeties vai aumentando, as
freqncias relativas se estabilizam em um numero que chamarmos de probabilidade.
A probabilidade da unio de eventos calculada atravs da regra de adio de
probabilidade.

26

Sejam A e B eventos de . Ento


P(A B) =P(A) +P(B)-P(A B)

5.2 Probabilidade Condicional e Independncia


Definio: Probabilidade Condicional
Dado dois eventos A e B, a probabilidade condicional de A dado que ocorre b
P( A B)
representada por P(A B) e dada por P(A B) =
, P(B) >0.
P( B)
Caso P(B)=0,P(A B ) pode ser definido arbitrariamente, neste texto usaremos
P(A B) =P(A).
Da definio de probabilidade condicional, deduzirmos a regra do produto de
probabilidades.

Sejam A e B eventos de . Ento,


P(A B ) = P ( A B ) P ( B ),
Com P(B)>0.

Definio: Independncia de eventos


Dois eventos A e B so independentes se a afirmao da ocorrncia ou no de B no
altere a probabilidade de A. Isto ,
P(A B ) = P ( A), P ( B ) > 0,
Ou ainda a seguinte forma equivalente:
P(A B ) = P ( A BP ( B ).
Teorema de Bayes: Suponha os eventos

c , c ,c
1

3,

....,

Formem uma partipao de

e que suas probabilidades sejam conhecidas. Suponha ainda que para um evento A, se conheam

c ) para todo i =1,2,....,k. Ento, para qualquer j,

as probabilidades P(A

P(C j A ) =

P( A C j ) P (C j )
k

P( A C ) P(C )
i =1

, j = 1,2,3,......, k .

27

5.3 Exerccios
As Preferncias de homens e mulheres por cada gnero de filme alugado em uma
locadora de vdeos esto apresentadas na prxima tabela.

Sexo Filme

Comdia

Romance

Policial

Homens
Mulheres

136
102

92
195

248
62

Sorteando-se ao caso uma dessas locaes de vdeos, pergunta-se a probabilidade de:


Uma mulher ter alugado um filme de policial?
Resoluo

62
835
O filme alugado ser uma comdia?
Resoluo
P(C) = P (M) * P(C M ) + P (H) * P(C H ) = P(C H ) + P(C H )
P(C) =

102 136 238


+
=
835 835 835

Um homem ter alugado ou o filme ser um romance?


Resoluo
P(H R ) = P ( H ) + P ( R ) P ( H R )
P(H R ) =

476 287 92
+

= 0,803
835 835 835

d)O filme ser policial dado que foi alugado por um homem?
Resoluo
P(P H ) =

P( P H )
P( H )

P(P H ) =

248 476
= P( P H ) = 0,91
476 835

28

Companhia MB
Os dados abaixo correspondem a uma pesquisa realizada na Cia MB.
Foram selecionados 36 funcionrios e observadas as seguintes variveis:
estado civil, grau de instruo, nmero de filhos, salrio(em n de salrios
mnimos),
idade (em anos) e regio de procedncia.
Dados da Tabela 2.1. Pag 11 do livro.
No Estado
Civil
1
Solteiro
2
Casado
3
Casado
4
Solteiro
5
Solteiro
6
Casado
7
Solteiro
8
Solteiro
9
Casado
10 Solteiro
11 Casado
12 Solteiro
13 Solteiro
14 Casado
15 Casado
16 Solteiro
17 Casado
18 Casado
19 Solteiro
20 Solteiro
21 Casado
22 Solteiro
23 Solteiro
24 Casado
25 Casado
26 Casado
27 Solteiro
28 Casado
29 Casado
30 Casado
31 Solteiro
32 Casado
33 Casado
34 Solteiro
35 Casado
36 Casado

Instruo
ensino fundamental
ensino fundamental
ensino fundamental
ensino mdio
ensino fundamental
ensino fundamental
ensino fundamental
ensino fundamental
ensino mdio
ensino mdio
ensino mdio
ensino fundamental
ensino mdio
ensino fundamental
ensino mdio
ensino mdio
ensino mdio
ensino fundamental
superior
ensino mdio
ensino mdio
ensino mdio
ensino fundamental
superior
ensino mdio
ensino fundamental
ensino mdio
ensino mdio
ensino mdio
ensino mdio
superior
ensino mdio
superior
superior
2 grau
superior

Nmero de
Filhos
1
2

1
2

3
0
1
2

0
2
2
0
5
2
1
3
2
3

Salrio

Idade

Procedncia

4,00
4,56
5,25
5,73
6,26
6,66
6,86
7,39
7,59
7,44
8,12
8,46
8,74
8,95
9,13
9,35
9,77
9,80
10,53
10,76
11,06
11,59
12,00
12,79
13,23
13,60
13,85
14,69
14,71
15,99
16,22
16,61
17,26
18,75
19,40
23,30

26
32
36
21
41
28
41
43
34
24
34
28
37
44
30
39
32
40
26
37
31
34
41
26
32
35
47
30
41
36
31
36
44
34
49
42

Interior
Capital
Capital
Outro
Outro
Interior
Interior
Capital
Capital
Outro
Interior
Capital
Outro
Outro
Interior
Outro
Capital
Outro
Interior
Interior
Outro
Capital
Outro
Outro
Interior
Outro
Outro
Interior
Interior
Capital
Outro
Interior
Capital
Capital
Capital
Interior

29

Bibliografia
Wilton de O. Bussab, Pedro A. Morettin- Estatstica Bsica- So Paulo : Saraiva. 5 edio,
2005.

30

Você também pode gostar