Você está na página 1de 31

UNIVERSIDADE ESTADUAL PAULISTA

"JLIO DE MESQUITA FILHO"


Campus de Presidente Prudente




ESTATSTICA BSICA







Relatrio das atividades desenvolvidas no perodo
da Bolsa de Apoio Acadmico e Extenso I (PAE)
de 26/04/2007 28/02/2008.






Bolsista: Fabiano Jos dos Santos
Orientadora: Vilma Mayumi Tachibana









Presidente Prudente
2008


1
ndice


1.0 Introduo..........................................................................................................

2
1.1 O que Estatstica.............................................................................................. 3

Anlise exploratrio de dados


4
2.0 Resumo de Dados............................................................................................. 4

2.1 Classificao de variveis..................................................................................

4
2.2 Distribuio de Freqncia................................................................................ 6
2.3 Grficos..............................................................................................................
2.3.1 Grficos para Variveis Qualitativas...................................................
2.3.2 Grficos para as Variveis Quantitativas............................................
7
7
8
2.4 Ramo-e-Folhas................................................................................................... 13
2.5 Exerccios........................................................................................................... 13

3.0 Medidas-resumo...............................................................................................

17

3.1 Medida de Posio.............................................................................................

17
3.2 Medida de Disperso.......................................................................................... 17
3.3 Quantis............................................................................................................... 18
3.4 Intervalo interquartil....................................................................................... 19
3.5 Exerccios........................................................................................................... 19

4.0 Anlise Bidimensional......................................................................................

20

4.1 Introduo..........................................................................................................

20
4.2 Associao entre variveis Qualitativas............................................................. 21
4.3 Medidas de Associao...................................................................................... 22
4.4 Associao entre Variveis Quantitativas.......................................................... 22
4.5 Associao entre Variveis Qualitativas e Quantitativas................................... 24
4.6 Exerccios........................................................................................................... 25

5.0 Probabilidade...................................................................................................

26

5.1 Introduo..........................................................................................................

26
5.2 Probabilidade condicional e independncia....................................................... 27
5.3 Exerccios........................................................................................................... 28

Dados da Companhia MB..................................................................................

29

Bibliografia ............................................................................................................

30






2




1.0 Introduo



O projeto inicialmente proposto tem como objetivo o aprendizado, desenvolvimento
da anlise e o entendimento do conjunto de dados do objeto de estudo do pesquisador.
A transformao dos dados em informaes, para compar-los com outros
resultados para um melhor entendimento da anlise em que esta sendo feita ou ainda
julgar sua=adequao a alguma teoria. A Estatstica Descritiva a cincia que apresenta
processos prprios para coletar, apresentar adequadamente conjuntos de dados sejam eles
numricos ou no. Pode-se dizer que o seu objetivo o de apresentar informaes sobre
dados em anlise para que se tenha maior compreenso dos fatos em que os mesmo
representam.
A essncia da cincia a observao e que seu objetivo bsico a Inferncia. Ela
tem com finalidade a coleta, reduo, anlise e modelagem dos dados, e em procedimento
a amostra.
O estudo a ser estudado no projeto ter com base alguns desses procedimentos que
foram abordados, para uma melhor aplicao nos trabalhos em que o pesquisador
precisar observar a anlise e o conjunto de dados.


















3

1.1 O Que Estatstica



Ao longo do sculo XX, os mtodos estatsticos foram desenvolvidos como uma
mistura de cincia, tecnologia e lgica para a soluo e investigao de problemas em
vrias reas do conhecimento humano (Stigler, 1986). Ela foi reconhecida como um
campo da cincia neste perodo, mas sua histria tem incio bem anterior a 1900.
A estatstica no uma caixa-preta, nem bola de cristal, nem mgica. Tampouco
um conjunto de tcnicas teis para algumas reas isoladas ou restritas da cincia. Por
exemplo, ao contrrio do que alguns imaginam, a estatstica no um ramo da
matemtica onde se investigam os processos de obteno, organizao e anlise de
dados sobre uma determinada populao. A estatstica tambm no se limita a um
conjunto de elementos numricos relativos a um fato social, nem a nmeros, tabelas e
grficos usados para o resumo, organizao e apresentao dos dados de uma
pesquisa, embora este seja um aspecto da estatstica que pode ser facilmente percebido
no cotidiano (basta abrir os jornais e revistas para ver o "bombardeio" de estatsticas).
Ela uma cincia multidisciplinar: um mesmo programa de computador que permite a
anlise estatstica de dados de um fsico poderia tambm ser usado por um economista,
agrnomo, qumico, gelogo, matemtico, bilogo, socilogo psiclogo e cientista
poltico. Mesmo que as interpretaes dessas anlises sejam diferentes por causa das
diferenas entre as reas do conhecimento, os conceitos empregados, as limitaes das
tcnicas e as conseqncias dessas interpretaes so essencialmente as mesmas.
Segundo Rao (1999), a estatstica uma cincia que estuda e pesquisa sobre: o
levantamento de dados com a mxima quantidade de informao possvel para um dado
custo; o processamento de dados para a quantificao da quantidade de incerteza
existente na resposta para um determinado problema; a tomada de decises sob
condies de incerteza, sob o menor risco possvel. Finalmente, a estatstica tem sido
utilizada na pesquisa cientfica, para a otimizao de recursos econmicos, para o
aumento da qualidade e produtividade, na otimizao em anlise de decises, em
questes judiciais, previses e em muitas outras reas.



4
2.0 Resumo de Dados



2.1 Classificao de variveis

Varivel a caracterstica de interesse que medida em cada elemento da
amostra ou populao. Como o nome diz, seus valores variam de elemento para
elemento. As variveis podem ter valores numricos ou no numricos.

Variveis podem ser classificadas da seguinte forma:

Variveis Quantitativas: so as caractersticas que podem ser medidas em uma
escala quantitativa, ou seja, apresentam valores numricos.
Podem ser contnuas ou discretas.

Variveis discretas: caractersticas mensurveis que podem assumir apenas um
nmero finito ou infinito contvel de valores e, assim, somente valores inteiros.
Geralmente so o resultado de contagens. Exemplos: nmero de filhos, nmero de
bactrias por litro de leite, nmero de cigarros fumados por dia.

Variveis contnuas: caractersticas mensurveis que assumem valores em uma
escala contnua (na reta real), para as quais valores fracionais. Usualmente devem ser
medidas atravs de algum instrumento. Exemplos: peso (balana), altura (rgua), tempo
(relgio), presso arterial, idade.

Variveis Qualitativas (ou categricas): so as caractersticas que no possuem
valores quantitativos, mas, ao contrrio, so definidas por vrias categorias, ou seja,
representam uma classificao dos indivduos. Podem ser nominais ou ordinais.

Variveis nominais: no existe ordenao dentre as categorias. Exemplos: sexo,
cor dos olhos, fumante/no fumante, doente/sadio.

Variveis ordinais: existe uma ordenao entre as categorias. Exemplos:
escolaridade (1, 2, 3 graus), estgio da doena (inicial, intermedirio, terminal), ms
de observao (janeiro, fevereiro,..., dezembro).



Exemplo 1.0

Um pesquisador est interessado em fazer um levantamento sobre alguns aspectos
scio econmico dos empregados da seo de oramentos de uma companhia. Usando
informaes obtidas do departamento pessoal, ele elaborou a Tabela 1.0.







5

Tabela 1.0
Informaes sobre estado civil, grau de instruo, nmero de filhos, salrio
(expresso como frao do salrio mnimo), idade (medida em anos e meses) e
procedncia de 36 empregados da seo de oramentos da Companhia.


Fonte: Bussab e Morettin (2002)

Observaes sobre a Tabela 1.0.

De modo geral, para cada elemento investigado numa pesquisa, tem-se associado
um (ou mais de um) resultado correspondendo realizao de uma caracterstica
(ou caractersticas). Por exemplo, considerando a varivel estado civil, para cada
empregado pode-se associar um dos resultados, solteiro ou casado (note que poderia
haver outras possibilidades, como separado, divorciado, mas somente as duas
mencionadas foram consideradas no estudo).

Resumindo
Como as variveis so classificadas e outros exemplos:


Nominal Sexo, Cor dos Olhos.
Qualitativa
Ordinal Classe social, grau de instruo.

Discreta Nmero de filhos, nmeros de carros.
Quantitativa
Contnua Peso, altura.


Para cada tipo de varivel existem tcnicas apropriadas para resumir as
informaes dos dados obtidos da amostra. Por exemplo, a utilizao de uma tabela
uma forma de escrever os dados de uma forma resumida.
Em algumas situaes podem-se atribuir valores numricos s vrias qualidades
ou atributos de uma varivel qualitativa e depois se proceder anlise como se esta
fosse quantitativa, desde que o procedimento seja passvel de interpretao.
Existe um tipo de varivel qualitativa para a qual essa quantificao muito til:
a chamada varivel dicotmica. Para essa varivel podem ocorrer somente duas
realizaes, usualmente chamadas de sucesso e fracasso.


Exemplo 1.1: A varivel Civil, Sexo, Hbito de Fumar, etc.
Como as Variveis so classificadas e outros exemplos;
Idade N Estado
Civil
Grau de
Instruo
N de
Filhos
Salrio
Anos Meses
Regio de
Procedncia
1 Solteiro Fundamental ... 4,00 26 3 Interior
2 Casado Fundamental 1 4,56 32 10 Capital
3 Casado Fundamental 2 5,25 36 5 Capital
... ... ... ... ... ... ... ...
35 Casado Mdio 2 19,40 48 11 Capital
36 Casado Superior 3 23,30 42 2 Interior
6
Uma varivel originalmente quantitativa pode ser coletada de forma qualitativa.
Por exemplo, a varivel idade, medida em anos completos, quantitativa (contnua);
mas, se for informada apenas a faixa etria (0 a 5 anos, 6 a 10 anos, etc...), qualitativa
(ordinal). Outro exemplo o peso dos lutadores de boxe, uma varivel quantitativa
(contnua) se trabalha com o valor obtido na balana, mas qualitativa (ordinal) se o
classificarmos nas categorias do boxe (peso-pena, peso-leve, peso-pesado, etc.).
Outro ponto importante que nem sempre uma varivel representada por nmeros
quantitativa.
O nmero do telefone de uma pessoa, o nmero da casa, o nmero de sua
identidade. s vezes o sexo do indivduo registrado na planilha de dados como 1 se
macho e 2 se fmea, por exemplo. Isto no significa que a varivel sexo passou a ser
quantitativa!



2.2 Distribuio de Freqncia

Quando se estuda uma varivel, o maior interesse do pesquisador conhecer o
comportamento dessa varivel, analisando a ocorrncia de suas possveis realizaes.
Veremos uma maneira de dispor uns conjuntos de realizaes, para se ter uma idia
global sobre elas, ou seja, de sua distribuio.

Exemplo 1.2
A tabela apresenta a distribuio de freqncia da varivel grau de instruo,
usando os dados da tabela 1.0.
Tabela 1.1. Freqncia e porcentagem dos 36 empregados da seo de oramentos
da Companhia MB segundo o grau de instruo.

Grau de Instruo Freqncia (n
i
) Proporo (f
i
) Porcentagem 100x (f
i
)
Fundamental 12 0,3333 33,33%
Mdio 18 0,5000 50,00%
Superior 6 0,1667 16,67%
Total 36 1,0000 100,00%
Fonte: Bussab e Morettin (2002)



Observando os resultados da segunda coluna, v-se que dos 36 empregados da
Companhia, 12 tm o ensino fundamental, 18 o ensino mdio e 6 possuem curso
superior.
Uma medida bastante til na interpretao de tabelas de freqncias proporo
de cada realizao em relao ao total. Assim 6/36-0,1667 dos empregados da
companhia MB tem instruo superior.







7
2.3 Grficos



A representao grfica da distribuio de uma varivel tem vantagem de rpida e
concisamente, informar sobre sua variabilidade. Existem vrios grficos que podem ser
utilizados e abordaremos aqui os mais simples para as variveis quantitativas.


2.3.1 Grficos para as Variveis Qualitativas
A representao grfica da distribuio de uma varivel tem a vantagem de, rpida
e concisamente, informar sobre sua variabilidade.
Existem vrios tipos de grficos para as variveis Qualitativas. Aqui sero
ilustrados dois deles: Grficos em Barras e de Composio em Setores (Pizza).




(i) Grfico em Barras
O grfico em Barras consiste em construrem retngulos ou barras, em que uma
das dimenses proporcional magnitude a ser representada (n
i
), sendo a outra
arbitrria, porm igual para todas as barras. Essas barras so dispostas paralelamente
uma s outras, horizontalmente ou verticalmente. No exemplo a seguir temos o grfico
em barras (verticais) para a varivel Grau de Instruo.





Freqncias e Porcentagens dos 36 empregados da seo de oramentos da
Companhia MB segundo o grau de instruo.


Tabela 1.3.

Grau de Instruo Freqncia (n
i
) Proporo (f
i
) Porcentagem (100 x f
i
)
Fundamental 12 0,3333 33,33%
Mdio 18 0,5000 50,00%
Superior 6 0,1667 16,67%
Total n = 36 1,0000 100,00%
Fonte: Bussab e Morettin (2002)









8


Figura 1.0
Grfico em Barras para a varivel Grau de Instruo
12
18
6
0
2
4
6
8
10
12
14
16
18
F
r
e
q

n
c
i
a

(
n
i
)
Fundamental Mdio Superior
Grau de Instruo


(ii) Grfico de Composio em Setores (Pizza)
O grfico de composio em setores (pizza), destina-se a representar a
composio, usualmente em porcentagem, de partes de um todo. Consiste num crculo
de raio arbitrrio, representando o todo, dividido em setores, que correspondem s
partes de maneira proporcional.
Para o exemplo anterior temos o seguinte grfico:

Figura 1.1
Grfico em Setores para a varivel Grau de Instruo

50%
17%
33%
Fundamental
Mdio
Superior


2.3.2 Grficos para as Variveis Quantitativas
Para variveis Quantitativas podemos considerar uma variedade maior de
representaes grficas.



9
(i) Grfico em Barras

O grfico em Barras para as variveis Quantitativas construdo da mesma forma
ao das variveis Qualitativas.
Como ilustrao, considere a varivel Nmero de Filhos dos empregados
casados da seo de oramentos da Companhia MB. A Tabela 7.2 apresenta os dados.

Tabela 1.4
Freqncias e Porcentagens dos empregados da seo de oramentos da
Companhia MB, segundo o nmero de filhos.

Nmeros de Filhos (x
i
) Freqncia (n
i
) Porcentagem (100 x f
i
)
0 4 20
1 5 25
2 7 35
3 3 15
4 0 0
5 1 5
Total n = 20 100
Fonte: Bussab e Morettin (2002)


Figura 1.2
Grfico de Barra para a varivel Nmeros de Filhos

20
25
35
15
0
5
0
5
10
15
20
25
30
35
P
o
r
c
e
n
t
a
g
e
m
0 1 2 3 4 5
Nmeros de Filhos


(ii) Grfico de Pontos (Dot-Plot)

Quando os dados consistem em um pequeno conjunto de nmeros, estes podem
ser representados traando-se uma reta com uma escala que abranja todas as
mensuraes observadas e grafando-se as respectivas freqncias como pontos acima da
reta. Por esse motivo, tambm conhecido como grfico de pontos.

10

Exemplo1.3: Considere a varivel tempo, em segundos, entre carros que passam
por um cruzamento, viajando na mesma direo.

6, 3, 5, 6, 4, 3, 5, 4, 6, 3, 4, 5, 2, 10.


Figura 1.3

Grfico de Disperso Dot Plot









(iii) Histograma

O Histograma utilizado para representar a distribuio de freqncia. um
grfico de barras contguas, com bases proporcionais aos intervalos de classes e a rea
de cada retngulo proporcional respectiva freqncia relativa. Indicaremos a
amplitude do i-simo intervalo por a
i
. Para que a rea do retngulo respectivo seja
proporcional a f
i
, a sua altura deve ser proporcional a f
i
/a
i
, que chamada de densidade
de freqncia da i-sima classe. Quanto mais dados tivermos em cada classe, mais alto
deve ser o retngulo. Com essa conveno, a rea total do histograma ser 1 (um).

Exemplo: Considerando a varivel Salrio dos empregados da seo de oramentos da
Companhia MB, temos os seguintes dados:




Tabela 1.5
Freqncias e Porcentagens dos 36 empregados da seo de oramentos da
companhia MB, por faixas de salrio.

Classe de
Salrio
Freqncia
(n
i
)
Proporo
(f
i
)
Porcentagem
(100 x f
i
)
Densidade de Freqncia
(f
i
/a
i
)
04 |-- 08 10 0,2778 27,78 0,0695
08 |-- 12 12 0,3333 33,33 0,0833
12 |-- 16 8 0,2222 22,22 0,0556
16 |-- 20 5 0,1389 13,89 0,0347
20 |-- 24 1 0,0278 2,78 0,0070
Total n = 36 1,0000 100,00
Fonte: Bussab e Morettin (2002)


10 9 8 7 6 5 4 3 2
11


Figura 1.4
Histograma da varivel Salrio
0,0695
0,0833
0,0556
0,0347
0,007
0
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
D
e
n
s
i
d
a
d
e

d
e

F
r
e
q

n
c
i
a
04 |-- 08 08 |-- 12 12 |-- 16 16 |-- 20 20 |-- 24
Classes de Salrios









(iv) Grfico em Linhas

um grfico muito importante utilizado para representar observaes feitas ao
longo do tempo, em intervalos iguais ou no. Tais conjuntos de dados constituem as
chamadas sries histricas, ou sries temporais. Traduzem o comportamento de um
fenmeno em certo intervalo de tempo.








12


Tabela 1.6
Dvida Externa do Brasil de 1956 a 2006, em Milhes de Dlares.
Ano Dvida Ano Dvida Ano Dvida
1956 2736 1973 14857 1990 123439
1957 2491 1974 20032 1991 123910
1958 2870 1975 25115 1992 135949
1959 3160 1976 32145 1993 145726
1960 3738 1977 37951 1994 148295
1961 3291 1978 52187 1995 159256
1962 3533 1979 55803 1996 179935
1963 3612 1980 64259 1997 199998
1964 3294 1981 73963 1998 241644
1965 3823 1982 85487 1999 241468
1966 3771 1983 93745 2000 236156
1967 3440 1984 102127 2001 226067
1968 4092 1985 105171 2002 227689
1969 4635 1986 111203 2003 235414
1970 6240 1987 121188 2004 220182
1971 8284 1988 113511 2005 187987
1972 11464 1989 115506 2006 191999
Fonte: IPEADATA



Figura 1.5
Grfico de Linhas para a varivel Dvida Externa do Brasil no perodo 1956 a 2006

0
50000
100000
150000
200000
250000
1
9
5
6
1
9
5
8
1
9
6
0
1
9
6
2
1
9
6
4
1
9
6
6
1
9
6
8
1
9
7
0
1
9
7
2
1
9
7
4
1
9
7
6
1
9
7
8
1
9
8
0
1
9
8
2
1
9
8
4
1
9
8
6
1
9
8
8
1
9
9
0
1
9
9
2
1
9
9
4
1
9
9
6
1
9
9
8
2
0
0
0
2
0
0
2
2
0
0
4
2
0
0
6
Ano
D

v
i
d
a

e
m

M
i
l
h

e
s

d
e

D

l
a
r
e
s


13

2.4 Ramo-e-Folhas


Tanto o histograma como os grficos em barras do uma idia de forma da
distribuio da varivel sobre considerao. Por exemplo, saber que a renda per capita
de um pas de tantos dlares pode ser um dado interessante, mas saber como esta
renda se distribui mais importante.
Um procedimento alternativo para resumir um conjunto de valores, com o objetivo
de se obter uma idia da forma de sua distribuio, o Ramo-e-Folhas. Uma vantagem
desde diagrama sabre o histograma que no perdermos (ou perdemos pouca)
informao sobre os dados em si.

Exemplo 1.4

Os dados abaixo referem-se dureza de 30 peas de alumnio (Hoaglin, Mosteller
e Tukey, 1983)


53 70 84 69 77 87 53 82 67 54
70 71 95 51 74 55 63 85 53 64
82 78 55 69 72 59 55 73 52 50


Na figura 1.6: Temos o Ramo-e-Folhas correspondente.

Figura 1.6: Ramo-e-folhas para os dados de dureza de peas de alumnio.


0 1 2 3 3 3 4 5 5 5 9
3 4 7 9 9
0 0 1 2 3 4 7 8
2 2 4 5 7
5



2.5 Exerccios

1) Um questionrio foi aplicado aos alunos do primeiro ano de uma escola fornecendo
as seguintes informaes:

ID: Identificao do aluno;
Turma: Turma a que o aluno foi alocado (A ou B);
Sexo: Feminino (F) ou Masculino (M);
Idade: Idade;
Alt: Altura;
Peso: Peso;
Filh: Nmero de filhos na famlia;
Fuma: Hbito de fumar (sim ou no);
5
6
7
8
9
14
Toler: Tolerncia ao cigarro: (I) Indiferente, (P) Incomoda Pouco e (M)
Incomoda Muito;
Exer: Horas de atividade fsica, por semana;
Cine: Nmero de vezes que vai ao cinema por semana;
OpCine: Opinio a respeito das salas de cinema na cidade: (B) regular a boa e (M)
muito boa
TV: Horas gastas assistindo TV, por semana
OpTV: Opinio da programao na TV: (R) Ruim, (M) Mdia, (B) Boa e (N)
no sabe.


Tabela A

Informaes do questionrio estudantil. Dados brutos.

ID Turma Sexo Idade Alt Peso Filh Fuma Toler Exer Cine Opcine Tv OpTV
1 A F 17 1,60 60,5 2 No P 0 1 B 16,5 R
2 A F 18 1,69 55,0 1 No M 0 1 B 7 R
3 A M 18 1,85 72,8 2 No P 5 2 M 15 R
... ... ... ... ... ... ... ... ... ... ... ... ... ...
49 B M 17 1,80 71,0 1 No P 7 0 M 14 R
50 B M 18 1,83 86,0 1 No P 7 7 M 20 B
Fonte: Magalhes e Pedroso de Lima (2004).

Classifique as variveis da Tabela A como:
Varivel Qualitativa Nominal:
Resoluo ID, Turma, Sexo e Fuma.

Varivel Qualitativa Ordinal:
Resoluo Toler, Opcione e Optv.

Varivel Quantitativa Discreta:
Resoluo Filho, Exer e Cine

Varivel Quantitativa Contnua:
Resoluo Idade, Alt, Peso e Tv




2) Classifique as seguintes variveis:

(a) Conceitos obtidos na Disciplina Estatstica (R:Ruim, M:Mdio, B:Bom e O:timo);

Resoluo Varivel Qualitativa Ordinal

(b) Bacias Hidrogrficas (A: Amaznica, P:Platina, SF:So Francisco, N:do Nordeste,
L:do Leste, S:do Sul);
Resoluo Varivel Qualitativa Nominal

15
(c) Nmero de sementes germinadas (0, 1, 2, 3, 4, 5);
Resoluo Varivel Quantitativa Discreta

Tabela B: Informaes sobre estado civil, grau de instruo, numero de filhos, salrio
(expresso como frao do salrio mnimo) e procedncia de 36 empregados da seo de
oramento da Companhia MB.

Tabela B

N Estado civil Grau de
Instrua
N de
Filhos
Idade Regio de
procedncia
1 Solteiro Ens.fundamental 0 26 Interior
2 Casado Ens.Fundamental 1 32 Capital
3 Casado Ens.Fundamental 2 36 Capital
4 Solteiro Ens.Medio 0 40 Outra
5 Solteiro Ens.Fundamental 0 28 Outra
6 Casado Ens.Fundamental 0 41 Interior
7 Solteiro Ens.Fundamental 0 40 Interior
Fonte: Bussab e Morettin (2002)


3)Usando os dados da tabela B, Construa a distribuio de freqncia das variveis.

(a)Estado Civil

Resoluo

Estado Civil
Freqncia
ni
Porcentagem 100x
f
i

Solteiro 4 57,14
Casado 3 42,85
Total 7 100,00

(b) Regio de procedncia

Resoluo

Regio de Procedncia
Freqncia
ni
Porcentagem
f
i

Capital 2 28,57
Interior 3 42,85
Outro 2 28,07
Total 7 100,00







16

c) Idade

Resoluo

Idade
Freqncia
ni
Porcentagem
f
i

26 32 2 28,27
32 38 2 28,57
38 42 3 42,85
Total 7 100,00

4) Contou-se o nmero de erros de impresso da primeira pgina de um jornal durante
50 dias, obtendo os resultados abaixo.

8 11 8 12 14 13 11 14 14 15
6 10 14 19 6 12 7 5 8 8
10 16 10 12 12 8 11 6 7 12
7 10 14 5 12 7 9 12 11 9
14 8 14 8 12 10 12 22 7 15


a) Represente os dados graficamente

Resoluo


2
3
5
7
2
5
4
9
1
7
2
1 1 1
0
1
2
3
4
5
6
7
8
9
10
F
r
e
q

n
c
i
a
5 6 7 8 9 10 11 12 13 14 15 16 19 22
Nmero de Erros
Freqncia do Nmero de Erros na Primeira pgina de um Jornal



17

3.0 Medidas - Resumo



3.1 Medida de Posio

Vimos que o resumo de dados por meio de tabelas de freqncias e Ramo-e-
Folhas fornecem muito mais informaes sobre o comportamento de uma varivel do
que a prpria tabela original de dados. Muitas vezes, queremos resumir ainda mais estes
dados apresentando um ou alguns valores que sejam representativos da srie toda>
Quando usamos um s valor, obtemos uma reduo drstica dos dados usualmente,
emprega-se uma das seguintes medidas e posio (ou localizao) central: mdio,
mediana, mximo e mnimo.

Mdia
A mdia a medida mais popular e representada por
_
x , ela representa o ponto de
equilbrio da distribuio de seus valores.
Considere uma varivel x com observaes representadas, por x
1
,x
2
,.....x
n
. A
mdia desse conjunto a soma dos valores divididos pelo nmero total de observaes.
Isto
n
x
n
x x x x
x
n
i
i
n

=
=
+ + + +
=
1 3 2 1



Mediana
A mediana representada por md
obs
o valor que ocupa a posio central dos
dados ordenados. o valor que divide os dados, isto , metade dos dados ser maior que a
mediana e metade ser menor.
Considere a seguinte srie de valores: 5, 2, 6, 13, 9, 15, 10.
De acordo com a definio de mediana, o primeiro passo a ser dado ordenar o
conjunto de valores: 2, 5, 6, 9, 10, 13, 15. O valor que divide a srie em duas partes iguais
9. Logo, a mediana 9.

Moda
A moda dada pelo valor mais freqente do conjunto de dados.

Mximo e Mnimo
O mximo o valor maior da observao do conjunto de dados, enquanto que o
mnimo a menor observao.


3.2 Medidas de Disperso

Apesar das medidas de tendncia central fornecem uma idia do comportamento
das variveis, elas podem esconder valiosas informaes. Essas medidas podem no ser
suficientes para descrever e discriminar diferentes conjuntos de dados. Vamos definir
algumas medidas de disperso.

18
Definio 1.0: Amplitude de uma varivel em um conjunto de dados

A amplitude, referente, a uma varivel, definida como a diferena entre o maior
e o menor valor do conjunto de dados. Ser denotada por A.
A amplitude s leva em conta dois valores de todo o conjunto e, assim, seria mais
conveniente considerarmos uma medida que utilizasse todas as observaes. Uma idia
inicial considerar o desvio de cada observao em relao a um ponto de referncia e
ento tomar sua mdia. Caso a observao seja menor do que a referncia, o desvio
seria negativo, caso seja maior seria positivo.
A soma de tais desvios far com que termos de sinais diferentes se compensem
podendo ocultar o efeito da variabilidade.

Definio 1.1 : varincia e desvio padro em conjuntos de dados.

A varincia, referente varivel x de um conjunto de dados definido por


1
) (
1
) ( ) ( ) ( ) (
1
2
2 2
3
2
2
2
1 2

+ + + +
=

=
n
x x
n
x x x x x x x x
s
n
i
i
n



conveniente definirmos o desvio padro como sendo

2
s s =

A expresso apresenta da definio N auxilia o leitor na interpretao da
varincia como uma medida de variabilidade.
Entretanto, possvel obter uma expresso alternativa que facilita os clculos:


(

\
|

=

=
2
1
2 2
) (
1
1
x n x
n
s
n
i
i


Essa expresso evita a operao de subtrao, que em muitos casos envolvem
decimais e torna-se trabalhosa.


3.3 Quantis

Tanto a mdia como o desvio padro podem no ser medidas adequadas para
representar um conjunto de dados, pois:
So afetadas, de forma exagerada, pois valores extremos:
Apenas com estes dois valores no temos idia da simetria ou assimetria da
distribuio dos dados.
Para contornar esses fatos, outras medidas tm de ser consideradas.
Vimos que a medida um valor que deixa metade dos dados abaixo dela e metade
acima. De modo geral, podemos definir uma medida, chamada quantil de ordem p
p-quantil, indicada por q(p), onde uma proporo qualquer 0<p<1, tal que 100% das
observaes sejam menores do que q(p).

Indicamos, abaixo , alguns quantis e seus nomes particulares.
19
q(0,25):1 Quartil=25 Percentil
q(0,50):2Quartil=Mediana=50Percentil
q(0,75):3Quartil=75Percentil

Exemplo 1.3

Suponha que tenhamos os seguintes valores de uma varivel x:
15,5,3,8,10,2,7,11,12
Ordenando os valores, obtemos as estatsticas de ordem x
1
=2, x
2
=3,...,x
9
=15, ou
seja, teremos
2<3 <5<7<8<10<11<12<15
Usando a definio de mediana dada, teremos que md=q(0,5)=x5=8 e o 1 Quartil
q(0,25)=3

3.4 Intervalo Interquartil

O intervalo interquartil a diferencia entre o terceiro quartil (Q
3
) e o primeiro
quartil (Q
1
), ou seja,
IQ=Q
3
-Q
1

Essa medida nos d a informao de amplitude dos 50% centrais do conjunto de
dados.

3.5 Exerccios

1) Quer se estudar o nmero de erros de impresso de um livro. Para isso
escolheu se uma amostra de pginas, encontrando se o numero de erros por pginas
da tabela abaixo.

a) Qual o nmero mdio de erros por pagina?

Resoluo

x

= 66 , 0
50
4 1 3 1 2 3 1 20 0 25
=
+ + + + x x x x x


b) Calcule a varincia?

Var=
50
) 66 , 0 4 ( 1 ) 66 , 0 3 ( 1 ) 66 , 0 2 ( 3 ) 66 , 0 1 ( 20 ) 66 , 0 0 ( 25
2 2 2 2 2
+ + + +
=0,704

c) Qual o desvio padro?

Dp= 704 , 0 =0,8392

d) Se o livro tem 500 pginas, qual o nmero total de erros esperado no livro?

(Pgina)x(Mdia de erros por pgina) =500 x 0,66=330 erros
20


2) Medidas da pulsao de 15 ndios nativos dos Alpes Peruanos esto apresentadas a
seguir:

64 64 68 68 76 60 72 88 60 68 80 60 72 88 60

(a) Calcule: Mdia, Mediana. ;
Resoluo

Mdia= 86 , 69
15
80 1 88 2 72 2 72 2 60 4 76 1 68 3 64 2
=
+ + + + + + + x x x x x x x x


Colocando em ordem 60,60,60,60,64,64,68,68,68,72,72,72,76,76,80,88,88

Mediana=68
(b) Calcule: Mnimo, Q
1
, Q
2
, Q
3
e Mximo;
Resoluo

Maximo=60
Mnimo=60

q(0,25) = Q
1
= 60
q(0,50) = Q
2
= 68
q(0,75) = Q
3
=76



4.0 Variveis Bidimensionais

4.1 Introduo

Nos ltimos captulos estudamos o comportamento de apenas uma varivel, neste
capitulo estudaremos o comportamento do conjunto de dados de duas ou mais variveis.
Para trabalharmos com variveis bidimensionais muito simples, basta usarmos
as tabelas de cada varivel e construir um conjunto juntando cada x
i
com seu respectivo
y
i
e construir a tabela x/y.
O principal objetivo das analises nessa situao explorar relaes (similaridades)
entre as colunas, ou algumas vezes entre as linhas. Como no caso de apenas uma
varivel que estudamos, a distribuio conjunta das freqncias ser uma instrumento
poderoso para a compreenso do comportamento dos dados.
Quando consideremos duas variveis (ou dois conjunto de dados), podemos ter
trs situaes.
i) as duas variveis so qualitativas:
ii) as duas variveis so quantitativas: e
iii) uma varivel qualitativa e a outra quantitativa.

As tcnicas de analises dos conjuntos de dados nas trs so diferentes.

21



4.2 Associao entre Variveis Qualitativas

Um das principais objetivos de se construir uma distribuio conjunta de duas
variveis qualitativas descrever a associao entre elas, isto , queremos conhecer o
grau de dependncia entre elas de modo, que possamos prever melhor o resultado de
uma delas quando conhecemos a realizao da outra.
Por exemplo, suponhamos que uma pessoa, seja sorteada ao acaso numa indstria
siderrgica, teramos uma respostas mais provvel que a pessoa sorteada do sexo
masculino por ter maior proporo.Ou seja h um grau de dependncia grande entre
sexo e ramo de atividade.




Exemplo 1.4
Queremos verificar se existe ou no associao entre o sexo e a carreira escolhida
por 200 alunos de Economia e Administrao.

Distribuio conjunta das freqncias e propores (em porcentagem), segundo o sexo
(x) e o curso escolhido (y).













Fonte: Bussab e Morettin (2002)



A partir dessa tabela podemos observar que independentemente do sexo, 60% das
pessoas preferem Economia a 40% preferem Administrao ( observe na coluna de
total)
No havendo dependncia entre as variveis esperaramos essas mesmas
propores para cada sexo. Observando a tabela, vemos que as propores do sexo
masculino (61% e 39%) e do sexo feminino (60% e 40%). Esses resultados parecem
indicar no haver dependncia entre que, neste caso, as variveis sexo e escolha do
curso parece ser no associados.


x
y
Masculino Feminino Total
Economia 85(61%) 35(58%) 120(60%)
Administrao 55(39%) 25(42%) 80(40%)

Total
140(100%) 60(100%) 200(100%)
22



4.3 Medidas de Associao

Person definiu uma medida de associao chamada coeficiente de contingncia,
dada por

C = ,
2
2
n X
X
+


Que se interpreta de forma analgica ao coeficiente de correlao, a ser definido
mais adiante. Contudo o coeficiente acima no varia entre 0 e 1. O valor mximo de C
depende de r e s.
Para evitar esse inconveniente, costuma-se definir um outro coeficiente, dado por

T =
) 1 )( 1 (
2
s r
n
X


Que atinge o mximo igual a 1 se r = s.





4.4 Associao entre Variveis Quantitativas

Quando as variveis envolvidas so ambos do tipo quantitativas, pode usar o
mesmo tipo de anlise apresentado nas sees anteriores e exemplificado com variveis
qualitativas.
Um dispositivo bastante til para se verificar a associao entre duas variveis
quantitativas, ou entre dois conjuntos de dados, o grfico de disperso, que vamos
introduzir por meio exemplo.



Exemplo 1.5


Neste tipo de grfico temos os possveis pares de valores (x ,y), na ordem que
aparecem.
Para o exemplo, vemos que parece haver uma associao entre as variveis,
porque no conjunto a medida que aumenta o tempo de servio, aumenta o numero de
clientes.




23



Tabela1.5: Numero de anos de servio (x) por numero de clientes (y) de agentes de uma
Companhia de Seguros.





Tabela 1.5
Agente Anos de Servios(x) Nmeros de clientes (y)
A 2 48
B 3 50
C 4 56
D 5 52
E 4 43
F 6 60
G 7 62
Fonte: Bussab e Morettin (2002)


Figura1.7
Grficos de disperso para as variveis (x) anos de servios e (y): numero de clientes.



Grfico de Disperso
2
3
4
5
4
6
7
0
10
20
30
40
50
60
70
0 2 4 6 8
Anos de Servios
N
u
m
e
r
o
s

d
e

c
l
i
e
n
t
e
s
Grfico de
Disperso
24
Se por acaso os pontos dos grficos estivessem disperso e sem ordem de
crescimento ou de diminuio havendo acumulao entres eles, no haver associao
entre as variveis.



4.5 Associao entre variveis Qualitativas e Quantitativas.

comum nessas situaes analisar o que acontece com a varivel quantitativa,
entro de cada categoria da varivel qualitativa.

Exemplo1.6

Na tabela 1.6 e temos os resultados as anlises dos salrios em funo da regio de
procedncia(v), que mostram a inexistncia de uma relao melhor definida entre essas
duas variveis ou, ainda os salrios esto mais relacionados com o grau de instruo do
que com a regio de procedncia.



Tabela 1.6: Medida-resumo para a varivel salrio segundo a regio de procedncia, na
Companhia MB.

Regio de
Procedncia
N

S
Dp(s) Var(s) S(1) q(1) q(1) q(1) S(n)
Capital 11 11,46 5,22 27,27 4,56 7,41 9,77 16,63 19,40
Interior 12 11,55 5,07 25,71 4,00 7,81 10,64 14,70 23,30
Outra 13 10,45 3,02 9,13 5,73 8,74 9,80 12,79 16,22
Todos 36 11,12 4,52 20,46 4,00 7,05 10,17 14,66 23,30
Fonte: Bussab e Morettin (2002)




conveniente poder contar com uma medida que quantifique o grau de
dependncia entre as variveis. Com esse intuito, convm observar que as varincias
podem ser usada como insumo para construir essa medida sem usar a informao da
varivel categorizada, a varincia calculada para a varivel quantitativa para todos os
dados mede a disperso dos dados globalmente. Se a varincia dentro de cada categoria
for pequena e menor do que a global, significa que a varivel qualitativa cada categoria
for pequena e menor do que a global significa que a varivel qualitativa melhora a
capacidade de previso da quantitativa e por tanto existe uma relao entre as duas
variveis.

Dados n pares de valores (x
1
,y
1
),..., (x
n
,y
n
), chamaremos de covarincia entre as
duas variveis x e y a

Cov (x,y) = ,
) )( (
1
_ _

=
n
i
i i
n
y y x x

25

Ou seja, a mdia dos produtos dos valores centrados das variveis.
Com essa definio, o coeficiente de correlao pode ser escrito como,

Corr (x, y) =
) ( ). (
) , (
y dp x dp
y x Cov






4.6 Exerccios

Com base na tabela abaixo, voc concluiria que o tipo de atividade est
relacionada ao fato de as embarcaes serem de propriedades estatal ou particular ?
Encontre uma medida de dependncia entre as variveis.


Atividades


Propriedades


Costeira Fluvial Internacional

Total
Estatal 5 141 51 197
Particular 92 231 48 371
Total 97 372 99 658



Resoluo

Tabela de desvio

Atividades


Propriedades


Costeira Fluvial Internacional

Total
Estatal 5(33,64) 141(129,02) 51(34,34) 197
Particular 92(63,64) 231(242,98) 48(64,66) 371


Como X
2
= 51,09 pelo resultado existe associao entre o tipo de atividade e a
propriedade das embarcaes.







26



5.0 Probabilidade

5.1 Introduo

Denominamos fenmeno aleatrio situao ou acontecimento cujos resultados
no podem ser previstos com certeza.
Chamamos de espao amostral ao conjunto de todos os resultados possveis de
certo fenmeno aleatrio. Ele ser representado pela letra grega (Omega). Os
subconjuntos de so denominados eventos e so representados pelas letras latinas
A,B,......O conjunto vazio , como j tradicional, ser denominado por .
A unio de dois eventos A e B, denotada por AUB, representa a ocorrncia de pelo
menos um dos eventos A ou B.
Dois eventos A e B so adjuntos ou mutuamente exclusivos quando no tem
elementos em comum. Isto A = B .
Dizemos que A e B so complementares se sua unio o espao amostral e sua
interseco vazia. O complemento de A ser representado por A
c
e temos AA
c
=
e AA
c
= .

Considera-se probabilidade como sendo uma funo P(.) que atribui valores
numricos aos eventos do espao amostral.

Definio: Probabilidade

Uma funo P(.) denominada probabilidade se satisfaz as condies:

i)0 P(A) 1, A

ii)P()=1
iii)P
|
|

\
|
=

n
j
Aj
1
= ( )

=
n
j
Aj
p
1
, com os s Aj ' distintos

Pode-se atribuir probabilidade aos elementos do espao amostral de duas
maneiras, uma delas consiste na atribuio de probabilidade baseando=se em
caractersticas tericas da realizao do fenmeno.
Uma outra maneira de obter probabilidade atravs das freqncias de
ocorrncias.
Observando as diversas repeties do fenmeno em que ocorre a varivel de
interesse. Para um nmero grande de realizaes, a freqncia relativa poderia ser usada
como probabilidade.
Por ora ,assumimos que medida que o numero de repeties vai aumentando, as
freqncias relativas se estabilizam em um numero que chamarmos de probabilidade.
A probabilidade da unio de eventos calculada atravs da regra de adio de
probabilidade.


27

Sejam A e B eventos de . Ento
P(AB) =P(A) +P(B)-P(AB)



5.2 Probabilidade Condicional e Independncia

Definio: Probabilidade Condicional

Dado dois eventos A e B, a probabilidade condicional de A dado que ocorre b
representada por P(A B) e dada por P(A B) =
) (
) (
B P
B A P
, P(B) >0.
Caso P(B)=0,P(A B) pode ser definido arbitrariamente, neste texto usaremos
P(A ) B =P(A).

Da definio de probabilidade condicional, deduzirmos a regra do produto de
probabilidades.



Sejam A e B eventos de . Ento,

P(A ), ( ) ( ) B P B A P B =

Com P(B)>0.



Definio: Independncia de eventos

Dois eventos A e B so independentes se a afirmao da ocorrncia ou no de B no
altere a probabilidade de A. Isto ,

P(A , 0 ) ( ), ( ) > = B P A P B
Ou ainda a seguinte forma equivalente:
P(A ). ( ( ) B BP A P B =

Teorema de Bayes: Suponha os eventos
c1
,
c2
,
c , 3
....,
ck
Formem uma partipao de
e que suas probabilidades sejam conhecidas. Suponha ainda que para um evento A, se conheam
as probabilidades P(A
ci
) para todo i =1,2,....,k. Ento, para qualquer j,

P(C
j
A) = . ,......, 3 , 2 , 1 ,
) ( ) (
) ( ) (
1
k j
C P C A P
C P C A P
k
i
i i
j j
=

=



28

5.3 Exerccios

As Preferncias de homens e mulheres por cada gnero de filme alugado em uma
locadora de vdeos esto apresentadas na prxima tabela.

Filme Sexo
Comdia Romance Policial
Homens 136 92 248
Mulheres 102 195 62

Sorteando-se ao caso uma dessas locaes de vdeos, pergunta-se a probabilidade de:

Uma mulher ter alugado um filme de policial?

Resoluo
835
62


O filme alugado ser uma comdia?

Resoluo

P(C) = P (M) * P(C ) M + P (H) * P(C ) H = P(C ) H + P(C ) H
P(C) =
835
238
835
136
835
102
= +

Um homem ter alugado ou o filme ser um romance?

Resoluo

P(H ) ( ) ( ) ( ) R H P R P H P R + =

P(H 803 , 0
835
92
835
287
835
476
) = + = R

d)O filme ser policial dado que foi alugado por um homem?

Resoluo

P(P ) H =
) (
) (
H P
H P P


P(P ) H = P P(
835
476
476
248
= 91 , 0 ) = H







29



Companhia MB

Os dados abaixo correspondem a uma pesquisa realizada na Cia MB.
Foram selecionados 36 funcionrios e observadas as seguintes variveis:
estado civil, grau de instruo, nmero de filhos, salrio(em n de salrios
mnimos),
idade (em anos) e regio de procedncia.
Dados da Tabela 2.1. Pag 11 do livro.

No Estado Instruo Nmero de Salrio Idade Procedncia
Civil Filhos
1 Solteiro ensino fundamental 4,00 26 Interior
2 Casado ensino fundamental 1 4,56 32 Capital
3 Casado ensino fundamental 2 5,25 36 Capital
4 Solteiro ensino mdio 5,73 21 Outro
5 Solteiro ensino fundamental 6,26 41 Outro
6 Casado ensino fundamental 0 6,66 28 Interior
7 Solteiro ensino fundamental 6,86 41 Interior
8 Solteiro ensino fundamental 7,39 43 Capital
9 Casado ensino mdio 1 7,59 34 Capital
10 Solteiro ensino mdio 7,44 24 Outro
11 Casado ensino mdio 2 8,12 34 Interior
12 Solteiro ensino fundamental 8,46 28 Capital
13 Solteiro ensino mdio 8,74 37 Outro
14 Casado ensino fundamental 3 8,95 44 Outro
15 Casado ensino mdio 0 9,13 30 Interior
16 Solteiro ensino mdio 9,35 39 Outro
17 Casado ensino mdio 1 9,77 32 Capital
18 Casado ensino fundamental 2 9,80 40 Outro
19 Solteiro superior 10,53 26 Interior
20 Solteiro ensino mdio 10,76 37 Interior
21 Casado ensino mdio 1 11,06 31 Outro
22 Solteiro ensino mdio 11,59 34 Capital
23 Solteiro ensino fundamental 12,00 41 Outro
24 Casado superior 0 12,79 26 Outro
25 Casado ensino mdio 2 13,23 32 Interior
26 Casado ensino fundamental 2 13,60 35 Outro
27 Solteiro ensino mdio 13,85 47 Outro
28 Casado ensino mdio 0 14,69 30 Interior
29 Casado ensino mdio 5 14,71 41 Interior
30 Casado ensino mdio 2 15,99 36 Capital
31 Solteiro superior 16,22 31 Outro
32 Casado ensino mdio 1 16,61 36 Interior
33 Casado superior 3 17,26 44 Capital
34 Solteiro superior 18,75 34 Capital
35 Casado 2 grau 2 19,40 49 Capital
36 Casado superior 3 23,30 42 Interior




30


Bibliografia

Wilton de O. Bussab, Pedro A. Morettin- Estatstica Bsica- So Paulo : Saraiva. 5 edio,
2005.

Você também pode gostar