Você está na página 1de 25

INSTITUTO POLITCNICO DE BEJA

ESCOLA SUPERIOR AGRRIA DE BEJA


Estatstica
2Ano 1 Semestre
2010/2011



Biologia
Engenharia Alimentar
Engenharia do Ambiente
Engenharia Agronmica








2
Estatstica


Introduo

Desde sempre que as sociedades sentiram necessidade de
conhecimento numrico dos recursos existentes. Desta forma, as
primeiras operaes estatsticas, tinham como objectivo conhecer as
caractersticas das populaes atravs de contagens.
Foi no sc. XVII que a Estatstica teve o seu ponto de viragem, deixou de
ser exclusivamente uma tcnica de contagem, usada para traduzir
numericamente factos e fenmenos, e passou a incluir a anlise dos
fenmenos, elaborando modelos para o seu comportamento ou
evoluo, possibilitando a realizao de previses.
Hoje em dia, num mundo cada vez mais dependente da informao, a
Estatstica, tornou-se uma ferramenta imprescindvel na tomada de
decises, em reas to diversas como a Agricultura, a Medicina, a
Engenharia ou o Marketing.
Do conjunto de procedimentos e tcnicas que compem a Estatstica
distinguem-se os que servem para recolher, organizar, sintetizar e
descrever os dados, que formam a Estatstica Descritiva, e os que, com
base na Teoria das Probabilidades permitem a anlise e a interpretao
dos dados assim como efectuar inferncias sobre uma populao com
base no estudo de uma amostra: Estatstica Indutiva ou Inferncia
Estatstica.






As etapas do Mtodo Estatstico

3
Estatstica

Tem sido comum dois estatsticos utilizando mtodos similares, no
chegarem s mesmas concluses. Existem processos e etapas
elaboradas na Estatstica que definem um mtodo estatstico e que
devem obedecer aos seguintes pressupostos:

1-Identificao do Problema
2-Recolha de Dados
3-Crtica de dados
4-Apresentao de Dados
5-Anlise Interpretao

No que se refere identificao do Problema fundamental j existir
algum conhecimento estatstico. Apesar de se recorrer por vezes a
alguma informao j recolhida, torna-se necessrio que a informao
seja credvel.
Na recolha de dados dever haver a preocupao que a recolha seja
to completa quanto possvel, podendo esta ser obtida de forma
contnua, peridica ou ocasional.
Aps a recolha de dados deve-se proceder a uma reviso crtica de
modo a suprimir valores estranhos e de modo a obter-se um informao
mais verdadeira.
Posteriormente, na apresentao dos dados que comea o principal
papel da Estatstica Descritiva com a criao de instrumentos para
classificar e apresentar conjuntos de dados numricos de modo a que a
informao neles contida seja apreendida mais fcil e rapidamente.
Na anlise e Interpretao dos resultados, embora por vezes surjam
concluses diferentes ser importante ter em ateno a representao
dos dados recolhidos.

Populao, Unidade Estatstica, Amostra

Populao o conjunto de objectos, indivduos ou resultados
experimentais acerca do qual se pretende estudar alguma
caracterstica comum.
Aos elementos da populao chamamos unidades estatsticas.

Amostra uma parte da populao que observada com o objectivo
de obter informao para estudar a caracterstica pretendida.
O objectivo de uma sondagem o de recolher informao acerca de
uma populao, seleccionando e observando um conjunto de
elementos dessa populao.

4
Estatstica

Sondagem Estudo estatstico de uma populao, feito atravs de uma
amostra, destinado a estudar uma ou mais caractersticas tais como
elas se apresentam nessa populao.
Se se observarem todos os elementos da populao tem-se um
recenseamento.



Amostragem

Ao optar por um estudo por amostragem h que definir quais as
unidades estatsticas que vo pertencer amostra. Para tal necessrio
saber quantas unidades se devem observar, como vo ser
seleccionadas essas unidades e qual o grau de preciso pretendido ao
extrapolar os resultados da amostra para a populao.
Intuitivamente conclui-se que quanto maior for a dimenso da amostra
melhores sero os resultados obtidos, mas este no o nico factor que
intervm na preciso dos resultados. A forma como so escolhidas as
unidades estatsticas, que iro compor a amostra, tambm
importante.
Atendendo a que, para realizar um estudo por amostragem
necessrio despender quantias avultadas, a deciso de qual a
dimenso da amostra a observar deve basear-se num equilbrio entre
preciso de resultados e custo. O uso de tcnicas de amostragem
adequadas permite aumentar a preciso dos resultados sem aumentar
os custos, conseguindo-se determinar a dimenso da amostra ideal
para determinada preciso pretendida (ou vice-versa).


Amostra enviesada. Amostra aleatria e amostra no
aleatria.
Uma amostra que no seja representativa da Populao diz-se
enviesada e a sua utilizao pode dar origem a interpretaes erradas.
5
Estatstica


Um processo de amostragem diz-se enviesado quando tende
sistematicamente a seleccionar elementos de alguns segmentos da
Populao, e a no seleccionar sistematicamente elementos de outros
segmentos da Populao.
Surge assim, a necessidade de fazer um planeamento da amostragem,
onde se decide quais e como devem ser seleccionados os elementos
da Populao, com o fim de serem observados, relativamente
caracterstica de interesse.

Amostra aleatria e amostra no aleatria Dada uma populao,
uma amostra aleatria uma amostra tal que qualquer elemento da
populao tem alguma probabilidade de ser seleccionado para a
amostra. Numa amostra no aleatria, alguns elementos da
populao podem no poder ser seleccionados para a amostra.

Normalmente obtm-se amostras enviesadas quando existe a
interveno do factor humano. Com o objectivo de minimizar o
enviesamento, no planeamento da escolha da amostra deve ter-se
presente o princpio da aleatoriedade de forma a obter uma amostra
aleatria.

Tcnicas de amostragem aleatria
Seguidamente apresentaremos alguns dos planeamentos mais utilizados
para seleccionar amostras aleatrias. Dos vrios tipos de planeamento
utilizados, destacam-se os que conduzem a amostras aleatrias simples,
amostras sistemticas e amostras estratificadas.
Amostragem aleatria simples

O plano de amostragem aleatria mais bsico o que permite obter a
amostra aleatria simples:
Amostra aleatria simples - Dada uma populao, uma amostra
aleatria simples de dimenso n um conjunto de n unidades da
populao, tal que qualquer outro conjunto de n unidades teria igual
probabilidade de ser seleccionado.

Apesar de ser o mais simples dos mtodos probabilsticos, o mtodo da
amostragem aleatria simples torna-se muitas vezes impraticvel por
exigir uma completa listagem e enumerao da populao.
6
Estatstica


Como seleccionar uma amostra aleatria simples?
1. Para seleccionar uma amostra aleatria simples, teoricamente o
processo mais simples consiste em colocar objectos identificadores
(bolas, bocados de papel de igual dimenso, etc) de todos os
elementos da populao numa caixa, e retirar um a um,
sequencialmente, sem reposio. Os elementos seleccionados sero
observados relativamente caracterstica de interesse.
2. O processo anterior pouco prtico, pelo que normalmente
substitudo por uma seleco feita utilizando uma tabela de dgitos
aleatrios:

Dgitos aleatrios (ou nmeros aleatrios) - Uma tabela de dgitos
aleatrios uma listagem dos dgitos 0, 1, 2, 3, 4, 5, 6, 7, 8 ou 9 tal que:
- qualquer um dos dgitos considerados tem igual possibilidade de
figurar em qualquer posio da lista;
- a posio em que figura cada dgito independente das posies
dos outros dgitos.




Apresenta-se a seguir um extracto de uma tabela de nmeros
aleatrios (Moore, 1997). O facto de os dgitos se apresentarem
agrupados 5 a 5 s para facilidade de leitura.



7
Estatstica

A partir da tabela de dgitos aleatrios podem-se obter nmeros
aleatrios de 2 dgitos - qualquer par dos 100 pares possveis 00, 01, 98,
99, tem igual probabilidade de ser seleccionado, de 3 dgitos - qualquer
triplo dos 1000 triplos possveis 000, 001, 998, 999, tem igual
probabilidade de ser seleccionado, etc, agupando os dgitos da tabela
2 a 2, 3 a 3, etc, a partir de uma linha qualquer e percorrendo-a da
esquerda para a direita.
Para seleccionar uma amostra de uma populao utilizando a tabela
procede-se em duas etapas:
1. atribui-se um nmero a cada elemento da populao. Esta
atribuio ter de ser feita com as devidas precaues, de forma a
que cada nmero tenha o mesmo nmero de dgitos, para ter igual
probabilidade de ser seleccionado;
2. a partir da tabela escolhe-se uma linha ao acaso e comea-se a
percorr-la da esquerda para a direita, tomando de cada vez os
dgitos necessrios.

Exemplo 1 - Considerando a populao constituda por 18 alunos de
uma turma, vamos numer-los com os nmeros 01, 02, 03, , 17, 18
(podia ser utilizado qualquer outro conjunto de 18 nmeros de 2 dgitos).
Para seleccionar uma amostra de dimenso 4 fixamo-nos numa linha
qualquer da tabela, por exemplo a linha 107 e comeamos a
seleccionar os nmeros de dois dgitos, tendo-se obtido:

82 73 95 78 90 20 80 74 75 11 81 67 65 53 00 94 38 31 48 93 60 94 07 20 24
17 86 82 49 43 61 79 09
Tivemos de ler 33 nmeros, dos quais s aproveitmos 4, pois os outros
no correspondiam a elementos da populao.

Amostragem aleatria sistemtica

Na prtica o processo de seleccionar uma amostra aleatria simples de
uma populao com grande dimenso, no to simples como o
descrito anteriormente. Uma alternativa considerar uma amostra
aleatria sistemtica. Por exemplo, se pretendermos seleccionar uma
amostra de 150 alunos de uma Universidade com 6000 alunos,
considera-se um ficheiro com o nome dos 6000 alunos ordenados por
ordem alfabtica. Considera-se o quociente 6000/150=40 e dos
primeiros 40 elementos da lista, selecciona-se um aleatoriamente. A
partir deste elemento seleccionamos sistematicamente todos os
elementos distanciados de 40 unidades. Assim, se o elemento
seleccionado aleatoriamente de entre os primeiros 40, foi o 27, os outros
elementos a serem seleccionados so 67, 107, 147, etc. Quando o
8
Estatstica

quociente entre a dimenso da populao e a da amostra no for
inteiro, como anteriormente, considera-se a parte inteira desse
quociente.



Amostra aleatria sistemtica Dada uma populao de dimenso N,
ordenada por algum critrio, se se pretende uma amostra de dimenso
n, escolhe-se aleatoriamente um elemento de entre os k primeiros,
onde k a parte inteira do quociente N/n. A partir desse elemento
escolhido, escolhem-se todos os k-simos elementos da populao
para pertencerem amostra.


Amostragem estratificada

Pode acontecer que a populao possa ser subdividida em vrias
subpopulaes, mais ou menos homogneas relativamente
caracterstica a estudar. Por exemplo, se se pretende estudar o salrio
mdio auferido pelas famlias lisboetas, possvel dividir a regio de
Lisboa segundo zonas mais ou menos homogneas, estratos, quanto
caracterstica em estudo salrio mdio, e posteriormente extrair de
cada um destes estratos uma percentagem de elementos que iro
constituir a amostra, sendo esta percentagem, de um modo geral,
proporcional dimenso dos estratos.

Amostra estratificada Divide-se a populao em vrias
subpopulaes estratos, e de cada uma destes estratos extrai-se
aleatoriamente uma amostra. O conjunto de todas estas amostras
constitui a amostra pretendida.

Exemplo - Suponhamos que se pretendia estudar o volume das vendas
de prestao de servios, das empresas de construo civil. Podemos
partida considerar a Populao das empresas divididas em 3 estratos,
quanto ao nmero de trabalhadores que emprega: pequenas - 10 ou
menos trabalhadores, mdias - entre 11 e 40 e grandes - mais de 41
trabalhadores. Uma vez identificados os estratos, procede-se numa
segunda etapa recolha de uma amostra aleatria simples dentro de
cada estrato. Admitindo que a Populao em estudo constituda por
500 empresas, das quais 55% so pequenas, 35% so mdias e 10% so
grandes e que a dimenso da amostra pretendida de 85,
seleccionaramos amostras de dimenso 47 (85x0.55=46.75), 30
(85x0.35=29.75) e 8 (85x0.10=8.5), respectivamente do conjunto das
pequenas, das mdias ou das grandes empresas.

9
Estatstica

Amostragem por clusters , grupos ou conglomerados
Por exemplo, suponha que se pretende estudar o nvel de satisfao
dos trabalhadores txteis, das empresas do Norte do Pas. No dispondo
de uma lista com todos os trabalhadores, considera-se uma lista de
todas as empresas txteis clusters, admitindo-se que o conjunto de
trabalhadores de cada empresa caracteriza convenientemente a
populao que se pretende estudar. A partir dessa lista seleccionam-se
aleatoriamente algumas empresas e considera-se a amonstra
constituda por todos os trabalhadores das empresas seleccionadas.


Amostra por clusters A populao dividida em clusters, onde cada
cluster representativo da populao. Selecciona-se aleatoriamente
um conjunto de clusters e a amostra constituda por todos os
elementos dos clusters seleccionados.



Dados qualitativos e dados quantitativos

Num estudo estatstico parte-se de um conjunto. Cada elemento desse
conjunto (a unidade estatstica) tem, provavelmente, muitos caracteres,
caractersticas ou atributos a que chamamos variveis. Por exemplo:

Variveis
Altura de uma pessoa
Marca de um automvel
Velocidade do carro
Cor dos olhos
Valor observado
65 kg
Opel
80 km/h
Azul

Os dados, resultantes da observao dessas variveis, classificam-se em
qualitativos ou quantitativos.

Os dados qualitativos representam a informao que indica alguma
qualidade, categoria ou caracterstica no susceptveis de medida,
mas de classificao.

Os dados quantitativos representam a informao resultante de
caractersticas susceptveis de serem medidas. So dados numricos e
podem ser de natureza discreta dados discretos ou contnua dados
contnuos.

As variveis quantitativas podem ser discretas ou contnuas.

Uma varivel discreta quando s pode tomar um nmero finito ou
infinito numervel de valores distintos.
10
Estatstica

Uma varivel contnua quando pode tomar todos os valores
numricos compreendidos no seu intervalo de variao.

Exemplo:

No conjunto dos alunos de uma turma consideram-se as seguintes
variveis quantitativas:
o nmero de irmos;
a altura.

A varivel nmero de irmos uma varivel estatstica discreta.
A altura dos alunos de uma turma um exemplo de uma varivel
estatstica contnua.

Resumindo:














Aps a recolha dos dados, estes so apresentados em tabelas e
grficos de forma a ser mais fcil analisar o comportamento do
fenmeno na sua totalidade.
A ltima fase do trabalho estatstico a mais importante e a mais
delicada, pois nesta fase que se tiram as concluses que permitiro
resolver o problema inicial que deu origem ao estudo estatstico.
A anlise dos dados estatsticos est intimamente ligada ao clculo das
medidas estatsticas que permitem analisar os dados como conjunto e
descrever o fenmeno. Nesta fase possvel arriscar algumas
generalizaes, tendo, no entanto, presente que estas envolvem algum
grau de incerteza.


Noes de Estatstica Descritiva

Tabela de distribuio de frequncias

Considere-se:
11
Estatstica


X uma varivel aleatria discreta, que representa a caracterstica a ser
estudada.
N o total de elementos em estudo.
i
x o valor de ndice i, que foi observado para a caracterstica estudada.
i
n a frequncia absoluta correspondente ao valor
i
x (o nmero de
elementos da populao para os quais a varivel X toma o valor
i
x ).
ai
n a frequncia absoluta acumulada at ao valor
i
x
1
i
ai k
k
n n
=
| |
=
|
\


i
f a frequncia relativa associada ao valor
i
x (
i
i
n
f
N
= , devolve o peso
ou proporo que o valor
i
x tem em relao ao todo observado para a
caracterstica estudada)
ai
f a frequncia acumulada at ao valor
i
x
1
i
ai i
k
f f
=
| |
=
|
\



Tabela de distribuio de frequncias

Valores da
caracterstica
Estudada(X)
Frequncia
absoluta
Frequncia
absoluta
acumulada
Frequncia
relativa

Frequncia
relativa
percentagem
Frequncia
relativa
acumulada
1
x
1
n
1 a
n
1
f
1
f %
1 a
f
2
x
2
n
2 a
n
2
f
2
f %
2 a
f
M M M M M M
i
x
i
n
ai
n
i
f
i
f %
ai
f
M M M M M M
N
x
N
n
aN
n
N
f
N
f %
aN
f





Construo de classes

Face grande variedade de valores que uma varivel aleatria
contnua pode assumir (ou mesmo uma v.a. discreta que apresente
uma grande diversidade de valores) torna-se necessrio agrupar esses
valores em intervalos de classes, de forma a simplificar todos os
procedimentos posteriores.

12
Estatstica

inf sup
, L L

uma classe com limite superior
sup
L e limite inferior
inf
L .
k considerado o nmero de classes necessrio
Frmula de Sturges:
log
1 int
log 2
n
k
| |
= +
|
\

com ( ) int x a parte inteira do valor x e n o nmero total de observaes.
i
a a amplitude das classes.
max min
i
x x
a
k

=
com
max
x a observao de valor mais elevado e
min
x a observao de
menor valor

i
c o ponto mdio da classe de ordem i,
inf sup
2
i
L L
c
+
=
Se k for par comeamos a construir as classes pelo valor entre a classe
de ordem
2
k
e 1
2
k
+ .
Se k for impar comeamos a construir a classes a partir do ponto mdio
da classe de ordem
1
2
k +



Regras para construo de classes:

Nenhuma classe dever ter frequncia nula
As classes devem ter, sempre que possvel, amplitudes iguais
O nmero de classes deve ser entre 4 e 14.
Os pontos mdios, devem ser nmeros que facilitem os clculos

Grficos

Para alm do impacto visual, a representao grfica possui a grande
vantagem de permitir, atravs de uma rpida observao, uma
percepo dos principais aspectos dos fenmenos em estudo.
Como um grfico no pode traduzir todas as caractersticas da
distribuio em estudo, pretendendo-se uma caracterizao exaustiva
dessa distribuio, a representao grfica deve funcionar como um
complemento apresentao dos dados numa tabela de frequncias.
13
Estatstica

Um dos factos que torna desaconselhvel o uso isolado de grficos, a
possibilidade de a sua observao originar concluses distorcidas.
Assim, muito importante que:
- na construo de um grfico se tomem as devidas precaues para
que ele traduza a verdade dos factos.
- na observao de um grfico se esteja alerta para a possibilidade de
a verdade estar escondida, no sendo observvel atravs de uma
observao rpida e pouco atenta.

Grfico linear:

-normalmente descreve a evoluo de um fenmeno ao longo do
tempo

-eixo do xx: valores (qualidades) da caracterstica (ex: tempo)
-eixo do yy: valores das frequncias absolutas ou relativas






Grfico de barras:

-normalmente serve para analisar diferenas de intensidade de uma
caracterstica, podem ser barras verticais ou horizontais

-eixo do xx: valores (qualidades) da caracterstica (ex: tempo) (barras
verticais)
-eixo do yy: valores das frequncias absolutas ou relativas (barras
verticais)


0
0,2
0,4
0,6
0,8
1
1,2
1999 2000 2001 2002 2003 2004 2005 2006 2007 2008
14
Estatstica




Pictograma:

-anlogos aos grficos de barras mas com figuras que representam a
caracterstica analisada



26
15 20 22 15


Maio Junho Julho Agosto Setembro


Sectograma ou grfico circular:

-representao grfica constituda por um circulo, dividido em sectores.

-Cada sector representa um dos valores (qualidade) da varivel.

-A amplitude angular de cada sector proporcional frequncia
absoluta ou relativa.



Histograma:

0
2
4
6
8
10
12
1 2 3 4 5
n
i
-
f
r
e
q
u

n
c
i
a
s
a
b
s
o
l
u
t
a
s

xi-valores da caracteirstica x
grfico de barras
8%
24%
44%
20%
4%
sectograma
15
Estatstica

-Usado para varivel continua, dividida por classes.
-Composto por rectngulos justapostos em que a base de cada um
deles corresponde ao intervalo de classe e a sua altura respectiva
frequncia absoluta ou relativa.








Medidas de localizao

Medidas de tendncia central

Mdia:
( )
X

-Se X uma varivel discreta de n dados no tabelados, com valores
1 2
, ,...,
n
X x x x = , temos
1
n
i
i
x
X
n
=
=

(chama-se mdia aritmtica)



-Se X uma varivel discreta de k dados tabelados, com valores
1
,...,
k
X x x = , frequncia absoluta
1
,...,
i k
n n n = e frequncia relativa
1
,...,
i k
f f f = , correspondentes a n elementos recolhidos, temos
1
1
k
i i k
i
i i
i
n x
X f x
n
=
=
= =

(chama-se mdia ponderada)



-Se X uma varivel contnua distribuda por k classes, sendo
sup
2
inf
i
L L
c
+
= o ponto mdio da classe i,
1
,...,
i k
n n n = as frequncias
0
2
4
6
8
10
12
Histograma
16
Estatstica

absolutas e
1
,...,
i k
f f f = as frequncias relativas, correspondentes a n
elementos recolhidos, temos
1
1
k
i i k
i
i i
i
n c
X f c
n
=
=
= =

(chama-se mdia ponderada).



Mediana: ( )
e
M

-Mediana o valor central dos dados observados quando dispostos por
ordem crescente, ou seja, o valor da varivel que divide a distribuio,
de forma a que pelo menos metade (50%) das observaes sejam
menores ou iguais a ela.

- Se X uma varivel discreta de n dados
- para n impar , existe um nico valor central que se encontra na
posio
2
1 + n
, ento vem
2
1 +
=
n e
x M

- para n par, existem dois valores centrais que se encontram nas
posies
2
n
e 1
2
+
n
. Neste caso, a mediana a semi-soma desses
dois valores, ou seja
2
1
2 2
+
+
=
n n
e
x x
M



-Se temos n observaes distribudas por classes, tabeladas,

1
0.5
ai
e i i
i
f
M L a
f

= +
ou
1
2
ai
e i i
i
n
n
M L a
n

= +


sendo:

i
L o limite inferior da classe mediana,
1 ai
f

a frequncia relativa acumulada da classe anterior classe


mediana
i
f a frequncia relativa da classe mediana
1 ai
n

a frequncia absoluta acumulada da classe anterior classe


mediana
i
n a frequncia absoluta da classe mediana
i
a a amplitude da classe mediana
17
Estatstica

i a classe mediana, tal que
ai
f a 1 tal que 0.5
ai
f


Moda: ( )
o
M

-Moda o valor da varivel X mais vezes observado, ou seja, o que tem
maior frequncia absoluta ou relativa. H variveis amodais (0 modas),
unimodais (1 moda), bimodais (2 modas) e plurimodais (mais de 2
modas).

-Se os valores no esto distribudos por classes:

o i
M x = , com frequncia absoluta ( )
1
max ,...,
i k
n n n = e frequncia relativa
( )
1
max ,...,
i k
f f f = .

-Se os valores esto distribudos por classes, temos os seguintes mtodos
de clculo:
Mtodo do ponto mdio:
i s
2
o
L L
M
+
=

Mtodo de King:
1
1 1
i
o i i
i i
n
M L a
n n
+
+
= +
+


Mtodo de Czuber:

1
1 1 2 1
2
, com e
o i i i i i i
M L a n n n n
+

= + = =



Sendo:

i
L o limite inferior da classe modal
s
L o limite superior da classe modal
i
a a amplitude da classe modal
1 i
n

a frequncia absoluta da classe anterior classe modal


1 i
n
+
a frequncia absoluta da classe posterior classe modal
i
n a frequncia absoluta da classe modal

Medidas de tendncia no central

As medidas de tendncia no central chamam-se quantis e dividem-se
em trs categorias: quartis, decis e percentis.

Quartis: ( )
1 2 3
, , Q Q Q
18
Estatstica


-Os quartis so valores da varivel que dividem a distribuio de
frequncias em quatro partes iguais.

-Se os valores no esto distribudos por classes:

1 i
Q x = sendo
ai
f a 1 tal que 0, 25
ai
f

2 e
Q M = ou
2 i
Q x = sendo
ai
f a 1 tal que 0, 5
ai
f

3 i
Q x = sendo
ai
f a 1 tal que 0, 75
ai
f

-Se os valores esto distribudos por classes:

1
0, 25
ai
k i i
i
k f
Q L a
f

= +


Decis: ( )
1 2 9
, ,..., D D D

-Os decis so valores da varivel que dividem a distribuio de
frequncias em dez partes iguais.

-Se os valores no esto distribudos por classes:

1 i
D x = sendo
ai
f a 1 tal que 0,1
ai
f
M

5 e
D M = ou
5 ai
D f = sendo
ai
f a 1 tal que 0, 5
ai
f
M

9 i
D x = sendo
ai
f a 1 tal que 0, 9
ai
f

-Se os valores esto distribudos por classes:

1
0,1
ai
k i i
i
k f
D L a
f

= +


Percentis: ( )
1 2 99
, ,..., P P P

-Os percentis so valores da varivel que dividem a distribuio de
frequncias em cem partes iguais.

-Se os valores no esto distribudos por classes:

1 i
P x = sendo
ai
f a 1 tal que 0, 01
ai
f
M

50 e
P M = ou
50 ai
P f = sendo
ai
f a 1 tal que 0, 5
ai
f
M

99 i
P x = sendo
ai
f a 1 tal que 0, 99
ai
f

-Se os valores esto distribudos por classes:
19
Estatstica


1
0, 01
ai
k i i
i
k f
D L a
f

= +


Sendo:
i
L o limite inferior da classe que contm o k-simo quartil, decil
ou percentil.

1 ai
f

a frequncia relativa acumulada da classe anterior classe


que contm o k-simo quartil, decil ou percentil.

i
f a frequncia relativa da classe que contm o k-simo quartil,
decil ou percentil.

i
a a amplitude da classe que contm o k-simo quartil, decil ou
percentil



Medidas de disperso

So valores que nos indicam a distncia dos valores dados em relao
mdia obtida.

Intervalo de Variao (RANGE)

- a diferena entre o valor mximo e o valor mnimo da varivel.

=




Varincia

-A varincia d-nos a distncia mdia das observaes em torno da
mdia.
( )
2
2
2 2 1 1
n n
i i
i i
x X x
S X
n n
= =

= =



A varincia tem por medida o quadrado das observaes, pelo que a
sua utilidade assegurada pelo uso da raiz quadrada, que
denominamos por desvio padro.

2
S S =

Para dados tabelados, as expresses anteriores tomam a forma:

20
Estatstica

( )
2
2
2 2 1 1
k k
i i i i
i i
n x X n x
S X
n n
= =

= =



E para dados agrupados em classes:

( )
2
2
2 2 1 1
k k
i i i i
i i
n c X n c
S X
n n
= =

= =




2
S S = em qualquer dos casos.


Medidas de disperso relativa

Para compreender, em termos relativos, o grau de disperso em torno
da mdia, usa-se uma outra medida chamada coeficiente de
disperso.

=



Como uma medida de disperso relativa, permite comparar
conjuntos de dados expressos em diferentes unidades.
Escrevendo em percentagem o coeficiente de disperso, obtm-se o
coeficiente de variao.


=

100%

Um coeficiente de variao superior a 50% indica uma grande
disperso relativa e uma pequena representatividade da mdia como
medida estatstica.

Nota: S possvel utilizar estas medidas se as variveis em estudo
tomarem valores de um nico sinal (ou todos positivos, ou todos
negativos).

Distribuies bidimensionais

At aqui, a anlise e descrio das caractersticas de uma populao
limitou-se a distribuies unidimensionais, ou seja, a um estudo
individualizado de cada caracterstica. No entanto, ao ter disponvel
21
Estatstica

informao acerca de vrias caractersticas da mesma populao,
poder haver interesse em verificar se algumas dessas caractersticas
esto interligadas e analisar o seu comportamento conjunto.
Se forem duas as caractersticas estudadas diz-se que estamos perante
uma distribuio bidimensional.

Tabela de Contingncia. Distribuio Conjunta. Distribuies Marginais

Para organizar a informao referente a uma distribuio bidimensional,
de caractersticas qualitativas ou quantitativas, usa-se uma tabela de
dupla entrada, chamada tabela de contingncia, que ter tantas
linhas e colunas quantos os valores ou modalidades que cada
caracterstica apresentar.
Por exemplo, consideremos um conjunto de n indivduos dos quais
interessa estudar simultaneamente, duas caractersticas. A varivel X
que apresenta k valores x1, x2,.,xk e a varivel Y que apresenta p
valores y1, y2, .,yp. Como resultado da observao das duas variveis,
obtm-se uma varivel bidimensional (X, Y) que toma o valor (xi, yj)
quando, para determinado indivduo, a varivel X toma o valor xi e a
varivel Y toma o valor yj.

Exemplo:

Ao estudar, simultaneamente, a altura (X) e o peso (Y) de 10 indivduos

Altura 175 180 162 157 180 173 171 168 165 165
Peso 80 82 57 63 78 65 66 67 62 58

obteve-se uma varivel bidimensional (X, Y) que toma os valores:

(175, 80), (180, 82), (162, 57), (157, 63), (180, 78)
(173, 65), (171, 66), (168, 67), (165, 62), (165, 58)

A distribuio de frequncias da varivel bidimensional apresentada
numa tabela de contingncia com k linhas (cada uma correspondendo
a um valor distinto de X) e p colunas (cada uma correspondendo a um
valor distinto de Y), ou seja, composta por k*p clulas. Genericamente,
na clula da tabela que resulta da interseco da linha do valor xi com
a coluna do valor yj, indicado o nmero de indivduos que
apresentam o valor xi de X conjuntamente com o valor yj de Y, isto , a
frequncia absoluta conjunta, nij, correspondente ao par (xi, yj).

Tabela de contingncia

Y
X
y1

y2 yj yp
x1 n11 n12 ... n1j n1p
22
Estatstica

x2 n21 n22 n2j n2p

xi ni1 ni2 nij nip

xk nk1 nk2 nki nkp


A partir da distribuio conjunta das duas variveis representadas na
tabela de contingncia, possvel realizar o estudo de cada uma das
variveis, independentemente da outra, originando-se duas
distribuies marginais, uma para a varivel X e outra para a varivel Y,
obtidas atravs das somas dos valores de cada linha e de cada coluna
da tabela de contingncia.
Como cada uma das distribuies marginais s descreve uma das
variveis, na notao usada para a frequncia marginal aparece
apenas um dos indces, i ou j, sendo o outro substitudo por um ponto(.).
A frequncia marginal absoluta de xi, n.i, representa a soma das
frequncias referentes a todos os indivduos que apresentam o valor xi,
independentemente do valor que apresente a varivel Y e a frequncia
marginal absoluta de yj, nj., representa a soma das frequncias
referentes a todos os indivduos que apresentam o valor yj,
independentemente do valor que apresente a varivel X.

Como as distribuies marginais so na realidade distribuies
unidimensionais, pode-se criar, para cada uma delas, uma tabela de
frequncias semelhante s estudadas anteriormente.










Diagrama de Disperso

O diagrama de disperso um grfico que permite observar o
comportamento conjunto de duas variveis e ajuda a determinar se
existe alguma relao entre elas.
Cada ponto do grfico representa um elemento da populao. As
coordenadas so os valores das duas variveis.

Exemplo:
Os pesos e a altura de um grupo de amigos o seguinte:
23
Estatstica




Anlise de regresso

A Anlise de regresso e correlao, compreende a anlise de dados
amostrais para saber se e como as duas ou mais variveis esto
relacionadas uma com a outra numa populao.
A anlise de regresso estuda o relacionamento entre uma varivel
chamada a varivel dependente e outras variveis chamadas variveis
independentes. Este relacionamento representado por um modelo
matemtico, i.e., por uma equao que associa a varivel dependente
com as variveis independentes. Este modelo designado por modelo
de regresso linear simples se define uma relao linear entre a varivel
dependente e uma varivel independente.

24
Estatstica




Regresso linear simples. Mtodo dos mnimos quadrados

Ajustar os pontos a uma recta y ax b = + com o objectivo de minimizar o
erro

Recta dos mnimos quadrados:
2 2

com
i i
i
x y n x y
a
y ax b x nx
b y ax

=

= +




Dado um conjunto de observaes de duas variveis, a obteno da
recta de mnimos quadrados s ter alguma utilidade se houver uma
forte correlao linear entre essas variveis.

Para determinar qual o grau de correlao linear entre duas variveis
quantitativas utiliza-se o Coeficiente de correlao de Pearson.


2 2 2 2

i i
i i
x y n x y
r
x nx y ny






25
Estatstica

Coeficiente de
correlao
Correlao
1 r = Perfeita positiva
0.8 1 r < Forte positiva
0.5 0.8 r < Moderada positiva
0.1 0.5 r < Fraca positiva
0 0.1 r < < nfima positiva
0 Nula
0.1 0 r < < nfima negativa
0.5 0.1 r < Fraca negativa
0.8 0.5 r < Moderada negativa
1 0.8 r < Forte negativa
1 r = Perfeita negativa


Dependendo da intensidade com que se relacionam as variveis, a
recta ser um melhor ou pior modelo para traduzir a relao entre elas.
Para verificar a qualidade do ajustamento, ou seja, saber com que rigor
a recta se ajusta aos pontos, calcula-se o Coeficiente de determinao,
2
r , bastando para tal elevar ao quadrado o valor do coeficiente de
correlao.

Coeficiente de determinao:
2
r

Quanto mais prximo
2
r estiver de 1, maior a capacidade preditiva do
modelo.

Você também pode gostar