Explorar E-books
Categorias
Explorar Audiolivros
Categorias
Explorar Revistas
Categorias
Explorar Documentos
Categorias
ESTATSTICA
1 INTRODUO
Desde a Antigidade vrios povos j registravam o nmero de habitantes, de
nascimento, de bitos, faziam estimativas das riquezas individual e social,
distribuam equitativamente terras ao povo, cobravam impostos e at realizavam
inquritos quantitativos por processos que, hoje, se chama de Estatstica.
A palavra Estatstica vem de status, que significa em latim Estado. Com
essa palavra faziam-se as descries e dados relativos aos Estados, tornando a
Estatstica um meio de administrao para os governantes. Mais recentemente se
passou a falar em estatstica em vrias cincias de todas as reas do conhecimento
humano, onde pode definir a Estatstica como um conjunto de mtodos e processos
quantitativos que servem para estudar e medir os fenmenos coletivos.
Ao se estudar os fenmenos coletivos, o que interessa so os fatos que
envolvem os elementos desses fenmenos, como eles se relacionam e qual o seu
comportamento. Para que tal estudo possa acontecer com toda a seriedade que a
cincia exige, necessrio que o levantamento seja feito atravs de uma pesquisa
cientfica, sendo ela definida como a realizao concreta de uma investigao
planejada, desenvolvida e redigida de acordo com as normas de metodologia.
A Estatstica muito mais do que a simples construo de grficos e o clculo
de mdias. As informaes numricas so obtidas com a finalidade de acumular
informao para a tomada de deciso. Ento, a estatstica pode ser vista como um
conjunto de tcnicas para planejar experimentos, obter dados e organiz-los, resumi-
los, analis-los, interpret-los e deles extrair concluses.
A informao de estatstica apresentada constantemente no rdio e na
televiso, como por exemplo, a coleta de dados sobre nascimentos e mortes, a
avaliao da eficincia de produtos comerciais e a previso do tempo.
As tcnicas clssicas da estatstica foram delineadas para serem as melhores
possveis sob rigorosas suposies. Entretanto, a experincia tem forado os
estudiosos a conhecer que as tcnicas clssicas comportam-se mal quando
situaes prticas no apresentam o ideal descrito por tais suposies. O
2 REAS DA ESTATSTICA
Se entender Estatstica como a Cincia dos Dados, ser de grande valia o
domnio que seu corpo de conhecimento pode oferecer. Primeiramente, como ponto
de partida, pode-se dividir a Estatstica em duas reas:
Descritiva
Inferencial (Indutiva)
Obs. Alguns autores, como por exemplo, Marcos Nascimento Magalhes e Antonio
Carlos Pedroso de Lima, dizem que a estatstica, grosso modo, pode ser dividida em
trs reas: Estatstica descritiva; Probabilidade e Inferncia estatstica.
3 POPULAO E AMOSTRA
3.1 POPULAO
Populao o conjunto constitudo por todos os indivduos que representam
pelo menos uma caracterstica comum, cujo comportamento interessa analisar
(inferir). Assim sendo, o objetivo das generalizaes estatsticas est em dizer se
algo acerca de diversas caractersticas da populao estudada, com base em fatos
conhecidos.
3.2 AMOSTRA
Amostra pode ser definida como um subconjunto, uma parte selecionada da
totalidade de observaes abrangidas pela populao, atravs da qual se faz
inferncia sobre as caractersticas da populao. Uma amostra tem que ser
representativa, a tomada de uma amostra bem como seu manuseio requer cuidados
especiais para que os resultados no sejam distorcidos.
Exemplos -
. Cor dos olhos das alunas: qualitativa
. ndice de liquidez nas indstrias capixabas: quantitativa contnua
. Produo de caf no Brasil: quantitativa contnua
. Nmero de defeitos em aparelhos de TV: quantitativa discreta
. Comprimento dos pregos produzidos por uma empresa: quantitativa contnua
. O ponto obtido em cada jogada de um dado: quantitativa discreta
5
AMOSTRAGEM
MTODOS PROBABILSTICOS
Exige que cada elemento da populao possua determinada probabilidade de ser
selecionado. Normalmente possuem a mesma probabilidade. Assim, se N for o
tamanho da populao, a probabilidade de cada elemento ser selecionado ser 1/N.
Trata-se do mtodo que garante cientificamente a aplicao das tcnicas estatsticas
de inferncias. Somente com base em amostragens probabilsticas que se podem
realizar inferncias ou indues sobre a populao a partir do conhecimento da
amostra.
.
AMOSTRAGEM CASUAL ou ALEATRIA SIMPLES
o processo mais elementar e freqentemente utilizado. equivalente a um sorteio
lotrico. Pode ser realizada numerando-se a populao de 1 a n e sorteando-se, a
seguir, por meio de um dispositivo aleatrio qualquer, x nmeros dessa seqncia, os
quais correspondero aos elementos pertencentes amostra.
Ex: Vamos obter uma amostra, de 10%, representativa para a pesquisa da estatura
de 90 alunos de uma escola:
1 - numeramos os alunos de 1 a 90.
2 - escrevemos os nmeros dos alunos, de 1 a 90, em pedaos iguais de papel,
colocamos na urna e aps mistura retiramos, um a um, nove nmeros que formaro a
amostra.
OBS: quando o nmero de elementos da amostra muito grande, esse tipo de sorteio
torna-se muito trabalhoso. Neste caso utiliza-se uma Tabela de nmeros aleatrios,
construda de modo que os algarismos de 0 a 9 so distribudos ao acaso nas linhas e
colunas.
.
5
Resumo Estatstica Bsica
Ex: Vamos obter uma amostra proporcional estratificada, de 10%, do exemplo 6
anterior, supondo, que, dos 90 alunos, 54 sejam meninos e 36 sejam meninas. So
portanto dois estratos (sexo masculino e sexo feminino). Logo, temos:
POPULAC AMOSTR
SEXO 10 %
O A
MASC. 54 5,4 5
FEMIN. 36 3,6 4
Total 90 9,0 9
AMOSTRAGEM SISTEMTICA:
Quando os elementos da populao j se acham ordenados, no h necessidade de
construir o sistema de referncia. So exemplos os pronturios mdicos de um
hospital, os prdios de uma rua, etc. Nestes casos, a seleo dos elementos que
constituiro a amostra pode ser feita por um sistema imposto pelo pesquisador.
Ex: Suponhamos uma rua com 900 casas, das quais desejamos obter uma amostra
formada por 50 casas para uma pesquisa de opinio. Podemos, neste caso, usar o
seguinte procedimento: como 900/50 = 18, escolhemos por sorteio casual um nmero
de 01 a 18, o qual indicaria o primeiro elemento sorteado para a amostra; os demais
elementos seriam periodicamente considerados de 18 em 18. Assim, suponhamos que
o nmero sorteado fosse 4 a amostra seria: 4 casa, 22 casa, 40 casa, 58 casa, 76
casa, etc.
MTODOS NO PROBABILSITCOS
So amostragens em que h uma escolha deliberada dos elementos da amostra.
No possvel generalizar os resultados das pesquisas para a populao, pois as
amostras no-probabilsticas no garantem a representatividade da populao.
AMOSTRAGEM ACIDENTAL
Trata-se de uma amostra formada por aqueles elementos que vo aparecendo,
que so possveis de se obter at completar o nmero de elementos da amostra.
Geralmente utilizada em pesquisas de opinio, em que os entrevistados so
acidentalmente escolhidos.
6
Resumo Estatstica Bsica
7
AMOSTRAGEM INTENCIONAL
De acordo com determinado critrio, escolhido intencionalmente um grupo de
elementos que iro compor a amostra. O investigador se dirige intencionalmente a
grupos de elementos dos quais deseja saber a opinio.
SRIES ESTATSTICAS
De acordo com a Resoluo 886 do IBGE, nas casas ou clulas da tabela devemos
colocar :
um trao horizontal ( - ) quando o valor zero;
trs pontos ( ... ) quando no temos os dados;
zero ( 0 ) quando o valor muito pequeno para ser expresso pela
unidade utilizada;
um ponto de interrogao ( ? ) quando temos dvida quanto exatido
de determinado valor.
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto..
7
5
8
4 VARIVEIS
Ao se fazer um estudo estatstico de um determinado fato ou grupo, tem-se
que considerar o tipo de varivel. Pode ter variveis qualitativas ou variveis
quantitativas.
TABELA: um quadro que resume um conjunto de dados dispostos segundo linhas e colunas de
maneira sistemtica.
TTULO
Variao Freqncia
Corpo
Fonte:
De acordo com a Resoluo 886/66 do IBGE, nas casas ou clulas da tabela devemos colocar:
um trao horizontal ( - ) quando o valor zero;
trs pontos ( ... ) quando no temos os dados;
zero ( 0 ) quando o valor muito pequeno para ser expresso pela unidade utilizada;
um ponto de interrogao ( ? ) quando temos dvida quanto exatido de determinado
valor.
Obs: O lado direito e esquerdo de uma tabela oficial deve ser aberto.
Anos Quantidade
1980 1.803.567
1982 1.735.457
1983 1.689.249
Fonte: Ministrio da Educao
Pases Populao
Brasil 147.000.000
Argentina 32.300.000
Uruguai 3.100.000
Paraguai 4.300.000
Total 186.700.000
Fonte: IBGE
12
* Sries conjugadas, tabela de dupla entrada (Tabela cruzada): Tambm chamadas de tabelas de
dupla entrada. So apropriadas apresentao de duas ou mais sries de maneira conjugada,
havendo duas ordens de classificao: uma horizontal e outra vertical.
Quantidade
Ano Fevereiro Maro Abril
1994 96,8 120,3 9,1
1995 308,2 1164,2 1012,7
1996 562,3 1332,9 746,9
Fonte: IBAMA
Exerccios:
1. Classifique as sries estatsticas em temporal ou histrica, geogrfica, especfica ou conjugada:
a) ...................................................... b) .............................................................
Temperatura no Campo Inflao no Brasil (ndice Geral de Preos)
Perodo de 04 a 10 de dezembro de 2000 Perodo 1977 - 1983
Taxa inflacionria
Temperatura Ano
Cidades (em %)
mdia C 1997 38,8
Adamantina 26,9 1978 40,8
Assis 24,3 1979 77,2
Campinas 24,2 1980 110,2
Ja 25,3 1981 95,2
Mococa 25,1 1982 99,7
Ribeiro Preto 25,3 1983 211,0
Fonte: Instituto Agronmico de Campinas (IAC). Fonte: Ipea, 1983
13
c) ............................................................. d) ...................................................................
Pases mais Populosos do Mundo Avicultura brasileira
Ano 1999 Ano - 1992
Populao Nmero
Pases (em Espcies (em
milhes) milhes)
China 1.280 Galinhas 204.160
ndia 1.010 Galos, Frangos (as) e pintos 435.465
EUA 275 Codornas 2.488
Indonsia 225
Brasil 170 Fonte: IBGE
Fonte: IBGE
e) ................................................................... f) ............................................................
Exportao Brasileira Evoluo do Preo do Barril de Petrleo
1985-1990-1995 Perodo: Novembro de 2000
1985 1990 1995
Importadores Preo
% % %
Amrica Latina 13,0 13,4 25,6 Dia Mdio
EUA 28,2 26,3 22,2 ( US$)
Europa 33,9 35,2 20,7 1 30,51
sia e Oceania 10,9 17,7 15,4 14 33,17
frica e Oriente Mdio 14,0 8,8 5,5 29 32,68
Fonte: MIC e SECEX Fonte: Bradcast.
g) ......................................................................
Os Nmeros do Pas
Perodo: 1992-1999
Tabela primitiva ou dados brutos: uma tabela ou relao de elementos que no foram
numericamente organizados. difcil formarmos uma idia exata do comportamento do grupo
como um todo, a partir de dados no ordenados.
Freqncia simples relativa: a razo entre a freqncia simples absoluta e o nmero total de
dados (soma de todas as freqncias simples absolutas).
Notao: fri
1) Dados qualitativos
Os dados qualitativos obtidos em uma pesquisa podem ser organizados em formas de tabelas para
facilitar a visualizao e anlise dos dados.
Exemplo: Considere as respostas de 30 pessoas que foram entrevistadas sobre as bebidas
preferidas durante a refeio. Os resultados foram os seguintes:
Tabela de Freqncias
Freqncia Freqncia Freqncia
Bebida preferida simples absoluta simples simples relativa
acumulada
gua
Cerveja
Refrigerante
Suco
Outras
Total
Fonte: Dados fictcios
15
b) Monte uma distribuio de freqncias simples, para o tempo de produo, em horas dirias,
de leo de soja, das vrias indstrias.
Tempo N de c) Responda:
(horas) indstrias
1) Quantas indstrias foram investigadas?__________________
2) Qual a menor tempo de produo registrado?_______________
3) Qual a maior tempo de produo registrado? ________________
4) Qual o tempo de produo diria que detm o maior nmero de
indstrias? _____________
5) Identifique:
X2 = _______ F5 = _______ Fi = _______
X8 = _____ n = _______ F7 = _______
Total
Um dos mtodos utilizado chamado de regra de Sturges ou regra do logaritmo. Ele estabelece
k 1 + 3,3 log 10 n,
que
onde k o nmero de classes e n o nmero de dados.
Uma vez encontrado o nmero de classes, determina-se a amplitude do intervalo de classes atravs
da frmula:
AT
h= .
k
17
Classes Fi l i + Li
Xi =
(Freqncia 2
Estaturas
l i Li absoluta)
Freqncia (Ponto Mdio)
(cm) l 1 L1 F1 X1
150 154 4
154 158 9 l 2 L2 F2 X2
158 162 11 l 3 L3 F3
.
X3
.
162 166 8 .
. .
.
166 170 5 .
. .
170 174 3 l K LK FK XK
Total 40
Fi = n
Ponto mdio de classe: o ponto que divide o intervalo de classe em duas partes iguais.
Ex: em 158 162 o ponto mdio x3 = (158 + 162)/2 = 160, ou seja x3 = (l3 + L3) / 2.
1 passo: Ordenar os dados brutos em ordem crescente, indicando a freqncia simples de cada
elemento.
K = n de
n = casos k = n de classes n = casos
classes
observados a usar observados
a usar
1 1 47 || 90 7
2 2 91 || 181 8
3 || 5 3 182 || 362 9
6 || 11 4 363 ||724 10
12 || 22 5 725 ||1448 11
23 || 46 6 1.449 ||2.896 12
.... ...
Obs: Qualquer regra para determinao do n de classes da tabela no nos leva a uma deciso
final; esta vai depender, na realidade de um julgamento pessoal, que deve estar ligado natureza
dos dados.
23
19
GRFICOS ESTATSTICOS
O grfico estatstico uma outra forma de apresentao dos dados estatsticos, cujo
objetivo o de produzir, ao pblico em geral, uma percepo rpida do fenmeno em estudo.
A representao grfica de um fenmeno deve obedecer a certos requisitos fundamentais,
para ser realmente til:
- simplicidade o grfico deve ser destitudo de detalhes e traos desnecessrios;
- clareza o grfico deve possuir uma correta interpretao dos valores representativos
do fenmeno em estudo;
- veracidade o grfico deve expressar a verdade sobre o fenmeno em estudo.
Quantidade
Anos Produzida
(1.000 t)
1989 18.196
1990 11.168
1991 10.468
1992 9.241
24
20
15.000
10.000
5.000
0
1989 1990 1991 1992
Anos
Paran
Esprito Santo
Minas Gerais
So Paulo
Fonte: SECEX
Grfico em linha ou curva: este tipo de grfico utilizado para representar fenmenos contnuos,
como por exemplo, no caso das sries temporais. As linhas so mais eficientes do que as colunas,
2125
quando existem intensas flutuaes (tendncias de aumento ou diminuies) nos valores numricos
de uma dada informao.
TABELA 3-Inflao no Brasil (ndice Geral de Preos)
Perodo 1977 - 1983
Taxa
Ano inflacionria
(em %)
1977 38,8
1978 40,8
1979 77,2
1980 110,2
1981 95,2
1982 99,7
1983 211,0
Fonte: Ipea, 1983
250
Taxa inflacionria %
200
150
100
50
0
1977 1978 1979 1980 1981 1982 1983
Ano
40.000
35.000
US$ milho
30.000
25.000
20.000
15.000
10.000
5.000
0
1989 1990 1991 1992 1993
Exportao Importao
30.000
25.000
20.000
15.000
10.000
5.000
0
1989 1990 1991 1992 1993
Ano
Exportao Importao
Grfico de setores: Tem por finalidade comparar a parte com o todo. O total representado pelo
crculo que fica dividido em tantos setores quantas so as partes. So utilizados para representar
sries estatsticas geogrficas, temporais e especficas.
Os setores so tais que suas reas so respectivamente proporcionais aos dados da srie. Obtemos
cada setor por meio de uma regra de trs simples e direta, lembrando que o total da srie
corresponde a 360. O grfico em setores s deve ser empregado quando h, no mximo, sete
dados.
TABELA 5- Levantamento Demogrfico
Censo 2000
N de
Sexo
Habitantes
Homens 83.423.553
Mulheres 86.120.890
Populao total 169.544.443
Fonte:IBGE
27
23
49%
51%
Homens Mulheres
Fonte:IBGE
Histograma Este grfico utilizado para dados agrupados em intervalos de classes. No caso de
classes de mesma amplitude, construdo um retngulo para cada classe, com base igual
amplitude do intervalo classe e altura proporcional a freqncia da classe. Neste caso,
altura ~ freqncia (absoluta ou relativa)
6 5
4
4 3
2
0
150 I 154 I 158 I 162 I 166 I 170 I 174
Estatura em cm
Fonte: Fictcia
Polgono de freqncia: um grfico em linha, sendo as freqncias marcadas sobre
perpendiculares ao eixo horizontal, levantadas pelo ponto mdio dos intervalos de classe. Para
realmente obtermos um polgono (linha fechada), devemos completar a figura, ligando os extremos
da linha obtida aos pontos mdios da classe anterior primeira e da posterior ltima, da
distribuio.
Estaturas dos alunos da Turma A 2001
15
N de alunos
10
0
150 a 154 154 a 158 158 a 162 162 a 166 166 a 170 170 a 174
Estatura em cm
24
30
6 MEDIDAS ESTATSTICAS
Alm da construo de tabelas e grficos, a anlise exploratria de dados,
consiste tambm de clculos de medidas estatsticas que resumem as informaes
obtidas dando uma viso global dos dados. Essas medidas, tambm conhecidas
como medidas descritivas, recebem o nome genrico de estatsticas quando
calculada com os dados da amostra, e de parmetros quando calculadas com dados
populacionais.
Dentre as medidas estatsticas as mais utilizadas so as de tendncia central
(ou de posio) e as de disperso (ou de variabilidade). Destacam-se, ainda, as
separatrizes, as assimetrias e os box plot.
6.1.1 Mdia
Uma das medidas estatsticas mais utilizadas na representao de uma
distribuio de dados a mdia aritmtica, na sua forma simples, ou ponderada. No
primeiro caso divide-se a soma de todos os valores da srie pelo nmero de
observaes, enquanto no segundo, mais utilizado em distribuies de frequncias,
os valores so ponderados pelas frequncias com que ocorrem e depois dividem-se
pelo total das frequncias (este segundo caso ser visto em distribuio de
frequncias):
n
x1 + x2 + .... + xn xi
Simples: X= = i =1
ou simplesmente X =
x i
n n n
6.1.2 Mediana
A mediana o valor que ocupa a posio central de um conjunto de valores
ordenados, ou seja, medida divide a distribuio de valores em duas partes iguais:
50% acima e 50% abaixo do seu valor. Quando o conjunto possui quantidade par de
valores, h dois valores centrais, neste caso, a mediana o valor mdio dos dois
valores centrais do conjunto de dados ordenados.
Nesta srie tem-se nmero par de observaes logo, tm-se dois valores
centrais e so 13,3 e 13,5. Logo, a mediana 13,4 cm.
Anlise Exploratria de Dados - Prof. Dr. Waldir Medri
26
32
Neste caso, a srie possui apenas um valor central logo, a mediana igual
a 13,5 cm.
Propriedades da mediana
i. Unicidade. Existe somente uma mediana para um conjunto de dados.
ii. Simplicidade. A mediana fcil de ser calculada.
iii. A mediana no to afetada pelos valores extremos como a mdia aritmtica,
por isso, se diz que a mediana uma medida robusta.
6.1.3 Moda
Moda de um conjunto de valores o valor que ocorre com maior frequncia,
sua aplicao no depende do nvel de mensurao da varivel, sendo aplicada
tanto a fenmenos qualitativos quanto quantitativos. Se todos os valores forem
diferentes no h moda, por outro lado, um conjunto pode ter mais do que uma
moda: bimodal, trimodal ou multimodal.
Exemplo: Para os dados dos exemplos anteriores a moda igual a 13,1 cm.
A moda pode ser utilizada para descrever dados qualitativos. Por exemplo,
suponha que os pacientes vistos em uma clnica de sade mental durante um
determinado ano receberam um dos seguintes diagnsticos: retardo mental, psicose,
6.2.1 Amplitude
Uma maneira de medir a variao em um conjunto de valores calcular a
amplitude. A amplitude a diferena entre o maior e o menor valor de um conjunto
de observaes.
At = no maior no menor
d i = ( xi x)
d i = (xi x) = 0
x x i
DM = i =1
n
Exemplo: Determinar desvio mdio da srie B.
6.2.3 Varincia
Embora o desvio mdio seja uma medida melhor do que a Amplitude, ainda
no uma medida ideal, pois no discrimina pequenos dos grandes afastamentos
em relao mdia. Se para eliminar o problema dos sinais, ao invs de
considerarmos os valores absolutos elevarmos os afastamentos ao quadrado,
estaremos no apenas eliminando o problema dos sinais como tambm
potencializando os afastamentos, enfatizando os grandes desvios em relao s
X
i =1
( X
i =1
i X )2
i =1
i
2
n
s2 = ou s2 =
n 1 n 1
Exemplo: Determinar as varincias das sries A, B e C.
s= s2
Exemplo: Determinar os desvios-padro das sries A, B e C.
s
sx =
n
se a observao tpica for 10.000, mas ser um valor bastante significativo para um
conjunto de dados cuja observao tpica 100.
O coeficiente de variao uma medida relativa de disperso, utilizada para
comparar, em termos relativos, o grau de concentrao em torno da mdia.
representada por:
s
CV =
X
O CV uma medida adimensional, isto , sem unidade de medida, podendo
ser expressa em termos decimais ou percentuais (multiplicando por 100). Dizemos
que uma distribuio homognea quando a variabilidade relativa expressa pelo
coeficiente de variao, no ultrapassar a 20% . Obviamente a distribuio no
deixa de ser homognea para valores maiores do que 20% mas vai perdendo o grau
de homogeneidade na medida em que o coeficiente aumenta.
Esta medida pode ser bastante til na comparao de duas variveis ou dois
grupos que a princpio no so comparveis (por exemplo, com ordens de grandeza
das variveis diferentes).
Q1 Q2 Q3
onde: Q1 = 10 quartil, deixa 25% dos elementos.
Q2 = 20 quartil, deixa 50% dos elementos (coincide com a mediana).
Q3 = 30 quartil, deixa 75% dos elementos.
Os decis dividem um conjunto de dados em dez partes iguais, isto , 10% por
parte.
0 10% 20% . . . 90% 100%
D1 D2 . . . D9
onde: D1 = 10 decil, deixa 10% dos elementos.
D2 = 20 decil, deixa 20% dos elementos.
.............................................................
D9 = 90 decil, deixa 90% dos elementos.
Q3 Q1
C=
2 ( P90 P10 )
Para uma curva relativamente normal, tem-se que C = 0,263. Isto :
Se C = 0,263 curva mesocrtica
C < 0,263 curva leptocrtica
C > 0,263 curva platicrtica
Ponto extremo
Limite superior
Limite inferior
Valores tpicos Outliers
0 *
Valores
LI Q1 Md Q3 LS
1,5DQ DQ 1,5DQ
3,0DQ
Alm desses valores, tm-se os limites, inferior que dado por LI = Q11,5DQ
e superior LS = Q3 + 1,5DQ. No caso, LI = 2.162,5 e LS = 2.702,5. Os dados fora
destes limites so considerados pontos fora da curva. Neste caso, o = 2.825 um
outliers. A Figura 19 apresenta um esquema do box plot com esses resultados:
2900
2800
2700
2600
2500
2400
2300
Mediana = 2405
2200
Q1=2365 e Q3 = 2500
X1 = 2210 X11 = 2630
2100 Outliers = 2825
Retorno
Soluo: a e b
Cicatrizao 14 15 16 17 18 total
Frequncia 5 7 6 7 5 30
Mdia x=
x . f
i i
=
480
= 16
n 30
6.7.1 Mdia
Para o clculo da mdia, em geral, obtm-se uma boa aproximao atribuindo
a cada elemento que se enquadra em uma classe o valor mdio correspondente.
Esse processo em geral satisfatrio, pois os erros introduzidos nos clculos
tendem a compensar-se.
A frmula para a mdia de uma distribuio de frequncias, onde x1, x2, ..., xn
so os valores mdios das classes, ponderados pelas frequncias correspondentes
f1, f2, ..., fn dada por:
n
x .f i i
3.268
x= i =1
, assim x= = 65,36
n 50
6.7.2 Mediana
A mediana divide um conjunto de dados ordenados em duas partes iguais. A
expresso para determinar a mediana de uma distribuio de frequncias dada
por:
x x f i i
x fi
DM = i =1
e x= i
n n
onde: xi so os pontos mdios das classes e os fi as respectivas frequncias.
6.7.7 Varincia
A expresso para o clculo da varincia amostral de uma distribuio de
frequncias :
n
n
( xi f i ) 2
x
i =1
2
i fi
i =1
n
s2 =
n 1
Obter a varincia referenta a tabela 20.
(3268) 2
214194
s2 = 50 = 12,19
50 1
ANLISE BIDIMENSIONAL
Funo
Sexo Total
Escritrio Servios gerais Gerncia
Masculino 43,25% 100% 88,10% 54%
Feminino 56,75% 0% 11,90% 46%
Total 100% 100% 100% 100%
(O E)2 Funo
Sexo Escritrio Serv. gerais Gerncia
Masculino 1646,921 151,383 799,672
Feminino 1646,921 151,383 799,672
Finalmente:
(O E)2 / E Funo
Sexo Escritrio Serv. gerais Gerncia
Masculino 8,336 10,301 17,490
Feminino 9,956 12,304 20,891
k . 2
C*
(k 1).(n 2 )
43
Onde:
2 a estatstica qui-quadrado, calculada a partir das frequncias observadas e
esperadas (sob a condio de independncia) a partir da tabela de contingncia.
n o nmero total de observaes da tabela de contingncia.
k o menor nmero entre o nmero de linhas e colunas da tabela de
contingncia.
O coeficiente de contingncia modificado varia de zero (completa
independncia) at 1 (associao perfeita). Usualmente C* acima de 0,5 indicaria uma
associao de moderada para forte, o que bastaria para considerar que existe
associao estatstica entre as variveis. CUIDADO, porm, com as generalizaes,
associao estatstica no significa relao de causa e efeito!
Exemplo: Calcule o coeficiente de contingncia modificado para os dados do
exemplo anterior.
O valor de 2 foi calculado, a varivel Sexo pode assumir 2 valores, e Funo
pode assumir 3. O total de observaes igual a 474.
Ento: 2 = 79,227; n = 474; k = 2 (porque o menor valor entre 2 e 3).
k. 2 2 x79,227
C* 0,54
(k 1).(n 2 ) (2 1).(474 79,227)
400
300
300
Y 200
200
100
100
0
0
0 10 20 30 40 50 60
0 10 20 30 40 50 60
X X
Figura 22: Associao linear positiva R = 1 Figura 23: Associao linear positiva
400 300
300
200
Y
Y 200
100
100
0 0
0 10 20 30 40 50 60 0 10 20 30 40 50 60
X X
Exemplo:
Estamos avaliando as mdias de 15 estudantes no 2 grau, relacionando-as com
os ndices dos mesmos estudantes nos seus cursos universitrios. As mdias no
segundo grau podem variar de 0 a 100, e os ndices na universidade de 0 a 4. Construa
um diagrama de disperso e calcule o coeficiente de correlao linear de Pearson para
os dados a seguir. Interprete os resultados encontrados.
Mdia ndice na
no 2 universidade Nosso primeiro passo definir qual varivel
grau independente (X) e qual a dependente (Y). Quem pode
80 1,0 ter influenciado quem? razovel imaginar que a mdia no
82 1,0 2 grau dos estudantes tenha influenciado de algum modo
84 2,1 o ndice por eles obtido na universidade, simplesmente pelo
85 1,4 fato de que preciso cursar o 2 grau antes da
87 2,1 universidade. Assim sendo, X ser a mdia no 2 grau
88 1,7 (varivel independente) e Y ser o ndice na universidade
88 2,0 (varivel dependente). Como ser o relacionamento entre
89 3,5 estas variveis? Novamente, o bom senso nos indica que a
90 3,1 valores altos de mdias no 2 grau devem corresponder
91 2,4 ndices altos na universidade: esperamos uma correlao
91 2,7 positiva.
92 3,0
94 3,9
96 3,6
98 4,0
46
2,0
1,5
1,0
0,5
0,0
75 80 85 90 95 100
2 grau
Mdia ndice na
no 2 universidade X2 Y2 X.Y
grau (X) (Y)
80 1,0 6400 1,00 80,0
82 1,0 6724 1,00 82,0
84 2,1 7056 4,41 176,4
85 1,4 7225 1,96 119,0
87 2,1 7569 4,41 182,7
88 1,7 7744 2,89 149,6
88 2,0 7744 4,00 176,0
89 3,5 7921 12,25 311,5
90 3,1 8100 9,61 279,0
91 2,4 8281 5,76 218,4
91 2,7 8281 7,29 245,7
92 3,0 8464 9,00 276,0
94 3,9 8836 15,21 366,6
96 3,6 9216 12,96 345,6
98 4,0 9604 16,00 392,0
1335 37,5 119165 107,75 3400,5