Escolar Documentos
Profissional Documentos
Cultura Documentos
Unidade 1 - Estatística Descritiva PDF
Unidade 1 - Estatística Descritiva PDF
Socioeconmica de Projetos
Unidade 1
Estatstica Descritiva
Braslia - 2015
SUMRIO
Unidade 1 - ESTATSTICA DESCRITIVA....................................................................................................... 4
Objetivos da Unidade.............................................................................................................................. 4
1.1. DADOS ESTATSTICOS........................................................................................................................ 4
1.2. DISTRIBUIES DE FREQUNCIAS..................................................................................................... 6
1.3. MEDIDAS DE POSIO.................................................................................................................... 15
1.4. MEDIDAS DE DISPERSO................................................................................................................. 19
Unidade 1
Estatstica Descritiva
Unidade 1 - ESTATSTICA DESCRITIVA
Objetivos da Unidade
Esta unidade tem por objetivo fazer com que voc tenha condies de descrever e apresentar
os resultados de um conjunto de observaes de forma clara, objetiva e passando o mximo
de informaes possveis.
Para tal objetivo, sero abordadas questes relacionadas a dados estatsticos, distribuies de
frequncias, representaes grficas, medidas de posio e disperso.
Aps concluir esta unidade, espera-se que voc seja capaz de:
Reconhecer a importncia dos mtodos estatsticos para o estudo de variveis.
Compreender os conceitos fundamentais da estatstica descritiva.
Analisar distribuies de freqncias para dados estatsticos e suas formas de
representao.
Distinguir e saber aplicar as diversas medidas de posio. Calcular a mdia, mediana
e moda para uma amostra.
Distinguir e saber aplicar as diversas medidas de disperso.
Calcular a varincia, o desvio-padro e coeficiente de variao para uma amostra.
Fonte: <http://seriesestatisticas.ibge.gov.br/series.aspx?no=4&op=0&
vcodigo=ECE370&t=media-anos- estudo-pessoas-10-anos>.
Outro exemplo interessante de fonte de dados para sries histricas consiste na compilao
de dados realizada por rgos da Administrao Direta, como o caso do registro feito pelo
Ministrio da Sade para o nmero de bitos e de internaes de vtimas de acidentes do
trnsito, cujos dados mais recentes indicam 42.800 bitos em 2010, 174.000 feridos internados
em 2011.
A Figura 02 abaixo mostra a evoluo do nmero de bitos de 2001 a 2010, com crescimento
de 40% no perodo.
5
Fonte: <http://www.vias-seguras.com/layout/set/print/
os_acidentes/estatisticas/estatisticas_nacionais>.
Para que grficos como os apresentados nas Figuras 03 e 04 possam ser produzidos, faz-se
necessria a mobilizao de um esforo importante, com mobilizao de recursos humanos,
materiais e financeiros de monta para a coleta, tratamento e anlise de dados, conforme
metodologia adequada com o estudo das distribuies de frequncias e representaes
grficas, medidas de posio e disperso para que possam ser adequadamente utilizados
para atender, por exemplo, s necessidades do Estado na formulao de polticas pblicas,
fornecendo dados estatsticos demogrficos e econmicos.
Passaremos, ento, apresentao dos fundamentos da estatstica descritiva, essenciais
para a compreenso do processo estatstico utilizado para a anlise de dados e o adequado
tratamento dos mesmos.
Como primeiro tpico a ser trabalhado, teremos o estudo das distribuies de frequncias
para os dados analisados para a adequada compreenso de determinada varivel luz da
Estatstica.
P (mm)
70,9
0,9
154,4
219,6
111,3
294,5
146,1
204,8
25,0
23,6
Ms/Ano
jan/09
fev/09
mar/09
abr/09
mai/09
jun/09
jul/09
ago/09
set/09
set/09
P (mm)
103,3
154,2
131,8
145,6
160,6
190,6
139,5
146,7
26,5
0,2
Ms/Ano
jan/10
fev/10
mar/10
abr/10
mai/10
jun/10
jul/10
ago/10
set/10
set/10
P (mm)
25,5
21,7
15,3
94,3
69,7
62,7
22,8
9,9
0,0
0,3
Ms/Ano
jan/11
fev/11
mar/11
abr/11
mai/11
jun/11
jul/11
ago/11
set/11
set/11
P (mm)
139,8
75,9
89,5
169,1
168,9
194,1
122,8
33,8
2,3
5,3
nov/08
dez/08
3,5
1,8
nov/09
dez/09
2,0
2,6
nov/10
dez/10
34,7
2,6
nov/11
dez/11
2,7
2,6
Para a amplitude do intervalo de classe (c), considerando o valor da amplitude total (A)
calculado, teremos:
O prximo passo, aps conhecida a amplitude de classes, ser a determinao dos intervalos
de classe, mediante a definio dos limites inferior (LI) e superior (LS) das classes, escolhidos
de modo que o menor valor observado esteja localizado no ponto mdio (PM) da primeira
classe, ou seja:
5. Intervalos abertos os limites da classe (inferior e superior) no pertencem a ela. Intervalos fechados os limites de classe
(superior e inferior) pertencem classe em questo. Intervalos mistos um dos limites pertence classe, e o outro, no.
6. Existem outros procedimentos para determinao da amplitude do intervalo de classe que podem ser encontrados na
literatura.
Convm destacar que o ponto mdio do intervalo para a primeira classe corresponder ao
valor 0mm e, tendo em vista que no existe valor negativo para precipitao pluviomtrica
(desconsiderando-se a evapotranspirao), teremos o Quadro 02 abaixo com as classes da
nossa distribuio, basta que somemos a amplitude do intervalo de classe a cada limite inferior.
Quadro 02: Definio dos limites inferior e superior de cada uma das
classes determinadas para o universo de dados analisado.
Classe
1a
2a
3a
4a
5a
6a
7a
LI
-24,5
24,6
73,7
122,8
171,9
221
270,1
LS
24,6
73,7
122,8
171,9
221
270,1
319,2
LI
LS
fa
fr
1a
2a
3a
4a
5a
6a
7a
-24,5
24,6
73,7
122,8
171,9
221
270,1
Total
24,6
73,7
122,8
171,9
221
270,1
319,2
18
8
6
11
4
0
1
48
0,375
0,167
0,125
0,229
0,083
0,000
0,021
1,000
Em relao interpretao das informaes contidas no Quadro 03, pode-se observar que os
valores para precipitao ocorrida nos 48 meses avaliados esto concentrados na primeira,
segunda e quarta classes, decrescendo em direo s classes do fim da tabela.
A apresentao dos dados na forma de distribuio de freqUncias facilita bastante o clculo
manual de vrias medidas estatsticas de interesse, bem como a sua apresentao grfica,
consistindo em ferramenta disposio do analista.
Caso o interesse do analista, alm da determinao das frequncias absolutas e relativas,
se dirija determinao da quantidade de observaes que existe acima ou abaixo de um
7. A frequncia absoluta (f ) corresponde ao nmero de observaes que temos em uma determinada classe ou em um
determinado atributo de uma varivel qualitativa, e a frequncia relativa (fr) corresponde proporo do nmero de
observaes em uma determinada classe em relao ao total de observaes que temos. Esta freqncia pode ser expressa
em termos porcentuais. Para isto, basta multiplicar a frequncia relativa obtida por 100.
10
LI
-24,5
24,6
73,7
122,8
171,9
221
270,1
Total
LS
24,6
73,7
122,8
171,9
221
270,1
319,2
Total
f acum.
0
18
26
32
43
47
47
48
f acum.r
0,000
0,375
0,542
0,667
0,896
0,979
0,979
1,000
Logo:
8. Freqncia acumulada o total acumulado (soma) de todas as classes anteriores at a classe atual.
11
fa
20
60
80
fr
0,25
0,75
1,0
Estes grficos podem ser obtidos utilizando planilhas eletrnicas como, por exemplo, o
Excel.
12
Classes
150 |- 154
154 |- 158
158 |- 162
162 |- 166
166 |- 170
170 |- 174
Total
xi
152
156
160
164
168
172
fai
4
9
11
8
5
3
40
facumi
4
13
24
32
37
40
a) Histograma
Figura 4a - Exemplos de Histograma
9. Histogramas: so constitudos por um conjunto de retngulos, com as bases assentadas sobre um eixo horizontal, tendo o
centro da mesma no ponto mdio da classe que representa, e cuja altura proporcional frequncia da classe.
10. Polgono de frequncias um grfico de anlise no qual as frequncias das classes so localizadas sobre perpendiculares
levantadas nos pontos mdios das classes. Completa-se o polgono unindo as extremidades da linha que ligam os pontos
representativos das frequncias de classe aos pontos mdios das classes imediatamente anterior e posterior s classes
extremas, que tm frequncia nula.
13
Aps o estudo das formas de determinao das distribuies de frequncias e grficos que
as representam, voc dever ser capaz de organizar um conjunto de dados por meio de uma
distribuio de frequncias (absoluta, relativa, e acumuladas), represent-las graficamente e
proceder anlise das informaes contidas nos mesmos.
11. Pesquisa realizada pelo Exrcito Brasileiro (2005), mediante parceria com o Departamento Nacional de Infraestrutura de
Transportes - DNIT, em 8 (oito) postos de contagem considerados no levantamento estatstico para o projeto de duplicao
da BR101-NE.
14
15
A Utilizao da Mdia
Sendo a Distribuio Normal uma das distribuies mais importantes e que surge com mais
frequncia nas aplicaes (o que justifica a grande utilizao da mdia), a mdia consistir na
melhor medida de localizao do centro para uma srie de dados. Entretanto, sendo a mdia
uma medida bastante sensvel variabilidade dos dados, preciso ter cuidado com a sua
utilizao, tendo em vista que pode propiciar uma imagem distorcida da amostra.
A mdia possui uma particularidade bastante interessante, que consiste no seguinte: se
calcularmos os desvios de todas as observaes relativamente mdia e somarmos esses
desvios, o resultado obtido igual a zero.
Outra caracterstica da mdia que torna a sua utilizao vantajosa em certas aplicaes
quando o que se pretende representar a quantidade total expressa pelos dados, e ento se
utiliza a mdia. Na realidade, ao multiplicar a mdia pelo nmero total de elementos, obtemos
a quantidade pretendida.
Moda
Define-se moda como sendo o valor que surge com mais frequncia se os dados so discretos
ou, ainda, o intervalo de classe com maior frequncia se os dados so contnuos.
Assim, da representao grfica dos dados, obtm-se imediatamente o valor que representa
a moda ou a classe modal. Esta medida especialmente til para reduzir a informao de um
conjunto de dados qualitativos, apresentados sob a forma de nomes ou categorias para os
quais no se pode calcular a mdia e por vezes a mediana.
Para dados agrupados com classes, teramos o seguinte processo para a determinao do
valor modal para uma determinada srie de dados:
1. Identificao da classe de maior frequncia:
Para o exemplo apresentado no Quadro 06, teramos a 3 classe (158 |- 162).
2 passo: Clculo da Moda:
Sendo:
16
Mediana
A mediana uma medida de localizao do centro da distribuio dos dados, definida do
seguinte modo: Ordenados os elementos da amostra, a mediana o valor (pertencente ou
no amostra) que a divide ao meio, isto , 50% dos elementos da amostra so menores ou
iguais mediana e os outros 50% so maiores ou iguais mediana.
Para sua determinao, utiliza-se a seguinte regra, depois de ordenada a amostra de n
elementos: Se n mpar, a mediana o elemento mdio e, se n par, a mediana a semisoma dos dois elementos mdios.
Teramos, ento, para dados no agrupados, o seguinte processo:
a) Quando o nmero de valores observados mpar:
17
Quando se apresentar de forma enviesada para a direita (alguns valores grandes como outliers),
a mdia tende a ser maior que a mediana.
Figura 06- Exemplos de distribuies assimtricas.
Caso a distribuio seja enviesada para a esquerda (alguns valores pequenos como outliers), a
mdia tende a ser inferior mediana.
18
Desvio-padro
a raiz quadrada da varincia. Na frmula original para o clculo da varincia, observa-se que
uma soma de quadrados, a unidade em que se exprime no a mesma que a dos dados Por
exemplo, se a unidade original for metro (m), o resultado ser metro ao quadrado (m2).
19
Para retornar unidade de medida original, extrai-se a raiz quadrada da varincia, passando
a chamar-se de desvio-padro. Assim, para obter uma medida da variabilidade ou disperso
com as mesmas unidades que os dados, tomamos a raiz quadrada da varincia e obtemos o
desvio padro.
O desvio padro, portanto, uma medida que s pode assumir valores no negativos e,
quanto maior for, maior ser a disperso dos dados. O desvio padro ser maior, quanto mais
variabilidade houver entre os dados.
Coeficiente de Variao
O coeficiente de variao (CV) consiste em uma medida relativa de disperso, til para
a comparao em termos relativos ao grau de concentrao em torno da mdia de sries
distintas. Para uma amostra, teramos a seguinte expresso:
Distribuio Normal
A distribuio normal a mais importante distribuio estatstica, considerando a questo prtica
e terica, apresentando-se em formato de sino, unimodal, simtrica em relao a sua mdia.
Considerando a probabilidade de ocorrncia, a rea sob sua curva soma 100%. Isso quer dizer
que a probabilidade de uma observao assumir um valor entre dois pontos quaisquer igual
rea compreendida entre esses dois pontos.
20
Na figura apresentada a seguir, com as barras situadas logo abaixo do eixo das abscissas,
representando os desvios-padro, quanto mais afastado do centro da curva normal, mais
rea compreendida abaixo da curva haver, ou seja, a um desvio-padro, temos 68,26% das
observaes contidas, a dois desvios-padres, possumos 95,44% dos dados compreendidos e,
finalmente, a trs desvios, temos 99,73% de probabilidade de ocorrncia.
Figura 07- Relao entre o desvio-padro e a probabilidade de ocorrncia de um evento.
Condies para se usar o desvio-padro ou varincia para comparar a variabilidade entre grupos:
mesmo nmero de observaes;
mesma unidade;
mesma mdia.
Alm disso, se quisermos comparar duas ou mais amostras de valores expressos em unidades
diferentes, no ser ser possvel fazer a comparao por meio do desvio-padro, pois ele
expresso na mesma unidade dos dados.
21