Você está na página 1de 48

Setor de Cincias Agrrias / Centro de Cincias Florestais e da Madeira Programa de Ps-Graduao em Engenharia Florestal: Mestrado e Doutorado Disciplina: Delineamentos

Experimentais (AS 722) Professor: Nelson Yoshihiro Nakajima

ELEMENTOS DE ESTATSTICA
(Estatstica Descritiva/Anlise Exploratria dos Dados)
Silvana Heidemann Rocha

Curitiba, Maro de 2010

INTRODUO 1. Fenmenos, experimentos e modelos


Determinsticos Aleatrios ou probabilsticos Caticos Conceito
reprodutibilidade casualidade (ou aleatoriedade, e precisa ser definida no contexto do experimento) descrio de todos os resultados possveis para o experimento regularidade

classificao didtica atual

2. Experimentos aleatrios

Como medir a incerteza presente numa situao (experimento)? Teoria elementar da probabilidade (Variabilidade, incerteza, acaso, aleatoriedade,
possibilidade, probabilidade, variveis aleatrias).

3. Objetivos (histricos) da Estatstica 4. Principais ramos da Estatstica


Estatstica Descritiva/Anlise Exploratria dos Dados
Apresentao de dados Medidas resumo de um conjunto de dados Inferncia clssica: Teoria da estimao, teoria da deciso Inferncia baysiana Testes de hipteses no-paramtricos

Estatstica Inferencial (requisitos: aleatoriedade, controle local, repetio)


INTRODUO
1. Principais conceitos:
Classificao mais comum

Qualitativa Atributo/varivel Quantitativa

Nominal Ordinal Discreta Contnua

Unidade elementar (ou elemento de uma populao) Populao Populao alvo Populao referenciada Populao amostrada Amostra Unidade amostral Levantamento de dados Recensemento, censo Amostragem

2. Parmetro, Estatstica e estatstica, estimador, estimativa 3. Dados, informao e propaganda 4. Cdigos de tica para pesquisadores cientficos e para estatsticos

PRINCIPAIS FASES DE UM LEVANTAMENTO DE DADOS 1) Definio do problema


Identificao dos objetivos Identificao das populaes (alvo, referenciada, amostrada)

2) Planejamento
Identificao e definio das variveis Instrumentos de mensurao Mtodo de investigao Experimentao ou levantamento Descritivo ou analtico Dados so simples ou multivariados Recenseamento ou amostragem Seleo da amostra (se for uma amostragem) Tcnica de amostragem a ser utilizada Tamanho da amostra Identificao das unidades amostrais Ensaios destrutivos ou no Forma de processamento (apurao) dos dados Pesquisa piloto Oramento e cronograma

3) Coleta de dados
Recrutamento Treinamento Verificao (controle contnuo de qualidade) Registro

continua

PRINCIPAIS FASES DE UM LEVANTAMENTO DE DADOS


(continuao)

4) Crtica dos dados


Detectar e explicar dados no condizentes com o esperado.

5) Apurao ou organizao dos dados


Criao de banco de dados

6) Apresentao dos dados


Rol ou listas Quadros e tabelas Grficos e diagramas

7) Anlise e interpretao dos resultados


Anlise exploratria dos dados medidas resumo diagramas de anlise (exemplo: box-plot ) Elaborao de modelos estatsticos (se for uma amostragem) Descrio da populao amostrada (se for uma amostragem)

8) Tomada de deciso e divulgao Observao:


Essas fases constituem apenas uma diviso didtica de um levantamento de dados. Na prtica, as fases devem ser integradas, sobrepostas, relacionadas.

AMOSTRAS E AMOSTRAGENS
Amostra representativa e amostra viciada (ou tendenciosa)
Inferncia uma amostra que foi obtida por um processo isento de vcio.

Tipos bsicos de amostras (determinado pelo procedimento de seleo da amostra) Amostras probabilsticas Amostras probabilsticas probabilidade igual de seleo das unidades amostrais probabilidade distinta de seleo das unidades amostrais Amostras quase-aleatrias (exemplo: amostragem por quotas) Amostras no-probabilsticas (ou de convenincia) Amostras criteriosas (exemplo: unidade amostral tpica) Amostras intencionais (exemplo: jri de especialistas, voluntrios) Nmero de estgios para seleo das unidades amostrais e/ou das elementares Um estgio Mais de um estgio Quanto reposio da unidade amostral e/ou da elementar Amostragem com reposio (garante independncia) Amostragem sem reposio (no garante independncia)
continua

AMOSTRAS E AMOSTRAGENS
(continuao)

Principais tcnicas de amostragem Amostragem aleatria simples Amostragem sistemtica Amostragem proporcional estratificada Amostragem por conglomerados Amostragem por convenincia

Amostras probabilsticas Amostras no-probabilsticas

Amostras aleatrias Amostras aleatrias tericas ou matematicamente idealizadas Amostras aleatrias experimentalmente possveis Pressupostos para as tcnicas de inferncia (clssica ou no) Aleatoriedade amostras representativas Controle local Repetio Principais pressupostos para uso das tcnicas da inferncia clssica Normalidade Independncia (amostras com reposio) Observao: Deve-se aplicar estudos descritivos e no tcnicas de inferncia quando os pressupostos da inferncia (clssica ou no) no estiverem garantidos.

APRESENTAO DE DADOS
Requisitos: clareza, objetividade e conciso

FORMAS DE APRESENTAO: Rols ou listas Tabelas e quadros


informaes numricas informaes no-numricas

Grficos e diagramas

Exemplo de um rol
Consumo de gua mensal, em m3, correspondente a uma amostra de 40 contas da SANEPAR Curitiba - Paran __________________________________________ 14 15 16 19 20 26 31 35 14 15 16 20 22 29 31 35 14 15 18 20 22 30 32 35 15 15 18 20 24 31 33 38 15 15 18 20 25 31 33 41 __________________________________________
Fonte: Dados fictcios.

Partes de uma tabela


Taxa de analfabetismo, segundo o ano - Brasil Ano 1970 1980 1991 (1) 1995 (1) 1996 Porcentagem (%) 33,6 25,4 20,1 15,6 14,7

O que Onde Quando

ttulo

cabealho corpo casa ou clula

Fonte: IBGE/Pnad (1996). Nota: Faixa etria de 15 anos ou mais. (1) Em 1995 e 1996, exclui a populao rural de Rondnia, Acre, Amazonas, Roraima, Par e Amap.

rodap

Sries estatsticas
Populao mundial, em milhes, segundo o continente 2000 Continente frica Amrica sia Europa Oceania Total Populao (em milhes) 783,7 823,2 3.678,2 745,5 30,0 6.060,6

Fonte: Almanaque Abril Mundo 2001.

Classificao: Srie geogrfica ou espacial ou de


localizao

Sries estatsticas
Sistema Penitencirio Perfil do preso Brasil - 1999 Categorias Reincidentes Jovens (entre 18 e 30 anos) Ensino fundamental incompleto Pobres Homens Porcentagem (%) 53(1) 58(1) 74,5 95 96

Fonte: Ilanud (1996) e Censo Penitencirio (1994 e 1997). (1) Dados referentes populao carcerria do Estado de So Paulo.

Classificao: Srie categrica ou especfica

Sries estatsticas
Taxa de analfabetismo, segundo o ano - Brasil Ano 1970 1980 1991 (1) 1995 (1) 1996 Porcentagem (%) 33,6 25,4 20,1 15,6 14,7

Fonte: IBGE/Pnad (1996). Nota: Faixa etria de 15 anos ou mais. (1) Em 1995 e 1996, exclui a populao rural de Rondnia, Acre, Amazonas, Roraima, Par e Amap.

Classificao: Srie temporal ou cronolgica ou histrica

Sries estatsticas
Taxa de famlias chefiadas por mulheres, em porcentagem, segundo o ano e a regio geogrfica Brasil Regies Norte Nordeste Sudeste Sul Centro-Oeste Brasil
Fonte: IBGE (1996).

1980 12,25 16,58 14,89 12,05 13,17 14,65

Ano 1991 15,52 19,46 18,60 16,03 16,95 18,12

1996 18,61 21,92 21,40 18,55 19,98 20,81

Classificao: Srie geogrfico-temporal ou espacial-temporal

Tabelas de distribuio de freqncias


Exemplo de tabela primitiva:
Tabela 1 Estatura, em centmetros, de 30 alunos do colgio X - Curitiba Fevereiro/2002
155 162 155 160 161 162 161 168 163 163 163 160 162 168 155 160 173 155 155 160 167 167 155 167

Fonte: Dados fictcios.

Tabelas de distribuio de freqncias


Ex. de tabela de distrib. de freq. sem intervalo de classe: Tabela 2 - Estatura, em centmetros, de 30 alunos do colgio X Curitiba - Fevereiro/2002 Estatura(cm) Freqncia 155 6 160 4 161 2 162 3 163 3 167 3 168 2 173 1 Total 24
Fonte: Dados fictcios.

Tabelas de distribuio de freqncias


Ex. de tabela de distrib. de freq. com intervalo de classe: Tabela 3 - Estatura, em centmetros, de 30 alunos do colgio X Curitiba - Fevereiro/2002 Estatura (cm) 155 | 160 160 | 165 165 | 170 170 | 175 Total
Fonte: Dados fictcios.

Freqncia 6 15 8 1 30

Observao: a | b um intervalo fechado esquerda e aberto direita, tal como

a x<b

Tabelas de distribuio de freqncias


Ex. de tabela de distribuio de freqncias conjuntas: Pacientes HIV positivos, segundo o nmero de internaes (X) e o nmero de crises com infeces oportunistas (Y) Y X 0 1 2 3 4 Total 0 1 2 Total 84 20 6 110 21 59 11 91 8 35 43 86 2 14 28 44 0 2 12 14 115 130 100 345

Fonte: Baseado em MAGALHES, M. N.; LIMA, A. C. P. Noes de probabilidade e estatstica. 6 ed. So Paulo: Edusp, 2008, p. 127

Alguns principais tipos de grficos


1) Grfico em barras: Usado para sries geogrficas e para categricas.
Oceania 30

Europa

745,5

frica

783,7

Amrica

823,2

sia 0 500 1.000 1.500 2.000 2.500 3.000 3.500

3.678,20 4.000

Populao, em milhes

Populao mundial, em milhes, segundo o continente - 2000


Fonte: Almanaque Abril Mundo 2001.

Alguns principais tipos de grficos


2) Grfico em colunas: Para sries temporais e para variveis qualitativas ordinais.
Chefes de famlia do Bairro Alto, segundo o grau de escolaridade Curitiba - 2002
1.500

1.200

N de chefes

900

600

300

0 Ensino Fundamental Ensino Mdio Ensino Superior

Fonte: Dados fictcios.

Alguns principais tipos de grficos


3) Grfico em colunas mltiplas: Para sries conjugadas.
1.600.000 1.400.000

N de m atrc ulas

1.200.000 1.000.000 800.000 600.000 400.000 200.000 0 1994 1995 1996 1997 1998 1999

Rede pblica

Rede privada

Matrculas nos cursos superiores de graduao - Brasil 1994 a 1999


Fonte: MEC/INEP/SEEC.

Alguns principais tipos de grficos


4) Grfico em setores circulares: Para sries geogrficas, categricas e para
variveis qualitativas nominais.

1.472.930; 14% 99.454; 1%

9.204.528; 85%

Amrica do Norte

Amrica Central

Amrica do Sul

Produto Interno Bruto (PIB) americano, em milhes de dlares, segundo a regio do continente 1998
Fonte: Almanaque Abril Mundo 2001.

Alguns principais tipos de grficos


5) Grfico em linha:
180 160

Para ressaltar tendncias em sries temporais.

V olum e (U S $ bilhes )

140 120 100 80 60 40 20 0 1990 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 2004 2005 2006 2007 Exportao Importao

Comrcio Exterior - Brasil 1990 a 2007


Fonte: Ministrio do Desenvolvimento, Indstria e Comrcio Exterior.

Alguns principais tipos de grficos


6) Diagrama de Pareto:
1200 1000

1062

Fre q n cia

800 600 400 200 0 No entrega de produto ou servio Problemas relativos a contratos No prestao se servios Cobrana indevida Dificuldade em efetuar pagamento

383 227 178 17

Reclamaes em relao companhia telefnica Al Doura So Paulo Maro/2004


Fonte: Dados fictcios.

7) Diagrama de Ramo e folhas:

Alguns principais tipos de grficos


(1) 83 | 4 (3) 84 | 3 3 (4) 85 | 3 (7) 86 | 7 7 7 (13) 87 | 4 5 6 7 8 9 (24) 88 | 2 3 3 3 4 5 5 6 6 7 9 (34) 89 | 0 2 3 3 6 7 8 8 9 9 (13) 90 | 0 1 1 1 3 4 4 4 5 6 7 8 9 (35) 91 | 0 0 0 1 1 1 2 2 5 6 6 8 8 (22) 92 | 2 2 2 3 6 7 7 7 (14) 93 | 0 2 3 3 4 7 (8) 94 | 2 2 4 7 (4) 95 | (4) 96 | 1 5 (2) 97 | (2) 98 | 8 (1) 99 | (1) 100 | 3

Taxas de octanagem de combustvel para motor, de vrias misturas de gasolina Tamanho da amostra: n = 82 - Unidade da folha = 0,1

Fonte: MONTEGOMERY et RUNGER. Estatstica aplicada e probabilidade para engenheiros, 2008.

Alguns principais tipos de grficos


8) Diagrama de caixa (box plot):

Renda familiar mensal, em reais

Trabalhadores autnomos, segundo a renda familiar mensal, em reais.


Fonte: Dados fictcios.

Alguns principais tipos de grficos


9) Histograma de freqncia sem intervalos de classe: Para variveis
quantitativas discretas.

12 10 F reqncia 8 6 4 2 0 2 3 4 N de filhos Chefes de famlia do Bairro Alto, segundo o nmero de filhos Curitiba - 2002
Fonte: Dados fictcios.

Nenhum

Alguns principais tipos de grficos


10) Histograma de freqncia com intervalos de classe: Para variveis
30 27 24 21 18 15 12 9 6 3 0 5 25 45 65 85 105 125 145

quantitativas contnuas.

Freqncia

Notas relativas a uma avaliao do raciocnio lgico dos candidatos ao cargo de auditor fiscal da Receita Federal - Braslia - Julho/2003
Fonte: Dados fictcios.

Notas

Alguns principais tipos de grficos


11) Diagrama de disperso: Para relacionar duas variveis quantitativas contnuas.
30 Ganho de peso (Kg) 25 20 15 10 5 0 0 1 2 3 4 Concentrao (mg/l) 5 6 7

Bois de uma dada regio de Bocaina-So Paulo, segundo a concentrao de certa susbstncia X, em miligramas por litro, e o ganho de peso, em quilos, aps 30 dias de adminstrao da substncia X
Fonte: Baseado em MAGALHES, M. N.; LIMA, A. C. P. Noes de probabilidade e estatstica. 6 ed. So Paulo: Edusp, 2008, p. 332.

Alguns principais tipos de grficos


12) Pictogramas:

Fonte: Magalhes et Lima. Noes de probabilidade e estatstica. 6 ed. So Paulo: Edusp, 2008.

Alguns principais tipos de grficos


13) Grfico polar Em especial, usado para sries temporais cclicas.

Fonte: Veja, 12/07/2000, p.55

Alguns erros comuns cometidos na apresentao dos dados 1) Considere os grficos A e B a seguir, relacionados com a tabela abaixo. Qual grfico o mais apropriado? Justifique. Entrega de gasolinas para consumo - Brasil 1985 a 1988 Anos 1985 1986 1987 1988 Quantidade (1000 m3) 9.793 11.095 9.727 9.347

Fonte: CRESPO, Antnio A. Estatstica fcil. 10 ed. So Paulo: Saraiva, 1993, p.52.

Grfico A
Entrega de gasolinas para consumo Brasil - 1985 a 1988
12000 Q u a n tid a d e (1 0 0 0 m 3 ) 10000 8000 6000 4000 2000 0 1985 1986 1987 1988

Fonte: CRESPO, Antnio A. Estatstica fcil. 10 ed. So Paulo: Saraiva, 1993, p. 52.

Grfico B
Entrega de gasolinas para consumo Brasil - 1985 a 1988
11500 Q u a n tid a d e (1 0 0 0 m 3 ) 11000 10500 10000 9500 9000 8500 8000

1985

1986

1987

1988

Fonte: CRESPO, Antnio A. Estatstica fcil . 10 ed. So Paulo: Saraiva, 1993, p. 52.

Concluso 1:
A escala usada no grfico B distorceu as relaes existentes entre as quantidades de gasolina entregue anualmente para consumo.
Esse um erro comum na apresentao de dados:

Uso de escalas inadequadas.

Alguns erros comuns cometidos na apresentao dos dados

2) O que est errado na apresentao abaixo?


frica
1% 2% 34% 38%

Amrica sia Europa

25%

Oceania

Produto Interno Bruto (PIB) mundial, em milhes de dlares, segundo o continente 1998

Fonte: Almanaque Abril Mundo 2001.

Concluso 2:
1) A legenda e a fonte esto maiores que o grfico ou o ttulo.
Esse um erro comum na apresentao de dados:

Valorizao de aspectos secundrios em detrimento das informaes principais. 2) As unidades de mensurao no grfico (em porcentagem) e no ttulo (em milhes de dlares) no correspondem.

Alguns erros comuns cometidos na apresentao dos dados

3) O que est errado na apresentao abaixo? Renda per capita duplicou nos Estados Unidos em 1992

Fonte: Baseado em FREUD, John E. Estatstica aplicada: economia, administrao e contabilidade. 11 ed. Porto Alegre: Bookman, 2006.

Concluso 3: Os volumes dos recursos pictogrficos usados no so proporcionais ao respectivo aumento da renda per capita.
Esse um erro comum na apresentao de dados:

Uso de recursos pictogrficos desproporcionais s grandezas que devem representar.

Alguns erros comuns cometidos na apresentao dos dados

4) Quais os problemas na seguinte apresentao?

Publicado na revista Exame, 03/04/2002, p. 37.

Concluso 4:
Se voc come 50% de um boi e eu como 50% de uma galinha, ento comemos quantidades semelhantes? Esses so erros comuns na apresentao de dados: Ttulos propagandsticos, falaciosos.
No exemplo dado, a idia de proporcionalidade foi substituda pela de semelhana.

Falta de informao no rodap.


Por exemplo: Quais os valores absolutos dos PIBs? Essa informao deveria ter sido colocada como nota, no rodap. A tabela a seguir apresenta os valores dos PIBs e o tamanho da populao dos pases indicados no grfico em questo.

Pases, segundo o valor do Produto Interno Bruto (PIB) e o tamanho da populao - 1998 Pas Estados Unidos Alemanha Frana Brasil
Fonte: Almanaque Abril, 2001.

Valor do PIB (US$ bilhes) 8.000 2.000 1.500 558

Populao (Milhes) 280,0 82,2 59,1 170,0

Dados, informao e propaganda


Qual o objetivo do grfico abaixo?

Fonte: Veja, 2002.

Observaes sobre a confeco de histogramas com intervalos de classe


Quanto ao nmero k de classes(ou intervalos) Princpio emprico: 5 a 20 classes Critrio da raiz quadrada: Critrio de Sturges: k = 1+ 3,3 log n Evitar classes com frequencias nulas Utilizar histograma de densidade de frequencia (relativa ou absoluta) quando os intervalos tiverem amplitudes distintas. Utilizar histograma de densidade de frequencia relativa quando os intervalos tiverem amplitudes iguais ou distintas, se o objetivo for associar rea com probabilidade.

Medidas resumo de um conjunto de dados (ou descrio numrica)


Medidas de posio ou separatrizes ou quantis Mediana Tercis Quartis Decis Percentis ou centis Medidas de tendncia central Mdias Mdia aritmtica Simples Ponderada Mdia geomtrica Mdia de potncia (quadrtica, cbica, biquadrtica etc) Mdia harmnica Mediana Moda
continua

Medidas resumo de um conjunto de dados (ou descrio numrica) - continuao


Medidas de disperso ou variabilidade Amplitude total Desvio mdio absoluto Varincia Populacional Amostral Desvio-padro Populacional Amostral Coeficiente de variao Populacional Amostral Medidas de assimetria Medidas de curtose Momentos Momentos absolutos Momentos centrados Momentos conjuntos

REFERNCIAS
BOLFARINE, H.; BUSSAB, W. O. Elementos de amostragem. So Paulo: Blucher, 2005. BUSSAB, W. O.; MORETTIN, P. A. Estatstica bsica. 5 ed. So Paulo: Saraiva, 2002. COSTA NETO, Pedro L. O. Estatstica. 2 ed. So Paulo: Blcher, 2002. GNEDENKO, B. V. The theory of probability. Moscow: Mir Publishers, 1969. LEVINE, David. M.; BERENSON, Mark L.; STEPHAN, David. Estatstica: teoria e aplicaes usando MICROSOFT EXCEL em portugus. Rio de Janeiro: LTC, 2000. MAGALHES, M. N.; LIMA, A. C. P. Noes de probabilidade e estatstica. 6 ed. So Paulo: Edusp, 2008. MEYER, P. L. Probabilidade: aplicaes estatstica. 2 ed. Rio de Janeiro: LTC, 1983.

continua

REFERNCIAS
(continuao)

MILONE, Giuseppe. Estatstica geral e aplicada. So Paulo: Thomson Learning, 2006. MLODINOW, L. O andar do bbado: como o acaso determina nossas vidas. Rio de Janeiro: Jorge Zahar, 2009. MONTGOMERY, D. C.; RUNGER, George C. Estatstica aplicada e probabilidade para engenheiros. 2 ed. Rio de Janeiro: LTC, 2008. SALSBURG, David. Uma senhora toma ch: como a estatstica revolucionou a cincia no sculo XX. Rio de Janeiro: Zahar, 2009. STEWART, Ian. Ser que Deus joga dados? : a nova matemtica do caos. Rio de Janeiro: Jorge Zahar, 1991.