P. 1
Estatística Aplicada

Estatística Aplicada

|Views: 316|Likes:
Publicado porLeo_12345

More info:

Published by: Leo_12345 on Oct 31, 2011
Direitos Autorais:Attribution Non-commercial

Availability:

Read on Scribd mobile: iPhone, iPad and Android.
download as PDF, TXT or read online from Scribd
See more
See less

08/03/2013

pdf

text

original

Sections

  • 1 Introdução
  • 1.1 Crescimento e Desenvolvimento da Estatística Moderna
  • 1.2 Variação ao Acaso
  • 2 Ensaio x Experimentação
  • Ensaio Experimentação
  • 3 Conceitos Estatísticos
  • 3.1 Estatística Descritiva
  • 3.2 Inferência Estatística
  • 3.3.1 Variáveis Aleatórias Categorizadas
  • 3.3.2 Variáveis Aleatórias Numéricas
  • Figura 2. Diagrama de tipos de dados
  • 4 Por que Utilizar a Estatística
  • 5 Planejamento Experimental
  • 5.1 Fases do Planejamento
  • 5.1.1 Problema
  • 5.1.2 Informações Existentes
  • 5.1.3 Noções Gerais Sobre Hipótese
  • 5.1.4 Formulação das Hipóteses
  • 5.1.5 Testando as Hipóteses
  • 5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses
  • 5.1.7 Aleatorização
  • 5.2 Erros de Observações
  • 5.2.1 Erros do Observador
  • 5.2.2 Erro do Método de Observação
  • 5.2.3 Por Falta de Resposta
  • 5.3 Controle dos Erros nas Observações
  • 5.4 Métodos de Coleta de Dados
  • 5.4.1 Fontes Primárias
  • 5.4.2 Fontes Secundárias
  • 5.5 Pesquisa Observacional
  • 5.6 Pesquisa Experimental
  • 5.6.1 Princípios da Experimentação
  • 5.7 Tipos de Amostras
  • 5.7.1 Amostras Simples ao Acaso
  • 5.7.2 Amostra Estratificada
  • 5.7.3 Amostra Sistemática
  • 5.7.4 Amostra por Área
  • 5.7.5 Amostra por Conglomeradas
  • 5.7.6 Amostra Selecionada
  • 5.8 Determinação do Tamanho da Amostra
  • 5.8.1 Tamanho da Amostra para Dados Discretos
  • 5.8.2 Tamanho da Amostra para Dados Contínuos
  • 6 Técnicas Estatísticas Para Análise de dados
  • 6.1 Medidas de Tendência Central
  • 6.1.2 Média Aritmética Ponderada
  • 6.1.3 Média Aritmética de Dados Agrupados em Intervalos
  • 6.1.4 Mediana (Me)
  • 6.2 Medidas de Variação
  • 6.2.1 Desvio-Médio (DM)
  • 6.2.2 Desvio Padrão
  • 6.3 Variância ou Quadrado Médio
  • 6.4 Erro-Padrão da Média - s(x)
  • 6.5 Coeficiente de Variação
  • 6.6 Curva de Distribuição Normal
  • 6.6.1 Limites de Confiança
  • 6.6.2 Erro Padrão
  • 6.7 Teste de Normalidade dos Dados
  • 6.8 Teste de Klomogorov-Smirnov (K-S)
  • 6.9 Teste de Shapiro-Wilks (S-W)
  • 7 Testes Paramétricos e Não Paramétricos
  • 7.1 Teste t - Student
  • 7.1.1 Dados Pareados (Amostras Dependentes)
  • 7.1.2 Dados Pareados (Amostras Independentes)
  • 7.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)
  • 7.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas)
  • 7.2 Teste Qui-Quadrado (χχχχ²)
  • 7.3 Tabela de Contingência
  • 7.4 Teste de Kruskal-Wallis
  • 7.5 Teste de Friedman (Análise da Variância)
  • 8 Correlação Linear
  • 8.1.1 Correlação de Pearson
  • 8.1.2 Correlação de Spearman
  • 8.1.3 Aspectos Gerais da Correlação Linear
  • 8.3 Coeficiente de Alienação (K)
  • 8.4 Significância do Teste de Correlação
  • 8.4.1 Significância Baseada nos Intervalos
  • Tabela 6. Classificação do valor r através de intervalos de 0 a 1
  • 8.4.2 Significância Baseada no Teste t para r (Pearson)
  • 9 Análise de Regressão
  • 9.1 Regressão Linear Simples
  • 9.2 Regressão Linear Múltipla
  • 9.3 Regressão Múltipla
  • 10 Transformação de Dados
  • 10.1 Raiz Quadrada
  • 10.2 Transformação Logarítimica
  • 10.3 Transformação Angular (Arcoseno)
  • 10.4 Considerações Gerais
  • 11 Testes Específicos Para Análise de Populações e Comunidades
  • 11.1 Índice de Diversidade e Dominância Populacional
  • 11.1.1 Índice de Margalef (α)
  • 11.1.2 Índice de Glason (Dg)
  • 11.1.3 Índice de Menhinick (Dm)
  • 11.1.4 Índice de Shanon-Wiener (H')
  • 11.1.5 Índice de Dominância Berger-Parker (d)
  • 11.2 Exemplo
  • Tabela 9. Índices de diversidade de cochonilhas em agroecossiema cítrico
  • Tabela 10. Duas comunidades com sua composição de espécies em percentagem
  • 13 Anexos
  • Figura 13. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos
  • Tabela 13. Valores críticos para o Coeficiente de Correlação de Spearman (rs) 5
  • Tabela 14. Valores para transformação %
  • Tabela 15. Valores mínimos de j, significativos a 0,5% (Southwood, 1971)

6ª Edição Revisada e Ampliada
O Autor:
William Costa Rodrigues é Agrônomo, Doutor em Fitotecnia e PósDoutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de Ecologia1, Toxicologia1, Climatologia1, Estudos de Impacto Ambiental1, Estatística Aplicada2 e Auditoria Certificação Ambiental2, Metodologia da Pesquisa Científica2 na graduação e de Estatística Ambiental1 e Biondicadores Ambientais1 na especialização de Planejamento e Gestão Ambiental1, onde também é Supervisor Pedagógico. Atua como desenvolvedor de softwares agrícolas e Científicos. Coordenador Geral do projeto Entomologistas do Brasil (www.ebras.bio.br). Coordenador e autor de capítulos no livro Citricultura Fluminense: Principais pragas e seus inimigos naturais. Trabalha ativamente com análise estatística em projetos na área agrícola e ambiental. O autor poderá ser contatado através do e-mail: wcostarodrigues@yahoo.com.br.

Esta Obra:
A apostila Estatística Ambiental foi inicialmente utilizada no programa de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e no Curso de graduação em Gestão Ambiental, na disciplina Estatística Aplicada, tendo como objetivo informar o discente sobre os princípios básicos da estatística, relacionando-a com a metodologia científica, possibilitando um entendimento básico sobre o assunto. Hoje a apostila é também utilizada em cursos de graduação. Capa: Fotos do Autor na Ilha da Marambaia. Foto superior Casulo de Plecoptera e foto inferior, córrego onde ao casulo foi coletado.

Esta obra é distribuída através da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br

Copyright©2004-2008 Rodri Copyright©2004-2008, W.C. Rodrigues

1 2

Disciplina Ministrada na Universidade Severino Sombra Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental

Sumário
1 Introdução................................................................................................................. 1 1.1 Crescimento e Desenvolvimento da Estatística Moderna ................................ 1 1.2 Variação ao Acaso ............................................................................................ 1 Ensaio x Experimentação ......................................................................................... 2 Conceitos Estatísticos ............................................................................................... 2 3.1 Estatística Descritiva ........................................................................................ 2 3.2 Inferência Estatística......................................................................................... 2 3.3 Tipos de Dados ................................................................................................. 3 3.3.1 Variáveis Aleatórias Categorizadas.......................................................... 3 3.3.2 Variáveis Aleatórias Numéricas ............................................................... 3 Por que Utilizar a Estatística .................................................................................... 4 Planejamento Experimental...................................................................................... 4 5.1 Fases do Planejamento ..................................................................................... 4 5.1.1 Problema................................................................................................... 5 5.1.2 Informações Existentes............................................................................. 5 5.1.3 Noções Gerais Sobre Hipótese ................................................................. 5 5.1.4 Formulação das Hipóteses ........................................................................ 6 5.1.4.1 Elaborando as hipóteses........................................................................ 6 5.1.4.2 Hipótese Estatística x Hipótese Científica ........................................... 6 5.1.5 Testando as Hipóteses .............................................................................. 6 5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses ..................... 6 5.1.7 Aleatorização ............................................................................................ 7 5.2 Erros de Observações ....................................................................................... 7 5.2.1 Erros do Observador................................................................................. 7 5.2.2 Erro do Método de Observação ................................................................ 8 5.2.3 Por Falta de Resposta ............................................................................... 8 5.3 Controle dos Erros nas Observações ................................................................ 8 5.4 Métodos de Coleta de Dados ............................................................................ 8 5.4.1 Fontes Primárias ....................................................................................... 8 5.4.2 Fontes Secundárias ................................................................................... 8 5.5 Pesquisa Observacional .................................................................................... 9 5.6 Pesquisa Experimental...................................................................................... 9 5.6.1 Princípios da Experimentação ................................................................ 10 5.7 Tipos de Amostras .......................................................................................... 10 5.7.1 Amostras Simples ao Acaso ................................................................... 10 5.7.2 Amostra Estratificada ............................................................................. 11 5.7.3 Amostra Sistemática ............................................................................... 11 5.7.4 Amostra por Área ................................................................................... 11 5.7.5 Amostra por Conglomeradas .................................................................. 11 5.7.6 Amostra Selecionada .............................................................................. 11 5.8 Determinação do Tamanho da Amostra ......................................................... 12 5.8.1 Tamanho da Amostra para Dados Discretos .......................................... 12 5.8.2 Tamanho da Amostra para Dados Contínuos ......................................... 13 Técnicas Estatísticas Para Análise de dados .......................................................... 14 6.1 Medidas de Tendência Central ....................................................................... 14 6.1.1 Média Aritmética Simples ( X ) .............................................................. 14 6.1.2 Média Aritmética Ponderada .................................................................. 14 6.1.3 Média Aritmética de Dados Agrupados em Intervalos .......................... 15

2 3

4 5

6

6.1.4 Mediana (Me) ......................................................................................... 16 6.2 Medidas de Variação ...................................................................................... 17 6.2.1 Desvio-Médio (DM) ............................................................................... 17 6.2.2 Desvio Padrão......................................................................................... 17 6.3 Variância ou Quadrado Médio ....................................................................... 18 6.4 Erro-Padrão da Média - s(x) ........................................................................... 19 6.5 Coeficiente de Variação.................................................................................. 19 6.6 Curva de Distribuição Normal........................................................................ 19 6.6.1 Limites de Confiança.............................................................................. 21 6.6.2 Erro Padrão ............................................................................................. 22 6.7 Teste de Normalidade dos Dados ................................................................... 22 6.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 22 6.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 22 7 Testes Paramétricos e Não Paramétricos................................................................ 23 7.1 Teste t - Student.............................................................................................. 23 7.1.1 Dados Pareados (Amostras Dependentes).............................................. 24 7.1.2 Dados Pareados (Amostras Independentes) ........................................... 25 7.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)........... 26 7.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas) ................. 27 7.2 Teste Qui-Quadrado (χ²) ................................................................................ 28 7.3 Tabela de Contingência .................................................................................. 28 7.4 Teste de Kruskal-Wallis ................................................................................. 29 7.5 Teste de Friedman (Análise da Variância) ..................................................... 31 8 Correlação Linear ................................................................................................... 32 8.1 Coeficiente de Correlação (r) ......................................................................... 32 8.1.1 Correlação de Pearson ............................................................................ 32 8.1.2 Correlação de Spearman......................................................................... 32 8.1.3 Aspectos Gerais da Correlação Linear ................................................... 33 8.2 Coeficiente de Determinação (r²) ................................................................... 34 8.3 Coeficiente de Alienação (K) ......................................................................... 34 8.4 Significância do Teste de Correlação ............................................................. 34 8.4.1 Significância Baseada nos Intervalos ..................................................... 34 8.4.2 Significância Baseada no Teste t para r (Pearson) ................................. 35 9 Análise de Regressão.............................................................................................. 35 9.1 Regressão Linear Simples .............................................................................. 36 9.2 Regressão Linear Múltipla.............................................................................. 36 9.3 Regressão Múltipla ......................................................................................... 37 10 Transformação de Dados .................................................................................... 37 10.1 Raiz Quadrada ................................................................................................ 38 10.2 Transformação Logarítimica .......................................................................... 38 10.3 Transformação Angular (Arcoseno)............................................................... 38 10.4 Considerações Gerais ..................................................................................... 38 11 Testes Específicos Para Análise de Populações e Comunidades ....................... 38 11.1 Índice de Diversidade e Dominância Populacional........................................ 38 11.1.1 Índice de Margalef (α)............................................................................ 39 11.1.2 Índice de Glason (Dg) ............................................................................. 39 11.1.3 Índice de Menhinick (Dm) ...................................................................... 39 11.1.4 Índice de Shanon-Wiener (H') ................................................................ 39 11.1.5 Índice de Dominância Berger-Parker (d)................................................ 39 11.2 Exemplo.......................................................................................................... 39

11.3 Índice de Similaridade entre Populações........................................................ 40 11.3.1 Quociente de Similaridade...................................................................... 40 11.3.2 Porcentagem de Similaridade ................................................................. 40 11.3.3 Índice de Afinidade ................................................................................ 41 11.3.4 Constância .............................................................................................. 41 11.3.5 Índice de Associação (IA) ...................................................................... 41 12 Bibliografia......................................................................................................... 42 13 Anexos ................................................................................................................ 43

..................................... Exemplo para o Microsoft Excel......... Classificação do valor r através de intervalos de acordo com e Teste de Rugg.................................. 48 .......... 40 Tabela 10.................................... 7 Tabela 2............... Correlação de Spearman entre as notas brutas de matemática e biologia (Zar.............................. Valores para transformação arcsen % .. ................................................ 34 Tabela 8............................... Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata....................................... numa área de re-vegetação (dados fictícios)... Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo......... Valores mínimos de j.......01) de α probabilidade.. Índices de diversidade de cochonilhas em agroecossiema cítrico..........................5% (Southwood..................... 46 Tabela 14................................. em mg......................................... (dados fictícios)......... 1999)........... Duas comunidades com sua composição de espécies em percentagem ..............................05 a 0.......... 40 Tabela 11.. 24 Tabela 3....................... Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0.................. 1971)... 47 Tabela 15....................... ............ 34 Tabela 7........... 25 Tabela 4................................... 33 Tabela 6.. Classificação do valor r através de intervalos de 0 a 1............................... 2004)....... em quatro diferentes profundidades............................... ................ Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis.................. Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios).............. 45 Tabela 13.... ............... 35 Tabela 9......................................................01) de α probabilidade ...... Aphididae) em função da brotação foliar de tangerina cv Poncã... ..... sob cultivo orgânico na Fazendinha Agroecológica......................................... no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues.......... Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera......................................... Valores de t -student em níveis de 5% e 1% (α=0......... significativos a 0...........................mm³ de β solo ................... ....... 31 Tabela 5...............................05 a 0... Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril......Índice de Tabelas Tabela 1.................................... ....................................... Valores críticos para o Coeficiente de Correlação de Spearman (rs)................ 44 Tabela 12....................

...................... aurantii e a brotação foliar de tangerina cv... Poncã........ na Fazendinha Agroecológica....... 21 Figura 7......... 2004)..... 22 Figura 8................... 43 ............ brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z).. Poncã.... As áreas sob a curva assinaladas entre os traços verticais............ ................. tendo por parâmetros µ=0 e s= 1...................... 20 Figura 5... e inversa ou negativa (B)................ Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel................. Curva de distribuição normal simétrica.............. indicam as percentagens de valores de X aí contidas....... em que foram registrados outros valores intermediários (definidos pelos pontos B e C).. mostra que a relação entre X e Y obedece a uma lei mais completa....... Correlação linear simples positiva (A).... Regressão múltipla entre a flutuação populacional de T..................... com seus diversos níveis de categorias.. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos .............. desvios padrões (s) diferentes............................. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues........ 37 Figura 12....................... ....................Índice de Figuras Figura 1....... Poncã.... 36 Figura 10....... Interpretação dos dados experimentais....... parece sugerir que Y cresce à medida que X cresce..... 36 Figura 11.......... 2004)................ Regressão linear simples entre a flutuação populacional de T.......... medidos em unidades de desvio-padrão.... aurantii e a brotação foliar de tangerina cv........ apresentando a linha de tendência de regressão linear simples de dados fictícios....... Curvas de distribuição normal das freqüências de X....... ............................................. em cultivo orgânico de tangerina cv.............. baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B). entretanto no gráfico à direita.................................... isto é........... no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues............... no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues... sob a curva......... 33 Figura 9................................... Poncã............................................. em cultivo orgânico de tangerina cv.......... 4 Figura 3.......................... situada à esquerda de C..... na Fazendinha Agroecológica... Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ....... 20 Figura 6... Curva normal padrão........ Diagrama de tipos de dados .............................. 37 Figura 13... na Fazendinha Agroecológica......... tendo a mesma média (µ) µ e diferentes graus de dispersão dos valores de X.......... Correlação múltipla da amplitude térmica (variável x).... .... 3 Figura 2................. 2004)... Diagrama de uma estatística descritiva........ A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área. O gráfico à esquerda.................................... em cultivo orgânico de tangerina cv......................................... 10 Figura 4. onde µ é a média e s o desvio padrão....... Poncã................

realizar experimentos. eu disse quase tudo. podemos empregar a estatística. variação no horário de coleta dos dados. O efeito dessa variação do acaso é tal que pode alterar completamente os resultados experimentais. grega e romana. Na área ambiental. quando seu salário aumenta. em dias diferentes. 1. Estudando os mais variados fenômenos das diversas áreas do conhecimento. etc. Desta forma. Esses efeitos. sempre presentes.Apostila de Estatística Aplicada 1 1 Introdução Diariamente estamos envolvidos em análises estatísticas. em todos os dados obtidos. podemos ver que em quase tudo. uma interferência da luz solar. variação nos intervalos de amostragem. ela representa um valioso instrumento de trabalho nos dias de hoje. avaliando o crescimento populacional e a distribuição desta população no território nacional entre outros aspectos avaliados. realizar experimentos. como parte da matemática aplicada. Bom. não podem ser conhecidos individualmente e alteram pouco ou muito. por exemplo. A estatística. As variações ao acaso podem ser exemplificadas como: temperatura ambiente. Na Idade Média. de efeitos fatores não controlados (que podem ser controlados). você está fazendo parte da estatística. se a avaliação for. 1. De fato. a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de equipamentos de tabulação no início do século XX. Eles são indicados pela designação geral de variação do acaso ou variação aleatória. seja por exigências do próprio desenvolvimento do país. o desenvolvimento da teoria da probabilidade e o advento da informática. ao comparar no campo duas paisagens. morte e casamentos. obviamente que não podemos deixar a estatística dominar nossas vidas. trata da coleta. o estudo da estatística justifica-se pela necessidade de desenvolver pesquisas. e mesmo pela utilização dos resultados e pesquisas feitas. as instituições religiosas freqüentemente mantinham registros relativos a nascimentos. . Durante as civilizações egípcias. No Brasil o censo é realizado a cada 10 anos. os dados eram obtidos principalmente com o objetivo de recolherem impostos e para o recenseamento militar. Assim.2 Variação ao Acaso O que dificulta ao trabalho de pesquisador e exige a análise estatística é a presença. quando o IBGE faz uma visita a sua casa para o censo. está fazendo parte da estatística. Foram levantados dados através dos registros históricos. faz parte também. Quando você está desempregado ou empregado. seja visando o aprimoramento de métodos e técnicas de investigação. o crescimento e o desenvolvimento da estatística moderna podem ser relacionados a três fatores isolados – a necessidade dos governos de coletar dados dos cidadãos.1 Crescimento e Desenvolvimento da Estatística Moderna Historicamente. da análise e da interpretação de dados observados. que irá interferir na distinção das cores. os resultados obtidos. pois o principal objetivo desta ferramenta é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor indicar o caminho para uma tomada de decisão. aferição do aparelho utilizado para mensurar. mas não é só desta forma que você faz parte do infinito mundo da estatística. poderá haver. e mesmo pela utilização dos resultados e pesquisas feitas por aqueles que a isso se dediquem. Isso levou ao desenvolvimento de computadores mainframe e finalmente a revolução dos computadores pessoais. quando você é abordado na rua para responder qual o candidato irá votar na próxima eleição.

As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a forma de apresentação dos dados. foi o desenvolvimento de métodos estatísticos de inferência. a apresentação e a caracterização de um conjunto de dados de modo a descrever apropriadamente as várias características deste conjunto. objetivando somente uma pré-avaliação dos resultados. Ensaio Tempo de duração da avaliação é curta. Uma estatística é a medida calculada para descrever uma característica de apenas uma amostra da população. O número de amostra deverá ser suficiente para avaliar os dados com a maior precisão possível O tamanho do experimento deverá ser suficiente para avaliar os dados.1 Estatística Descritiva Pode ser definida como os métodos que envolvem a coleta. possibilitando assim menor erro amostral e na análise estatística. 3. etc. As variações ao acaso são parcialmente controlados. Uma amostra é a parte da população selecionada para análise. A análise e interpretação dos dados não podem possuir muito rigor e deve se adequar ao tipo de ensaio realizado. número de amostras. Abaixo no Quadro 1 são listadas as diferenças entre os dois métodos. Quadro 1. 3 Conceitos Estatísticos 3. A análise e interpretação dos dados deverão ser rigorosas e adequadas ao tipo de experimentação realizada. Para tornar mais claro esta definição. As variações ao acaso são controladas com rigor.William Costa Rodrigues 2 2 Ensaio x Experimentação Existem diferenças básicas entre os dois métodos de avaliar um dado científico. que levou à ampla aplicação da estatística em todos os campos de pesquisas atuais. número de amostragens realizadas. com margem de erro menor possível. Um parâmetro é a medida calculada para descrever uma característica de toda uma população. O tamanho do experimento é reduzido. Diferenças entre Ensaio e Experimentação. Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização dos dados. .2 Inferência Estatística Pode ser definida como os métodos que tornam possível a estimativa de uma característica de uma população ou a tomada de uma decisão referente à população com base somente em resultados de amostras (Figura 1). não havendo rigor. Experimentação O tempo de avaliação deverá ser o suficiente para que os dados coletado possam garantir uma avaliação. como um produto de teoria da probabilidade. as definições seguintes são necessárias: Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado. O número de amostras é reduzido.

das famílias.1 Variáveis Aleatórias Categorizadas Este tipo de variável produz respostas categorizadas. A amostra pode ser definida também como o conjunto de observações extraídas de uma fonte (população). Decisões pertinentes às características da população devem ser baseadas na informação contida numa amostra da população. ou por elementos coletivos. como é o caso dos seres humanos ou das plantas superiores ou das bactérias. A população pode ser constituída de elementos simples. Diagrama de uma estatística descritiva. digamos que há uma necessidade de saber a opinião da qualidade de vida no campus de sua faculdade. é geralmente dispendioso demais. enquanto a amostra consistirá os estudantes selecionados para participar da pesquisa. enquanto a reposta para "Qual a sua altura?".3. Desse modo. População/Universo Amostra Parâmetro Estatística Figura 1. ou universo. 3.3 Tipos de Dados Existem basicamente dois tipos de dados de características de variáveis aleatórias que podem ser estudadas e que produzem os resultados ou os dados observados: categorizados ou numéricos (Figura 2). é contínua.3. será todos os alunos da faculdade. Isto seria alcançado utilizando-se as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características de interesse da população. como é o caso das irmandades com mais de um indivíduo. Por exemplo. segundo determinadas regras e critérios. A necessidade da inferência estatística deriva da necessidade da amostragem.2 Variáveis Aleatórias Numéricas Produz respostas numéricas. carro? 3. um aspecto principal da inferência é o processo que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população. sendo a população a fonte de observações. 3. A população. A resposta para pergunta: "Quantos livros você possui?". Quando a população se torna grande. consome muito tempo e é muito cansativo obter informações sobre a população inteira. você tem Sim Não. a resposta é discreta.Apostila de Estatística Aplicada 3 Para melhor elucidar estes conceitos. podendo ser números discretos ou contínuos. ou das pessoas que habitam uma casa. O objetivo da pesquisa é descrever várias atitudes ou características de toda a população (os parâmetros). . com seus diversos níveis de categorias.

Estas informações deverão ser avaliadas e criticadas. diremos que os dados selecionados devem ser os estritamente necessários. esta poderá fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar nossa experiência.1 Fases do Planejamento Quando realizamos um estudo. Diagrama de tipos de dados 4 Por que Utilizar a Estatística A Estatística é uma área da matemática muito utilizada hoje em dia. segue exemplos de variáveis tanto para aleatórias categorizadas. por exemplo.75m Figura 2. A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpretação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recusá-la. . primeiro consideramos sua importância. Em suma. pois os dados poderão apresentar falhas ou nada representaram para o estudo do problema ou para a elaboração das hipóteses a serem formuladas. caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático e tomar a decisão. Desta forma devemos ter muito cuidado ao utilizar à estatística.William Costa Rodrigues 4 Dados discretos são respostas numéricas que surgem a partir de processo de contagem e dados contínuos são repostas numéricas que surgem a partir de um processo de medição. Se houver alguma informação que possa auxiliar como ponto de partida. O que pode ocorrer é que a estatística irá indicar uma diferença numérica. Em seguida. como a ferramenta que irá dizer se. Tipos de Dados Categorizadas Numéricas Discretas Você possui carro? Quantas revistas você assina? Contínuas Qual sua altura? Sim Não 5 1. 5 Planejamento Experimental 5. traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização. quanto para aleatórias numéricas (discretas e contínuas). "uma área será condenada por poluição de metais pesado no solo". entretanto o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos resultados e levam-na ao descrédito. Na Figura 2.

que se supõe depender de X. destinado a contestar determinada hipótese. 5.Apostila de Estatística Aplicada 5 5. 5.1 Problema Ao planejar o problema que se vai pesquisar. A outra seria a interdependência das duas variáveis. então. o que se tem em vista é verificar uma relação de causa e efeito: queremos saber se a variável X e a variável Y. 9). que precede a outra.2 Informações Existentes Antes de empreender o experimento. essas conseqüências e previsões serão testadas. o pesquisador deve revisar tudo o que diz respeito ao fato em estudo. pois provavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os aspectos da biodiversidade ou da poluição. A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à da pesquisa. portanto. Muitas vezes. resultado de um raciocínio indutivo (consciente ou subconsciente). p. guardam entre si relações de causa e efeito (direta ou indiretamente). o que nos levaria a rejeitá-la e a formular outra.1. como observar e medir seus valores e como analisar as relações qualitativas e quantitativas que possam existir entre eles (ver item Pesquisa Observacional. A variável X. O que se faz é verificar se ela não seria falsa. requer demonstração ou prova de sua adequação. teremos de montar uma observação ou uma experiência em que se possa verificar o aparecimento de Y quando ocorre X. podemos encontrar duas situações. é a variável dependente. se necessário. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para o estudo. Sabemos que a veracidade de uma hipótese nunca pode ser demonstrada ou provada definitivamente. de tal forma que se possa demonstrar a existência de uma relação constante entre os valores de X e Y. é chamada variável independente. o efeito da poluição do rio Paraíba do Sul. Por sua vez. A estratégia para isso depende da natureza do problema em causa. ou alterações dos valores de Y quando varia X. limitando-se o estudo científico à observação de como X e Y se apresentam espontaneamente. É importante também especificar sua extensão. Na prática.1.3 Noções Gerais Sobre Hipótese A hipótese. mantém-se a hipótese como boa. O planejamento de pesquisa consiste. Definir a importância do problema que se estuda é explicar o que vamos estudar. por exemplo. Será impossível o planejamento das etapas subseqüentes se não ficar claramente evidenciado o problema a investigar.1. . deverá ser dada especial atenção aos seguintes pontos: Definição da importância do problema que se estuda. enquanto Y. Uma própria de fenômenos sobre os quais não podemos influir nem exercer qualquer controle. dizer que se vai estudar a biodiversidade da floresta atlântica. ou de experimentação. com a finalidade de saber o que já se conhece sobre o assunto. Enquanto não se possa demonstrar que ela é incorreta. peculiares a determinado fenômeno. por mais justa e sólida que possa parecer. Determinação do(s) objetivo(s) e finalidade da investigação. Do ponto de vista operacional. para ver se a hipótese adotada ainda se mantém ou não. na elaboração de um plano de observação. Dela deduzimos as conseqüências ou fazemos previsões. Não basta.

X n Já a hipótese alternativa. social.1.William Costa Rodrigues 6 5. Um erro do tipo II ocorre se a hipótese nula H0 for rejeitada quando de fato é falsa e não deveria ser rejeitada. Desta forma. testa duas hipóteses. Normalmente testa-se através de modelos matemáticos. que não o permite avaliar variáveis complexas e multáveis (clima. somada com uma facilidade de concluir de acordo não somente pelos números.6 Riscos na Tomada de Decisão Através Teste de Hipóteses Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da população. que serão visto no item Técnicas Estatísticas Para Análise de dados. será As substâncias não possuem a mesma capacidade de reação. etc.. H 0 : X1 = X 2 = X 3 = . A H0 deverá ser a seguinte: As substâncias possuem a mesma capacidade de reação. efeito antrôpico. uma boa revisão bibliográfica e uma interpretação imparcial dos dados. existe um risco de se chegar a uma conclusão incorreta.. em um experimente está sendo testada a capacidade de duas substâncias possuírem o mesmo poder de reação química. testa a falta de nulidade ou falta de diferenças aleatórias entre os tratamentos. 14. Por exemplo. Na verdade. não será somente baseada em um modelo matemático. seja ela: biológica. X n 5. As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese científica. 5. Já a H1. . 5. dois tipos de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses: Um erro do tipo I ocorre se a hipótese nula H0 for rejeitada quando de fato é verdadeira e não deveria ser rejeitada. A hipótese nula admite que os resultados sejam iguais ou com diferenças aleatórias entre os tratamentos.5 Testando as Hipóteses Existem várias formas de testar as hipóteses elaboradas.4 Formulação das Hipóteses A estatística.1.. valerá além da experiência do pesquisador.)..1. que se dividem basicamente em Teste Paramétricos e Não Paramétricos. A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela. que são denominados testes estatísticos. H a : X1 ≠ X 2 ≠ X 3 ≠ . 5. nas proporções utilizadas.1 Elaborando as hipóteses O pressuposto a hipótese estatística é sempre testar a nulidade dos dados.4.2 Hipótese Estatística x Hipótese Científica A hipótese estatística testa somente os dados numéricos obtidos através de um modelo matemático fixo e contendo restrições. porém a resposta para entendimento dos resultados. mas pela descrição do fato.1.1. p.4. etc. que geralmente são denominadas de H0 ou Hipótese nula e H1 ou Hipótese alternativa.

possibilitando que se houver algum erro este seja atribuído ao acaso. .2 Erros de Observações Quanto aos componentes de uma população. Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro experimental possível. Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata. Com este processo o erro experimental poderá ser mensurado através do modelo matemático utilizado para analisar os dados.7 Aleatorização Na oportunidade em que organizamos os ensaios devemos proporcionar condições idênticas para cada tratamento. Devemos concluir que. não tendencioso. o modelo matemático poderá não prevê erro tão grande. o excesso de trabalho. e sim cometida por quem procedeu à leitura do material fotográfico. com a finalidade de verificar a degradação ambiental acentuada das áreas fotografadas. poderíamos citar a experiência de que participaram cinco técnicos especializados em análise de foto aérea (foto interpretação). O mesmo foi verificado em relação a cada um dos observadores que apresentaram resultados diferentes entre as duas leituras. seja por falha no aparelho utilizado ou pela desatenção do observador. Tabela 1.Apostila de Estatística Aplicada 7 5. seu estado físico e condições ambientais podem ser as principais causas de erros das observações. as mesmas 500 fotos.1 Erros do Observador O grau de treinamento dos observadores. Como exemplo. 5. tais discordâncias não refletem uma variação real. haverá sempre uma discrepância entre as amostragens realizadas. (dados fictícios) Observador A B C D E Fotos onde a degradação foi considerada positiva (nº) 1ª leitura 2ª leitura 118 139 69 78 83 88 96 89 106 92 Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes observadores coincidiram quanto ao número de fotos consideradas positivas para o referido diagnóstico.1. Erros cometidos pelo observador deverão ser considerados no modelo matemático escolhido para análise dos dados. forem muito discrepantes. ou seja. As fotos foram interpretadas separadamente por cada técnico conforme a Tabela 1. 5. ou seja. o pesquisador terá a oportunidade de verificar a existência de diferenças entre os mesmos. que examinaram em épocas separadas por um período de dois meses. Através da observação ou coleta de dados. São os erros experimentais oriundos de fatores que não podem ser controlados.2. Entretanto se estes erros forem muito distantes.

da coleta dos dados ter sido realizada por outra pessoa. Em experimento. Os erros causados pelos métodos de observação podem ser reduzidos selecionando-se o funcionamento dos aparelhos utilizados. É óbvio que a qualidade deverá ser . Qualquer que seja a causa dos erros anteriormente abordados.4. Este tipo de fonte é chamado secundário.2. A coleta esta sendo realizada no campo. assim a metodologia deverá prever a coleta de dados na fonte primária. desta forma. o erro por falta de resposta ocorrerá através da perda de uma parcela.3 Controle dos Erros nas Observações Apesar da distinção que procuramos dar ás diferentes fontes de erros. o dado que irá compor o conjunto de informações a serem analisadas. não sendo utilizados dados previamente coletados por outro pesquisador.2. 5. Por exemplo.William Costa Rodrigues 8 5. pois irão permitir uma flexibilidade de estimar o dado faltoso. que constituem blocos e parcelas.3 Por Falta de Resposta Este tipo de erro poderá ou não ocorrer no experimento. já que a metodologia previu que aquele era o ponto a ser amostrado.4 Métodos de Coleta de Dados Embora a maioria das experimentações as informações devam ser retiradas diretamente no "campo". No primeiro caso. Os erros dependentes dos observadores podem ser minimizados por uma preparação e por um treinamento mais eficientes. houve um erro por falta de resposta. Cada método em particular pode ter uma série de fatores que conduzem à distorção dos resultados. Ele ocorrerá se não houver a possibilidade de obter.4.1 Fontes Primárias Quando não há informações dos dados que queremos estudar. pelo simples fato. Por isso há uma preocupação natural de todo pesquisador em aperfeiçoá-los ou substituí-los por outros métodos mais eficientes a fim de aumentar a exatidão dos resultados. Os modelos matemáticos que prevêem erros por falta de resposta são apropriados. assim como por uma melhoria das condições físicas e de trabalho. Devemos lembrar que eles são bastante independentes. devemos ir a acampo para obtê-lo. 5.2 Fontes Secundárias Quando as informações que nos interessa já foram coletadas por outro pesquisador. 5. 5. estes poderão ser reduzidos ou eliminados de acordo com as coisas que os determinam. houve uma seca muito intensa secando a água no ponto de coleta pré-determinado. consideramos que a informação foi recolhida de fonte primária e no segundo caso dizemos que a fonte é secundária. assim não poderá o observador coletar em outro ponto. Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de um determinado córrego. na coleta de informações a respeito da poluição de um determinado córrego.2 Erro do Método de Observação Os métodos de observação possuem erros mais ou menos importantes. em muitas ocasiões podem-se aproveitar dados previamente obtidos por outras pessoas. 5. dentro da metodologia. podemos utilizá-las.

As condições. paciente. de modo permitir clara distinção entre os fatos que são relevantes. e os inúmeros outros que se apresentam concomitantemente. partindo-se de medidas rigorosas que permitam a análise estatística dos dados. Sempre que possível.5 Pesquisa Observacional Em certos campos da biologia e das ciências sociais. as observações devem ser corretamente registradas. Em experiências mais simples. enquanto que as mudanças observadas em conseqüência. Em sua essência. além do que. objetivo e imparcial. Por isso deve ser atenta. 5.Apostila de Estatística Aplicada 9 levada em consideração. duas concentrações de uma substância. portanto. sob condições particulares estabelecidas pelo pesquisador. precisa e metódica. a presença ou a ausência de luz. são as variáveis independentes. que o pesquisador seleciona ou manipula na experiência. e o crescimento em peso ou altura.). são confrontados com os dados da variável dependente (eixo das ordenadas . porém analítica. A viagem de Darwin ao redor do mundo permitiulhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada por Lamarck. bem definidos. são geralmente denominadas variáveis independentes. apenas duas condições da variável são testadas (por exemplo: duas temperaturas. Assim. os métodos experimentais podem ser difíceis ou mesmo impossíveis de aplicar. para o estudo em causa.6 Pesquisa Experimental A experimentação ou experimento ou simplesmente experimento é um método científico e de observação dos fatos ou fenômenos naturais. Mas. a experimentação deve permitir comparar o efeito de suas ou mais condições ou tratamentos. Então a observação científica adquire grande importância e deve ser feita com o máximo de cuidado. para que se possa apreciar seu efeito e estabelecer a lei do fenômeno. no atributo. Teorias tão fundamentais como a da evolução forma estabelecidas com base exclusiva na observação da natureza. Deve ser persistente. Por vezes. de idéias fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente. (Figura 3). a administração ou não de um medicamento. Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. completa. torna-se em geral necessário experimentar três ou mais valores de variável independente. 5. sobre um atributo do organismo ou material que é objeto da pesquisa. devemos verificar a metodologia utilizada.X). em estudos de dietas ou os alimentos administrados seriam as variáveis independentes. os valores de uma variável independente (eixo das abscissas . por exemplo. capaz de com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais. corresponderiam às variáveis dependentes. etc. para saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder.Y). Darwin buscou correlacionar as características próprias das espécies com as condições do meio em que vivia cada uma delas. . Suas observações sobre as relações entre organismos e o meio contribuíram decisivamente para a criação da ecologia. na praticam a validade de suas bases. repetidas e quantificadas. como a resposta do organismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator ensaiado. A observação deve ser inteligente e sagaz. Exige que o pesquisador seja curioso.

baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B). para que os resultados possam levar o pesquisador a uma resposta coerente e segura.7. parece sugerir que Y cresce à medida que X cresce. vento. entretanto no gráfico à direita. pouca variação no conjunto dos elementos. mostra que a relação entre X e Y obedece a uma lei mais completa. quando possíveis. quando dispomos de uma população que apresenta características homogêneas. Os modelos estatísticos a serem utilizados na experimentação deverão ser adequados ao que se pretende responder. ou seja.William Costa Rodrigues 10 30 25 20 Y 15 10 5 A X B A Y B 35 30 25 20 15 10 5 A B X C D A B D C Figura 3. seja na área científica ou social. Interpretação dos dados experimentais. Certificação de que as pessoas envolvidas na experimentação possuam treinamento e conhecimento a cerca do modelo estatístico e da metodologia a ser empregada. g. 5. encontra para estimar os dados da pesquisa que irá realizar. A casualização é um princípio fundamental. isto é.). efeito antrópico. Emprega-se este processo.1 Princípios da Experimentação A experimentação é a forma que o pesquisador. variância próxima ou igual à média. Os princípios básicos da experimentação científica são: a. deverá ser controlado. caso a área experimental não apresente uniformidade. h. b. esta deverá ser experimentada antes de ser utilizada na experimentação.6. pois permite que o experimento possa ser regido por efeitos gerais a todos os experimentos. temperatura. pois permitem uma melhor análise dos dados. caso não seja possível. . f. 5. em que foram registrados outros valores intermediários (definidos pelos pontos B e C). Assim as parcelas dos tratamentos deverão ser distribuídas ao acaso pelo experimento. d. Amostragens regulares.1 Amostras Simples ao Acaso Um dos métodos mais usados. O controle das variáveis aleatórias (chuva. etc. recomenda-se que o efeito seja igual para todos os tratamentos ou itens testados. c. ou seja. para assegurar que a resposta não foi obtida por mera casualidade e sim por inerência do tratamento. O gráfico à esquerda. A experimentação deverá ter impreterivelmente repetições. Caso a técnica a ser utilizada seja original.7 Tipos de Amostras 5. O experimento deverá ser realizado de acordo com uma técnica já conhecida e testada. deverá haver uma adequação da metodologia (objetivos) com o modelo. e.

cinco. Estas subpopulações têm nome de estratos. Considera-se este tipo de amostra que possibilita maior precisão quanto aos resultados. 5. . Por exemplo. compensado apenas pela diminuição das tarefas. 500 por 50. As unidades que comporão a amostra serão sorteadas em função das condições de variabilidade existentes. na área de saúde é comum a realização de pesquisas de que são selecionados os pacientes portadores de determinadas enfermidades.7. isto é. 5. Portanto.Apostila de Estatística Aplicada 11 5. só farão parte do estudo indivíduos portadores de enfermidade a ser pesquisada. O número de elementos da amostra será obtido da seguinte forma: Numa população constituída por 500 elementos e a amostra por 50 elementos. neste caso. sorteiam-se aleatoriamente os conglomerados que irão participar da amostra. Obtém-se. A população heterogênea é transformada em subpopulações homogêneas. em seguida. isto é. até obterem-se os 50 elementos que constituirão a amostra. pela estratificação. o segundo deverá ser 15. por exemplo. Outros métodos de seleção poderão ser associados para determinação dos elementos de cada conglomerado para compor a fração amostral. o terceiro será 25. a partir dele.7. tuberculose.2 Amostra Estratificada Utilizada quando dispomos de informações de que a população apresenta características heterogêneas. hepatite. e assim por diante. no entanto. sorteia-se um número da primeira dezena e. observando-se que se o número sorteado for. ou então considerando o número de seus elementos e procedendo-se a um percentual de cada estrato. escolhem-se os demais. o que é. Embora a subdivisão da população seja em estratos. através de um procedimento correto.7.4 Amostra por Área Utiliza mapas geográficos de cidades e municípios. onde N = 500 e n = 50 dividem-se N por n. entre outras. assim. utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco mais trabalhoso – ele redunda conseqüentemente em ganho de precisão. 5. Após a determinação dos conglomerados da população. grande número de fatores ou variáveis que podem comprometer as conclusões se não eliminados.3 Amostra Sistemática Aplicada quando a população apresenta um número finito de elementos e os dados estão distribuídos aleatoriamente. podendo a seqüência ser obtida através de sorteio de ruas e residências. Poderia ser a doença de Parkinson. O tamanho da amostra será determinado em função da variância de característica a estudar em cada estrato.7. 5. considerando que os mesmos apresentam pelo menos uma característica em comum.6 Amostra Selecionada Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona para avaliar o perfil de seus componentes. uma amostra estratificada proporcional. obtendo-se 10.5 Amostra por Conglomeradas Visto que. o uso de amostragem nos conduz a ganhar em precisão. de cada um. para que. A família poderá ser a unidade mais simples a ser pesquisada.7.

ora usamos a variância. a obtenção da amostra se torna menos complexa do que nos casos de populações infinitas de (N= 800. Simbolizado pela letra z. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. Tamanho da população alvo. (P-p): erro arbitrado pelo pesquisador. ora usamos a percentagem. Na obtenção do tamanho amostral será importante esta informação. N= 3. a qual geralmente é arbitrada pelo pesquisador. uma diferença.000. aquele valor tem. Ao procedermos às técnicas de amostragem para determinação do tamanho da amostra (n). p + q = 100%. em relação ao valor percentual da população. Informação da literatura (p).8. Variância ou porcentual. Toda pesquisa a realizar em que investigamos a taxa de prevalência que fenômeno apresenta. ou seja. e por 2. Nível de confiança (α).1 Tamanho da Amostra para Dados Discretos Quando dispomos de variáveis discretas. Deve-se imaginar que. a priori. ao apresentarmos um valor percentual.58 quando o nível de confiança é de 99%. Em outros casos. por exemplo. arbitrada pelo pesquisador. 4. 5. quando o nível de confiança corresponde a 95%. Chamamos q o valor complementar de p para 100%. Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de confiança. .William Costa Rodrigues 12 5. observamos a percentagem de certas características em um conjunto. Erro de amostragem ou precisão. este valor é substituído na fórmula (1) por uma constante 1. q: 100%-p. ou seja. Os níveis de confiança propostos rotineiramente são de 95% e 99% de confiança. Esta diferença é conhecida como erro de amostragem. Em alguns casos são empregadas características que apresentam determinada variabilidade. 3. p: valor obtido de trabalho anteriormente realizado. Dependendo do tipo de investigação. referente à taxa de prevalência do fenômeno estudado na amostra observada. 5. utilizamos as seguintes fórmulas: n z2 × p × q (1) e n = 0 (2) n0 = 2 n (P − p ) 1+ 0 N Onde n0: número inicial. Quanto ao número de elementos que compõe.8 Determinação do Tamanho da Amostra É muito comum um pesquisador indagar qual o número de amostras a serem estabelecidas para uma determinada pesquisa de campo.96. 2. laboratório ou uma simples investigação. o nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de diferença proposto. A determinação do tamanho da amostra depende de alguns fatores: 1. na literatura.000). que é. entende-se que a amostra obtida apresentará um determinado valor para a taxa de prevalência de certo evento. resultados os quais utilizaremos quando da determinação do valor de n em relação ao valor de p. podemos classificar em finitas e infinitas. N tamanho da população. Na população finita. Z: nível e confiança.

Selecionamos ao acaso 30 elementos. a fórmula a empregar para determinação do tamanho da amostra será a fórmula 1 deste item. Para populações infinitas e para as que N seja um valor muito elevado. Exemplo: com a finalidade para verificar a incidência de doença de Chagas em uma população de certa região. S: desvio padrão obtido de trabalho anteriormente realizado.Apostila de Estatística Aplicada 13 Quando se trata de trabalho original e não se dispõe de nenhum valor usamos p=50%. Não sendo encontrado um desvio padrão em outro trabalho. ( X X ): erro arbitrado pelo pesquisador. para uma população finita.000 pessoas. e (P-p)= 4% 1.84 × 100 = 384 2 4 16 384 384 n= ∴n = = 380. Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos indivíduos de uma comunidade. q = 80%. deste item. A utilização das fórmulas (1) e (2). deparamos com o problema de definir o tamanho da amostra. resolvemos determinar o número de elementos que comporão a amostra.000 indivíduos.35 384 1. cujo valor foi igual a 9mg2.0096 1+ 40. determinamos o valor do teor de hemoglobina de cada um e calculamos a variância (medida de dispersão). são utilizadas as fórmulas (1) e (2). z: nível de confiança. X : média da população alvo. procede-se a uma pré-amostragem.84 × 1. X : média da amostra. o que torna impraticável utilizar todos os elementos. 5.600 n0 = ∴ n0 = ∴3.96. Face a isto. Desta forma temos: Z = 1. Em populações finitas. Para tal estudo.96 (α=5%) e sendo estabelecida um erro de 4%. qual seria o número de elementos que a amostra deveria conter? A fórmula adequada para mensurar o tamanho da amostra é a equação 1.8.96 2 × 20 × 80 3. tem procedimento semelhante ao amostrado para variáveis discretas. Apenas sabemos que a população desta comunidade é de aproximadamente de 25. . p = 20%. desejamos determinar o tamanho da amostra. N: tamanho da população.0000 O número de indivíduos que deveríamos examinar para a determinação da prevalência é de 384 para uma população infinita e 380. dispomos das seguintes fórmulas: n z 2 × S2 (1) e n = 0 (2) n0 = 2 n X−X 1+ 0 N ( ) Onde n0: número inicial.2 Tamanho da Amostra para Dados Contínuos Para variáveis quantitativas contínuas. apenas a fórmula (1) deve ser utilizada. Considerando uma prevalência de anos anteriores igual a 20% com valor z = 1. retirando-se 30 observações da população e calculando-se o desvio padrão da característica a ser estudada. sendo o tamanho da população igual a 40.

24 138. 25.1. Os valores típicos de um conjunto de dados tendem a se localizar no centro da série.84 × 9 n0 = ∴n 0 = ∴n 0 = ∴ n 0 = 138. três medidas de tendência central: média aritmética (simples.48 ≅ 137 138. São. Essas medidas dão-nos o valor típico do conjunto de dados.24 n= ∴n = ∴ n = 137. Usam-se. mediana e moda. 29. n = 10 292 X= ⇒ 29. 6 Técnicas Estatísticas Para Análise de dados 6.1 Medidas de Tendência Central Os fenômenos quando estudados estatisticamente.25 138. fornecem uma descrição precisa da execução do grupo como um todo.2 Média Aritmética Ponderada Quando se tem uma séria de valores sucessivos com a respectiva distribuição de freqüência.24 ≅ 138 2 0.96. ponderada. A descrição desse conjunto de dados torna-se mais clara quando se obtêm medidas que resumem as informações necessárias.25 0. Permitem o confronto de dois ou mais grupos. 6. Sendo representado pela fórmula: ∑x X= n Onde X : representa a média. chamados medidas de tendência central. 30.56 1.1. são traduzidos por um conjunto de dados numéricos.5mg e o valor z= 1. e.96 2 × 9 3. em geral. 29 e 33. divididas pela quantidade destes.2 10 6. A forma de apresentação da distribuição de freqüência seria: . 32.5 0. de dados agrupados em intervalos). Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32.1 Média Aritmética Simples ( X ) A media aritmética simples é a soma dos valores ou medidas. e o n o números de indivíduos ou elementos. 26. Substituindo na fórmula teremos: 34.000 Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos será igual a 138 para populações infinitas e 137 para populações finitas. como tal. ∑ x : a soma das variáveis. A importância das medidas de tendência central é dupla: Representam ou resumem todos os valores obtidos pelo grupo e. 26.William Costa Rodrigues 14 A precisão considerada para esta pesquisa foi de 0. por isso. pode-se calcular a média aritmética ponderada. 30. ∑ x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33.0055 1+ 25.24 1.

. fn A expressão da média ponderada será: ∑ xf = x 1f1 + x 2 f 2 + .1.. mas são representados por uma classe que pode ter um determinado intervalo. Neste caso. . procede-se da seguinte forma: Idade (anos) Freqüência (f) 0 |– 5 4 5 |– 10 2 10 |– 15 3 15 |– 20 1 Idade (anos) 0 |– 5 5 |– 10 10 |– 15 15 |– 20 Σ Valor central (X) 2. a distribuição de freqüência abaixo. + f n Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada localidade. Por exemplo. .0 Aplicando a fórmula para calcular a média ponderada teremos: . .5 12..3 Média Aritmética de Dados Agrupados em Intervalos Há vezes em que os dados não são verificados com seu verdadeiro valor individual.. Xn Freqüência f1 f2 . Considerando que o intervalo não tem um valor definido e sim um conjunto de valores. + x n f n X= n f 1 + f 2 + .5 17.5 7. + 4 50 6.0 37. Utilizaremos como representante o ponto médio de cada intervalo. Idade (anos) Freqüência 2 10 3 8 4 6 5 5 6 5 7 5 8 7 9 4 X= 2 × 10 + 3 × 8 + .. .f 10.. + 9 × 4 250 = = 5 anos 10 + 8 + ..0 15. operamos da mesma maneira do caso anterior.5 80.5 17..Apostila de Estatística Aplicada 15 Variável X1 X2 .5 – Freqüência (f) 4 2 3 1 10 X.

A mediana é especialmente útil quando se trata de séries assimétricas. portanto o valor médio destes dois valores é igual a 190. A mediana não é influenciada pela magnitude de cada uma dessas séries. portanto. Desvantagens: o Não servir para séries variáveis assimétricas. X= ∑ xf ∴ 80 = 8 anos 6. n +1 Localiza-se o valor central mediante a fórmula: . .1. Para o cálculo da mediana devemos previamente realizar alguns ajustes aos dados como segue: Ordenam-se todos os valores. Quando os dados apresentam homogeneidade. é possível o uso da média aritmética. com a finalidade de estimar a mediana referente ao número de alunos. o 2 2 que corresponde à média dos valores centrais. o Unir em um valor todas as observações do conjunto. Exemplo: a) Em determinada localidade foram selecionadas oito escolas. que corresponde à mediana. que tem como: Vantagens: o Ser fácil de calcular e entender.500. 250 e 2. quando o número de ob2 n n servações (n) for ímpar e e + 1 . isto é. o Não expressar variações dentro da distribuição de dados.4 Mediana (Me) É um valor situado no centro da distribuição de freqüências. 2 2 para obter os dois valores centrais. quando o número de observações é par. n n Como o número de observações é par utilizam-se as duas fórmulas e + 1 . Assim os valores centrais para este conjunto de dados são 180 (4º) e 200 (5º).500 E 200 F 160 G 250 H 170 Inicialmente ordenam-se os dados: 150. 160. Me= 190 alunos. quando alguns valores são elevados ou baixos em relação aos demais. 200. Determina-se o total de valores (n). Tendo verificado o seguinte quadro: Escola Nº de alunos A 150 B 180 C 230 D 2. de forma crescente.William Costa Rodrigues 16 n 10 Desta forma a média da população avaliada é oito anos. A distribuição tem. 180. 170. como objetivo encontrar um valor que permita conter 50% dos dados acima deste valor e 50% abaixo.

que o conjunto de dados contém. bem conhecido.Apostila de Estatística Aplicada 17 b) Em coletas de amostra de solo em cinco cidades.2 Desvio Padrão Existem dois tipos de desvio padrão. = 9 + 6 + 2 + 0 + 3 + 14 6 6. Como o número de obsern +1 vações é ímpar utilizaremos a fórmula .11 + 25 . já o σ (desvio padrão absoluto ou verdadeiro) é calculado para populações com valor n.2. foram verificadas amostras poluídas com metais pesados. que corresponde ao valor da mediana. o erro amostral.11 + 9 .11 + 5 . 14 e 25 Σx= 2+ 5 + 9 + 11 + 14 + 25 = 66 .M. 2 o valor central é 48. 5. 9. 46. Desta forma. conforme o quadro a seguir: Municípios Amostras Poluídas A 48 B 42 C 52 D 95 E 46 Após ordenar os dados teremos: 42. onde não se conhece com precisão o valor absoluto de n. 14 e 25 2 + 5 + 9 + 11 + 14 + 25 66 X= ∴X = = 11 6 6 D. 5.M. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula: s= ∑x 2 (∑ x ) − n 2 n −1 Onde: x: valores do conjunto de dados. O desvio padrão é o afastamento atribuído ao acaso. O desvio-médio será a média aritmética destes afastamentos. levando-se em conta os valores absolutos desses desvios. e n: número de observações. Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2.6 D. ou seja. Este erro refere-se à diferença do valor s calculado e a média aritmética.11 + 11 .2. 52 e 95. o chamado desvio padrão estimado ou s e o desvio padrão absoluto ou σ. Me= 48 amostras poluídas 6. 11.11 6 ∴ D. Para um conjunto de observações: 2.2 Medidas de Variação 6. = 34 6 ∴ D.M. ou seja. 11. em populações finitas. = 5. 9. = 2 .M. para encontra o valor central.11 + 14 . Σ: somatório. O Desvio padrão estimado (s) é utilizado em populações infinitas. ou seja.1 Desvio-Médio (DM) Considerado que num conjunto de dados cada valor apresenta um afastamento em relação à média. 48.

William Costa Rodrigues 18 Σx²= 2² + 5² + 9² + 11² + 14² + 25² ∴Σx²= 4 + 25 + 81 + 121 + 196 + 625 = 1.1636 ∴ s = 43. utiliza-se a seguinte fórmula: s= ∑ fx n 2  ∑ fx   −  n  . uma série de valores que se repetem e. originando a variância populacional (σ²).6101 14  14  2 6. isto é. Desta forma lança-se mão de um novo quadro de dados para facilitar os cálculos x f fx fx² 2 2 4 8 3 2 6 36 4 4 16 256 5 4 20 400 6 2 12 144 14 58 852 Total Para calcular o desvio padrão desta distribuição.8571 − 17.356 1. no caso de populações finitas o denominador será n e o desvio passa ser o σ (desvio padrão absoluto ou verdadeiro).3 Variância ou Quadrado Médio É o valor do desvio padrão estimado ao quadrado. Vale ressaltar que. originando a variância estimada (s²). devemos ajustar o erro desta estimativa. o grau de liberdade. Observamos agora uma série de dados agrupados.052 − 1.   2 s= 852  58  −   ∴ s = 60. ou o valor do desvio padrão populacional. x f fx 2 2 4 3 2 6 4 4 16 5 4 20 6 2 12 14 58 Total Temos um total de 14 valores agrupados em cinco categorias. são representados pela sua freqüência.8571 − 4. ou seja.6935 ∴ s = 6.07 É importante ressaltar que no cálculo do desvio padrão utilizou-se o denominador (n-1).20 s= 5 6 −1 5 6 −1 ∴s = 8. σ . ou seja. pois como o valor s é uma estimativa.1429 2 ∴s = 60.052 − 726 ∴ s = 326 ∴s = 65.052 − 6 ∴s = 6 ∴s = 1. por conseguinte.052 n=6 66 2 4. eliminando um elemento do conjunto de observações.

Para se determinar a média destes afastamentos utilizaremos o erro padrão da média.4 Erro-Padrão da Média . = × 100 x Onde: s: desvio padrão da amostra. n: número de observações do conjunto de dados.6 Curva de Distribuição Normal A maioria dos fenômenos da natureza.V. obteve-se um valor s igual a 1. apresentam variações dentro de um intervalo definido. Quanto maior for a dispersão no conjunto de observações.25 1. Pode ser também interpretado com uma medida de precisão alcançada das estimativas dos dados em relação aos valores reais.< 30% Regular É importante ressaltar que valores acima de 30% não significam um C. maior será o valor do coeficiente de variação.s(x) Quando uma investigação científica é realizada através de amostra.V. Ele expressa o desvio padrão que obteríamos se a média representasse o índice 100. em especial os biológicos. dos quais haveria pequena quantidade de baixos e altos. insatisfatório. Desta forma.Apostila de Estatística Aplicada 19 A variância é a medida estimada ou calculada que determina a variação dos valores entre si.25 s (x ) = ∴ s (x ) = ∴ s(x ) = 0. quanto menor este valor menor será a diferença entre os valores dos elementos do conjunto de dados. 6.5 Coeficiente de Variação O coeficiente de variação (CV) é uma medida abstrata que independe das unidades em que foram medidas os dados. encontraríamos diversos valores.V.V. Exemplo: em uma amostra com 100 observações.V. . podemos classificar o C. a média aritmética teria outros afastamentos (erros) em relação média populacional ou real. 6. pois alguns experimentos em campo podem ter o valor C.125 10 100 É importante ressaltar que quanto menos o valor do erro-padrão da média.V. cujo cálculo é expresso pela fórmula: s s (x ) = n Onde: s: desvio padrão da amostra e.V.25. o erro-padrão da média será: 1. e grande quantidade em torno dos valores centrais. x : média aritmética da amostra. Este parâmetro é estimado pela fórmula: s C. Classificação C. 6. mais preciso será os resultados em relação à estimativa da média. análise da variância entre outras análises. < 10% Ótimo 11% < C. ou seja. da seguinte forma: C. baseadas na estimativa de dados. de até 65% e serem considerados bons.V. Se coletássemos os dados quanto ao peso de mil indivíduos. <20% Bom 21% < C.

A forma desta curva depende do desvio padrão. que serão tanto mais próximos de µ quanto menor for o desvio padrão (Figura 6). A curva de distribuição normal ou simplesmente curva normal é caracterizada por dois parâmetros: a média e o desvio padrão (ou a variância). a distância entre ele e cada um dos pontos em que muda a direção da curvatura. de um e outro lado da média (µ). sendo tanto mais alta e estreita quanto menor for o valor de s (Figura 5). Curva de distribuição normal simétrica. . O ponto máximo da função ocorre no valor médio (situado ao centro da curva. isto é. Figura 4. A área da figura sob a curva compreendida entre valores iguais a s. Curvas de distribuição normal das freqüências de X.2% dos valores de X. desvios padrões (s) diferentes. contém 68. que é simétrica).William Costa Rodrigues 20 Numa representação gráfica dos dados obtidos encontraríamos uma distribuição normal conforme a figura abaixo. onde µ é a média e s o desvio padrão. Figura 5. tendo a mesma média (µ) e diferentes graus de dispersão dos valores de X. à esquerda e a direita da média (µ) corresponde ao valor do desvio padrão(s) (Figura 4).

o valor do parâmetro em causa. com grande probabilidade. aqueles valores entre os quais fica incluído. que corresponde a um desvio ou erro padrão de aproximadamente 2s (ou. se o valor médio (m) de uma observação comportar um desvio ou erro padrão maior que 1. Assim. Para a estimativa de um parâmetro. A estimativa. com uma alta probabilidade.96s.5% dos valores de X. tendo por parâmetros µ=0 e s= 1. podemos estimá-lo a partir de uma amostra extraída dessa população. 1. entretanto. consideram-se como sendo seus limites de confiança. por convenção. os limites de confiança são representados pelos valores de -C e +C que circunscrevem. o valor exato desse parâmetro. indicam as percentagens de valores de X aí contidas. Curva normal padrão. possam ocorrer em função das variações. Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de que os valores encontrados pertençam a uma mesma população. apenas 4. por exemplo). 6. mais precisamente.1 Limites de Confiança Quando se desconhece o valor de determinado parâmetro de uma população (sua média. em relação ao valor hipotético da média verdadeira (µ).05 (ou 5%).5% das observações ou eventos medidos. concluiremos que ele não pertence à população cuja média é µ. .Apostila de Estatística Aplicada 21 Figura 6. portanto duas áreas extremas.6. ou as medições. é geralmente aceita. Na Figura 7. restando. A área compreendida entre -2s e +2s abrange cerca de 95.96s). como limite para decidir se um resultado afastado da média (ou a diferença entre duas médias) é significativo ou não. As áreas sob a curva assinaladas entre os traços verticais. As propriedades da curva normal permitem seu uso para o cálculo de probabilidade com que determinados valores obtidos durante as observações. A probabilidade P= 0. A amplitude entre esses valores limites denomina-se domínio de confiança ou intervalo de confiança. pode ser inexata e não saberemos o quanto ela é incorreta.

9 Teste de Shapiro-Wilks (S-W) Este teste é uma boa opção para se testas a normalidade de uma distribuição. têm por objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado. medidos em unidades de desvio-padrão. 6. ou teste K-S. Por outro lado. Testes estatísticos com grandes amostras mostram que nem sempre as suposições de normalidade de confirmam. Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre médias é também chamado de erro padrão. como nem sempre se dispões de um número elevado de casos para estudo.7 Teste de Normalidade dos Dados Os testes empregados para verificar a distribuição normal dos dados. Nos últimos anos o teste SW tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de problemas sobre a variação de normalidade.2 Erro Padrão Em alguns casos. Os testes comumente utilizados são Klomogorov–Smirnov. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ. Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é normalmente distribuída e. é conveniente trabalhar com a média das médias amostrais. que é um teste tradicional de normalidade e o teste de Shapiro-Wilks. o teste pode ser usado em amostra de até 2. sob a curva. É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis. portanto poder ser empregados testes paramétricos sem preocupação quantos às suas restrições.000 observações.8 Teste de Klomogorov-Smirnov (K-S) Este teste compara a distribuição real dos dados (amostra) com uma distribuição normal gerada por uma média e um desvio padrão supostamente conhecidos (populacionais). ou teste S-W. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área.6. vem sendo empregado cada vez com maior freqüência. 6. situada à esquerda de C.William Costa Rodrigues 22 Figura 7. às vezes nem é possível decidir se determinada variável possui ou não distribuição normal (na prática a amostra deve ter o valor n > 100). 6. 6. se um teste paramétrico ou não paramétrico. .

enquanto outro grupo nada receberia (grupo controle). consulte o Fluxograma Para Auxiliar na Escolha de Testes Estatísticos. Neste caso. Os testes não-paramétricos . além de exigirem que as medidas sejam feitas em escalas numéricas intervalares. poderíamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado). as regiões críticas de aceitação de H0. Os elementos necessários para a utilização de um teste são: Formular as duas hipóteses: a de nulidade (H0). Estes testes são. de tal forma que os pressupostos possam ser satisfeitos. uma alternativa é a transformação de dados dos seus valores (vide item Transformação de Dados. em geral. podendo ser aplicados mesmo quando ocorram pequenos desvios de normalidade ou da variância entre as amostras. p. Escolher o teste estatístico adequado. p. ao constatar as médias destas amostras para verificar se há a diferença entre elas. utilizam-se testes de duas categorias: Os testes paramétricos . se não seguirem a distribuição normal). conseqüentemente. 7. que supõe não haver diferença significativa entre os valores encontrados e os esperados. suscetíveis de tratamento matemático. 37). são em geral menos potentes. e a hipótese alternativa (H1). calcular a média (µ). Nesses casos. o teste t seria indicado para tal comparação salientando que a variável em análise teria que apresentar os dados em distribuição normal ou aproximadamente normal. O efeito do tratamento aplicado seria verificado pela comparação dos dois grupos. Tomar as amostras de tamanho n e registrar os valores. Para maiores detalhes e saber com escolher um teste. 43. a variância (s²) e o desvio padrão (s) e. estaremos indiretamente comparando as duas populações.aplicam-se a amostras extraídas de populações com distribuição normal e variâncias iguais ou muito próximas.1 Teste t . O valor t . E por analogia. onde essa diferença existirá.Student Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras que provêm de populações diferentes. se trata de um teste mono ou bicaudal.Apostila de Estatística Aplicada 23 7 Testes Paramétricos e Não Paramétricos De acordo com a distribuição dos dados. Estabelecer o nível de significância α e. Se os dados experimentais não estiverem de acordo com os pressupostos para a aplicação de provas paramétricas (por exemplo.student calculado é dado pela fórmula: X t= s2 n Onde: X : média. os de maior potência. s²= variância e N: número de observações As formas de utilização deste teste apresentam situações diferentes como mostras os subitens abaixo: . A transformação mais utilizada é a conversão dos dados em logaritmos decimais.são menos exigentes quanto à natureza da distribuição dos dados experimentais. Definir se.

.student (Tabela 11. n= 10 173 − 1369 10 = 173 − 136.01 9 9 9 =t= 3. c) Verifica-se a variância das diferenças e.7 = 5. Há a uma preocupação em que haja um pareamento entre indivíduos para que eles difiram somente no aspecto.9 = 39.1 = 4. 37 b) X d = = 3. Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios). 44) e compara-se o valor do t calculado com o valor crítico da tabela em função de α com n-1 graus de liberdade.7 0.01 10 O próximo passo e recorrer à tabela do teste t .6332 s2 = d) t = 3. tratado e não-tratado.1 Dados Pareados (Amostras Dependentes) Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivíduos ou animais ou plantas. obtivemos os seguintes dados: Tabela 2. Σd=37. b) Verifica-se a média aritmética das diferenças.William Costa Rodrigues 24 7. Em um estudo foi separada uma população de 10 crianças para os testes com administração da dieta de folha de mandioca. Item 1 2 3 4 5 6 7 8 9 10 Total Peso (Kg) Antes Depois 24 28 23 25 24 25 23 29 30 32 31 34 31 38 14 19 20 22 18 23 !Configuração não !Configuração não válida de caractere válida de caractere Diferença 4 2 1 6 2 3 7 5 2 5 !Configuração não válida de caractere Procedimento: a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima).401 = 3.84 0. d) Aplica-se o teste t .7 4. p.student.1.7 10 c) Σd²=173.

Exemplo: Tabela 3.9379 ≅ 2. Leguminosa A Leguminosa B X1 = 38 cm X 2 = 33.01). devemos verificar os valores críticos com nove graus de liberdade. concluímos que há 99% de probabilidade de que a leguminosa A.05) e 3. 7. Concluímos pela rejeição de H0 (hipótese nula) em nível de 1% de probabilidade (α=0.5 4.68 e 2.5 t= = = = = = 2. Esta equação deve ser utilizada.Apostila de Estatística Aplicada 25 No exemplo acima.student calculado é dado pela fórmula: X1 − X 2 t= 2 2 s1 s 2 − n1 n 2 Onde: X1 e X 2 : médias das amostras. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril. Para o nosso exemplo acima temos o GL = 26 + 26 – 2 = 50 ou (26–1) + (26– 1)=50.3846 2.94) com os valores tabelados verifica-se que há diferença estatística a 5% e a 1% de probabilidade. O teste t utilizado nesta situação pressupõe variâncias diferentes. Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o aumento do peso corpóreo das crianças.33. Os valores a 5% e 1% de probabilidade são 2.26 (5% ou α=0. mesmo o as duas amostras possuindo valores n iguais.2 Dados Pareados (Amostras Independentes) Neste caso os dados são tratados de forma diferente.3461 1. . possuem o mesmo valor n. ou seja. mas não pertencem ao mesmo tratamento ou não há comparação entre antes e depois.84 é maior do que os valores da tabela.9615 + 1. possuam taxa de crescimento média mais elevada que a leguminosa B. Desta forma. encontramos os valores 2. quando se conhece a variância populacional (σ²). procedemos da seguinte forma: GL= n1 + n2 –2 ou (n1–1) + (n2–1).5 4. 44).01. O valor t .5 4.94 25 36 0.5 4. portanto.25 (1% ou α=0. numa área de re-vegetação (dados fictícios).01). respectivamente (Tabela 11.5317 52 6 2 + + 26 26 26 26 Para calcular o Grau de Liberdade.1.5 cm s1= 5 cm s2= 6 kg n1= 26 n2= 26 Calculado o valor de t teremos: 38 . n= 10. e n1 e n2: número de observações das amostras. p. s1= e s2= desvios-padrão das amostras. Comparando o valor calculado (2. O valor encontrado (calculado) de t= 5. Desta forma.

que as amostras são independentes e que apresentam variâncias desiguais. em que g é calculado através da fórmula: 2  s1 s 2   + 2  n1 n 2    2 g=  s2   1  n1    2 n1 − 1 +  s2   2  n2    2 n2 −1 Para nosso exemplo seria: 2  74 18   +  4.1.William Costa Rodrigues 26 7.82 74 18 4.4 5 s2 Seguindo o critério estabelecido. o teste T será aplicado baseando-se na diferença entre as médias das duas amostras.26 2. isto justifica a conduta sugerida. Exemplo: temos duas amostras de água em que os dados quanto ao nível de contaminação de mercúrio apresentam os seguintes valores: Amostra A Amostra B X 1=160 ppm X 2=148 ppm s²1 =74 ppm s²2 =18 ppm n1 = 20 n2 = 32 O valor do teste t será obtido através da expressão: X − X2 t= 1 2 s1 s 2 + 2 n1 n 2 Calculado o valor de t teremos: 160 − 148 12 12 t= = = = 5. Se a relação entre as variâncias apresentarem valor maior do que quatro. as amostras serão comparadas de acordo com este resultado. podendo as mesmas apresentarem tamanhos diferentes (n1 e n2). Por exemplo: s²1= 27 e s²2= 5 2 s1 27 Portanto = 2 = = 5.Variâncias Desiguais (Heterocedásticas) Caso os dados não pertençam às amostras não pareadas.3 Dados Não-Pareados .8 ≅ 25 2 0. neste caso. devemos calcular o grau de liberdade para o conjunto de dados. Há uma regra prática que identifica tal desigualdade a ponto de justificar tal procedimento.26 2 20 32  g=  2 = = 24.06 + 20 32 Para verificar a significância deste valor.73 2  74   18       20  +  32  20 − 1 32 − 1 . Supõe-se.

devido à diferença significativa entre as médias das duas amostras.3 1.Variâncias Iguais (Homocedásticas) A aplicação do teste t de Student para este caso é realizada quando comparamos as médias aritméticas de duas amostras independentes.4 X A= 1.11 = 9 × 0.5 sA²= 0. possuíam 10 e 7 caixas no lote selecionado. foram avaliados os conteúdos de 10 e 7 garrafas. um lote de caixa de cada marca e ao acaso avaliou o conteúdo de uma garrafa de cada caixa. p.01 = 0.79 (1%). aceitando-se a hipótese alternativa. o procedimento metodológico consiste em se utilizar uma variância ponderada.01). um pesquisador separou ao acaso.42 X B= 1.06 (5%) e 2.L) Marca A Marca B 1. XA − XB t=  1 1   s2  + n nB   A  Assim temos: .36 + 0. Exemplo: para verificar se duas amostras de água mineral de duas marcas possuem a mesma quantidade sulfatos. para verificar os valores críticos nos níveos de 5% e 1% de probabilidade para 25 graus de liberdade. Na tabela iremos obter o valor de 2. respectivamente.4 Dados Não-Pareados .82 é significativo no nível de 1% (1% ou α=0.8 1.9 1. A marca A e marca B.5 1.11 = 0.2 1. respectivamente.0 1.11 nA= 10 nB = 7 A variância ponderada é dada pela fórmula: (n A − 1) × s 2 + (n B − 1) × s 2 2 A B s = nA + nB − 2 Para nosso exemplo teríamos: (10 − 1)× 0.04 + 6 × 0.1.5 1. nas quais as variâncias apresentam valores aproximadamente iguais.66 = 1.6 1.0673 s2 = 10 + 7 − 2 15 15 15 Em seguida aplica-se a fórmula para o teste t.4 1.4 1.04 sB²= 0.5 1. Desta forma. 44). 7.1 1.7 1.2 1. Ainda neste caso. Ou seja. considerando também o número de graus de liberdade de cada uma das amostras.8 1.04 + (7 − 1)× 0.4 1. Exemplo: Amostra (mg. concluise que o valor obtido pata t = 5.Apostila de Estatística Aplicada 27 Consulta-se então a tabela do teste t-student (Tabela 11.

0673 +   10 7  = − 0. sendo muito utilizado em pesquisas biológicas. Exemplo: Num Shopping Center. 7.98 0. por exemplo. 45).74) 75 (65.1634 0.13 e 2. o que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira diante da condição a elas imposta.95. No primeiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50% (freqüência esperada) e o valor real após os lançamentos será a freqüência observada. A comparação entre os valores calculados de χ². para verificar a significância pode ser obtido na tabela de χ² (Tabela 12. O grau de liberdade para o teste de χ² é o número de observações/ classes menos 1.8 = ≅ − 1. p. 2. Para tal. A H0 é que não diferença entre as faixas etárias em relação a ter diabete. Portanto o valor do desvio é elevado ao quadrado e dividido pela freqüência esperada. A fórmula utilizada para calcular o χ² é: ∑ (fo .4043 Os valores de t tabelado para 15 graus de liberdade a 5 e 1% são respectivamente. 7. Os dados coletados ao final do experimento foram: Faixa Etária Pessoas* (anos) Com diabete Sem diabete A: 10-15 2 (11. os dados colhidos representam ocorrência de certos fenômenos que se podem classificar numa tabela.26) Σ 77 .William Costa Rodrigues 28 t= 1. Desta forma.2 Teste Qui-Quadrado (χ²) O teste não-paramêtrico de qui-quadrado foi desenvolvido por Pearson. é necessário que tenhamos as freqüências teóricas. fe= freqüência esperada.3 Tabela de Contingência Em muitos trabalhos experimentais. lançamentos de moedas ou proporção de doentes após uma epidemia. Em muitos casos utiliza-se este teste em experimentos probabilísticos. Em tal situação a H0 (hipótese nula) será testar a independência entre as variáveis. No segundo caso a freqüência esperada deverá ser corrigida (calculada) através da Tabela de Contingência.fe )2 2 χ = fe Onde: fo= freqüência observada e. foram coletadas amostras de sangue. foram escolhidas ao acaso pessoas com três diferentes faixas etárias. chamada tabela de contingência. Para poder calcular o χ². Estas tabelas têm como objetivo estudar a possível associação entre duas variáveis que classificam os dados.8 − 0.42 . sendo que a marca B possui maiores concentrações em relação à marca A. para verificar a incidência de diabete.5  1 1 0.1. conclui-se que as duas marcas de água mineral não apresentam diferentes proporções de sulfatos em sua composição.

4 Teste de Kruskal-Wallis Este teste foi criado como substitutivo à análise de variância paramétrica (Teste F).41 + 1. Assim teremos: (2 − 11.Apostila de Estatística Aplicada 29 Faixa Etária (anos) B: 16-21 C: 22-40 Σ Pessoas* Com diabete Sem diabete 12 (11.72 10. portanto. Da mesma forma que nos outros testes.5184 + 81.09 + 1. Desta forma.74 65. . No nosso exemplo teremos: GL = (2 − 1) × (3 − 1) ∴ GL = 1 × 2 ∴ GL = 2 Para calcular as freqüências realiza-se uma regra de três simples como segue: 34 –––––––––––––––– 223 fe –––––––––––––––– 77 Ou seja. Os demais valores da linha subseqüentes são obtidos com a realização da regra de três para cada valor da 2ª coluna. ou seja.98 (52 − 61. 3.02 11.26 )2 + (12 − 11.74)2 + (75 − 65.26 11. fe A = 34 × 77 a fe da terceira coluna (sem diabete) é calculada pela diferença 223 entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (Σ). respectivamente.28) 62 (62.72)2 + (20 − 10.98 61. serão consideradas sempre duas hipóteses (H0 e H1). conclui-se que há diferença entre as faixas etárias.n. Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anteriormente.02 χ 2 = 8.87 + 94.02)2 ∴ χ 2 = 94.36 ∴ 61.99 e 9. 7. será uma maneira se verificar se estas diferenças são devidas ao acaso ou se as amostras provêm de populações diferentes.. e assim sucessivamente até atingir o maior valor.26 11.28 62.21.36 + 81. 45). 4. . a ocorrência de diabete depende da faixa etária.05 + 0. segundo o teste de χ² a 5 e 1% de probabilidade.71 10. No teste de Kruskal-Wallis todas as observações recebem uma pontuação através dos números 1.02) 34 189 Σ 74 72 !Configuração não válida de caractere * Valores entre parênteses e em negrito representam as freqüências calculadas Neste caso temos uma tabela de contingência de 2 x 3. Ele é utilizado para que se verifique o contraste entre k amostras independentes. ao menor valor se atribuirá o valor 1. 2.87 + 0.33∴ χ 2 = 18.72) 20 (10.5184 + 0.28)2 + (62 − 62.98)2 + χ2 = 11.. Assim. o valor χ² para 2 graus de liberdade a 5 e 1% de probabilidade seriam 5.34 De acordo com a Tabela 12 (p. Os valores obtidos nas diversas amostras diferem entre si e. O Grau de liberdades para tabelas de contingências será calculado pela seguinte fórmula: GL = (n s − 1) × (n g − 1) .45 + 0.74 65. pois temos duas situações as serem testadas (com ou sem diabete) em três grupos (faixas etárias). que receberá a maior pontuação.98) 52 (61.01 + 7.28 62.

0 RC= 69.14 + 603.25  H= × + +  − 3 × 24 ∴ 23 × 24  7 8 8  12 H= × (464. Para verificação de significância quanto às diferenças observadas entre tratamentos k.0217 × 3.78) − 3 × 24 ∴ 552 12 H= × (3. calcula-se a média das ordens que seria atribuída a elas se não houvesse o empate.5 2 149.861. correspondem a 5 e 1%.861. 45). com k-1 graus de liberdade. . ou seja. Para exemplificarmos o teste de Kruskal-Wallis.70 − 72 552 H = 11. que não vem ao caso no exemplo a ser testado. ni = número de observações em cada tratamento k e.5 2 12 H= × + + 23 (23 + 1)  7 8 8    − 3 (23 + 1)∴   12  3. considerase que nos casos de empate entre duas ou mais observações.70 ) − 72 ∴ H = 0. a tabela para comparar os valores é a tabela de χ² (Tabela 12. Os resultados do experimento seguem abaixo: Métodos A B C DD posto DD posto DD posto 17 11 20 12 32 17 14 9 5 3 35 20 4 2 9 6 26 15 8 5 13 8 34 18.99 e 9. os valores da tabela χ². pois GL= k-1.5 21 13 6 4 2 1 45 21 15 10 11 7 50 23 22 14 47 22 RA=57.95 Como já foi dito este teste segue a distribuição do teste χ². considera-se que o teste tem uma distribuição aproximada de χ². são 5.5 nA= 7 nC = 8 nC = 8 x A= 13.25 22.830.350.249 4. k =corresponde ao número de tratamentos a comparar.29 x B= 14.5 RC= 149. Na ordenação global que se faz para atribuição dos postos aos dados. Portanto. sendo k = 3 (métodos).793.78 + 2. os graus de liberdade correspondem a 2. supomos que foram testados ou experimentados três métodos para dessalinização de água. foram coletadas diversas amostras de água com diversas concentrações de sal. Assim sendo. testou-se o tempo de dessalinização dos três métodos. Para calcular H teremos:  57 2 69. respectivamente. Desta forma.William Costa Rodrigues 30 Para o cálculo do valor H do teste de Kruskal-Wallis utiliza-se a fórmula: 2 12 k R H= × ∑i =1 i − 3 (N + 1) N (N + 1) ni Onde: Ri = a soma das ordens atribuídas ao tratamento i.50 x C= 36.25 DD= dias para dessalinização. p. N = número total de observações em todos os tratamentos k. Desta forma.21.5 29 16 34 18.

pois leva menos tempo em comparação aos demais. Para os casos de empate entre observações de mesmo bloco. calcula-se a média aritmética das ordens. De forma análoga aos demais testes. em mg. quer saber se o poluente está distribuído de forma igual entre as profundidades avaliadas.Apostila de Estatística Aplicada 31 Considerando que o valor calculado H=11. as concentrações do poluente são iguais em todas as profundidades (Hipótese Nula ou H0). Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo. formula-se a H0 e a H1. utiliza-se tabela de χ². Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamentos) em cinco áreas diferentes. cujas observações podem verificar valores com acentuada variação e em cada tratamento são constituídos blocos com a intenção de que isto resulte em um pareamento considerável entres os diversos tratamentos. Pelos valores R encontrados nos resultados verifica-se que o método A e mais eficiente no processo de dessalinização. Este solo foi exposto há poluentes de uma determinada fábrica. rejeitamos H0 (não há diferenças entre os métodos testados no tempo de dessalinização das amostras). assim aceita a H1. ou seja. A ordenação dos valores se dá dentro dos blocos. delimitados pelas características edáficas do solo (blocos). em quatro diferentes profundidades. Substituindo os valores na fórmula para o cálculo do valor χ²r. nos blocos n. Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis. Para testar a H0. k = o número de tratamentos. Assim sendo. Os resultados da análise foram as seguintes: ( ) Tabela 4.95 é maior que os valores tabelados. co grau de liberdade k-1. Ri = a soma das ordens atribuídas aos dados do tratamento i. Sendo o valor Ri a somas dos valores de ordenação nos tratamentos (colunas). este teste é um substitutivo ao teste F para análise de variância paramétrica. O valor do teste de Friedman (Xr2) é calculado através da seguinte equação: 12 k χ2 = × ∑i =1 R i2 − 3n (k + 1) r nk (k + 1) Onde: n = número de blocos.mm³ de solo Blocos Área A Área B Área C Área D Área E Total 0-10 12 (2) 8 (2) 14 (2) 17 (3) 12 (2) R1= 11 Profundidade (cm) 11-20 21-30 13 (3) 16 (4) 9 (3) 12 (4) 20 (3) 22 (4) 16 (2) 21 (4) 15 (3) 16 (4) R2= 14 R3= 20 31-50 7 (1) 5 (1) 6 (1) 11 (1) 10 (1) R4 = 5 *Os valores entre parênteses e em negrito correspondem à ordenação dos tratamentos dentro dos blocos (linhas).5 Teste de Friedman (Análise da Variância) Da mesma forma que o teste de Kruskal-Wallis. teremos: . 7. sendo utilizado quando as amostras.

32. p.2 Correlação de Spearman Este coeficiente de correlação baseia-se no rank dos valores X e Y e é largamente utilizado em analise de correlação e dados não paramétricos. Quando negativa há a variação negativa de Y. a dependência entre duas séries de variáveis. ΣXY = soma dos produtos entre os valores de X e Y.1 Coeficiente de Correlação (r) O coeficiente de correlação e designado pela letra r.82 e 11. ( ) 8 Correlação Linear A correlação linear é utilizada para verificar. 45). quando há variação positiva de X e vice-versa. 6 ∑ d i2 rs = 1 − 3 n −n Onde: rs= coeficiente de correlação de Spearman.1. ∑X×∑Y ∑ XY − n r= (n − 1) × s X × s Y Onde: r= coeficiente de correlação de Pearson. Quando positiva há a variação positiva da variável dependente (Y). 8. n = número de pares de dados. A partir da tabela χ² (Tabela 12. têm-se 3 graus de liberdade. A correlação pode ser denominada positiva ou negativa. Os valores para 5 e 1% de probabilidade são 7. rejeita-se a hipótese nula (H0) e aceita a hipótese alternativa (H1). n = número de amostras de X e Y. 8. sX e sY= desvios padrões de X e Y 8. Pode ser utilizado para dados normais (Correlação de Pearson) e para dados não normais (Correlação de Spearman). respectivamente. a profundidade de 21-30 cm tem uma maior concentração do poluente que as demais profundidades avaliadas.William Costa Rodrigues 32 12 × 112 + 14 2 + 20 2 + 5 2 − 3 × 5 × 5∴ 5 × 4(4 + 1) 12 χ2 = × (121 + 196 + 400 + 25) − 75 r 5 × 4(4 + 1) 12 χ2 = × 742 − 75 = 89. num determinado conjunto. . ΣX x ΣY= produto da soma dos valores de X e Y. Sendo o valor de χ²r calculado maior que os valores da tabela de χ². nas áreas onde foram coletadas amostras.04 − 75 ∴ r 100 χ 2 = 14.04 r χ2 = r Como valor de graus de liberdade é igual a k-1 graus de liberdade e sendo k=4 (tratamentos). d1 = é a diferença entre cada valor X e cada valor Y correspondente.1. quando há variação positiva da variável independente (X) vice-versa.1 Correlação de Pearson Utilizado na análise de dados que possuem distribuição normal. Trata-se de um valor abstrato que dá uma idéia sobre a dependência entre os dados apresentados. Ou seja.

quando um valor é negativo. Correlação linear simples positiva (A). existe uma proporcionalidade direta entre as variáveis. através do teste de t para r. deve-se ter em mente que a variável Y é quem sofre variação em função de X. e inversa ou negativa (B). ou seja. Assim sendo. A utilização de um ou outro coeficiente dependerá da normalidade dos dados (veja o tópico Teste de Normalidade dos Dados. Σdi2=72 6 (72 ) 432 432 ∴1 − ∴1 − ∴1 − 0.4364 ∴ 0.5 0 0 20 40 60 Figura 8.5 2 1. Para melhor entender melhor a explanação anterior. Correlação de Spearman entre as notas brutas de matemática e biologia (Zar. 3 2. Estudante 1 2 3 4 5 6 7 8 9 10 Notas de Matemática 57 45 72 78 53 63 86 98 59 71 Rank de Xi 3 1 7 8 2 5 9 10 4 6 Notas de Biologia 83 37 41 84 56 85 77 87 70 59 Rank de Yi 7 1 2 8 3 9 6 10 5 4 di –4 0 5 0 –1 –4 3 0 –1 2 Total di 2 16 0 25 0 1 16 9 0 1 4 72 n= 10. p. Quando um valor é significativo. apresentando a linha de tendência de regressão linear simples de dados fictícios. dizemos que a correlação é positiva e significativa.5 0 0 20 40 60 A B 3 2. Y diminuem e quando o valor é positivo. 1999). quando aumenta os valores de X aumenta os valores de Y (Figura 8).5 1 0.5 2 1.5636 3 10 − 10 1000 − 10 990 Para verificar se há significância na correlação rs = 1 − 8.1.3 Aspectos Gerais da Correlação Linear Os valores de r variam entre -1 (associação negativa completa) e +1 (associação positiva completa). caso o valor seja positivo.5 1 0. é apresentado de forma negativa dizemos que a correlação é negativa e significativa. .Apostila de Estatística Aplicada 33 Exemplo: Tabela 5. quer dizer que com o aumento dos valores de X.22).

Classificação do valor r através de intervalos de 0 a 1. que acordo com a necessidade de com uma maior precisão intervalar ( Tabela 6) pode ser utilizada um ou outra tabela. K = 1 − 0.30.21 – 0.90 0. concluímos que há mais ausência de relação do que intensidade de relação entre X e Y.3 Coeficiente de Alienação (K) Este coeficiente é função do coeficiente de correlação.4.1 Significância Baseada nos Intervalos A classificação é simples e basea-se nas Tabela 6 e Tabela 7. conhecido como teste t para r.41 – 0.40 0. Por exemplo.30 < r < 0.2 Coeficiente de Determinação (r²) Ao valor encontrado de r elevado ao quadrado (r²) denomina-se coeficiente de determinação.71 – 0.4 Significância do Teste de Correlação Existem basicamente duas formas de verificar a significância do var r. Tabela 6. Este coeficiente expressa a porcentagem de variação dos valores de Y em função do valor X.30. expresso pela fórmula: K = 1− r2 Este coeficiente exprime a ausência de relação entre X e Y.29 0. Intervalo r < 0. logo 30% da variação de Y são atribuídas a X.30 ∴ K = 0.20 0. a mais simples baseia-se simplesmente nos intervalos de valores de r. 8. Intervalo 0.15 < r < 0.William Costa Rodrigues 34 8.0 – 0. r²= 0. Classificação do valor r através de intervalos de acordo com e Teste de Rugg. quanto na de Spearmann. 8. a outra considera o teste t. 8.49 r >0. Sendo r²= 0.91– 1. .30.0 Significância Correlações nulas Correlações fracas Correlações substâncias Correlações fortes Correlações extremamente Fortes Tabela 7.50 Significância r desprezível r baixo r apreciável r acentuado A significância das tabelas acima poderá ser utilizada tanto na correlação de Pearson.70 ∴ K = 0.70 0.8367 Desta forma. o valor r² encontrado em determinada análise é igual a 0.15 0. Por exemplo.

para verificar a com o próprio nome diz.00 100. A exibição da equação e do valor de R² é feita através da seleção da Aba Opções. Por exemplo. 9 Análise de Regressão É freqüente o estudo da relação entre duas séries de variáveis. Será exibida uma janela com mostra a Figura 9.00 7. Sabe-se que determinadas dietas têm interferência no ganho ou na redução do peso de indivíduos da raça humana. a dispersão dos dados de Y em função de X.50 0..00 40. sob cultivo orgânico na Fazendinha Agroecológica. Tabela 8.00 25. Portanto há um interesse de expressar essa relação sob a forma matemática.00 0. selecionando a caixa de seleção: Exibir equação no gráfico Exibir valor de R-quadrado no gráfico .00 2. Após criar o gráfico selecione um dos pontos e em seguida clique no botão direito de mouse e selecione a opção Adicionar linha de tendência. o peso de crianças de acordo coma dieta oferecida em diferentes dosagens.Apostila de Estatística Aplicada 35 8. A mostra como montar uma série de dados para criação de um gráfico de dispersão no Microsoft Excel. fornecem a equação da reta ou de outro tipo de regressão que se queira plotar.50 100.50 50.4. 44).00 5..00 12. basta organizar os dado de forma correta e selecionar a criação de um gráfico de dispersão. Exemplo para o Microsoft Excel. torna-se bastante eficaz a construção de um diagrama que se obtém em sistemas de eixos cartesianos. no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues.50 40. ou seja. O tipo de linha será de acordo com a equação que melhor de adeqüei a distribuição dos dados. através da apresentação de uma função. na Tabela 11 (p. Aphididae) em função da brotação foliar de tangerina cv Poncã.2 Significância Baseada no Teste t para r (Pearson) O teste de t para r é calculado através da seguinte equação: r tr = × n−2 1− r2 Para este teste compara-se o valor de tr calculado com o valor de t. Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera.00 10.50 60. a 0.. Hoje em dia os programas (softwares) de planilha de cálculo e de estatística. lembrando que um evento biológico somente poderá ser explicado até uma equação de segundo grau.00 2. Desta forma.00 2. 2004).00 20.00 60. com n-2 graus de liberdade.00 0.00 30. Para identificação de uma possível correlação entre séries de variáveis.00 100. A 1 2 3 T.00 B C D E F G H I J L M 4 Para criação do gráfico de dispersão basta selecionar os dados das linhas 2 e 3 Gráfico e selecionar o gráfico Dispersão (XY) (Tabela 1) e selecionar o menu Inserir em seguida clique em Avançar > para configurar o gráfico ou em Concluir para finalizar a criação. caos opte por linha do tipo polinomial a ordem para eventos biológicos deverá ser 2.

3472 R2 = 0. Regressão linear simples entre a flutuação populacional de T. . neste caso uma das varáveis independentes (X) poderá parcialmente interferir na outra variável independente (Y). no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues.2 Regressão Linear Múltipla Este tipo de regressão possibilita a associação de uma variável dependentes (Z). aurantii e a brotação foliar de tangerina cv. Como pode ser visto na Figura 11.William Costa Rodrigues 36 Figura 9. 9. Poncã. aurantii 70 60 50 40 30 20 10 0 -10 0 20 40 60 80 100 120 y = 0. Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel. 9.2. T.3095x . plotar a linha e a equação da reta de duas variáveis. em cultivo orgânico de tangerina cv.3984 Figura 10.1 Regressão Linear Simples Neste tipo de regressão é possível verificar a associação entre as séries de dados. Poncã. na Fazendinha Agroecológica. 2004). com duas variáveis independentes (X e Y). X independente e Y dependente.

aurantii múltipla entre a flutuação populacional de T. 10 Transformação de Dados Para uma aplicação válida dos testes de significância.2141x + 7. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues. .Apostila de Estatística Aplicada 37 Figura 11. Poncã.3 Regressão Múltipla Neste tipo de regressão é possível verificar a associação entre as séries de dados.0046x2 . Regressão T.1984 40 cultivo orgânico de tangeR2 = 0. Figura 12. na Fazendinha Agroecológica. no 10 período de outubro de 0 2002 a outubro de 2003 0 20 40 60 80 100 120 (Adaptado de Rodrigues. em 50 y = 0. Correlação múltipla da amplitude térmica (variável x). X independente e Y dependente. em cultivo orgânico de tangerina cv. exigem quase sempre essa transformação. baseados nas propriedades das curva normal. brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z). 9. As porcentagens. Poncã. 2004). é necessário que o dados tenham uma distribuição normal (Figura 4. auran70 tii e a brotação foliar de 60 tangerina cv.0.4695 30 rina cv. 2004). plotar a linha de tendência polinomial e a equação de segundo graus das duas variáveis. Figura 5 e Figura 6). Vamos apresentar nesta apostila algumas das principais transformações de dados empregadas na normalização dos dados e as situações que cada uma se aplica. na Fazen20 dinha Agroecológica. Poncã. as contagens e as notas dadas a certas características qualitativas.

mas o método pode também ser utilizado quando esse número não é rigorosamente igual é sugerido na literatura que valores de 0 e 100%. do número de plantas sobreviventes em relação ao número total de plantas que deveriam estar presentes se nenhuma tivesse morrido após a poluição de um determinado solo. ou porcentagens que abrangem uma grande amplitude de variação.1 Índice de Diversidade e Dominância Populacional Existe uma série de índice de diversidade. 11 Testes Específicos Para Análise de Populações e Comunidades 11. os dados finais devem ser transformados novamente para escala original. 10. seja especificada. que podem ser utilizados em diversas situações. A medida mais simples de diversidade de espécie é o número de espécie (s). sejam substituídos por ¼n e 100. sendo a primeira mais utilizada. Quando se achar preferível não se apresentar os resultados na escala transformada. O dados que se recomenda utilizar este tipo de transformação são dados de percentagens e contagens (números inteiros). . elevar ao quadrado os valore submetido à transformação de raiz quadrada. os coeficientes de variação aproximadamente iguais. porém qualquer outra base poderá ser utilizada. ainda. sendo. como muitas vezes que um determinado caráter aparece num total definido. A base 10 para os logaritmos é utilizada normalmente. quando há uma redução dos valores de média e variância diminui simultaneamente. ou a riqueza de espécie. antes de entrar na tabela. É freqüentemente utilizado em dados biológicos quando amostras são tiradas da distribuição de Poisson (isto é. respectivamente. Transformando os dados utilizando suas raízes quadradas resulta em uma amostra cuja distribuição é normal.¼n. Vários índices de diversidade foram propostos que incorporam ambos S e N.3 Transformação Angular (Arcoseno) Essa transformação é utilizada quando os dados estão associados a uma distribuição binomial (presença-ausência). todas as comparações entre médias são realizadas na escala transformada. As equações normalmente utilizadas são: x ' = x + 0.1 Raiz Quadrada Essa transformação é utilizada quando a variância e proporcional a média. utiliza-se a transformação x' = log (x+1). utilizando-se uma tabela apropriada. quando os dados são representados por números positivos. Nesse tipo de transformação. por exemplo.4 Considerações Gerais Quando é utilizada uma transformação de dados. 1997).2 Transformação Logarítimica Este transformação é utilizada principalmente quando as médias e os desvios padrões (erros). 10. Os dados são transformados em percentagens e. o número total de indivíduos em todas as espécies (Brower et al. por conveniência. quando os dados consistem em ocorrências aleatórias de objetos ou eventos). ou seja. tendem a serem proporcionais. todos os dados deveriam estar baseados em um número de observações iguais. em seguida. É utilizada. 10.5 ou x ' = x + 1 ou x ' = x . nesse caso. são calculados os valores através da fórmula p' = arcsen % .William Costa Rodrigues 38 10. Quando aparece o valor zero. desde que. Por exemplo. É o caso.

5 Índice de Dominância Berger-Parker (d) Este índice estima a dominância dentro de uma comunidade. mesmo que o número de indivíduos seja reduzido. S Db = N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11. 11.4 Índice de Shanon-Wiener (H') É considerado o índice de diversidade mais completo. entretanto utiliza a raiz quadrada do número de indivíduos total de cada amostra.Apostila de Estatística Aplicada 39 Quando o índice de diversidade diminui. Este índice é dado pela fórmula abaixo: S −1 α= log N Onde: S: Número de espécies levantadas.1. pois além de considerar o número de espécies. Normalizando os dados e diminuindo a probabilidade de erro dos cálculos. 11.1.1. H ' = .3 Índice de Menhinick (Dm) Este índice é semelhante aos dois anteriores.1. N d = Max N total Onde: NMax= é o número de indivíduos da espécie mais abundante e NTotal= é total de indivíduos amostrados. tendendo a dominância de uma determinada espécie. indica que há competição interespecífica e que o local é menos diversificado. considera a proporção de cada espécie em relação ao todo. .1 Índice de Margalef (α) Este índice foi proposto por Margalef (1951) e tem como objetivo estimar o número de espécies e o número de indivíduos de uma comunidade. numa tentativa de normalizar os dados.2 Exemplo O exemplo hipotético abaixo da diversidade de cochonilhas em agroecossistema cítrico ilustra os índices de diversidade das cochonilhas de um pomar de citros.∑ p i × log p i' Onde: p = proporção da espécie em relação ao número total de indivíduos 11. N: Número de indivíduos total 11. verifica se há ou não dominância de uma determinada espécie numa comunidade. S Dg = log N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11. porém considera todas as espécies da amostra.2 Índice de Glason (Dg) É semelhante ao índice anterior. ou seja.1. há um indicativo de que o local é bastante diversificado. porém quando há um aumento deste índice.

790 !Configura Média 10 1. para espécies n.118 1995 10 235 1.611 0. que são as seguintes: j Jaccard QS = (a + b − j ) 2j (a + b ) Onde: a = Número de espécies presente no habitat ou comunidade A. Índices de diversidade de cochonilhas em agroecossiema cítrico. para espécies b..William Costa Rodrigues 40 Tabela 9. Existem duas fórmulas para calcular o QS propostas por Jaccard (1912) e Sorensen (1948).557 3.652 0. Tabela 10. simultaneamente. nas duas comunidades (Southwood. % S = ∑ (% a + % b + % c + .574 4. Sorensen QS = 11.045 ção não válida de caractere Dm 0. as duas espécies. ou número de levantamentos com a espécie b e j = Número de espécies presente nos dois habitats ou comunidades ou número de levantamentos contendo..1 Quociente de Similaridade O objetivo deste quociente é verificar a similaridade entre duas comunidades ou habitat.575 11. + % n ) Onde: % a = menor porcentagem da espécie a observada no confronto das comunidades.2 Porcentagem de Similaridade Expressa os resultados semelhantes ao do Quociente de Similaridade.218 1996 10 323 1. 1971). ou número de levantamentos com a espécie a.3. como também o número de indivíduos.481 3.556 0. Período S N Dg α 1994 10 268 1.648 4.609 4. Duas comunidades com sua composição de espécies em percentagem Comunidade A B Espécies a 15 33 b 35 14 c 27 36 d 23 17 A partir dos dados da Tabela 10. % b = idem.3 Índice de Similaridade entre Populações 11. podemos calcular a %S: % S = (15 + 14 + 27 + 17 )∴ % S = 73% . pois se calcula pelo somatório dos menores valores das percentagens observadas de cada espécies em relação ao total de indivíduos.3. % c = idem. para espécies c e % n = idem. b = Número de espécies presente no habitat ou comunidade B. no que se refere a composição específica (espécies). porém leva em conta não somente a composição das espécies.479 0.985 1997 10 435 1.

3. 46.Apostila de Estatística Aplicada 41 11.4 Constância Este parâmetro indica a percentagem de uma determinada espécie em relação a todos os levantamentos realizados. p. B = Idem. É dado pela fórmula: 2j I AB = n A + nB Onde: nA = Número de ocorrência da espécie A. b) Espécies acessórias – presentes entre 25–50% dos levantamentos. A Constância de uma espécie poderá ser classificada da seguinte forma: a) Espécies constantes – presentes em mais de 50% dos levantamentos. baseiase no total do número de indivíduos de ambas as espécies que ocorrem simultaneamente nos levantamentos realizados. p.3. 46. Os valores mínimos de j significativos a 0. 11. nB = Número de ocorrência da espécie B e j = Número de ocorrência conjunta das espécies A e B. É dado pela fórmula: n × 100 C= N Onde: n = Número de coletas contendo a espécies em estudo e N = Número total de coletas realizadas.3. J IA = − 0.5 Índice de Associação (IA) Verifica o índice de o nível de associação existente entre duas espécies.5% de probabilidade são dados na Tabela 15. . A significância de j pode ser observada através da Tabela 15.3 Índice de Afinidade Este índice estima a freqüência com que duas espécies ocorrem simultaneamente em determinada comunidade ou habitat. 11. c) Espécies Acidentais – Presentes em menos de 25% dos levantamentos.5 A+ B Onde: A = Número total de indivíduos da espécie A coletados ou amostrados em todos os levantamentos. Foi proposto por FAGER (1957). para espécies B e J = Número de indivíduos da espécie A e B nos levantamentos em que ocorrem simultaneamente.

38:586595. 1912. P. Confidence interval estimation of overlap: equal means case.E. 331 p. Manual de Ecologia de Insetos. Rodrigues. ícone. Levine. Métodos estatísticos elementares em sistemática zoológica. 339p.C. & Villa Nova. P. & Morris.T. Beiguelman. 1990.N. 13ª ed (revista e ampliada). & Mourão. 4th ed. Dauber. Geier. 2ª ed. O. Londrina: Planta. J. 168: 1345-1347. 3ª ed. Souza. J.1993.O uso de análise multivariadas ecológicas em estudos ambientais interdisciplinares. Ed.. Jaccard. Homópteros (Homoptera: Sternorrhyncha) associados à tangerina cv. The Ecology of insect Populations in Theory and Practice. 663p and index included. Ecological Methods.. 2000. L. 419 p. Skr. Centeno. 1957. P. 2000. 272p. (revista e ampliada). 235p. Princípios de Entomologia. Curso de Estatística Aplicada à Biologia. P. Huirtec.. São Paulo: MC Graw Hill do Brasil. S. 232p. 5:1-34 Southwood. T. Quebecor: MC Graw Hill. S.William Costa Rodrigues 42 12 Bibliografia Arango. Campinas: UNICAMP.F.W. 318p. Mulekar. New Jersey: Prentice Hall. Berenson. Caderno V. 63f. T. Berger. Lara. Agriculture. D. Siegel. Hirsch. E. N. Rio de Janeiro: Guanabara –Koogan. Zar. 11:37-50.H.D. Clark. 2002. Zar. 197p. T.. NeroPhytal. Methuen & Co. Simmering. Rey. M. UFRuralRJ. Poncã (Citrus reticulata Blanco) em cultivo orgânico e a interação com predadores e formigas. Otte A. Biostatistical Analysis. R. Vanzolini. T. Landscape structure as an indicator of biodiversity: matrix effects on species richness. Hughes. M.. 43p. M. 5ª Ed. F. 2002. Magnusson. 1948. . 467p.). 1997. Estatística: teoria e Aplicações usando Microsoft® Excel em português. D. Tese de Doutorado. 169p.. Waldhardt. Ecologia: princípios e métodos: Petrópolis: Vozes. London. The distribution of the flora in the alpine zone. 391p. J. 2000.P (Trad. Goiânia (Coleção Didática. P. Seropédica. Da UFG. C. Curso de Estatística Experimental. Ed. São Paulo: Edgard Blücher.E. A method of establishing groups of equal amplitude in plant sociology basead an similarity of species. Curso prático de bioestatística. 3ª ed..W. Determination and analysis of recurrent groups.L. 1995. Bioestatística Teórica e Computacional. 1976. Biol.E. D.. B. S. Estatística [Sem] Matemática: A ligação entre as questões e a análise. Chapman and Hall Ltd. 3): Ed. Agronômica Ceres.M & Prado.C. Diversity of Planktonic Foraminifera in Deep-Sea sediments. & Mishra. Barbin.J.L & Stephan. Ribeirão Preto: FUNPEC. 4th ed. 2ª ed. 273p and software included. 811p. R. G. 1970. & Parker. & von Ende. W. D. Fager. & Wolters. Gomes. V.. Silveira Neto. Sorensen. Bioestatística. 234p.R. F. I.C. 1998.. A. 1999. Rodrigues. 1979. Science. W. São Paulo. F.H. J..S.M. S.. 2003..P. Laroca. Niterói: EdUFF. 34: 121-137. A. Lewinsohn. Piracicaba: Nobel. Computational Statistics & Data Analysis.. 2004.G. Estatística não paramétrica. K. Brower.M. 2ª reimpr. Planejar e redigir trabalhos científicos. 98: 321-329.L. R. Ecosystems and Environment. E. 126p. 2003. L..R. 1967. Ecology. 130p. Field and Laboratory Methods for General Ecology. 1992. 1971. H. W. Nakano. 2002.H. 2001. Rio de Janeiro: LTC.

Apostila de Estatística Aplicada 43 13 Anexos Figura 13. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos Dados com Distribuição Normal Dados com Distribuição Não Normal 2 Tratamentos 2 Tratamentos > 2 Tratamentos Dados Numéricos divididos em Categorias Teste T ANOVA Teste F Teste 2 (Qui-Quadrado) Não dividido em blocos (Amostras compostas) Dividido em Bloco Dados Pareados Dados não Pareados Não será abordado Calcula Valor 2 S2Maior S2Menor < 4 S2Maior S2Menor 4 Teste de KruskalWallis Teste de Friedman Calcula Valor H Variâncias iguais (Homocedásticas) Variâncias desiguais (Heterocedásticas) Calcula Valor 2r Calcula Variância Ponderada Compara com valor 2 Tabelado ( = 5%) Se 2calc 2tab Rejeita H0 Coloca * Se 2calc < 2tab Aceita H0 Coloca ns Calcula Valor T Se Tcalc Ttab Rejeita H0 Coloca * Compara com T tabelado ( =5%) Compara com 2 tabelado ( =1%) Compara com T tabelado ( =1%) Se Tcalc < Ttab Aceita H0 Coloca ns Se 2calc 2tab Coloca ** Se 2calc < 2tab Mantém * Se Tcalc Ttab Coloca ** Se Tcalc < Ttab Mantém * Conclui textualmente .

92 2.68 2.10 2.95 2.59 2.50 3.79 2.71 4.66 9.36 3. .26 2.William Costa Rodrigues 44 Tabela 11.45 2.09 2.01 1.18 2.12 2.09 2.30 3.98 1. Grau de liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 50 100 500 ∞ 5% (α=0.13 2.75 2.05 a 0.90 2.84 2.01) 63.71 3.92 5.36 2.14 2.60 4.25 3.06 2.03 3.96 1.17 3.05) 12.63 2. (1998).57 2.98 2.11 2.16 2. Valores de t -student em níveis de 5% e 1% (α=0.84 4.18 2.04 2.01 2.78 2.86 2.31 2.11 3.01) de probabilidade3.96 1% (α=0.23 2.88 2.06 3.58 3 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.20 2.

40 48.99 46.82 9.09 16.01) 6.11 41.98 40.68 25.98 44.Apostila de Estatística Aplicada 45 Tabela 12.07 15.64 42.09 21.49 54.03 22.77 44.78 56.59 14.34 42.05) 3.58 32.92 35.28 49.89 48.92 18. Grau de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 5% (α=0.99 7. .57 55.19 37.19 47.06 57.14 30.48 20.30 43.62 59.49 11.67 33.21 11.88 40.87 30.60 50.84 5.34 58.17 36.42 37.89 61.59 28.68 21.65 38.80 50.28 15.99 52.41 34.36 23.23 49.31 19.57 38.00 26.60 49.43 63.01) de probabilidade4.14 31.16 62.29 41. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0.00 33.51 16.64 46.05 a 0. (1998).81 18.38 54.41 32.64 9.80 36.31 45.76 1% (α=0.22 27.07 12.67 23.19 53.69 4 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.34 13.96 48.30 27.72 26.21 24.69 29.

255 0.271 0.213 0.391 0.128 0.209 0.082 0.279 0.738 0.076 0.156 0.287 0.503 0.235 0.070 0.294 0.544 0.118 0.435 0.503 0.214 0.600 0.000 0.344 0.405 0.000 0.142 0.267 0.05 – 1.618 0.654 0.110 0.161 0.382 0.363 0.370 0.464 0.206 0.220 0.600 0.521 0.643 0.176 0.521 0.10 1.406 0.297 0.714 0.429 0.829 0.467 0.564 0.703 0.635 0.755 0.103 0.929 0.165 0.560 0.235 0.097 0.068 0.414 0.189 0.313 0.264 0. Valores críticos para o Coeficiente de Correlação de Spearman (rs) 5 n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 α(2) 0.191 0.200 0.786 0.446 0.01 – – 1.425 0.227 0.152 0.185 0.224 0.207 0.485 0.257 5 A tabela completa poderá ser consultada em Zar (1999).264 0.170 0.165 0.085 0.337 0.093 0.532 0.600 0.536 0.398 0.197 0.511 0.615 0.833 0.587 0.079 0.380 0.331 0.William Costa Rodrigues 46 Tabela 13.248 0.346 0.881 0.318 0.144 0.335 0.074 0.900 0.538 0.727 0.371 0. .310 0.433 0.217 0.362 0.584 0.447 0.072 0.283 0.679 0.266 0.089 0.886 0.401 0.500 0.244 0.353 0.180 0.000 0.361 0.182 0.648 0.794 0.279 0.202 0.236 0.570 0.321 0.460 0.472 0.307 0.148 0.415 0.170 0.198 0.556 0.248 0.174 0.700 0.484 0.306 0.50 0.

06 38.18 15.21 33.92 14.34 62.90 65.33 54.55+ 56.66 31.73 54.2 99.56 % 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 27.8 99.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 0 1.7 0.71 43.87 84.67 36.13 9.87 69.13 53.0 99.47 38.16 64.3 99.56 3.4 99. 6 A tabela completa poderá ser consultada em Zar (1999).85 44.43 45.69 59.35+ 25.53 53.67 61.6 99.31 31.73 70.66 29.17 56.08 78.26 84.54 12. seguindo ângulos terminados em 5.0 0.00 60.28 43.45 80.44 5.0 0 64.79 57.35+ 51.06 35.34 16.00 30.5 99.37 20.37 86.4549.82 40. são orientações para arredondamento a uma decimal.58 32.21 68.14 3.4 0.57 46.Apostila de Estatística Aplicada 47 Tabela 14.7 99.9532.97 22.83 34.60 50.87 37.63 4.1 0.1 99.42 58.13 21.74 8.81 2.02 49.03 68.02 81.46 18.98 11.6539.44 88.56 85.43 17.87 48.84 26.97 28.4535.58 24.13 5.55+ 42.23 39.18 50.66 75.27 36.98 41.87 85.56 72.94 52.27 21.20 85.40 40.1546.9586.56 84.05+ 4.94 55.79 23.13 42.44 19.00 % 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 0 45. .5 0.9 100.57 74.10 25.63 71.33 30.80 5.2 0.3 0.72 47.00 - Os sinais (+) e (-).65 66.05+ 58.8 0.77 51.72 63.19 90.82 77.86 87.44 % 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99.29 47.44 4.42 67.34 60.6 0.03 62.28 27.54 73. Valores para transformação arcsen % 6 % 0.

0 5 5 6 7 7 8 14 19 25 29 36 41 46 52 57 nB/na 1.5% (Southwood. 1971). nA 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100 1.William Costa Rodrigues 48 Tabela 15.5 5 6 7 8 8 9 16 22 29 35 42 48 55 61 67 2. significativos a 0. Valores mínimos de j.0 – 6 7 8 9 10 17 24 32 39 46 53 59 67 74 .

Procure aproveitar ao máximo o momento que está vivendo. tirando todas as vantagens que puder. O ontem já lhe fugiu das mãos. Viva o momento presente. porque dele depende todo o seu futuro.Apostila de Estatística Aplicada 49 ************* O minuto que você está vivendo agora é o mais importante de sua vida. 154 ************* . p. Torres Pastorinho Minutos da Sabedoria. C. para seu aperfeiçoamento. onde quer que você esteja. Preste atenção ao que está fazendo. O amanhã ainda não chegou.

You're Reading a Free Preview

Descarregar
scribd
/*********** DO NOT ALTER ANYTHING BELOW THIS LINE ! ************/ var s_code=s.t();if(s_code)document.write(s_code)//-->