6ª Edição Revisada e Ampliada
O Autor:
William Costa Rodrigues é Agrônomo, Doutor em Fitotecnia e PósDoutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de Ecologia1, Toxicologia1, Climatologia1, Estudos de Impacto Ambiental1, Estatística Aplicada2 e Auditoria Certificação Ambiental2, Metodologia da Pesquisa Científica2 na graduação e de Estatística Ambiental1 e Biondicadores Ambientais1 na especialização de Planejamento e Gestão Ambiental1, onde também é Supervisor Pedagógico. Atua como desenvolvedor de softwares agrícolas e Científicos. Coordenador Geral do projeto Entomologistas do Brasil (www.ebras.bio.br). Coordenador e autor de capítulos no livro Citricultura Fluminense: Principais pragas e seus inimigos naturais. Trabalha ativamente com análise estatística em projetos na área agrícola e ambiental. O autor poderá ser contatado através do e-mail: wcostarodrigues@yahoo.com.br.

Esta Obra:
A apostila Estatística Ambiental foi inicialmente utilizada no programa de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e no Curso de graduação em Gestão Ambiental, na disciplina Estatística Aplicada, tendo como objetivo informar o discente sobre os princípios básicos da estatística, relacionando-a com a metodologia científica, possibilitando um entendimento básico sobre o assunto. Hoje a apostila é também utilizada em cursos de graduação. Capa: Fotos do Autor na Ilha da Marambaia. Foto superior Casulo de Plecoptera e foto inferior, córrego onde ao casulo foi coletado.

Esta obra é distribuída através da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br

Copyright©2004-2008 Rodri Copyright©2004-2008, W.C. Rodrigues

1 2

Disciplina Ministrada na Universidade Severino Sombra Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental

Sumário
1 Introdução................................................................................................................. 1 1.1 Crescimento e Desenvolvimento da Estatística Moderna ................................ 1 1.2 Variação ao Acaso ............................................................................................ 1 Ensaio x Experimentação ......................................................................................... 2 Conceitos Estatísticos ............................................................................................... 2 3.1 Estatística Descritiva ........................................................................................ 2 3.2 Inferência Estatística......................................................................................... 2 3.3 Tipos de Dados ................................................................................................. 3 3.3.1 Variáveis Aleatórias Categorizadas.......................................................... 3 3.3.2 Variáveis Aleatórias Numéricas ............................................................... 3 Por que Utilizar a Estatística .................................................................................... 4 Planejamento Experimental...................................................................................... 4 5.1 Fases do Planejamento ..................................................................................... 4 5.1.1 Problema................................................................................................... 5 5.1.2 Informações Existentes............................................................................. 5 5.1.3 Noções Gerais Sobre Hipótese ................................................................. 5 5.1.4 Formulação das Hipóteses ........................................................................ 6 5.1.4.1 Elaborando as hipóteses........................................................................ 6 5.1.4.2 Hipótese Estatística x Hipótese Científica ........................................... 6 5.1.5 Testando as Hipóteses .............................................................................. 6 5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses ..................... 6 5.1.7 Aleatorização ............................................................................................ 7 5.2 Erros de Observações ....................................................................................... 7 5.2.1 Erros do Observador................................................................................. 7 5.2.2 Erro do Método de Observação ................................................................ 8 5.2.3 Por Falta de Resposta ............................................................................... 8 5.3 Controle dos Erros nas Observações ................................................................ 8 5.4 Métodos de Coleta de Dados ............................................................................ 8 5.4.1 Fontes Primárias ....................................................................................... 8 5.4.2 Fontes Secundárias ................................................................................... 8 5.5 Pesquisa Observacional .................................................................................... 9 5.6 Pesquisa Experimental...................................................................................... 9 5.6.1 Princípios da Experimentação ................................................................ 10 5.7 Tipos de Amostras .......................................................................................... 10 5.7.1 Amostras Simples ao Acaso ................................................................... 10 5.7.2 Amostra Estratificada ............................................................................. 11 5.7.3 Amostra Sistemática ............................................................................... 11 5.7.4 Amostra por Área ................................................................................... 11 5.7.5 Amostra por Conglomeradas .................................................................. 11 5.7.6 Amostra Selecionada .............................................................................. 11 5.8 Determinação do Tamanho da Amostra ......................................................... 12 5.8.1 Tamanho da Amostra para Dados Discretos .......................................... 12 5.8.2 Tamanho da Amostra para Dados Contínuos ......................................... 13 Técnicas Estatísticas Para Análise de dados .......................................................... 14 6.1 Medidas de Tendência Central ....................................................................... 14 6.1.1 Média Aritmética Simples ( X ) .............................................................. 14 6.1.2 Média Aritmética Ponderada .................................................................. 14 6.1.3 Média Aritmética de Dados Agrupados em Intervalos .......................... 15

2 3

4 5

6

6.1.4 Mediana (Me) ......................................................................................... 16 6.2 Medidas de Variação ...................................................................................... 17 6.2.1 Desvio-Médio (DM) ............................................................................... 17 6.2.2 Desvio Padrão......................................................................................... 17 6.3 Variância ou Quadrado Médio ....................................................................... 18 6.4 Erro-Padrão da Média - s(x) ........................................................................... 19 6.5 Coeficiente de Variação.................................................................................. 19 6.6 Curva de Distribuição Normal........................................................................ 19 6.6.1 Limites de Confiança.............................................................................. 21 6.6.2 Erro Padrão ............................................................................................. 22 6.7 Teste de Normalidade dos Dados ................................................................... 22 6.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 22 6.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 22 7 Testes Paramétricos e Não Paramétricos................................................................ 23 7.1 Teste t - Student.............................................................................................. 23 7.1.1 Dados Pareados (Amostras Dependentes).............................................. 24 7.1.2 Dados Pareados (Amostras Independentes) ........................................... 25 7.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)........... 26 7.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas) ................. 27 7.2 Teste Qui-Quadrado (χ²) ................................................................................ 28 7.3 Tabela de Contingência .................................................................................. 28 7.4 Teste de Kruskal-Wallis ................................................................................. 29 7.5 Teste de Friedman (Análise da Variância) ..................................................... 31 8 Correlação Linear ................................................................................................... 32 8.1 Coeficiente de Correlação (r) ......................................................................... 32 8.1.1 Correlação de Pearson ............................................................................ 32 8.1.2 Correlação de Spearman......................................................................... 32 8.1.3 Aspectos Gerais da Correlação Linear ................................................... 33 8.2 Coeficiente de Determinação (r²) ................................................................... 34 8.3 Coeficiente de Alienação (K) ......................................................................... 34 8.4 Significância do Teste de Correlação ............................................................. 34 8.4.1 Significância Baseada nos Intervalos ..................................................... 34 8.4.2 Significância Baseada no Teste t para r (Pearson) ................................. 35 9 Análise de Regressão.............................................................................................. 35 9.1 Regressão Linear Simples .............................................................................. 36 9.2 Regressão Linear Múltipla.............................................................................. 36 9.3 Regressão Múltipla ......................................................................................... 37 10 Transformação de Dados .................................................................................... 37 10.1 Raiz Quadrada ................................................................................................ 38 10.2 Transformação Logarítimica .......................................................................... 38 10.3 Transformação Angular (Arcoseno)............................................................... 38 10.4 Considerações Gerais ..................................................................................... 38 11 Testes Específicos Para Análise de Populações e Comunidades ....................... 38 11.1 Índice de Diversidade e Dominância Populacional........................................ 38 11.1.1 Índice de Margalef (α)............................................................................ 39 11.1.2 Índice de Glason (Dg) ............................................................................. 39 11.1.3 Índice de Menhinick (Dm) ...................................................................... 39 11.1.4 Índice de Shanon-Wiener (H') ................................................................ 39 11.1.5 Índice de Dominância Berger-Parker (d)................................................ 39 11.2 Exemplo.......................................................................................................... 39

11.3 Índice de Similaridade entre Populações........................................................ 40 11.3.1 Quociente de Similaridade...................................................................... 40 11.3.2 Porcentagem de Similaridade ................................................................. 40 11.3.3 Índice de Afinidade ................................................................................ 41 11.3.4 Constância .............................................................................................. 41 11.3.5 Índice de Associação (IA) ...................................................................... 41 12 Bibliografia......................................................................................................... 42 13 Anexos ................................................................................................................ 43

............................................. em mg............................................................................ Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata........................... 1999)....05 a 0...... 47 Tabela 15.... 25 Tabela 4...... 34 Tabela 8.................. 33 Tabela 6........................................................ 31 Tabela 5................. ................ . Correlação de Spearman entre as notas brutas de matemática e biologia (Zar.Índice de Tabelas Tabela 1....................... Valores de t -student em níveis de 5% e 1% (α=0......................... no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues................................ ................................. .... Aphididae) em função da brotação foliar de tangerina cv Poncã..................5% (Southwood....... em quatro diferentes profundidades.... Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios).......................................... 46 Tabela 14................... Exemplo para o Microsoft Excel....................................... 35 Tabela 9..... Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo. 48 . numa área de re-vegetação (dados fictícios)........................ 2004)................... 44 Tabela 12........................mm³ de β solo ..........05 a 0........ . ..................... Valores críticos para o Coeficiente de Correlação de Spearman (rs)...........................01) de α probabilidade...................... 1971)............................. 24 Tabela 3.. 34 Tabela 7.................... Classificação do valor r através de intervalos de acordo com e Teste de Rugg............................................ Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis............................ 40 Tabela 11.... significativos a 0....01) de α probabilidade .................................... Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0..................... Duas comunidades com sua composição de espécies em percentagem . Valores mínimos de j.......... 7 Tabela 2...... Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril................................................................................. Valores para transformação arcsen % .................. 40 Tabela 10................. Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera............ sob cultivo orgânico na Fazendinha Agroecológica......................... ........... 45 Tabela 13............ Índices de diversidade de cochonilhas em agroecossiema cítrico............... (dados fictícios).................................. Classificação do valor r através de intervalos de 0 a 1...............

........... ................ na Fazendinha Agroecológica. Correlação múltipla da amplitude térmica (variável x).............................................................. na Fazendinha Agroecológica........ em cultivo orgânico de tangerina cv.... As áreas sob a curva assinaladas entre os traços verticais...... aurantii e a brotação foliar de tangerina cv...... Interpretação dos dados experimentais.............. 2004)............................ Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ.................................... Poncã. desvios padrões (s) diferentes. sob a curva.................... 43 ................. O gráfico à esquerda...... baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B)..... em que foram registrados outros valores intermediários (definidos pelos pontos B e C)............. 20 Figura 5............................................ .. aurantii e a brotação foliar de tangerina cv............. 33 Figura 9........................................ mostra que a relação entre X e Y obedece a uma lei mais completa.................... Poncã..... Regressão múltipla entre a flutuação populacional de T.................. 2004)...... Fluxograma Para Auxiliar na Escolha de Testes Estatísticos .................. Correlação linear simples positiva (A).. Diagrama de tipos de dados . apresentando a linha de tendência de regressão linear simples de dados fictícios....... no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues......................... ....... .. na Fazendinha Agroecológica................................................................ tendo por parâmetros µ=0 e s= 1..... em cultivo orgânico de tangerina cv...................................... onde µ é a média e s o desvio padrão................. indicam as percentagens de valores de X aí contidas.......... no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues............................ Curvas de distribuição normal das freqüências de X............. 36 Figura 10................. 2004).. isto é.. brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z)......... 4 Figura 3..... Poncã... com seus diversos níveis de categorias........... medidos em unidades de desvio-padrão.......... 20 Figura 6............ situada à esquerda de C. 10 Figura 4........ Poncã. 36 Figura 11.......... 3 Figura 2. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues.. e inversa ou negativa (B).................... Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel............Índice de Figuras Figura 1................. parece sugerir que Y cresce à medida que X cresce............. entretanto no gráfico à direita............ tendo a mesma média (µ) µ e diferentes graus de dispersão dos valores de X............. 21 Figura 7.... Regressão linear simples entre a flutuação populacional de T..... Curva de distribuição normal simétrica........ 22 Figura 8...... 37 Figura 13...... Poncã......... Curva normal padrão...... em cultivo orgânico de tangerina cv.. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área.... 37 Figura 12........ Diagrama de uma estatística descritiva........

e mesmo pela utilização dos resultados e pesquisas feitas por aqueles que a isso se dediquem. quando seu salário aumenta. aferição do aparelho utilizado para mensurar.Apostila de Estatística Aplicada 1 1 Introdução Diariamente estamos envolvidos em análises estatísticas. . Na área ambiental. variação no horário de coleta dos dados. variação nos intervalos de amostragem. De fato. quando você é abordado na rua para responder qual o candidato irá votar na próxima eleição. o estudo da estatística justifica-se pela necessidade de desenvolver pesquisas. em dias diferentes. se a avaliação for. etc. quando o IBGE faz uma visita a sua casa para o censo. sempre presentes. em todos os dados obtidos. os resultados obtidos. Durante as civilizações egípcias. Bom.2 Variação ao Acaso O que dificulta ao trabalho de pesquisador e exige a análise estatística é a presença. pois o principal objetivo desta ferramenta é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor indicar o caminho para uma tomada de decisão. avaliando o crescimento populacional e a distribuição desta população no território nacional entre outros aspectos avaliados. poderá haver. uma interferência da luz solar. e mesmo pela utilização dos resultados e pesquisas feitas. como parte da matemática aplicada. da análise e da interpretação de dados observados. Assim. Isso levou ao desenvolvimento de computadores mainframe e finalmente a revolução dos computadores pessoais. 1. faz parte também. mas não é só desta forma que você faz parte do infinito mundo da estatística. o crescimento e o desenvolvimento da estatística moderna podem ser relacionados a três fatores isolados – a necessidade dos governos de coletar dados dos cidadãos. você está fazendo parte da estatística. realizar experimentos. grega e romana. que irá interferir na distinção das cores. Na Idade Média. Eles são indicados pela designação geral de variação do acaso ou variação aleatória. Estudando os mais variados fenômenos das diversas áreas do conhecimento. No Brasil o censo é realizado a cada 10 anos. realizar experimentos. A estatística. a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de equipamentos de tabulação no início do século XX. eu disse quase tudo. ao comparar no campo duas paisagens. por exemplo. podemos empregar a estatística. podemos ver que em quase tudo. está fazendo parte da estatística. morte e casamentos. ela representa um valioso instrumento de trabalho nos dias de hoje.1 Crescimento e Desenvolvimento da Estatística Moderna Historicamente. o desenvolvimento da teoria da probabilidade e o advento da informática. os dados eram obtidos principalmente com o objetivo de recolherem impostos e para o recenseamento militar. Quando você está desempregado ou empregado. de efeitos fatores não controlados (que podem ser controlados). seja por exigências do próprio desenvolvimento do país. não podem ser conhecidos individualmente e alteram pouco ou muito. obviamente que não podemos deixar a estatística dominar nossas vidas. As variações ao acaso podem ser exemplificadas como: temperatura ambiente. seja visando o aprimoramento de métodos e técnicas de investigação. Desta forma. Foram levantados dados através dos registros históricos. Esses efeitos. 1. trata da coleta. as instituições religiosas freqüentemente mantinham registros relativos a nascimentos. O efeito dessa variação do acaso é tal que pode alterar completamente os resultados experimentais.

não havendo rigor. O número de amostra deverá ser suficiente para avaliar os dados com a maior precisão possível O tamanho do experimento deverá ser suficiente para avaliar os dados. A análise e interpretação dos dados deverão ser rigorosas e adequadas ao tipo de experimentação realizada. As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a forma de apresentação dos dados. 3 Conceitos Estatísticos 3. Experimentação O tempo de avaliação deverá ser o suficiente para que os dados coletado possam garantir uma avaliação. Abaixo no Quadro 1 são listadas as diferenças entre os dois métodos. . As variações ao acaso são parcialmente controlados. O número de amostras é reduzido. que levou à ampla aplicação da estatística em todos os campos de pesquisas atuais. Diferenças entre Ensaio e Experimentação. Um parâmetro é a medida calculada para descrever uma característica de toda uma população. número de amostragens realizadas. Uma amostra é a parte da população selecionada para análise. número de amostras. objetivando somente uma pré-avaliação dos resultados. a apresentação e a caracterização de um conjunto de dados de modo a descrever apropriadamente as várias características deste conjunto. com margem de erro menor possível. 3. possibilitando assim menor erro amostral e na análise estatística. como um produto de teoria da probabilidade. Quadro 1. Ensaio Tempo de duração da avaliação é curta. O tamanho do experimento é reduzido. As variações ao acaso são controladas com rigor. foi o desenvolvimento de métodos estatísticos de inferência. as definições seguintes são necessárias: Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado. Para tornar mais claro esta definição. etc.William Costa Rodrigues 2 2 Ensaio x Experimentação Existem diferenças básicas entre os dois métodos de avaliar um dado científico. Uma estatística é a medida calculada para descrever uma característica de apenas uma amostra da população. A análise e interpretação dos dados não podem possuir muito rigor e deve se adequar ao tipo de ensaio realizado.2 Inferência Estatística Pode ser definida como os métodos que tornam possível a estimativa de uma característica de uma população ou a tomada de uma decisão referente à população com base somente em resultados de amostras (Figura 1).1 Estatística Descritiva Pode ser definida como os métodos que envolvem a coleta. Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização dos dados.

com seus diversos níveis de categorias.Apostila de Estatística Aplicada 3 Para melhor elucidar estes conceitos. ou por elementos coletivos. ou universo. ou das pessoas que habitam uma casa. é geralmente dispendioso demais. 3. podendo ser números discretos ou contínuos. sendo a população a fonte de observações. enquanto a amostra consistirá os estudantes selecionados para participar da pesquisa.3 Tipos de Dados Existem basicamente dois tipos de dados de características de variáveis aleatórias que podem ser estudadas e que produzem os resultados ou os dados observados: categorizados ou numéricos (Figura 2).3. a resposta é discreta. das famílias. um aspecto principal da inferência é o processo que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população. A amostra pode ser definida também como o conjunto de observações extraídas de uma fonte (população). O objetivo da pesquisa é descrever várias atitudes ou características de toda a população (os parâmetros). . digamos que há uma necessidade de saber a opinião da qualidade de vida no campus de sua faculdade. A população pode ser constituída de elementos simples.1 Variáveis Aleatórias Categorizadas Este tipo de variável produz respostas categorizadas. Isto seria alcançado utilizando-se as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características de interesse da população. Decisões pertinentes às características da população devem ser baseadas na informação contida numa amostra da população. consome muito tempo e é muito cansativo obter informações sobre a população inteira. Quando a população se torna grande. carro? 3. Por exemplo. enquanto a reposta para "Qual a sua altura?". Desse modo. segundo determinadas regras e critérios. População/Universo Amostra Parâmetro Estatística Figura 1. é contínua. será todos os alunos da faculdade. como é o caso das irmandades com mais de um indivíduo. A necessidade da inferência estatística deriva da necessidade da amostragem. 3.3.2 Variáveis Aleatórias Numéricas Produz respostas numéricas. A resposta para pergunta: "Quantos livros você possui?". Diagrama de uma estatística descritiva. você tem Sim Não. como é o caso dos seres humanos ou das plantas superiores ou das bactérias. A população.

.1 Fases do Planejamento Quando realizamos um estudo. Diagrama de tipos de dados 4 Por que Utilizar a Estatística A Estatística é uma área da matemática muito utilizada hoje em dia. Em suma. pois os dados poderão apresentar falhas ou nada representaram para o estudo do problema ou para a elaboração das hipóteses a serem formuladas. Em seguida. quanto para aleatórias numéricas (discretas e contínuas). caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático e tomar a decisão. segue exemplos de variáveis tanto para aleatórias categorizadas. "uma área será condenada por poluição de metais pesado no solo". Se houver alguma informação que possa auxiliar como ponto de partida. diremos que os dados selecionados devem ser os estritamente necessários. Estas informações deverão ser avaliadas e criticadas. entretanto o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos resultados e levam-na ao descrédito. por exemplo. esta poderá fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar nossa experiência. Na Figura 2. 5 Planejamento Experimental 5. traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização. O que pode ocorrer é que a estatística irá indicar uma diferença numérica. A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpretação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recusá-la. primeiro consideramos sua importância.William Costa Rodrigues 4 Dados discretos são respostas numéricas que surgem a partir de processo de contagem e dados contínuos são repostas numéricas que surgem a partir de um processo de medição. Desta forma devemos ter muito cuidado ao utilizar à estatística. como a ferramenta que irá dizer se.75m Figura 2. Tipos de Dados Categorizadas Numéricas Discretas Você possui carro? Quantas revistas você assina? Contínuas Qual sua altura? Sim Não 5 1.

1. é a variável dependente. A variável X. é chamada variável independente. mantém-se a hipótese como boa. pois provavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os aspectos da biodiversidade ou da poluição. Na prática. Enquanto não se possa demonstrar que ela é incorreta. enquanto Y. ou alterações dos valores de Y quando varia X. como observar e medir seus valores e como analisar as relações qualitativas e quantitativas que possam existir entre eles (ver item Pesquisa Observacional. resultado de um raciocínio indutivo (consciente ou subconsciente). o que nos levaria a rejeitá-la e a formular outra. guardam entre si relações de causa e efeito (direta ou indiretamente). podemos encontrar duas situações.2 Informações Existentes Antes de empreender o experimento. O planejamento de pesquisa consiste. que se supõe depender de X. 5. 5. . É importante também especificar sua extensão. ou de experimentação. na elaboração de um plano de observação.1 Problema Ao planejar o problema que se vai pesquisar. Por sua vez. A outra seria a interdependência das duas variáveis.Apostila de Estatística Aplicada 5 5. limitando-se o estudo científico à observação de como X e Y se apresentam espontaneamente. destinado a contestar determinada hipótese. essas conseqüências e previsões serão testadas. O que se faz é verificar se ela não seria falsa. Será impossível o planejamento das etapas subseqüentes se não ficar claramente evidenciado o problema a investigar. teremos de montar uma observação ou uma experiência em que se possa verificar o aparecimento de Y quando ocorre X. portanto. com a finalidade de saber o que já se conhece sobre o assunto. o que se tem em vista é verificar uma relação de causa e efeito: queremos saber se a variável X e a variável Y. Não basta.1. Muitas vezes. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para o estudo. de tal forma que se possa demonstrar a existência de uma relação constante entre os valores de X e Y. Determinação do(s) objetivo(s) e finalidade da investigação. A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à da pesquisa. Do ponto de vista operacional. deverá ser dada especial atenção aos seguintes pontos: Definição da importância do problema que se estuda. Uma própria de fenômenos sobre os quais não podemos influir nem exercer qualquer controle. Sabemos que a veracidade de uma hipótese nunca pode ser demonstrada ou provada definitivamente. requer demonstração ou prova de sua adequação. dizer que se vai estudar a biodiversidade da floresta atlântica. por exemplo. A estratégia para isso depende da natureza do problema em causa. para ver se a hipótese adotada ainda se mantém ou não.3 Noções Gerais Sobre Hipótese A hipótese. então. peculiares a determinado fenômeno. 9). o pesquisador deve revisar tudo o que diz respeito ao fato em estudo. Dela deduzimos as conseqüências ou fazemos previsões. o efeito da poluição do rio Paraíba do Sul.1. p. Definir a importância do problema que se estuda é explicar o que vamos estudar. por mais justa e sólida que possa parecer. se necessário. que precede a outra.

. testa duas hipóteses. porém a resposta para entendimento dos resultados. efeito antrôpico.6 Riscos na Tomada de Decisão Através Teste de Hipóteses Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da população. existe um risco de se chegar a uma conclusão incorreta. que não o permite avaliar variáveis complexas e multáveis (clima.). X n 5. Na verdade.1.2 Hipótese Estatística x Hipótese Científica A hipótese estatística testa somente os dados numéricos obtidos através de um modelo matemático fixo e contendo restrições. As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese científica. X n Já a hipótese alternativa. que serão visto no item Técnicas Estatísticas Para Análise de dados.. dois tipos de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses: Um erro do tipo I ocorre se a hipótese nula H0 for rejeitada quando de fato é verdadeira e não deveria ser rejeitada. Normalmente testa-se através de modelos matemáticos. A hipótese nula admite que os resultados sejam iguais ou com diferenças aleatórias entre os tratamentos..1 Elaborando as hipóteses O pressuposto a hipótese estatística é sempre testar a nulidade dos dados. Já a H1. A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela. seja ela: biológica. Um erro do tipo II ocorre se a hipótese nula H0 for rejeitada quando de fato é falsa e não deveria ser rejeitada. etc.1. 5. 5.4 Formulação das Hipóteses A estatística.1. que se dividem basicamente em Teste Paramétricos e Não Paramétricos. p. nas proporções utilizadas.1. A H0 deverá ser a seguinte: As substâncias possuem a mesma capacidade de reação.5 Testando as Hipóteses Existem várias formas de testar as hipóteses elaboradas. H 0 : X1 = X 2 = X 3 = . mas pela descrição do fato. etc.. que geralmente são denominadas de H0 ou Hipótese nula e H1 ou Hipótese alternativa. Desta forma. testa a falta de nulidade ou falta de diferenças aleatórias entre os tratamentos. Por exemplo. que são denominados testes estatísticos.William Costa Rodrigues 6 5. não será somente baseada em um modelo matemático. somada com uma facilidade de concluir de acordo não somente pelos números. será As substâncias não possuem a mesma capacidade de reação.4.1. social.4. H a : X1 ≠ X 2 ≠ X 3 ≠ . valerá além da experiência do pesquisador. uma boa revisão bibliográfica e uma interpretação imparcial dos dados. 5. em um experimente está sendo testada a capacidade de duas substâncias possuírem o mesmo poder de reação química. 14..

o excesso de trabalho.7 Aleatorização Na oportunidade em que organizamos os ensaios devemos proporcionar condições idênticas para cada tratamento. e sim cometida por quem procedeu à leitura do material fotográfico. . poderíamos citar a experiência de que participaram cinco técnicos especializados em análise de foto aérea (foto interpretação). Com este processo o erro experimental poderá ser mensurado através do modelo matemático utilizado para analisar os dados. Através da observação ou coleta de dados. As fotos foram interpretadas separadamente por cada técnico conforme a Tabela 1.1.2. possibilitando que se houver algum erro este seja atribuído ao acaso. Como exemplo.1 Erros do Observador O grau de treinamento dos observadores. seu estado físico e condições ambientais podem ser as principais causas de erros das observações. Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata. Tabela 1.Apostila de Estatística Aplicada 7 5. seja por falha no aparelho utilizado ou pela desatenção do observador. não tendencioso. o modelo matemático poderá não prevê erro tão grande. tais discordâncias não refletem uma variação real. com a finalidade de verificar a degradação ambiental acentuada das áreas fotografadas. (dados fictícios) Observador A B C D E Fotos onde a degradação foi considerada positiva (nº) 1ª leitura 2ª leitura 118 139 69 78 83 88 96 89 106 92 Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes observadores coincidiram quanto ao número de fotos consideradas positivas para o referido diagnóstico. haverá sempre uma discrepância entre as amostragens realizadas.2 Erros de Observações Quanto aos componentes de uma população. o pesquisador terá a oportunidade de verificar a existência de diferenças entre os mesmos. São os erros experimentais oriundos de fatores que não podem ser controlados. 5. forem muito discrepantes. O mesmo foi verificado em relação a cada um dos observadores que apresentaram resultados diferentes entre as duas leituras. ou seja. Entretanto se estes erros forem muito distantes. 5. Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro experimental possível. ou seja. as mesmas 500 fotos. que examinaram em épocas separadas por um período de dois meses. Erros cometidos pelo observador deverão ser considerados no modelo matemático escolhido para análise dos dados. Devemos concluir que.

pois irão permitir uma flexibilidade de estimar o dado faltoso. Ele ocorrerá se não houver a possibilidade de obter. Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de um determinado córrego.3 Por Falta de Resposta Este tipo de erro poderá ou não ocorrer no experimento. pelo simples fato. assim não poderá o observador coletar em outro ponto. o erro por falta de resposta ocorrerá através da perda de uma parcela. É óbvio que a qualidade deverá ser .2.2 Erro do Método de Observação Os métodos de observação possuem erros mais ou menos importantes. houve uma seca muito intensa secando a água no ponto de coleta pré-determinado.4.William Costa Rodrigues 8 5.4 Métodos de Coleta de Dados Embora a maioria das experimentações as informações devam ser retiradas diretamente no "campo". Por exemplo. A coleta esta sendo realizada no campo. podemos utilizá-las. estes poderão ser reduzidos ou eliminados de acordo com as coisas que os determinam. No primeiro caso. não sendo utilizados dados previamente coletados por outro pesquisador. assim como por uma melhoria das condições físicas e de trabalho.2. consideramos que a informação foi recolhida de fonte primária e no segundo caso dizemos que a fonte é secundária. na coleta de informações a respeito da poluição de um determinado córrego. 5. Por isso há uma preocupação natural de todo pesquisador em aperfeiçoá-los ou substituí-los por outros métodos mais eficientes a fim de aumentar a exatidão dos resultados. 5.4. Qualquer que seja a causa dos erros anteriormente abordados. o dado que irá compor o conjunto de informações a serem analisadas. 5. já que a metodologia previu que aquele era o ponto a ser amostrado.3 Controle dos Erros nas Observações Apesar da distinção que procuramos dar ás diferentes fontes de erros. 5. Os erros dependentes dos observadores podem ser minimizados por uma preparação e por um treinamento mais eficientes. Em experimento. Os modelos matemáticos que prevêem erros por falta de resposta são apropriados. 5. que constituem blocos e parcelas. da coleta dos dados ter sido realizada por outra pessoa. devemos ir a acampo para obtê-lo. Este tipo de fonte é chamado secundário. Devemos lembrar que eles são bastante independentes.2 Fontes Secundárias Quando as informações que nos interessa já foram coletadas por outro pesquisador. Os erros causados pelos métodos de observação podem ser reduzidos selecionando-se o funcionamento dos aparelhos utilizados.1 Fontes Primárias Quando não há informações dos dados que queremos estudar. Cada método em particular pode ter uma série de fatores que conduzem à distorção dos resultados. desta forma. dentro da metodologia. assim a metodologia deverá prever a coleta de dados na fonte primária. em muitas ocasiões podem-se aproveitar dados previamente obtidos por outras pessoas. houve um erro por falta de resposta.

(Figura 3). apenas duas condições da variável são testadas (por exemplo: duas temperaturas. Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. por exemplo. corresponderiam às variáveis dependentes. objetivo e imparcial. A observação deve ser inteligente e sagaz. Então a observação científica adquire grande importância e deve ser feita com o máximo de cuidado. torna-se em geral necessário experimentar três ou mais valores de variável independente.6 Pesquisa Experimental A experimentação ou experimento ou simplesmente experimento é um método científico e de observação dos fatos ou fenômenos naturais. sobre um atributo do organismo ou material que é objeto da pesquisa. são geralmente denominadas variáveis independentes. completa. para que se possa apreciar seu efeito e estabelecer a lei do fenômeno. sob condições particulares estabelecidas pelo pesquisador. a administração ou não de um medicamento. Em experiências mais simples. de modo permitir clara distinção entre os fatos que são relevantes. Teorias tão fundamentais como a da evolução forma estabelecidas com base exclusiva na observação da natureza. como a resposta do organismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator ensaiado. Sempre que possível.Y). etc. Exige que o pesquisador seja curioso. . Darwin buscou correlacionar as características próprias das espécies com as condições do meio em que vivia cada uma delas. porém analítica. no atributo. que o pesquisador seleciona ou manipula na experiência. a experimentação deve permitir comparar o efeito de suas ou mais condições ou tratamentos. os métodos experimentais podem ser difíceis ou mesmo impossíveis de aplicar. repetidas e quantificadas.). e os inúmeros outros que se apresentam concomitantemente. paciente. A viagem de Darwin ao redor do mundo permitiulhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada por Lamarck. bem definidos. 5. Suas observações sobre as relações entre organismos e o meio contribuíram decisivamente para a criação da ecologia. de idéias fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente. Por vezes.5 Pesquisa Observacional Em certos campos da biologia e das ciências sociais. a presença ou a ausência de luz. para saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder. precisa e metódica. na praticam a validade de suas bases. as observações devem ser corretamente registradas. As condições. os valores de uma variável independente (eixo das abscissas . Em sua essência. capaz de com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais. para o estudo em causa. além do que. 5. Mas. Assim. Deve ser persistente. são as variáveis independentes. Por isso deve ser atenta. devemos verificar a metodologia utilizada.X). duas concentrações de uma substância. são confrontados com os dados da variável dependente (eixo das ordenadas . enquanto que as mudanças observadas em conseqüência. partindo-se de medidas rigorosas que permitam a análise estatística dos dados. e o crescimento em peso ou altura. em estudos de dietas ou os alimentos administrados seriam as variáveis independentes.Apostila de Estatística Aplicada 9 levada em consideração. portanto.

O controle das variáveis aleatórias (chuva. Amostragens regulares. isto é. caso não seja possível.William Costa Rodrigues 10 30 25 20 Y 15 10 5 A X B A Y B 35 30 25 20 15 10 5 A B X C D A B D C Figura 3. b. deverá ser controlado. caso a área experimental não apresente uniformidade. O gráfico à esquerda. Os princípios básicos da experimentação científica são: a. pois permitem uma melhor análise dos dados. mostra que a relação entre X e Y obedece a uma lei mais completa. Assim as parcelas dos tratamentos deverão ser distribuídas ao acaso pelo experimento. recomenda-se que o efeito seja igual para todos os tratamentos ou itens testados. . c. variância próxima ou igual à média. efeito antrópico. entretanto no gráfico à direita. em que foram registrados outros valores intermediários (definidos pelos pontos B e C). etc. para que os resultados possam levar o pesquisador a uma resposta coerente e segura. esta deverá ser experimentada antes de ser utilizada na experimentação. e.7 Tipos de Amostras 5.7. pois permite que o experimento possa ser regido por efeitos gerais a todos os experimentos. Caso a técnica a ser utilizada seja original. pouca variação no conjunto dos elementos. quando possíveis. para assegurar que a resposta não foi obtida por mera casualidade e sim por inerência do tratamento. g. ou seja. encontra para estimar os dados da pesquisa que irá realizar. Certificação de que as pessoas envolvidas na experimentação possuam treinamento e conhecimento a cerca do modelo estatístico e da metodologia a ser empregada. vento. Emprega-se este processo. A casualização é um princípio fundamental. A experimentação deverá ter impreterivelmente repetições.). 5. d. parece sugerir que Y cresce à medida que X cresce. Interpretação dos dados experimentais. h.1 Amostras Simples ao Acaso Um dos métodos mais usados. ou seja.6. O experimento deverá ser realizado de acordo com uma técnica já conhecida e testada. quando dispomos de uma população que apresenta características homogêneas. seja na área científica ou social. 5. temperatura.1 Princípios da Experimentação A experimentação é a forma que o pesquisador. Os modelos estatísticos a serem utilizados na experimentação deverão ser adequados ao que se pretende responder. baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B). deverá haver uma adequação da metodologia (objetivos) com o modelo. f.

sorteia-se um número da primeira dezena e. Após a determinação dos conglomerados da população.5 Amostra por Conglomeradas Visto que. utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco mais trabalhoso – ele redunda conseqüentemente em ganho de precisão. entre outras.Apostila de Estatística Aplicada 11 5. A população heterogênea é transformada em subpopulações homogêneas. compensado apenas pela diminuição das tarefas. Por exemplo. na área de saúde é comum a realização de pesquisas de que são selecionados os pacientes portadores de determinadas enfermidades. escolhem-se os demais.7. até obterem-se os 50 elementos que constituirão a amostra. para que. O tamanho da amostra será determinado em função da variância de característica a estudar em cada estrato. Poderia ser a doença de Parkinson. grande número de fatores ou variáveis que podem comprometer as conclusões se não eliminados. assim. isto é. Embora a subdivisão da população seja em estratos. Outros métodos de seleção poderão ser associados para determinação dos elementos de cada conglomerado para compor a fração amostral. em seguida. Portanto. só farão parte do estudo indivíduos portadores de enfermidade a ser pesquisada. pela estratificação. tuberculose. uma amostra estratificada proporcional. onde N = 500 e n = 50 dividem-se N por n. considerando que os mesmos apresentam pelo menos uma característica em comum.7.7. isto é.7. o que é. por exemplo. o terceiro será 25. 500 por 50. 5. Considera-se este tipo de amostra que possibilita maior precisão quanto aos resultados. 5. As unidades que comporão a amostra serão sorteadas em função das condições de variabilidade existentes.3 Amostra Sistemática Aplicada quando a população apresenta um número finito de elementos e os dados estão distribuídos aleatoriamente. obtendo-se 10. . através de um procedimento correto. de cada um.2 Amostra Estratificada Utilizada quando dispomos de informações de que a população apresenta características heterogêneas. ou então considerando o número de seus elementos e procedendo-se a um percentual de cada estrato. O número de elementos da amostra será obtido da seguinte forma: Numa população constituída por 500 elementos e a amostra por 50 elementos. 5. e assim por diante. A família poderá ser a unidade mais simples a ser pesquisada. a partir dele. Obtém-se. o uso de amostragem nos conduz a ganhar em precisão. Estas subpopulações têm nome de estratos. podendo a seqüência ser obtida através de sorteio de ruas e residências. cinco. no entanto. hepatite. observando-se que se o número sorteado for. 5.4 Amostra por Área Utiliza mapas geográficos de cidades e municípios. neste caso.6 Amostra Selecionada Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona para avaliar o perfil de seus componentes.7. o segundo deverá ser 15. sorteiam-se aleatoriamente os conglomerados que irão participar da amostra.

Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de confiança. que é. Z: nível e confiança. p + q = 100%. Dependendo do tipo de investigação. este valor é substituído na fórmula (1) por uma constante 1.1 Tamanho da Amostra para Dados Discretos Quando dispomos de variáveis discretas. referente à taxa de prevalência do fenômeno estudado na amostra observada. . arbitrada pelo pesquisador. Em outros casos. a priori. e por 2. entende-se que a amostra obtida apresentará um determinado valor para a taxa de prevalência de certo evento. o nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de diferença proposto. ora usamos a variância. Na população finita. ao apresentarmos um valor percentual. Esta diferença é conhecida como erro de amostragem. ou seja. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. a qual geralmente é arbitrada pelo pesquisador. observamos a percentagem de certas características em um conjunto. Nível de confiança (α). Variância ou porcentual. 2. utilizamos as seguintes fórmulas: n z2 × p × q (1) e n = 0 (2) n0 = 2 n (P − p ) 1+ 0 N Onde n0: número inicial. Na obtenção do tamanho amostral será importante esta informação.8. ou seja. podemos classificar em finitas e infinitas. Quanto ao número de elementos que compõe. Informação da literatura (p).William Costa Rodrigues 12 5. laboratório ou uma simples investigação. 5. a obtenção da amostra se torna menos complexa do que nos casos de populações infinitas de (N= 800.8 Determinação do Tamanho da Amostra É muito comum um pesquisador indagar qual o número de amostras a serem estabelecidas para uma determinada pesquisa de campo. p: valor obtido de trabalho anteriormente realizado. na literatura. Chamamos q o valor complementar de p para 100%. Erro de amostragem ou precisão.000). Os níveis de confiança propostos rotineiramente são de 95% e 99% de confiança.000. A determinação do tamanho da amostra depende de alguns fatores: 1. por exemplo. Em alguns casos são empregadas características que apresentam determinada variabilidade. Tamanho da população alvo. aquele valor tem.96. 3. (P-p): erro arbitrado pelo pesquisador. N= 3. resultados os quais utilizaremos quando da determinação do valor de n em relação ao valor de p.58 quando o nível de confiança é de 99%. 4. uma diferença. Simbolizado pela letra z. em relação ao valor percentual da população. 5. Deve-se imaginar que. Ao procedermos às técnicas de amostragem para determinação do tamanho da amostra (n). N tamanho da população. ora usamos a percentagem. quando o nível de confiança corresponde a 95%. Toda pesquisa a realizar em que investigamos a taxa de prevalência que fenômeno apresenta. q: 100%-p.

dispomos das seguintes fórmulas: n z 2 × S2 (1) e n = 0 (2) n0 = 2 n X−X 1+ 0 N ( ) Onde n0: número inicial. deste item. ( X X ): erro arbitrado pelo pesquisador.600 n0 = ∴ n0 = ∴3. Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos indivíduos de uma comunidade. cujo valor foi igual a 9mg2.8.0000 O número de indivíduos que deveríamos examinar para a determinação da prevalência é de 384 para uma população infinita e 380. S: desvio padrão obtido de trabalho anteriormente realizado. N: tamanho da população. 5.2 Tamanho da Amostra para Dados Contínuos Para variáveis quantitativas contínuas. Não sendo encontrado um desvio padrão em outro trabalho.84 × 1. e (P-p)= 4% 1.000 indivíduos. são utilizadas as fórmulas (1) e (2).84 × 100 = 384 2 4 16 384 384 n= ∴n = = 380. para uma população finita. procede-se a uma pré-amostragem.96. resolvemos determinar o número de elementos que comporão a amostra. p = 20%. q = 80%. apenas a fórmula (1) deve ser utilizada. retirando-se 30 observações da população e calculando-se o desvio padrão da característica a ser estudada. Considerando uma prevalência de anos anteriores igual a 20% com valor z = 1. o que torna impraticável utilizar todos os elementos.Apostila de Estatística Aplicada 13 Quando se trata de trabalho original e não se dispõe de nenhum valor usamos p=50%. deparamos com o problema de definir o tamanho da amostra.96 (α=5%) e sendo estabelecida um erro de 4%. Em populações finitas. a fórmula a empregar para determinação do tamanho da amostra será a fórmula 1 deste item.96 2 × 20 × 80 3. qual seria o número de elementos que a amostra deveria conter? A fórmula adequada para mensurar o tamanho da amostra é a equação 1. Apenas sabemos que a população desta comunidade é de aproximadamente de 25.0096 1+ 40. A utilização das fórmulas (1) e (2). determinamos o valor do teor de hemoglobina de cada um e calculamos a variância (medida de dispersão). Para tal estudo. Desta forma temos: Z = 1. desejamos determinar o tamanho da amostra. tem procedimento semelhante ao amostrado para variáveis discretas. Selecionamos ao acaso 30 elementos. X : média da população alvo. Exemplo: com a finalidade para verificar a incidência de doença de Chagas em uma população de certa região.35 384 1.000 pessoas. . sendo o tamanho da população igual a 40. Para populações infinitas e para as que N seja um valor muito elevado. z: nível de confiança. X : média da amostra. Face a isto.

25 0. A descrição desse conjunto de dados torna-se mais clara quando se obtêm medidas que resumem as informações necessárias.1 Medidas de Tendência Central Os fenômenos quando estudados estatisticamente.William Costa Rodrigues 14 A precisão considerada para esta pesquisa foi de 0. 6 Técnicas Estatísticas Para Análise de dados 6. mediana e moda.24 138. três medidas de tendência central: média aritmética (simples. 30.96 2 × 9 3. como tal.84 × 9 n0 = ∴n 0 = ∴n 0 = ∴ n 0 = 138.96.24 ≅ 138 2 0.5mg e o valor z= 1. Usam-se. 25.1. Permitem o confronto de dois ou mais grupos. ponderada. 30.1 Média Aritmética Simples ( X ) A media aritmética simples é a soma dos valores ou medidas. divididas pela quantidade destes. ∑ x : a soma das variáveis. de dados agrupados em intervalos). pode-se calcular a média aritmética ponderada. A importância das medidas de tendência central é dupla: Representam ou resumem todos os valores obtidos pelo grupo e. Sendo representado pela fórmula: ∑x X= n Onde X : representa a média. em geral. Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32. 32. 26. A forma de apresentação da distribuição de freqüência seria: .25 138. São. fornecem uma descrição precisa da execução do grupo como um todo.56 1. Essas medidas dão-nos o valor típico do conjunto de dados.2 Média Aritmética Ponderada Quando se tem uma séria de valores sucessivos com a respectiva distribuição de freqüência.1.24 1. 6. são traduzidos por um conjunto de dados numéricos. chamados medidas de tendência central.24 n= ∴n = ∴ n = 137. 26. ∑ x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33. por isso. e.2 10 6. 29 e 33. 29.48 ≅ 137 138. n = 10 292 X= ⇒ 29. e o n o números de indivíduos ou elementos.000 Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos será igual a 138 para populações infinitas e 137 para populações finitas. Substituindo na fórmula teremos: 34. Os valores típicos de um conjunto de dados tendem a se localizar no centro da série.0055 1+ 25.5 0.

. Neste caso.. fn A expressão da média ponderada será: ∑ xf = x 1f1 + x 2 f 2 + ..3 Média Aritmética de Dados Agrupados em Intervalos Há vezes em que os dados não são verificados com seu verdadeiro valor individual. Considerando que o intervalo não tem um valor definido e sim um conjunto de valores.0 15.f 10.1. operamos da mesma maneira do caso anterior. Por exemplo.5 17. Utilizaremos como representante o ponto médio de cada intervalo.. . Xn Freqüência f1 f2 . + 9 × 4 250 = = 5 anos 10 + 8 + .5 7.5 – Freqüência (f) 4 2 3 1 10 X.5 80. procede-se da seguinte forma: Idade (anos) Freqüência (f) 0 |– 5 4 5 |– 10 2 10 |– 15 3 15 |– 20 1 Idade (anos) 0 |– 5 5 |– 10 10 |– 15 15 |– 20 Σ Valor central (X) 2. mas são representados por uma classe que pode ter um determinado intervalo..Apostila de Estatística Aplicada 15 Variável X1 X2 . + f n Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada localidade.0 Aplicando a fórmula para calcular a média ponderada teremos: .. + 4 50 6..5 17..0 37. a distribuição de freqüência abaixo. .5 12. + x n f n X= n f 1 + f 2 + .. . Idade (anos) Freqüência 2 10 3 8 4 6 5 5 6 5 7 5 8 7 9 4 X= 2 × 10 + 3 × 8 + .

160. 2 2 para obter os dois valores centrais.500 E 200 F 160 G 250 H 170 Inicialmente ordenam-se os dados: 150. . é possível o uso da média aritmética. X= ∑ xf ∴ 80 = 8 anos 6. que tem como: Vantagens: o Ser fácil de calcular e entender. de forma crescente. o Não expressar variações dentro da distribuição de dados. portanto o valor médio destes dois valores é igual a 190.1. quando alguns valores são elevados ou baixos em relação aos demais. Tendo verificado o seguinte quadro: Escola Nº de alunos A 150 B 180 C 230 D 2. Exemplo: a) Em determinada localidade foram selecionadas oito escolas. A distribuição tem. que corresponde à mediana. Quando os dados apresentam homogeneidade. Para o cálculo da mediana devemos previamente realizar alguns ajustes aos dados como segue: Ordenam-se todos os valores. 170. n +1 Localiza-se o valor central mediante a fórmula: . 200. A mediana é especialmente útil quando se trata de séries assimétricas. 250 e 2. com a finalidade de estimar a mediana referente ao número de alunos. o 2 2 que corresponde à média dos valores centrais. Determina-se o total de valores (n). portanto.4 Mediana (Me) É um valor situado no centro da distribuição de freqüências. Desvantagens: o Não servir para séries variáveis assimétricas. 180.William Costa Rodrigues 16 n 10 Desta forma a média da população avaliada é oito anos. o Unir em um valor todas as observações do conjunto. quando o número de observações é par.500. isto é. n n Como o número de observações é par utilizam-se as duas fórmulas e + 1 . quando o número de ob2 n n servações (n) for ímpar e e + 1 . Assim os valores centrais para este conjunto de dados são 180 (4º) e 200 (5º). Me= 190 alunos. A mediana não é influenciada pela magnitude de cada uma dessas séries. como objetivo encontrar um valor que permita conter 50% dos dados acima deste valor e 50% abaixo.

14 e 25 2 + 5 + 9 + 11 + 14 + 25 66 X= ∴X = = 11 6 6 D. 52 e 95. O desvio padrão é o afastamento atribuído ao acaso.2 Medidas de Variação 6. para encontra o valor central. = 34 6 ∴ D. em populações finitas. = 2 . o erro amostral. Para um conjunto de observações: 2.Apostila de Estatística Aplicada 17 b) Em coletas de amostra de solo em cinco cidades. Me= 48 amostras poluídas 6. 48. 2 o valor central é 48. O Desvio padrão estimado (s) é utilizado em populações infinitas. 46. ou seja.M. Como o número de obsern +1 vações é ímpar utilizaremos a fórmula .11 + 9 .2. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula: s= ∑x 2 (∑ x ) − n 2 n −1 Onde: x: valores do conjunto de dados. já o σ (desvio padrão absoluto ou verdadeiro) é calculado para populações com valor n.2 Desvio Padrão Existem dois tipos de desvio padrão.11 + 11 . Σ: somatório. 5.1 Desvio-Médio (DM) Considerado que num conjunto de dados cada valor apresenta um afastamento em relação à média. 5.M.11 + 14 . bem conhecido. Desta forma. conforme o quadro a seguir: Municípios Amostras Poluídas A 48 B 42 C 52 D 95 E 46 Após ordenar os dados teremos: 42. Este erro refere-se à diferença do valor s calculado e a média aritmética.11 + 5 . levando-se em conta os valores absolutos desses desvios.M. onde não se conhece com precisão o valor absoluto de n. 14 e 25 Σx= 2+ 5 + 9 + 11 + 14 + 25 = 66 . 9. = 5.11 6 ∴ D. Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2.11 + 25 . foram verificadas amostras poluídas com metais pesados. 11. que corresponde ao valor da mediana. ou seja.M. O desvio-médio será a média aritmética destes afastamentos. = 9 + 6 + 2 + 0 + 3 + 14 6 6.6 D. 9. ou seja.2. e n: número de observações. 11. o chamado desvio padrão estimado ou s e o desvio padrão absoluto ou σ. que o conjunto de dados contém.

356 1.052 n=6 66 2 4. ou o valor do desvio padrão populacional. o grau de liberdade. Desta forma lança-se mão de um novo quadro de dados para facilitar os cálculos x f fx fx² 2 2 4 8 3 2 6 36 4 4 16 256 5 4 20 400 6 2 12 144 14 58 852 Total Para calcular o desvio padrão desta distribuição.1636 ∴ s = 43. ou seja. x f fx 2 2 4 3 2 6 4 4 16 5 4 20 6 2 12 14 58 Total Temos um total de 14 valores agrupados em cinco categorias. uma série de valores que se repetem e. são representados pela sua freqüência. originando a variância populacional (σ²).William Costa Rodrigues 18 Σx²= 2² + 5² + 9² + 11² + 14² + 25² ∴Σx²= 4 + 25 + 81 + 121 + 196 + 625 = 1. Observamos agora uma série de dados agrupados. devemos ajustar o erro desta estimativa. no caso de populações finitas o denominador será n e o desvio passa ser o σ (desvio padrão absoluto ou verdadeiro). isto é.052 − 726 ∴ s = 326 ∴s = 65.052 − 6 ∴s = 6 ∴s = 1.6101 14  14  2 6. Vale ressaltar que.052 − 1.8571 − 4.   2 s= 852  58  −   ∴ s = 60.20 s= 5 6 −1 5 6 −1 ∴s = 8. σ . eliminando um elemento do conjunto de observações. utiliza-se a seguinte fórmula: s= ∑ fx n 2  ∑ fx   −  n  . pois como o valor s é uma estimativa.1429 2 ∴s = 60.07 É importante ressaltar que no cálculo do desvio padrão utilizou-se o denominador (n-1). ou seja.3 Variância ou Quadrado Médio É o valor do desvio padrão estimado ao quadrado. originando a variância estimada (s²). por conseguinte.6935 ∴ s = 6.8571 − 17.

V.V. quanto menor este valor menor será a diferença entre os valores dos elementos do conjunto de dados. ou seja. Pode ser também interpretado com uma medida de precisão alcançada das estimativas dos dados em relação aos valores reais. Se coletássemos os dados quanto ao peso de mil indivíduos. n: número de observações do conjunto de dados.V.25 s (x ) = ∴ s (x ) = ∴ s(x ) = 0.V.V. baseadas na estimativa de dados. 6. Quanto maior for a dispersão no conjunto de observações.< 30% Regular É importante ressaltar que valores acima de 30% não significam um C.125 10 100 É importante ressaltar que quanto menos o valor do erro-padrão da média. <20% Bom 21% < C. dos quais haveria pequena quantidade de baixos e altos.Apostila de Estatística Aplicada 19 A variância é a medida estimada ou calculada que determina a variação dos valores entre si.25. obteve-se um valor s igual a 1. apresentam variações dentro de um intervalo definido. Classificação C.s(x) Quando uma investigação científica é realizada através de amostra. 6.25 1. Para se determinar a média destes afastamentos utilizaremos o erro padrão da média. Desta forma. mais preciso será os resultados em relação à estimativa da média. pois alguns experimentos em campo podem ter o valor C. da seguinte forma: C. Este parâmetro é estimado pela fórmula: s C. encontraríamos diversos valores. . e grande quantidade em torno dos valores centrais.V. x : média aritmética da amostra.V.4 Erro-Padrão da Média . podemos classificar o C. < 10% Ótimo 11% < C.V. 6. análise da variância entre outras análises. cujo cálculo é expresso pela fórmula: s s (x ) = n Onde: s: desvio padrão da amostra e. Ele expressa o desvio padrão que obteríamos se a média representasse o índice 100. = × 100 x Onde: s: desvio padrão da amostra. a média aritmética teria outros afastamentos (erros) em relação média populacional ou real. maior será o valor do coeficiente de variação.5 Coeficiente de Variação O coeficiente de variação (CV) é uma medida abstrata que independe das unidades em que foram medidas os dados. em especial os biológicos. insatisfatório. o erro-padrão da média será: 1. de até 65% e serem considerados bons. Exemplo: em uma amostra com 100 observações.6 Curva de Distribuição Normal A maioria dos fenômenos da natureza.

William Costa Rodrigues 20 Numa representação gráfica dos dados obtidos encontraríamos uma distribuição normal conforme a figura abaixo. A área da figura sob a curva compreendida entre valores iguais a s. à esquerda e a direita da média (µ) corresponde ao valor do desvio padrão(s) (Figura 4). Figura 5. isto é. a distância entre ele e cada um dos pontos em que muda a direção da curvatura. contém 68. Curvas de distribuição normal das freqüências de X. sendo tanto mais alta e estreita quanto menor for o valor de s (Figura 5). tendo a mesma média (µ) e diferentes graus de dispersão dos valores de X. Curva de distribuição normal simétrica. Figura 4.2% dos valores de X. que serão tanto mais próximos de µ quanto menor for o desvio padrão (Figura 6). . de um e outro lado da média (µ). O ponto máximo da função ocorre no valor médio (situado ao centro da curva. A curva de distribuição normal ou simplesmente curva normal é caracterizada por dois parâmetros: a média e o desvio padrão (ou a variância). desvios padrões (s) diferentes. que é simétrica). onde µ é a média e s o desvio padrão. A forma desta curva depende do desvio padrão.

Na Figura 7.6.96s.5% dos valores de X. Para a estimativa de um parâmetro. com uma alta probabilidade. com grande probabilidade. possam ocorrer em função das variações. A área compreendida entre -2s e +2s abrange cerca de 95. restando. ou as medições. indicam as percentagens de valores de X aí contidas. A estimativa.1 Limites de Confiança Quando se desconhece o valor de determinado parâmetro de uma população (sua média. Assim. por convenção. As propriedades da curva normal permitem seu uso para o cálculo de probabilidade com que determinados valores obtidos durante as observações.05 (ou 5%). é geralmente aceita. A amplitude entre esses valores limites denomina-se domínio de confiança ou intervalo de confiança. como limite para decidir se um resultado afastado da média (ou a diferença entre duas médias) é significativo ou não. 1. mais precisamente. aqueles valores entre os quais fica incluído. por exemplo). que corresponde a um desvio ou erro padrão de aproximadamente 2s (ou. o valor exato desse parâmetro. em relação ao valor hipotético da média verdadeira (µ). concluiremos que ele não pertence à população cuja média é µ. entretanto. podemos estimá-lo a partir de uma amostra extraída dessa população. pode ser inexata e não saberemos o quanto ela é incorreta. os limites de confiança são representados pelos valores de -C e +C que circunscrevem. se o valor médio (m) de uma observação comportar um desvio ou erro padrão maior que 1. . Curva normal padrão.96s). apenas 4. tendo por parâmetros µ=0 e s= 1. 6. portanto duas áreas extremas. A probabilidade P= 0. As áreas sob a curva assinaladas entre os traços verticais. Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de que os valores encontrados pertençam a uma mesma população.Apostila de Estatística Aplicada 21 Figura 6.5% das observações ou eventos medidos. o valor do parâmetro em causa. consideram-se como sendo seus limites de confiança.

6.8 Teste de Klomogorov-Smirnov (K-S) Este teste compara a distribuição real dos dados (amostra) com uma distribuição normal gerada por uma média e um desvio padrão supostamente conhecidos (populacionais). que é um teste tradicional de normalidade e o teste de Shapiro-Wilks.000 observações. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ.9 Teste de Shapiro-Wilks (S-W) Este teste é uma boa opção para se testas a normalidade de uma distribuição. 6. o teste pode ser usado em amostra de até 2. Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre médias é também chamado de erro padrão.2 Erro Padrão Em alguns casos. portanto poder ser empregados testes paramétricos sem preocupação quantos às suas restrições. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área. 6. ou teste K-S. 6. têm por objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado. Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é normalmente distribuída e. .7 Teste de Normalidade dos Dados Os testes empregados para verificar a distribuição normal dos dados. Os testes comumente utilizados são Klomogorov–Smirnov. é conveniente trabalhar com a média das médias amostrais. se um teste paramétrico ou não paramétrico. sob a curva. vem sendo empregado cada vez com maior freqüência.William Costa Rodrigues 22 Figura 7. Por outro lado. Testes estatísticos com grandes amostras mostram que nem sempre as suposições de normalidade de confirmam. Nos últimos anos o teste SW tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de problemas sobre a variação de normalidade. como nem sempre se dispões de um número elevado de casos para estudo. às vezes nem é possível decidir se determinada variável possui ou não distribuição normal (na prática a amostra deve ter o valor n > 100). situada à esquerda de C. É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis. ou teste S-W.6. medidos em unidades de desvio-padrão.

37). O valor t . Estabelecer o nível de significância α e. Definir se. uma alternativa é a transformação de dados dos seus valores (vide item Transformação de Dados. poderíamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado).são menos exigentes quanto à natureza da distribuição dos dados experimentais. Para maiores detalhes e saber com escolher um teste. A transformação mais utilizada é a conversão dos dados em logaritmos decimais. s²= variância e N: número de observações As formas de utilização deste teste apresentam situações diferentes como mostras os subitens abaixo: . p. são em geral menos potentes. Tomar as amostras de tamanho n e registrar os valores. se não seguirem a distribuição normal). a variância (s²) e o desvio padrão (s) e. consulte o Fluxograma Para Auxiliar na Escolha de Testes Estatísticos.student calculado é dado pela fórmula: X t= s2 n Onde: X : média.Apostila de Estatística Aplicada 23 7 Testes Paramétricos e Não Paramétricos De acordo com a distribuição dos dados. onde essa diferença existirá. E por analogia. Se os dados experimentais não estiverem de acordo com os pressupostos para a aplicação de provas paramétricas (por exemplo. Escolher o teste estatístico adequado. p.Student Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras que provêm de populações diferentes. Neste caso.aplicam-se a amostras extraídas de populações com distribuição normal e variâncias iguais ou muito próximas. que supõe não haver diferença significativa entre os valores encontrados e os esperados. calcular a média (µ).1 Teste t . ao constatar as médias destas amostras para verificar se há a diferença entre elas. O efeito do tratamento aplicado seria verificado pela comparação dos dois grupos. utilizam-se testes de duas categorias: Os testes paramétricos . o teste t seria indicado para tal comparação salientando que a variável em análise teria que apresentar os dados em distribuição normal ou aproximadamente normal. enquanto outro grupo nada receberia (grupo controle). Os elementos necessários para a utilização de um teste são: Formular as duas hipóteses: a de nulidade (H0). além de exigirem que as medidas sejam feitas em escalas numéricas intervalares. conseqüentemente. Os testes não-paramétricos . e a hipótese alternativa (H1). suscetíveis de tratamento matemático. estaremos indiretamente comparando as duas populações. Estes testes são. as regiões críticas de aceitação de H0. de tal forma que os pressupostos possam ser satisfeitos. os de maior potência. 7. podendo ser aplicados mesmo quando ocorram pequenos desvios de normalidade ou da variância entre as amostras. se trata de um teste mono ou bicaudal. 43. em geral. Nesses casos.

Há a uma preocupação em que haja um pareamento entre indivíduos para que eles difiram somente no aspecto. obtivemos os seguintes dados: Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios). Σd=37.1 = 4. tratado e não-tratado.9 = 39.7 0. p. 37 b) X d = = 3.7 4.01 9 9 9 =t= 3. 44) e compara-se o valor do t calculado com o valor crítico da tabela em função de α com n-1 graus de liberdade.William Costa Rodrigues 24 7.1 Dados Pareados (Amostras Dependentes) Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivíduos ou animais ou plantas. Item 1 2 3 4 5 6 7 8 9 10 Total Peso (Kg) Antes Depois 24 28 23 25 24 25 23 29 30 32 31 34 31 38 14 19 20 22 18 23 !Configuração não !Configuração não válida de caractere válida de caractere Diferença 4 2 1 6 2 3 7 5 2 5 !Configuração não válida de caractere Procedimento: a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima).student.84 0. b) Verifica-se a média aritmética das diferenças.student (Tabela 11.01 10 O próximo passo e recorrer à tabela do teste t .401 = 3. c) Verifica-se a variância das diferenças e.7 = 5. d) Aplica-se o teste t . Em um estudo foi separada uma população de 10 crianças para os testes com administração da dieta de folha de mandioca. n= 10 173 − 1369 10 = 173 − 136.7 10 c) Σd²=173.1. .6332 s2 = d) t = 3.

O valor t .26 (5% ou α=0.9615 + 1. .68 e 2.01). mas não pertencem ao mesmo tratamento ou não há comparação entre antes e depois. Exemplo: Tabela 3. Concluímos pela rejeição de H0 (hipótese nula) em nível de 1% de probabilidade (α=0.05) e 3. O teste t utilizado nesta situação pressupõe variâncias diferentes.94 25 36 0.student calculado é dado pela fórmula: X1 − X 2 t= 2 2 s1 s 2 − n1 n 2 Onde: X1 e X 2 : médias das amostras. O valor encontrado (calculado) de t= 5.2 Dados Pareados (Amostras Independentes) Neste caso os dados são tratados de forma diferente. mesmo o as duas amostras possuindo valores n iguais. devemos verificar os valores críticos com nove graus de liberdade. n= 10.01).5 4. portanto. 44).01.25 (1% ou α=0.3846 2. Esta equação deve ser utilizada.5 4. ou seja.3461 1.9379 ≅ 2. Desta forma. Para o nosso exemplo acima temos o GL = 26 + 26 – 2 = 50 ou (26–1) + (26– 1)=50.5317 52 6 2 + + 26 26 26 26 Para calcular o Grau de Liberdade. e n1 e n2: número de observações das amostras.5 4. Desta forma.84 é maior do que os valores da tabela.Apostila de Estatística Aplicada 25 No exemplo acima. Os valores a 5% e 1% de probabilidade são 2. concluímos que há 99% de probabilidade de que a leguminosa A. Leguminosa A Leguminosa B X1 = 38 cm X 2 = 33.5 t= = = = = = 2.1. Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o aumento do peso corpóreo das crianças. possuam taxa de crescimento média mais elevada que a leguminosa B. Comparando o valor calculado (2.33. procedemos da seguinte forma: GL= n1 + n2 –2 ou (n1–1) + (n2–1). s1= e s2= desvios-padrão das amostras. respectivamente (Tabela 11. p. quando se conhece a variância populacional (σ²). possuem o mesmo valor n.94) com os valores tabelados verifica-se que há diferença estatística a 5% e a 1% de probabilidade.5 cm s1= 5 cm s2= 6 kg n1= 26 n2= 26 Calculado o valor de t teremos: 38 . 7. numa área de re-vegetação (dados fictícios). Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril.5 4. encontramos os valores 2.

que as amostras são independentes e que apresentam variâncias desiguais. em que g é calculado através da fórmula: 2  s1 s 2   + 2  n1 n 2    2 g=  s2   1  n1    2 n1 − 1 +  s2   2  n2    2 n2 −1 Para nosso exemplo seria: 2  74 18   +  4.26 2 20 32  g=  2 = = 24.William Costa Rodrigues 26 7. as amostras serão comparadas de acordo com este resultado. podendo as mesmas apresentarem tamanhos diferentes (n1 e n2).3 Dados Não-Pareados . Supõe-se.Variâncias Desiguais (Heterocedásticas) Caso os dados não pertençam às amostras não pareadas.26 2. Se a relação entre as variâncias apresentarem valor maior do que quatro. Por exemplo: s²1= 27 e s²2= 5 2 s1 27 Portanto = 2 = = 5. o teste T será aplicado baseando-se na diferença entre as médias das duas amostras. isto justifica a conduta sugerida. Exemplo: temos duas amostras de água em que os dados quanto ao nível de contaminação de mercúrio apresentam os seguintes valores: Amostra A Amostra B X 1=160 ppm X 2=148 ppm s²1 =74 ppm s²2 =18 ppm n1 = 20 n2 = 32 O valor do teste t será obtido através da expressão: X − X2 t= 1 2 s1 s 2 + 2 n1 n 2 Calculado o valor de t teremos: 160 − 148 12 12 t= = = = 5. Há uma regra prática que identifica tal desigualdade a ponto de justificar tal procedimento.4 5 s2 Seguindo o critério estabelecido. neste caso.06 + 20 32 Para verificar a significância deste valor.82 74 18 4.8 ≅ 25 2 0.73 2  74   18       20  +  32  20 − 1 32 − 1 . devemos calcular o grau de liberdade para o conjunto de dados.1.

4 1.0673 s2 = 10 + 7 − 2 15 15 15 Em seguida aplica-se a fórmula para o teste t. respectivamente.04 + 6 × 0.4 1.04 + (7 − 1)× 0. considerando também o número de graus de liberdade de cada uma das amostras. um pesquisador separou ao acaso. para verificar os valores críticos nos níveos de 5% e 1% de probabilidade para 25 graus de liberdade.4 X A= 1. Desta forma. A marca A e marca B. p.04 sB²= 0.66 = 1.11 = 0.79 (1%).L) Marca A Marca B 1.0 1. um lote de caixa de cada marca e ao acaso avaliou o conteúdo de uma garrafa de cada caixa. Exemplo: para verificar se duas amostras de água mineral de duas marcas possuem a mesma quantidade sulfatos. devido à diferença significativa entre as médias das duas amostras.1 1. possuíam 10 e 7 caixas no lote selecionado.9 1. XA − XB t=  1 1   s2  + n nB   A  Assim temos: .Apostila de Estatística Aplicada 27 Consulta-se então a tabela do teste t-student (Tabela 11. Ainda neste caso. respectivamente. 7.6 1.5 sA²= 0. foram avaliados os conteúdos de 10 e 7 garrafas.01 = 0.01).5 1.4 Dados Não-Pareados .82 é significativo no nível de 1% (1% ou α=0.5 1.4 1.8 1. concluise que o valor obtido pata t = 5. aceitando-se a hipótese alternativa.11 = 9 × 0. Na tabela iremos obter o valor de 2. o procedimento metodológico consiste em se utilizar uma variância ponderada. nas quais as variâncias apresentam valores aproximadamente iguais.Variâncias Iguais (Homocedásticas) A aplicação do teste t de Student para este caso é realizada quando comparamos as médias aritméticas de duas amostras independentes.42 X B= 1.2 1.8 1.11 nA= 10 nB = 7 A variância ponderada é dada pela fórmula: (n A − 1) × s 2 + (n B − 1) × s 2 2 A B s = nA + nB − 2 Para nosso exemplo teríamos: (10 − 1)× 0.7 1. Exemplo: Amostra (mg. Ou seja.1.06 (5%) e 2.3 1.36 + 0.2 1.5 1. 44).

por exemplo. 45). Exemplo: Num Shopping Center. é necessário que tenhamos as freqüências teóricas. conclui-se que as duas marcas de água mineral não apresentam diferentes proporções de sulfatos em sua composição. 2. fe= freqüência esperada. 7.William Costa Rodrigues 28 t= 1.0673 +   10 7  = − 0. o que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira diante da condição a elas imposta.1.95. os dados colhidos representam ocorrência de certos fenômenos que se podem classificar numa tabela. Em muitos casos utiliza-se este teste em experimentos probabilísticos. Desta forma.42 . Os dados coletados ao final do experimento foram: Faixa Etária Pessoas* (anos) Com diabete Sem diabete A: 10-15 2 (11.5  1 1 0.4043 Os valores de t tabelado para 15 graus de liberdade a 5 e 1% são respectivamente. A fórmula utilizada para calcular o χ² é: ∑ (fo . Para poder calcular o χ².74) 75 (65.98 0. A comparação entre os valores calculados de χ².13 e 2. foram escolhidas ao acaso pessoas com três diferentes faixas etárias. Em tal situação a H0 (hipótese nula) será testar a independência entre as variáveis. p. para verificar a significância pode ser obtido na tabela de χ² (Tabela 12.fe )2 2 χ = fe Onde: fo= freqüência observada e. Para tal.26) Σ 77 . Estas tabelas têm como objetivo estudar a possível associação entre duas variáveis que classificam os dados. Portanto o valor do desvio é elevado ao quadrado e dividido pela freqüência esperada. No primeiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50% (freqüência esperada) e o valor real após os lançamentos será a freqüência observada. sendo que a marca B possui maiores concentrações em relação à marca A. O grau de liberdade para o teste de χ² é o número de observações/ classes menos 1. chamada tabela de contingência. sendo muito utilizado em pesquisas biológicas. No segundo caso a freqüência esperada deverá ser corrigida (calculada) através da Tabela de Contingência. para verificar a incidência de diabete. 7.1634 0.3 Tabela de Contingência Em muitos trabalhos experimentais.8 = ≅ − 1. lançamentos de moedas ou proporção de doentes após uma epidemia.8 − 0. foram coletadas amostras de sangue.2 Teste Qui-Quadrado (χ²) O teste não-paramêtrico de qui-quadrado foi desenvolvido por Pearson. A H0 é que não diferença entre as faixas etárias em relação a ter diabete.

34 De acordo com a Tabela 12 (p.72) 20 (10.09 + 1. ou seja.28) 62 (62. No teste de Kruskal-Wallis todas as observações recebem uma pontuação através dos números 1. Desta forma.28 62. 7. Ele é utilizado para que se verifique o contraste entre k amostras independentes. Os demais valores da linha subseqüentes são obtidos com a realização da regra de três para cada valor da 2ª coluna. serão consideradas sempre duas hipóteses (H0 e H1). 2.26 11.02) 34 189 Σ 74 72 !Configuração não válida de caractere * Valores entre parênteses e em negrito representam as freqüências calculadas Neste caso temos uma tabela de contingência de 2 x 3.41 + 1.n.33∴ χ 2 = 18.74 65. Os valores obtidos nas diversas amostras diferem entre si e. Assim teremos: (2 − 11. o valor χ² para 2 graus de liberdade a 5 e 1% de probabilidade seriam 5.45 + 0.01 + 7. Da mesma forma que nos outros testes.98)2 + χ2 = 11. Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anteriormente.5184 + 0.05 + 0. 45).98) 52 (61. segundo o teste de χ² a 5 e 1% de probabilidade.74)2 + (75 − 65.26 )2 + (12 − 11. 4.99 e 9.72 10.5184 + 81.. .72)2 + (20 − 10.71 10. ao menor valor se atribuirá o valor 1. e assim sucessivamente até atingir o maior valor.28 62. No nosso exemplo teremos: GL = (2 − 1) × (3 − 1) ∴ GL = 1 × 2 ∴ GL = 2 Para calcular as freqüências realiza-se uma regra de três simples como segue: 34 –––––––––––––––– 223 fe –––––––––––––––– 77 Ou seja. 3.Apostila de Estatística Aplicada 29 Faixa Etária (anos) B: 16-21 C: 22-40 Σ Pessoas* Com diabete Sem diabete 12 (11. Assim.4 Teste de Kruskal-Wallis Este teste foi criado como substitutivo à análise de variância paramétrica (Teste F).87 + 94.02 χ 2 = 8. .98 61.21.87 + 0. a ocorrência de diabete depende da faixa etária. conclui-se que há diferença entre as faixas etárias..02)2 ∴ χ 2 = 94.74 65.36 ∴ 61. portanto.28)2 + (62 − 62.98 (52 − 61. será uma maneira se verificar se estas diferenças são devidas ao acaso ou se as amostras provêm de populações diferentes. O Grau de liberdades para tabelas de contingências será calculado pela seguinte fórmula: GL = (n s − 1) × (n g − 1) .02 11.26 11. fe A = 34 × 77 a fe da terceira coluna (sem diabete) é calculada pela diferença 223 entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (Σ). respectivamente. que receberá a maior pontuação.36 + 81. pois temos duas situações as serem testadas (com ou sem diabete) em três grupos (faixas etárias).

5 nA= 7 nC = 8 nC = 8 x A= 13.14 + 603.249 4.5 29 16 34 18.70 ) − 72 ∴ H = 0. supomos que foram testados ou experimentados três métodos para dessalinização de água. p. são 5. testou-se o tempo de dessalinização dos três métodos.21.William Costa Rodrigues 30 Para o cálculo do valor H do teste de Kruskal-Wallis utiliza-se a fórmula: 2 12 k R H= × ∑i =1 i − 3 (N + 1) N (N + 1) ni Onde: Ri = a soma das ordens atribuídas ao tratamento i.861. os graus de liberdade correspondem a 2.95 Como já foi dito este teste segue a distribuição do teste χ². considerase que nos casos de empate entre duas ou mais observações.29 x B= 14. calcula-se a média das ordens que seria atribuída a elas se não houvesse o empate. Desta forma.5 21 13 6 4 2 1 45 21 15 10 11 7 50 23 22 14 47 22 RA=57.5 2 12 H= × + + 23 (23 + 1)  7 8 8    − 3 (23 + 1)∴   12  3.99 e 9. que não vem ao caso no exemplo a ser testado.25  H= × + +  − 3 × 24 ∴ 23 × 24  7 8 8  12 H= × (464. foram coletadas diversas amostras de água com diversas concentrações de sal. k =corresponde ao número de tratamentos a comparar. Para calcular H teremos:  57 2 69. Desta forma.78) − 3 × 24 ∴ 552 12 H= × (3. com k-1 graus de liberdade.830. sendo k = 3 (métodos). os valores da tabela χ².50 x C= 36.0217 × 3. ni = número de observações em cada tratamento k e. a tabela para comparar os valores é a tabela de χ² (Tabela 12. Para exemplificarmos o teste de Kruskal-Wallis. Para verificação de significância quanto às diferenças observadas entre tratamentos k. respectivamente.0 RC= 69.25 22. N = número total de observações em todos os tratamentos k.78 + 2. pois GL= k-1. Assim sendo. Os resultados do experimento seguem abaixo: Métodos A B C DD posto DD posto DD posto 17 11 20 12 32 17 14 9 5 3 35 20 4 2 9 6 26 15 8 5 13 8 34 18.25 DD= dias para dessalinização. Na ordenação global que se faz para atribuição dos postos aos dados. considera-se que o teste tem uma distribuição aproximada de χ². .5 2 149. correspondem a 5 e 1%.350. ou seja.793.5 RC= 149.70 − 72 552 H = 11.861. Portanto. 45).

Sendo o valor Ri a somas dos valores de ordenação nos tratamentos (colunas). Para os casos de empate entre observações de mesmo bloco. Os resultados da análise foram as seguintes: ( ) Tabela 4. nos blocos n. De forma análoga aos demais testes. em quatro diferentes profundidades. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo. Este solo foi exposto há poluentes de uma determinada fábrica.5 Teste de Friedman (Análise da Variância) Da mesma forma que o teste de Kruskal-Wallis.Apostila de Estatística Aplicada 31 Considerando que o valor calculado H=11. O valor do teste de Friedman (Xr2) é calculado através da seguinte equação: 12 k χ2 = × ∑i =1 R i2 − 3n (k + 1) r nk (k + 1) Onde: n = número de blocos. utiliza-se tabela de χ². este teste é um substitutivo ao teste F para análise de variância paramétrica. Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis. k = o número de tratamentos. pois leva menos tempo em comparação aos demais.95 é maior que os valores tabelados.mm³ de solo Blocos Área A Área B Área C Área D Área E Total 0-10 12 (2) 8 (2) 14 (2) 17 (3) 12 (2) R1= 11 Profundidade (cm) 11-20 21-30 13 (3) 16 (4) 9 (3) 12 (4) 20 (3) 22 (4) 16 (2) 21 (4) 15 (3) 16 (4) R2= 14 R3= 20 31-50 7 (1) 5 (1) 6 (1) 11 (1) 10 (1) R4 = 5 *Os valores entre parênteses e em negrito correspondem à ordenação dos tratamentos dentro dos blocos (linhas). em mg. calcula-se a média aritmética das ordens. Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamentos) em cinco áreas diferentes. rejeitamos H0 (não há diferenças entre os métodos testados no tempo de dessalinização das amostras). sendo utilizado quando as amostras. formula-se a H0 e a H1. as concentrações do poluente são iguais em todas as profundidades (Hipótese Nula ou H0). teremos: . assim aceita a H1. delimitados pelas características edáficas do solo (blocos). Para testar a H0. Assim sendo. cujas observações podem verificar valores com acentuada variação e em cada tratamento são constituídos blocos com a intenção de que isto resulte em um pareamento considerável entres os diversos tratamentos. Substituindo os valores na fórmula para o cálculo do valor χ²r. A ordenação dos valores se dá dentro dos blocos. Pelos valores R encontrados nos resultados verifica-se que o método A e mais eficiente no processo de dessalinização. co grau de liberdade k-1. quer saber se o poluente está distribuído de forma igual entre as profundidades avaliadas. Ri = a soma das ordens atribuídas aos dados do tratamento i. ou seja. 7.

p.04 − 75 ∴ r 100 χ 2 = 14. A partir da tabela χ² (Tabela 12.2 Correlação de Spearman Este coeficiente de correlação baseia-se no rank dos valores X e Y e é largamente utilizado em analise de correlação e dados não paramétricos. d1 = é a diferença entre cada valor X e cada valor Y correspondente.32. quando há variação positiva de X e vice-versa. a profundidade de 21-30 cm tem uma maior concentração do poluente que as demais profundidades avaliadas.1. ΣX x ΣY= produto da soma dos valores de X e Y. Trata-se de um valor abstrato que dá uma idéia sobre a dependência entre os dados apresentados. . n = número de pares de dados.1. nas áreas onde foram coletadas amostras. 6 ∑ d i2 rs = 1 − 3 n −n Onde: rs= coeficiente de correlação de Spearman. a dependência entre duas séries de variáveis. Pode ser utilizado para dados normais (Correlação de Pearson) e para dados não normais (Correlação de Spearman).William Costa Rodrigues 32 12 × 112 + 14 2 + 20 2 + 5 2 − 3 × 5 × 5∴ 5 × 4(4 + 1) 12 χ2 = × (121 + 196 + 400 + 25) − 75 r 5 × 4(4 + 1) 12 χ2 = × 742 − 75 = 89. Quando positiva há a variação positiva da variável dependente (Y).82 e 11. ∑X×∑Y ∑ XY − n r= (n − 1) × s X × s Y Onde: r= coeficiente de correlação de Pearson. ΣXY = soma dos produtos entre os valores de X e Y. têm-se 3 graus de liberdade.1 Correlação de Pearson Utilizado na análise de dados que possuem distribuição normal. Quando negativa há a variação negativa de Y. ( ) 8 Correlação Linear A correlação linear é utilizada para verificar. 8. Ou seja. respectivamente. Sendo o valor de χ²r calculado maior que os valores da tabela de χ². num determinado conjunto. A correlação pode ser denominada positiva ou negativa.1 Coeficiente de Correlação (r) O coeficiente de correlação e designado pela letra r. 8. sX e sY= desvios padrões de X e Y 8. rejeita-se a hipótese nula (H0) e aceita a hipótese alternativa (H1). n = número de amostras de X e Y. 45).04 r χ2 = r Como valor de graus de liberdade é igual a k-1 graus de liberdade e sendo k=4 (tratamentos). Os valores para 5 e 1% de probabilidade são 7. quando há variação positiva da variável independente (X) vice-versa.

quando um valor é negativo. através do teste de t para r.5 1 0. quer dizer que com o aumento dos valores de X. quando aumenta os valores de X aumenta os valores de Y (Figura 8).5 2 1.5 0 0 20 40 60 A B 3 2. p. Σdi2=72 6 (72 ) 432 432 ∴1 − ∴1 − ∴1 − 0.5636 3 10 − 10 1000 − 10 990 Para verificar se há significância na correlação rs = 1 − 8. Para melhor entender melhor a explanação anterior. existe uma proporcionalidade direta entre as variáveis. Assim sendo. Y diminuem e quando o valor é positivo.3 Aspectos Gerais da Correlação Linear Os valores de r variam entre -1 (associação negativa completa) e +1 (associação positiva completa). Quando um valor é significativo. dizemos que a correlação é positiva e significativa.1. é apresentado de forma negativa dizemos que a correlação é negativa e significativa. Correlação linear simples positiva (A). Estudante 1 2 3 4 5 6 7 8 9 10 Notas de Matemática 57 45 72 78 53 63 86 98 59 71 Rank de Xi 3 1 7 8 2 5 9 10 4 6 Notas de Biologia 83 37 41 84 56 85 77 87 70 59 Rank de Yi 7 1 2 8 3 9 6 10 5 4 di –4 0 5 0 –1 –4 3 0 –1 2 Total di 2 16 0 25 0 1 16 9 0 1 4 72 n= 10.5 0 0 20 40 60 Figura 8. e inversa ou negativa (B). A utilização de um ou outro coeficiente dependerá da normalidade dos dados (veja o tópico Teste de Normalidade dos Dados. . deve-se ter em mente que a variável Y é quem sofre variação em função de X. 3 2. Correlação de Spearman entre as notas brutas de matemática e biologia (Zar.Apostila de Estatística Aplicada 33 Exemplo: Tabela 5. apresentando a linha de tendência de regressão linear simples de dados fictícios.5 2 1. 1999).4364 ∴ 0. ou seja. caso o valor seja positivo.22).5 1 0.

20 0. conhecido como teste t para r.21 – 0.30. que acordo com a necessidade de com uma maior precisão intervalar ( Tabela 6) pode ser utilizada um ou outra tabela. Classificação do valor r através de intervalos de 0 a 1.30 ∴ K = 0.3 Coeficiente de Alienação (K) Este coeficiente é função do coeficiente de correlação.30.4 Significância do Teste de Correlação Existem basicamente duas formas de verificar a significância do var r. Classificação do valor r através de intervalos de acordo com e Teste de Rugg.91– 1.49 r >0. logo 30% da variação de Y são atribuídas a X.70 ∴ K = 0.William Costa Rodrigues 34 8.30 < r < 0.15 0.71 – 0. K = 1 − 0.90 0.40 0. Tabela 6. expresso pela fórmula: K = 1− r2 Este coeficiente exprime a ausência de relação entre X e Y.1 Significância Baseada nos Intervalos A classificação é simples e basea-se nas Tabela 6 e Tabela 7. a outra considera o teste t.0 – 0. Intervalo 0. . Este coeficiente expressa a porcentagem de variação dos valores de Y em função do valor X. concluímos que há mais ausência de relação do que intensidade de relação entre X e Y. r²= 0. quanto na de Spearmann.41 – 0. Por exemplo. o valor r² encontrado em determinada análise é igual a 0.8367 Desta forma.0 Significância Correlações nulas Correlações fracas Correlações substâncias Correlações fortes Correlações extremamente Fortes Tabela 7.2 Coeficiente de Determinação (r²) Ao valor encontrado de r elevado ao quadrado (r²) denomina-se coeficiente de determinação.30. 8.70 0. a mais simples baseia-se simplesmente nos intervalos de valores de r.4.50 Significância r desprezível r baixo r apreciável r acentuado A significância das tabelas acima poderá ser utilizada tanto na correlação de Pearson. Por exemplo.29 0.15 < r < 0. 8. 8. Intervalo r < 0. Sendo r²= 0.

Exemplo para o Microsoft Excel.00 5.50 50. Hoje em dia os programas (softwares) de planilha de cálculo e de estatística. Será exibida uma janela com mostra a Figura 9. A 1 2 3 T.. caos opte por linha do tipo polinomial a ordem para eventos biológicos deverá ser 2. 9 Análise de Regressão É freqüente o estudo da relação entre duas séries de variáveis.4.00 0. Para identificação de uma possível correlação entre séries de variáveis.00 B C D E F G H I J L M 4 Para criação do gráfico de dispersão basta selecionar os dados das linhas 2 e 3 Gráfico e selecionar o gráfico Dispersão (XY) (Tabela 1) e selecionar o menu Inserir em seguida clique em Avançar > para configurar o gráfico ou em Concluir para finalizar a criação. a dispersão dos dados de Y em função de X.00 12.00 10.50 0. A mostra como montar uma série de dados para criação de um gráfico de dispersão no Microsoft Excel.2 Significância Baseada no Teste t para r (Pearson) O teste de t para r é calculado através da seguinte equação: r tr = × n−2 1− r2 Para este teste compara-se o valor de tr calculado com o valor de t. torna-se bastante eficaz a construção de um diagrama que se obtém em sistemas de eixos cartesianos. sob cultivo orgânico na Fazendinha Agroecológica.00 30.00 40.50 40. 44). 2004). Portanto há um interesse de expressar essa relação sob a forma matemática. basta organizar os dado de forma correta e selecionar a criação de um gráfico de dispersão. através da apresentação de uma função. no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues.00 7.00 100. Sabe-se que determinadas dietas têm interferência no ganho ou na redução do peso de indivíduos da raça humana. ou seja. Tabela 8.00 2. Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera.00 2.50 60.Apostila de Estatística Aplicada 35 8. Por exemplo.00 0. Aphididae) em função da brotação foliar de tangerina cv Poncã.00 2. O tipo de linha será de acordo com a equação que melhor de adeqüei a distribuição dos dados.00 25..50 100. lembrando que um evento biológico somente poderá ser explicado até uma equação de segundo grau. A exibição da equação e do valor de R² é feita através da seleção da Aba Opções. na Tabela 11 (p. com n-2 graus de liberdade. Após criar o gráfico selecione um dos pontos e em seguida clique no botão direito de mouse e selecione a opção Adicionar linha de tendência. a 0. fornecem a equação da reta ou de outro tipo de regressão que se queira plotar.00 20. para verificar a com o próprio nome diz. selecionando a caixa de seleção: Exibir equação no gráfico Exibir valor de R-quadrado no gráfico .. Desta forma.00 100.00 60. o peso de crianças de acordo coma dieta oferecida em diferentes dosagens.

9. plotar a linha e a equação da reta de duas variáveis.3095x .2. Poncã. Regressão linear simples entre a flutuação populacional de T. aurantii e a brotação foliar de tangerina cv. em cultivo orgânico de tangerina cv. na Fazendinha Agroecológica.3472 R2 = 0. aurantii 70 60 50 40 30 20 10 0 -10 0 20 40 60 80 100 120 y = 0. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues.2 Regressão Linear Múltipla Este tipo de regressão possibilita a associação de uma variável dependentes (Z). Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel.1 Regressão Linear Simples Neste tipo de regressão é possível verificar a associação entre as séries de dados. . Como pode ser visto na Figura 11. 9. com duas variáveis independentes (X e Y). T. Poncã. neste caso uma das varáveis independentes (X) poderá parcialmente interferir na outra variável independente (Y). 2004).William Costa Rodrigues 36 Figura 9. X independente e Y dependente.3984 Figura 10.

na Fazen20 dinha Agroecológica. Vamos apresentar nesta apostila algumas das principais transformações de dados empregadas na normalização dos dados e as situações que cada uma se aplica.0046x2 .3 Regressão Múltipla Neste tipo de regressão é possível verificar a associação entre as séries de dados. 2004). é necessário que o dados tenham uma distribuição normal (Figura 4. Poncã. as contagens e as notas dadas a certas características qualitativas. auran70 tii e a brotação foliar de 60 tangerina cv. brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z). Correlação múltipla da amplitude térmica (variável x). Figura 5 e Figura 6). em cultivo orgânico de tangerina cv.1984 40 cultivo orgânico de tangeR2 = 0. Poncã. aurantii múltipla entre a flutuação populacional de T. Regressão T. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues.0. As porcentagens.2141x + 7. Poncã. exigem quase sempre essa transformação. no 10 período de outubro de 0 2002 a outubro de 2003 0 20 40 60 80 100 120 (Adaptado de Rodrigues. plotar a linha de tendência polinomial e a equação de segundo graus das duas variáveis. 9.Apostila de Estatística Aplicada 37 Figura 11. . 2004). Figura 12. em 50 y = 0. 10 Transformação de Dados Para uma aplicação válida dos testes de significância.4695 30 rina cv. baseados nas propriedades das curva normal. X independente e Y dependente. na Fazendinha Agroecológica.

todos os dados deveriam estar baseados em um número de observações iguais. Nesse tipo de transformação. É freqüentemente utilizado em dados biológicos quando amostras são tiradas da distribuição de Poisson (isto é. É utilizada.1 Índice de Diversidade e Dominância Populacional Existe uma série de índice de diversidade. em seguida. porém qualquer outra base poderá ser utilizada. antes de entrar na tabela. desde que. sendo a primeira mais utilizada. por exemplo. Os dados são transformados em percentagens e. quando os dados consistem em ocorrências aleatórias de objetos ou eventos). O dados que se recomenda utilizar este tipo de transformação são dados de percentagens e contagens (números inteiros). 1997). sejam substituídos por ¼n e 100. tendem a serem proporcionais. utilizando-se uma tabela apropriada.5 ou x ' = x + 1 ou x ' = x . utiliza-se a transformação x' = log (x+1). respectivamente. que podem ser utilizados em diversas situações. 10. 10. seja especificada.1 Raiz Quadrada Essa transformação é utilizada quando a variância e proporcional a média. . o número total de indivíduos em todas as espécies (Brower et al. Quando aparece o valor zero. É o caso. 10.4 Considerações Gerais Quando é utilizada uma transformação de dados. ainda. os coeficientes de variação aproximadamente iguais. ou seja. todas as comparações entre médias são realizadas na escala transformada.3 Transformação Angular (Arcoseno) Essa transformação é utilizada quando os dados estão associados a uma distribuição binomial (presença-ausência). Vários índices de diversidade foram propostos que incorporam ambos S e N. por conveniência. quando os dados são representados por números positivos.William Costa Rodrigues 38 10. como muitas vezes que um determinado caráter aparece num total definido. Transformando os dados utilizando suas raízes quadradas resulta em uma amostra cuja distribuição é normal. ou porcentagens que abrangem uma grande amplitude de variação. As equações normalmente utilizadas são: x ' = x + 0. ou a riqueza de espécie. A base 10 para os logaritmos é utilizada normalmente. mas o método pode também ser utilizado quando esse número não é rigorosamente igual é sugerido na literatura que valores de 0 e 100%. A medida mais simples de diversidade de espécie é o número de espécie (s). quando há uma redução dos valores de média e variância diminui simultaneamente. do número de plantas sobreviventes em relação ao número total de plantas que deveriam estar presentes se nenhuma tivesse morrido após a poluição de um determinado solo. sendo. 11 Testes Específicos Para Análise de Populações e Comunidades 11. Quando se achar preferível não se apresentar os resultados na escala transformada.¼n. são calculados os valores através da fórmula p' = arcsen % . elevar ao quadrado os valore submetido à transformação de raiz quadrada. Por exemplo. os dados finais devem ser transformados novamente para escala original. nesse caso.2 Transformação Logarítimica Este transformação é utilizada principalmente quando as médias e os desvios padrões (erros).

considera a proporção de cada espécie em relação ao todo.2 Exemplo O exemplo hipotético abaixo da diversidade de cochonilhas em agroecossistema cítrico ilustra os índices de diversidade das cochonilhas de um pomar de citros. N: Número de indivíduos total 11.∑ p i × log p i' Onde: p = proporção da espécie em relação ao número total de indivíduos 11. 11.1 Índice de Margalef (α) Este índice foi proposto por Margalef (1951) e tem como objetivo estimar o número de espécies e o número de indivíduos de uma comunidade.1. entretanto utiliza a raiz quadrada do número de indivíduos total de cada amostra.5 Índice de Dominância Berger-Parker (d) Este índice estima a dominância dentro de uma comunidade.2 Índice de Glason (Dg) É semelhante ao índice anterior. indica que há competição interespecífica e que o local é menos diversificado. Normalizando os dados e diminuindo a probabilidade de erro dos cálculos. S Db = N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11. N d = Max N total Onde: NMax= é o número de indivíduos da espécie mais abundante e NTotal= é total de indivíduos amostrados.4 Índice de Shanon-Wiener (H') É considerado o índice de diversidade mais completo. verifica se há ou não dominância de uma determinada espécie numa comunidade.Apostila de Estatística Aplicada 39 Quando o índice de diversidade diminui. 11. numa tentativa de normalizar os dados. ou seja. . há um indicativo de que o local é bastante diversificado.1. pois além de considerar o número de espécies. H ' = .1. mesmo que o número de indivíduos seja reduzido.1. porém quando há um aumento deste índice. porém considera todas as espécies da amostra. Este índice é dado pela fórmula abaixo: S −1 α= log N Onde: S: Número de espécies levantadas.1.3 Índice de Menhinick (Dm) Este índice é semelhante aos dois anteriores. S Dg = log N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11. tendendo a dominância de uma determinada espécie.

648 4. porém leva em conta não somente a composição das espécies.556 0.. para espécies c e % n = idem. Índices de diversidade de cochonilhas em agroecossiema cítrico.3. nas duas comunidades (Southwood.609 4.652 0.. % S = ∑ (% a + % b + % c + . simultaneamente. para espécies n.557 3. as duas espécies.790 !Configura Média 10 1. % b = idem.3.574 4.045 ção não válida de caractere Dm 0.481 3. % c = idem. + % n ) Onde: % a = menor porcentagem da espécie a observada no confronto das comunidades. que são as seguintes: j Jaccard QS = (a + b − j ) 2j (a + b ) Onde: a = Número de espécies presente no habitat ou comunidade A. Duas comunidades com sua composição de espécies em percentagem Comunidade A B Espécies a 15 33 b 35 14 c 27 36 d 23 17 A partir dos dados da Tabela 10.3 Índice de Similaridade entre Populações 11.479 0.118 1995 10 235 1.985 1997 10 435 1. para espécies b. ou número de levantamentos com a espécie a. b = Número de espécies presente no habitat ou comunidade B. como também o número de indivíduos. Existem duas fórmulas para calcular o QS propostas por Jaccard (1912) e Sorensen (1948). podemos calcular a %S: % S = (15 + 14 + 27 + 17 )∴ % S = 73% . 1971). ou número de levantamentos com a espécie b e j = Número de espécies presente nos dois habitats ou comunidades ou número de levantamentos contendo. no que se refere a composição específica (espécies).575 11.218 1996 10 323 1. Período S N Dg α 1994 10 268 1.William Costa Rodrigues 40 Tabela 9.2 Porcentagem de Similaridade Expressa os resultados semelhantes ao do Quociente de Similaridade.1 Quociente de Similaridade O objetivo deste quociente é verificar a similaridade entre duas comunidades ou habitat. pois se calcula pelo somatório dos menores valores das percentagens observadas de cada espécies em relação ao total de indivíduos. Tabela 10.611 0. Sorensen QS = 11.

11. . b) Espécies acessórias – presentes entre 25–50% dos levantamentos.3. Os valores mínimos de j significativos a 0. 46. p. 46. para espécies B e J = Número de indivíduos da espécie A e B nos levantamentos em que ocorrem simultaneamente. A significância de j pode ser observada através da Tabela 15. baseiase no total do número de indivíduos de ambas as espécies que ocorrem simultaneamente nos levantamentos realizados.3 Índice de Afinidade Este índice estima a freqüência com que duas espécies ocorrem simultaneamente em determinada comunidade ou habitat. p.3.3. c) Espécies Acidentais – Presentes em menos de 25% dos levantamentos.5 Índice de Associação (IA) Verifica o índice de o nível de associação existente entre duas espécies. Foi proposto por FAGER (1957).5% de probabilidade são dados na Tabela 15. 11. A Constância de uma espécie poderá ser classificada da seguinte forma: a) Espécies constantes – presentes em mais de 50% dos levantamentos. J IA = − 0. É dado pela fórmula: n × 100 C= N Onde: n = Número de coletas contendo a espécies em estudo e N = Número total de coletas realizadas. B = Idem.5 A+ B Onde: A = Número total de indivíduos da espécie A coletados ou amostrados em todos os levantamentos.4 Constância Este parâmetro indica a percentagem de uma determinada espécie em relação a todos os levantamentos realizados. nB = Número de ocorrência da espécie B e j = Número de ocorrência conjunta das espécies A e B. É dado pela fórmula: 2j I AB = n A + nB Onde: nA = Número de ocorrência da espécie A.Apostila de Estatística Aplicada 41 11.

P. Jaccard. Lara.F. 5ª Ed. Science. Bioestatística.L & Stephan. Ed. Rey. 2ª ed. Ribeirão Preto: FUNPEC. 331 p.L. T. E. A.. S. S. F. Seropédica.W. Beiguelman. Poncã (Citrus reticulata Blanco) em cultivo orgânico e a interação com predadores e formigas.M & Prado. Rodrigues.D. Souza. Otte A. 273p and software included.M. 232p. London. D.C. J.H.. O. 169p. 1967. Brower. & Villa Nova. 1970... M. Barbin. Clark. & Wolters. 2003. I. Huirtec. S. 13ª ed (revista e ampliada).P. M. R. Gomes. Mulekar. Bioestatística Teórica e Computacional. Curso de Estatística Aplicada à Biologia.R. Manual de Ecologia de Insetos. São Paulo: Edgard Blücher. T. São Paulo. Estatística não paramétrica.H. 2ª ed. Field and Laboratory Methods for General Ecology. Curso prático de bioestatística. W. 2002. .H. 391p. T. Sorensen. The Ecology of insect Populations in Theory and Practice. Zar.. 168: 1345-1347. Landscape structure as an indicator of biodiversity: matrix effects on species richness. Biol. Siegel. 234p. 272p. Silveira Neto.. 1998. W. 126p.. 2001. 811p.. Zar. Ecosystems and Environment. 419 p.T. K.. A method of establishing groups of equal amplitude in plant sociology basead an similarity of species. Campinas: UNICAMP. 235p. Londrina: Planta. 43p. V. G. 318p..E. Caderno V. Computational Statistics & Data Analysis. Nakano. 5:1-34 Southwood. H. Laroca. Agronômica Ceres. Levine. E. Hughes.C. 467p. D. 1976. R. R. 1971. & Morris. P.N.P (Trad. 3): Ed. P. Princípios de Entomologia.. 1999. UFRuralRJ. Ecologia: princípios e métodos: Petrópolis: Vozes.J... B.O uso de análise multivariadas ecológicas em estudos ambientais interdisciplinares. Dauber. Chapman and Hall Ltd. T.1993. 1990. Simmering. 34: 121-137. Ed. 1979. C. Da UFG.E.William Costa Rodrigues 42 12 Bibliografia Arango.. W. 2ª reimpr. M. Lewinsohn. Rio de Janeiro: Guanabara –Koogan.E. 2002. Niterói: EdUFF. Methuen & Co. Berger. Centeno. 38:586595. Tese de Doutorado.L. D. 4th ed. 2000. Determination and analysis of recurrent groups.. 197p. Quebecor: MC Graw Hill. Confidence interval estimation of overlap: equal means case. & Mourão.S. Ecological Methods. & Mishra.W. 1992. J. Agriculture. 2000. The distribution of the flora in the alpine zone. Curso de Estatística Experimental. Skr.G. Rio de Janeiro: LTC. Homópteros (Homoptera: Sternorrhyncha) associados à tangerina cv. 1948. P. 1997. São Paulo: MC Graw Hill do Brasil. & von Ende. Berenson. N. F. 1995. Magnusson. Waldhardt. J. 339p. F. & Parker. 11:37-50. 63f. 1912.C. Diversity of Planktonic Foraminifera in Deep-Sea sediments. 2002. 2004. ícone. Vanzolini. S.). Biostatistical Analysis. D. Ecology. Geier. Planejar e redigir trabalhos científicos. Rodrigues. 4th ed. 663p and index included. Fager. New Jersey: Prentice Hall. Estatística [Sem] Matemática: A ligação entre as questões e a análise. 98: 321-329. Piracicaba: Nobel. NeroPhytal. 1957. A.M. J. P. 3ª ed. Métodos estatísticos elementares em sistemática zoológica. L. 2003. (revista e ampliada). Estatística: teoria e Aplicações usando Microsoft® Excel em português. 2000. 3ª ed. 130p. L. Hirsch.R. Goiânia (Coleção Didática.

Fluxograma Para Auxiliar na Escolha de Testes Estatísticos Dados com Distribuição Normal Dados com Distribuição Não Normal 2 Tratamentos 2 Tratamentos > 2 Tratamentos Dados Numéricos divididos em Categorias Teste T ANOVA Teste F Teste 2 (Qui-Quadrado) Não dividido em blocos (Amostras compostas) Dividido em Bloco Dados Pareados Dados não Pareados Não será abordado Calcula Valor 2 S2Maior S2Menor < 4 S2Maior S2Menor 4 Teste de KruskalWallis Teste de Friedman Calcula Valor H Variâncias iguais (Homocedásticas) Variâncias desiguais (Heterocedásticas) Calcula Valor 2r Calcula Variância Ponderada Compara com valor 2 Tabelado ( = 5%) Se 2calc 2tab Rejeita H0 Coloca * Se 2calc < 2tab Aceita H0 Coloca ns Calcula Valor T Se Tcalc Ttab Rejeita H0 Coloca * Compara com T tabelado ( =5%) Compara com 2 tabelado ( =1%) Compara com T tabelado ( =1%) Se Tcalc < Ttab Aceita H0 Coloca ns Se 2calc 2tab Coloca ** Se 2calc < 2tab Mantém * Se Tcalc Ttab Coloca ** Se Tcalc < Ttab Mantém * Conclui textualmente .Apostila de Estatística Aplicada 43 13 Anexos Figura 13.

06 2.84 2.16 2.13 2.92 5.06 3.09 2.12 2.01) 63.17 3. Valores de t -student em níveis de 5% e 1% (α=0.66 9.75 2.18 2.03 3.88 2.58 3 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.96 1.63 2.71 3.31 2.79 2.68 2.10 2.26 2.William Costa Rodrigues 44 Tabela 11.23 2.96 1% (α=0.14 2. .98 1.84 4.98 2.45 2.20 2.30 3.01 1.78 2.86 2.25 3.36 3.11 2.90 2. Grau de liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 50 100 500 ∞ 5% (α=0.04 2.11 3.60 4.50 3.71 4.09 2.01 2.92 2.18 2.59 2.95 2.01) de probabilidade3.05 a 0.05) 12.57 2.36 2. (1998).

34 58.30 27.28 49.81 18.64 46.21 11.41 32.34 13.05 a 0.98 40.49 54.57 38.28 15.22 27.07 15.40 48.78 56.21 24.65 38.99 52. (1998).64 9.48 20.29 41.09 16.98 44.05) 3.36 23.01) 6.84 5.11 41.77 44.30 43.60 50.07 12.69 4 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.76 1% (α=0.01) de probabilidade4.58 32.06 57.19 53.92 18.92 35.51 16.Apostila de Estatística Aplicada 45 Tabela 12.00 33.09 21. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0.34 42.87 30.49 11.38 54.89 48.19 37.57 55.88 40.43 63.72 26.89 61.31 45.17 36.62 59.00 26.59 28.59 14.80 50.99 7. .42 37.41 34.23 49.99 46.31 19.80 36.67 33.64 42.03 22.68 25.60 49.82 9.69 29.14 30.16 62.67 23.19 47.14 31.96 48. Grau de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 5% (α=0.68 21.

794 0.460 0.738 0.152 0.207 0.306 0.833 0.072 0.248 0.500 0.615 0.433 0.538 0.310 0.560 0.189 0.503 0.337 0.564 0.236 0.391 0.503 0.521 0.235 0.435 0.727 0.279 0.220 0.335 0.244 0.321 0.248 0.363 0.600 0.521 0.398 0.331 0.587 0.635 0.643 0.318 0. Valores críticos para o Coeficiente de Correlação de Spearman (rs) 5 n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 α(2) 0.294 0.264 0.600 0.097 0.297 0.829 0.070 0.180 0.618 0.089 0.401 0.271 0.654 0.093 0.556 0.255 0.110 0.266 0.05 – 1.148 0.068 0.174 0.425 0.000 0.511 0.156 0.700 0.786 0.406 0.648 0.176 0.600 0.William Costa Rodrigues 46 Tabela 13.170 0. .447 0.165 0.307 0.191 0.380 0.224 0.415 0.414 0.182 0.082 0.446 0.472 0.000 0.074 0.484 0.10 1.353 0.429 0.467 0.371 0.881 0.257 5 A tabela completa poderá ser consultada em Zar (1999).464 0.755 0.382 0.000 0.076 0.703 0.929 0.362 0.206 0.900 0.202 0.200 0.532 0.198 0.361 0.209 0.118 0.185 0.485 0.01 – – 1.536 0.279 0.283 0.103 0.142 0.165 0.128 0.287 0.085 0.544 0.346 0.217 0.267 0.679 0.50 0.213 0.264 0.344 0.227 0.235 0.370 0.197 0.079 0.214 0.144 0.405 0.584 0.170 0.886 0.714 0.161 0.313 0.570 0.

55+ 42.28 27.26 84.44 5.21 68.74 8.13 5.02 81.82 40.5 0.98 41.72 63.46 18.71 43.37 20.7 99.31 31.34 16.8 99.63 4.44 88.34 60.97 22.57 74.56 84.67 36.79 23. seguindo ângulos terminados em 5.44 % 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99.10 25.2 0.19 90.0 99.35+ 25.3 0.87 85.90 65.27 21.66 31.20 85.97 28.87 48.43 45.54 12.13 53.08 78.05+ 58.1546.66 75.14 3.21 33.84 26.02 49.63 71.87 69.56 85.85 44.00 % 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 0 45.53 53.77 51.23 39.87 37.13 42.94 55.29 47.72 47.4 0.56 72.92 14.27 36.6539.00 30.81 2.65 66.1 0.06 35.28 43.45 80.43 17.18 15.00 - Os sinais (+) e (-).18 50.58 32.6 0.57 46.73 54.87 84.42 67.06 38.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 0 1.35+ 51.83 34.67 61.2 99.3 99.03 68.37 86.80 5.16 64.1 99.58 24.9532.Apostila de Estatística Aplicada 47 Tabela 14.33 54.8 0.4 99.79 57.6 99.44 4.0 0 64. 6 A tabela completa poderá ser consultada em Zar (1999).82 77.5 99.42 58.33 30.9586.05+ 4.47 38.4535.66 29. Valores para transformação arcsen % 6 % 0.69 59.40 40.03 62.7 0.17 56.44 19.0 0.34 62.86 87.55+ 56. .9 100.54 73.4549.13 9.60 50.56 3.13 21.00 60.73 70.94 52.98 11.56 % 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 27. são orientações para arredondamento a uma decimal.

nA 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100 1. 1971).5 5 6 7 8 8 9 16 22 29 35 42 48 55 61 67 2.0 5 5 6 7 7 8 14 19 25 29 36 41 46 52 57 nB/na 1.William Costa Rodrigues 48 Tabela 15.0 – 6 7 8 9 10 17 24 32 39 46 53 59 67 74 . Valores mínimos de j. significativos a 0.5% (Southwood.

Preste atenção ao que está fazendo. C. tirando todas as vantagens que puder. onde quer que você esteja. 154 ************* .Apostila de Estatística Aplicada 49 ************* O minuto que você está vivendo agora é o mais importante de sua vida. Torres Pastorinho Minutos da Sabedoria. Procure aproveitar ao máximo o momento que está vivendo. Viva o momento presente. O amanhã ainda não chegou. p. O ontem já lhe fugiu das mãos. para seu aperfeiçoamento. porque dele depende todo o seu futuro.