6ª Edição Revisada e Ampliada
O Autor:
William Costa Rodrigues é Agrônomo, Doutor em Fitotecnia e PósDoutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de Ecologia1, Toxicologia1, Climatologia1, Estudos de Impacto Ambiental1, Estatística Aplicada2 e Auditoria Certificação Ambiental2, Metodologia da Pesquisa Científica2 na graduação e de Estatística Ambiental1 e Biondicadores Ambientais1 na especialização de Planejamento e Gestão Ambiental1, onde também é Supervisor Pedagógico. Atua como desenvolvedor de softwares agrícolas e Científicos. Coordenador Geral do projeto Entomologistas do Brasil (www.ebras.bio.br). Coordenador e autor de capítulos no livro Citricultura Fluminense: Principais pragas e seus inimigos naturais. Trabalha ativamente com análise estatística em projetos na área agrícola e ambiental. O autor poderá ser contatado através do e-mail: wcostarodrigues@yahoo.com.br.

Esta Obra:
A apostila Estatística Ambiental foi inicialmente utilizada no programa de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e no Curso de graduação em Gestão Ambiental, na disciplina Estatística Aplicada, tendo como objetivo informar o discente sobre os princípios básicos da estatística, relacionando-a com a metodologia científica, possibilitando um entendimento básico sobre o assunto. Hoje a apostila é também utilizada em cursos de graduação. Capa: Fotos do Autor na Ilha da Marambaia. Foto superior Casulo de Plecoptera e foto inferior, córrego onde ao casulo foi coletado.

Esta obra é distribuída através da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br

Copyright©2004-2008 Rodri Copyright©2004-2008, W.C. Rodrigues

1 2

Disciplina Ministrada na Universidade Severino Sombra Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental

Sumário
1 Introdução................................................................................................................. 1 1.1 Crescimento e Desenvolvimento da Estatística Moderna ................................ 1 1.2 Variação ao Acaso ............................................................................................ 1 Ensaio x Experimentação ......................................................................................... 2 Conceitos Estatísticos ............................................................................................... 2 3.1 Estatística Descritiva ........................................................................................ 2 3.2 Inferência Estatística......................................................................................... 2 3.3 Tipos de Dados ................................................................................................. 3 3.3.1 Variáveis Aleatórias Categorizadas.......................................................... 3 3.3.2 Variáveis Aleatórias Numéricas ............................................................... 3 Por que Utilizar a Estatística .................................................................................... 4 Planejamento Experimental...................................................................................... 4 5.1 Fases do Planejamento ..................................................................................... 4 5.1.1 Problema................................................................................................... 5 5.1.2 Informações Existentes............................................................................. 5 5.1.3 Noções Gerais Sobre Hipótese ................................................................. 5 5.1.4 Formulação das Hipóteses ........................................................................ 6 5.1.4.1 Elaborando as hipóteses........................................................................ 6 5.1.4.2 Hipótese Estatística x Hipótese Científica ........................................... 6 5.1.5 Testando as Hipóteses .............................................................................. 6 5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses ..................... 6 5.1.7 Aleatorização ............................................................................................ 7 5.2 Erros de Observações ....................................................................................... 7 5.2.1 Erros do Observador................................................................................. 7 5.2.2 Erro do Método de Observação ................................................................ 8 5.2.3 Por Falta de Resposta ............................................................................... 8 5.3 Controle dos Erros nas Observações ................................................................ 8 5.4 Métodos de Coleta de Dados ............................................................................ 8 5.4.1 Fontes Primárias ....................................................................................... 8 5.4.2 Fontes Secundárias ................................................................................... 8 5.5 Pesquisa Observacional .................................................................................... 9 5.6 Pesquisa Experimental...................................................................................... 9 5.6.1 Princípios da Experimentação ................................................................ 10 5.7 Tipos de Amostras .......................................................................................... 10 5.7.1 Amostras Simples ao Acaso ................................................................... 10 5.7.2 Amostra Estratificada ............................................................................. 11 5.7.3 Amostra Sistemática ............................................................................... 11 5.7.4 Amostra por Área ................................................................................... 11 5.7.5 Amostra por Conglomeradas .................................................................. 11 5.7.6 Amostra Selecionada .............................................................................. 11 5.8 Determinação do Tamanho da Amostra ......................................................... 12 5.8.1 Tamanho da Amostra para Dados Discretos .......................................... 12 5.8.2 Tamanho da Amostra para Dados Contínuos ......................................... 13 Técnicas Estatísticas Para Análise de dados .......................................................... 14 6.1 Medidas de Tendência Central ....................................................................... 14 6.1.1 Média Aritmética Simples ( X ) .............................................................. 14 6.1.2 Média Aritmética Ponderada .................................................................. 14 6.1.3 Média Aritmética de Dados Agrupados em Intervalos .......................... 15

2 3

4 5

6

6.1.4 Mediana (Me) ......................................................................................... 16 6.2 Medidas de Variação ...................................................................................... 17 6.2.1 Desvio-Médio (DM) ............................................................................... 17 6.2.2 Desvio Padrão......................................................................................... 17 6.3 Variância ou Quadrado Médio ....................................................................... 18 6.4 Erro-Padrão da Média - s(x) ........................................................................... 19 6.5 Coeficiente de Variação.................................................................................. 19 6.6 Curva de Distribuição Normal........................................................................ 19 6.6.1 Limites de Confiança.............................................................................. 21 6.6.2 Erro Padrão ............................................................................................. 22 6.7 Teste de Normalidade dos Dados ................................................................... 22 6.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 22 6.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 22 7 Testes Paramétricos e Não Paramétricos................................................................ 23 7.1 Teste t - Student.............................................................................................. 23 7.1.1 Dados Pareados (Amostras Dependentes).............................................. 24 7.1.2 Dados Pareados (Amostras Independentes) ........................................... 25 7.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)........... 26 7.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas) ................. 27 7.2 Teste Qui-Quadrado (χ²) ................................................................................ 28 7.3 Tabela de Contingência .................................................................................. 28 7.4 Teste de Kruskal-Wallis ................................................................................. 29 7.5 Teste de Friedman (Análise da Variância) ..................................................... 31 8 Correlação Linear ................................................................................................... 32 8.1 Coeficiente de Correlação (r) ......................................................................... 32 8.1.1 Correlação de Pearson ............................................................................ 32 8.1.2 Correlação de Spearman......................................................................... 32 8.1.3 Aspectos Gerais da Correlação Linear ................................................... 33 8.2 Coeficiente de Determinação (r²) ................................................................... 34 8.3 Coeficiente de Alienação (K) ......................................................................... 34 8.4 Significância do Teste de Correlação ............................................................. 34 8.4.1 Significância Baseada nos Intervalos ..................................................... 34 8.4.2 Significância Baseada no Teste t para r (Pearson) ................................. 35 9 Análise de Regressão.............................................................................................. 35 9.1 Regressão Linear Simples .............................................................................. 36 9.2 Regressão Linear Múltipla.............................................................................. 36 9.3 Regressão Múltipla ......................................................................................... 37 10 Transformação de Dados .................................................................................... 37 10.1 Raiz Quadrada ................................................................................................ 38 10.2 Transformação Logarítimica .......................................................................... 38 10.3 Transformação Angular (Arcoseno)............................................................... 38 10.4 Considerações Gerais ..................................................................................... 38 11 Testes Específicos Para Análise de Populações e Comunidades ....................... 38 11.1 Índice de Diversidade e Dominância Populacional........................................ 38 11.1.1 Índice de Margalef (α)............................................................................ 39 11.1.2 Índice de Glason (Dg) ............................................................................. 39 11.1.3 Índice de Menhinick (Dm) ...................................................................... 39 11.1.4 Índice de Shanon-Wiener (H') ................................................................ 39 11.1.5 Índice de Dominância Berger-Parker (d)................................................ 39 11.2 Exemplo.......................................................................................................... 39

11.3 Índice de Similaridade entre Populações........................................................ 40 11.3.1 Quociente de Similaridade...................................................................... 40 11.3.2 Porcentagem de Similaridade ................................................................. 40 11.3.3 Índice de Afinidade ................................................................................ 41 11.3.4 Constância .............................................................................................. 41 11.3.5 Índice de Associação (IA) ...................................................................... 41 12 Bibliografia......................................................................................................... 42 13 Anexos ................................................................................................................ 43

......................................................................... 47 Tabela 15. Classificação do valor r através de intervalos de acordo com e Teste de Rugg......... Aphididae) em função da brotação foliar de tangerina cv Poncã.......... 34 Tabela 8................. Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis............... .................. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0.........................................01) de α probabilidade.......... 48 ......... .. 45 Tabela 13................................. ............... Classificação do valor r através de intervalos de 0 a 1.......... Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril.................................... Valores para transformação arcsen % .............................................................. 40 Tabela 11................................... 1971)....... 34 Tabela 7.. Índices de diversidade de cochonilhas em agroecossiema cítrico....................................................... Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera......................................... em mg................. Exemplo para o Microsoft Excel.... Duas comunidades com sua composição de espécies em percentagem ............................................ Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata.........01) de α probabilidade ..05 a 0....................................... numa área de re-vegetação (dados fictícios)................. 35 Tabela 9........... Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios)........ significativos a 0.......Índice de Tabelas Tabela 1............ 25 Tabela 4............................................. no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues.................... sob cultivo orgânico na Fazendinha Agroecológica................................................. 46 Tabela 14... ......................................................... 33 Tabela 6...... em quatro diferentes profundidades.................................... 31 Tabela 5.. ... 2004)...... Correlação de Spearman entre as notas brutas de matemática e biologia (Zar..............5% (Southwood.. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo................. Valores de t -student em níveis de 5% e 1% (α=0............ 1999).... Valores mínimos de j................. (dados fictícios)......................05 a 0.................. ........................... Valores críticos para o Coeficiente de Correlação de Spearman (rs).................................. 7 Tabela 2. ...........mm³ de β solo ...... 24 Tabela 3................. 40 Tabela 10................. 44 Tabela 12..............

........................................................................................ Regressão múltipla entre a flutuação populacional de T............ Poncã................ A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área............... 10 Figura 4....... Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ....... baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B)...... 20 Figura 6.... .......... . Poncã. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues...... mostra que a relação entre X e Y obedece a uma lei mais completa................ Poncã............ Diagrama de tipos de dados .............. na Fazendinha Agroecológica.............. Poncã.......... tendo por parâmetros µ=0 e s= 1.............................. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues....... na Fazendinha Agroecológica............Índice de Figuras Figura 1. em cultivo orgânico de tangerina cv.............. indicam as percentagens de valores de X aí contidas................. Curvas de distribuição normal das freqüências de X....... ........ tendo a mesma média (µ) µ e diferentes graus de dispersão dos valores de X.. isto é...... em que foram registrados outros valores intermediários (definidos pelos pontos B e C)................. 36 Figura 10................ Curva de distribuição normal simétrica.. medidos em unidades de desvio-padrão........... O gráfico à esquerda............................... 36 Figura 11.. 3 Figura 2. aurantii e a brotação foliar de tangerina cv. 2004)............. 22 Figura 8...................................... Correlação múltipla da amplitude térmica (variável x). 20 Figura 5. onde µ é a média e s o desvio padrão.. 21 Figura 7........... Correlação linear simples positiva (A)................. sob a curva.... Interpretação dos dados experimentais...................... 4 Figura 3. em cultivo orgânico de tangerina cv.... aurantii e a brotação foliar de tangerina cv......... 37 Figura 13.......... desvios padrões (s) diferentes.... As áreas sob a curva assinaladas entre os traços verticais................................ na Fazendinha Agroecológica.......... e inversa ou negativa (B).......... 33 Figura 9... Curva normal padrão....... parece sugerir que Y cresce à medida que X cresce........................ 37 Figura 12.... Regressão linear simples entre a flutuação populacional de T........................ Poncã. Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel...... em cultivo orgânico de tangerina cv.......... 2004)................. brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z)................ 43 ............................ situada à esquerda de C............................ .................................. com seus diversos níveis de categorias. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues......... entretanto no gráfico à direita........... Fluxograma Para Auxiliar na Escolha de Testes Estatísticos ................... apresentando a linha de tendência de regressão linear simples de dados fictícios.... 2004)............... Diagrama de uma estatística descritiva.............

Bom. seja por exigências do próprio desenvolvimento do país. morte e casamentos. quando o IBGE faz uma visita a sua casa para o censo. e mesmo pela utilização dos resultados e pesquisas feitas por aqueles que a isso se dediquem. Eles são indicados pela designação geral de variação do acaso ou variação aleatória. faz parte também. em todos os dados obtidos. 1. você está fazendo parte da estatística. O efeito dessa variação do acaso é tal que pode alterar completamente os resultados experimentais. o estudo da estatística justifica-se pela necessidade de desenvolver pesquisas. que irá interferir na distinção das cores.Apostila de Estatística Aplicada 1 1 Introdução Diariamente estamos envolvidos em análises estatísticas. e mesmo pela utilização dos resultados e pesquisas feitas. poderá haver. Na área ambiental. não podem ser conhecidos individualmente e alteram pouco ou muito. as instituições religiosas freqüentemente mantinham registros relativos a nascimentos. As variações ao acaso podem ser exemplificadas como: temperatura ambiente. Esses efeitos. eu disse quase tudo. podemos empregar a estatística. uma interferência da luz solar. Durante as civilizações egípcias. Isso levou ao desenvolvimento de computadores mainframe e finalmente a revolução dos computadores pessoais. os resultados obtidos. A estatística. ela representa um valioso instrumento de trabalho nos dias de hoje. da análise e da interpretação de dados observados. obviamente que não podemos deixar a estatística dominar nossas vidas. . o desenvolvimento da teoria da probabilidade e o advento da informática. quando você é abordado na rua para responder qual o candidato irá votar na próxima eleição. os dados eram obtidos principalmente com o objetivo de recolherem impostos e para o recenseamento militar. avaliando o crescimento populacional e a distribuição desta população no território nacional entre outros aspectos avaliados. como parte da matemática aplicada. Estudando os mais variados fenômenos das diversas áreas do conhecimento. Foram levantados dados através dos registros históricos.2 Variação ao Acaso O que dificulta ao trabalho de pesquisador e exige a análise estatística é a presença. 1. etc. mas não é só desta forma que você faz parte do infinito mundo da estatística. quando seu salário aumenta. aferição do aparelho utilizado para mensurar. grega e romana. realizar experimentos. variação nos intervalos de amostragem. De fato. a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de equipamentos de tabulação no início do século XX. ao comparar no campo duas paisagens. de efeitos fatores não controlados (que podem ser controlados). Desta forma. por exemplo. trata da coleta. variação no horário de coleta dos dados. Assim. pois o principal objetivo desta ferramenta é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor indicar o caminho para uma tomada de decisão.1 Crescimento e Desenvolvimento da Estatística Moderna Historicamente. Quando você está desempregado ou empregado. sempre presentes. podemos ver que em quase tudo. o crescimento e o desenvolvimento da estatística moderna podem ser relacionados a três fatores isolados – a necessidade dos governos de coletar dados dos cidadãos. está fazendo parte da estatística. No Brasil o censo é realizado a cada 10 anos. seja visando o aprimoramento de métodos e técnicas de investigação. se a avaliação for. Na Idade Média. em dias diferentes. realizar experimentos.

Uma amostra é a parte da população selecionada para análise. O número de amostra deverá ser suficiente para avaliar os dados com a maior precisão possível O tamanho do experimento deverá ser suficiente para avaliar os dados. como um produto de teoria da probabilidade. A análise e interpretação dos dados deverão ser rigorosas e adequadas ao tipo de experimentação realizada. as definições seguintes são necessárias: Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado. O número de amostras é reduzido. Um parâmetro é a medida calculada para descrever uma característica de toda uma população. Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização dos dados. Diferenças entre Ensaio e Experimentação. A análise e interpretação dos dados não podem possuir muito rigor e deve se adequar ao tipo de ensaio realizado.William Costa Rodrigues 2 2 Ensaio x Experimentação Existem diferenças básicas entre os dois métodos de avaliar um dado científico. .1 Estatística Descritiva Pode ser definida como os métodos que envolvem a coleta. a apresentação e a caracterização de um conjunto de dados de modo a descrever apropriadamente as várias características deste conjunto. Uma estatística é a medida calculada para descrever uma característica de apenas uma amostra da população. Experimentação O tempo de avaliação deverá ser o suficiente para que os dados coletado possam garantir uma avaliação. Quadro 1. As variações ao acaso são controladas com rigor.2 Inferência Estatística Pode ser definida como os métodos que tornam possível a estimativa de uma característica de uma população ou a tomada de uma decisão referente à população com base somente em resultados de amostras (Figura 1). etc. possibilitando assim menor erro amostral e na análise estatística. número de amostragens realizadas. Abaixo no Quadro 1 são listadas as diferenças entre os dois métodos. com margem de erro menor possível. que levou à ampla aplicação da estatística em todos os campos de pesquisas atuais. número de amostras. foi o desenvolvimento de métodos estatísticos de inferência. não havendo rigor. Ensaio Tempo de duração da avaliação é curta. As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a forma de apresentação dos dados. 3. Para tornar mais claro esta definição. 3 Conceitos Estatísticos 3. As variações ao acaso são parcialmente controlados. objetivando somente uma pré-avaliação dos resultados. O tamanho do experimento é reduzido.

ou universo. Desse modo. Decisões pertinentes às características da população devem ser baseadas na informação contida numa amostra da população. . População/Universo Amostra Parâmetro Estatística Figura 1. com seus diversos níveis de categorias. O objetivo da pesquisa é descrever várias atitudes ou características de toda a população (os parâmetros).1 Variáveis Aleatórias Categorizadas Este tipo de variável produz respostas categorizadas. ou das pessoas que habitam uma casa.3. segundo determinadas regras e critérios. consome muito tempo e é muito cansativo obter informações sobre a população inteira. 3. um aspecto principal da inferência é o processo que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população. A amostra pode ser definida também como o conjunto de observações extraídas de uma fonte (população).3 Tipos de Dados Existem basicamente dois tipos de dados de características de variáveis aleatórias que podem ser estudadas e que produzem os resultados ou os dados observados: categorizados ou numéricos (Figura 2). é geralmente dispendioso demais. a resposta é discreta. Quando a população se torna grande. A necessidade da inferência estatística deriva da necessidade da amostragem. digamos que há uma necessidade de saber a opinião da qualidade de vida no campus de sua faculdade. como é o caso dos seres humanos ou das plantas superiores ou das bactérias. será todos os alunos da faculdade.2 Variáveis Aleatórias Numéricas Produz respostas numéricas. como é o caso das irmandades com mais de um indivíduo. carro? 3. podendo ser números discretos ou contínuos. ou por elementos coletivos. Por exemplo. A resposta para pergunta: "Quantos livros você possui?". A população. enquanto a amostra consistirá os estudantes selecionados para participar da pesquisa. é contínua. 3. das famílias.Apostila de Estatística Aplicada 3 Para melhor elucidar estes conceitos. sendo a população a fonte de observações. enquanto a reposta para "Qual a sua altura?". Diagrama de uma estatística descritiva.3. você tem Sim Não. A população pode ser constituída de elementos simples. Isto seria alcançado utilizando-se as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características de interesse da população.

. Tipos de Dados Categorizadas Numéricas Discretas Você possui carro? Quantas revistas você assina? Contínuas Qual sua altura? Sim Não 5 1. como a ferramenta que irá dizer se. por exemplo.William Costa Rodrigues 4 Dados discretos são respostas numéricas que surgem a partir de processo de contagem e dados contínuos são repostas numéricas que surgem a partir de um processo de medição. segue exemplos de variáveis tanto para aleatórias categorizadas. A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpretação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recusá-la. 5 Planejamento Experimental 5. entretanto o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos resultados e levam-na ao descrédito.75m Figura 2. Desta forma devemos ter muito cuidado ao utilizar à estatística. Diagrama de tipos de dados 4 Por que Utilizar a Estatística A Estatística é uma área da matemática muito utilizada hoje em dia. Estas informações deverão ser avaliadas e criticadas. "uma área será condenada por poluição de metais pesado no solo". primeiro consideramos sua importância. Se houver alguma informação que possa auxiliar como ponto de partida. Em suma. quanto para aleatórias numéricas (discretas e contínuas). pois os dados poderão apresentar falhas ou nada representaram para o estudo do problema ou para a elaboração das hipóteses a serem formuladas. O que pode ocorrer é que a estatística irá indicar uma diferença numérica. traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização. Na Figura 2. Em seguida.1 Fases do Planejamento Quando realizamos um estudo. caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático e tomar a decisão. diremos que os dados selecionados devem ser os estritamente necessários. esta poderá fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar nossa experiência.

Uma própria de fenômenos sobre os quais não podemos influir nem exercer qualquer controle.1 Problema Ao planejar o problema que se vai pesquisar. por mais justa e sólida que possa parecer. p. dizer que se vai estudar a biodiversidade da floresta atlântica. A outra seria a interdependência das duas variáveis. Na prática. 9). que precede a outra. ou de experimentação. guardam entre si relações de causa e efeito (direta ou indiretamente).1. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para o estudo. o pesquisador deve revisar tudo o que diz respeito ao fato em estudo. pois provavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os aspectos da biodiversidade ou da poluição. A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à da pesquisa. Por sua vez. como observar e medir seus valores e como analisar as relações qualitativas e quantitativas que possam existir entre eles (ver item Pesquisa Observacional. com a finalidade de saber o que já se conhece sobre o assunto. o efeito da poluição do rio Paraíba do Sul. O planejamento de pesquisa consiste. de tal forma que se possa demonstrar a existência de uma relação constante entre os valores de X e Y. A variável X. mantém-se a hipótese como boa. ou alterações dos valores de Y quando varia X. na elaboração de um plano de observação. O que se faz é verificar se ela não seria falsa. o que se tem em vista é verificar uma relação de causa e efeito: queremos saber se a variável X e a variável Y. é chamada variável independente. enquanto Y. essas conseqüências e previsões serão testadas. Sabemos que a veracidade de uma hipótese nunca pode ser demonstrada ou provada definitivamente. 5. que se supõe depender de X. podemos encontrar duas situações. . requer demonstração ou prova de sua adequação. Não basta. resultado de um raciocínio indutivo (consciente ou subconsciente). Definir a importância do problema que se estuda é explicar o que vamos estudar. peculiares a determinado fenômeno. para ver se a hipótese adotada ainda se mantém ou não. Será impossível o planejamento das etapas subseqüentes se não ficar claramente evidenciado o problema a investigar. então. se necessário.Apostila de Estatística Aplicada 5 5. é a variável dependente. por exemplo. portanto.1. Dela deduzimos as conseqüências ou fazemos previsões. Determinação do(s) objetivo(s) e finalidade da investigação. deverá ser dada especial atenção aos seguintes pontos: Definição da importância do problema que se estuda.1. Muitas vezes.2 Informações Existentes Antes de empreender o experimento.3 Noções Gerais Sobre Hipótese A hipótese. Enquanto não se possa demonstrar que ela é incorreta. Do ponto de vista operacional. É importante também especificar sua extensão. teremos de montar uma observação ou uma experiência em que se possa verificar o aparecimento de Y quando ocorre X. o que nos levaria a rejeitá-la e a formular outra. limitando-se o estudo científico à observação de como X e Y se apresentam espontaneamente. 5. A estratégia para isso depende da natureza do problema em causa. destinado a contestar determinada hipótese.

será As substâncias não possuem a mesma capacidade de reação. 5. X n 5. As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese científica. A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela.1. etc. somada com uma facilidade de concluir de acordo não somente pelos números.). 14.. Desta forma. uma boa revisão bibliográfica e uma interpretação imparcial dos dados. que são denominados testes estatísticos.. que se dividem basicamente em Teste Paramétricos e Não Paramétricos.. valerá além da experiência do pesquisador. que geralmente são denominadas de H0 ou Hipótese nula e H1 ou Hipótese alternativa.1 Elaborando as hipóteses O pressuposto a hipótese estatística é sempre testar a nulidade dos dados.1.1. Na verdade. mas pela descrição do fato.1.4.4. porém a resposta para entendimento dos resultados. H a : X1 ≠ X 2 ≠ X 3 ≠ . . não será somente baseada em um modelo matemático. H 0 : X1 = X 2 = X 3 = . p. que não o permite avaliar variáveis complexas e multáveis (clima.1. A hipótese nula admite que os resultados sejam iguais ou com diferenças aleatórias entre os tratamentos.. etc. Normalmente testa-se através de modelos matemáticos. 5.5 Testando as Hipóteses Existem várias formas de testar as hipóteses elaboradas. Um erro do tipo II ocorre se a hipótese nula H0 for rejeitada quando de fato é falsa e não deveria ser rejeitada. Por exemplo. que serão visto no item Técnicas Estatísticas Para Análise de dados.6 Riscos na Tomada de Decisão Através Teste de Hipóteses Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da população. em um experimente está sendo testada a capacidade de duas substâncias possuírem o mesmo poder de reação química. social. efeito antrôpico. nas proporções utilizadas. testa a falta de nulidade ou falta de diferenças aleatórias entre os tratamentos.2 Hipótese Estatística x Hipótese Científica A hipótese estatística testa somente os dados numéricos obtidos através de um modelo matemático fixo e contendo restrições. seja ela: biológica. testa duas hipóteses. X n Já a hipótese alternativa. 5. A H0 deverá ser a seguinte: As substâncias possuem a mesma capacidade de reação. dois tipos de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses: Um erro do tipo I ocorre se a hipótese nula H0 for rejeitada quando de fato é verdadeira e não deveria ser rejeitada. Já a H1.4 Formulação das Hipóteses A estatística.William Costa Rodrigues 6 5. existe um risco de se chegar a uma conclusão incorreta.

ou seja. haverá sempre uma discrepância entre as amostragens realizadas. o modelo matemático poderá não prevê erro tão grande. Erros cometidos pelo observador deverão ser considerados no modelo matemático escolhido para análise dos dados.1 Erros do Observador O grau de treinamento dos observadores. 5. Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro experimental possível. 5. tais discordâncias não refletem uma variação real. Devemos concluir que. as mesmas 500 fotos. o pesquisador terá a oportunidade de verificar a existência de diferenças entre os mesmos. e sim cometida por quem procedeu à leitura do material fotográfico. (dados fictícios) Observador A B C D E Fotos onde a degradação foi considerada positiva (nº) 1ª leitura 2ª leitura 118 139 69 78 83 88 96 89 106 92 Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes observadores coincidiram quanto ao número de fotos consideradas positivas para o referido diagnóstico. seja por falha no aparelho utilizado ou pela desatenção do observador. Através da observação ou coleta de dados. São os erros experimentais oriundos de fatores que não podem ser controlados.Apostila de Estatística Aplicada 7 5.1. Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata. forem muito discrepantes.2. Entretanto se estes erros forem muito distantes. poderíamos citar a experiência de que participaram cinco técnicos especializados em análise de foto aérea (foto interpretação). não tendencioso. o excesso de trabalho. que examinaram em épocas separadas por um período de dois meses. Tabela 1.2 Erros de Observações Quanto aos componentes de uma população.7 Aleatorização Na oportunidade em que organizamos os ensaios devemos proporcionar condições idênticas para cada tratamento. Como exemplo. Com este processo o erro experimental poderá ser mensurado através do modelo matemático utilizado para analisar os dados. ou seja. As fotos foram interpretadas separadamente por cada técnico conforme a Tabela 1. possibilitando que se houver algum erro este seja atribuído ao acaso. com a finalidade de verificar a degradação ambiental acentuada das áreas fotografadas. seu estado físico e condições ambientais podem ser as principais causas de erros das observações. . O mesmo foi verificado em relação a cada um dos observadores que apresentaram resultados diferentes entre as duas leituras.

3 Controle dos Erros nas Observações Apesar da distinção que procuramos dar ás diferentes fontes de erros. o dado que irá compor o conjunto de informações a serem analisadas. Devemos lembrar que eles são bastante independentes. Em experimento. pois irão permitir uma flexibilidade de estimar o dado faltoso. Por exemplo. Ele ocorrerá se não houver a possibilidade de obter. o erro por falta de resposta ocorrerá através da perda de uma parcela.William Costa Rodrigues 8 5.4. 5. É óbvio que a qualidade deverá ser . 5. Qualquer que seja a causa dos erros anteriormente abordados. da coleta dos dados ter sido realizada por outra pessoa. houve uma seca muito intensa secando a água no ponto de coleta pré-determinado. consideramos que a informação foi recolhida de fonte primária e no segundo caso dizemos que a fonte é secundária. Este tipo de fonte é chamado secundário.3 Por Falta de Resposta Este tipo de erro poderá ou não ocorrer no experimento. Por isso há uma preocupação natural de todo pesquisador em aperfeiçoá-los ou substituí-los por outros métodos mais eficientes a fim de aumentar a exatidão dos resultados. 5. não sendo utilizados dados previamente coletados por outro pesquisador. assim a metodologia deverá prever a coleta de dados na fonte primária. dentro da metodologia. devemos ir a acampo para obtê-lo. assim não poderá o observador coletar em outro ponto. que constituem blocos e parcelas. 5. já que a metodologia previu que aquele era o ponto a ser amostrado. desta forma.2 Fontes Secundárias Quando as informações que nos interessa já foram coletadas por outro pesquisador. podemos utilizá-las.4. 5. houve um erro por falta de resposta. No primeiro caso. A coleta esta sendo realizada no campo. em muitas ocasiões podem-se aproveitar dados previamente obtidos por outras pessoas.2. Cada método em particular pode ter uma série de fatores que conduzem à distorção dos resultados. pelo simples fato. Os erros dependentes dos observadores podem ser minimizados por uma preparação e por um treinamento mais eficientes. na coleta de informações a respeito da poluição de um determinado córrego. Os modelos matemáticos que prevêem erros por falta de resposta são apropriados. Os erros causados pelos métodos de observação podem ser reduzidos selecionando-se o funcionamento dos aparelhos utilizados.4 Métodos de Coleta de Dados Embora a maioria das experimentações as informações devam ser retiradas diretamente no "campo". assim como por uma melhoria das condições físicas e de trabalho. estes poderão ser reduzidos ou eliminados de acordo com as coisas que os determinam.2 Erro do Método de Observação Os métodos de observação possuem erros mais ou menos importantes. Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de um determinado córrego.2.1 Fontes Primárias Quando não há informações dos dados que queremos estudar.

Exige que o pesquisador seja curioso. devemos verificar a metodologia utilizada. capaz de com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais. duas concentrações de uma substância. os valores de uma variável independente (eixo das abscissas . 5. são confrontados com os dados da variável dependente (eixo das ordenadas . para o estudo em causa. Em sua essência.6 Pesquisa Experimental A experimentação ou experimento ou simplesmente experimento é um método científico e de observação dos fatos ou fenômenos naturais. Sempre que possível. e os inúmeros outros que se apresentam concomitantemente. Deve ser persistente. de idéias fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente.5 Pesquisa Observacional Em certos campos da biologia e das ciências sociais. bem definidos. Então a observação científica adquire grande importância e deve ser feita com o máximo de cuidado. como a resposta do organismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator ensaiado. e o crescimento em peso ou altura. são geralmente denominadas variáveis independentes. etc. objetivo e imparcial. Teorias tão fundamentais como a da evolução forma estabelecidas com base exclusiva na observação da natureza. portanto. por exemplo. são as variáveis independentes. sob condições particulares estabelecidas pelo pesquisador. Mas.X).Y). Por isso deve ser atenta. paciente. torna-se em geral necessário experimentar três ou mais valores de variável independente. na praticam a validade de suas bases. a presença ou a ausência de luz.Apostila de Estatística Aplicada 9 levada em consideração. repetidas e quantificadas. completa. a administração ou não de um medicamento. apenas duas condições da variável são testadas (por exemplo: duas temperaturas. A viagem de Darwin ao redor do mundo permitiulhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada por Lamarck. para que se possa apreciar seu efeito e estabelecer a lei do fenômeno. a experimentação deve permitir comparar o efeito de suas ou mais condições ou tratamentos. 5. além do que. no atributo. . em estudos de dietas ou os alimentos administrados seriam as variáveis independentes. As condições. os métodos experimentais podem ser difíceis ou mesmo impossíveis de aplicar. Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. de modo permitir clara distinção entre os fatos que são relevantes. as observações devem ser corretamente registradas. precisa e metódica.). Suas observações sobre as relações entre organismos e o meio contribuíram decisivamente para a criação da ecologia. Darwin buscou correlacionar as características próprias das espécies com as condições do meio em que vivia cada uma delas. Em experiências mais simples. corresponderiam às variáveis dependentes. partindo-se de medidas rigorosas que permitam a análise estatística dos dados. Assim. que o pesquisador seleciona ou manipula na experiência. para saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder. (Figura 3). porém analítica. sobre um atributo do organismo ou material que é objeto da pesquisa. enquanto que as mudanças observadas em conseqüência. Por vezes. A observação deve ser inteligente e sagaz.

etc. Os modelos estatísticos a serem utilizados na experimentação deverão ser adequados ao que se pretende responder. ou seja. pois permitem uma melhor análise dos dados.7 Tipos de Amostras 5. quando possíveis. O experimento deverá ser realizado de acordo com uma técnica já conhecida e testada.). 5. caso a área experimental não apresente uniformidade. deverá haver uma adequação da metodologia (objetivos) com o modelo. em que foram registrados outros valores intermediários (definidos pelos pontos B e C). Amostragens regulares. Certificação de que as pessoas envolvidas na experimentação possuam treinamento e conhecimento a cerca do modelo estatístico e da metodologia a ser empregada. Caso a técnica a ser utilizada seja original. deverá ser controlado. encontra para estimar os dados da pesquisa que irá realizar. temperatura. Os princípios básicos da experimentação científica são: a. ou seja. Assim as parcelas dos tratamentos deverão ser distribuídas ao acaso pelo experimento. efeito antrópico. e.1 Princípios da Experimentação A experimentação é a forma que o pesquisador. Interpretação dos dados experimentais. para que os resultados possam levar o pesquisador a uma resposta coerente e segura. seja na área científica ou social. A casualização é um princípio fundamental. recomenda-se que o efeito seja igual para todos os tratamentos ou itens testados. f. Emprega-se este processo. isto é. d. entretanto no gráfico à direita. O controle das variáveis aleatórias (chuva. pois permite que o experimento possa ser regido por efeitos gerais a todos os experimentos. caso não seja possível. baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B). c. O gráfico à esquerda. A experimentação deverá ter impreterivelmente repetições.7. pouca variação no conjunto dos elementos. vento.6. h. .1 Amostras Simples ao Acaso Um dos métodos mais usados.William Costa Rodrigues 10 30 25 20 Y 15 10 5 A X B A Y B 35 30 25 20 15 10 5 A B X C D A B D C Figura 3. quando dispomos de uma população que apresenta características homogêneas. 5. b. variância próxima ou igual à média. parece sugerir que Y cresce à medida que X cresce. g. esta deverá ser experimentada antes de ser utilizada na experimentação. para assegurar que a resposta não foi obtida por mera casualidade e sim por inerência do tratamento. mostra que a relação entre X e Y obedece a uma lei mais completa.

hepatite. 5. utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco mais trabalhoso – ele redunda conseqüentemente em ganho de precisão. O tamanho da amostra será determinado em função da variância de característica a estudar em cada estrato. o terceiro será 25. podendo a seqüência ser obtida através de sorteio de ruas e residências. 5. 500 por 50. cinco. Por exemplo.3 Amostra Sistemática Aplicada quando a população apresenta um número finito de elementos e os dados estão distribuídos aleatoriamente. A população heterogênea é transformada em subpopulações homogêneas.Apostila de Estatística Aplicada 11 5. As unidades que comporão a amostra serão sorteadas em função das condições de variabilidade existentes.5 Amostra por Conglomeradas Visto que. isto é. A família poderá ser a unidade mais simples a ser pesquisada. 5. e assim por diante. pela estratificação. obtendo-se 10. entre outras. compensado apenas pela diminuição das tarefas. sorteia-se um número da primeira dezena e.7. grande número de fatores ou variáveis que podem comprometer as conclusões se não eliminados. .4 Amostra por Área Utiliza mapas geográficos de cidades e municípios.7. sorteiam-se aleatoriamente os conglomerados que irão participar da amostra.7. o que é. tuberculose. Poderia ser a doença de Parkinson. até obterem-se os 50 elementos que constituirão a amostra. Portanto. para que. uma amostra estratificada proporcional. por exemplo. Estas subpopulações têm nome de estratos. 5. o segundo deverá ser 15. na área de saúde é comum a realização de pesquisas de que são selecionados os pacientes portadores de determinadas enfermidades. onde N = 500 e n = 50 dividem-se N por n.2 Amostra Estratificada Utilizada quando dispomos de informações de que a população apresenta características heterogêneas. considerando que os mesmos apresentam pelo menos uma característica em comum. Obtém-se. O número de elementos da amostra será obtido da seguinte forma: Numa população constituída por 500 elementos e a amostra por 50 elementos. escolhem-se os demais. Embora a subdivisão da população seja em estratos. Após a determinação dos conglomerados da população. neste caso. só farão parte do estudo indivíduos portadores de enfermidade a ser pesquisada.7. o uso de amostragem nos conduz a ganhar em precisão. através de um procedimento correto. assim. Outros métodos de seleção poderão ser associados para determinação dos elementos de cada conglomerado para compor a fração amostral. isto é. de cada um.6 Amostra Selecionada Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona para avaliar o perfil de seus componentes.7. ou então considerando o número de seus elementos e procedendo-se a um percentual de cada estrato. a partir dele. Considera-se este tipo de amostra que possibilita maior precisão quanto aos resultados. em seguida. observando-se que se o número sorteado for. no entanto.

ora usamos a variância. aquele valor tem. 2. referente à taxa de prevalência do fenômeno estudado na amostra observada. Tamanho da população alvo. e por 2. Os níveis de confiança propostos rotineiramente são de 95% e 99% de confiança. na literatura.8 Determinação do Tamanho da Amostra É muito comum um pesquisador indagar qual o número de amostras a serem estabelecidas para uma determinada pesquisa de campo.000. N= 3.000). utilizamos as seguintes fórmulas: n z2 × p × q (1) e n = 0 (2) n0 = 2 n (P − p ) 1+ 0 N Onde n0: número inicial. . resultados os quais utilizaremos quando da determinação do valor de n em relação ao valor de p. Deve-se imaginar que. ora usamos a percentagem. Z: nível e confiança. a priori. o nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de diferença proposto. por exemplo. Na população finita. ou seja. quando o nível de confiança corresponde a 95%. Chamamos q o valor complementar de p para 100%. arbitrada pelo pesquisador. N tamanho da população. este valor é substituído na fórmula (1) por uma constante 1. 5. uma diferença. em relação ao valor percentual da população. Variância ou porcentual. observamos a percentagem de certas características em um conjunto. ou seja. Simbolizado pela letra z. 4.1 Tamanho da Amostra para Dados Discretos Quando dispomos de variáveis discretas. que é. Dependendo do tipo de investigação.William Costa Rodrigues 12 5. podemos classificar em finitas e infinitas. (P-p): erro arbitrado pelo pesquisador.96. p + q = 100%. A determinação do tamanho da amostra depende de alguns fatores: 1. Em outros casos. 3. a qual geralmente é arbitrada pelo pesquisador. 5. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. Quanto ao número de elementos que compõe. Nível de confiança (α). Esta diferença é conhecida como erro de amostragem. Em alguns casos são empregadas características que apresentam determinada variabilidade. Ao procedermos às técnicas de amostragem para determinação do tamanho da amostra (n). a obtenção da amostra se torna menos complexa do que nos casos de populações infinitas de (N= 800.8. Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de confiança. entende-se que a amostra obtida apresentará um determinado valor para a taxa de prevalência de certo evento. Na obtenção do tamanho amostral será importante esta informação. Informação da literatura (p). ao apresentarmos um valor percentual. Erro de amostragem ou precisão. q: 100%-p. Toda pesquisa a realizar em que investigamos a taxa de prevalência que fenômeno apresenta. p: valor obtido de trabalho anteriormente realizado.58 quando o nível de confiança é de 99%. laboratório ou uma simples investigação.

0000 O número de indivíduos que deveríamos examinar para a determinação da prevalência é de 384 para uma população infinita e 380. S: desvio padrão obtido de trabalho anteriormente realizado. Para populações infinitas e para as que N seja um valor muito elevado. 5. cujo valor foi igual a 9mg2. a fórmula a empregar para determinação do tamanho da amostra será a fórmula 1 deste item. desejamos determinar o tamanho da amostra.96 2 × 20 × 80 3.8. N: tamanho da população. X : média da população alvo. A utilização das fórmulas (1) e (2). Exemplo: com a finalidade para verificar a incidência de doença de Chagas em uma população de certa região. apenas a fórmula (1) deve ser utilizada. Selecionamos ao acaso 30 elementos. ( X X ): erro arbitrado pelo pesquisador. q = 80%.96 (α=5%) e sendo estabelecida um erro de 4%. Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos indivíduos de uma comunidade. deparamos com o problema de definir o tamanho da amostra. Não sendo encontrado um desvio padrão em outro trabalho.35 384 1. dispomos das seguintes fórmulas: n z 2 × S2 (1) e n = 0 (2) n0 = 2 n X−X 1+ 0 N ( ) Onde n0: número inicial. X : média da amostra.600 n0 = ∴ n0 = ∴3.2 Tamanho da Amostra para Dados Contínuos Para variáveis quantitativas contínuas. Desta forma temos: Z = 1.96.000 pessoas. Apenas sabemos que a população desta comunidade é de aproximadamente de 25. qual seria o número de elementos que a amostra deveria conter? A fórmula adequada para mensurar o tamanho da amostra é a equação 1. Para tal estudo.Apostila de Estatística Aplicada 13 Quando se trata de trabalho original e não se dispõe de nenhum valor usamos p=50%. determinamos o valor do teor de hemoglobina de cada um e calculamos a variância (medida de dispersão). e (P-p)= 4% 1. resolvemos determinar o número de elementos que comporão a amostra. sendo o tamanho da população igual a 40. retirando-se 30 observações da população e calculando-se o desvio padrão da característica a ser estudada. o que torna impraticável utilizar todos os elementos.000 indivíduos. são utilizadas as fórmulas (1) e (2). .84 × 1. procede-se a uma pré-amostragem. Face a isto. p = 20%. z: nível de confiança.84 × 100 = 384 2 4 16 384 384 n= ∴n = = 380. Considerando uma prevalência de anos anteriores igual a 20% com valor z = 1. tem procedimento semelhante ao amostrado para variáveis discretas. para uma população finita. Em populações finitas. deste item.0096 1+ 40.

30.24 138. fornecem uma descrição precisa da execução do grupo como um todo. como tal.84 × 9 n0 = ∴n 0 = ∴n 0 = ∴ n 0 = 138. Essas medidas dão-nos o valor típico do conjunto de dados. 32. São. Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32. são traduzidos por um conjunto de dados numéricos.24 1. Sendo representado pela fórmula: ∑x X= n Onde X : representa a média.56 1. Substituindo na fórmula teremos: 34. A descrição desse conjunto de dados torna-se mais clara quando se obtêm medidas que resumem as informações necessárias. 25. em geral. 26. 29 e 33.1 Medidas de Tendência Central Os fenômenos quando estudados estatisticamente.2 10 6. Os valores típicos de um conjunto de dados tendem a se localizar no centro da série. A importância das medidas de tendência central é dupla: Representam ou resumem todos os valores obtidos pelo grupo e.000 Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos será igual a 138 para populações infinitas e 137 para populações finitas.96 2 × 9 3. A forma de apresentação da distribuição de freqüência seria: .William Costa Rodrigues 14 A precisão considerada para esta pesquisa foi de 0. de dados agrupados em intervalos). ∑ x : a soma das variáveis.5 0. n = 10 292 X= ⇒ 29. 6.1. Permitem o confronto de dois ou mais grupos. por isso.1 Média Aritmética Simples ( X ) A media aritmética simples é a soma dos valores ou medidas.25 138. ∑ x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33. três medidas de tendência central: média aritmética (simples.5mg e o valor z= 1. chamados medidas de tendência central. e o n o números de indivíduos ou elementos.1. 30.0055 1+ 25.48 ≅ 137 138. mediana e moda. pode-se calcular a média aritmética ponderada. e.24 n= ∴n = ∴ n = 137. 26. 6 Técnicas Estatísticas Para Análise de dados 6. 29. ponderada.2 Média Aritmética Ponderada Quando se tem uma séria de valores sucessivos com a respectiva distribuição de freqüência.96.25 0. Usam-se. divididas pela quantidade destes.24 ≅ 138 2 0.

Idade (anos) Freqüência 2 10 3 8 4 6 5 5 6 5 7 5 8 7 9 4 X= 2 × 10 + 3 × 8 + .. a distribuição de freqüência abaixo. . fn A expressão da média ponderada será: ∑ xf = x 1f1 + x 2 f 2 + .5 – Freqüência (f) 4 2 3 1 10 X.f 10. + 4 50 6. operamos da mesma maneira do caso anterior. Xn Freqüência f1 f2 .. + f n Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada localidade. .. Por exemplo.5 80.5 12..3 Média Aritmética de Dados Agrupados em Intervalos Há vezes em que os dados não são verificados com seu verdadeiro valor individual.0 15. Considerando que o intervalo não tem um valor definido e sim um conjunto de valores... .5 17.0 Aplicando a fórmula para calcular a média ponderada teremos: .. + x n f n X= n f 1 + f 2 + . Neste caso. Utilizaremos como representante o ponto médio de cada intervalo.Apostila de Estatística Aplicada 15 Variável X1 X2 .0 37.5 17.1.. .5 7. mas são representados por uma classe que pode ter um determinado intervalo. procede-se da seguinte forma: Idade (anos) Freqüência (f) 0 |– 5 4 5 |– 10 2 10 |– 15 3 15 |– 20 1 Idade (anos) 0 |– 5 5 |– 10 10 |– 15 15 |– 20 Σ Valor central (X) 2. + 9 × 4 250 = = 5 anos 10 + 8 + .

A mediana não é influenciada pela magnitude de cada uma dessas séries. A mediana é especialmente útil quando se trata de séries assimétricas.500 E 200 F 160 G 250 H 170 Inicialmente ordenam-se os dados: 150. . com a finalidade de estimar a mediana referente ao número de alunos. 2 2 para obter os dois valores centrais. Quando os dados apresentam homogeneidade. que tem como: Vantagens: o Ser fácil de calcular e entender. 160. Assim os valores centrais para este conjunto de dados são 180 (4º) e 200 (5º). n n Como o número de observações é par utilizam-se as duas fórmulas e + 1 . de forma crescente. quando alguns valores são elevados ou baixos em relação aos demais. 170. portanto. A distribuição tem. Me= 190 alunos. X= ∑ xf ∴ 80 = 8 anos 6.1.4 Mediana (Me) É um valor situado no centro da distribuição de freqüências. Determina-se o total de valores (n). o Não expressar variações dentro da distribuição de dados. 180. 250 e 2. Desvantagens: o Não servir para séries variáveis assimétricas. 200. portanto o valor médio destes dois valores é igual a 190. Tendo verificado o seguinte quadro: Escola Nº de alunos A 150 B 180 C 230 D 2. o Unir em um valor todas as observações do conjunto. Para o cálculo da mediana devemos previamente realizar alguns ajustes aos dados como segue: Ordenam-se todos os valores.William Costa Rodrigues 16 n 10 Desta forma a média da população avaliada é oito anos. quando o número de observações é par. Exemplo: a) Em determinada localidade foram selecionadas oito escolas. quando o número de ob2 n n servações (n) for ímpar e e + 1 . n +1 Localiza-se o valor central mediante a fórmula: .500. como objetivo encontrar um valor que permita conter 50% dos dados acima deste valor e 50% abaixo. o 2 2 que corresponde à média dos valores centrais. isto é. que corresponde à mediana. é possível o uso da média aritmética.

= 34 6 ∴ D. 52 e 95.M. que o conjunto de dados contém. 9.M. O Desvio padrão estimado (s) é utilizado em populações infinitas. Para um conjunto de observações: 2.11 + 9 . 11. o erro amostral. Desta forma. 14 e 25 2 + 5 + 9 + 11 + 14 + 25 66 X= ∴X = = 11 6 6 D.11 + 25 .2 Desvio Padrão Existem dois tipos de desvio padrão.Apostila de Estatística Aplicada 17 b) Em coletas de amostra de solo em cinco cidades.2.6 D. 48. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula: s= ∑x 2 (∑ x ) − n 2 n −1 Onde: x: valores do conjunto de dados. que corresponde ao valor da mediana.11 + 14 . o chamado desvio padrão estimado ou s e o desvio padrão absoluto ou σ. Me= 48 amostras poluídas 6. Σ: somatório. O desvio-médio será a média aritmética destes afastamentos. conforme o quadro a seguir: Municípios Amostras Poluídas A 48 B 42 C 52 D 95 E 46 Após ordenar os dados teremos: 42. ou seja. 11.11 + 11 . Como o número de obsern +1 vações é ímpar utilizaremos a fórmula . 9. ou seja. onde não se conhece com precisão o valor absoluto de n. = 5. 5. bem conhecido. já o σ (desvio padrão absoluto ou verdadeiro) é calculado para populações com valor n. levando-se em conta os valores absolutos desses desvios.11 + 5 .2 Medidas de Variação 6.M. O desvio padrão é o afastamento atribuído ao acaso. ou seja. e n: número de observações.11 6 ∴ D. 5. para encontra o valor central. Este erro refere-se à diferença do valor s calculado e a média aritmética. em populações finitas. = 9 + 6 + 2 + 0 + 3 + 14 6 6. = 2 . 46.M. 14 e 25 Σx= 2+ 5 + 9 + 11 + 14 + 25 = 66 . 2 o valor central é 48.2. foram verificadas amostras poluídas com metais pesados.1 Desvio-Médio (DM) Considerado que num conjunto de dados cada valor apresenta um afastamento em relação à média. Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2.

Desta forma lança-se mão de um novo quadro de dados para facilitar os cálculos x f fx fx² 2 2 4 8 3 2 6 36 4 4 16 256 5 4 20 400 6 2 12 144 14 58 852 Total Para calcular o desvio padrão desta distribuição.6935 ∴ s = 6. originando a variância estimada (s²).6101 14  14  2 6.3 Variância ou Quadrado Médio É o valor do desvio padrão estimado ao quadrado. isto é.   2 s= 852  58  −   ∴ s = 60.20 s= 5 6 −1 5 6 −1 ∴s = 8. originando a variância populacional (σ²). ou o valor do desvio padrão populacional. por conseguinte. Vale ressaltar que. devemos ajustar o erro desta estimativa. utiliza-se a seguinte fórmula: s= ∑ fx n 2  ∑ fx   −  n  . pois como o valor s é uma estimativa.8571 − 4. eliminando um elemento do conjunto de observações. Observamos agora uma série de dados agrupados. x f fx 2 2 4 3 2 6 4 4 16 5 4 20 6 2 12 14 58 Total Temos um total de 14 valores agrupados em cinco categorias.1429 2 ∴s = 60.052 n=6 66 2 4.052 − 6 ∴s = 6 ∴s = 1. são representados pela sua freqüência. ou seja.07 É importante ressaltar que no cálculo do desvio padrão utilizou-se o denominador (n-1).052 − 1. no caso de populações finitas o denominador será n e o desvio passa ser o σ (desvio padrão absoluto ou verdadeiro). o grau de liberdade. σ .356 1.052 − 726 ∴ s = 326 ∴s = 65. ou seja. uma série de valores que se repetem e.8571 − 17.William Costa Rodrigues 18 Σx²= 2² + 5² + 9² + 11² + 14² + 25² ∴Σx²= 4 + 25 + 81 + 121 + 196 + 625 = 1.1636 ∴ s = 43.

Apostila de Estatística Aplicada 19 A variância é a medida estimada ou calculada que determina a variação dos valores entre si. podemos classificar o C. análise da variância entre outras análises.V. encontraríamos diversos valores. Pode ser também interpretado com uma medida de precisão alcançada das estimativas dos dados em relação aos valores reais. 6.25. <20% Bom 21% < C. em especial os biológicos. Ele expressa o desvio padrão que obteríamos se a média representasse o índice 100.< 30% Regular É importante ressaltar que valores acima de 30% não significam um C. ou seja. quanto menor este valor menor será a diferença entre os valores dos elementos do conjunto de dados.V. n: número de observações do conjunto de dados. insatisfatório.V.4 Erro-Padrão da Média . mais preciso será os resultados em relação à estimativa da média. 6.V. = × 100 x Onde: s: desvio padrão da amostra.5 Coeficiente de Variação O coeficiente de variação (CV) é uma medida abstrata que independe das unidades em que foram medidas os dados. x : média aritmética da amostra. a média aritmética teria outros afastamentos (erros) em relação média populacional ou real.6 Curva de Distribuição Normal A maioria dos fenômenos da natureza. Exemplo: em uma amostra com 100 observações. maior será o valor do coeficiente de variação.V.25 1. Classificação C. Para se determinar a média destes afastamentos utilizaremos o erro padrão da média. baseadas na estimativa de dados. Desta forma.25 s (x ) = ∴ s (x ) = ∴ s(x ) = 0.V. < 10% Ótimo 11% < C. apresentam variações dentro de um intervalo definido. 6. Se coletássemos os dados quanto ao peso de mil indivíduos. obteve-se um valor s igual a 1. e grande quantidade em torno dos valores centrais. . o erro-padrão da média será: 1. cujo cálculo é expresso pela fórmula: s s (x ) = n Onde: s: desvio padrão da amostra e.V.125 10 100 É importante ressaltar que quanto menos o valor do erro-padrão da média.V.s(x) Quando uma investigação científica é realizada através de amostra. Este parâmetro é estimado pela fórmula: s C. dos quais haveria pequena quantidade de baixos e altos. da seguinte forma: C. pois alguns experimentos em campo podem ter o valor C. de até 65% e serem considerados bons. Quanto maior for a dispersão no conjunto de observações.

. à esquerda e a direita da média (µ) corresponde ao valor do desvio padrão(s) (Figura 4). A curva de distribuição normal ou simplesmente curva normal é caracterizada por dois parâmetros: a média e o desvio padrão (ou a variância). onde µ é a média e s o desvio padrão.William Costa Rodrigues 20 Numa representação gráfica dos dados obtidos encontraríamos uma distribuição normal conforme a figura abaixo. A área da figura sob a curva compreendida entre valores iguais a s. Curva de distribuição normal simétrica. de um e outro lado da média (µ).2% dos valores de X. Figura 4. A forma desta curva depende do desvio padrão. contém 68. que serão tanto mais próximos de µ quanto menor for o desvio padrão (Figura 6). Figura 5. tendo a mesma média (µ) e diferentes graus de dispersão dos valores de X. que é simétrica). Curvas de distribuição normal das freqüências de X. sendo tanto mais alta e estreita quanto menor for o valor de s (Figura 5). isto é. a distância entre ele e cada um dos pontos em que muda a direção da curvatura. O ponto máximo da função ocorre no valor médio (situado ao centro da curva. desvios padrões (s) diferentes.

A amplitude entre esses valores limites denomina-se domínio de confiança ou intervalo de confiança.96s). Assim. restando. As áreas sob a curva assinaladas entre os traços verticais. como limite para decidir se um resultado afastado da média (ou a diferença entre duas médias) é significativo ou não. os limites de confiança são representados pelos valores de -C e +C que circunscrevem. A probabilidade P= 0. é geralmente aceita. com uma alta probabilidade. . As propriedades da curva normal permitem seu uso para o cálculo de probabilidade com que determinados valores obtidos durante as observações.Apostila de Estatística Aplicada 21 Figura 6. Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de que os valores encontrados pertençam a uma mesma população.05 (ou 5%).1 Limites de Confiança Quando se desconhece o valor de determinado parâmetro de uma população (sua média. se o valor médio (m) de uma observação comportar um desvio ou erro padrão maior que 1. 6. A área compreendida entre -2s e +2s abrange cerca de 95. podemos estimá-lo a partir de uma amostra extraída dessa população. por exemplo).6. por convenção. possam ocorrer em função das variações.96s.5% das observações ou eventos medidos. apenas 4. Na Figura 7. entretanto. concluiremos que ele não pertence à população cuja média é µ. o valor do parâmetro em causa. ou as medições. Curva normal padrão. Para a estimativa de um parâmetro. tendo por parâmetros µ=0 e s= 1. 1.5% dos valores de X. indicam as percentagens de valores de X aí contidas. A estimativa. pode ser inexata e não saberemos o quanto ela é incorreta. com grande probabilidade. o valor exato desse parâmetro. consideram-se como sendo seus limites de confiança. que corresponde a um desvio ou erro padrão de aproximadamente 2s (ou. em relação ao valor hipotético da média verdadeira (µ). aqueles valores entre os quais fica incluído. portanto duas áreas extremas. mais precisamente.

6. Testes estatísticos com grandes amostras mostram que nem sempre as suposições de normalidade de confirmam. se um teste paramétrico ou não paramétrico.7 Teste de Normalidade dos Dados Os testes empregados para verificar a distribuição normal dos dados. às vezes nem é possível decidir se determinada variável possui ou não distribuição normal (na prática a amostra deve ter o valor n > 100). situada à esquerda de C. ou teste K-S. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ. têm por objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado. 6. portanto poder ser empregados testes paramétricos sem preocupação quantos às suas restrições. Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é normalmente distribuída e. 6.9 Teste de Shapiro-Wilks (S-W) Este teste é uma boa opção para se testas a normalidade de uma distribuição.6. ou teste S-W.2 Erro Padrão Em alguns casos. é conveniente trabalhar com a média das médias amostrais. vem sendo empregado cada vez com maior freqüência. 6. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área. Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre médias é também chamado de erro padrão. como nem sempre se dispões de um número elevado de casos para estudo. sob a curva. medidos em unidades de desvio-padrão. . Os testes comumente utilizados são Klomogorov–Smirnov. que é um teste tradicional de normalidade e o teste de Shapiro-Wilks.William Costa Rodrigues 22 Figura 7.000 observações. Nos últimos anos o teste SW tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de problemas sobre a variação de normalidade. Por outro lado. o teste pode ser usado em amostra de até 2. É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis.8 Teste de Klomogorov-Smirnov (K-S) Este teste compara a distribuição real dos dados (amostra) com uma distribuição normal gerada por uma média e um desvio padrão supostamente conhecidos (populacionais).

Escolher o teste estatístico adequado. podendo ser aplicados mesmo quando ocorram pequenos desvios de normalidade ou da variância entre as amostras. calcular a média (µ). de tal forma que os pressupostos possam ser satisfeitos. se não seguirem a distribuição normal). uma alternativa é a transformação de dados dos seus valores (vide item Transformação de Dados. O valor t . consulte o Fluxograma Para Auxiliar na Escolha de Testes Estatísticos. estaremos indiretamente comparando as duas populações. são em geral menos potentes. conseqüentemente. Estes testes são. poderíamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado). A transformação mais utilizada é a conversão dos dados em logaritmos decimais. ao constatar as médias destas amostras para verificar se há a diferença entre elas. Se os dados experimentais não estiverem de acordo com os pressupostos para a aplicação de provas paramétricas (por exemplo. em geral. p. se trata de um teste mono ou bicaudal.aplicam-se a amostras extraídas de populações com distribuição normal e variâncias iguais ou muito próximas. enquanto outro grupo nada receberia (grupo controle).student calculado é dado pela fórmula: X t= s2 n Onde: X : média.1 Teste t . 7. 37). Os testes não-paramétricos . onde essa diferença existirá. suscetíveis de tratamento matemático.são menos exigentes quanto à natureza da distribuição dos dados experimentais. os de maior potência. s²= variância e N: número de observações As formas de utilização deste teste apresentam situações diferentes como mostras os subitens abaixo: . o teste t seria indicado para tal comparação salientando que a variável em análise teria que apresentar os dados em distribuição normal ou aproximadamente normal. Os elementos necessários para a utilização de um teste são: Formular as duas hipóteses: a de nulidade (H0). Tomar as amostras de tamanho n e registrar os valores. as regiões críticas de aceitação de H0. que supõe não haver diferença significativa entre os valores encontrados e os esperados. utilizam-se testes de duas categorias: Os testes paramétricos .Student Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras que provêm de populações diferentes. p. E por analogia. Definir se. além de exigirem que as medidas sejam feitas em escalas numéricas intervalares. Neste caso. Nesses casos. 43. e a hipótese alternativa (H1). O efeito do tratamento aplicado seria verificado pela comparação dos dois grupos. a variância (s²) e o desvio padrão (s) e. Para maiores detalhes e saber com escolher um teste.Apostila de Estatística Aplicada 23 7 Testes Paramétricos e Não Paramétricos De acordo com a distribuição dos dados. Estabelecer o nível de significância α e.

student (Tabela 11. d) Aplica-se o teste t .9 = 39. tratado e não-tratado.1 Dados Pareados (Amostras Dependentes) Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivíduos ou animais ou plantas. obtivemos os seguintes dados: Tabela 2.6332 s2 = d) t = 3. p. Há a uma preocupação em que haja um pareamento entre indivíduos para que eles difiram somente no aspecto. c) Verifica-se a variância das diferenças e. 37 b) X d = = 3.William Costa Rodrigues 24 7. b) Verifica-se a média aritmética das diferenças.7 10 c) Σd²=173.1 = 4. Σd=37. Em um estudo foi separada uma população de 10 crianças para os testes com administração da dieta de folha de mandioca.401 = 3. 44) e compara-se o valor do t calculado com o valor crítico da tabela em função de α com n-1 graus de liberdade.student.7 = 5.84 0.01 10 O próximo passo e recorrer à tabela do teste t .1. .7 0. n= 10 173 − 1369 10 = 173 − 136. Item 1 2 3 4 5 6 7 8 9 10 Total Peso (Kg) Antes Depois 24 28 23 25 24 25 23 29 30 32 31 34 31 38 14 19 20 22 18 23 !Configuração não !Configuração não válida de caractere válida de caractere Diferença 4 2 1 6 2 3 7 5 2 5 !Configuração não válida de caractere Procedimento: a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima). Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios).01 9 9 9 =t= 3.7 4.

25 (1% ou α=0. Exemplo: Tabela 3.01. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril. quando se conhece a variância populacional (σ²). encontramos os valores 2.94) com os valores tabelados verifica-se que há diferença estatística a 5% e a 1% de probabilidade.5317 52 6 2 + + 26 26 26 26 Para calcular o Grau de Liberdade. Os valores a 5% e 1% de probabilidade são 2.68 e 2. s1= e s2= desvios-padrão das amostras.01). O teste t utilizado nesta situação pressupõe variâncias diferentes. O valor t .3846 2. Concluímos pela rejeição de H0 (hipótese nula) em nível de 1% de probabilidade (α=0. 7.5 4. Leguminosa A Leguminosa B X1 = 38 cm X 2 = 33. devemos verificar os valores críticos com nove graus de liberdade. respectivamente (Tabela 11. p. numa área de re-vegetação (dados fictícios). . possuem o mesmo valor n. mas não pertencem ao mesmo tratamento ou não há comparação entre antes e depois.9379 ≅ 2. portanto.5 t= = = = = = 2.05) e 3.26 (5% ou α=0. Desta forma.94 25 36 0.3461 1.Apostila de Estatística Aplicada 25 No exemplo acima. possuam taxa de crescimento média mais elevada que a leguminosa B. Desta forma. procedemos da seguinte forma: GL= n1 + n2 –2 ou (n1–1) + (n2–1).5 4. n= 10. Esta equação deve ser utilizada.33. Para o nosso exemplo acima temos o GL = 26 + 26 – 2 = 50 ou (26–1) + (26– 1)=50. Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o aumento do peso corpóreo das crianças.1.5 4.2 Dados Pareados (Amostras Independentes) Neste caso os dados são tratados de forma diferente. mesmo o as duas amostras possuindo valores n iguais.01). Comparando o valor calculado (2.student calculado é dado pela fórmula: X1 − X 2 t= 2 2 s1 s 2 − n1 n 2 Onde: X1 e X 2 : médias das amostras. O valor encontrado (calculado) de t= 5. concluímos que há 99% de probabilidade de que a leguminosa A. ou seja.84 é maior do que os valores da tabela.5 4.9615 + 1. 44). e n1 e n2: número de observações das amostras.5 cm s1= 5 cm s2= 6 kg n1= 26 n2= 26 Calculado o valor de t teremos: 38 .

neste caso. devemos calcular o grau de liberdade para o conjunto de dados. Supõe-se. em que g é calculado através da fórmula: 2  s1 s 2   + 2  n1 n 2    2 g=  s2   1  n1    2 n1 − 1 +  s2   2  n2    2 n2 −1 Para nosso exemplo seria: 2  74 18   +  4. as amostras serão comparadas de acordo com este resultado. isto justifica a conduta sugerida. o teste T será aplicado baseando-se na diferença entre as médias das duas amostras.73 2  74   18       20  +  32  20 − 1 32 − 1 .William Costa Rodrigues 26 7. podendo as mesmas apresentarem tamanhos diferentes (n1 e n2).1.26 2. Se a relação entre as variâncias apresentarem valor maior do que quatro.3 Dados Não-Pareados .Variâncias Desiguais (Heterocedásticas) Caso os dados não pertençam às amostras não pareadas. que as amostras são independentes e que apresentam variâncias desiguais.06 + 20 32 Para verificar a significância deste valor.82 74 18 4.26 2 20 32  g=  2 = = 24. Por exemplo: s²1= 27 e s²2= 5 2 s1 27 Portanto = 2 = = 5. Há uma regra prática que identifica tal desigualdade a ponto de justificar tal procedimento.8 ≅ 25 2 0.4 5 s2 Seguindo o critério estabelecido. Exemplo: temos duas amostras de água em que os dados quanto ao nível de contaminação de mercúrio apresentam os seguintes valores: Amostra A Amostra B X 1=160 ppm X 2=148 ppm s²1 =74 ppm s²2 =18 ppm n1 = 20 n2 = 32 O valor do teste t será obtido através da expressão: X − X2 t= 1 2 s1 s 2 + 2 n1 n 2 Calculado o valor de t teremos: 160 − 148 12 12 t= = = = 5.

Exemplo: para verificar se duas amostras de água mineral de duas marcas possuem a mesma quantidade sulfatos.11 = 9 × 0.06 (5%) e 2.01 = 0. p. um pesquisador separou ao acaso.4 1.79 (1%). 7. nas quais as variâncias apresentam valores aproximadamente iguais.Apostila de Estatística Aplicada 27 Consulta-se então a tabela do teste t-student (Tabela 11.8 1.0 1.5 1. Ainda neste caso.4 1. o procedimento metodológico consiste em se utilizar uma variância ponderada.8 1. A marca A e marca B.1 1. Desta forma. respectivamente.4 X A= 1.0673 s2 = 10 + 7 − 2 15 15 15 Em seguida aplica-se a fórmula para o teste t. respectivamente.04 sB²= 0.01).4 1.6 1.11 nA= 10 nB = 7 A variância ponderada é dada pela fórmula: (n A − 1) × s 2 + (n B − 1) × s 2 2 A B s = nA + nB − 2 Para nosso exemplo teríamos: (10 − 1)× 0. um lote de caixa de cada marca e ao acaso avaliou o conteúdo de uma garrafa de cada caixa. Exemplo: Amostra (mg. Ou seja.4 Dados Não-Pareados .1.3 1.66 = 1.36 + 0. devido à diferença significativa entre as médias das duas amostras. considerando também o número de graus de liberdade de cada uma das amostras.42 X B= 1.5 1.5 sA²= 0. concluise que o valor obtido pata t = 5. Na tabela iremos obter o valor de 2.82 é significativo no nível de 1% (1% ou α=0.7 1. aceitando-se a hipótese alternativa. para verificar os valores críticos nos níveos de 5% e 1% de probabilidade para 25 graus de liberdade. possuíam 10 e 7 caixas no lote selecionado.9 1.5 1.04 + (7 − 1)× 0. 44).L) Marca A Marca B 1.Variâncias Iguais (Homocedásticas) A aplicação do teste t de Student para este caso é realizada quando comparamos as médias aritméticas de duas amostras independentes.11 = 0.2 1.04 + 6 × 0.2 1. XA − XB t=  1 1   s2  + n nB   A  Assim temos: . foram avaliados os conteúdos de 10 e 7 garrafas.

1.1634 0. O grau de liberdade para o teste de χ² é o número de observações/ classes menos 1. foram coletadas amostras de sangue. o que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira diante da condição a elas imposta. foram escolhidas ao acaso pessoas com três diferentes faixas etárias. 2. No primeiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50% (freqüência esperada) e o valor real após os lançamentos será a freqüência observada. fe= freqüência esperada. Em tal situação a H0 (hipótese nula) será testar a independência entre as variáveis. 7. Para poder calcular o χ².5  1 1 0. Exemplo: Num Shopping Center.4043 Os valores de t tabelado para 15 graus de liberdade a 5 e 1% são respectivamente.8 = ≅ − 1. conclui-se que as duas marcas de água mineral não apresentam diferentes proporções de sulfatos em sua composição. para verificar a significância pode ser obtido na tabela de χ² (Tabela 12.8 − 0. Desta forma. A comparação entre os valores calculados de χ². os dados colhidos representam ocorrência de certos fenômenos que se podem classificar numa tabela. chamada tabela de contingência.26) Σ 77 .95.98 0. Os dados coletados ao final do experimento foram: Faixa Etária Pessoas* (anos) Com diabete Sem diabete A: 10-15 2 (11.0673 +   10 7  = − 0.2 Teste Qui-Quadrado (χ²) O teste não-paramêtrico de qui-quadrado foi desenvolvido por Pearson. Para tal. Estas tabelas têm como objetivo estudar a possível associação entre duas variáveis que classificam os dados. No segundo caso a freqüência esperada deverá ser corrigida (calculada) através da Tabela de Contingência. 45). Portanto o valor do desvio é elevado ao quadrado e dividido pela freqüência esperada. sendo que a marca B possui maiores concentrações em relação à marca A. Em muitos casos utiliza-se este teste em experimentos probabilísticos.42 . é necessário que tenhamos as freqüências teóricas. A fórmula utilizada para calcular o χ² é: ∑ (fo . sendo muito utilizado em pesquisas biológicas.William Costa Rodrigues 28 t= 1.13 e 2. p. lançamentos de moedas ou proporção de doentes após uma epidemia.3 Tabela de Contingência Em muitos trabalhos experimentais. para verificar a incidência de diabete. por exemplo.74) 75 (65. 7.fe )2 2 χ = fe Onde: fo= freqüência observada e. A H0 é que não diferença entre as faixas etárias em relação a ter diabete.

ao menor valor se atribuirá o valor 1. Assim teremos: (2 − 11.36 + 81.21.n. a ocorrência de diabete depende da faixa etária.Apostila de Estatística Aplicada 29 Faixa Etária (anos) B: 16-21 C: 22-40 Σ Pessoas* Com diabete Sem diabete 12 (11.02 χ 2 = 8.02) 34 189 Σ 74 72 !Configuração não válida de caractere * Valores entre parênteses e em negrito representam as freqüências calculadas Neste caso temos uma tabela de contingência de 2 x 3. . fe A = 34 × 77 a fe da terceira coluna (sem diabete) é calculada pela diferença 223 entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (Σ). conclui-se que há diferença entre as faixas etárias.98)2 + χ2 = 11. pois temos duas situações as serem testadas (com ou sem diabete) em três grupos (faixas etárias).4 Teste de Kruskal-Wallis Este teste foi criado como substitutivo à análise de variância paramétrica (Teste F).05 + 0. .5184 + 81. 2. e assim sucessivamente até atingir o maior valor.41 + 1. o valor χ² para 2 graus de liberdade a 5 e 1% de probabilidade seriam 5.09 + 1. será uma maneira se verificar se estas diferenças são devidas ao acaso ou se as amostras provêm de populações diferentes.72) 20 (10.45 + 0.02)2 ∴ χ 2 = 94.26 11.74)2 + (75 − 65. 4. No teste de Kruskal-Wallis todas as observações recebem uma pontuação através dos números 1. Ele é utilizado para que se verifique o contraste entre k amostras independentes.98 61.33∴ χ 2 = 18. serão consideradas sempre duas hipóteses (H0 e H1).98) 52 (61.72)2 + (20 − 10.28 62.5184 + 0.87 + 94. Assim.99 e 9.98 (52 − 61. 45).34 De acordo com a Tabela 12 (p.28)2 + (62 − 62.28 62.74 65. 3.02 11.74 65. Os valores obtidos nas diversas amostras diferem entre si e.. segundo o teste de χ² a 5 e 1% de probabilidade.72 10. No nosso exemplo teremos: GL = (2 − 1) × (3 − 1) ∴ GL = 1 × 2 ∴ GL = 2 Para calcular as freqüências realiza-se uma regra de três simples como segue: 34 –––––––––––––––– 223 fe –––––––––––––––– 77 Ou seja.26 11. O Grau de liberdades para tabelas de contingências será calculado pela seguinte fórmula: GL = (n s − 1) × (n g − 1) .71 10. portanto. que receberá a maior pontuação. Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anteriormente.36 ∴ 61. respectivamente. Desta forma. Os demais valores da linha subseqüentes são obtidos com a realização da regra de três para cada valor da 2ª coluna.. Da mesma forma que nos outros testes.26 )2 + (12 − 11.28) 62 (62.87 + 0. 7. ou seja.01 + 7.

Assim sendo.350. Na ordenação global que se faz para atribuição dos postos aos dados. supomos que foram testados ou experimentados três métodos para dessalinização de água. Para calcular H teremos:  57 2 69.95 Como já foi dito este teste segue a distribuição do teste χ². calcula-se a média das ordens que seria atribuída a elas se não houvesse o empate.78 + 2. ni = número de observações em cada tratamento k e.5 21 13 6 4 2 1 45 21 15 10 11 7 50 23 22 14 47 22 RA=57.830. os graus de liberdade correspondem a 2. Desta forma.25 22.5 29 16 34 18.861. considera-se que o teste tem uma distribuição aproximada de χ².21. que não vem ao caso no exemplo a ser testado.5 RC= 149. Os resultados do experimento seguem abaixo: Métodos A B C DD posto DD posto DD posto 17 11 20 12 32 17 14 9 5 3 35 20 4 2 9 6 26 15 8 5 13 8 34 18.50 x C= 36.29 x B= 14. . 45). ou seja. a tabela para comparar os valores é a tabela de χ² (Tabela 12. Portanto.5 2 149. pois GL= k-1.5 nA= 7 nC = 8 nC = 8 x A= 13. foram coletadas diversas amostras de água com diversas concentrações de sal. testou-se o tempo de dessalinização dos três métodos.793.25 DD= dias para dessalinização. Para verificação de significância quanto às diferenças observadas entre tratamentos k. considerase que nos casos de empate entre duas ou mais observações.249 4.William Costa Rodrigues 30 Para o cálculo do valor H do teste de Kruskal-Wallis utiliza-se a fórmula: 2 12 k R H= × ∑i =1 i − 3 (N + 1) N (N + 1) ni Onde: Ri = a soma das ordens atribuídas ao tratamento i.99 e 9. Desta forma. k =corresponde ao número de tratamentos a comparar. os valores da tabela χ². correspondem a 5 e 1%.78) − 3 × 24 ∴ 552 12 H= × (3.861.0 RC= 69.25  H= × + +  − 3 × 24 ∴ 23 × 24  7 8 8  12 H= × (464.70 − 72 552 H = 11. Para exemplificarmos o teste de Kruskal-Wallis. p. respectivamente.0217 × 3.70 ) − 72 ∴ H = 0. são 5. N = número total de observações em todos os tratamentos k. com k-1 graus de liberdade.5 2 12 H= × + + 23 (23 + 1)  7 8 8    − 3 (23 + 1)∴   12  3.14 + 603. sendo k = 3 (métodos).

Assim sendo. 7. Substituindo os valores na fórmula para o cálculo do valor χ²r. A ordenação dos valores se dá dentro dos blocos. nos blocos n. Para testar a H0. utiliza-se tabela de χ². quer saber se o poluente está distribuído de forma igual entre as profundidades avaliadas.95 é maior que os valores tabelados. ou seja. este teste é um substitutivo ao teste F para análise de variância paramétrica. formula-se a H0 e a H1. em mg. teremos: . k = o número de tratamentos.mm³ de solo Blocos Área A Área B Área C Área D Área E Total 0-10 12 (2) 8 (2) 14 (2) 17 (3) 12 (2) R1= 11 Profundidade (cm) 11-20 21-30 13 (3) 16 (4) 9 (3) 12 (4) 20 (3) 22 (4) 16 (2) 21 (4) 15 (3) 16 (4) R2= 14 R3= 20 31-50 7 (1) 5 (1) 6 (1) 11 (1) 10 (1) R4 = 5 *Os valores entre parênteses e em negrito correspondem à ordenação dos tratamentos dentro dos blocos (linhas).5 Teste de Friedman (Análise da Variância) Da mesma forma que o teste de Kruskal-Wallis. calcula-se a média aritmética das ordens.Apostila de Estatística Aplicada 31 Considerando que o valor calculado H=11. as concentrações do poluente são iguais em todas as profundidades (Hipótese Nula ou H0). Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamentos) em cinco áreas diferentes. Para os casos de empate entre observações de mesmo bloco. cujas observações podem verificar valores com acentuada variação e em cada tratamento são constituídos blocos com a intenção de que isto resulte em um pareamento considerável entres os diversos tratamentos. Pelos valores R encontrados nos resultados verifica-se que o método A e mais eficiente no processo de dessalinização. Este solo foi exposto há poluentes de uma determinada fábrica. delimitados pelas características edáficas do solo (blocos). Sendo o valor Ri a somas dos valores de ordenação nos tratamentos (colunas). co grau de liberdade k-1. assim aceita a H1. Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis. O valor do teste de Friedman (Xr2) é calculado através da seguinte equação: 12 k χ2 = × ∑i =1 R i2 − 3n (k + 1) r nk (k + 1) Onde: n = número de blocos. De forma análoga aos demais testes. rejeitamos H0 (não há diferenças entre os métodos testados no tempo de dessalinização das amostras). Os resultados da análise foram as seguintes: ( ) Tabela 4. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo. em quatro diferentes profundidades. pois leva menos tempo em comparação aos demais. Ri = a soma das ordens atribuídas aos dados do tratamento i. sendo utilizado quando as amostras.

∑X×∑Y ∑ XY − n r= (n − 1) × s X × s Y Onde: r= coeficiente de correlação de Pearson. Quando negativa há a variação negativa de Y. têm-se 3 graus de liberdade.William Costa Rodrigues 32 12 × 112 + 14 2 + 20 2 + 5 2 − 3 × 5 × 5∴ 5 × 4(4 + 1) 12 χ2 = × (121 + 196 + 400 + 25) − 75 r 5 × 4(4 + 1) 12 χ2 = × 742 − 75 = 89. Quando positiva há a variação positiva da variável dependente (Y). Trata-se de um valor abstrato que dá uma idéia sobre a dependência entre os dados apresentados.1. 8. A partir da tabela χ² (Tabela 12.04 r χ2 = r Como valor de graus de liberdade é igual a k-1 graus de liberdade e sendo k=4 (tratamentos).1 Coeficiente de Correlação (r) O coeficiente de correlação e designado pela letra r.1 Correlação de Pearson Utilizado na análise de dados que possuem distribuição normal. ΣX x ΣY= produto da soma dos valores de X e Y.1. Os valores para 5 e 1% de probabilidade são 7. ( ) 8 Correlação Linear A correlação linear é utilizada para verificar. A correlação pode ser denominada positiva ou negativa. n = número de amostras de X e Y. ΣXY = soma dos produtos entre os valores de X e Y. 8. num determinado conjunto.04 − 75 ∴ r 100 χ 2 = 14.2 Correlação de Spearman Este coeficiente de correlação baseia-se no rank dos valores X e Y e é largamente utilizado em analise de correlação e dados não paramétricos.32. a profundidade de 21-30 cm tem uma maior concentração do poluente que as demais profundidades avaliadas. Ou seja. p. a dependência entre duas séries de variáveis. Sendo o valor de χ²r calculado maior que os valores da tabela de χ². 45). sX e sY= desvios padrões de X e Y 8. n = número de pares de dados. Pode ser utilizado para dados normais (Correlação de Pearson) e para dados não normais (Correlação de Spearman). . nas áreas onde foram coletadas amostras. quando há variação positiva da variável independente (X) vice-versa. d1 = é a diferença entre cada valor X e cada valor Y correspondente. quando há variação positiva de X e vice-versa. respectivamente.82 e 11. rejeita-se a hipótese nula (H0) e aceita a hipótese alternativa (H1). 6 ∑ d i2 rs = 1 − 3 n −n Onde: rs= coeficiente de correlação de Spearman.

ou seja. 1999). caso o valor seja positivo. Correlação linear simples positiva (A).5 0 0 20 40 60 Figura 8. Para melhor entender melhor a explanação anterior. Σdi2=72 6 (72 ) 432 432 ∴1 − ∴1 − ∴1 − 0.1. A utilização de um ou outro coeficiente dependerá da normalidade dos dados (veja o tópico Teste de Normalidade dos Dados.Apostila de Estatística Aplicada 33 Exemplo: Tabela 5. . Quando um valor é significativo.4364 ∴ 0. e inversa ou negativa (B). quando aumenta os valores de X aumenta os valores de Y (Figura 8). existe uma proporcionalidade direta entre as variáveis. Estudante 1 2 3 4 5 6 7 8 9 10 Notas de Matemática 57 45 72 78 53 63 86 98 59 71 Rank de Xi 3 1 7 8 2 5 9 10 4 6 Notas de Biologia 83 37 41 84 56 85 77 87 70 59 Rank de Yi 7 1 2 8 3 9 6 10 5 4 di –4 0 5 0 –1 –4 3 0 –1 2 Total di 2 16 0 25 0 1 16 9 0 1 4 72 n= 10.5 1 0.5 2 1.5 2 1. p. dizemos que a correlação é positiva e significativa.5636 3 10 − 10 1000 − 10 990 Para verificar se há significância na correlação rs = 1 − 8. quando um valor é negativo. apresentando a linha de tendência de regressão linear simples de dados fictícios.5 1 0. Y diminuem e quando o valor é positivo.22). Assim sendo. através do teste de t para r. 3 2. quer dizer que com o aumento dos valores de X. é apresentado de forma negativa dizemos que a correlação é negativa e significativa.5 0 0 20 40 60 A B 3 2.3 Aspectos Gerais da Correlação Linear Os valores de r variam entre -1 (associação negativa completa) e +1 (associação positiva completa). deve-se ter em mente que a variável Y é quem sofre variação em função de X. Correlação de Spearman entre as notas brutas de matemática e biologia (Zar.

8367 Desta forma. Sendo r²= 0. 8.70 ∴ K = 0.49 r >0.40 0.0 – 0.21 – 0.15 0. expresso pela fórmula: K = 1− r2 Este coeficiente exprime a ausência de relação entre X e Y. Este coeficiente expressa a porcentagem de variação dos valores de Y em função do valor X.30.30. Intervalo 0. o valor r² encontrado em determinada análise é igual a 0. conhecido como teste t para r. Por exemplo.3 Coeficiente de Alienação (K) Este coeficiente é função do coeficiente de correlação.William Costa Rodrigues 34 8.71 – 0.90 0.4 Significância do Teste de Correlação Existem basicamente duas formas de verificar a significância do var r.50 Significância r desprezível r baixo r apreciável r acentuado A significância das tabelas acima poderá ser utilizada tanto na correlação de Pearson.41 – 0. 8.20 0.30 < r < 0. quanto na de Spearmann. logo 30% da variação de Y são atribuídas a X. K = 1 − 0. a mais simples baseia-se simplesmente nos intervalos de valores de r.70 0. . Classificação do valor r através de intervalos de 0 a 1. Tabela 6.1 Significância Baseada nos Intervalos A classificação é simples e basea-se nas Tabela 6 e Tabela 7. Intervalo r < 0.4. Classificação do valor r através de intervalos de acordo com e Teste de Rugg.30 ∴ K = 0.91– 1. que acordo com a necessidade de com uma maior precisão intervalar ( Tabela 6) pode ser utilizada um ou outra tabela.0 Significância Correlações nulas Correlações fracas Correlações substâncias Correlações fortes Correlações extremamente Fortes Tabela 7. 8.2 Coeficiente de Determinação (r²) Ao valor encontrado de r elevado ao quadrado (r²) denomina-se coeficiente de determinação. Por exemplo.30.29 0. a outra considera o teste t. r²= 0.15 < r < 0. concluímos que há mais ausência de relação do que intensidade de relação entre X e Y.

a dispersão dos dados de Y em função de X.00 40.00 2.00 5.50 40. torna-se bastante eficaz a construção de um diagrama que se obtém em sistemas de eixos cartesianos.. 44). na Tabela 11 (p. lembrando que um evento biológico somente poderá ser explicado até uma equação de segundo grau. Portanto há um interesse de expressar essa relação sob a forma matemática.50 100. A 1 2 3 T. caos opte por linha do tipo polinomial a ordem para eventos biológicos deverá ser 2. selecionando a caixa de seleção: Exibir equação no gráfico Exibir valor de R-quadrado no gráfico .00 100. Desta forma. Tabela 8. Será exibida uma janela com mostra a Figura 9. O tipo de linha será de acordo com a equação que melhor de adeqüei a distribuição dos dados.00 0. Para identificação de uma possível correlação entre séries de variáveis.00 B C D E F G H I J L M 4 Para criação do gráfico de dispersão basta selecionar os dados das linhas 2 e 3 Gráfico e selecionar o gráfico Dispersão (XY) (Tabela 1) e selecionar o menu Inserir em seguida clique em Avançar > para configurar o gráfico ou em Concluir para finalizar a criação.Apostila de Estatística Aplicada 35 8. ou seja. Após criar o gráfico selecione um dos pontos e em seguida clique no botão direito de mouse e selecione a opção Adicionar linha de tendência.00 25. o peso de crianças de acordo coma dieta oferecida em diferentes dosagens. 9 Análise de Regressão É freqüente o estudo da relação entre duas séries de variáveis. através da apresentação de uma função.50 50. Aphididae) em função da brotação foliar de tangerina cv Poncã. basta organizar os dado de forma correta e selecionar a criação de um gráfico de dispersão.4.50 60.00 20. Hoje em dia os programas (softwares) de planilha de cálculo e de estatística.00 12. a 0. A exibição da equação e do valor de R² é feita através da seleção da Aba Opções. A mostra como montar uma série de dados para criação de um gráfico de dispersão no Microsoft Excel.50 0.. 2004).00 100. Sabe-se que determinadas dietas têm interferência no ganho ou na redução do peso de indivíduos da raça humana.00 30.00 60. com n-2 graus de liberdade.00 0. no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues. fornecem a equação da reta ou de outro tipo de regressão que se queira plotar.00 7. para verificar a com o próprio nome diz. sob cultivo orgânico na Fazendinha Agroecológica.00 2. Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera..00 10.2 Significância Baseada no Teste t para r (Pearson) O teste de t para r é calculado através da seguinte equação: r tr = × n−2 1− r2 Para este teste compara-se o valor de tr calculado com o valor de t. Exemplo para o Microsoft Excel.00 2. Por exemplo.

William Costa Rodrigues 36 Figura 9. X independente e Y dependente. Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel. 9. aurantii e a brotação foliar de tangerina cv. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues. Poncã.3984 Figura 10. T. 2004). plotar a linha e a equação da reta de duas variáveis.2. na Fazendinha Agroecológica.3095x . aurantii 70 60 50 40 30 20 10 0 -10 0 20 40 60 80 100 120 y = 0. 9. em cultivo orgânico de tangerina cv. . neste caso uma das varáveis independentes (X) poderá parcialmente interferir na outra variável independente (Y).3472 R2 = 0. Como pode ser visto na Figura 11. Poncã.1 Regressão Linear Simples Neste tipo de regressão é possível verificar a associação entre as séries de dados. Regressão linear simples entre a flutuação populacional de T.2 Regressão Linear Múltipla Este tipo de regressão possibilita a associação de uma variável dependentes (Z). com duas variáveis independentes (X e Y).

Figura 12.4695 30 rina cv. Poncã. baseados nas propriedades das curva normal. brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z).0046x2 .0. . plotar a linha de tendência polinomial e a equação de segundo graus das duas variáveis. as contagens e as notas dadas a certas características qualitativas. Poncã. é necessário que o dados tenham uma distribuição normal (Figura 4.1984 40 cultivo orgânico de tangeR2 = 0. na Fazen20 dinha Agroecológica. na Fazendinha Agroecológica. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues. aurantii múltipla entre a flutuação populacional de T.Apostila de Estatística Aplicada 37 Figura 11. 10 Transformação de Dados Para uma aplicação válida dos testes de significância. Vamos apresentar nesta apostila algumas das principais transformações de dados empregadas na normalização dos dados e as situações que cada uma se aplica. 9. exigem quase sempre essa transformação. auran70 tii e a brotação foliar de 60 tangerina cv. 2004). Correlação múltipla da amplitude térmica (variável x).3 Regressão Múltipla Neste tipo de regressão é possível verificar a associação entre as séries de dados. em 50 y = 0. em cultivo orgânico de tangerina cv. 2004). no 10 período de outubro de 0 2002 a outubro de 2003 0 20 40 60 80 100 120 (Adaptado de Rodrigues. Poncã. Regressão T. Figura 5 e Figura 6).2141x + 7. X independente e Y dependente. As porcentagens.

Transformando os dados utilizando suas raízes quadradas resulta em uma amostra cuja distribuição é normal. ainda. todas as comparações entre médias são realizadas na escala transformada. por exemplo. do número de plantas sobreviventes em relação ao número total de plantas que deveriam estar presentes se nenhuma tivesse morrido após a poluição de um determinado solo. ou seja.3 Transformação Angular (Arcoseno) Essa transformação é utilizada quando os dados estão associados a uma distribuição binomial (presença-ausência). elevar ao quadrado os valore submetido à transformação de raiz quadrada. 10. respectivamente. mas o método pode também ser utilizado quando esse número não é rigorosamente igual é sugerido na literatura que valores de 0 e 100%. 11 Testes Específicos Para Análise de Populações e Comunidades 11. Quando se achar preferível não se apresentar os resultados na escala transformada. os coeficientes de variação aproximadamente iguais. 1997). 10. Nesse tipo de transformação. tendem a serem proporcionais. Quando aparece o valor zero. em seguida. os dados finais devem ser transformados novamente para escala original. o número total de indivíduos em todas as espécies (Brower et al.1 Raiz Quadrada Essa transformação é utilizada quando a variância e proporcional a média. sejam substituídos por ¼n e 100.4 Considerações Gerais Quando é utilizada uma transformação de dados. 10. Vários índices de diversidade foram propostos que incorporam ambos S e N. É o caso. porém qualquer outra base poderá ser utilizada. são calculados os valores através da fórmula p' = arcsen % . como muitas vezes que um determinado caráter aparece num total definido. Por exemplo.5 ou x ' = x + 1 ou x ' = x . que podem ser utilizados em diversas situações.¼n. utiliza-se a transformação x' = log (x+1). desde que. Os dados são transformados em percentagens e. ou porcentagens que abrangem uma grande amplitude de variação. antes de entrar na tabela. por conveniência. sendo a primeira mais utilizada. É utilizada. ou a riqueza de espécie. A medida mais simples de diversidade de espécie é o número de espécie (s). quando os dados são representados por números positivos. .1 Índice de Diversidade e Dominância Populacional Existe uma série de índice de diversidade.William Costa Rodrigues 38 10. seja especificada. quando os dados consistem em ocorrências aleatórias de objetos ou eventos). É freqüentemente utilizado em dados biológicos quando amostras são tiradas da distribuição de Poisson (isto é. utilizando-se uma tabela apropriada. sendo. todos os dados deveriam estar baseados em um número de observações iguais. O dados que se recomenda utilizar este tipo de transformação são dados de percentagens e contagens (números inteiros). As equações normalmente utilizadas são: x ' = x + 0.2 Transformação Logarítimica Este transformação é utilizada principalmente quando as médias e os desvios padrões (erros). A base 10 para os logaritmos é utilizada normalmente. nesse caso. quando há uma redução dos valores de média e variância diminui simultaneamente.

porém quando há um aumento deste índice. numa tentativa de normalizar os dados.5 Índice de Dominância Berger-Parker (d) Este índice estima a dominância dentro de uma comunidade. Este índice é dado pela fórmula abaixo: S −1 α= log N Onde: S: Número de espécies levantadas.3 Índice de Menhinick (Dm) Este índice é semelhante aos dois anteriores.1. verifica se há ou não dominância de uma determinada espécie numa comunidade.∑ p i × log p i' Onde: p = proporção da espécie em relação ao número total de indivíduos 11. 11.Apostila de Estatística Aplicada 39 Quando o índice de diversidade diminui.1 Índice de Margalef (α) Este índice foi proposto por Margalef (1951) e tem como objetivo estimar o número de espécies e o número de indivíduos de uma comunidade. N d = Max N total Onde: NMax= é o número de indivíduos da espécie mais abundante e NTotal= é total de indivíduos amostrados. H ' = . porém considera todas as espécies da amostra. S Dg = log N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11. Normalizando os dados e diminuindo a probabilidade de erro dos cálculos.1.2 Exemplo O exemplo hipotético abaixo da diversidade de cochonilhas em agroecossistema cítrico ilustra os índices de diversidade das cochonilhas de um pomar de citros. N: Número de indivíduos total 11. considera a proporção de cada espécie em relação ao todo.4 Índice de Shanon-Wiener (H') É considerado o índice de diversidade mais completo. mesmo que o número de indivíduos seja reduzido.1. . há um indicativo de que o local é bastante diversificado. pois além de considerar o número de espécies. indica que há competição interespecífica e que o local é menos diversificado.1.1.2 Índice de Glason (Dg) É semelhante ao índice anterior. entretanto utiliza a raiz quadrada do número de indivíduos total de cada amostra. tendendo a dominância de uma determinada espécie. ou seja. 11. S Db = N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11.

William Costa Rodrigues 40 Tabela 9.790 !Configura Média 10 1. nas duas comunidades (Southwood. Sorensen QS = 11. as duas espécies. que são as seguintes: j Jaccard QS = (a + b − j ) 2j (a + b ) Onde: a = Número de espécies presente no habitat ou comunidade A. ou número de levantamentos com a espécie b e j = Número de espécies presente nos dois habitats ou comunidades ou número de levantamentos contendo.118 1995 10 235 1. podemos calcular a %S: % S = (15 + 14 + 27 + 17 )∴ % S = 73% . % c = idem.479 0.556 0.611 0. para espécies c e % n = idem. % S = ∑ (% a + % b + % c + . para espécies b.481 3.574 4. como também o número de indivíduos.609 4. porém leva em conta não somente a composição das espécies.3.218 1996 10 323 1.045 ção não válida de caractere Dm 0. simultaneamente.652 0. pois se calcula pelo somatório dos menores valores das percentagens observadas de cada espécies em relação ao total de indivíduos. Existem duas fórmulas para calcular o QS propostas por Jaccard (1912) e Sorensen (1948). Tabela 10.3 Índice de Similaridade entre Populações 11.985 1997 10 435 1.648 4.557 3. Índices de diversidade de cochonilhas em agroecossiema cítrico.. 1971). Duas comunidades com sua composição de espécies em percentagem Comunidade A B Espécies a 15 33 b 35 14 c 27 36 d 23 17 A partir dos dados da Tabela 10. para espécies n. Período S N Dg α 1994 10 268 1.1 Quociente de Similaridade O objetivo deste quociente é verificar a similaridade entre duas comunidades ou habitat.. b = Número de espécies presente no habitat ou comunidade B.3.2 Porcentagem de Similaridade Expressa os resultados semelhantes ao do Quociente de Similaridade. + % n ) Onde: % a = menor porcentagem da espécie a observada no confronto das comunidades.575 11. % b = idem. no que se refere a composição específica (espécies). ou número de levantamentos com a espécie a.

A Constância de uma espécie poderá ser classificada da seguinte forma: a) Espécies constantes – presentes em mais de 50% dos levantamentos. 11.4 Constância Este parâmetro indica a percentagem de uma determinada espécie em relação a todos os levantamentos realizados.3. . 46.Apostila de Estatística Aplicada 41 11.5 Índice de Associação (IA) Verifica o índice de o nível de associação existente entre duas espécies. para espécies B e J = Número de indivíduos da espécie A e B nos levantamentos em que ocorrem simultaneamente.3 Índice de Afinidade Este índice estima a freqüência com que duas espécies ocorrem simultaneamente em determinada comunidade ou habitat. É dado pela fórmula: n × 100 C= N Onde: n = Número de coletas contendo a espécies em estudo e N = Número total de coletas realizadas. baseiase no total do número de indivíduos de ambas as espécies que ocorrem simultaneamente nos levantamentos realizados.5 A+ B Onde: A = Número total de indivíduos da espécie A coletados ou amostrados em todos os levantamentos. B = Idem. Foi proposto por FAGER (1957). A significância de j pode ser observada através da Tabela 15.5% de probabilidade são dados na Tabela 15. b) Espécies acessórias – presentes entre 25–50% dos levantamentos. p. nB = Número de ocorrência da espécie B e j = Número de ocorrência conjunta das espécies A e B. J IA = − 0.3. 46. Os valores mínimos de j significativos a 0. c) Espécies Acidentais – Presentes em menos de 25% dos levantamentos. É dado pela fórmula: 2j I AB = n A + nB Onde: nA = Número de ocorrência da espécie A. p.3. 11.

O uso de análise multivariadas ecológicas em estudos ambientais interdisciplinares. Ribeirão Preto: FUNPEC. ícone.. N. Estatística [Sem] Matemática: A ligação entre as questões e a análise. Da UFG. Estatística não paramétrica. L. Determination and analysis of recurrent groups. R.H. Manual de Ecologia de Insetos. 98: 321-329. 2003. P. Computational Statistics & Data Analysis. Waldhardt.P. Clark. Campinas: UNICAMP. 2ª ed. Quebecor: MC Graw Hill.N. 1979. Curso de Estatística Experimental. F.. B. London.C. 2ª ed. Tese de Doutorado. & von Ende.. K. P. 1948. D. Rio de Janeiro: Guanabara –Koogan.F. Sorensen. 2002. 63f. M. The distribution of the flora in the alpine zone.. Piracicaba: Nobel.W.G. 2000. 1971. Vanzolini. D.C. P. G. 467p.E..W. 2002. Ed. Ecologia: princípios e métodos: Petrópolis: Vozes. Rey. 34: 121-137.. 2003. P. . Levine. Methuen & Co. Berger. I.M & Prado. Laroca. 1999.L. Ecological Methods.. Niterói: EdUFF. V.T. 4th ed.R. Londrina: Planta. 1912. 2001.L. São Paulo. Zar. & Mishra. J. A. Hirsch. 234p. Hughes. Jaccard. 38:586595. W. UFRuralRJ. Biostatistical Analysis. Lewinsohn. Simmering. R.E. & Villa Nova. Barbin.E. São Paulo: Edgard Blücher. & Mourão. Homópteros (Homoptera: Sternorrhyncha) associados à tangerina cv. Mulekar. 1998.. 3ª ed.. Nakano. Huirtec. S. Field and Laboratory Methods for General Ecology. 2004. 1997.R. A. (revista e ampliada). 3): Ed.M. & Wolters. Magnusson. Agronômica Ceres. 3ª ed. Rodrigues. 5:1-34 Southwood. 663p and index included. 168: 1345-1347. P. 1967. Centeno. Estatística: teoria e Aplicações usando Microsoft® Excel em português. & Morris. O. 1990. M.. Otte A. 2000. Skr. T. NeroPhytal. 1992. F.. T. Berenson. Zar.H.D. 2ª reimpr.). São Paulo: MC Graw Hill do Brasil. Métodos estatísticos elementares em sistemática zoológica. Beiguelman. A method of establishing groups of equal amplitude in plant sociology basead an similarity of species. 1970. New Jersey: Prentice Hall. 169p. Souza..S. 11:37-50. Siegel. Ed. 5ª Ed. S. Rodrigues. Brower. L. The Ecology of insect Populations in Theory and Practice. S. D. Biol. 13ª ed (revista e ampliada). W. 4th ed. 2000. J. C. Poncã (Citrus reticulata Blanco) em cultivo orgânico e a interação com predadores e formigas. Planejar e redigir trabalhos científicos. 331 p. H. T. Bioestatística Teórica e Computacional. Rio de Janeiro: LTC. 232p. 419 p. Goiânia (Coleção Didática.C. 197p. 339p. 272p. 1976. Gomes. Curso prático de bioestatística. Bioestatística. S. & Parker.1993.. Caderno V. J. T. F. 811p.. Princípios de Entomologia.H. Confidence interval estimation of overlap: equal means case. 273p and software included. R. D. E. Dauber. 1957. 318p. Diversity of Planktonic Foraminifera in Deep-Sea sediments. Ecosystems and Environment.. Chapman and Hall Ltd.William Costa Rodrigues 42 12 Bibliografia Arango. Agriculture. Science. Silveira Neto. J. Fager.P (Trad. Curso de Estatística Aplicada à Biologia. 126p. 235p. 130p. Geier. 391p. Landscape structure as an indicator of biodiversity: matrix effects on species richness. Lara. 43p. E. Seropédica. W.L & Stephan. Ecology. 1995.J. 2002.M. M.

Apostila de Estatística Aplicada 43 13 Anexos Figura 13. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos Dados com Distribuição Normal Dados com Distribuição Não Normal 2 Tratamentos 2 Tratamentos > 2 Tratamentos Dados Numéricos divididos em Categorias Teste T ANOVA Teste F Teste 2 (Qui-Quadrado) Não dividido em blocos (Amostras compostas) Dividido em Bloco Dados Pareados Dados não Pareados Não será abordado Calcula Valor 2 S2Maior S2Menor < 4 S2Maior S2Menor 4 Teste de KruskalWallis Teste de Friedman Calcula Valor H Variâncias iguais (Homocedásticas) Variâncias desiguais (Heterocedásticas) Calcula Valor 2r Calcula Variância Ponderada Compara com valor 2 Tabelado ( = 5%) Se 2calc 2tab Rejeita H0 Coloca * Se 2calc < 2tab Aceita H0 Coloca ns Calcula Valor T Se Tcalc Ttab Rejeita H0 Coloca * Compara com T tabelado ( =5%) Compara com 2 tabelado ( =1%) Compara com T tabelado ( =1%) Se Tcalc < Ttab Aceita H0 Coloca ns Se 2calc 2tab Coloca ** Se 2calc < 2tab Mantém * Se Tcalc Ttab Coloca ** Se Tcalc < Ttab Mantém * Conclui textualmente .

30 3.31 2.03 3.20 2.96 1% (α=0.05) 12.90 2.92 5.79 2.11 3.01) de probabilidade3.86 2.11 2.01 1.88 2. Grau de liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 50 100 500 ∞ 5% (α=0.75 2.98 2.71 3.26 2.13 2. .84 2.01) 63.18 2.William Costa Rodrigues 44 Tabela 11.04 2.14 2.98 1.95 2.84 4.06 2.09 2.25 3.01 2.36 2.78 2.16 2.06 3. Valores de t -student em níveis de 5% e 1% (α=0.36 3.23 2.66 9.18 2.59 2.58 3 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.10 2.57 2. (1998).71 4.09 2.50 3.63 2.12 2.45 2.17 3.60 4.92 2.05 a 0.96 1.68 2.

67 23.36 23.81 18.87 30.76 1% (α=0.19 37.17 36.64 42.58 32.07 12.38 54. .34 42.09 16.59 14.34 58.34 13.31 19.49 11.60 50.62 59. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0.77 44.03 22.14 30.67 33.65 38. Grau de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 5% (α=0.19 47.48 20.84 5.99 46.07 15.14 31.92 35.21 24.11 41.06 57.80 36.31 45.01) de probabilidade4.98 40.42 37.19 53.69 29.69 4 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.05) 3.60 49. (1998).01) 6.40 48.96 48.Apostila de Estatística Aplicada 45 Tabela 12.21 11.68 25.64 9.99 7.57 38.28 15.89 48.98 44.64 46.30 43.82 9.51 16.92 18.00 26.41 34.23 49.09 21.43 63.29 41.72 26.57 55.88 40.28 49.99 52.00 33.68 21.59 28.80 50.89 61.49 54.41 32.05 a 0.78 56.22 27.16 62.30 27.

170 0.213 0.074 0.503 0.000 0.829 0.337 0.152 0.485 0.235 0.10 1.207 0.248 0.727 0.544 0.267 0.521 0.William Costa Rodrigues 46 Tabela 13.401 0.085 0.217 0.170 0.000 0.185 0.370 0.886 0.271 0.235 0.382 0.755 0.191 0.425 0.344 0.584 0.335 0.089 0.227 0.362 0.900 0.587 0.521 0.189 0.264 0.600 0.202 0.405 0.414 0.346 0.560 0.01 – – 1.433 0.406 0.600 0.318 0.391 0.297 0.182 0.321 0.093 0.500 0.415 0.643 0.310 0.654 0.306 0.142 0.279 0.236 0.714 0.460 0.214 0.429 0.200 0.467 0.287 0.220 0.209 0.447 0.833 0.000 0.082 0.679 0.929 0.224 0.279 0.738 0.257 5 A tabela completa poderá ser consultada em Zar (1999).156 0.165 0.118 0.648 0.161 0. Valores críticos para o Coeficiente de Correlação de Spearman (rs) 5 n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 α(2) 0.264 0.786 0.244 0.50 0.079 0.294 0.070 0.076 0.635 0.180 0.248 0.380 0.570 0.148 0.103 0.556 0.198 0.794 0.266 0.068 0.283 0.538 0.398 0.197 0.536 0.331 0.881 0.05 – 1.072 0.363 0.446 0.532 0.110 0.503 0.703 0.484 0.464 0.313 0.472 0.371 0.511 0.361 0.165 0. .353 0.618 0.435 0.255 0.176 0.564 0.206 0.600 0.307 0.097 0.174 0.128 0.615 0.700 0.144 0.

4 0.13 53.44 5.54 12.16 64.9 100.7 0. seguindo ângulos terminados em 5.9586.42 58.94 52.6 99.35+ 25.37 86.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 0 1.19 90.13 21.80 5.98 41.87 84.28 43.69 59.66 31.21 68.79 57.94 55.17 56.9532.56 3.6539.56 84.00 - Os sinais (+) e (-).56 72.8 99.6 0.02 81.06 35.03 68.13 5.72 47.Apostila de Estatística Aplicada 47 Tabela 14.73 54.58 24. 6 A tabela completa poderá ser consultada em Zar (1999).5 0.00 60.1 0.44 4.46 18.43 17.34 60.21 33.2 99.33 30.54 73.28 27.73 70.56 % 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 27.63 4.44 % 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99.00 % 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 0 45.05+ 4.3 0.34 62.08 78.81 2.31 31.4 99.4535.29 47.20 85.65 66.60 50.43 45.42 67.4549.55+ 42.0 0 64.1 99.00 30.3 99.53 53.67 36.56 85. são orientações para arredondamento a uma decimal.58 32.63 71.14 3.44 88.87 69.67 61.71 43.1546.92 14.45 80.03 62.57 74.13 42.26 84.06 38.02 49.87 37.37 20.5 99.82 40.87 85.77 51.44 19.98 11.47 38.86 87. Valores para transformação arcsen % 6 % 0.66 75.84 26.7 99.57 46.40 40.87 48.10 25.05+ 58.23 39.97 22.79 23.83 34.85 44.72 63.66 29.18 15.27 21.33 54.74 8.97 28.8 0.55+ 56.13 9.34 16.18 50.35+ 51.2 0.0 0.90 65.82 77.27 36. .0 99.

significativos a 0.0 – 6 7 8 9 10 17 24 32 39 46 53 59 67 74 .5 5 6 7 8 8 9 16 22 29 35 42 48 55 61 67 2. nA 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100 1. 1971). Valores mínimos de j.William Costa Rodrigues 48 Tabela 15.5% (Southwood.0 5 5 6 7 7 8 14 19 25 29 36 41 46 52 57 nB/na 1.

154 ************* . Procure aproveitar ao máximo o momento que está vivendo. para seu aperfeiçoamento. Torres Pastorinho Minutos da Sabedoria. tirando todas as vantagens que puder. Viva o momento presente. O amanhã ainda não chegou. porque dele depende todo o seu futuro. onde quer que você esteja.Apostila de Estatística Aplicada 49 ************* O minuto que você está vivendo agora é o mais importante de sua vida. C. Preste atenção ao que está fazendo. p. O ontem já lhe fugiu das mãos.

Sign up to vote on this title
UsefulNot useful