6ª Edição Revisada e Ampliada
O Autor:
William Costa Rodrigues é Agrônomo, Doutor em Fitotecnia e PósDoutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de Ecologia1, Toxicologia1, Climatologia1, Estudos de Impacto Ambiental1, Estatística Aplicada2 e Auditoria Certificação Ambiental2, Metodologia da Pesquisa Científica2 na graduação e de Estatística Ambiental1 e Biondicadores Ambientais1 na especialização de Planejamento e Gestão Ambiental1, onde também é Supervisor Pedagógico. Atua como desenvolvedor de softwares agrícolas e Científicos. Coordenador Geral do projeto Entomologistas do Brasil (www.ebras.bio.br). Coordenador e autor de capítulos no livro Citricultura Fluminense: Principais pragas e seus inimigos naturais. Trabalha ativamente com análise estatística em projetos na área agrícola e ambiental. O autor poderá ser contatado através do e-mail: wcostarodrigues@yahoo.com.br.

Esta Obra:
A apostila Estatística Ambiental foi inicialmente utilizada no programa de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e no Curso de graduação em Gestão Ambiental, na disciplina Estatística Aplicada, tendo como objetivo informar o discente sobre os princípios básicos da estatística, relacionando-a com a metodologia científica, possibilitando um entendimento básico sobre o assunto. Hoje a apostila é também utilizada em cursos de graduação. Capa: Fotos do Autor na Ilha da Marambaia. Foto superior Casulo de Plecoptera e foto inferior, córrego onde ao casulo foi coletado.

Esta obra é distribuída através da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br

Copyright©2004-2008 Rodri Copyright©2004-2008, W.C. Rodrigues

1 2

Disciplina Ministrada na Universidade Severino Sombra Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental

Sumário
1 Introdução................................................................................................................. 1 1.1 Crescimento e Desenvolvimento da Estatística Moderna ................................ 1 1.2 Variação ao Acaso ............................................................................................ 1 Ensaio x Experimentação ......................................................................................... 2 Conceitos Estatísticos ............................................................................................... 2 3.1 Estatística Descritiva ........................................................................................ 2 3.2 Inferência Estatística......................................................................................... 2 3.3 Tipos de Dados ................................................................................................. 3 3.3.1 Variáveis Aleatórias Categorizadas.......................................................... 3 3.3.2 Variáveis Aleatórias Numéricas ............................................................... 3 Por que Utilizar a Estatística .................................................................................... 4 Planejamento Experimental...................................................................................... 4 5.1 Fases do Planejamento ..................................................................................... 4 5.1.1 Problema................................................................................................... 5 5.1.2 Informações Existentes............................................................................. 5 5.1.3 Noções Gerais Sobre Hipótese ................................................................. 5 5.1.4 Formulação das Hipóteses ........................................................................ 6 5.1.4.1 Elaborando as hipóteses........................................................................ 6 5.1.4.2 Hipótese Estatística x Hipótese Científica ........................................... 6 5.1.5 Testando as Hipóteses .............................................................................. 6 5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses ..................... 6 5.1.7 Aleatorização ............................................................................................ 7 5.2 Erros de Observações ....................................................................................... 7 5.2.1 Erros do Observador................................................................................. 7 5.2.2 Erro do Método de Observação ................................................................ 8 5.2.3 Por Falta de Resposta ............................................................................... 8 5.3 Controle dos Erros nas Observações ................................................................ 8 5.4 Métodos de Coleta de Dados ............................................................................ 8 5.4.1 Fontes Primárias ....................................................................................... 8 5.4.2 Fontes Secundárias ................................................................................... 8 5.5 Pesquisa Observacional .................................................................................... 9 5.6 Pesquisa Experimental...................................................................................... 9 5.6.1 Princípios da Experimentação ................................................................ 10 5.7 Tipos de Amostras .......................................................................................... 10 5.7.1 Amostras Simples ao Acaso ................................................................... 10 5.7.2 Amostra Estratificada ............................................................................. 11 5.7.3 Amostra Sistemática ............................................................................... 11 5.7.4 Amostra por Área ................................................................................... 11 5.7.5 Amostra por Conglomeradas .................................................................. 11 5.7.6 Amostra Selecionada .............................................................................. 11 5.8 Determinação do Tamanho da Amostra ......................................................... 12 5.8.1 Tamanho da Amostra para Dados Discretos .......................................... 12 5.8.2 Tamanho da Amostra para Dados Contínuos ......................................... 13 Técnicas Estatísticas Para Análise de dados .......................................................... 14 6.1 Medidas de Tendência Central ....................................................................... 14 6.1.1 Média Aritmética Simples ( X ) .............................................................. 14 6.1.2 Média Aritmética Ponderada .................................................................. 14 6.1.3 Média Aritmética de Dados Agrupados em Intervalos .......................... 15

2 3

4 5

6

6.1.4 Mediana (Me) ......................................................................................... 16 6.2 Medidas de Variação ...................................................................................... 17 6.2.1 Desvio-Médio (DM) ............................................................................... 17 6.2.2 Desvio Padrão......................................................................................... 17 6.3 Variância ou Quadrado Médio ....................................................................... 18 6.4 Erro-Padrão da Média - s(x) ........................................................................... 19 6.5 Coeficiente de Variação.................................................................................. 19 6.6 Curva de Distribuição Normal........................................................................ 19 6.6.1 Limites de Confiança.............................................................................. 21 6.6.2 Erro Padrão ............................................................................................. 22 6.7 Teste de Normalidade dos Dados ................................................................... 22 6.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 22 6.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 22 7 Testes Paramétricos e Não Paramétricos................................................................ 23 7.1 Teste t - Student.............................................................................................. 23 7.1.1 Dados Pareados (Amostras Dependentes).............................................. 24 7.1.2 Dados Pareados (Amostras Independentes) ........................................... 25 7.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)........... 26 7.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas) ................. 27 7.2 Teste Qui-Quadrado (χ²) ................................................................................ 28 7.3 Tabela de Contingência .................................................................................. 28 7.4 Teste de Kruskal-Wallis ................................................................................. 29 7.5 Teste de Friedman (Análise da Variância) ..................................................... 31 8 Correlação Linear ................................................................................................... 32 8.1 Coeficiente de Correlação (r) ......................................................................... 32 8.1.1 Correlação de Pearson ............................................................................ 32 8.1.2 Correlação de Spearman......................................................................... 32 8.1.3 Aspectos Gerais da Correlação Linear ................................................... 33 8.2 Coeficiente de Determinação (r²) ................................................................... 34 8.3 Coeficiente de Alienação (K) ......................................................................... 34 8.4 Significância do Teste de Correlação ............................................................. 34 8.4.1 Significância Baseada nos Intervalos ..................................................... 34 8.4.2 Significância Baseada no Teste t para r (Pearson) ................................. 35 9 Análise de Regressão.............................................................................................. 35 9.1 Regressão Linear Simples .............................................................................. 36 9.2 Regressão Linear Múltipla.............................................................................. 36 9.3 Regressão Múltipla ......................................................................................... 37 10 Transformação de Dados .................................................................................... 37 10.1 Raiz Quadrada ................................................................................................ 38 10.2 Transformação Logarítimica .......................................................................... 38 10.3 Transformação Angular (Arcoseno)............................................................... 38 10.4 Considerações Gerais ..................................................................................... 38 11 Testes Específicos Para Análise de Populações e Comunidades ....................... 38 11.1 Índice de Diversidade e Dominância Populacional........................................ 38 11.1.1 Índice de Margalef (α)............................................................................ 39 11.1.2 Índice de Glason (Dg) ............................................................................. 39 11.1.3 Índice de Menhinick (Dm) ...................................................................... 39 11.1.4 Índice de Shanon-Wiener (H') ................................................................ 39 11.1.5 Índice de Dominância Berger-Parker (d)................................................ 39 11.2 Exemplo.......................................................................................................... 39

11.3 Índice de Similaridade entre Populações........................................................ 40 11.3.1 Quociente de Similaridade...................................................................... 40 11.3.2 Porcentagem de Similaridade ................................................................. 40 11.3.3 Índice de Afinidade ................................................................................ 41 11.3.4 Constância .............................................................................................. 41 11.3.5 Índice de Associação (IA) ...................................................................... 41 12 Bibliografia......................................................................................................... 42 13 Anexos ................................................................................................................ 43

........ Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios). 31 Tabela 5.................................................. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo...... Valores de t -student em níveis de 5% e 1% (α=0.................... Duas comunidades com sua composição de espécies em percentagem .......... 7 Tabela 2........... .....................01) de α probabilidade ....... em quatro diferentes profundidades.......................... significativos a 0.....01) de α probabilidade... 34 Tabela 8....... 33 Tabela 6................................................................................................................................ Classificação do valor r através de intervalos de acordo com e Teste de Rugg... sob cultivo orgânico na Fazendinha Agroecológica............................ ......... Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril................................................................. ...... Classificação do valor r através de intervalos de 0 a 1.............................. 25 Tabela 4................ 46 Tabela 14.............................. 1999)................ 48 ..................................Índice de Tabelas Tabela 1. 2004)............... Valores mínimos de j..... 40 Tabela 11............. Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera........05 a 0............ Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis................... em mg................ Aphididae) em função da brotação foliar de tangerina cv Poncã. 47 Tabela 15........................................ 35 Tabela 9.............. Exemplo para o Microsoft Excel.................... no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues..................................... 1971)............................... 45 Tabela 13... 34 Tabela 7.................... .................. 44 Tabela 12. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0. .............................. 40 Tabela 10.... .................... Correlação de Spearman entre as notas brutas de matemática e biologia (Zar......... numa área de re-vegetação (dados fictícios)................... .......................mm³ de β solo .. Valores para transformação arcsen % .............................. 24 Tabela 3........5% (Southwood..05 a 0................... Índices de diversidade de cochonilhas em agroecossiema cítrico.......................................................... Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata.................. Valores críticos para o Coeficiente de Correlação de Spearman (rs).... (dados fictícios)......................................................................

...................... em que foram registrados outros valores intermediários (definidos pelos pontos B e C).... Poncã....... no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues.. em cultivo orgânico de tangerina cv................... situada à esquerda de C.......... 33 Figura 9...... Interpretação dos dados experimentais.............................................................. e inversa ou negativa (B). 36 Figura 10..... indicam as percentagens de valores de X aí contidas............................ ..... Diagrama de tipos de dados ............. 22 Figura 8. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ. aurantii e a brotação foliar de tangerina cv... Curva normal padrão.......... Regressão linear simples entre a flutuação populacional de T.......... O gráfico à esquerda............................... Regressão múltipla entre a flutuação populacional de T..................... Curvas de distribuição normal das freqüências de X.. Diagrama de uma estatística descritiva................................................................... ................. mostra que a relação entre X e Y obedece a uma lei mais completa................... medidos em unidades de desvio-padrão... . baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B)...... 20 Figura 5...................................... 4 Figura 3... 3 Figura 2............. com seus diversos níveis de categorias... Poncã.. 2004)......... 10 Figura 4......... sob a curva..Índice de Figuras Figura 1... tendo por parâmetros µ=0 e s= 1..... tendo a mesma média (µ) µ e diferentes graus de dispersão dos valores de X... ....... na Fazendinha Agroecológica................... A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área..................... 37 Figura 12.. 43 ...... isto é.... 36 Figura 11... 2004)............. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues............ entretanto no gráfico à direita.................. As áreas sob a curva assinaladas entre os traços verticais........ 21 Figura 7...... Correlação múltipla da amplitude térmica (variável x)................................................. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos ............................ Correlação linear simples positiva (A).............. Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel......... em cultivo orgânico de tangerina cv..... desvios padrões (s) diferentes. Curva de distribuição normal simétrica..... Poncã.... Poncã. 20 Figura 6.. parece sugerir que Y cresce à medida que X cresce................ 2004)....... 37 Figura 13.............................................. brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z)............... na Fazendinha Agroecológica...... em cultivo orgânico de tangerina cv........ no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues................................. apresentando a linha de tendência de regressão linear simples de dados fictícios.......... na Fazendinha Agroecológica......... onde µ é a média e s o desvio padrão.......... Poncã......... aurantii e a brotação foliar de tangerina cv...............

1 Crescimento e Desenvolvimento da Estatística Moderna Historicamente. Foram levantados dados através dos registros históricos. não podem ser conhecidos individualmente e alteram pouco ou muito. aferição do aparelho utilizado para mensurar. mas não é só desta forma que você faz parte do infinito mundo da estatística. da análise e da interpretação de dados observados. pois o principal objetivo desta ferramenta é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor indicar o caminho para uma tomada de decisão. eu disse quase tudo. podemos ver que em quase tudo. seja visando o aprimoramento de métodos e técnicas de investigação. os dados eram obtidos principalmente com o objetivo de recolherem impostos e para o recenseamento militar. quando você é abordado na rua para responder qual o candidato irá votar na próxima eleição. e mesmo pela utilização dos resultados e pesquisas feitas por aqueles que a isso se dediquem. quando seu salário aumenta. etc. você está fazendo parte da estatística. Esses efeitos. Bom. Desta forma. variação nos intervalos de amostragem. avaliando o crescimento populacional e a distribuição desta população no território nacional entre outros aspectos avaliados.2 Variação ao Acaso O que dificulta ao trabalho de pesquisador e exige a análise estatística é a presença. Isso levou ao desenvolvimento de computadores mainframe e finalmente a revolução dos computadores pessoais. Na área ambiental. faz parte também. grega e romana. Estudando os mais variados fenômenos das diversas áreas do conhecimento. Eles são indicados pela designação geral de variação do acaso ou variação aleatória. a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de equipamentos de tabulação no início do século XX. Na Idade Média. No Brasil o censo é realizado a cada 10 anos. morte e casamentos. Quando você está desempregado ou empregado. A estatística. e mesmo pela utilização dos resultados e pesquisas feitas. As variações ao acaso podem ser exemplificadas como: temperatura ambiente. uma interferência da luz solar. podemos empregar a estatística. realizar experimentos. as instituições religiosas freqüentemente mantinham registros relativos a nascimentos. 1. obviamente que não podemos deixar a estatística dominar nossas vidas. os resultados obtidos. poderá haver. por exemplo. sempre presentes. em dias diferentes. realizar experimentos. que irá interferir na distinção das cores. quando o IBGE faz uma visita a sua casa para o censo. está fazendo parte da estatística. . o desenvolvimento da teoria da probabilidade e o advento da informática. em todos os dados obtidos. o crescimento e o desenvolvimento da estatística moderna podem ser relacionados a três fatores isolados – a necessidade dos governos de coletar dados dos cidadãos. trata da coleta. de efeitos fatores não controlados (que podem ser controlados). ela representa um valioso instrumento de trabalho nos dias de hoje. seja por exigências do próprio desenvolvimento do país. variação no horário de coleta dos dados. Durante as civilizações egípcias.Apostila de Estatística Aplicada 1 1 Introdução Diariamente estamos envolvidos em análises estatísticas. 1. como parte da matemática aplicada. o estudo da estatística justifica-se pela necessidade de desenvolver pesquisas. se a avaliação for. Assim. De fato. O efeito dessa variação do acaso é tal que pode alterar completamente os resultados experimentais. ao comparar no campo duas paisagens.

Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização dos dados. as definições seguintes são necessárias: Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado. A análise e interpretação dos dados não podem possuir muito rigor e deve se adequar ao tipo de ensaio realizado. foi o desenvolvimento de métodos estatísticos de inferência. que levou à ampla aplicação da estatística em todos os campos de pesquisas atuais. Para tornar mais claro esta definição. Um parâmetro é a medida calculada para descrever uma característica de toda uma população. As variações ao acaso são controladas com rigor. . Experimentação O tempo de avaliação deverá ser o suficiente para que os dados coletado possam garantir uma avaliação. número de amostras. como um produto de teoria da probabilidade. O número de amostras é reduzido.1 Estatística Descritiva Pode ser definida como os métodos que envolvem a coleta. Diferenças entre Ensaio e Experimentação. As variações ao acaso são parcialmente controlados. O número de amostra deverá ser suficiente para avaliar os dados com a maior precisão possível O tamanho do experimento deverá ser suficiente para avaliar os dados. A análise e interpretação dos dados deverão ser rigorosas e adequadas ao tipo de experimentação realizada.William Costa Rodrigues 2 2 Ensaio x Experimentação Existem diferenças básicas entre os dois métodos de avaliar um dado científico. Ensaio Tempo de duração da avaliação é curta. 3. objetivando somente uma pré-avaliação dos resultados. Uma estatística é a medida calculada para descrever uma característica de apenas uma amostra da população. O tamanho do experimento é reduzido. com margem de erro menor possível. 3 Conceitos Estatísticos 3.2 Inferência Estatística Pode ser definida como os métodos que tornam possível a estimativa de uma característica de uma população ou a tomada de uma decisão referente à população com base somente em resultados de amostras (Figura 1). Uma amostra é a parte da população selecionada para análise. Abaixo no Quadro 1 são listadas as diferenças entre os dois métodos. número de amostragens realizadas. etc. Quadro 1. possibilitando assim menor erro amostral e na análise estatística. não havendo rigor. As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a forma de apresentação dos dados. a apresentação e a caracterização de um conjunto de dados de modo a descrever apropriadamente as várias características deste conjunto.

Isto seria alcançado utilizando-se as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características de interesse da população. A população. Quando a população se torna grande. podendo ser números discretos ou contínuos.Apostila de Estatística Aplicada 3 Para melhor elucidar estes conceitos. . A necessidade da inferência estatística deriva da necessidade da amostragem. você tem Sim Não. Desse modo. População/Universo Amostra Parâmetro Estatística Figura 1.3. a resposta é discreta.3. consome muito tempo e é muito cansativo obter informações sobre a população inteira. é geralmente dispendioso demais. enquanto a amostra consistirá os estudantes selecionados para participar da pesquisa. Por exemplo.1 Variáveis Aleatórias Categorizadas Este tipo de variável produz respostas categorizadas. enquanto a reposta para "Qual a sua altura?".3 Tipos de Dados Existem basicamente dois tipos de dados de características de variáveis aleatórias que podem ser estudadas e que produzem os resultados ou os dados observados: categorizados ou numéricos (Figura 2). das famílias. 3. é contínua. 3. O objetivo da pesquisa é descrever várias atitudes ou características de toda a população (os parâmetros). A resposta para pergunta: "Quantos livros você possui?".2 Variáveis Aleatórias Numéricas Produz respostas numéricas. ou por elementos coletivos. A amostra pode ser definida também como o conjunto de observações extraídas de uma fonte (população). ou das pessoas que habitam uma casa. Decisões pertinentes às características da população devem ser baseadas na informação contida numa amostra da população. um aspecto principal da inferência é o processo que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população. A população pode ser constituída de elementos simples. como é o caso das irmandades com mais de um indivíduo. sendo a população a fonte de observações. ou universo. com seus diversos níveis de categorias. Diagrama de uma estatística descritiva. segundo determinadas regras e critérios. digamos que há uma necessidade de saber a opinião da qualidade de vida no campus de sua faculdade. como é o caso dos seres humanos ou das plantas superiores ou das bactérias. carro? 3. será todos os alunos da faculdade.

William Costa Rodrigues 4 Dados discretos são respostas numéricas que surgem a partir de processo de contagem e dados contínuos são repostas numéricas que surgem a partir de um processo de medição. Desta forma devemos ter muito cuidado ao utilizar à estatística. Na Figura 2. segue exemplos de variáveis tanto para aleatórias categorizadas. pois os dados poderão apresentar falhas ou nada representaram para o estudo do problema ou para a elaboração das hipóteses a serem formuladas.1 Fases do Planejamento Quando realizamos um estudo. Se houver alguma informação que possa auxiliar como ponto de partida. "uma área será condenada por poluição de metais pesado no solo". Tipos de Dados Categorizadas Numéricas Discretas Você possui carro? Quantas revistas você assina? Contínuas Qual sua altura? Sim Não 5 1. O que pode ocorrer é que a estatística irá indicar uma diferença numérica. .75m Figura 2. traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização. primeiro consideramos sua importância. por exemplo. Em suma. caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático e tomar a decisão. 5 Planejamento Experimental 5. esta poderá fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar nossa experiência. Em seguida. diremos que os dados selecionados devem ser os estritamente necessários. Estas informações deverão ser avaliadas e criticadas. A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpretação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recusá-la. quanto para aleatórias numéricas (discretas e contínuas). entretanto o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos resultados e levam-na ao descrédito. Diagrama de tipos de dados 4 Por que Utilizar a Estatística A Estatística é uma área da matemática muito utilizada hoje em dia. como a ferramenta que irá dizer se.

Definir a importância do problema que se estuda é explicar o que vamos estudar.1.1 Problema Ao planejar o problema que se vai pesquisar. o pesquisador deve revisar tudo o que diz respeito ao fato em estudo.3 Noções Gerais Sobre Hipótese A hipótese. 9). O que se faz é verificar se ela não seria falsa. A outra seria a interdependência das duas variáveis. que precede a outra. Na prática. O planejamento de pesquisa consiste. Do ponto de vista operacional. Sabemos que a veracidade de uma hipótese nunca pode ser demonstrada ou provada definitivamente. de tal forma que se possa demonstrar a existência de uma relação constante entre os valores de X e Y. para ver se a hipótese adotada ainda se mantém ou não. É importante também especificar sua extensão. limitando-se o estudo científico à observação de como X e Y se apresentam espontaneamente. por mais justa e sólida que possa parecer. o que se tem em vista é verificar uma relação de causa e efeito: queremos saber se a variável X e a variável Y. então. Determinação do(s) objetivo(s) e finalidade da investigação. teremos de montar uma observação ou uma experiência em que se possa verificar o aparecimento de Y quando ocorre X. que se supõe depender de X. enquanto Y. dizer que se vai estudar a biodiversidade da floresta atlântica. Por sua vez. peculiares a determinado fenômeno. podemos encontrar duas situações. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para o estudo. requer demonstração ou prova de sua adequação. mantém-se a hipótese como boa. deverá ser dada especial atenção aos seguintes pontos: Definição da importância do problema que se estuda. A estratégia para isso depende da natureza do problema em causa. Enquanto não se possa demonstrar que ela é incorreta.2 Informações Existentes Antes de empreender o experimento. A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à da pesquisa. 5. Não basta. 5. como observar e medir seus valores e como analisar as relações qualitativas e quantitativas que possam existir entre eles (ver item Pesquisa Observacional. essas conseqüências e previsões serão testadas.1. . Uma própria de fenômenos sobre os quais não podemos influir nem exercer qualquer controle. ou de experimentação.1. portanto. ou alterações dos valores de Y quando varia X. Será impossível o planejamento das etapas subseqüentes se não ficar claramente evidenciado o problema a investigar. o que nos levaria a rejeitá-la e a formular outra.Apostila de Estatística Aplicada 5 5. destinado a contestar determinada hipótese. o efeito da poluição do rio Paraíba do Sul. Muitas vezes. é chamada variável independente. se necessário. na elaboração de um plano de observação. Dela deduzimos as conseqüências ou fazemos previsões. com a finalidade de saber o que já se conhece sobre o assunto. p. resultado de um raciocínio indutivo (consciente ou subconsciente). por exemplo. A variável X. guardam entre si relações de causa e efeito (direta ou indiretamente). pois provavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os aspectos da biodiversidade ou da poluição. é a variável dependente.

1. porém a resposta para entendimento dos resultados. Por exemplo.. social. H 0 : X1 = X 2 = X 3 = . será As substâncias não possuem a mesma capacidade de reação. que são denominados testes estatísticos.1.4. Já a H1. etc. . que se dividem basicamente em Teste Paramétricos e Não Paramétricos. Desta forma. não será somente baseada em um modelo matemático. em um experimente está sendo testada a capacidade de duas substâncias possuírem o mesmo poder de reação química. A hipótese nula admite que os resultados sejam iguais ou com diferenças aleatórias entre os tratamentos. X n 5. somada com uma facilidade de concluir de acordo não somente pelos números. dois tipos de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses: Um erro do tipo I ocorre se a hipótese nula H0 for rejeitada quando de fato é verdadeira e não deveria ser rejeitada. X n Já a hipótese alternativa..6 Riscos na Tomada de Decisão Através Teste de Hipóteses Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da população. 5. As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese científica.1. seja ela: biológica. que serão visto no item Técnicas Estatísticas Para Análise de dados. Na verdade. valerá além da experiência do pesquisador. etc.William Costa Rodrigues 6 5..2 Hipótese Estatística x Hipótese Científica A hipótese estatística testa somente os dados numéricos obtidos através de um modelo matemático fixo e contendo restrições. A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela. mas pela descrição do fato. 5. H a : X1 ≠ X 2 ≠ X 3 ≠ . Um erro do tipo II ocorre se a hipótese nula H0 for rejeitada quando de fato é falsa e não deveria ser rejeitada. nas proporções utilizadas. uma boa revisão bibliográfica e uma interpretação imparcial dos dados.1.5 Testando as Hipóteses Existem várias formas de testar as hipóteses elaboradas. testa duas hipóteses.1 Elaborando as hipóteses O pressuposto a hipótese estatística é sempre testar a nulidade dos dados. Normalmente testa-se através de modelos matemáticos. que geralmente são denominadas de H0 ou Hipótese nula e H1 ou Hipótese alternativa. que não o permite avaliar variáveis complexas e multáveis (clima. 14. efeito antrôpico. 5.). existe um risco de se chegar a uma conclusão incorreta. A H0 deverá ser a seguinte: As substâncias possuem a mesma capacidade de reação.1. p.4.4 Formulação das Hipóteses A estatística. testa a falta de nulidade ou falta de diferenças aleatórias entre os tratamentos..

Entretanto se estes erros forem muito distantes. Erros cometidos pelo observador deverão ser considerados no modelo matemático escolhido para análise dos dados. as mesmas 500 fotos. Tabela 1. não tendencioso.1 Erros do Observador O grau de treinamento dos observadores. tais discordâncias não refletem uma variação real. e sim cometida por quem procedeu à leitura do material fotográfico. o modelo matemático poderá não prevê erro tão grande. poderíamos citar a experiência de que participaram cinco técnicos especializados em análise de foto aérea (foto interpretação). Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro experimental possível. O mesmo foi verificado em relação a cada um dos observadores que apresentaram resultados diferentes entre as duas leituras. Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata. 5. com a finalidade de verificar a degradação ambiental acentuada das áreas fotografadas.Apostila de Estatística Aplicada 7 5. Com este processo o erro experimental poderá ser mensurado através do modelo matemático utilizado para analisar os dados. forem muito discrepantes. As fotos foram interpretadas separadamente por cada técnico conforme a Tabela 1.1. 5.7 Aleatorização Na oportunidade em que organizamos os ensaios devemos proporcionar condições idênticas para cada tratamento. seja por falha no aparelho utilizado ou pela desatenção do observador. que examinaram em épocas separadas por um período de dois meses. ou seja. . o excesso de trabalho. o pesquisador terá a oportunidade de verificar a existência de diferenças entre os mesmos. Através da observação ou coleta de dados. seu estado físico e condições ambientais podem ser as principais causas de erros das observações. Como exemplo. Devemos concluir que. possibilitando que se houver algum erro este seja atribuído ao acaso. (dados fictícios) Observador A B C D E Fotos onde a degradação foi considerada positiva (nº) 1ª leitura 2ª leitura 118 139 69 78 83 88 96 89 106 92 Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes observadores coincidiram quanto ao número de fotos consideradas positivas para o referido diagnóstico. haverá sempre uma discrepância entre as amostragens realizadas. São os erros experimentais oriundos de fatores que não podem ser controlados.2 Erros de Observações Quanto aos componentes de uma população. ou seja.2.

4.4 Métodos de Coleta de Dados Embora a maioria das experimentações as informações devam ser retiradas diretamente no "campo".2 Fontes Secundárias Quando as informações que nos interessa já foram coletadas por outro pesquisador. assim como por uma melhoria das condições físicas e de trabalho.2 Erro do Método de Observação Os métodos de observação possuem erros mais ou menos importantes. dentro da metodologia.William Costa Rodrigues 8 5. desta forma. já que a metodologia previu que aquele era o ponto a ser amostrado. Ele ocorrerá se não houver a possibilidade de obter. 5. consideramos que a informação foi recolhida de fonte primária e no segundo caso dizemos que a fonte é secundária. Em experimento. estes poderão ser reduzidos ou eliminados de acordo com as coisas que os determinam. É óbvio que a qualidade deverá ser . em muitas ocasiões podem-se aproveitar dados previamente obtidos por outras pessoas. houve uma seca muito intensa secando a água no ponto de coleta pré-determinado. 5.2. podemos utilizá-las. não sendo utilizados dados previamente coletados por outro pesquisador. Qualquer que seja a causa dos erros anteriormente abordados.4. da coleta dos dados ter sido realizada por outra pessoa. Por exemplo. houve um erro por falta de resposta. que constituem blocos e parcelas.2.1 Fontes Primárias Quando não há informações dos dados que queremos estudar. Cada método em particular pode ter uma série de fatores que conduzem à distorção dos resultados. Os erros dependentes dos observadores podem ser minimizados por uma preparação e por um treinamento mais eficientes. Por isso há uma preocupação natural de todo pesquisador em aperfeiçoá-los ou substituí-los por outros métodos mais eficientes a fim de aumentar a exatidão dos resultados. No primeiro caso. 5. Os erros causados pelos métodos de observação podem ser reduzidos selecionando-se o funcionamento dos aparelhos utilizados. Os modelos matemáticos que prevêem erros por falta de resposta são apropriados. Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de um determinado córrego. Devemos lembrar que eles são bastante independentes.3 Por Falta de Resposta Este tipo de erro poderá ou não ocorrer no experimento. Este tipo de fonte é chamado secundário. 5. na coleta de informações a respeito da poluição de um determinado córrego. A coleta esta sendo realizada no campo. pelo simples fato. o erro por falta de resposta ocorrerá através da perda de uma parcela.3 Controle dos Erros nas Observações Apesar da distinção que procuramos dar ás diferentes fontes de erros. assim não poderá o observador coletar em outro ponto. pois irão permitir uma flexibilidade de estimar o dado faltoso. devemos ir a acampo para obtê-lo. o dado que irá compor o conjunto de informações a serem analisadas. 5. assim a metodologia deverá prever a coleta de dados na fonte primária.

são confrontados com os dados da variável dependente (eixo das ordenadas . que o pesquisador seleciona ou manipula na experiência. objetivo e imparcial. a administração ou não de um medicamento. .). as observações devem ser corretamente registradas. paciente. Suas observações sobre as relações entre organismos e o meio contribuíram decisivamente para a criação da ecologia. devemos verificar a metodologia utilizada. capaz de com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais. os métodos experimentais podem ser difíceis ou mesmo impossíveis de aplicar. porém analítica. Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. precisa e metódica. sob condições particulares estabelecidas pelo pesquisador. A observação deve ser inteligente e sagaz. Darwin buscou correlacionar as características próprias das espécies com as condições do meio em que vivia cada uma delas. em estudos de dietas ou os alimentos administrados seriam as variáveis independentes. apenas duas condições da variável são testadas (por exemplo: duas temperaturas. no atributo. completa. bem definidos. para saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder. corresponderiam às variáveis dependentes. Mas. Por isso deve ser atenta. a experimentação deve permitir comparar o efeito de suas ou mais condições ou tratamentos. sobre um atributo do organismo ou material que é objeto da pesquisa. enquanto que as mudanças observadas em conseqüência. de modo permitir clara distinção entre os fatos que são relevantes. Deve ser persistente. Assim. As condições. Sempre que possível. duas concentrações de uma substância. Em sua essência. A viagem de Darwin ao redor do mundo permitiulhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada por Lamarck. Por vezes. etc. 5.X). Exige que o pesquisador seja curioso. por exemplo.Apostila de Estatística Aplicada 9 levada em consideração. Então a observação científica adquire grande importância e deve ser feita com o máximo de cuidado. a presença ou a ausência de luz. na praticam a validade de suas bases. Em experiências mais simples. e o crescimento em peso ou altura.Y). e os inúmeros outros que se apresentam concomitantemente. partindo-se de medidas rigorosas que permitam a análise estatística dos dados. além do que. de idéias fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente. são geralmente denominadas variáveis independentes. repetidas e quantificadas. 5.6 Pesquisa Experimental A experimentação ou experimento ou simplesmente experimento é um método científico e de observação dos fatos ou fenômenos naturais. para que se possa apreciar seu efeito e estabelecer a lei do fenômeno. Teorias tão fundamentais como a da evolução forma estabelecidas com base exclusiva na observação da natureza. os valores de uma variável independente (eixo das abscissas . portanto. (Figura 3). são as variáveis independentes. torna-se em geral necessário experimentar três ou mais valores de variável independente.5 Pesquisa Observacional Em certos campos da biologia e das ciências sociais. como a resposta do organismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator ensaiado. para o estudo em causa.

ou seja. pois permitem uma melhor análise dos dados.7. Os modelos estatísticos a serem utilizados na experimentação deverão ser adequados ao que se pretende responder. vento. f. A experimentação deverá ter impreterivelmente repetições. deverá ser controlado. Os princípios básicos da experimentação científica são: a.1 Princípios da Experimentação A experimentação é a forma que o pesquisador. O gráfico à esquerda.7 Tipos de Amostras 5. para assegurar que a resposta não foi obtida por mera casualidade e sim por inerência do tratamento. e. Certificação de que as pessoas envolvidas na experimentação possuam treinamento e conhecimento a cerca do modelo estatístico e da metodologia a ser empregada. esta deverá ser experimentada antes de ser utilizada na experimentação. isto é. em que foram registrados outros valores intermediários (definidos pelos pontos B e C). 5. g. O experimento deverá ser realizado de acordo com uma técnica já conhecida e testada. A casualização é um princípio fundamental. recomenda-se que o efeito seja igual para todos os tratamentos ou itens testados. 5.William Costa Rodrigues 10 30 25 20 Y 15 10 5 A X B A Y B 35 30 25 20 15 10 5 A B X C D A B D C Figura 3. b. ou seja. h. caso não seja possível.1 Amostras Simples ao Acaso Um dos métodos mais usados. deverá haver uma adequação da metodologia (objetivos) com o modelo. c. pois permite que o experimento possa ser regido por efeitos gerais a todos os experimentos. parece sugerir que Y cresce à medida que X cresce. .6. baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B). pouca variação no conjunto dos elementos. quando possíveis. variância próxima ou igual à média. Emprega-se este processo. temperatura. mostra que a relação entre X e Y obedece a uma lei mais completa. efeito antrópico. entretanto no gráfico à direita. Interpretação dos dados experimentais. O controle das variáveis aleatórias (chuva. etc. seja na área científica ou social. quando dispomos de uma população que apresenta características homogêneas. para que os resultados possam levar o pesquisador a uma resposta coerente e segura. caso a área experimental não apresente uniformidade. Amostragens regulares. d. encontra para estimar os dados da pesquisa que irá realizar. Caso a técnica a ser utilizada seja original. Assim as parcelas dos tratamentos deverão ser distribuídas ao acaso pelo experimento.).

Estas subpopulações têm nome de estratos. no entanto. neste caso. podendo a seqüência ser obtida através de sorteio de ruas e residências. considerando que os mesmos apresentam pelo menos uma característica em comum. As unidades que comporão a amostra serão sorteadas em função das condições de variabilidade existentes. escolhem-se os demais. o que é. 5. por exemplo. 5.5 Amostra por Conglomeradas Visto que. até obterem-se os 50 elementos que constituirão a amostra. grande número de fatores ou variáveis que podem comprometer as conclusões se não eliminados. O tamanho da amostra será determinado em função da variância de característica a estudar em cada estrato. o segundo deverá ser 15. A população heterogênea é transformada em subpopulações homogêneas. O número de elementos da amostra será obtido da seguinte forma: Numa população constituída por 500 elementos e a amostra por 50 elementos. . assim. através de um procedimento correto. 5.Apostila de Estatística Aplicada 11 5. sorteia-se um número da primeira dezena e. Poderia ser a doença de Parkinson.3 Amostra Sistemática Aplicada quando a população apresenta um número finito de elementos e os dados estão distribuídos aleatoriamente. na área de saúde é comum a realização de pesquisas de que são selecionados os pacientes portadores de determinadas enfermidades. obtendo-se 10. 5. utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco mais trabalhoso – ele redunda conseqüentemente em ganho de precisão. observando-se que se o número sorteado for. entre outras. Portanto. Após a determinação dos conglomerados da população. para que. Outros métodos de seleção poderão ser associados para determinação dos elementos de cada conglomerado para compor a fração amostral. de cada um.4 Amostra por Área Utiliza mapas geográficos de cidades e municípios.7. compensado apenas pela diminuição das tarefas. o terceiro será 25. hepatite. pela estratificação. isto é. isto é. e assim por diante. Obtém-se. o uso de amostragem nos conduz a ganhar em precisão. cinco. 500 por 50. uma amostra estratificada proporcional. A família poderá ser a unidade mais simples a ser pesquisada. a partir dele.7. sorteiam-se aleatoriamente os conglomerados que irão participar da amostra.6 Amostra Selecionada Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona para avaliar o perfil de seus componentes. Embora a subdivisão da população seja em estratos. ou então considerando o número de seus elementos e procedendo-se a um percentual de cada estrato. Por exemplo. Considera-se este tipo de amostra que possibilita maior precisão quanto aos resultados. só farão parte do estudo indivíduos portadores de enfermidade a ser pesquisada.7. onde N = 500 e n = 50 dividem-se N por n.2 Amostra Estratificada Utilizada quando dispomos de informações de que a população apresenta características heterogêneas.7. em seguida. tuberculose.7.

ou seja. q: 100%-p. Na população finita. a qual geralmente é arbitrada pelo pesquisador. p: valor obtido de trabalho anteriormente realizado.William Costa Rodrigues 12 5. em relação ao valor percentual da população. p + q = 100%. 5. e por 2. Variância ou porcentual. uma diferença. Tamanho da população alvo. Em outros casos. utilizamos as seguintes fórmulas: n z2 × p × q (1) e n = 0 (2) n0 = 2 n (P − p ) 1+ 0 N Onde n0: número inicial. N= 3. Os níveis de confiança propostos rotineiramente são de 95% e 99% de confiança.8 Determinação do Tamanho da Amostra É muito comum um pesquisador indagar qual o número de amostras a serem estabelecidas para uma determinada pesquisa de campo. . 5. (P-p): erro arbitrado pelo pesquisador. ao apresentarmos um valor percentual. aquele valor tem.000. Ao procedermos às técnicas de amostragem para determinação do tamanho da amostra (n). a priori. Informação da literatura (p). referente à taxa de prevalência do fenômeno estudado na amostra observada. Dependendo do tipo de investigação. arbitrada pelo pesquisador. Erro de amostragem ou precisão. ora usamos a percentagem. Toda pesquisa a realizar em que investigamos a taxa de prevalência que fenômeno apresenta. Z: nível e confiança. Chamamos q o valor complementar de p para 100%. 2. Quanto ao número de elementos que compõe. 3. laboratório ou uma simples investigação. Na obtenção do tamanho amostral será importante esta informação. que é. 4. na literatura.000).8. A determinação do tamanho da amostra depende de alguns fatores: 1. N tamanho da população. ou seja. Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de confiança. resultados os quais utilizaremos quando da determinação do valor de n em relação ao valor de p. entende-se que a amostra obtida apresentará um determinado valor para a taxa de prevalência de certo evento. por exemplo. quando o nível de confiança corresponde a 95%. podemos classificar em finitas e infinitas. Deve-se imaginar que.96. Nível de confiança (α). este valor é substituído na fórmula (1) por uma constante 1.1 Tamanho da Amostra para Dados Discretos Quando dispomos de variáveis discretas. ora usamos a variância. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. a obtenção da amostra se torna menos complexa do que nos casos de populações infinitas de (N= 800. o nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de diferença proposto. Em alguns casos são empregadas características que apresentam determinada variabilidade. Simbolizado pela letra z. Esta diferença é conhecida como erro de amostragem. observamos a percentagem de certas características em um conjunto.58 quando o nível de confiança é de 99%.

X : média da amostra. Considerando uma prevalência de anos anteriores igual a 20% com valor z = 1.0000 O número de indivíduos que deveríamos examinar para a determinação da prevalência é de 384 para uma população infinita e 380. Apenas sabemos que a população desta comunidade é de aproximadamente de 25. Não sendo encontrado um desvio padrão em outro trabalho. tem procedimento semelhante ao amostrado para variáveis discretas.8. deste item.000 pessoas.2 Tamanho da Amostra para Dados Contínuos Para variáveis quantitativas contínuas. A utilização das fórmulas (1) e (2). cujo valor foi igual a 9mg2. qual seria o número de elementos que a amostra deveria conter? A fórmula adequada para mensurar o tamanho da amostra é a equação 1. apenas a fórmula (1) deve ser utilizada.84 × 100 = 384 2 4 16 384 384 n= ∴n = = 380.Apostila de Estatística Aplicada 13 Quando se trata de trabalho original e não se dispõe de nenhum valor usamos p=50%. . Face a isto.600 n0 = ∴ n0 = ∴3. para uma população finita. retirando-se 30 observações da população e calculando-se o desvio padrão da característica a ser estudada. sendo o tamanho da população igual a 40. Para populações infinitas e para as que N seja um valor muito elevado. Desta forma temos: Z = 1.000 indivíduos. q = 80%. Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos indivíduos de uma comunidade. 5. Em populações finitas. S: desvio padrão obtido de trabalho anteriormente realizado. p = 20%.84 × 1.96. e (P-p)= 4% 1. dispomos das seguintes fórmulas: n z 2 × S2 (1) e n = 0 (2) n0 = 2 n X−X 1+ 0 N ( ) Onde n0: número inicial. o que torna impraticável utilizar todos os elementos. desejamos determinar o tamanho da amostra. Exemplo: com a finalidade para verificar a incidência de doença de Chagas em uma população de certa região.96 2 × 20 × 80 3.96 (α=5%) e sendo estabelecida um erro de 4%. X : média da população alvo. ( X X ): erro arbitrado pelo pesquisador. procede-se a uma pré-amostragem. Para tal estudo. z: nível de confiança. determinamos o valor do teor de hemoglobina de cada um e calculamos a variância (medida de dispersão). deparamos com o problema de definir o tamanho da amostra.35 384 1. Selecionamos ao acaso 30 elementos. N: tamanho da população. são utilizadas as fórmulas (1) e (2). a fórmula a empregar para determinação do tamanho da amostra será a fórmula 1 deste item.0096 1+ 40. resolvemos determinar o número de elementos que comporão a amostra.

n = 10 292 X= ⇒ 29.1 Medidas de Tendência Central Os fenômenos quando estudados estatisticamente.25 138.5 0. A descrição desse conjunto de dados torna-se mais clara quando se obtêm medidas que resumem as informações necessárias. são traduzidos por um conjunto de dados numéricos. por isso.96 2 × 9 3. Os valores típicos de um conjunto de dados tendem a se localizar no centro da série.84 × 9 n0 = ∴n 0 = ∴n 0 = ∴ n 0 = 138.1. 30. 32. ∑ x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33. 26. divididas pela quantidade destes. São. 29. A forma de apresentação da distribuição de freqüência seria: . chamados medidas de tendência central.24 ≅ 138 2 0.1. Substituindo na fórmula teremos: 34.2 Média Aritmética Ponderada Quando se tem uma séria de valores sucessivos com a respectiva distribuição de freqüência.5mg e o valor z= 1.2 10 6.48 ≅ 137 138. ∑ x : a soma das variáveis. 30. pode-se calcular a média aritmética ponderada.24 138. ponderada. 6 Técnicas Estatísticas Para Análise de dados 6.0055 1+ 25. Usam-se. e. 29 e 33.56 1. Essas medidas dão-nos o valor típico do conjunto de dados.25 0. fornecem uma descrição precisa da execução do grupo como um todo. 6.96. Sendo representado pela fórmula: ∑x X= n Onde X : representa a média. em geral.24 1. três medidas de tendência central: média aritmética (simples. de dados agrupados em intervalos). 25. Permitem o confronto de dois ou mais grupos. como tal. mediana e moda.24 n= ∴n = ∴ n = 137. 26.000 Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos será igual a 138 para populações infinitas e 137 para populações finitas. A importância das medidas de tendência central é dupla: Representam ou resumem todos os valores obtidos pelo grupo e. Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32. e o n o números de indivíduos ou elementos.1 Média Aritmética Simples ( X ) A media aritmética simples é a soma dos valores ou medidas.William Costa Rodrigues 14 A precisão considerada para esta pesquisa foi de 0.

Utilizaremos como representante o ponto médio de cada intervalo. fn A expressão da média ponderada será: ∑ xf = x 1f1 + x 2 f 2 + .Apostila de Estatística Aplicada 15 Variável X1 X2 ..5 17.5 7. Considerando que o intervalo não tem um valor definido e sim um conjunto de valores. procede-se da seguinte forma: Idade (anos) Freqüência (f) 0 |– 5 4 5 |– 10 2 10 |– 15 3 15 |– 20 1 Idade (anos) 0 |– 5 5 |– 10 10 |– 15 15 |– 20 Σ Valor central (X) 2.0 Aplicando a fórmula para calcular a média ponderada teremos: . a distribuição de freqüência abaixo. Por exemplo.f 10.. .. .5 – Freqüência (f) 4 2 3 1 10 X. .. + x n f n X= n f 1 + f 2 + ... + 4 50 6.0 15. + f n Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada localidade. Xn Freqüência f1 f2 . . Neste caso.5 80.1. + 9 × 4 250 = = 5 anos 10 + 8 + .0 37. mas são representados por uma classe que pode ter um determinado intervalo.3 Média Aritmética de Dados Agrupados em Intervalos Há vezes em que os dados não são verificados com seu verdadeiro valor individual. operamos da mesma maneira do caso anterior..5 17. Idade (anos) Freqüência 2 10 3 8 4 6 5 5 6 5 7 5 8 7 9 4 X= 2 × 10 + 3 × 8 + .5 12..

quando o número de ob2 n n servações (n) for ímpar e e + 1 . portanto. n n Como o número de observações é par utilizam-se as duas fórmulas e + 1 . Exemplo: a) Em determinada localidade foram selecionadas oito escolas. A mediana é especialmente útil quando se trata de séries assimétricas. X= ∑ xf ∴ 80 = 8 anos 6. como objetivo encontrar um valor que permita conter 50% dos dados acima deste valor e 50% abaixo. 160. isto é. que corresponde à mediana. quando o número de observações é par. 200. que tem como: Vantagens: o Ser fácil de calcular e entender. Me= 190 alunos. . 250 e 2. A distribuição tem. Assim os valores centrais para este conjunto de dados são 180 (4º) e 200 (5º).William Costa Rodrigues 16 n 10 Desta forma a média da população avaliada é oito anos. o 2 2 que corresponde à média dos valores centrais. Tendo verificado o seguinte quadro: Escola Nº de alunos A 150 B 180 C 230 D 2. Quando os dados apresentam homogeneidade.1. Para o cálculo da mediana devemos previamente realizar alguns ajustes aos dados como segue: Ordenam-se todos os valores. 170. o Não expressar variações dentro da distribuição de dados. 180. quando alguns valores são elevados ou baixos em relação aos demais. de forma crescente.500. n +1 Localiza-se o valor central mediante a fórmula: . portanto o valor médio destes dois valores é igual a 190. é possível o uso da média aritmética. o Unir em um valor todas as observações do conjunto. Desvantagens: o Não servir para séries variáveis assimétricas.500 E 200 F 160 G 250 H 170 Inicialmente ordenam-se os dados: 150. com a finalidade de estimar a mediana referente ao número de alunos. 2 2 para obter os dois valores centrais.4 Mediana (Me) É um valor situado no centro da distribuição de freqüências. A mediana não é influenciada pela magnitude de cada uma dessas séries. Determina-se o total de valores (n).

11 + 5 .M. levando-se em conta os valores absolutos desses desvios. que corresponde ao valor da mediana.11 + 14 . 48.11 + 11 . 5.11 + 25 . O desvio-médio será a média aritmética destes afastamentos.2 Desvio Padrão Existem dois tipos de desvio padrão. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula: s= ∑x 2 (∑ x ) − n 2 n −1 Onde: x: valores do conjunto de dados. 9. ou seja. 14 e 25 2 + 5 + 9 + 11 + 14 + 25 66 X= ∴X = = 11 6 6 D.M. 14 e 25 Σx= 2+ 5 + 9 + 11 + 14 + 25 = 66 . 5. = 9 + 6 + 2 + 0 + 3 + 14 6 6. o erro amostral. 52 e 95. O desvio padrão é o afastamento atribuído ao acaso.1 Desvio-Médio (DM) Considerado que num conjunto de dados cada valor apresenta um afastamento em relação à média. Σ: somatório. 9. = 34 6 ∴ D. 11. em populações finitas. conforme o quadro a seguir: Municípios Amostras Poluídas A 48 B 42 C 52 D 95 E 46 Após ordenar os dados teremos: 42. = 5. foram verificadas amostras poluídas com metais pesados.6 D. O Desvio padrão estimado (s) é utilizado em populações infinitas. onde não se conhece com precisão o valor absoluto de n. que o conjunto de dados contém. Como o número de obsern +1 vações é ímpar utilizaremos a fórmula .M. Este erro refere-se à diferença do valor s calculado e a média aritmética.M. e n: número de observações. Me= 48 amostras poluídas 6. 11. Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2.2. Para um conjunto de observações: 2. = 2 . 2 o valor central é 48. já o σ (desvio padrão absoluto ou verdadeiro) é calculado para populações com valor n.2 Medidas de Variação 6.2. 46. para encontra o valor central. Desta forma.11 + 9 . o chamado desvio padrão estimado ou s e o desvio padrão absoluto ou σ. bem conhecido.11 6 ∴ D.Apostila de Estatística Aplicada 17 b) Em coletas de amostra de solo em cinco cidades. ou seja. ou seja.

052 n=6 66 2 4. Desta forma lança-se mão de um novo quadro de dados para facilitar os cálculos x f fx fx² 2 2 4 8 3 2 6 36 4 4 16 256 5 4 20 400 6 2 12 144 14 58 852 Total Para calcular o desvio padrão desta distribuição.07 É importante ressaltar que no cálculo do desvio padrão utilizou-se o denominador (n-1).052 − 726 ∴ s = 326 ∴s = 65. no caso de populações finitas o denominador será n e o desvio passa ser o σ (desvio padrão absoluto ou verdadeiro). originando a variância populacional (σ²). uma série de valores que se repetem e. Observamos agora uma série de dados agrupados. ou o valor do desvio padrão populacional.6935 ∴ s = 6. devemos ajustar o erro desta estimativa.   2 s= 852  58  −   ∴ s = 60. eliminando um elemento do conjunto de observações. ou seja. por conseguinte. o grau de liberdade.8571 − 17.20 s= 5 6 −1 5 6 −1 ∴s = 8. x f fx 2 2 4 3 2 6 4 4 16 5 4 20 6 2 12 14 58 Total Temos um total de 14 valores agrupados em cinco categorias.8571 − 4.6101 14  14  2 6. ou seja.052 − 1.William Costa Rodrigues 18 Σx²= 2² + 5² + 9² + 11² + 14² + 25² ∴Σx²= 4 + 25 + 81 + 121 + 196 + 625 = 1. σ .356 1.1429 2 ∴s = 60. isto é. são representados pela sua freqüência. originando a variância estimada (s²).052 − 6 ∴s = 6 ∴s = 1.1636 ∴ s = 43. Vale ressaltar que. pois como o valor s é uma estimativa.3 Variância ou Quadrado Médio É o valor do desvio padrão estimado ao quadrado. utiliza-se a seguinte fórmula: s= ∑ fx n 2  ∑ fx   −  n  .

podemos classificar o C.s(x) Quando uma investigação científica é realizada através de amostra.V. da seguinte forma: C.V. e grande quantidade em torno dos valores centrais. 6.25 s (x ) = ∴ s (x ) = ∴ s(x ) = 0. maior será o valor do coeficiente de variação. o erro-padrão da média será: 1. Para se determinar a média destes afastamentos utilizaremos o erro padrão da média.V. = × 100 x Onde: s: desvio padrão da amostra.< 30% Regular É importante ressaltar que valores acima de 30% não significam um C. 6. em especial os biológicos.25 1.6 Curva de Distribuição Normal A maioria dos fenômenos da natureza. n: número de observações do conjunto de dados.V. análise da variância entre outras análises.25.V. 6. Ele expressa o desvio padrão que obteríamos se a média representasse o índice 100. apresentam variações dentro de um intervalo definido. ou seja. Se coletássemos os dados quanto ao peso de mil indivíduos.V. <20% Bom 21% < C. Quanto maior for a dispersão no conjunto de observações. Pode ser também interpretado com uma medida de precisão alcançada das estimativas dos dados em relação aos valores reais. mais preciso será os resultados em relação à estimativa da média. encontraríamos diversos valores.V.4 Erro-Padrão da Média . quanto menor este valor menor será a diferença entre os valores dos elementos do conjunto de dados. a média aritmética teria outros afastamentos (erros) em relação média populacional ou real. Classificação C. < 10% Ótimo 11% < C. baseadas na estimativa de dados.5 Coeficiente de Variação O coeficiente de variação (CV) é uma medida abstrata que independe das unidades em que foram medidas os dados. de até 65% e serem considerados bons.125 10 100 É importante ressaltar que quanto menos o valor do erro-padrão da média. Exemplo: em uma amostra com 100 observações. x : média aritmética da amostra. insatisfatório. pois alguns experimentos em campo podem ter o valor C.Apostila de Estatística Aplicada 19 A variância é a medida estimada ou calculada que determina a variação dos valores entre si. . cujo cálculo é expresso pela fórmula: s s (x ) = n Onde: s: desvio padrão da amostra e. obteve-se um valor s igual a 1. Desta forma.V. dos quais haveria pequena quantidade de baixos e altos. Este parâmetro é estimado pela fórmula: s C.

A área da figura sob a curva compreendida entre valores iguais a s. sendo tanto mais alta e estreita quanto menor for o valor de s (Figura 5). contém 68. desvios padrões (s) diferentes. isto é. Curva de distribuição normal simétrica. que é simétrica). à esquerda e a direita da média (µ) corresponde ao valor do desvio padrão(s) (Figura 4). O ponto máximo da função ocorre no valor médio (situado ao centro da curva. a distância entre ele e cada um dos pontos em que muda a direção da curvatura. onde µ é a média e s o desvio padrão. A curva de distribuição normal ou simplesmente curva normal é caracterizada por dois parâmetros: a média e o desvio padrão (ou a variância).2% dos valores de X. que serão tanto mais próximos de µ quanto menor for o desvio padrão (Figura 6). Curvas de distribuição normal das freqüências de X. Figura 5. .William Costa Rodrigues 20 Numa representação gráfica dos dados obtidos encontraríamos uma distribuição normal conforme a figura abaixo. tendo a mesma média (µ) e diferentes graus de dispersão dos valores de X. de um e outro lado da média (µ). A forma desta curva depende do desvio padrão. Figura 4.

5% dos valores de X. tendo por parâmetros µ=0 e s= 1. concluiremos que ele não pertence à população cuja média é µ. que corresponde a um desvio ou erro padrão de aproximadamente 2s (ou. se o valor médio (m) de uma observação comportar um desvio ou erro padrão maior que 1. A estimativa. com grande probabilidade. por convenção. é geralmente aceita. .96s). Curva normal padrão. As áreas sob a curva assinaladas entre os traços verticais. As propriedades da curva normal permitem seu uso para o cálculo de probabilidade com que determinados valores obtidos durante as observações. por exemplo). como limite para decidir se um resultado afastado da média (ou a diferença entre duas médias) é significativo ou não. indicam as percentagens de valores de X aí contidas. em relação ao valor hipotético da média verdadeira (µ). entretanto. mais precisamente. aqueles valores entre os quais fica incluído. consideram-se como sendo seus limites de confiança. A amplitude entre esses valores limites denomina-se domínio de confiança ou intervalo de confiança. A probabilidade P= 0. Para a estimativa de um parâmetro.5% das observações ou eventos medidos. Assim. 6. portanto duas áreas extremas. podemos estimá-lo a partir de uma amostra extraída dessa população. 1. Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de que os valores encontrados pertençam a uma mesma população.6. possam ocorrer em função das variações. restando. os limites de confiança são representados pelos valores de -C e +C que circunscrevem. o valor do parâmetro em causa.05 (ou 5%). A área compreendida entre -2s e +2s abrange cerca de 95. com uma alta probabilidade. ou as medições. apenas 4. pode ser inexata e não saberemos o quanto ela é incorreta.Apostila de Estatística Aplicada 21 Figura 6. o valor exato desse parâmetro.1 Limites de Confiança Quando se desconhece o valor de determinado parâmetro de uma população (sua média.96s. Na Figura 7.

A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área. Testes estatísticos com grandes amostras mostram que nem sempre as suposições de normalidade de confirmam. Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre médias é também chamado de erro padrão. Os testes comumente utilizados são Klomogorov–Smirnov. se um teste paramétrico ou não paramétrico. ou teste S-W.2 Erro Padrão Em alguns casos. têm por objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado. . como nem sempre se dispões de um número elevado de casos para estudo. 6. Nos últimos anos o teste SW tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de problemas sobre a variação de normalidade. situada à esquerda de C.7 Teste de Normalidade dos Dados Os testes empregados para verificar a distribuição normal dos dados. 6. é conveniente trabalhar com a média das médias amostrais. Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é normalmente distribuída e. Por outro lado. que é um teste tradicional de normalidade e o teste de Shapiro-Wilks. É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis.9 Teste de Shapiro-Wilks (S-W) Este teste é uma boa opção para se testas a normalidade de uma distribuição. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ.William Costa Rodrigues 22 Figura 7. 6. às vezes nem é possível decidir se determinada variável possui ou não distribuição normal (na prática a amostra deve ter o valor n > 100). portanto poder ser empregados testes paramétricos sem preocupação quantos às suas restrições. ou teste K-S.6.000 observações. 6.8 Teste de Klomogorov-Smirnov (K-S) Este teste compara a distribuição real dos dados (amostra) com uma distribuição normal gerada por uma média e um desvio padrão supostamente conhecidos (populacionais). o teste pode ser usado em amostra de até 2. medidos em unidades de desvio-padrão. sob a curva. vem sendo empregado cada vez com maior freqüência.

O valor t . Estabelecer o nível de significância α e. Nesses casos. Definir se. p. que supõe não haver diferença significativa entre os valores encontrados e os esperados. A transformação mais utilizada é a conversão dos dados em logaritmos decimais. s²= variância e N: número de observações As formas de utilização deste teste apresentam situações diferentes como mostras os subitens abaixo: . além de exigirem que as medidas sejam feitas em escalas numéricas intervalares. onde essa diferença existirá.aplicam-se a amostras extraídas de populações com distribuição normal e variâncias iguais ou muito próximas. 43. ao constatar as médias destas amostras para verificar se há a diferença entre elas. a variância (s²) e o desvio padrão (s) e. O efeito do tratamento aplicado seria verificado pela comparação dos dois grupos. poderíamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado). Para maiores detalhes e saber com escolher um teste. são em geral menos potentes. as regiões críticas de aceitação de H0. uma alternativa é a transformação de dados dos seus valores (vide item Transformação de Dados. enquanto outro grupo nada receberia (grupo controle). o teste t seria indicado para tal comparação salientando que a variável em análise teria que apresentar os dados em distribuição normal ou aproximadamente normal.1 Teste t . Tomar as amostras de tamanho n e registrar os valores. se não seguirem a distribuição normal). estaremos indiretamente comparando as duas populações. Estes testes são. Escolher o teste estatístico adequado. em geral. conseqüentemente. Os testes não-paramétricos . Os elementos necessários para a utilização de um teste são: Formular as duas hipóteses: a de nulidade (H0). utilizam-se testes de duas categorias: Os testes paramétricos . podendo ser aplicados mesmo quando ocorram pequenos desvios de normalidade ou da variância entre as amostras. se trata de um teste mono ou bicaudal.são menos exigentes quanto à natureza da distribuição dos dados experimentais.student calculado é dado pela fórmula: X t= s2 n Onde: X : média. 37). e a hipótese alternativa (H1). p. Se os dados experimentais não estiverem de acordo com os pressupostos para a aplicação de provas paramétricas (por exemplo. os de maior potência. de tal forma que os pressupostos possam ser satisfeitos. suscetíveis de tratamento matemático. calcular a média (µ).Apostila de Estatística Aplicada 23 7 Testes Paramétricos e Não Paramétricos De acordo com a distribuição dos dados.Student Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras que provêm de populações diferentes. consulte o Fluxograma Para Auxiliar na Escolha de Testes Estatísticos. 7. E por analogia. Neste caso.

b) Verifica-se a média aritmética das diferenças.student. tratado e não-tratado. Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios). Há a uma preocupação em que haja um pareamento entre indivíduos para que eles difiram somente no aspecto.9 = 39.6332 s2 = d) t = 3.7 0. c) Verifica-se a variância das diferenças e. Σd=37.7 = 5.01 9 9 9 =t= 3. Em um estudo foi separada uma população de 10 crianças para os testes com administração da dieta de folha de mandioca.401 = 3.1 = 4.William Costa Rodrigues 24 7.84 0. . 37 b) X d = = 3.student (Tabela 11. p.01 10 O próximo passo e recorrer à tabela do teste t .7 10 c) Σd²=173.1 Dados Pareados (Amostras Dependentes) Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivíduos ou animais ou plantas. obtivemos os seguintes dados: Tabela 2. d) Aplica-se o teste t . Item 1 2 3 4 5 6 7 8 9 10 Total Peso (Kg) Antes Depois 24 28 23 25 24 25 23 29 30 32 31 34 31 38 14 19 20 22 18 23 !Configuração não !Configuração não válida de caractere válida de caractere Diferença 4 2 1 6 2 3 7 5 2 5 !Configuração não válida de caractere Procedimento: a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima).7 4. n= 10 173 − 1369 10 = 173 − 136. 44) e compara-se o valor do t calculado com o valor crítico da tabela em função de α com n-1 graus de liberdade.1.

3846 2. Esta equação deve ser utilizada.68 e 2. Desta forma. Exemplo: Tabela 3.26 (5% ou α=0. encontramos os valores 2. n= 10.84 é maior do que os valores da tabela.2 Dados Pareados (Amostras Independentes) Neste caso os dados são tratados de forma diferente. quando se conhece a variância populacional (σ²). respectivamente (Tabela 11.Apostila de Estatística Aplicada 25 No exemplo acima. s1= e s2= desvios-padrão das amostras. devemos verificar os valores críticos com nove graus de liberdade.5 t= = = = = = 2.5 4.05) e 3. Comparando o valor calculado (2. possuem o mesmo valor n. p. concluímos que há 99% de probabilidade de que a leguminosa A. portanto.student calculado é dado pela fórmula: X1 − X 2 t= 2 2 s1 s 2 − n1 n 2 Onde: X1 e X 2 : médias das amostras. .9379 ≅ 2.5 4. procedemos da seguinte forma: GL= n1 + n2 –2 ou (n1–1) + (n2–1). O valor encontrado (calculado) de t= 5. Concluímos pela rejeição de H0 (hipótese nula) em nível de 1% de probabilidade (α=0.01.5 cm s1= 5 cm s2= 6 kg n1= 26 n2= 26 Calculado o valor de t teremos: 38 . mesmo o as duas amostras possuindo valores n iguais. Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o aumento do peso corpóreo das crianças.25 (1% ou α=0. O teste t utilizado nesta situação pressupõe variâncias diferentes.33.5 4. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril. mas não pertencem ao mesmo tratamento ou não há comparação entre antes e depois.01). Para o nosso exemplo acima temos o GL = 26 + 26 – 2 = 50 ou (26–1) + (26– 1)=50. Os valores a 5% e 1% de probabilidade são 2. e n1 e n2: número de observações das amostras.3461 1. Desta forma. numa área de re-vegetação (dados fictícios).94 25 36 0.9615 + 1.94) com os valores tabelados verifica-se que há diferença estatística a 5% e a 1% de probabilidade.5317 52 6 2 + + 26 26 26 26 Para calcular o Grau de Liberdade. possuam taxa de crescimento média mais elevada que a leguminosa B.5 4.1. 44). O valor t . 7. ou seja. Leguminosa A Leguminosa B X1 = 38 cm X 2 = 33.01).

1. Supõe-se.06 + 20 32 Para verificar a significância deste valor.8 ≅ 25 2 0. podendo as mesmas apresentarem tamanhos diferentes (n1 e n2).82 74 18 4. Há uma regra prática que identifica tal desigualdade a ponto de justificar tal procedimento. que as amostras são independentes e que apresentam variâncias desiguais. em que g é calculado através da fórmula: 2  s1 s 2   + 2  n1 n 2    2 g=  s2   1  n1    2 n1 − 1 +  s2   2  n2    2 n2 −1 Para nosso exemplo seria: 2  74 18   +  4. devemos calcular o grau de liberdade para o conjunto de dados.William Costa Rodrigues 26 7.26 2 20 32  g=  2 = = 24. Se a relação entre as variâncias apresentarem valor maior do que quatro. neste caso.73 2  74   18       20  +  32  20 − 1 32 − 1 . Exemplo: temos duas amostras de água em que os dados quanto ao nível de contaminação de mercúrio apresentam os seguintes valores: Amostra A Amostra B X 1=160 ppm X 2=148 ppm s²1 =74 ppm s²2 =18 ppm n1 = 20 n2 = 32 O valor do teste t será obtido através da expressão: X − X2 t= 1 2 s1 s 2 + 2 n1 n 2 Calculado o valor de t teremos: 160 − 148 12 12 t= = = = 5.4 5 s2 Seguindo o critério estabelecido. isto justifica a conduta sugerida. as amostras serão comparadas de acordo com este resultado.26 2. Por exemplo: s²1= 27 e s²2= 5 2 s1 27 Portanto = 2 = = 5. o teste T será aplicado baseando-se na diferença entre as médias das duas amostras.Variâncias Desiguais (Heterocedásticas) Caso os dados não pertençam às amostras não pareadas.3 Dados Não-Pareados .

4 1.3 1. A marca A e marca B.5 sA²= 0.82 é significativo no nível de 1% (1% ou α=0. considerando também o número de graus de liberdade de cada uma das amostras.5 1.4 1. possuíam 10 e 7 caixas no lote selecionado.0673 s2 = 10 + 7 − 2 15 15 15 Em seguida aplica-se a fórmula para o teste t.4 Dados Não-Pareados . Na tabela iremos obter o valor de 2.79 (1%).9 1.2 1.8 1. Exemplo: Amostra (mg.04 sB²= 0. Exemplo: para verificar se duas amostras de água mineral de duas marcas possuem a mesma quantidade sulfatos. Ainda neste caso. XA − XB t=  1 1   s2  + n nB   A  Assim temos: .06 (5%) e 2. um pesquisador separou ao acaso.4 X A= 1.11 = 9 × 0. respectivamente.1. devido à diferença significativa entre as médias das duas amostras.2 1. 44).66 = 1. Ou seja. para verificar os valores críticos nos níveos de 5% e 1% de probabilidade para 25 graus de liberdade.4 1. Desta forma.01).36 + 0.7 1. nas quais as variâncias apresentam valores aproximadamente iguais.42 X B= 1.1 1. respectivamente.5 1.8 1.04 + 6 × 0. foram avaliados os conteúdos de 10 e 7 garrafas.Apostila de Estatística Aplicada 27 Consulta-se então a tabela do teste t-student (Tabela 11.L) Marca A Marca B 1. aceitando-se a hipótese alternativa.5 1. um lote de caixa de cada marca e ao acaso avaliou o conteúdo de uma garrafa de cada caixa.04 + (7 − 1)× 0.11 = 0. o procedimento metodológico consiste em se utilizar uma variância ponderada. p. 7.11 nA= 10 nB = 7 A variância ponderada é dada pela fórmula: (n A − 1) × s 2 + (n B − 1) × s 2 2 A B s = nA + nB − 2 Para nosso exemplo teríamos: (10 − 1)× 0.01 = 0.6 1.0 1. concluise que o valor obtido pata t = 5.Variâncias Iguais (Homocedásticas) A aplicação do teste t de Student para este caso é realizada quando comparamos as médias aritméticas de duas amostras independentes.

Em tal situação a H0 (hipótese nula) será testar a independência entre as variáveis.2 Teste Qui-Quadrado (χ²) O teste não-paramêtrico de qui-quadrado foi desenvolvido por Pearson.8 = ≅ − 1. Portanto o valor do desvio é elevado ao quadrado e dividido pela freqüência esperada. os dados colhidos representam ocorrência de certos fenômenos que se podem classificar numa tabela. Para tal. Em muitos casos utiliza-se este teste em experimentos probabilísticos. fe= freqüência esperada.95. p. para verificar a significância pode ser obtido na tabela de χ² (Tabela 12. sendo muito utilizado em pesquisas biológicas.fe )2 2 χ = fe Onde: fo= freqüência observada e. foram escolhidas ao acaso pessoas com três diferentes faixas etárias. 2. No primeiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50% (freqüência esperada) e o valor real após os lançamentos será a freqüência observada. 45). 7. é necessário que tenhamos as freqüências teóricas. O grau de liberdade para o teste de χ² é o número de observações/ classes menos 1. No segundo caso a freqüência esperada deverá ser corrigida (calculada) através da Tabela de Contingência.1634 0. Os dados coletados ao final do experimento foram: Faixa Etária Pessoas* (anos) Com diabete Sem diabete A: 10-15 2 (11. Para poder calcular o χ².98 0. lançamentos de moedas ou proporção de doentes após uma epidemia.74) 75 (65.13 e 2. 7. A H0 é que não diferença entre as faixas etárias em relação a ter diabete. Exemplo: Num Shopping Center. sendo que a marca B possui maiores concentrações em relação à marca A.0673 +   10 7  = − 0. Desta forma.5  1 1 0.42 . A comparação entre os valores calculados de χ².4043 Os valores de t tabelado para 15 graus de liberdade a 5 e 1% são respectivamente. chamada tabela de contingência. o que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira diante da condição a elas imposta.3 Tabela de Contingência Em muitos trabalhos experimentais. A fórmula utilizada para calcular o χ² é: ∑ (fo . para verificar a incidência de diabete. Estas tabelas têm como objetivo estudar a possível associação entre duas variáveis que classificam os dados. conclui-se que as duas marcas de água mineral não apresentam diferentes proporções de sulfatos em sua composição.1. por exemplo.8 − 0.26) Σ 77 .William Costa Rodrigues 28 t= 1. foram coletadas amostras de sangue.

87 + 94. ou seja. . Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anteriormente. Ele é utilizado para que se verifique o contraste entre k amostras independentes. pois temos duas situações as serem testadas (com ou sem diabete) em três grupos (faixas etárias).21.36 + 81. respectivamente.Apostila de Estatística Aplicada 29 Faixa Etária (anos) B: 16-21 C: 22-40 Σ Pessoas* Com diabete Sem diabete 12 (11.98 61. No teste de Kruskal-Wallis todas as observações recebem uma pontuação através dos números 1..05 + 0.71 10.41 + 1. 7. portanto.5184 + 0. 3.26 )2 + (12 − 11. Assim teremos: (2 − 11. 2.02 χ 2 = 8. e assim sucessivamente até atingir o maior valor.02) 34 189 Σ 74 72 !Configuração não válida de caractere * Valores entre parênteses e em negrito representam as freqüências calculadas Neste caso temos uma tabela de contingência de 2 x 3. será uma maneira se verificar se estas diferenças são devidas ao acaso ou se as amostras provêm de populações diferentes.72)2 + (20 − 10.. conclui-se que há diferença entre as faixas etárias.98) 52 (61.01 + 7.34 De acordo com a Tabela 12 (p.5184 + 81.87 + 0.98 (52 − 61. que receberá a maior pontuação. . Os valores obtidos nas diversas amostras diferem entre si e.26 11.74 65.98)2 + χ2 = 11. Da mesma forma que nos outros testes. 45).n.26 11.02 11.28 62.33∴ χ 2 = 18.74 65.28 62. Desta forma.45 + 0.36 ∴ 61. 4.72 10.02)2 ∴ χ 2 = 94. Assim. ao menor valor se atribuirá o valor 1. segundo o teste de χ² a 5 e 1% de probabilidade. o valor χ² para 2 graus de liberdade a 5 e 1% de probabilidade seriam 5.09 + 1.4 Teste de Kruskal-Wallis Este teste foi criado como substitutivo à análise de variância paramétrica (Teste F). fe A = 34 × 77 a fe da terceira coluna (sem diabete) é calculada pela diferença 223 entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (Σ).74)2 + (75 − 65.28) 62 (62. serão consideradas sempre duas hipóteses (H0 e H1). O Grau de liberdades para tabelas de contingências será calculado pela seguinte fórmula: GL = (n s − 1) × (n g − 1) . No nosso exemplo teremos: GL = (2 − 1) × (3 − 1) ∴ GL = 1 × 2 ∴ GL = 2 Para calcular as freqüências realiza-se uma regra de três simples como segue: 34 –––––––––––––––– 223 fe –––––––––––––––– 77 Ou seja. Os demais valores da linha subseqüentes são obtidos com a realização da regra de três para cada valor da 2ª coluna. a ocorrência de diabete depende da faixa etária.99 e 9.28)2 + (62 − 62.72) 20 (10.

5 2 149. com k-1 graus de liberdade.861. pois GL= k-1. são 5.350. Na ordenação global que se faz para atribuição dos postos aos dados.78) − 3 × 24 ∴ 552 12 H= × (3. considerase que nos casos de empate entre duas ou mais observações. ou seja. Portanto. os graus de liberdade correspondem a 2. correspondem a 5 e 1%.70 − 72 552 H = 11.5 nA= 7 nC = 8 nC = 8 x A= 13. Desta forma.793. testou-se o tempo de dessalinização dos três métodos.70 ) − 72 ∴ H = 0.0 RC= 69. Os resultados do experimento seguem abaixo: Métodos A B C DD posto DD posto DD posto 17 11 20 12 32 17 14 9 5 3 35 20 4 2 9 6 26 15 8 5 13 8 34 18. N = número total de observações em todos os tratamentos k. 45).William Costa Rodrigues 30 Para o cálculo do valor H do teste de Kruskal-Wallis utiliza-se a fórmula: 2 12 k R H= × ∑i =1 i − 3 (N + 1) N (N + 1) ni Onde: Ri = a soma das ordens atribuídas ao tratamento i. respectivamente.25 DD= dias para dessalinização. considera-se que o teste tem uma distribuição aproximada de χ².5 29 16 34 18.5 21 13 6 4 2 1 45 21 15 10 11 7 50 23 22 14 47 22 RA=57. que não vem ao caso no exemplo a ser testado. ni = número de observações em cada tratamento k e.861.14 + 603. .78 + 2.0217 × 3.21. os valores da tabela χ².830.25 22. p. Para exemplificarmos o teste de Kruskal-Wallis. foram coletadas diversas amostras de água com diversas concentrações de sal. k =corresponde ao número de tratamentos a comparar.249 4.25  H= × + +  − 3 × 24 ∴ 23 × 24  7 8 8  12 H= × (464. sendo k = 3 (métodos). Para verificação de significância quanto às diferenças observadas entre tratamentos k. Desta forma. calcula-se a média das ordens que seria atribuída a elas se não houvesse o empate.50 x C= 36. a tabela para comparar os valores é a tabela de χ² (Tabela 12.5 2 12 H= × + + 23 (23 + 1)  7 8 8    − 3 (23 + 1)∴   12  3. Para calcular H teremos:  57 2 69. Assim sendo.5 RC= 149.95 Como já foi dito este teste segue a distribuição do teste χ².99 e 9. supomos que foram testados ou experimentados três métodos para dessalinização de água.29 x B= 14.

nos blocos n.mm³ de solo Blocos Área A Área B Área C Área D Área E Total 0-10 12 (2) 8 (2) 14 (2) 17 (3) 12 (2) R1= 11 Profundidade (cm) 11-20 21-30 13 (3) 16 (4) 9 (3) 12 (4) 20 (3) 22 (4) 16 (2) 21 (4) 15 (3) 16 (4) R2= 14 R3= 20 31-50 7 (1) 5 (1) 6 (1) 11 (1) 10 (1) R4 = 5 *Os valores entre parênteses e em negrito correspondem à ordenação dos tratamentos dentro dos blocos (linhas). as concentrações do poluente são iguais em todas as profundidades (Hipótese Nula ou H0). Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis. O valor do teste de Friedman (Xr2) é calculado através da seguinte equação: 12 k χ2 = × ∑i =1 R i2 − 3n (k + 1) r nk (k + 1) Onde: n = número de blocos. delimitados pelas características edáficas do solo (blocos).Apostila de Estatística Aplicada 31 Considerando que o valor calculado H=11. Para os casos de empate entre observações de mesmo bloco. utiliza-se tabela de χ². em mg. Os resultados da análise foram as seguintes: ( ) Tabela 4. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo.95 é maior que os valores tabelados. Para testar a H0. k = o número de tratamentos. cujas observações podem verificar valores com acentuada variação e em cada tratamento são constituídos blocos com a intenção de que isto resulte em um pareamento considerável entres os diversos tratamentos. sendo utilizado quando as amostras. Pelos valores R encontrados nos resultados verifica-se que o método A e mais eficiente no processo de dessalinização. teremos: . ou seja. assim aceita a H1. este teste é um substitutivo ao teste F para análise de variância paramétrica. Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamentos) em cinco áreas diferentes. em quatro diferentes profundidades. quer saber se o poluente está distribuído de forma igual entre as profundidades avaliadas. Substituindo os valores na fórmula para o cálculo do valor χ²r.5 Teste de Friedman (Análise da Variância) Da mesma forma que o teste de Kruskal-Wallis. rejeitamos H0 (não há diferenças entre os métodos testados no tempo de dessalinização das amostras). calcula-se a média aritmética das ordens. 7. Sendo o valor Ri a somas dos valores de ordenação nos tratamentos (colunas). co grau de liberdade k-1. Este solo foi exposto há poluentes de uma determinada fábrica. Assim sendo. Ri = a soma das ordens atribuídas aos dados do tratamento i. A ordenação dos valores se dá dentro dos blocos. pois leva menos tempo em comparação aos demais. De forma análoga aos demais testes. formula-se a H0 e a H1.

( ) 8 Correlação Linear A correlação linear é utilizada para verificar. quando há variação positiva de X e vice-versa. Quando positiva há a variação positiva da variável dependente (Y).82 e 11. . ΣXY = soma dos produtos entre os valores de X e Y.William Costa Rodrigues 32 12 × 112 + 14 2 + 20 2 + 5 2 − 3 × 5 × 5∴ 5 × 4(4 + 1) 12 χ2 = × (121 + 196 + 400 + 25) − 75 r 5 × 4(4 + 1) 12 χ2 = × 742 − 75 = 89. 8.2 Correlação de Spearman Este coeficiente de correlação baseia-se no rank dos valores X e Y e é largamente utilizado em analise de correlação e dados não paramétricos. a profundidade de 21-30 cm tem uma maior concentração do poluente que as demais profundidades avaliadas. Pode ser utilizado para dados normais (Correlação de Pearson) e para dados não normais (Correlação de Spearman). quando há variação positiva da variável independente (X) vice-versa. 8. num determinado conjunto. sX e sY= desvios padrões de X e Y 8. n = número de amostras de X e Y. respectivamente. 45). d1 = é a diferença entre cada valor X e cada valor Y correspondente.32. n = número de pares de dados.1. 6 ∑ d i2 rs = 1 − 3 n −n Onde: rs= coeficiente de correlação de Spearman. Ou seja. Os valores para 5 e 1% de probabilidade são 7.1. Quando negativa há a variação negativa de Y. A partir da tabela χ² (Tabela 12.04 r χ2 = r Como valor de graus de liberdade é igual a k-1 graus de liberdade e sendo k=4 (tratamentos). têm-se 3 graus de liberdade.04 − 75 ∴ r 100 χ 2 = 14. ΣX x ΣY= produto da soma dos valores de X e Y. Sendo o valor de χ²r calculado maior que os valores da tabela de χ². rejeita-se a hipótese nula (H0) e aceita a hipótese alternativa (H1).1 Coeficiente de Correlação (r) O coeficiente de correlação e designado pela letra r.1 Correlação de Pearson Utilizado na análise de dados que possuem distribuição normal. a dependência entre duas séries de variáveis. A correlação pode ser denominada positiva ou negativa. ∑X×∑Y ∑ XY − n r= (n − 1) × s X × s Y Onde: r= coeficiente de correlação de Pearson. Trata-se de um valor abstrato que dá uma idéia sobre a dependência entre os dados apresentados. nas áreas onde foram coletadas amostras. p.

5 2 1. 1999).5 2 1. Quando um valor é significativo. apresentando a linha de tendência de regressão linear simples de dados fictícios. Estudante 1 2 3 4 5 6 7 8 9 10 Notas de Matemática 57 45 72 78 53 63 86 98 59 71 Rank de Xi 3 1 7 8 2 5 9 10 4 6 Notas de Biologia 83 37 41 84 56 85 77 87 70 59 Rank de Yi 7 1 2 8 3 9 6 10 5 4 di –4 0 5 0 –1 –4 3 0 –1 2 Total di 2 16 0 25 0 1 16 9 0 1 4 72 n= 10.3 Aspectos Gerais da Correlação Linear Os valores de r variam entre -1 (associação negativa completa) e +1 (associação positiva completa). Assim sendo.1. e inversa ou negativa (B). Y diminuem e quando o valor é positivo. . através do teste de t para r.5 0 0 20 40 60 A B 3 2. A utilização de um ou outro coeficiente dependerá da normalidade dos dados (veja o tópico Teste de Normalidade dos Dados.22). deve-se ter em mente que a variável Y é quem sofre variação em função de X.5 1 0. existe uma proporcionalidade direta entre as variáveis. dizemos que a correlação é positiva e significativa. 3 2. é apresentado de forma negativa dizemos que a correlação é negativa e significativa. ou seja. p.5636 3 10 − 10 1000 − 10 990 Para verificar se há significância na correlação rs = 1 − 8.5 1 0. quando aumenta os valores de X aumenta os valores de Y (Figura 8). Correlação de Spearman entre as notas brutas de matemática e biologia (Zar. quer dizer que com o aumento dos valores de X.Apostila de Estatística Aplicada 33 Exemplo: Tabela 5.4364 ∴ 0. Correlação linear simples positiva (A).5 0 0 20 40 60 Figura 8. caso o valor seja positivo. Para melhor entender melhor a explanação anterior. Σdi2=72 6 (72 ) 432 432 ∴1 − ∴1 − ∴1 − 0. quando um valor é negativo.

20 0.3 Coeficiente de Alienação (K) Este coeficiente é função do coeficiente de correlação.15 0.30.0 – 0. Por exemplo.71 – 0.30 < r < 0. Tabela 6. 8. Intervalo r < 0. o valor r² encontrado em determinada análise é igual a 0. que acordo com a necessidade de com uma maior precisão intervalar ( Tabela 6) pode ser utilizada um ou outra tabela. Este coeficiente expressa a porcentagem de variação dos valores de Y em função do valor X.50 Significância r desprezível r baixo r apreciável r acentuado A significância das tabelas acima poderá ser utilizada tanto na correlação de Pearson.21 – 0. a outra considera o teste t.90 0.30 ∴ K = 0.0 Significância Correlações nulas Correlações fracas Correlações substâncias Correlações fortes Correlações extremamente Fortes Tabela 7. expresso pela fórmula: K = 1− r2 Este coeficiente exprime a ausência de relação entre X e Y.40 0. a mais simples baseia-se simplesmente nos intervalos de valores de r. Por exemplo. K = 1 − 0. Sendo r²= 0.70 0.91– 1. Classificação do valor r através de intervalos de acordo com e Teste de Rugg.15 < r < 0. r²= 0. 8. logo 30% da variação de Y são atribuídas a X. .70 ∴ K = 0.29 0. quanto na de Spearmann.30. Classificação do valor r através de intervalos de 0 a 1. concluímos que há mais ausência de relação do que intensidade de relação entre X e Y.30.2 Coeficiente de Determinação (r²) Ao valor encontrado de r elevado ao quadrado (r²) denomina-se coeficiente de determinação. conhecido como teste t para r.49 r >0.8367 Desta forma.4 Significância do Teste de Correlação Existem basicamente duas formas de verificar a significância do var r.William Costa Rodrigues 34 8.1 Significância Baseada nos Intervalos A classificação é simples e basea-se nas Tabela 6 e Tabela 7.41 – 0. 8.4. Intervalo 0.

50 40.00 25. Aphididae) em função da brotação foliar de tangerina cv Poncã. 44).00 20. Sabe-se que determinadas dietas têm interferência no ganho ou na redução do peso de indivíduos da raça humana. na Tabela 11 (p. A mostra como montar uma série de dados para criação de um gráfico de dispersão no Microsoft Excel. fornecem a equação da reta ou de outro tipo de regressão que se queira plotar.Apostila de Estatística Aplicada 35 8. Portanto há um interesse de expressar essa relação sob a forma matemática. 9 Análise de Regressão É freqüente o estudo da relação entre duas séries de variáveis. Por exemplo.50 0. selecionando a caixa de seleção: Exibir equação no gráfico Exibir valor de R-quadrado no gráfico .00 B C D E F G H I J L M 4 Para criação do gráfico de dispersão basta selecionar os dados das linhas 2 e 3 Gráfico e selecionar o gráfico Dispersão (XY) (Tabela 1) e selecionar o menu Inserir em seguida clique em Avançar > para configurar o gráfico ou em Concluir para finalizar a criação.00 0. o peso de crianças de acordo coma dieta oferecida em diferentes dosagens. a 0. Após criar o gráfico selecione um dos pontos e em seguida clique no botão direito de mouse e selecione a opção Adicionar linha de tendência..4.00 7. torna-se bastante eficaz a construção de um diagrama que se obtém em sistemas de eixos cartesianos. sob cultivo orgânico na Fazendinha Agroecológica. Desta forma. basta organizar os dado de forma correta e selecionar a criação de um gráfico de dispersão. A exibição da equação e do valor de R² é feita através da seleção da Aba Opções.00 0. ou seja.00 12. lembrando que um evento biológico somente poderá ser explicado até uma equação de segundo grau.00 2.00 100.00 10. Será exibida uma janela com mostra a Figura 9.00 2. com n-2 graus de liberdade. Para identificação de uma possível correlação entre séries de variáveis. a dispersão dos dados de Y em função de X. caos opte por linha do tipo polinomial a ordem para eventos biológicos deverá ser 2.00 60.. Hoje em dia os programas (softwares) de planilha de cálculo e de estatística. A 1 2 3 T.00 30..00 2. 2004). Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera. Exemplo para o Microsoft Excel.50 50.50 60.00 5. no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues. para verificar a com o próprio nome diz. O tipo de linha será de acordo com a equação que melhor de adeqüei a distribuição dos dados.50 100. através da apresentação de uma função. Tabela 8.00 100.2 Significância Baseada no Teste t para r (Pearson) O teste de t para r é calculado através da seguinte equação: r tr = × n−2 1− r2 Para este teste compara-se o valor de tr calculado com o valor de t.00 40.

X independente e Y dependente. 2004). na Fazendinha Agroecológica. Poncã. plotar a linha e a equação da reta de duas variáveis. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues. Poncã. 9. . Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel. neste caso uma das varáveis independentes (X) poderá parcialmente interferir na outra variável independente (Y).2 Regressão Linear Múltipla Este tipo de regressão possibilita a associação de uma variável dependentes (Z).William Costa Rodrigues 36 Figura 9. Regressão linear simples entre a flutuação populacional de T. aurantii 70 60 50 40 30 20 10 0 -10 0 20 40 60 80 100 120 y = 0. 9. com duas variáveis independentes (X e Y).3095x .3984 Figura 10.3472 R2 = 0. T. aurantii e a brotação foliar de tangerina cv. em cultivo orgânico de tangerina cv. Como pode ser visto na Figura 11.2.1 Regressão Linear Simples Neste tipo de regressão é possível verificar a associação entre as séries de dados.

Vamos apresentar nesta apostila algumas das principais transformações de dados empregadas na normalização dos dados e as situações que cada uma se aplica. . 10 Transformação de Dados Para uma aplicação válida dos testes de significância. no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues. 2004).3 Regressão Múltipla Neste tipo de regressão é possível verificar a associação entre as séries de dados.0046x2 . no 10 período de outubro de 0 2002 a outubro de 2003 0 20 40 60 80 100 120 (Adaptado de Rodrigues. Figura 12. Poncã. auran70 tii e a brotação foliar de 60 tangerina cv. 2004). na Fazendinha Agroecológica.4695 30 rina cv. aurantii múltipla entre a flutuação populacional de T.0. Poncã.2141x + 7. na Fazen20 dinha Agroecológica. plotar a linha de tendência polinomial e a equação de segundo graus das duas variáveis. exigem quase sempre essa transformação. em cultivo orgânico de tangerina cv. as contagens e as notas dadas a certas características qualitativas. Poncã.Apostila de Estatística Aplicada 37 Figura 11. Regressão T. Correlação múltipla da amplitude térmica (variável x). baseados nas propriedades das curva normal. As porcentagens. brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z). X independente e Y dependente. Figura 5 e Figura 6). 9. em 50 y = 0. é necessário que o dados tenham uma distribuição normal (Figura 4.1984 40 cultivo orgânico de tangeR2 = 0.

quando os dados são representados por números positivos. os dados finais devem ser transformados novamente para escala original. o número total de indivíduos em todas as espécies (Brower et al. 11 Testes Específicos Para Análise de Populações e Comunidades 11. Vários índices de diversidade foram propostos que incorporam ambos S e N. desde que. ou seja.William Costa Rodrigues 38 10. porém qualquer outra base poderá ser utilizada. ou porcentagens que abrangem uma grande amplitude de variação. Quando se achar preferível não se apresentar os resultados na escala transformada. todos os dados deveriam estar baseados em um número de observações iguais. respectivamente. utiliza-se a transformação x' = log (x+1). quando há uma redução dos valores de média e variância diminui simultaneamente. 10. por exemplo. como muitas vezes que um determinado caráter aparece num total definido. É o caso. mas o método pode também ser utilizado quando esse número não é rigorosamente igual é sugerido na literatura que valores de 0 e 100%. Os dados são transformados em percentagens e. tendem a serem proporcionais.2 Transformação Logarítimica Este transformação é utilizada principalmente quando as médias e os desvios padrões (erros).3 Transformação Angular (Arcoseno) Essa transformação é utilizada quando os dados estão associados a uma distribuição binomial (presença-ausência).1 Raiz Quadrada Essa transformação é utilizada quando a variância e proporcional a média. Por exemplo. Nesse tipo de transformação. sejam substituídos por ¼n e 100. A base 10 para os logaritmos é utilizada normalmente. É utilizada. utilizando-se uma tabela apropriada. A medida mais simples de diversidade de espécie é o número de espécie (s).4 Considerações Gerais Quando é utilizada uma transformação de dados. 1997). seja especificada. O dados que se recomenda utilizar este tipo de transformação são dados de percentagens e contagens (números inteiros). ou a riqueza de espécie. são calculados os valores através da fórmula p' = arcsen % .¼n.1 Índice de Diversidade e Dominância Populacional Existe uma série de índice de diversidade. nesse caso. Transformando os dados utilizando suas raízes quadradas resulta em uma amostra cuja distribuição é normal. por conveniência. todas as comparações entre médias são realizadas na escala transformada. Quando aparece o valor zero. 10. As equações normalmente utilizadas são: x ' = x + 0. do número de plantas sobreviventes em relação ao número total de plantas que deveriam estar presentes se nenhuma tivesse morrido após a poluição de um determinado solo. antes de entrar na tabela. É freqüentemente utilizado em dados biológicos quando amostras são tiradas da distribuição de Poisson (isto é. sendo.5 ou x ' = x + 1 ou x ' = x . 10. elevar ao quadrado os valore submetido à transformação de raiz quadrada. em seguida. . que podem ser utilizados em diversas situações. ainda. quando os dados consistem em ocorrências aleatórias de objetos ou eventos). sendo a primeira mais utilizada. os coeficientes de variação aproximadamente iguais.

1 Índice de Margalef (α) Este índice foi proposto por Margalef (1951) e tem como objetivo estimar o número de espécies e o número de indivíduos de uma comunidade. há um indicativo de que o local é bastante diversificado. 11. mesmo que o número de indivíduos seja reduzido. porém quando há um aumento deste índice. S Db = N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11.1. Este índice é dado pela fórmula abaixo: S −1 α= log N Onde: S: Número de espécies levantadas.1.2 Índice de Glason (Dg) É semelhante ao índice anterior. numa tentativa de normalizar os dados.1. H ' = . tendendo a dominância de uma determinada espécie.5 Índice de Dominância Berger-Parker (d) Este índice estima a dominância dentro de uma comunidade. considera a proporção de cada espécie em relação ao todo.2 Exemplo O exemplo hipotético abaixo da diversidade de cochonilhas em agroecossistema cítrico ilustra os índices de diversidade das cochonilhas de um pomar de citros.Apostila de Estatística Aplicada 39 Quando o índice de diversidade diminui. entretanto utiliza a raiz quadrada do número de indivíduos total de cada amostra.4 Índice de Shanon-Wiener (H') É considerado o índice de diversidade mais completo. Normalizando os dados e diminuindo a probabilidade de erro dos cálculos. indica que há competição interespecífica e que o local é menos diversificado. N: Número de indivíduos total 11. S Dg = log N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11.1.∑ p i × log p i' Onde: p = proporção da espécie em relação ao número total de indivíduos 11.3 Índice de Menhinick (Dm) Este índice é semelhante aos dois anteriores. pois além de considerar o número de espécies. N d = Max N total Onde: NMax= é o número de indivíduos da espécie mais abundante e NTotal= é total de indivíduos amostrados. 11. ou seja. . porém considera todas as espécies da amostra.1. verifica se há ou não dominância de uma determinada espécie numa comunidade.

para espécies n. + % n ) Onde: % a = menor porcentagem da espécie a observada no confronto das comunidades. no que se refere a composição específica (espécies).652 0..118 1995 10 235 1. para espécies c e % n = idem. 1971).985 1997 10 435 1.575 11.045 ção não válida de caractere Dm 0.218 1996 10 323 1. que são as seguintes: j Jaccard QS = (a + b − j ) 2j (a + b ) Onde: a = Número de espécies presente no habitat ou comunidade A. % S = ∑ (% a + % b + % c + . podemos calcular a %S: % S = (15 + 14 + 27 + 17 )∴ % S = 73% . como também o número de indivíduos.3. para espécies b. porém leva em conta não somente a composição das espécies. Período S N Dg α 1994 10 268 1. ou número de levantamentos com a espécie a.556 0. % b = idem. Tabela 10.609 4.557 3.611 0. Sorensen QS = 11. b = Número de espécies presente no habitat ou comunidade B. nas duas comunidades (Southwood. Duas comunidades com sua composição de espécies em percentagem Comunidade A B Espécies a 15 33 b 35 14 c 27 36 d 23 17 A partir dos dados da Tabela 10..479 0. as duas espécies.481 3.648 4. ou número de levantamentos com a espécie b e j = Número de espécies presente nos dois habitats ou comunidades ou número de levantamentos contendo.574 4.3 Índice de Similaridade entre Populações 11. % c = idem. simultaneamente.790 !Configura Média 10 1.1 Quociente de Similaridade O objetivo deste quociente é verificar a similaridade entre duas comunidades ou habitat.3.2 Porcentagem de Similaridade Expressa os resultados semelhantes ao do Quociente de Similaridade.William Costa Rodrigues 40 Tabela 9. Índices de diversidade de cochonilhas em agroecossiema cítrico. pois se calcula pelo somatório dos menores valores das percentagens observadas de cada espécies em relação ao total de indivíduos. Existem duas fórmulas para calcular o QS propostas por Jaccard (1912) e Sorensen (1948).

A significância de j pode ser observada através da Tabela 15. p. b) Espécies acessórias – presentes entre 25–50% dos levantamentos.5% de probabilidade são dados na Tabela 15.5 A+ B Onde: A = Número total de indivíduos da espécie A coletados ou amostrados em todos os levantamentos. p. 46.3. É dado pela fórmula: 2j I AB = n A + nB Onde: nA = Número de ocorrência da espécie A. É dado pela fórmula: n × 100 C= N Onde: n = Número de coletas contendo a espécies em estudo e N = Número total de coletas realizadas.5 Índice de Associação (IA) Verifica o índice de o nível de associação existente entre duas espécies. Os valores mínimos de j significativos a 0. baseiase no total do número de indivíduos de ambas as espécies que ocorrem simultaneamente nos levantamentos realizados. para espécies B e J = Número de indivíduos da espécie A e B nos levantamentos em que ocorrem simultaneamente. 11.3 Índice de Afinidade Este índice estima a freqüência com que duas espécies ocorrem simultaneamente em determinada comunidade ou habitat. A Constância de uma espécie poderá ser classificada da seguinte forma: a) Espécies constantes – presentes em mais de 50% dos levantamentos.Apostila de Estatística Aplicada 41 11.3. c) Espécies Acidentais – Presentes em menos de 25% dos levantamentos. 46.3. J IA = − 0. .4 Constância Este parâmetro indica a percentagem de uma determinada espécie em relação a todos os levantamentos realizados. B = Idem. nB = Número de ocorrência da espécie B e j = Número de ocorrência conjunta das espécies A e B. Foi proposto por FAGER (1957). 11.

Magnusson. D. D. Niterói: EdUFF.E.S. Ecology. P. Field and Laboratory Methods for General Ecology. 2000. Estatística [Sem] Matemática: A ligação entre as questões e a análise. Estatística: teoria e Aplicações usando Microsoft® Excel em português. 169p.P (Trad. Rodrigues. Lewinsohn.E.1993.. 3ª ed. Rio de Janeiro: Guanabara –Koogan. D. 1976. Biostatistical Analysis.. N. L. 331 p. 1990.P.R. Nakano. C. P. 63f. Estatística não paramétrica. Bioestatística Teórica e Computacional. 2003. Vanzolini. 2004.William Costa Rodrigues 42 12 Bibliografia Arango. P.. The Ecology of insect Populations in Theory and Practice. F. Ed. Planejar e redigir trabalhos científicos. Centeno. Quebecor: MC Graw Hill. & Morris. 98: 321-329. Jaccard. Piracicaba: Nobel. Levine.C.F.T. Da UFG. T.M. Poncã (Citrus reticulata Blanco) em cultivo orgânico e a interação com predadores e formigas.W. I. Determination and analysis of recurrent groups. 1992. M. 130p. Lara. The distribution of the flora in the alpine zone. Skr. 126p. Hirsch.C. P. T. Rey.. W. 2002. & Mourão. (revista e ampliada).D.N. S. Biol. NeroPhytal. Ribeirão Preto: FUNPEC. Goiânia (Coleção Didática. Laroca. 11:37-50. 2ª ed.). F.G. 318p. Simmering. 197p. 339p. 1995. 43p.. Seropédica.. Métodos estatísticos elementares em sistemática zoológica. Zar. 1912. & Wolters. J. 272p. W. Huirtec. 1957. 1948. Silveira Neto. Clark. M. 34: 121-137. S. 2000. K. F. R. 234p. G. & Parker. Caderno V. São Paulo: MC Graw Hill do Brasil.. UFRuralRJ.O uso de análise multivariadas ecológicas em estudos ambientais interdisciplinares. 5ª Ed. Ed. Sorensen. Computational Statistics & Data Analysis. Methuen & Co.. 168: 1345-1347. T. 273p and software included. 235p. Fager. 1998. 1979.. & von Ende.C.. D.H. 391p. 2001. Agronômica Ceres. New Jersey: Prentice Hall.. Dauber. 2002. Londrina: Planta. E. Geier. 38:586595. Confidence interval estimation of overlap: equal means case.L & Stephan. 13ª ed (revista e ampliada). 1970. S. Berger. 3): Ed. Hughes. W. J. Berenson. 232p. ícone. Ecosystems and Environment. P. Siegel. Manual de Ecologia de Insetos. Souza. Landscape structure as an indicator of biodiversity: matrix effects on species richness. 1999. 2000. Chapman and Hall Ltd.M & Prado. . V.L. M. Zar. São Paulo: Edgard Blücher. Homópteros (Homoptera: Sternorrhyncha) associados à tangerina cv. London. S. Curso de Estatística Experimental. J. A. Princípios de Entomologia.L. Curso de Estatística Aplicada à Biologia. 4th ed. & Villa Nova. T. 1997. 663p and index included. Science. Mulekar. 467p. A method of establishing groups of equal amplitude in plant sociology basead an similarity of species. Rio de Janeiro: LTC. Agriculture. 1971. Rodrigues. 419 p.. Tese de Doutorado. R.E. O..H.M.H. Beiguelman. Bioestatística. L. 5:1-34 Southwood. Otte A. 2002. Waldhardt. 811p. 2003. B. E. Ecologia: princípios e métodos: Petrópolis: Vozes. 2ª ed. & Mishra.R. 4th ed. Brower. Campinas: UNICAMP..J. J. Ecological Methods. R. A. Gomes. Barbin. Curso prático de bioestatística. São Paulo. 3ª ed. H. Diversity of Planktonic Foraminifera in Deep-Sea sediments. 1967.W.. 2ª reimpr.

Fluxograma Para Auxiliar na Escolha de Testes Estatísticos Dados com Distribuição Normal Dados com Distribuição Não Normal 2 Tratamentos 2 Tratamentos > 2 Tratamentos Dados Numéricos divididos em Categorias Teste T ANOVA Teste F Teste 2 (Qui-Quadrado) Não dividido em blocos (Amostras compostas) Dividido em Bloco Dados Pareados Dados não Pareados Não será abordado Calcula Valor 2 S2Maior S2Menor < 4 S2Maior S2Menor 4 Teste de KruskalWallis Teste de Friedman Calcula Valor H Variâncias iguais (Homocedásticas) Variâncias desiguais (Heterocedásticas) Calcula Valor 2r Calcula Variância Ponderada Compara com valor 2 Tabelado ( = 5%) Se 2calc 2tab Rejeita H0 Coloca * Se 2calc < 2tab Aceita H0 Coloca ns Calcula Valor T Se Tcalc Ttab Rejeita H0 Coloca * Compara com T tabelado ( =5%) Compara com 2 tabelado ( =1%) Compara com T tabelado ( =1%) Se Tcalc < Ttab Aceita H0 Coloca ns Se 2calc 2tab Coloca ** Se 2calc < 2tab Mantém * Se Tcalc Ttab Coloca ** Se Tcalc < Ttab Mantém * Conclui textualmente .Apostila de Estatística Aplicada 43 13 Anexos Figura 13.

12 2.95 2.05) 12. Grau de liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 50 100 500 ∞ 5% (α=0.86 2.92 2.04 2.84 4.68 2.96 1.31 2.45 2.20 2.88 2.36 2.96 1% (α=0.17 3.71 4.92 5. .05 a 0.01) 63.06 2.60 4.01 2.26 2.10 2.78 2.75 2.01) de probabilidade3.84 2.18 2.98 2. Valores de t -student em níveis de 5% e 1% (α=0.79 2.11 2.14 2.63 2.06 3.18 2.03 3.25 3.71 3.23 2.16 2.36 3.30 3.09 2.59 2.98 1.13 2.58 3 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.William Costa Rodrigues 44 Tabela 11. (1998).09 2.90 2.50 3.11 3.01 1.57 2.66 9.

82 9.87 30.Apostila de Estatística Aplicada 45 Tabela 12.07 15. .23 49.31 19.42 37.72 26.51 16.99 7.69 4 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.34 58.60 50.34 13.14 30.21 11.00 26.05) 3.64 46.48 20.34 42. (1998).76 1% (α=0.88 40.22 27.07 12.57 38.09 16.98 44.31 45.21 24.69 29.64 9.17 36.38 54.80 50.68 25.41 34.09 21.14 31.89 48.89 61.92 18.77 44.19 37.67 33.49 54.65 38.28 15.43 63.81 18. Grau de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 5% (α=0.96 48.36 23.29 41.62 59.99 46.68 21. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0.99 52.28 49.11 41.98 40.80 36.41 32.84 5.30 43.05 a 0.59 14.01) de probabilidade4.57 55.60 49.49 11.00 33.01) 6.19 53.19 47.16 62.67 23.03 22.92 35.58 32.30 27.59 28.64 42.06 57.40 48.78 56.

180 0.271 0.447 0.082 0.170 0.279 0.220 0.110 0.072 0.833 0.01 – – 1.310 0.198 0.161 0.635 0.511 0.313 0.076 0.391 0.236 0.266 0.929 0.618 0.000 0.648 0.353 0. Valores críticos para o Coeficiente de Correlação de Spearman (rs) 5 n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 α(2) 0.128 0.600 0.900 0.536 0.182 0.346 0.224 0.344 0.794 0.283 0.000 0.306 0.337 0.382 0.307 0.414 0.097 0.William Costa Rodrigues 46 Tabela 13. .068 0.255 0.485 0.144 0.503 0.405 0.564 0.472 0.433 0.170 0.521 0.429 0.600 0.398 0.380 0.142 0.446 0.189 0.235 0.294 0.415 0.532 0.370 0.738 0.079 0.544 0.321 0.176 0.50 0.213 0.118 0.227 0.331 0.363 0.464 0.089 0.206 0.085 0.279 0.207 0.755 0.600 0.829 0.191 0.406 0.217 0.103 0.881 0.248 0.460 0.264 0.297 0.570 0.257 5 A tabela completa poderá ser consultada em Zar (1999).174 0.000 0.371 0.267 0.643 0.156 0.214 0.185 0.074 0.435 0.244 0.654 0.679 0.287 0.165 0.361 0.587 0.165 0.500 0.05 – 1.484 0.521 0.560 0.318 0.335 0.425 0.197 0.362 0.584 0.200 0.148 0.727 0.235 0.703 0.401 0.714 0.700 0.209 0.202 0.886 0.152 0.070 0.615 0.556 0.503 0.248 0.467 0.786 0.093 0.10 1.538 0.264 0.

44 5.17 56.06 38.4 99.44 % 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99.47 38.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 0 1.00 60.82 77.06 35.44 19.6 0.60 50.46 18.5 0.56 3.94 55.69 59.55+ 42.43 45.02 81.86 87.6 99.90 65.79 57.85 44.29 47.05+ 4.87 85.3 99.43 17.8 99.19 90.56 72.57 46.74 8.57 74.1 0.9 100.9532.21 68.33 30.58 24.54 73.4 0.1546.18 15.58 32.13 42.42 67.56 % 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 27.67 61. são orientações para arredondamento a uma decimal.0 0.97 22.73 70.10 25.4549.0 99.87 48.56 85.13 21.0 0 64.28 27.28 43.34 60.37 86.26 84.6539.98 41.34 62.03 62.00 30.00 % 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 0 45.33 54.98 11.Apostila de Estatística Aplicada 47 Tabela 14.3 0.7 99.56 84. seguindo ângulos terminados em 5.72 63.13 5.63 4.27 36. .63 71.03 68.45 80.92 14.72 47.27 21.16 64.23 39.79 23.44 4.2 0.14 3.82 40.35+ 51.18 50.97 28.87 69.7 0.02 49.65 66.13 9.66 29.31 31.9586.66 31.44 88.37 20.40 40.87 84.55+ 56.73 54.35+ 25.00 - Os sinais (+) e (-).42 58.53 53.13 53.8 0. 6 A tabela completa poderá ser consultada em Zar (1999).4535.5 99.77 51.08 78.80 5.84 26.1 99.2 99.34 16.71 43.67 36.81 2.87 37.21 33.83 34. Valores para transformação arcsen % 6 % 0.94 52.20 85.05+ 58.54 12.66 75.

0 – 6 7 8 9 10 17 24 32 39 46 53 59 67 74 .0 5 5 6 7 7 8 14 19 25 29 36 41 46 52 57 nB/na 1.5 5 6 7 8 8 9 16 22 29 35 42 48 55 61 67 2. Valores mínimos de j.William Costa Rodrigues 48 Tabela 15. nA 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100 1. 1971). significativos a 0.5% (Southwood.

C. Torres Pastorinho Minutos da Sabedoria. Viva o momento presente. para seu aperfeiçoamento. Preste atenção ao que está fazendo. onde quer que você esteja. O ontem já lhe fugiu das mãos.Apostila de Estatística Aplicada 49 ************* O minuto que você está vivendo agora é o mais importante de sua vida. p. 154 ************* . O amanhã ainda não chegou. Procure aproveitar ao máximo o momento que está vivendo. tirando todas as vantagens que puder. porque dele depende todo o seu futuro.

Sign up to vote on this title
UsefulNot useful