6ª Edição Revisada e Ampliada
O Autor:
William Costa Rodrigues é Agrônomo, Doutor em Fitotecnia e PósDoutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de Ecologia1, Toxicologia1, Climatologia1, Estudos de Impacto Ambiental1, Estatística Aplicada2 e Auditoria Certificação Ambiental2, Metodologia da Pesquisa Científica2 na graduação e de Estatística Ambiental1 e Biondicadores Ambientais1 na especialização de Planejamento e Gestão Ambiental1, onde também é Supervisor Pedagógico. Atua como desenvolvedor de softwares agrícolas e Científicos. Coordenador Geral do projeto Entomologistas do Brasil (www.ebras.bio.br). Coordenador e autor de capítulos no livro Citricultura Fluminense: Principais pragas e seus inimigos naturais. Trabalha ativamente com análise estatística em projetos na área agrícola e ambiental. O autor poderá ser contatado através do e-mail: wcostarodrigues@yahoo.com.br.

Esta Obra:
A apostila Estatística Ambiental foi inicialmente utilizada no programa de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e no Curso de graduação em Gestão Ambiental, na disciplina Estatística Aplicada, tendo como objetivo informar o discente sobre os princípios básicos da estatística, relacionando-a com a metodologia científica, possibilitando um entendimento básico sobre o assunto. Hoje a apostila é também utilizada em cursos de graduação. Capa: Fotos do Autor na Ilha da Marambaia. Foto superior Casulo de Plecoptera e foto inferior, córrego onde ao casulo foi coletado.

Esta obra é distribuída através da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br

Copyright©2004-2008 Rodri Copyright©2004-2008, W.C. Rodrigues

1 2

Disciplina Ministrada na Universidade Severino Sombra Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental

Sumário
1 Introdução................................................................................................................. 1 1.1 Crescimento e Desenvolvimento da Estatística Moderna ................................ 1 1.2 Variação ao Acaso ............................................................................................ 1 Ensaio x Experimentação ......................................................................................... 2 Conceitos Estatísticos ............................................................................................... 2 3.1 Estatística Descritiva ........................................................................................ 2 3.2 Inferência Estatística......................................................................................... 2 3.3 Tipos de Dados ................................................................................................. 3 3.3.1 Variáveis Aleatórias Categorizadas.......................................................... 3 3.3.2 Variáveis Aleatórias Numéricas ............................................................... 3 Por que Utilizar a Estatística .................................................................................... 4 Planejamento Experimental...................................................................................... 4 5.1 Fases do Planejamento ..................................................................................... 4 5.1.1 Problema................................................................................................... 5 5.1.2 Informações Existentes............................................................................. 5 5.1.3 Noções Gerais Sobre Hipótese ................................................................. 5 5.1.4 Formulação das Hipóteses ........................................................................ 6 5.1.4.1 Elaborando as hipóteses........................................................................ 6 5.1.4.2 Hipótese Estatística x Hipótese Científica ........................................... 6 5.1.5 Testando as Hipóteses .............................................................................. 6 5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses ..................... 6 5.1.7 Aleatorização ............................................................................................ 7 5.2 Erros de Observações ....................................................................................... 7 5.2.1 Erros do Observador................................................................................. 7 5.2.2 Erro do Método de Observação ................................................................ 8 5.2.3 Por Falta de Resposta ............................................................................... 8 5.3 Controle dos Erros nas Observações ................................................................ 8 5.4 Métodos de Coleta de Dados ............................................................................ 8 5.4.1 Fontes Primárias ....................................................................................... 8 5.4.2 Fontes Secundárias ................................................................................... 8 5.5 Pesquisa Observacional .................................................................................... 9 5.6 Pesquisa Experimental...................................................................................... 9 5.6.1 Princípios da Experimentação ................................................................ 10 5.7 Tipos de Amostras .......................................................................................... 10 5.7.1 Amostras Simples ao Acaso ................................................................... 10 5.7.2 Amostra Estratificada ............................................................................. 11 5.7.3 Amostra Sistemática ............................................................................... 11 5.7.4 Amostra por Área ................................................................................... 11 5.7.5 Amostra por Conglomeradas .................................................................. 11 5.7.6 Amostra Selecionada .............................................................................. 11 5.8 Determinação do Tamanho da Amostra ......................................................... 12 5.8.1 Tamanho da Amostra para Dados Discretos .......................................... 12 5.8.2 Tamanho da Amostra para Dados Contínuos ......................................... 13 Técnicas Estatísticas Para Análise de dados .......................................................... 14 6.1 Medidas de Tendência Central ....................................................................... 14 6.1.1 Média Aritmética Simples ( X ) .............................................................. 14 6.1.2 Média Aritmética Ponderada .................................................................. 14 6.1.3 Média Aritmética de Dados Agrupados em Intervalos .......................... 15

2 3

4 5

6

6.1.4 Mediana (Me) ......................................................................................... 16 6.2 Medidas de Variação ...................................................................................... 17 6.2.1 Desvio-Médio (DM) ............................................................................... 17 6.2.2 Desvio Padrão......................................................................................... 17 6.3 Variância ou Quadrado Médio ....................................................................... 18 6.4 Erro-Padrão da Média - s(x) ........................................................................... 19 6.5 Coeficiente de Variação.................................................................................. 19 6.6 Curva de Distribuição Normal........................................................................ 19 6.6.1 Limites de Confiança.............................................................................. 21 6.6.2 Erro Padrão ............................................................................................. 22 6.7 Teste de Normalidade dos Dados ................................................................... 22 6.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 22 6.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 22 7 Testes Paramétricos e Não Paramétricos................................................................ 23 7.1 Teste t - Student.............................................................................................. 23 7.1.1 Dados Pareados (Amostras Dependentes).............................................. 24 7.1.2 Dados Pareados (Amostras Independentes) ........................................... 25 7.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)........... 26 7.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas) ................. 27 7.2 Teste Qui-Quadrado (χ²) ................................................................................ 28 7.3 Tabela de Contingência .................................................................................. 28 7.4 Teste de Kruskal-Wallis ................................................................................. 29 7.5 Teste de Friedman (Análise da Variância) ..................................................... 31 8 Correlação Linear ................................................................................................... 32 8.1 Coeficiente de Correlação (r) ......................................................................... 32 8.1.1 Correlação de Pearson ............................................................................ 32 8.1.2 Correlação de Spearman......................................................................... 32 8.1.3 Aspectos Gerais da Correlação Linear ................................................... 33 8.2 Coeficiente de Determinação (r²) ................................................................... 34 8.3 Coeficiente de Alienação (K) ......................................................................... 34 8.4 Significância do Teste de Correlação ............................................................. 34 8.4.1 Significância Baseada nos Intervalos ..................................................... 34 8.4.2 Significância Baseada no Teste t para r (Pearson) ................................. 35 9 Análise de Regressão.............................................................................................. 35 9.1 Regressão Linear Simples .............................................................................. 36 9.2 Regressão Linear Múltipla.............................................................................. 36 9.3 Regressão Múltipla ......................................................................................... 37 10 Transformação de Dados .................................................................................... 37 10.1 Raiz Quadrada ................................................................................................ 38 10.2 Transformação Logarítimica .......................................................................... 38 10.3 Transformação Angular (Arcoseno)............................................................... 38 10.4 Considerações Gerais ..................................................................................... 38 11 Testes Específicos Para Análise de Populações e Comunidades ....................... 38 11.1 Índice de Diversidade e Dominância Populacional........................................ 38 11.1.1 Índice de Margalef (α)............................................................................ 39 11.1.2 Índice de Glason (Dg) ............................................................................. 39 11.1.3 Índice de Menhinick (Dm) ...................................................................... 39 11.1.4 Índice de Shanon-Wiener (H') ................................................................ 39 11.1.5 Índice de Dominância Berger-Parker (d)................................................ 39 11.2 Exemplo.......................................................................................................... 39

11.3 Índice de Similaridade entre Populações........................................................ 40 11.3.1 Quociente de Similaridade...................................................................... 40 11.3.2 Porcentagem de Similaridade ................................................................. 40 11.3.3 Índice de Afinidade ................................................................................ 41 11.3.4 Constância .............................................................................................. 41 11.3.5 Índice de Associação (IA) ...................................................................... 41 12 Bibliografia......................................................................................................... 42 13 Anexos ................................................................................................................ 43

....... em mg......................... 34 Tabela 8.......... 46 Tabela 14............. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo...................................................... 7 Tabela 2..... (dados fictícios)................05 a 0......................................................... Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis............................ Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata........ Valores para transformação arcsen % . Índices de diversidade de cochonilhas em agroecossiema cítrico...........05 a 0................. no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues.................... Valores de t -student em níveis de 5% e 1% (α=0........ Valores críticos para o Coeficiente de Correlação de Spearman (rs)..... . 34 Tabela 7................................. 31 Tabela 5.... ......... 24 Tabela 3................... 2004).. Classificação do valor r através de intervalos de acordo com e Teste de Rugg. 40 Tabela 11.. .............. ...... ...... 1971)............................................. Valores mínimos de j............................................ sob cultivo orgânico na Fazendinha Agroecológica................................................... Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios)...................... 40 Tabela 10.................................. ...... Aphididae) em função da brotação foliar de tangerina cv Poncã................................. Duas comunidades com sua composição de espécies em percentagem ..5% (Southwood........ 35 Tabela 9........................................mm³ de β solo . 45 Tabela 13........ 1999).......... em quatro diferentes profundidades...... Correlação de Spearman entre as notas brutas de matemática e biologia (Zar......... Exemplo para o Microsoft Excel....... 48 ..................... ....................... numa área de re-vegetação (dados fictícios)...........01) de α probabilidade....... 47 Tabela 15........... 33 Tabela 6................. Classificação do valor r através de intervalos de 0 a 1..... Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera.................................... Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril.......... 25 Tabela 4....................................................... Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0.................................Índice de Tabelas Tabela 1....................................................................01) de α probabilidade .................................. 44 Tabela 12..................................... significativos a 0.......................................................

.............. desvios padrões (s) diferentes................... 20 Figura 5........ Poncã.... brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z)........ no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues............. Curva normal padrão...... aurantii e a brotação foliar de tangerina cv......... Correlação linear simples positiva (A)........... As áreas sob a curva assinaladas entre os traços verticais.............. Regressão múltipla entre a flutuação populacional de T...... Curvas de distribuição normal das freqüências de X.................... Diagrama de tipos de dados ................... Regressão linear simples entre a flutuação populacional de T........ 2004). Correlação múltipla da amplitude térmica (variável x)........... com seus diversos níveis de categorias... ......... Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ............................. 10 Figura 4......Índice de Figuras Figura 1.................... Diagrama de uma estatística descritiva.. tendo por parâmetros µ=0 e s= 1........... 37 Figura 13......... no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues... Poncã.................. em cultivo orgânico de tangerina cv....................... 2004).... isto é. Interpretação dos dados experimentais........................................... 20 Figura 6........... A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área.... 36 Figura 10........ em que foram registrados outros valores intermediários (definidos pelos pontos B e C).... em cultivo orgânico de tangerina cv.... 37 Figura 12....... em cultivo orgânico de tangerina cv..... Curva de distribuição normal simétrica........ Poncã............................. Poncã.................... 2004)..................................................... parece sugerir que Y cresce à medida que X cresce..................................... .................... mostra que a relação entre X e Y obedece a uma lei mais completa...... indicam as percentagens de valores de X aí contidas.. na Fazendinha Agroecológica.... apresentando a linha de tendência de regressão linear simples de dados fictícios.. tendo a mesma média (µ) µ e diferentes graus de dispersão dos valores de X............... 21 Figura 7............................... entretanto no gráfico à direita.... no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues.. sob a curva........ onde µ é a média e s o desvio padrão.. aurantii e a brotação foliar de tangerina cv............. baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B)............... medidos em unidades de desvio-padrão.......... na Fazendinha Agroecológica... 43 ... ...... O gráfico à esquerda................... na Fazendinha Agroecológica.............. e inversa ou negativa (B).......... Poncã............. 33 Figura 9.................... .. 22 Figura 8.......... 3 Figura 2........ 36 Figura 11........ situada à esquerda de C............................. Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel............................ 4 Figura 3............ Fluxograma Para Auxiliar na Escolha de Testes Estatísticos ..........................

podemos ver que em quase tudo. . em todos os dados obtidos. De fato.2 Variação ao Acaso O que dificulta ao trabalho de pesquisador e exige a análise estatística é a presença. quando seu salário aumenta. etc. No Brasil o censo é realizado a cada 10 anos. a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de equipamentos de tabulação no início do século XX. pois o principal objetivo desta ferramenta é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor indicar o caminho para uma tomada de decisão.Apostila de Estatística Aplicada 1 1 Introdução Diariamente estamos envolvidos em análises estatísticas. os resultados obtidos. em dias diferentes. morte e casamentos. Esses efeitos. como parte da matemática aplicada. que irá interferir na distinção das cores. poderá haver. não podem ser conhecidos individualmente e alteram pouco ou muito. trata da coleta. Bom. Eles são indicados pela designação geral de variação do acaso ou variação aleatória. Estudando os mais variados fenômenos das diversas áreas do conhecimento. Quando você está desempregado ou empregado. realizar experimentos. variação nos intervalos de amostragem.1 Crescimento e Desenvolvimento da Estatística Moderna Historicamente. e mesmo pela utilização dos resultados e pesquisas feitas. obviamente que não podemos deixar a estatística dominar nossas vidas. Assim. sempre presentes. Foram levantados dados através dos registros históricos. 1. se a avaliação for. o estudo da estatística justifica-se pela necessidade de desenvolver pesquisas. mas não é só desta forma que você faz parte do infinito mundo da estatística. O efeito dessa variação do acaso é tal que pode alterar completamente os resultados experimentais. o crescimento e o desenvolvimento da estatística moderna podem ser relacionados a três fatores isolados – a necessidade dos governos de coletar dados dos cidadãos. eu disse quase tudo. seja visando o aprimoramento de métodos e técnicas de investigação. está fazendo parte da estatística. quando o IBGE faz uma visita a sua casa para o censo. seja por exigências do próprio desenvolvimento do país. Na Idade Média. Desta forma. ela representa um valioso instrumento de trabalho nos dias de hoje. da análise e da interpretação de dados observados. de efeitos fatores não controlados (que podem ser controlados). ao comparar no campo duas paisagens. Isso levou ao desenvolvimento de computadores mainframe e finalmente a revolução dos computadores pessoais. Na área ambiental. e mesmo pela utilização dos resultados e pesquisas feitas por aqueles que a isso se dediquem. podemos empregar a estatística. Durante as civilizações egípcias. por exemplo. avaliando o crescimento populacional e a distribuição desta população no território nacional entre outros aspectos avaliados. grega e romana. As variações ao acaso podem ser exemplificadas como: temperatura ambiente. uma interferência da luz solar. faz parte também. realizar experimentos. os dados eram obtidos principalmente com o objetivo de recolherem impostos e para o recenseamento militar. o desenvolvimento da teoria da probabilidade e o advento da informática. aferição do aparelho utilizado para mensurar. variação no horário de coleta dos dados. A estatística. quando você é abordado na rua para responder qual o candidato irá votar na próxima eleição. as instituições religiosas freqüentemente mantinham registros relativos a nascimentos. você está fazendo parte da estatística. 1.

O tamanho do experimento é reduzido. a apresentação e a caracterização de um conjunto de dados de modo a descrever apropriadamente as várias características deste conjunto. As variações ao acaso são controladas com rigor. A análise e interpretação dos dados não podem possuir muito rigor e deve se adequar ao tipo de ensaio realizado. As variações ao acaso são parcialmente controlados. Um parâmetro é a medida calculada para descrever uma característica de toda uma população. objetivando somente uma pré-avaliação dos resultados. etc. As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a forma de apresentação dos dados. 3. O número de amostras é reduzido. possibilitando assim menor erro amostral e na análise estatística. Para tornar mais claro esta definição. Quadro 1.2 Inferência Estatística Pode ser definida como os métodos que tornam possível a estimativa de uma característica de uma população ou a tomada de uma decisão referente à população com base somente em resultados de amostras (Figura 1). como um produto de teoria da probabilidade. Abaixo no Quadro 1 são listadas as diferenças entre os dois métodos. .William Costa Rodrigues 2 2 Ensaio x Experimentação Existem diferenças básicas entre os dois métodos de avaliar um dado científico. Uma amostra é a parte da população selecionada para análise. que levou à ampla aplicação da estatística em todos os campos de pesquisas atuais.1 Estatística Descritiva Pode ser definida como os métodos que envolvem a coleta. as definições seguintes são necessárias: Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado. Diferenças entre Ensaio e Experimentação. Ensaio Tempo de duração da avaliação é curta. número de amostras. com margem de erro menor possível. Embora os métodos estatísticos descritivos sejam importantes para a apresentação e a caracterização dos dados. não havendo rigor. número de amostragens realizadas. 3 Conceitos Estatísticos 3. Experimentação O tempo de avaliação deverá ser o suficiente para que os dados coletado possam garantir uma avaliação. Uma estatística é a medida calculada para descrever uma característica de apenas uma amostra da população. A análise e interpretação dos dados deverão ser rigorosas e adequadas ao tipo de experimentação realizada. O número de amostra deverá ser suficiente para avaliar os dados com a maior precisão possível O tamanho do experimento deverá ser suficiente para avaliar os dados. foi o desenvolvimento de métodos estatísticos de inferência.

3 Tipos de Dados Existem basicamente dois tipos de dados de características de variáveis aleatórias que podem ser estudadas e que produzem os resultados ou os dados observados: categorizados ou numéricos (Figura 2). será todos os alunos da faculdade. a resposta é discreta. Desse modo. 3.Apostila de Estatística Aplicada 3 Para melhor elucidar estes conceitos. A população pode ser constituída de elementos simples. um aspecto principal da inferência é o processo que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população. ou das pessoas que habitam uma casa. ou universo. é contínua. Quando a população se torna grande. Por exemplo. é geralmente dispendioso demais. consome muito tempo e é muito cansativo obter informações sobre a população inteira. A necessidade da inferência estatística deriva da necessidade da amostragem. você tem Sim Não. O objetivo da pesquisa é descrever várias atitudes ou características de toda a população (os parâmetros). com seus diversos níveis de categorias. como é o caso dos seres humanos ou das plantas superiores ou das bactérias. A amostra pode ser definida também como o conjunto de observações extraídas de uma fonte (população). segundo determinadas regras e critérios. . carro? 3. enquanto a amostra consistirá os estudantes selecionados para participar da pesquisa. sendo a população a fonte de observações.3. podendo ser números discretos ou contínuos. Isto seria alcançado utilizando-se as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características de interesse da população. digamos que há uma necessidade de saber a opinião da qualidade de vida no campus de sua faculdade. como é o caso das irmandades com mais de um indivíduo.3. ou por elementos coletivos. A resposta para pergunta: "Quantos livros você possui?". das famílias. População/Universo Amostra Parâmetro Estatística Figura 1. Diagrama de uma estatística descritiva. Decisões pertinentes às características da população devem ser baseadas na informação contida numa amostra da população. enquanto a reposta para "Qual a sua altura?".1 Variáveis Aleatórias Categorizadas Este tipo de variável produz respostas categorizadas. 3. A população.2 Variáveis Aleatórias Numéricas Produz respostas numéricas.

quanto para aleatórias numéricas (discretas e contínuas). Tipos de Dados Categorizadas Numéricas Discretas Você possui carro? Quantas revistas você assina? Contínuas Qual sua altura? Sim Não 5 1. Na Figura 2. esta poderá fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar nossa experiência. A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpretação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recusá-la. O que pode ocorrer é que a estatística irá indicar uma diferença numérica. pois os dados poderão apresentar falhas ou nada representaram para o estudo do problema ou para a elaboração das hipóteses a serem formuladas. primeiro consideramos sua importância. "uma área será condenada por poluição de metais pesado no solo". Diagrama de tipos de dados 4 Por que Utilizar a Estatística A Estatística é uma área da matemática muito utilizada hoje em dia. como a ferramenta que irá dizer se. Desta forma devemos ter muito cuidado ao utilizar à estatística. . Estas informações deverão ser avaliadas e criticadas. por exemplo. diremos que os dados selecionados devem ser os estritamente necessários.1 Fases do Planejamento Quando realizamos um estudo. entretanto o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos resultados e levam-na ao descrédito.William Costa Rodrigues 4 Dados discretos são respostas numéricas que surgem a partir de processo de contagem e dados contínuos são repostas numéricas que surgem a partir de um processo de medição. Se houver alguma informação que possa auxiliar como ponto de partida. Em seguida. traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização. Em suma.75m Figura 2. caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático e tomar a decisão. 5 Planejamento Experimental 5. segue exemplos de variáveis tanto para aleatórias categorizadas.

se necessário. Por sua vez. Enquanto não se possa demonstrar que ela é incorreta.1. podemos encontrar duas situações. p. peculiares a determinado fenômeno. A estratégia para isso depende da natureza do problema em causa. ou de experimentação. por exemplo. É importante também especificar sua extensão. resultado de um raciocínio indutivo (consciente ou subconsciente). requer demonstração ou prova de sua adequação.Apostila de Estatística Aplicada 5 5. Uma própria de fenômenos sobre os quais não podemos influir nem exercer qualquer controle. Determinação do(s) objetivo(s) e finalidade da investigação. dizer que se vai estudar a biodiversidade da floresta atlântica. para ver se a hipótese adotada ainda se mantém ou não. 9). ou alterações dos valores de Y quando varia X. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para o estudo. Não basta. Dela deduzimos as conseqüências ou fazemos previsões. é chamada variável independente. Definir a importância do problema que se estuda é explicar o que vamos estudar. que se supõe depender de X. O planejamento de pesquisa consiste. pois provavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os aspectos da biodiversidade ou da poluição. enquanto Y. é a variável dependente. Sabemos que a veracidade de uma hipótese nunca pode ser demonstrada ou provada definitivamente. 5. então. Muitas vezes.1. como observar e medir seus valores e como analisar as relações qualitativas e quantitativas que possam existir entre eles (ver item Pesquisa Observacional. que precede a outra.1. por mais justa e sólida que possa parecer. A outra seria a interdependência das duas variáveis. A variável X. Será impossível o planejamento das etapas subseqüentes se não ficar claramente evidenciado o problema a investigar. O que se faz é verificar se ela não seria falsa. com a finalidade de saber o que já se conhece sobre o assunto.1 Problema Ao planejar o problema que se vai pesquisar. teremos de montar uma observação ou uma experiência em que se possa verificar o aparecimento de Y quando ocorre X. portanto. . 5. mantém-se a hipótese como boa. de tal forma que se possa demonstrar a existência de uma relação constante entre os valores de X e Y. destinado a contestar determinada hipótese. deverá ser dada especial atenção aos seguintes pontos: Definição da importância do problema que se estuda. essas conseqüências e previsões serão testadas. o efeito da poluição do rio Paraíba do Sul. o que se tem em vista é verificar uma relação de causa e efeito: queremos saber se a variável X e a variável Y.3 Noções Gerais Sobre Hipótese A hipótese. guardam entre si relações de causa e efeito (direta ou indiretamente).2 Informações Existentes Antes de empreender o experimento. limitando-se o estudo científico à observação de como X e Y se apresentam espontaneamente. o pesquisador deve revisar tudo o que diz respeito ao fato em estudo. A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à da pesquisa. Na prática. o que nos levaria a rejeitá-la e a formular outra. Do ponto de vista operacional. na elaboração de um plano de observação.

etc. Na verdade. que não o permite avaliar variáveis complexas e multáveis (clima. que são denominados testes estatísticos. . X n 5.2 Hipótese Estatística x Hipótese Científica A hipótese estatística testa somente os dados numéricos obtidos através de um modelo matemático fixo e contendo restrições. social. uma boa revisão bibliográfica e uma interpretação imparcial dos dados.1. seja ela: biológica.1 Elaborando as hipóteses O pressuposto a hipótese estatística é sempre testar a nulidade dos dados. não será somente baseada em um modelo matemático. efeito antrôpico. 5. porém a resposta para entendimento dos resultados. mas pela descrição do fato. A hipótese nula admite que os resultados sejam iguais ou com diferenças aleatórias entre os tratamentos.1..1. 5. existe um risco de se chegar a uma conclusão incorreta.4. etc. p. dois tipos de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses: Um erro do tipo I ocorre se a hipótese nula H0 for rejeitada quando de fato é verdadeira e não deveria ser rejeitada.6 Riscos na Tomada de Decisão Através Teste de Hipóteses Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da população.1.1. testa duas hipóteses. Um erro do tipo II ocorre se a hipótese nula H0 for rejeitada quando de fato é falsa e não deveria ser rejeitada. As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese científica. Já a H1. A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela. será As substâncias não possuem a mesma capacidade de reação. X n Já a hipótese alternativa. valerá além da experiência do pesquisador.4 Formulação das Hipóteses A estatística. Normalmente testa-se através de modelos matemáticos. 5. que geralmente são denominadas de H0 ou Hipótese nula e H1 ou Hipótese alternativa. A H0 deverá ser a seguinte: As substâncias possuem a mesma capacidade de reação.... em um experimente está sendo testada a capacidade de duas substâncias possuírem o mesmo poder de reação química. testa a falta de nulidade ou falta de diferenças aleatórias entre os tratamentos. H a : X1 ≠ X 2 ≠ X 3 ≠ . que se dividem basicamente em Teste Paramétricos e Não Paramétricos.). nas proporções utilizadas. somada com uma facilidade de concluir de acordo não somente pelos números. 14.5 Testando as Hipóteses Existem várias formas de testar as hipóteses elaboradas. Desta forma. Por exemplo.William Costa Rodrigues 6 5. H 0 : X1 = X 2 = X 3 = .4. que serão visto no item Técnicas Estatísticas Para Análise de dados.

Com este processo o erro experimental poderá ser mensurado através do modelo matemático utilizado para analisar os dados. . Através da observação ou coleta de dados. que examinaram em épocas separadas por um período de dois meses. as mesmas 500 fotos. São os erros experimentais oriundos de fatores que não podem ser controlados. tais discordâncias não refletem uma variação real. ou seja. As fotos foram interpretadas separadamente por cada técnico conforme a Tabela 1. haverá sempre uma discrepância entre as amostragens realizadas.1 Erros do Observador O grau de treinamento dos observadores. forem muito discrepantes. ou seja. o excesso de trabalho. 5. Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata.1.2. possibilitando que se houver algum erro este seja atribuído ao acaso.7 Aleatorização Na oportunidade em que organizamos os ensaios devemos proporcionar condições idênticas para cada tratamento. O mesmo foi verificado em relação a cada um dos observadores que apresentaram resultados diferentes entre as duas leituras. 5. Como exemplo. o modelo matemático poderá não prevê erro tão grande. Devemos concluir que. seja por falha no aparelho utilizado ou pela desatenção do observador. o pesquisador terá a oportunidade de verificar a existência de diferenças entre os mesmos.Apostila de Estatística Aplicada 7 5. (dados fictícios) Observador A B C D E Fotos onde a degradação foi considerada positiva (nº) 1ª leitura 2ª leitura 118 139 69 78 83 88 96 89 106 92 Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes observadores coincidiram quanto ao número de fotos consideradas positivas para o referido diagnóstico. Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro experimental possível. poderíamos citar a experiência de que participaram cinco técnicos especializados em análise de foto aérea (foto interpretação). seu estado físico e condições ambientais podem ser as principais causas de erros das observações. Erros cometidos pelo observador deverão ser considerados no modelo matemático escolhido para análise dos dados. e sim cometida por quem procedeu à leitura do material fotográfico.2 Erros de Observações Quanto aos componentes de uma população. não tendencioso. com a finalidade de verificar a degradação ambiental acentuada das áreas fotografadas. Entretanto se estes erros forem muito distantes. Tabela 1.

consideramos que a informação foi recolhida de fonte primária e no segundo caso dizemos que a fonte é secundária. 5. dentro da metodologia.3 Por Falta de Resposta Este tipo de erro poderá ou não ocorrer no experimento.4. o dado que irá compor o conjunto de informações a serem analisadas. houve um erro por falta de resposta.William Costa Rodrigues 8 5. Qualquer que seja a causa dos erros anteriormente abordados.4. 5.4 Métodos de Coleta de Dados Embora a maioria das experimentações as informações devam ser retiradas diretamente no "campo". o erro por falta de resposta ocorrerá através da perda de uma parcela.3 Controle dos Erros nas Observações Apesar da distinção que procuramos dar ás diferentes fontes de erros. Os erros dependentes dos observadores podem ser minimizados por uma preparação e por um treinamento mais eficientes. 5. da coleta dos dados ter sido realizada por outra pessoa. Cada método em particular pode ter uma série de fatores que conduzem à distorção dos resultados.2. pois irão permitir uma flexibilidade de estimar o dado faltoso. pelo simples fato. Este tipo de fonte é chamado secundário. podemos utilizá-las. já que a metodologia previu que aquele era o ponto a ser amostrado.2. em muitas ocasiões podem-se aproveitar dados previamente obtidos por outras pessoas.1 Fontes Primárias Quando não há informações dos dados que queremos estudar. A coleta esta sendo realizada no campo. não sendo utilizados dados previamente coletados por outro pesquisador. na coleta de informações a respeito da poluição de um determinado córrego. No primeiro caso. Por exemplo. Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de um determinado córrego. estes poderão ser reduzidos ou eliminados de acordo com as coisas que os determinam. assim como por uma melhoria das condições físicas e de trabalho. assim a metodologia deverá prever a coleta de dados na fonte primária. Em experimento. devemos ir a acampo para obtê-lo. Por isso há uma preocupação natural de todo pesquisador em aperfeiçoá-los ou substituí-los por outros métodos mais eficientes a fim de aumentar a exatidão dos resultados. Os erros causados pelos métodos de observação podem ser reduzidos selecionando-se o funcionamento dos aparelhos utilizados. Ele ocorrerá se não houver a possibilidade de obter. desta forma.2 Erro do Método de Observação Os métodos de observação possuem erros mais ou menos importantes. 5. que constituem blocos e parcelas. Devemos lembrar que eles são bastante independentes. assim não poderá o observador coletar em outro ponto. Os modelos matemáticos que prevêem erros por falta de resposta são apropriados. houve uma seca muito intensa secando a água no ponto de coleta pré-determinado. É óbvio que a qualidade deverá ser . 5.2 Fontes Secundárias Quando as informações que nos interessa já foram coletadas por outro pesquisador.

Em sua essência. Teorias tão fundamentais como a da evolução forma estabelecidas com base exclusiva na observação da natureza.6 Pesquisa Experimental A experimentação ou experimento ou simplesmente experimento é um método científico e de observação dos fatos ou fenômenos naturais.Apostila de Estatística Aplicada 9 levada em consideração. Suas observações sobre as relações entre organismos e o meio contribuíram decisivamente para a criação da ecologia. enquanto que as mudanças observadas em conseqüência. Mas. são geralmente denominadas variáveis independentes. de idéias fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente. bem definidos. paciente. Sempre que possível. Por isso deve ser atenta. A viagem de Darwin ao redor do mundo permitiulhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada por Lamarck. por exemplo. completa. para saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder. Por vezes. objetivo e imparcial. Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. 5. que o pesquisador seleciona ou manipula na experiência. para que se possa apreciar seu efeito e estabelecer a lei do fenômeno. a presença ou a ausência de luz. para o estudo em causa. etc. capaz de com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais. sobre um atributo do organismo ou material que é objeto da pesquisa. Em experiências mais simples. porém analítica. Deve ser persistente. apenas duas condições da variável são testadas (por exemplo: duas temperaturas. em estudos de dietas ou os alimentos administrados seriam as variáveis independentes. de modo permitir clara distinção entre os fatos que são relevantes. portanto. a experimentação deve permitir comparar o efeito de suas ou mais condições ou tratamentos. como a resposta do organismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator ensaiado. precisa e metódica. na praticam a validade de suas bases. Darwin buscou correlacionar as características próprias das espécies com as condições do meio em que vivia cada uma delas. e o crescimento em peso ou altura. são confrontados com os dados da variável dependente (eixo das ordenadas . A observação deve ser inteligente e sagaz. Exige que o pesquisador seja curioso. a administração ou não de um medicamento. duas concentrações de uma substância. 5. repetidas e quantificadas. além do que. devemos verificar a metodologia utilizada. sob condições particulares estabelecidas pelo pesquisador.). corresponderiam às variáveis dependentes.X). Assim. os métodos experimentais podem ser difíceis ou mesmo impossíveis de aplicar. as observações devem ser corretamente registradas.5 Pesquisa Observacional Em certos campos da biologia e das ciências sociais. e os inúmeros outros que se apresentam concomitantemente. partindo-se de medidas rigorosas que permitam a análise estatística dos dados. são as variáveis independentes.Y). Então a observação científica adquire grande importância e deve ser feita com o máximo de cuidado. . os valores de uma variável independente (eixo das abscissas . no atributo. torna-se em geral necessário experimentar três ou mais valores de variável independente. (Figura 3). As condições.

O controle das variáveis aleatórias (chuva. pois permitem uma melhor análise dos dados.William Costa Rodrigues 10 30 25 20 Y 15 10 5 A X B A Y B 35 30 25 20 15 10 5 A B X C D A B D C Figura 3. encontra para estimar os dados da pesquisa que irá realizar. Os modelos estatísticos a serem utilizados na experimentação deverão ser adequados ao que se pretende responder. O experimento deverá ser realizado de acordo com uma técnica já conhecida e testada. Caso a técnica a ser utilizada seja original. caso a área experimental não apresente uniformidade. e. d. para assegurar que a resposta não foi obtida por mera casualidade e sim por inerência do tratamento. etc. entretanto no gráfico à direita. pois permite que o experimento possa ser regido por efeitos gerais a todos os experimentos. temperatura. Certificação de que as pessoas envolvidas na experimentação possuam treinamento e conhecimento a cerca do modelo estatístico e da metodologia a ser empregada. quando dispomos de uma população que apresenta características homogêneas. Assim as parcelas dos tratamentos deverão ser distribuídas ao acaso pelo experimento. isto é. A casualização é um princípio fundamental.7. deverá haver uma adequação da metodologia (objetivos) com o modelo. efeito antrópico.6. em que foram registrados outros valores intermediários (definidos pelos pontos B e C). deverá ser controlado. A experimentação deverá ter impreterivelmente repetições. h. variância próxima ou igual à média. recomenda-se que o efeito seja igual para todos os tratamentos ou itens testados. para que os resultados possam levar o pesquisador a uma resposta coerente e segura. quando possíveis. seja na área científica ou social. Os princípios básicos da experimentação científica são: a. ou seja.7 Tipos de Amostras 5.1 Amostras Simples ao Acaso Um dos métodos mais usados. vento. 5. Interpretação dos dados experimentais. mostra que a relação entre X e Y obedece a uma lei mais completa. ou seja. 5. c. . esta deverá ser experimentada antes de ser utilizada na experimentação. Emprega-se este processo.1 Princípios da Experimentação A experimentação é a forma que o pesquisador. caso não seja possível. f. pouca variação no conjunto dos elementos. baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B). O gráfico à esquerda. parece sugerir que Y cresce à medida que X cresce. Amostragens regulares. g.). b.

o terceiro será 25.3 Amostra Sistemática Aplicada quando a população apresenta um número finito de elementos e os dados estão distribuídos aleatoriamente. O número de elementos da amostra será obtido da seguinte forma: Numa população constituída por 500 elementos e a amostra por 50 elementos. Outros métodos de seleção poderão ser associados para determinação dos elementos de cada conglomerado para compor a fração amostral. na área de saúde é comum a realização de pesquisas de que são selecionados os pacientes portadores de determinadas enfermidades. assim. 5. As unidades que comporão a amostra serão sorteadas em função das condições de variabilidade existentes. podendo a seqüência ser obtida através de sorteio de ruas e residências. cinco. Estas subpopulações têm nome de estratos. para que. sorteiam-se aleatoriamente os conglomerados que irão participar da amostra. observando-se que se o número sorteado for. em seguida. até obterem-se os 50 elementos que constituirão a amostra. obtendo-se 10. ou então considerando o número de seus elementos e procedendo-se a um percentual de cada estrato. através de um procedimento correto. escolhem-se os demais. Embora a subdivisão da população seja em estratos. 5. o segundo deverá ser 15. uma amostra estratificada proporcional. sorteia-se um número da primeira dezena e.4 Amostra por Área Utiliza mapas geográficos de cidades e municípios. isto é. Poderia ser a doença de Parkinson. A população heterogênea é transformada em subpopulações homogêneas. hepatite. e assim por diante. A família poderá ser a unidade mais simples a ser pesquisada. 5. só farão parte do estudo indivíduos portadores de enfermidade a ser pesquisada. grande número de fatores ou variáveis que podem comprometer as conclusões se não eliminados. 500 por 50.7. o que é. entre outras.7.6 Amostra Selecionada Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona para avaliar o perfil de seus componentes. no entanto. tuberculose. 5. isto é.2 Amostra Estratificada Utilizada quando dispomos de informações de que a população apresenta características heterogêneas. por exemplo. . utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco mais trabalhoso – ele redunda conseqüentemente em ganho de precisão.7. pela estratificação. Portanto.7. o uso de amostragem nos conduz a ganhar em precisão.7. Considera-se este tipo de amostra que possibilita maior precisão quanto aos resultados. a partir dele. O tamanho da amostra será determinado em função da variância de característica a estudar em cada estrato. Após a determinação dos conglomerados da população.5 Amostra por Conglomeradas Visto que. Por exemplo. considerando que os mesmos apresentam pelo menos uma característica em comum. de cada um.Apostila de Estatística Aplicada 11 5. neste caso. onde N = 500 e n = 50 dividem-se N por n. compensado apenas pela diminuição das tarefas. Obtém-se.

a priori. Em outros casos. A determinação do tamanho da amostra depende de alguns fatores: 1. 2. ora usamos a percentagem. na literatura. a qual geralmente é arbitrada pelo pesquisador. . 5.96. Z: nível e confiança. (P-p): erro arbitrado pelo pesquisador. quando o nível de confiança corresponde a 95%. Chamamos q o valor complementar de p para 100%. p: valor obtido de trabalho anteriormente realizado. Esta diferença é conhecida como erro de amostragem. aquele valor tem. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. Os níveis de confiança propostos rotineiramente são de 95% e 99% de confiança. Em alguns casos são empregadas características que apresentam determinada variabilidade.000. ora usamos a variância. Toda pesquisa a realizar em que investigamos a taxa de prevalência que fenômeno apresenta. Nível de confiança (α).William Costa Rodrigues 12 5. 5. referente à taxa de prevalência do fenômeno estudado na amostra observada. Ao procedermos às técnicas de amostragem para determinação do tamanho da amostra (n). laboratório ou uma simples investigação. podemos classificar em finitas e infinitas. N= 3. q: 100%-p. Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de confiança. e por 2.8 Determinação do Tamanho da Amostra É muito comum um pesquisador indagar qual o número de amostras a serem estabelecidas para uma determinada pesquisa de campo.8.000). p + q = 100%. 4. Na obtenção do tamanho amostral será importante esta informação. ou seja. Variância ou porcentual. em relação ao valor percentual da população. este valor é substituído na fórmula (1) por uma constante 1. ou seja. ao apresentarmos um valor percentual. 3. Na população finita. utilizamos as seguintes fórmulas: n z2 × p × q (1) e n = 0 (2) n0 = 2 n (P − p ) 1+ 0 N Onde n0: número inicial. observamos a percentagem de certas características em um conjunto. Tamanho da população alvo. Quanto ao número de elementos que compõe. Erro de amostragem ou precisão. por exemplo. entende-se que a amostra obtida apresentará um determinado valor para a taxa de prevalência de certo evento. Informação da literatura (p). Deve-se imaginar que. Dependendo do tipo de investigação.58 quando o nível de confiança é de 99%. a obtenção da amostra se torna menos complexa do que nos casos de populações infinitas de (N= 800. arbitrada pelo pesquisador.1 Tamanho da Amostra para Dados Discretos Quando dispomos de variáveis discretas. o nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de diferença proposto. resultados os quais utilizaremos quando da determinação do valor de n em relação ao valor de p. que é. N tamanho da população. uma diferença. Simbolizado pela letra z.

Desta forma temos: Z = 1. desejamos determinar o tamanho da amostra. são utilizadas as fórmulas (1) e (2). Não sendo encontrado um desvio padrão em outro trabalho. Face a isto.84 × 100 = 384 2 4 16 384 384 n= ∴n = = 380. A utilização das fórmulas (1) e (2).0096 1+ 40.35 384 1. N: tamanho da população.96. ( X X ): erro arbitrado pelo pesquisador. Para populações infinitas e para as que N seja um valor muito elevado.84 × 1. sendo o tamanho da população igual a 40. X : média da amostra. retirando-se 30 observações da população e calculando-se o desvio padrão da característica a ser estudada.000 indivíduos. procede-se a uma pré-amostragem. Apenas sabemos que a população desta comunidade é de aproximadamente de 25. tem procedimento semelhante ao amostrado para variáveis discretas.000 pessoas.8. Exemplo: com a finalidade para verificar a incidência de doença de Chagas em uma população de certa região. . o que torna impraticável utilizar todos os elementos.600 n0 = ∴ n0 = ∴3. resolvemos determinar o número de elementos que comporão a amostra.Apostila de Estatística Aplicada 13 Quando se trata de trabalho original e não se dispõe de nenhum valor usamos p=50%. Em populações finitas.96 2 × 20 × 80 3.0000 O número de indivíduos que deveríamos examinar para a determinação da prevalência é de 384 para uma população infinita e 380. p = 20%. dispomos das seguintes fórmulas: n z 2 × S2 (1) e n = 0 (2) n0 = 2 n X−X 1+ 0 N ( ) Onde n0: número inicial. z: nível de confiança.96 (α=5%) e sendo estabelecida um erro de 4%. X : média da população alvo. para uma população finita. e (P-p)= 4% 1.2 Tamanho da Amostra para Dados Contínuos Para variáveis quantitativas contínuas. q = 80%. qual seria o número de elementos que a amostra deveria conter? A fórmula adequada para mensurar o tamanho da amostra é a equação 1. cujo valor foi igual a 9mg2. deste item. deparamos com o problema de definir o tamanho da amostra. 5. determinamos o valor do teor de hemoglobina de cada um e calculamos a variância (medida de dispersão). apenas a fórmula (1) deve ser utilizada. S: desvio padrão obtido de trabalho anteriormente realizado. Para tal estudo. Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos indivíduos de uma comunidade. a fórmula a empregar para determinação do tamanho da amostra será a fórmula 1 deste item. Considerando uma prevalência de anos anteriores igual a 20% com valor z = 1. Selecionamos ao acaso 30 elementos.

divididas pela quantidade destes.56 1.1. 30. São.2 Média Aritmética Ponderada Quando se tem uma séria de valores sucessivos com a respectiva distribuição de freqüência. ∑ x : a soma das variáveis. A descrição desse conjunto de dados torna-se mais clara quando se obtêm medidas que resumem as informações necessárias. Os valores típicos de um conjunto de dados tendem a se localizar no centro da série.25 138. pode-se calcular a média aritmética ponderada. 30. ponderada. fornecem uma descrição precisa da execução do grupo como um todo.24 n= ∴n = ∴ n = 137. 26. Permitem o confronto de dois ou mais grupos. 25.96 2 × 9 3. mediana e moda.1 Média Aritmética Simples ( X ) A media aritmética simples é a soma dos valores ou medidas.25 0.24 138. chamados medidas de tendência central.5 0. 29 e 33. 29. como tal. Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32.24 ≅ 138 2 0.48 ≅ 137 138.2 10 6. Sendo representado pela fórmula: ∑x X= n Onde X : representa a média. em geral. 32. três medidas de tendência central: média aritmética (simples.24 1. n = 10 292 X= ⇒ 29. e o n o números de indivíduos ou elementos. 6.0055 1+ 25. 26. A forma de apresentação da distribuição de freqüência seria: . Essas medidas dão-nos o valor típico do conjunto de dados. ∑ x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33.000 Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos será igual a 138 para populações infinitas e 137 para populações finitas. por isso. são traduzidos por um conjunto de dados numéricos. A importância das medidas de tendência central é dupla: Representam ou resumem todos os valores obtidos pelo grupo e.William Costa Rodrigues 14 A precisão considerada para esta pesquisa foi de 0. Substituindo na fórmula teremos: 34. e.1. 6 Técnicas Estatísticas Para Análise de dados 6. de dados agrupados em intervalos).1 Medidas de Tendência Central Os fenômenos quando estudados estatisticamente.96. Usam-se.84 × 9 n0 = ∴n 0 = ∴n 0 = ∴ n 0 = 138.5mg e o valor z= 1.

fn A expressão da média ponderada será: ∑ xf = x 1f1 + x 2 f 2 + .3 Média Aritmética de Dados Agrupados em Intervalos Há vezes em que os dados não são verificados com seu verdadeiro valor individual. .5 7. + f n Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada localidade. + 9 × 4 250 = = 5 anos 10 + 8 + . + 4 50 6. Xn Freqüência f1 f2 .5 – Freqüência (f) 4 2 3 1 10 X.. + x n f n X= n f 1 + f 2 + . procede-se da seguinte forma: Idade (anos) Freqüência (f) 0 |– 5 4 5 |– 10 2 10 |– 15 3 15 |– 20 1 Idade (anos) 0 |– 5 5 |– 10 10 |– 15 15 |– 20 Σ Valor central (X) 2. Utilizaremos como representante o ponto médio de cada intervalo. mas são representados por uma classe que pode ter um determinado intervalo. a distribuição de freqüência abaixo.0 Aplicando a fórmula para calcular a média ponderada teremos: .5 17. Considerando que o intervalo não tem um valor definido e sim um conjunto de valores.5 17...f 10.5 80.0 15.. .. .0 37. Por exemplo. .. Neste caso. operamos da mesma maneira do caso anterior.1. Idade (anos) Freqüência 2 10 3 8 4 6 5 5 6 5 7 5 8 7 9 4 X= 2 × 10 + 3 × 8 + .5 12.Apostila de Estatística Aplicada 15 Variável X1 X2 ...

o 2 2 que corresponde à média dos valores centrais. que corresponde à mediana. é possível o uso da média aritmética. o Não expressar variações dentro da distribuição de dados. Para o cálculo da mediana devemos previamente realizar alguns ajustes aos dados como segue: Ordenam-se todos os valores. Tendo verificado o seguinte quadro: Escola Nº de alunos A 150 B 180 C 230 D 2. 170. A distribuição tem. A mediana não é influenciada pela magnitude de cada uma dessas séries. Assim os valores centrais para este conjunto de dados são 180 (4º) e 200 (5º).500. que tem como: Vantagens: o Ser fácil de calcular e entender. n +1 Localiza-se o valor central mediante a fórmula: . 180. Exemplo: a) Em determinada localidade foram selecionadas oito escolas. n n Como o número de observações é par utilizam-se as duas fórmulas e + 1 . Determina-se o total de valores (n). A mediana é especialmente útil quando se trata de séries assimétricas. de forma crescente.1. portanto o valor médio destes dois valores é igual a 190. portanto. Me= 190 alunos. 160. 200. X= ∑ xf ∴ 80 = 8 anos 6. como objetivo encontrar um valor que permita conter 50% dos dados acima deste valor e 50% abaixo. isto é.4 Mediana (Me) É um valor situado no centro da distribuição de freqüências. quando o número de ob2 n n servações (n) for ímpar e e + 1 . 250 e 2. o Unir em um valor todas as observações do conjunto. . com a finalidade de estimar a mediana referente ao número de alunos.William Costa Rodrigues 16 n 10 Desta forma a média da população avaliada é oito anos. Quando os dados apresentam homogeneidade. quando o número de observações é par. quando alguns valores são elevados ou baixos em relação aos demais. 2 2 para obter os dois valores centrais.500 E 200 F 160 G 250 H 170 Inicialmente ordenam-se os dados: 150. Desvantagens: o Não servir para séries variáveis assimétricas.

M. = 9 + 6 + 2 + 0 + 3 + 14 6 6. 48.11 + 25 . o chamado desvio padrão estimado ou s e o desvio padrão absoluto ou σ. foram verificadas amostras poluídas com metais pesados. 46. = 2 .11 + 5 . e n: número de observações.M.11 + 9 . 11. Me= 48 amostras poluídas 6.11 + 14 . 14 e 25 2 + 5 + 9 + 11 + 14 + 25 66 X= ∴X = = 11 6 6 D. onde não se conhece com precisão o valor absoluto de n. 9. 9. 5. Desta forma. bem conhecido.6 D. 5. em populações finitas. o erro amostral. O desvio padrão é o afastamento atribuído ao acaso. já o σ (desvio padrão absoluto ou verdadeiro) é calculado para populações com valor n.M.2 Medidas de Variação 6. para encontra o valor central. Este erro refere-se à diferença do valor s calculado e a média aritmética. ou seja. que corresponde ao valor da mediana.1 Desvio-Médio (DM) Considerado que num conjunto de dados cada valor apresenta um afastamento em relação à média. ou seja. Como o número de obsern +1 vações é ímpar utilizaremos a fórmula .Apostila de Estatística Aplicada 17 b) Em coletas de amostra de solo em cinco cidades.11 + 11 . Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2. conforme o quadro a seguir: Municípios Amostras Poluídas A 48 B 42 C 52 D 95 E 46 Após ordenar os dados teremos: 42. ou seja. levando-se em conta os valores absolutos desses desvios. 14 e 25 Σx= 2+ 5 + 9 + 11 + 14 + 25 = 66 . 52 e 95. O desvio-médio será a média aritmética destes afastamentos. 11.2 Desvio Padrão Existem dois tipos de desvio padrão. Σ: somatório.2. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula: s= ∑x 2 (∑ x ) − n 2 n −1 Onde: x: valores do conjunto de dados. = 5. Para um conjunto de observações: 2. 2 o valor central é 48.M. O Desvio padrão estimado (s) é utilizado em populações infinitas. que o conjunto de dados contém.11 6 ∴ D. = 34 6 ∴ D.2.

052 − 726 ∴ s = 326 ∴s = 65.052 − 6 ∴s = 6 ∴s = 1. no caso de populações finitas o denominador será n e o desvio passa ser o σ (desvio padrão absoluto ou verdadeiro). eliminando um elemento do conjunto de observações.   2 s= 852  58  −   ∴ s = 60.20 s= 5 6 −1 5 6 −1 ∴s = 8.6101 14  14  2 6.6935 ∴ s = 6.William Costa Rodrigues 18 Σx²= 2² + 5² + 9² + 11² + 14² + 25² ∴Σx²= 4 + 25 + 81 + 121 + 196 + 625 = 1.1636 ∴ s = 43.8571 − 17. utiliza-se a seguinte fórmula: s= ∑ fx n 2  ∑ fx   −  n  . devemos ajustar o erro desta estimativa.052 n=6 66 2 4. por conseguinte.8571 − 4.07 É importante ressaltar que no cálculo do desvio padrão utilizou-se o denominador (n-1).1429 2 ∴s = 60.356 1. uma série de valores que se repetem e. Desta forma lança-se mão de um novo quadro de dados para facilitar os cálculos x f fx fx² 2 2 4 8 3 2 6 36 4 4 16 256 5 4 20 400 6 2 12 144 14 58 852 Total Para calcular o desvio padrão desta distribuição. originando a variância populacional (σ²). ou seja. ou o valor do desvio padrão populacional. ou seja. pois como o valor s é uma estimativa. originando a variância estimada (s²).052 − 1. o grau de liberdade. são representados pela sua freqüência. Vale ressaltar que. x f fx 2 2 4 3 2 6 4 4 16 5 4 20 6 2 12 14 58 Total Temos um total de 14 valores agrupados em cinco categorias. σ . isto é. Observamos agora uma série de dados agrupados.3 Variância ou Quadrado Médio É o valor do desvio padrão estimado ao quadrado.

encontraríamos diversos valores. maior será o valor do coeficiente de variação. ou seja. obteve-se um valor s igual a 1.V. quanto menor este valor menor será a diferença entre os valores dos elementos do conjunto de dados.25. análise da variância entre outras análises. e grande quantidade em torno dos valores centrais. a média aritmética teria outros afastamentos (erros) em relação média populacional ou real. baseadas na estimativa de dados.< 30% Regular É importante ressaltar que valores acima de 30% não significam um C.125 10 100 É importante ressaltar que quanto menos o valor do erro-padrão da média. cujo cálculo é expresso pela fórmula: s s (x ) = n Onde: s: desvio padrão da amostra e.V.Apostila de Estatística Aplicada 19 A variância é a medida estimada ou calculada que determina a variação dos valores entre si. Se coletássemos os dados quanto ao peso de mil indivíduos. pois alguns experimentos em campo podem ter o valor C. x : média aritmética da amostra. Quanto maior for a dispersão no conjunto de observações. Classificação C. dos quais haveria pequena quantidade de baixos e altos.V. Este parâmetro é estimado pela fórmula: s C.s(x) Quando uma investigação científica é realizada através de amostra. insatisfatório.4 Erro-Padrão da Média . Desta forma. da seguinte forma: C.V. em especial os biológicos. < 10% Ótimo 11% < C. de até 65% e serem considerados bons.V. 6.6 Curva de Distribuição Normal A maioria dos fenômenos da natureza. podemos classificar o C. Exemplo: em uma amostra com 100 observações.V. apresentam variações dentro de um intervalo definido. mais preciso será os resultados em relação à estimativa da média. 6. Para se determinar a média destes afastamentos utilizaremos o erro padrão da média.V. n: número de observações do conjunto de dados. . Ele expressa o desvio padrão que obteríamos se a média representasse o índice 100.25 s (x ) = ∴ s (x ) = ∴ s(x ) = 0. o erro-padrão da média será: 1. = × 100 x Onde: s: desvio padrão da amostra.V.5 Coeficiente de Variação O coeficiente de variação (CV) é uma medida abstrata que independe das unidades em que foram medidas os dados. 6.25 1. Pode ser também interpretado com uma medida de precisão alcançada das estimativas dos dados em relação aos valores reais. <20% Bom 21% < C.

2% dos valores de X. de um e outro lado da média (µ). Curvas de distribuição normal das freqüências de X. a distância entre ele e cada um dos pontos em que muda a direção da curvatura. Curva de distribuição normal simétrica. que é simétrica). A forma desta curva depende do desvio padrão. desvios padrões (s) diferentes. A curva de distribuição normal ou simplesmente curva normal é caracterizada por dois parâmetros: a média e o desvio padrão (ou a variância). contém 68. O ponto máximo da função ocorre no valor médio (situado ao centro da curva. Figura 4. à esquerda e a direita da média (µ) corresponde ao valor do desvio padrão(s) (Figura 4).William Costa Rodrigues 20 Numa representação gráfica dos dados obtidos encontraríamos uma distribuição normal conforme a figura abaixo. onde µ é a média e s o desvio padrão. A área da figura sob a curva compreendida entre valores iguais a s. sendo tanto mais alta e estreita quanto menor for o valor de s (Figura 5). que serão tanto mais próximos de µ quanto menor for o desvio padrão (Figura 6). . tendo a mesma média (µ) e diferentes graus de dispersão dos valores de X. Figura 5. isto é.

concluiremos que ele não pertence à população cuja média é µ. com uma alta probabilidade. como limite para decidir se um resultado afastado da média (ou a diferença entre duas médias) é significativo ou não. o valor exato desse parâmetro. com grande probabilidade. Curva normal padrão. por exemplo). A amplitude entre esses valores limites denomina-se domínio de confiança ou intervalo de confiança. . As áreas sob a curva assinaladas entre os traços verticais.5% das observações ou eventos medidos.05 (ou 5%). consideram-se como sendo seus limites de confiança. em relação ao valor hipotético da média verdadeira (µ). apenas 4. que corresponde a um desvio ou erro padrão de aproximadamente 2s (ou. se o valor médio (m) de uma observação comportar um desvio ou erro padrão maior que 1.5% dos valores de X.Apostila de Estatística Aplicada 21 Figura 6. Na Figura 7. possam ocorrer em função das variações. o valor do parâmetro em causa. A área compreendida entre -2s e +2s abrange cerca de 95. As propriedades da curva normal permitem seu uso para o cálculo de probabilidade com que determinados valores obtidos durante as observações. A probabilidade P= 0. entretanto. por convenção. é geralmente aceita.6. Para a estimativa de um parâmetro. ou as medições. Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de que os valores encontrados pertençam a uma mesma população.96s. pode ser inexata e não saberemos o quanto ela é incorreta. portanto duas áreas extremas. 1. restando.1 Limites de Confiança Quando se desconhece o valor de determinado parâmetro de uma população (sua média.96s). tendo por parâmetros µ=0 e s= 1. indicam as percentagens de valores de X aí contidas. os limites de confiança são representados pelos valores de -C e +C que circunscrevem. podemos estimá-lo a partir de uma amostra extraída dessa população. A estimativa. 6. Assim. aqueles valores entre os quais fica incluído. mais precisamente.

medidos em unidades de desvio-padrão.9 Teste de Shapiro-Wilks (S-W) Este teste é uma boa opção para se testas a normalidade de uma distribuição.7 Teste de Normalidade dos Dados Os testes empregados para verificar a distribuição normal dos dados. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área. ou teste K-S. 6. Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é normalmente distribuída e. que é um teste tradicional de normalidade e o teste de Shapiro-Wilks. é conveniente trabalhar com a média das médias amostrais. portanto poder ser empregados testes paramétricos sem preocupação quantos às suas restrições. 6. ou teste S-W. se um teste paramétrico ou não paramétrico. como nem sempre se dispões de um número elevado de casos para estudo. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relação à média µ.William Costa Rodrigues 22 Figura 7. às vezes nem é possível decidir se determinada variável possui ou não distribuição normal (na prática a amostra deve ter o valor n > 100). sob a curva. têm por objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado.2 Erro Padrão Em alguns casos. Testes estatísticos com grandes amostras mostram que nem sempre as suposições de normalidade de confirmam.000 observações.8 Teste de Klomogorov-Smirnov (K-S) Este teste compara a distribuição real dos dados (amostra) com uma distribuição normal gerada por uma média e um desvio padrão supostamente conhecidos (populacionais). Nos últimos anos o teste SW tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de problemas sobre a variação de normalidade. 6. vem sendo empregado cada vez com maior freqüência. o teste pode ser usado em amostra de até 2. Por outro lado. Os testes comumente utilizados são Klomogorov–Smirnov. situada à esquerda de C. Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre médias é também chamado de erro padrão. .6. É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis. 6.

os de maior potência. O valor t . E por analogia.student calculado é dado pela fórmula: X t= s2 n Onde: X : média. uma alternativa é a transformação de dados dos seus valores (vide item Transformação de Dados. são em geral menos potentes. onde essa diferença existirá. Para maiores detalhes e saber com escolher um teste.são menos exigentes quanto à natureza da distribuição dos dados experimentais. Os elementos necessários para a utilização de um teste são: Formular as duas hipóteses: a de nulidade (H0). calcular a média (µ). A transformação mais utilizada é a conversão dos dados em logaritmos decimais. as regiões críticas de aceitação de H0. utilizam-se testes de duas categorias: Os testes paramétricos . Neste caso. 43. a variância (s²) e o desvio padrão (s) e. O efeito do tratamento aplicado seria verificado pela comparação dos dois grupos. 7. Escolher o teste estatístico adequado. conseqüentemente. p. Nesses casos. Definir se. se não seguirem a distribuição normal). o teste t seria indicado para tal comparação salientando que a variável em análise teria que apresentar os dados em distribuição normal ou aproximadamente normal. s²= variância e N: número de observações As formas de utilização deste teste apresentam situações diferentes como mostras os subitens abaixo: . Se os dados experimentais não estiverem de acordo com os pressupostos para a aplicação de provas paramétricas (por exemplo. estaremos indiretamente comparando as duas populações. Estabelecer o nível de significância α e. em geral. além de exigirem que as medidas sejam feitas em escalas numéricas intervalares. enquanto outro grupo nada receberia (grupo controle).aplicam-se a amostras extraídas de populações com distribuição normal e variâncias iguais ou muito próximas. poderíamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado). ao constatar as médias destas amostras para verificar se há a diferença entre elas. 37). Tomar as amostras de tamanho n e registrar os valores. de tal forma que os pressupostos possam ser satisfeitos. p. se trata de um teste mono ou bicaudal. Estes testes são. Os testes não-paramétricos . que supõe não haver diferença significativa entre os valores encontrados e os esperados.1 Teste t . e a hipótese alternativa (H1). consulte o Fluxograma Para Auxiliar na Escolha de Testes Estatísticos.Apostila de Estatística Aplicada 23 7 Testes Paramétricos e Não Paramétricos De acordo com a distribuição dos dados.Student Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras que provêm de populações diferentes. podendo ser aplicados mesmo quando ocorram pequenos desvios de normalidade ou da variância entre as amostras. suscetíveis de tratamento matemático.

obtivemos os seguintes dados: Tabela 2.84 0.1. n= 10 173 − 1369 10 = 173 − 136.01 10 O próximo passo e recorrer à tabela do teste t . Item 1 2 3 4 5 6 7 8 9 10 Total Peso (Kg) Antes Depois 24 28 23 25 24 25 23 29 30 32 31 34 31 38 14 19 20 22 18 23 !Configuração não !Configuração não válida de caractere válida de caractere Diferença 4 2 1 6 2 3 7 5 2 5 !Configuração não válida de caractere Procedimento: a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima). Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios). tratado e não-tratado.01 9 9 9 =t= 3.401 = 3. 44) e compara-se o valor do t calculado com o valor crítico da tabela em função de α com n-1 graus de liberdade.1 = 4. d) Aplica-se o teste t . Em um estudo foi separada uma população de 10 crianças para os testes com administração da dieta de folha de mandioca. p. c) Verifica-se a variância das diferenças e. 37 b) X d = = 3.student (Tabela 11. b) Verifica-se a média aritmética das diferenças.7 0. Σd=37.7 = 5.9 = 39.1 Dados Pareados (Amostras Dependentes) Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivíduos ou animais ou plantas.7 10 c) Σd²=173. .William Costa Rodrigues 24 7. Há a uma preocupação em que haja um pareamento entre indivíduos para que eles difiram somente no aspecto.6332 s2 = d) t = 3.student.7 4.

possuem o mesmo valor n.2 Dados Pareados (Amostras Independentes) Neste caso os dados são tratados de forma diferente.33. portanto. encontramos os valores 2. O valor t . O valor encontrado (calculado) de t= 5.01.5317 52 6 2 + + 26 26 26 26 Para calcular o Grau de Liberdade. Desta forma.1. mesmo o as duas amostras possuindo valores n iguais.Apostila de Estatística Aplicada 25 No exemplo acima. s1= e s2= desvios-padrão das amostras.94 25 36 0. Concluímos pela rejeição de H0 (hipótese nula) em nível de 1% de probabilidade (α=0.3846 2. O teste t utilizado nesta situação pressupõe variâncias diferentes. Os valores a 5% e 1% de probabilidade são 2.5 cm s1= 5 cm s2= 6 kg n1= 26 n2= 26 Calculado o valor de t teremos: 38 .5 4. Desta forma. e n1 e n2: número de observações das amostras.26 (5% ou α=0. quando se conhece a variância populacional (σ²). procedemos da seguinte forma: GL= n1 + n2 –2 ou (n1–1) + (n2–1).9379 ≅ 2. ou seja. Leguminosa A Leguminosa B X1 = 38 cm X 2 = 33.01). Exemplo: Tabela 3. respectivamente (Tabela 11. 44).94) com os valores tabelados verifica-se que há diferença estatística a 5% e a 1% de probabilidade.student calculado é dado pela fórmula: X1 − X 2 t= 2 2 s1 s 2 − n1 n 2 Onde: X1 e X 2 : médias das amostras. n= 10. possuam taxa de crescimento média mais elevada que a leguminosa B.68 e 2. Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o aumento do peso corpóreo das crianças. Para o nosso exemplo acima temos o GL = 26 + 26 – 2 = 50 ou (26–1) + (26– 1)=50.5 4. . p.25 (1% ou α=0.84 é maior do que os valores da tabela. Esta equação deve ser utilizada. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril.5 4. 7.01).5 t= = = = = = 2. Comparando o valor calculado (2. concluímos que há 99% de probabilidade de que a leguminosa A.3461 1.05) e 3.5 4. devemos verificar os valores críticos com nove graus de liberdade. numa área de re-vegetação (dados fictícios).9615 + 1. mas não pertencem ao mesmo tratamento ou não há comparação entre antes e depois.

3 Dados Não-Pareados .26 2.William Costa Rodrigues 26 7.8 ≅ 25 2 0. em que g é calculado através da fórmula: 2  s1 s 2   + 2  n1 n 2    2 g=  s2   1  n1    2 n1 − 1 +  s2   2  n2    2 n2 −1 Para nosso exemplo seria: 2  74 18   +  4. o teste T será aplicado baseando-se na diferença entre as médias das duas amostras. podendo as mesmas apresentarem tamanhos diferentes (n1 e n2).73 2  74   18       20  +  32  20 − 1 32 − 1 . devemos calcular o grau de liberdade para o conjunto de dados.26 2 20 32  g=  2 = = 24. Supõe-se.4 5 s2 Seguindo o critério estabelecido.Variâncias Desiguais (Heterocedásticas) Caso os dados não pertençam às amostras não pareadas. que as amostras são independentes e que apresentam variâncias desiguais. Exemplo: temos duas amostras de água em que os dados quanto ao nível de contaminação de mercúrio apresentam os seguintes valores: Amostra A Amostra B X 1=160 ppm X 2=148 ppm s²1 =74 ppm s²2 =18 ppm n1 = 20 n2 = 32 O valor do teste t será obtido através da expressão: X − X2 t= 1 2 s1 s 2 + 2 n1 n 2 Calculado o valor de t teremos: 160 − 148 12 12 t= = = = 5.1. Há uma regra prática que identifica tal desigualdade a ponto de justificar tal procedimento.82 74 18 4. isto justifica a conduta sugerida. Por exemplo: s²1= 27 e s²2= 5 2 s1 27 Portanto = 2 = = 5.06 + 20 32 Para verificar a significância deste valor. Se a relação entre as variâncias apresentarem valor maior do que quatro. neste caso. as amostras serão comparadas de acordo com este resultado.

5 1.1. p.Variâncias Iguais (Homocedásticas) A aplicação do teste t de Student para este caso é realizada quando comparamos as médias aritméticas de duas amostras independentes. um pesquisador separou ao acaso.42 X B= 1.11 = 9 × 0.5 1.2 1.8 1.06 (5%) e 2. Exemplo: Amostra (mg.7 1.2 1. Exemplo: para verificar se duas amostras de água mineral de duas marcas possuem a mesma quantidade sulfatos.4 Dados Não-Pareados .4 X A= 1.82 é significativo no nível de 1% (1% ou α=0.01). nas quais as variâncias apresentam valores aproximadamente iguais.04 + (7 − 1)× 0.Apostila de Estatística Aplicada 27 Consulta-se então a tabela do teste t-student (Tabela 11.8 1.04 sB²= 0.9 1.11 = 0. para verificar os valores críticos nos níveos de 5% e 1% de probabilidade para 25 graus de liberdade.1 1. XA − XB t=  1 1   s2  + n nB   A  Assim temos: .0673 s2 = 10 + 7 − 2 15 15 15 Em seguida aplica-se a fórmula para o teste t. Desta forma.L) Marca A Marca B 1.36 + 0.5 1.5 sA²= 0. respectivamente. respectivamente. considerando também o número de graus de liberdade de cada uma das amostras. Na tabela iremos obter o valor de 2. A marca A e marca B.04 + 6 × 0.0 1. foram avaliados os conteúdos de 10 e 7 garrafas. devido à diferença significativa entre as médias das duas amostras.3 1.01 = 0. Ainda neste caso. um lote de caixa de cada marca e ao acaso avaliou o conteúdo de uma garrafa de cada caixa. aceitando-se a hipótese alternativa.4 1. 44).6 1. concluise que o valor obtido pata t = 5.79 (1%). possuíam 10 e 7 caixas no lote selecionado.66 = 1. Ou seja.4 1.4 1.11 nA= 10 nB = 7 A variância ponderada é dada pela fórmula: (n A − 1) × s 2 + (n B − 1) × s 2 2 A B s = nA + nB − 2 Para nosso exemplo teríamos: (10 − 1)× 0. 7. o procedimento metodológico consiste em se utilizar uma variância ponderada.

o que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira diante da condição a elas imposta.26) Σ 77 .William Costa Rodrigues 28 t= 1. é necessário que tenhamos as freqüências teóricas. os dados colhidos representam ocorrência de certos fenômenos que se podem classificar numa tabela.0673 +   10 7  = − 0. A comparação entre os valores calculados de χ². foram escolhidas ao acaso pessoas com três diferentes faixas etárias. Para tal.95. 7. conclui-se que as duas marcas de água mineral não apresentam diferentes proporções de sulfatos em sua composição. 7.8 = ≅ − 1.fe )2 2 χ = fe Onde: fo= freqüência observada e. Para poder calcular o χ².3 Tabela de Contingência Em muitos trabalhos experimentais.98 0. Os dados coletados ao final do experimento foram: Faixa Etária Pessoas* (anos) Com diabete Sem diabete A: 10-15 2 (11. chamada tabela de contingência.13 e 2.42 . sendo que a marca B possui maiores concentrações em relação à marca A. Em tal situação a H0 (hipótese nula) será testar a independência entre as variáveis. fe= freqüência esperada.2 Teste Qui-Quadrado (χ²) O teste não-paramêtrico de qui-quadrado foi desenvolvido por Pearson. Estas tabelas têm como objetivo estudar a possível associação entre duas variáveis que classificam os dados. No primeiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50% (freqüência esperada) e o valor real após os lançamentos será a freqüência observada. O grau de liberdade para o teste de χ² é o número de observações/ classes menos 1. p.5  1 1 0. 45). foram coletadas amostras de sangue. para verificar a significância pode ser obtido na tabela de χ² (Tabela 12. No segundo caso a freqüência esperada deverá ser corrigida (calculada) através da Tabela de Contingência. 2. Portanto o valor do desvio é elevado ao quadrado e dividido pela freqüência esperada.4043 Os valores de t tabelado para 15 graus de liberdade a 5 e 1% são respectivamente.1.8 − 0. lançamentos de moedas ou proporção de doentes após uma epidemia. Desta forma. Exemplo: Num Shopping Center. para verificar a incidência de diabete.74) 75 (65.1634 0. A fórmula utilizada para calcular o χ² é: ∑ (fo . Em muitos casos utiliza-se este teste em experimentos probabilísticos. sendo muito utilizado em pesquisas biológicas. A H0 é que não diferença entre as faixas etárias em relação a ter diabete. por exemplo.

.36 + 81. O Grau de liberdades para tabelas de contingências será calculado pela seguinte fórmula: GL = (n s − 1) × (n g − 1) .5184 + 0. No nosso exemplo teremos: GL = (2 − 1) × (3 − 1) ∴ GL = 1 × 2 ∴ GL = 2 Para calcular as freqüências realiza-se uma regra de três simples como segue: 34 –––––––––––––––– 223 fe –––––––––––––––– 77 Ou seja. segundo o teste de χ² a 5 e 1% de probabilidade. 2.28)2 + (62 − 62.98) 52 (61.72)2 + (20 − 10.72) 20 (10. ao menor valor se atribuirá o valor 1.02 χ 2 = 8.33∴ χ 2 = 18.01 + 7.98)2 + χ2 = 11.36 ∴ 61.87 + 94. 7.. portanto. o valor χ² para 2 graus de liberdade a 5 e 1% de probabilidade seriam 5. Os valores obtidos nas diversas amostras diferem entre si e.72 10. Assim teremos: (2 − 11.Apostila de Estatística Aplicada 29 Faixa Etária (anos) B: 16-21 C: 22-40 Σ Pessoas* Com diabete Sem diabete 12 (11.28) 62 (62. será uma maneira se verificar se estas diferenças são devidas ao acaso ou se as amostras provêm de populações diferentes.26 11. 3.. fe A = 34 × 77 a fe da terceira coluna (sem diabete) é calculada pela diferença 223 entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (Σ). Ele é utilizado para que se verifique o contraste entre k amostras independentes. Os demais valores da linha subseqüentes são obtidos com a realização da regra de três para cada valor da 2ª coluna. conclui-se que há diferença entre as faixas etárias. pois temos duas situações as serem testadas (com ou sem diabete) em três grupos (faixas etárias). Assim.5184 + 81. ou seja.34 De acordo com a Tabela 12 (p.02)2 ∴ χ 2 = 94.74 65.71 10. respectivamente.98 61. Da mesma forma que nos outros testes. a ocorrência de diabete depende da faixa etária.4 Teste de Kruskal-Wallis Este teste foi criado como substitutivo à análise de variância paramétrica (Teste F).n.02 11.28 62.05 + 0.87 + 0. 4. No teste de Kruskal-Wallis todas as observações recebem uma pontuação através dos números 1.02) 34 189 Σ 74 72 !Configuração não válida de caractere * Valores entre parênteses e em negrito representam as freqüências calculadas Neste caso temos uma tabela de contingência de 2 x 3. Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anteriormente. .74)2 + (75 − 65.26 )2 + (12 − 11.21. que receberá a maior pontuação.99 e 9.41 + 1. e assim sucessivamente até atingir o maior valor.45 + 0. Desta forma. serão consideradas sempre duas hipóteses (H0 e H1).28 62.74 65.98 (52 − 61.26 11.09 + 1. 45).

95 Como já foi dito este teste segue a distribuição do teste χ².830. Desta forma.0217 × 3.5 21 13 6 4 2 1 45 21 15 10 11 7 50 23 22 14 47 22 RA=57. Os resultados do experimento seguem abaixo: Métodos A B C DD posto DD posto DD posto 17 11 20 12 32 17 14 9 5 3 35 20 4 2 9 6 26 15 8 5 13 8 34 18. p. Para calcular H teremos:  57 2 69. ni = número de observações em cada tratamento k e. Portanto.249 4. considera-se que o teste tem uma distribuição aproximada de χ².William Costa Rodrigues 30 Para o cálculo do valor H do teste de Kruskal-Wallis utiliza-se a fórmula: 2 12 k R H= × ∑i =1 i − 3 (N + 1) N (N + 1) ni Onde: Ri = a soma das ordens atribuídas ao tratamento i.50 x C= 36. pois GL= k-1. considerase que nos casos de empate entre duas ou mais observações.25 22.78 + 2. supomos que foram testados ou experimentados três métodos para dessalinização de água.5 2 12 H= × + + 23 (23 + 1)  7 8 8    − 3 (23 + 1)∴   12  3.793.25  H= × + +  − 3 × 24 ∴ 23 × 24  7 8 8  12 H= × (464. 45). respectivamente.5 29 16 34 18.861.29 x B= 14. Assim sendo. N = número total de observações em todos os tratamentos k.99 e 9.0 RC= 69. calcula-se a média das ordens que seria atribuída a elas se não houvesse o empate.5 2 149. com k-1 graus de liberdade. que não vem ao caso no exemplo a ser testado. correspondem a 5 e 1%. Na ordenação global que se faz para atribuição dos postos aos dados.5 RC= 149. foram coletadas diversas amostras de água com diversas concentrações de sal.14 + 603.350. testou-se o tempo de dessalinização dos três métodos.861. Para verificação de significância quanto às diferenças observadas entre tratamentos k. k =corresponde ao número de tratamentos a comparar.21.70 − 72 552 H = 11. são 5.5 nA= 7 nC = 8 nC = 8 x A= 13. Desta forma. os graus de liberdade correspondem a 2. os valores da tabela χ². .25 DD= dias para dessalinização. sendo k = 3 (métodos). Para exemplificarmos o teste de Kruskal-Wallis.70 ) − 72 ∴ H = 0. a tabela para comparar os valores é a tabela de χ² (Tabela 12.78) − 3 × 24 ∴ 552 12 H= × (3. ou seja.

utiliza-se tabela de χ². assim aceita a H1. quer saber se o poluente está distribuído de forma igual entre as profundidades avaliadas. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo. em quatro diferentes profundidades. formula-se a H0 e a H1. sendo utilizado quando as amostras. as concentrações do poluente são iguais em todas as profundidades (Hipótese Nula ou H0). este teste é um substitutivo ao teste F para análise de variância paramétrica. delimitados pelas características edáficas do solo (blocos). 7. teremos: . Os dados apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis. O valor do teste de Friedman (Xr2) é calculado através da seguinte equação: 12 k χ2 = × ∑i =1 R i2 − 3n (k + 1) r nk (k + 1) Onde: n = número de blocos. pois leva menos tempo em comparação aos demais. Os resultados da análise foram as seguintes: ( ) Tabela 4. De forma análoga aos demais testes. Para testar a H0. ou seja. k = o número de tratamentos. Para os casos de empate entre observações de mesmo bloco. Este solo foi exposto há poluentes de uma determinada fábrica. em mg. Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamentos) em cinco áreas diferentes. Assim sendo. calcula-se a média aritmética das ordens. Ri = a soma das ordens atribuídas aos dados do tratamento i. nos blocos n.mm³ de solo Blocos Área A Área B Área C Área D Área E Total 0-10 12 (2) 8 (2) 14 (2) 17 (3) 12 (2) R1= 11 Profundidade (cm) 11-20 21-30 13 (3) 16 (4) 9 (3) 12 (4) 20 (3) 22 (4) 16 (2) 21 (4) 15 (3) 16 (4) R2= 14 R3= 20 31-50 7 (1) 5 (1) 6 (1) 11 (1) 10 (1) R4 = 5 *Os valores entre parênteses e em negrito correspondem à ordenação dos tratamentos dentro dos blocos (linhas). co grau de liberdade k-1. cujas observações podem verificar valores com acentuada variação e em cada tratamento são constituídos blocos com a intenção de que isto resulte em um pareamento considerável entres os diversos tratamentos. Substituindo os valores na fórmula para o cálculo do valor χ²r. Pelos valores R encontrados nos resultados verifica-se que o método A e mais eficiente no processo de dessalinização.5 Teste de Friedman (Análise da Variância) Da mesma forma que o teste de Kruskal-Wallis. A ordenação dos valores se dá dentro dos blocos. Sendo o valor Ri a somas dos valores de ordenação nos tratamentos (colunas). rejeitamos H0 (não há diferenças entre os métodos testados no tempo de dessalinização das amostras).95 é maior que os valores tabelados.Apostila de Estatística Aplicada 31 Considerando que o valor calculado H=11.

Quando positiva há a variação positiva da variável dependente (Y).1.32. A correlação pode ser denominada positiva ou negativa. n = número de amostras de X e Y.1. quando há variação positiva de X e vice-versa. sX e sY= desvios padrões de X e Y 8. Trata-se de um valor abstrato que dá uma idéia sobre a dependência entre os dados apresentados. ΣXY = soma dos produtos entre os valores de X e Y. têm-se 3 graus de liberdade. ( ) 8 Correlação Linear A correlação linear é utilizada para verificar. 8. Pode ser utilizado para dados normais (Correlação de Pearson) e para dados não normais (Correlação de Spearman). Os valores para 5 e 1% de probabilidade são 7. 6 ∑ d i2 rs = 1 − 3 n −n Onde: rs= coeficiente de correlação de Spearman. ΣX x ΣY= produto da soma dos valores de X e Y.04 − 75 ∴ r 100 χ 2 = 14. nas áreas onde foram coletadas amostras. . a profundidade de 21-30 cm tem uma maior concentração do poluente que as demais profundidades avaliadas. p. Quando negativa há a variação negativa de Y. a dependência entre duas séries de variáveis.1 Correlação de Pearson Utilizado na análise de dados que possuem distribuição normal. 45). Sendo o valor de χ²r calculado maior que os valores da tabela de χ².2 Correlação de Spearman Este coeficiente de correlação baseia-se no rank dos valores X e Y e é largamente utilizado em analise de correlação e dados não paramétricos. quando há variação positiva da variável independente (X) vice-versa. n = número de pares de dados.William Costa Rodrigues 32 12 × 112 + 14 2 + 20 2 + 5 2 − 3 × 5 × 5∴ 5 × 4(4 + 1) 12 χ2 = × (121 + 196 + 400 + 25) − 75 r 5 × 4(4 + 1) 12 χ2 = × 742 − 75 = 89.04 r χ2 = r Como valor de graus de liberdade é igual a k-1 graus de liberdade e sendo k=4 (tratamentos). d1 = é a diferença entre cada valor X e cada valor Y correspondente.1 Coeficiente de Correlação (r) O coeficiente de correlação e designado pela letra r.82 e 11. A partir da tabela χ² (Tabela 12. rejeita-se a hipótese nula (H0) e aceita a hipótese alternativa (H1). num determinado conjunto. 8. Ou seja. ∑X×∑Y ∑ XY − n r= (n − 1) × s X × s Y Onde: r= coeficiente de correlação de Pearson. respectivamente.

p. apresentando a linha de tendência de regressão linear simples de dados fictícios. Y diminuem e quando o valor é positivo. Assim sendo.5 2 1.1. quando um valor é negativo. dizemos que a correlação é positiva e significativa. Para melhor entender melhor a explanação anterior. Quando um valor é significativo.Apostila de Estatística Aplicada 33 Exemplo: Tabela 5. quando aumenta os valores de X aumenta os valores de Y (Figura 8). através do teste de t para r.5 1 0. e inversa ou negativa (B).5 0 0 20 40 60 Figura 8. A utilização de um ou outro coeficiente dependerá da normalidade dos dados (veja o tópico Teste de Normalidade dos Dados.5 0 0 20 40 60 A B 3 2. 3 2. Σdi2=72 6 (72 ) 432 432 ∴1 − ∴1 − ∴1 − 0. quer dizer que com o aumento dos valores de X. ou seja. 1999). Correlação de Spearman entre as notas brutas de matemática e biologia (Zar. Correlação linear simples positiva (A).5636 3 10 − 10 1000 − 10 990 Para verificar se há significância na correlação rs = 1 − 8. deve-se ter em mente que a variável Y é quem sofre variação em função de X.22). existe uma proporcionalidade direta entre as variáveis.5 1 0. .4364 ∴ 0. caso o valor seja positivo. Estudante 1 2 3 4 5 6 7 8 9 10 Notas de Matemática 57 45 72 78 53 63 86 98 59 71 Rank de Xi 3 1 7 8 2 5 9 10 4 6 Notas de Biologia 83 37 41 84 56 85 77 87 70 59 Rank de Yi 7 1 2 8 3 9 6 10 5 4 di –4 0 5 0 –1 –4 3 0 –1 2 Total di 2 16 0 25 0 1 16 9 0 1 4 72 n= 10. é apresentado de forma negativa dizemos que a correlação é negativa e significativa.3 Aspectos Gerais da Correlação Linear Os valores de r variam entre -1 (associação negativa completa) e +1 (associação positiva completa).5 2 1.

3 Coeficiente de Alienação (K) Este coeficiente é função do coeficiente de correlação.49 r >0. Intervalo r < 0.0 – 0.15 0. que acordo com a necessidade de com uma maior precisão intervalar ( Tabela 6) pode ser utilizada um ou outra tabela.90 0.70 0. a outra considera o teste t. logo 30% da variação de Y são atribuídas a X. Por exemplo.20 0.29 0.30. Intervalo 0. Este coeficiente expressa a porcentagem de variação dos valores de Y em função do valor X.41 – 0. a mais simples baseia-se simplesmente nos intervalos de valores de r. concluímos que há mais ausência de relação do que intensidade de relação entre X e Y.71 – 0. r²= 0.1 Significância Baseada nos Intervalos A classificação é simples e basea-se nas Tabela 6 e Tabela 7.50 Significância r desprezível r baixo r apreciável r acentuado A significância das tabelas acima poderá ser utilizada tanto na correlação de Pearson. 8.30 < r < 0.30. o valor r² encontrado em determinada análise é igual a 0.8367 Desta forma. 8. Sendo r²= 0.William Costa Rodrigues 34 8.21 – 0.4 Significância do Teste de Correlação Existem basicamente duas formas de verificar a significância do var r.40 0.2 Coeficiente de Determinação (r²) Ao valor encontrado de r elevado ao quadrado (r²) denomina-se coeficiente de determinação.0 Significância Correlações nulas Correlações fracas Correlações substâncias Correlações fortes Correlações extremamente Fortes Tabela 7. quanto na de Spearmann. Classificação do valor r através de intervalos de acordo com e Teste de Rugg. Por exemplo. conhecido como teste t para r.4. 8.15 < r < 0.91– 1.30 ∴ K = 0. .70 ∴ K = 0. Classificação do valor r através de intervalos de 0 a 1. K = 1 − 0.30. Tabela 6. expresso pela fórmula: K = 1− r2 Este coeficiente exprime a ausência de relação entre X e Y.

4. Exemplo para o Microsoft Excel. Após criar o gráfico selecione um dos pontos e em seguida clique no botão direito de mouse e selecione a opção Adicionar linha de tendência. a 0.50 100.2 Significância Baseada no Teste t para r (Pearson) O teste de t para r é calculado através da seguinte equação: r tr = × n−2 1− r2 Para este teste compara-se o valor de tr calculado com o valor de t.00 5. Aphididae) em função da brotação foliar de tangerina cv Poncã.00 0. 9 Análise de Regressão É freqüente o estudo da relação entre duas séries de variáveis. selecionando a caixa de seleção: Exibir equação no gráfico Exibir valor de R-quadrado no gráfico . caos opte por linha do tipo polinomial a ordem para eventos biológicos deverá ser 2.00 0.00 100. Portanto há um interesse de expressar essa relação sob a forma matemática.00 12.00 B C D E F G H I J L M 4 Para criação do gráfico de dispersão basta selecionar os dados das linhas 2 e 3 Gráfico e selecionar o gráfico Dispersão (XY) (Tabela 1) e selecionar o menu Inserir em seguida clique em Avançar > para configurar o gráfico ou em Concluir para finalizar a criação. A exibição da equação e do valor de R² é feita através da seleção da Aba Opções. para verificar a com o próprio nome diz. com n-2 graus de liberdade. Tabela 8. a dispersão dos dados de Y em função de X. através da apresentação de uma função.50 0. basta organizar os dado de forma correta e selecionar a criação de um gráfico de dispersão. Por exemplo.00 2.00 2.00 7. torna-se bastante eficaz a construção de um diagrama que se obtém em sistemas de eixos cartesianos. A 1 2 3 T.50 50.00 100.50 40. A mostra como montar uma série de dados para criação de um gráfico de dispersão no Microsoft Excel.Apostila de Estatística Aplicada 35 8. ou seja.50 60.00 25. o peso de crianças de acordo coma dieta oferecida em diferentes dosagens. lembrando que um evento biológico somente poderá ser explicado até uma equação de segundo grau.00 30.00 20. 44). Desta forma. sob cultivo orgânico na Fazendinha Agroecológica. Hoje em dia os programas (softwares) de planilha de cálculo e de estatística. Sabe-se que determinadas dietas têm interferência no ganho ou na redução do peso de indivíduos da raça humana.00 10. Será exibida uma janela com mostra a Figura 9... Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera. fornecem a equação da reta ou de outro tipo de regressão que se queira plotar..00 40. Para identificação de uma possível correlação entre séries de variáveis. na Tabela 11 (p.00 2. no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues. 2004). O tipo de linha será de acordo com a equação que melhor de adeqüei a distribuição dos dados.00 60.

3095x . Regressão linear simples entre a flutuação populacional de T. 9.2 Regressão Linear Múltipla Este tipo de regressão possibilita a associação de uma variável dependentes (Z). no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues. Poncã.3472 R2 = 0. 2004). em cultivo orgânico de tangerina cv. aurantii 70 60 50 40 30 20 10 0 -10 0 20 40 60 80 100 120 y = 0. . Poncã.William Costa Rodrigues 36 Figura 9. neste caso uma das varáveis independentes (X) poderá parcialmente interferir na outra variável independente (Y).2. 9. Como pode ser visto na Figura 11.3984 Figura 10. aurantii e a brotação foliar de tangerina cv.1 Regressão Linear Simples Neste tipo de regressão é possível verificar a associação entre as séries de dados. plotar a linha e a equação da reta de duas variáveis. T. Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de regressão no Microsoft Excel. com duas variáveis independentes (X e Y). na Fazendinha Agroecológica. X independente e Y dependente.

2004). no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues. Correlação múltipla da amplitude térmica (variável x).3 Regressão Múltipla Neste tipo de regressão é possível verificar a associação entre as séries de dados.4695 30 rina cv. Figura 5 e Figura 6). brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z). em cultivo orgânico de tangerina cv. auran70 tii e a brotação foliar de 60 tangerina cv. 9. baseados nas propriedades das curva normal. 10 Transformação de Dados Para uma aplicação válida dos testes de significância. na Fazendinha Agroecológica. em 50 y = 0.Apostila de Estatística Aplicada 37 Figura 11. Figura 12. Poncã. na Fazen20 dinha Agroecológica.2141x + 7. aurantii múltipla entre a flutuação populacional de T. Regressão T.1984 40 cultivo orgânico de tangeR2 = 0. . plotar a linha de tendência polinomial e a equação de segundo graus das duas variáveis. Poncã. exigem quase sempre essa transformação.0046x2 . Vamos apresentar nesta apostila algumas das principais transformações de dados empregadas na normalização dos dados e as situações que cada uma se aplica. 2004). no 10 período de outubro de 0 2002 a outubro de 2003 0 20 40 60 80 100 120 (Adaptado de Rodrigues. X independente e Y dependente. é necessário que o dados tenham uma distribuição normal (Figura 4.0. as contagens e as notas dadas a certas características qualitativas. Poncã. As porcentagens.

mas o método pode também ser utilizado quando esse número não é rigorosamente igual é sugerido na literatura que valores de 0 e 100%. utilizando-se uma tabela apropriada. desde que. em seguida. 11 Testes Específicos Para Análise de Populações e Comunidades 11. são calculados os valores através da fórmula p' = arcsen % . ainda.¼n. todos os dados deveriam estar baseados em um número de observações iguais. por exemplo. 10. tendem a serem proporcionais. . Por exemplo.1 Índice de Diversidade e Dominância Populacional Existe uma série de índice de diversidade. que podem ser utilizados em diversas situações.4 Considerações Gerais Quando é utilizada uma transformação de dados. Quando se achar preferível não se apresentar os resultados na escala transformada. respectivamente.5 ou x ' = x + 1 ou x ' = x . elevar ao quadrado os valore submetido à transformação de raiz quadrada. 1997).William Costa Rodrigues 38 10. quando os dados consistem em ocorrências aleatórias de objetos ou eventos). porém qualquer outra base poderá ser utilizada. sendo.2 Transformação Logarítimica Este transformação é utilizada principalmente quando as médias e os desvios padrões (erros). antes de entrar na tabela. os dados finais devem ser transformados novamente para escala original. ou a riqueza de espécie. 10.3 Transformação Angular (Arcoseno) Essa transformação é utilizada quando os dados estão associados a uma distribuição binomial (presença-ausência). 10. Quando aparece o valor zero. ou seja. As equações normalmente utilizadas são: x ' = x + 0. o número total de indivíduos em todas as espécies (Brower et al. É utilizada. É freqüentemente utilizado em dados biológicos quando amostras são tiradas da distribuição de Poisson (isto é. Transformando os dados utilizando suas raízes quadradas resulta em uma amostra cuja distribuição é normal. sendo a primeira mais utilizada. como muitas vezes que um determinado caráter aparece num total definido. A base 10 para os logaritmos é utilizada normalmente. A medida mais simples de diversidade de espécie é o número de espécie (s). por conveniência. nesse caso. Nesse tipo de transformação. do número de plantas sobreviventes em relação ao número total de plantas que deveriam estar presentes se nenhuma tivesse morrido após a poluição de um determinado solo. quando há uma redução dos valores de média e variância diminui simultaneamente.1 Raiz Quadrada Essa transformação é utilizada quando a variância e proporcional a média. É o caso. todas as comparações entre médias são realizadas na escala transformada. ou porcentagens que abrangem uma grande amplitude de variação. utiliza-se a transformação x' = log (x+1). os coeficientes de variação aproximadamente iguais. Vários índices de diversidade foram propostos que incorporam ambos S e N. quando os dados são representados por números positivos. Os dados são transformados em percentagens e. seja especificada. O dados que se recomenda utilizar este tipo de transformação são dados de percentagens e contagens (números inteiros). sejam substituídos por ¼n e 100.

verifica se há ou não dominância de uma determinada espécie numa comunidade. mesmo que o número de indivíduos seja reduzido.1. porém quando há um aumento deste índice. pois além de considerar o número de espécies. indica que há competição interespecífica e que o local é menos diversificado. Normalizando os dados e diminuindo a probabilidade de erro dos cálculos.1. Este índice é dado pela fórmula abaixo: S −1 α= log N Onde: S: Número de espécies levantadas.1. S Dg = log N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11. numa tentativa de normalizar os dados.2 Exemplo O exemplo hipotético abaixo da diversidade de cochonilhas em agroecossistema cítrico ilustra os índices de diversidade das cochonilhas de um pomar de citros.3 Índice de Menhinick (Dm) Este índice é semelhante aos dois anteriores. tendendo a dominância de uma determinada espécie. ou seja.1. há um indicativo de que o local é bastante diversificado.1.4 Índice de Shanon-Wiener (H') É considerado o índice de diversidade mais completo. 11. porém considera todas as espécies da amostra. N d = Max N total Onde: NMax= é o número de indivíduos da espécie mais abundante e NTotal= é total de indivíduos amostrados. .2 Índice de Glason (Dg) É semelhante ao índice anterior. S Db = N Onde: S = Número de espécies levantadas e N = Número de indivíduos total 11.1 Índice de Margalef (α) Este índice foi proposto por Margalef (1951) e tem como objetivo estimar o número de espécies e o número de indivíduos de uma comunidade.Apostila de Estatística Aplicada 39 Quando o índice de diversidade diminui. 11. H ' = .∑ p i × log p i' Onde: p = proporção da espécie em relação ao número total de indivíduos 11. entretanto utiliza a raiz quadrada do número de indivíduos total de cada amostra.5 Índice de Dominância Berger-Parker (d) Este índice estima a dominância dentro de uma comunidade. N: Número de indivíduos total 11. considera a proporção de cada espécie em relação ao todo.

ou número de levantamentos com a espécie b e j = Número de espécies presente nos dois habitats ou comunidades ou número de levantamentos contendo...2 Porcentagem de Similaridade Expressa os resultados semelhantes ao do Quociente de Similaridade.611 0. para espécies b. porém leva em conta não somente a composição das espécies. para espécies c e % n = idem. podemos calcular a %S: % S = (15 + 14 + 27 + 17 )∴ % S = 73% .3.985 1997 10 435 1. Duas comunidades com sua composição de espécies em percentagem Comunidade A B Espécies a 15 33 b 35 14 c 27 36 d 23 17 A partir dos dados da Tabela 10.790 !Configura Média 10 1.556 0.574 4.481 3.575 11. Existem duas fórmulas para calcular o QS propostas por Jaccard (1912) e Sorensen (1948). como também o número de indivíduos.652 0. pois se calcula pelo somatório dos menores valores das percentagens observadas de cada espécies em relação ao total de indivíduos.218 1996 10 323 1. Sorensen QS = 11.479 0. + % n ) Onde: % a = menor porcentagem da espécie a observada no confronto das comunidades. simultaneamente. Período S N Dg α 1994 10 268 1.557 3. b = Número de espécies presente no habitat ou comunidade B. Índices de diversidade de cochonilhas em agroecossiema cítrico. nas duas comunidades (Southwood.045 ção não válida de caractere Dm 0.118 1995 10 235 1. no que se refere a composição específica (espécies). ou número de levantamentos com a espécie a. % c = idem. que são as seguintes: j Jaccard QS = (a + b − j ) 2j (a + b ) Onde: a = Número de espécies presente no habitat ou comunidade A.1 Quociente de Similaridade O objetivo deste quociente é verificar a similaridade entre duas comunidades ou habitat. para espécies n.3. as duas espécies. 1971).William Costa Rodrigues 40 Tabela 9.648 4. % b = idem. % S = ∑ (% a + % b + % c + . Tabela 10.609 4.3 Índice de Similaridade entre Populações 11.

5 Índice de Associação (IA) Verifica o índice de o nível de associação existente entre duas espécies. É dado pela fórmula: 2j I AB = n A + nB Onde: nA = Número de ocorrência da espécie A.3. .5% de probabilidade são dados na Tabela 15.3.5 A+ B Onde: A = Número total de indivíduos da espécie A coletados ou amostrados em todos os levantamentos. para espécies B e J = Número de indivíduos da espécie A e B nos levantamentos em que ocorrem simultaneamente. p.3 Índice de Afinidade Este índice estima a freqüência com que duas espécies ocorrem simultaneamente em determinada comunidade ou habitat. B = Idem. p.3. 46. c) Espécies Acidentais – Presentes em menos de 25% dos levantamentos. Os valores mínimos de j significativos a 0. 11.4 Constância Este parâmetro indica a percentagem de uma determinada espécie em relação a todos os levantamentos realizados. b) Espécies acessórias – presentes entre 25–50% dos levantamentos. 46. nB = Número de ocorrência da espécie B e j = Número de ocorrência conjunta das espécies A e B.Apostila de Estatística Aplicada 41 11. baseiase no total do número de indivíduos de ambas as espécies que ocorrem simultaneamente nos levantamentos realizados. J IA = − 0. É dado pela fórmula: n × 100 C= N Onde: n = Número de coletas contendo a espécies em estudo e N = Número total de coletas realizadas. A Constância de uma espécie poderá ser classificada da seguinte forma: a) Espécies constantes – presentes em mais de 50% dos levantamentos. 11. Foi proposto por FAGER (1957). A significância de j pode ser observada através da Tabela 15.

.D. 1990. S. Brower. Jaccard. Curso prático de bioestatística. 1912. V. Biostatistical Analysis. 169p. T. D. 3): Ed. New Jersey: Prentice Hall.E. Vanzolini. Mulekar. 811p. Rodrigues..H. 1948. Ecologia: princípios e métodos: Petrópolis: Vozes.R. NeroPhytal.C. Computational Statistics & Data Analysis.R. Estatística não paramétrica. Waldhardt.. Princípios de Entomologia..P. 43p. 4th ed. A method of establishing groups of equal amplitude in plant sociology basead an similarity of species. 2002. 1999. São Paulo: MC Graw Hill do Brasil. Ecosystems and Environment. 339p. W. Barbin. J. Manual de Ecologia de Insetos.H. 273p and software included. 126p. M. Fager. D. Ecological Methods. Curso de Estatística Experimental. 63f...O uso de análise multivariadas ecológicas em estudos ambientais interdisciplinares. T. 3ª ed. Huirtec. Curso de Estatística Aplicada à Biologia. 1957. Bioestatística. Siegel. Skr. D.M & Prado. Sorensen. Estatística [Sem] Matemática: A ligação entre as questões e a análise.M. Tese de Doutorado. T. 391p. São Paulo: Edgard Blücher. Rio de Janeiro: LTC. 168: 1345-1347. Silveira Neto.. Bioestatística Teórica e Computacional. Niterói: EdUFF.L & Stephan.. F.P (Trad. 2003. Beiguelman. Chapman and Hall Ltd. Agronômica Ceres. 419 p. Goiânia (Coleção Didática. L. Otte A. 2ª ed.. Da UFG. L.H. 2000. M. Seropédica. J. & Morris. R. Ed. & Villa Nova. 1995.J. Quebecor: MC Graw Hill. Planejar e redigir trabalhos científicos. 663p and index included. 272p.F. Biol. J. Londrina: Planta. Agriculture. UFRuralRJ.. 2004. O. ícone. 98: 321-329. S. 197p. A. Gomes. 5ª Ed. Geier. Campinas: UNICAMP.G. 5:1-34 Southwood. Nakano. Simmering. 11:37-50. 1976. C. Piracicaba: Nobel. Estatística: teoria e Aplicações usando Microsoft® Excel em português. 2002. F. Berger. P. P. Zar. London. Caderno V. Ed. 3ª ed. J... 34: 121-137. 1997.W. & Parker. W. P. D.1993. 1971. 1979. 1998. Levine. The Ecology of insect Populations in Theory and Practice. Field and Laboratory Methods for General Ecology. 1967. 4th ed. Landscape structure as an indicator of biodiversity: matrix effects on species richness.. 235p. 331 p.S. 2002. Diversity of Planktonic Foraminifera in Deep-Sea sediments.N. 2000. Rio de Janeiro: Guanabara –Koogan.William Costa Rodrigues 42 12 Bibliografia Arango. P. Ribeirão Preto: FUNPEC. Poncã (Citrus reticulata Blanco) em cultivo orgânico e a interação com predadores e formigas.L. Determination and analysis of recurrent groups. Science. S. Ecology. São Paulo. Zar. Homópteros (Homoptera: Sternorrhyncha) associados à tangerina cv. Lewinsohn. 467p. Clark. Berenson. 234p. H. K. T.. N. & von Ende.M. E. 13ª ed (revista e ampliada). S. Dauber. & Wolters. 232p.L. B. 2003. 2ª reimpr. Souza. 2ª ed. Lara. & Mishra. 2001. R.W. Rey. Confidence interval estimation of overlap: equal means case. M. E.C. (revista e ampliada). & Mourão. Métodos estatísticos elementares em sistemática zoológica. The distribution of the flora in the alpine zone. Magnusson.).T. Centeno. 1992. 2000. 318p. Methuen & Co. Hirsch. 130p. Laroca.C. P. 1970.E. I.E. A. G. F.. Rodrigues. 38:586595. Hughes. R.. W.

Fluxograma Para Auxiliar na Escolha de Testes Estatísticos Dados com Distribuição Normal Dados com Distribuição Não Normal 2 Tratamentos 2 Tratamentos > 2 Tratamentos Dados Numéricos divididos em Categorias Teste T ANOVA Teste F Teste 2 (Qui-Quadrado) Não dividido em blocos (Amostras compostas) Dividido em Bloco Dados Pareados Dados não Pareados Não será abordado Calcula Valor 2 S2Maior S2Menor < 4 S2Maior S2Menor 4 Teste de KruskalWallis Teste de Friedman Calcula Valor H Variâncias iguais (Homocedásticas) Variâncias desiguais (Heterocedásticas) Calcula Valor 2r Calcula Variância Ponderada Compara com valor 2 Tabelado ( = 5%) Se 2calc 2tab Rejeita H0 Coloca * Se 2calc < 2tab Aceita H0 Coloca ns Calcula Valor T Se Tcalc Ttab Rejeita H0 Coloca * Compara com T tabelado ( =5%) Compara com 2 tabelado ( =1%) Compara com T tabelado ( =1%) Se Tcalc < Ttab Aceita H0 Coloca ns Se 2calc 2tab Coloca ** Se 2calc < 2tab Mantém * Se Tcalc Ttab Coloca ** Se Tcalc < Ttab Mantém * Conclui textualmente .Apostila de Estatística Aplicada 43 13 Anexos Figura 13.

.92 5.06 2.03 3.12 2.01 2.75 2.09 2.84 4.79 2.98 2.78 2.25 3.45 2.88 2. (1998).William Costa Rodrigues 44 Tabela 11.90 2.63 2.30 3.68 2. Grau de liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 50 100 500 ∞ 5% (α=0.09 2.84 2.06 3.17 3.86 2.96 1.01) 63.98 1.36 2.31 2.18 2.14 2.04 2.23 2.60 4.36 3.10 2.26 2.05) 12.58 3 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.96 1% (α=0.66 9.01) de probabilidade3.05 a 0.20 2. Valores de t -student em níveis de 5% e 1% (α=0.71 3.95 2.57 2.59 2.16 2.71 4.11 2.13 2.11 3.92 2.50 3.01 1.18 2.

68 21.09 16.36 23.41 32.67 23.57 55.98 44.64 42.30 27.92 18.92 35.11 41.38 54.76 1% (α=0.22 27.99 7.42 37.21 24.59 14.69 4 A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al.34 13.43 63.19 37.77 44.30 43.57 38.01) de probabilidade4.68 25.58 32.81 18.64 46.28 49.Apostila de Estatística Aplicada 45 Tabela 12.80 50.72 26.06 57.16 62.80 36.96 48.65 38.31 19.69 29.19 53.82 9.87 30.14 31.19 47.01) 6.21 11.03 22.62 59.59 28.23 49.05) 3.34 58.07 12.09 21.60 50.89 48.88 40. .99 46.49 54.34 42.41 34.67 33.07 15.05 a 0.14 30.99 52.64 9.98 40.31 45.89 61.29 41.60 49.48 20.28 15.49 11.00 33.51 16.78 56.00 26. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0. Grau de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 5% (α=0.40 48.17 36.84 5. (1998).

544 0.447 0.532 0.500 0.156 0.313 0.264 0.467 0.10 1.236 0.267 0.271 0.279 0.600 0.556 0.446 0.361 0.085 0.570 0.068 0.401 0.170 0.786 0.142 0.503 0.415 0.429 0.50 0.564 0.185 0.391 0.654 0.511 0.521 0.881 0. Valores críticos para o Coeficiente de Correlação de Spearman (rs) 5 n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100 α(2) 0.213 0.464 0.344 0.615 0.079 0.180 0.182 0.110 0.363 0.307 0.220 0.600 0.170 0.200 0.255 0.174 0.189 0.727 0.703 0.05 – 1.000 0.536 0.371 0.405 0.900 0.353 0.118 0.248 0.287 0.072 0.738 0.235 0.398 0.346 0.161 0.485 0.643 0.829 0.370 0.093 0.William Costa Rodrigues 46 Tabela 13.294 0.144 0.886 0.380 0.165 0.217 0.337 0.794 0.176 0.521 0.755 0.929 0.198 0.560 0.460 0.618 0.425 0.472 0.414 0.635 0. .433 0.089 0.406 0.070 0.538 0.321 0.000 0.244 0.000 0.264 0.209 0.214 0.235 0.331 0.382 0.335 0.279 0.484 0.082 0.833 0.306 0.191 0.165 0.600 0.310 0.128 0.076 0.148 0.224 0.257 5 A tabela completa poderá ser consultada em Zar (1999).227 0.097 0.362 0.207 0.01 – – 1.700 0.714 0.679 0.103 0.197 0.584 0.206 0.283 0.648 0.297 0.202 0.435 0.318 0.074 0.152 0.248 0.503 0.587 0.266 0.

92 14.73 54. são orientações para arredondamento a uma decimal.44 88.84 26.28 43.35+ 51.9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 0 1.55+ 56.2 99.69 59.44 4.05+ 4.9 100.94 55.79 23. seguindo ângulos terminados em 5.56 % 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 27.87 37.27 36.63 4.21 33.60 50.8 99.57 46.14 3.71 43.53 53.5 99.97 22.79 57.72 47.34 62.43 45.4 0.26 84.4535.03 62.83 34.98 11.87 85.9532.02 81.42 58.18 50.18 15.06 38.56 3.3 99.00 60.77 51.1 99.05+ 58.44 % 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99.82 40.Apostila de Estatística Aplicada 47 Tabela 14.54 12.20 85.00 - Os sinais (+) e (-).82 77.56 85.6 0.16 64.8 0.31 31. 6 A tabela completa poderá ser consultada em Zar (1999).67 61.63 71.43 17.40 40.6 99.98 41.35+ 25.13 5.72 63.80 5.21 68.73 70.55+ 42.34 60.87 69.87 48.66 29.44 5.66 31.4549.3 0.00 % 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 0 45.57 74.1546.74 8.10 25.85 44.37 20.45 80.58 24.27 21.08 78.03 68.2 0.67 36.90 65.54 73.33 30.1 0.19 90.0 99.0 0.23 39.56 72.94 52.00 30.33 54.17 56.6539.13 9.97 28.58 32.7 0.29 47.37 86.81 2.0 0 64.4 99.47 38.56 84.66 75. Valores para transformação arcsen % 6 % 0.02 49.65 66.87 84.13 42.44 19.28 27. .86 87.5 0.9586.34 16.13 21.46 18.7 99.13 53.06 35.42 67.

nA 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100 1.5% (Southwood.0 – 6 7 8 9 10 17 24 32 39 46 53 59 67 74 .William Costa Rodrigues 48 Tabela 15.5 5 6 7 8 8 9 16 22 29 35 42 48 55 61 67 2. significativos a 0. 1971).0 5 5 6 7 7 8 14 19 25 29 36 41 46 52 57 nB/na 1. Valores mínimos de j.

Torres Pastorinho Minutos da Sabedoria. Preste atenção ao que está fazendo. Viva o momento presente. Procure aproveitar ao máximo o momento que está vivendo. para seu aperfeiçoamento. O ontem já lhe fugiu das mãos. onde quer que você esteja. C. 154 ************* . O amanhã ainda não chegou. p.Apostila de Estatística Aplicada 49 ************* O minuto que você está vivendo agora é o mais importante de sua vida. tirando todas as vantagens que puder. porque dele depende todo o seu futuro.

Sign up to vote on this title
UsefulNot useful