Estatística Aplicada

6 Edio Revisada e Ampliada
O Autor:
William Costa Rodrigues Agrnomo, Doutor em Fitotecnia e PsDoutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de Ecologia1, Toxicologia1, Climatologia1, Estudos de Impacto Ambiental1, Estatstica Aplicada2 e Auditoria Certificao Ambiental2, Metodologia da Pesquisa Cientfica2 na graduao e de Estatstica Ambiental1 e Biondicadores Ambientais1 na especializao de Planejamento e Gesto Ambiental1, onde tambm Supervisor Pedaggico. Atua como desenvolvedor de softwares agrcolas e Cientficos. Coordenador Geral do projeto Entomologistas do Brasil (www.ebras.bio.br). Coordenador e autor de captulos no livro Citricultura Fluminense: Principais pragas e seus inimigos naturais. Trabalha ativamente com anlise estatstica em projetos na rea agrcola e ambiental. O autor poder ser contatado atravs do e-mail: wcostarodrigues@yahoo.com.br.
Esta Obra:
A apostila Estatstica Ambiental foi inicialmente utilizada no programa de Ps-Graduao Lato Sensu, Planejamento e Gesto Ambiental e no Curso de graduao em Gesto Ambiental, na disciplina Estatstica Aplicada, tendo como objetivo informar o discente sobre os princpios bsicos da estatstica, relacionando-a com a metodologia cientfica, possibilitando um entendimento bsico sobre o assunto. Hoje a apostila tambm utilizada em cursos de graduao. Capa: Fotos do Autor na Ilha da Marambaia. Foto superior Casulo de Plecoptera e foto inferior, crrego onde ao casulo foi coletado.
Esta obra distribuda atravs da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br
Copyright2004-2008 Rodri Copyright2004-2008, W.C. Rodrigues
1 2
Disciplina Ministrada na Universidade Severino Sombra Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gesto Ambiental
Sumrio
1 Introduo................................................................................................................. 1 1.1 Crescimento e Desenvolvimento da Estatstica Moderna ................................ 1 1.2 Variao ao Acaso ............................................................................................ 1 Ensaio x Experimentao ......................................................................................... 2 Conceitos Estatsticos ............................................................................................... 2 3.1 Estatstica Descritiva ........................................................................................ 2 3.2 Inferncia Estatstica......................................................................................... 2 3.3 Tipos de Dados ................................................................................................. 3 3.3.1 Variveis Aleatrias Categorizadas.......................................................... 3 3.3.2 Variveis Aleatrias Numricas ............................................................... 3 Por que Utilizar a Estatstica .................................................................................... 4 Planejamento Experimental...................................................................................... 4 5.1 Fases do Planejamento ..................................................................................... 4 5.1.1 Problema................................................................................................... 5 5.1.2 Informaes Existentes............................................................................. 5 5.1.3 Noes Gerais Sobre Hiptese ................................................................. 5 5.1.4 Formulao das Hipteses ........................................................................ 6 5.1.4.1 Elaborando as hipteses........................................................................ 6 5.1.4.2 Hiptese Estatstica x Hiptese Cientfica ........................................... 6 5.1.5 Testando as Hipteses .............................................................................. 6 5.1.6 Riscos na Tomada de Deciso Atravs Teste de Hipteses ..................... 6 5.1.7 Aleatorizao ............................................................................................ 7 5.2 Erros de Observaes ....................................................................................... 7 5.2.1 Erros do Observador................................................................................. 7 5.2.2 Erro do Mtodo de Observao ................................................................ 8 5.2.3 Por Falta de Resposta ............................................................................... 8 5.3 Controle dos Erros nas Observaes ................................................................ 8 5.4 Mtodos de Coleta de Dados ............................................................................ 8 5.4.1 Fontes Primrias ....................................................................................... 8 5.4.2 Fontes Secundrias ................................................................................... 8 5.5 Pesquisa Observacional .................................................................................... 9 5.6 Pesquisa Experimental...................................................................................... 9 5.6.1 Princpios da Experimentao ................................................................ 10 5.7 Tipos de Amostras .......................................................................................... 10 5.7.1 Amostras Simples ao Acaso ................................................................... 10 5.7.2 Amostra Estratificada ............................................................................. 11 5.7.3 Amostra Sistemtica ............................................................................... 11 5.7.4 Amostra por rea ................................................................................... 11 5.7.5 Amostra por Conglomeradas .................................................................. 11 5.7.6 Amostra Selecionada .............................................................................. 11 5.8 Determinao do Tamanho da Amostra ......................................................... 12 5.8.1 Tamanho da Amostra para Dados Discretos .......................................... 12 5.8.2 Tamanho da Amostra para Dados Contnuos ......................................... 13 Tcnicas Estatsticas Para Anlise de dados .......................................................... 14 6.1 Medidas de Tendncia Central ....................................................................... 14 6.1.1 Mdia Aritmtica Simples ( X ) .............................................................. 14 6.1.2 Mdia Aritmtica Ponderada .................................................................. 14 6.1.3 Mdia Aritmtica de Dados Agrupados em Intervalos .......................... 15
2 3
4 5
6.1.4 Mediana (Me) ......................................................................................... 16 6.2 Medidas de Variao ...................................................................................... 17 6.2.1 Desvio-Mdio (DM) ............................................................................... 17 6.2.2 Desvio Padro......................................................................................... 17 6.3 Varincia ou Quadrado Mdio ....................................................................... 18 6.4 Erro-Padro da Mdia - s(x) ........................................................................... 19 6.5 Coeficiente de Variao.................................................................................. 19 6.6 Curva de Distribuio Normal........................................................................ 19 6.6.1 Limites de Confiana.............................................................................. 21 6.6.2 Erro Padro ............................................................................................. 22 6.7 Teste de Normalidade dos Dados ................................................................... 22 6.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 22 6.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 22 7 Testes Paramtricos e No Paramtricos................................................................ 23 7.1 Teste t - Student.............................................................................................. 23 7.1.1 Dados Pareados (Amostras Dependentes).............................................. 24 7.1.2 Dados Pareados (Amostras Independentes) ........................................... 25 7.1.3 Dados No-Pareados - Varincias Desiguais (Heterocedsticas)........... 26 7.1.4 Dados No-Pareados - Varincias Iguais (Homocedsticas) ................. 27 7.2 Teste Qui-Quadrado () ................................................................................ 28 7.3 Tabela de Contingncia .................................................................................. 28 7.4 Teste de Kruskal-Wallis ................................................................................. 29 7.5 Teste de Friedman (Anlise da Varincia) ..................................................... 31 8 Correlao Linear ................................................................................................... 32 8.1 Coeficiente de Correlao (r) ......................................................................... 32 8.1.1 Correlao de Pearson ............................................................................ 32 8.1.2 Correlao de Spearman......................................................................... 32 8.1.3 Aspectos Gerais da Correlao Linear ................................................... 33 8.2 Coeficiente de Determinao (r) ................................................................... 34 8.3 Coeficiente de Alienao (K) ......................................................................... 34 8.4 Significncia do Teste de Correlao ............................................................. 34 8.4.1 Significncia Baseada nos Intervalos ..................................................... 34 8.4.2 Significncia Baseada no Teste t para r (Pearson) ................................. 35 9 Anlise de Regresso.............................................................................................. 35 9.1 Regresso Linear Simples .............................................................................. 36 9.2 Regresso Linear Mltipla.............................................................................. 36 9.3 Regresso Mltipla ......................................................................................... 37 10 Transformao de Dados .................................................................................... 37 10.1 Raiz Quadrada ................................................................................................ 38 10.2 Transformao Logartimica .......................................................................... 38 10.3 Transformao Angular (Arcoseno)............................................................... 38 10.4 Consideraes Gerais ..................................................................................... 38 11 Testes Especficos Para Anlise de Populaes e Comunidades ....................... 38 11.1 ndice de Diversidade e Dominncia Populacional........................................ 38 11.1.1 ndice de Margalef ()............................................................................ 39 11.1.2 ndice de Glason (Dg) ............................................................................. 39 11.1.3 ndice de Menhinick (Dm) ...................................................................... 39 11.1.4 ndice de Shanon-Wiener (H') ................................................................ 39 11.1.5 ndice de Dominncia Berger-Parker (d)................................................ 39 11.2 Exemplo.......................................................................................................... 39
11.3 ndice de Similaridade entre Populaes........................................................ 40 11.3.1 Quociente de Similaridade...................................................................... 40 11.3.2 Porcentagem de Similaridade ................................................................. 40 11.3.3 ndice de Afinidade ................................................................................ 41 11.3.4 Constncia .............................................................................................. 41 11.3.5 ndice de Associao (IA) ...................................................................... 41 12 Bibliografia......................................................................................................... 42 13 Anexos ................................................................................................................ 43
ndice de Tabelas
Tabela 1. Resultados da interpretao de 500 fotos areas de diversas reas com presena de mata. (dados fictcios)........................................................................... 7 Tabela 2. Dados do peso de 10 crianas antes e depois da administrao a base de folhas de mandioca (dados fictcios). ................................................................................ 24 Tabela 3. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril, numa rea de re-vegetao (dados fictcios). ................................................................................................................. 25 Tabela 4. Resultados das amostras de cinco diferentes reas delimitadas pelas caractersticas edficas do solo, em quatro diferentes profundidades. Os dados apresentados referem-se a o poluente --16-Imaginol-Poluentis, em mg.mm de solo ......................................................................................................................... 31 Tabela 5. Correlao de Spearman entre as notas brutas de matemtica e biologia (Zar, 1999)....................................................................................................................... 33 Tabela 6. Classificao do valor r atravs de intervalos de 0 a 1................................... 34 Tabela 7. Classificao do valor r atravs de intervalos de acordo com e Teste de Rugg. ................................................................................................................................ 34 Tabela 8. Srie de dados da correlao da flutuao populacional do pulgo Toxoptera aurantii (Homoptera, Aphididae) em funo da brotao foliar de tangerina cv Ponc, sob cultivo orgnico na Fazendinha Agroecolgica, no perodo de outubro de 2002 e outubro de 2003 (Extrado de Rodrigues, 2004). Exemplo para o Microsoft Excel. ..................................................................................................... 35 Tabela 9. ndices de diversidade de cochonilhas em agroecossiema ctrico. ................. 40 Tabela 10. Duas comunidades com sua composio de espcies em percentagem ....... 40 Tabela 11. Valores de t -student em nveis de 5% e 1% (=0,05 a 0,01) de probabilidade. ......................................................................................................... 44 Tabela 12. Valores de (Qui-quadrado) em nveis de 5% e 1% (=0,05 a 0,01) de probabilidade .......................................................................................................... 45 Tabela 13. Valores crticos para o Coeficiente de Correlao de Spearman (rs)............ 46 Tabela 14. Valores para transformao arcsen % ....................................................... 47 Tabela 15. Valores mnimos de j, significativos a 0,5% (Southwood, 1971). ............... 48
ndice de Figuras
Figura 1. Diagrama de uma estatstica descritiva, com seus diversos nveis de categorias. ................................................................................................................. 3 Figura 2. Diagrama de tipos de dados .............................................................................. 4 Figura 3. Interpretao dos dados experimentais. O grfico esquerda, baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B), parece sugerir que Y cresce medida que X cresce, entretanto no grfico direita, em que foram registrados outros valores intermedirios (definidos pelos pontos B e C), mostra que a relao entre X e Y obedece a uma lei mais completa................ 10 Figura 4. Curva de distribuio normal simtrica, onde a mdia e s o desvio padro. ................................................................................................................................ 20 Figura 5. Curvas de distribuio normal das freqncias de X, tendo a mesma mdia () e diferentes graus de disperso dos valores de X, isto , desvios padres (s) diferentes. ............................................................................................................... 20 Figura 6. Curva normal padro, tendo por parmetros =0 e s= 1. As reas sob a curva assinaladas entre os traos verticais, indicam as percentagens de valores de X a contidas................................................................................................................... 21 Figura 7. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relao mdia , medidos em unidades de desvio-padro. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) indicada pela rea, sob a curva, situada esquerda de C. ............. 22 Figura 8. Correlao linear simples positiva (A); e inversa ou negativa (B), apresentando a linha de tendncia de regresso linear simples de dados fictcios. 33 Figura 9. Janela de configurao da linha de tendncia (linha de regresso) e configurao da equao de regresso no Microsoft Excel.................................... 36 Figura 10. Regresso linear simples entre a flutuao populacional de T. aurantii e a brotao foliar de tangerina cv. Ponc, em cultivo orgnico de tangerina cv. Ponc, na Fazendinha Agroecolgica, no perodo de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004).............................................................................. 36 Figura 11. Correlao mltipla da amplitude trmica (varivel x), brotao (varivel y) e a flutuao populacional de Toxoptera citricida (varivel z), em cultivo orgnico de tangerina cv. Ponc, na Fazendinha Agroecolgica, no perodo de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004)....................................... 37 Figura 12. Regresso mltipla entre a flutuao populacional de T. aurantii e a brotao foliar de tangerina cv. Ponc, em cultivo orgnico de tangerina cv. Ponc, na Fazendinha Agroecolgica, no perodo de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004).............................................................................. 37 Figura 13. Fluxograma Para Auxiliar na Escolha de Testes Estatsticos ....................... 43
Apostila de Estatstica Aplicada
Introduo
Diariamente estamos envolvidos em anlises estatsticas, por exemplo, quando voc abordado na rua para responder qual o candidato ir votar na prxima eleio, quando o IBGE faz uma visita a sua casa para o censo. Desta forma, voc est fazendo parte da estatstica, mas no s desta forma que voc faz parte do infinito mundo da estatstica. Quando voc est desempregado ou empregado, est fazendo parte da estatstica, quando seu salrio aumenta, faz parte tambm. Bom, podemos ver que em quase tudo, eu disse quase tudo, podemos empregar a estatstica, obviamente que no podemos deixar a estatstica dominar nossas vidas, pois o principal objetivo desta ferramenta auxiliar na tomada de deciso ou de avaliar uma determinada situao e poder melhor indicar o caminho para uma tomada de deciso. A estatstica, como parte da matemtica aplicada, trata da coleta, da anlise e da interpretao de dados observados. Estudando os mais variados fenmenos das diversas reas do conhecimento, ela representa um valioso instrumento de trabalho nos dias de hoje. Na rea ambiental, o estudo da estatstica justifica-se pela necessidade de desenvolver pesquisas, realizar experimentos, e mesmo pela utilizao dos resultados e pesquisas feitas, realizar experimentos, e mesmo pela utilizao dos resultados e pesquisas feitas por aqueles que a isso se dediquem, seja visando o aprimoramento de mtodos e tcnicas de investigao, seja por exigncias do prprio desenvolvimento do pas. 1.1 Crescimento e Desenvolvimento da Estatstica Moderna Historicamente, o crescimento e o desenvolvimento da estatstica moderna podem ser relacionados a trs fatores isolados a necessidade dos governos de coletar dados dos cidados, o desenvolvimento da teoria da probabilidade e o advento da informtica. Foram levantados dados atravs dos registros histricos. Durante as civilizaes egpcias, grega e romana, os dados eram obtidos principalmente com o objetivo de recolherem impostos e para o recenseamento militar. Na Idade Mdia, as instituies religiosas freqentemente mantinham registros relativos a nascimentos, morte e casamentos. No Brasil o censo realizado a cada 10 anos, avaliando o crescimento populacional e a distribuio desta populao no territrio nacional entre outros aspectos avaliados. De fato, a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de equipamentos de tabulao no incio do sculo XX. Isso levou ao desenvolvimento de computadores mainframe e finalmente a revoluo dos computadores pessoais. 1.2 Variao ao Acaso O que dificulta ao trabalho de pesquisador e exige a anlise estatstica a presena, em todos os dados obtidos, de efeitos fatores no controlados (que podem ser controlados). Esses efeitos, sempre presentes, no podem ser conhecidos individualmente e alteram pouco ou muito, os resultados obtidos. Eles so indicados pela designao geral de variao do acaso ou variao aleatria. O efeito dessa variao do acaso tal que pode alterar completamente os resultados experimentais. Assim, ao comparar no campo duas paisagens, poder haver, se a avaliao for, em dias diferentes, uma interferncia da luz solar, que ir interferir na distino das cores. As variaes ao acaso podem ser exemplificadas como: temperatura ambiente, aferio do aparelho utilizado para mensurar, variao nos intervalos de amostragem, variao no horrio de coleta dos dados, etc.
William Costa Rodrigues
Ensaio x Experimentao
Existem diferenas bsicas entre os dois mtodos de avaliar um dado cientfico. As diferenas vo desde a simples forma de avaliar e encarar a coleta dos dados at a forma de apresentao dos dados. Abaixo no Quadro 1 so listadas as diferenas entre os dois mtodos. Quadro 1. Diferenas entre Ensaio e Experimentao. Ensaio
Tempo de durao da avaliao curta, objetivando somente uma pr-avaliao dos resultados. O nmero de amostras reduzido.
Experimentao
O tempo de avaliao dever ser o suficiente para que os dados coletado possam garantir uma avaliao, com margem de erro menor possvel. O nmero de amostra dever ser suficiente para avaliar os dados com a maior preciso possvel O tamanho do experimento dever ser suficiente para avaliar os dados. As variaes ao acaso so controladas com rigor, possibilitando assim menor erro amostral e na anlise estatstica. A anlise e interpretao dos dados devero ser rigorosas e adequadas ao tipo de experimentao realizada.
O tamanho do experimento reduzido. As variaes ao acaso so parcialmente controlados, no havendo rigor. A anlise e interpretao dos dados no podem possuir muito rigor e deve se adequar ao tipo de ensaio realizado, nmero de amostras, nmero de amostragens realizadas, etc.
Conceitos Estatsticos
3.1 Estatstica Descritiva Pode ser definida como os mtodos que envolvem a coleta, a apresentao e a caracterizao de um conjunto de dados de modo a descrever apropriadamente as vrias caractersticas deste conjunto. Embora os mtodos estatsticos descritivos sejam importantes para a apresentao e a caracterizao dos dados, foi o desenvolvimento de mtodos estatsticos de inferncia, como um produto de teoria da probabilidade, que levou ampla aplicao da estatstica em todos os campos de pesquisas atuais. 3.2 Inferncia Estatstica Pode ser definida como os mtodos que tornam possvel a estimativa de uma caracterstica de uma populao ou a tomada de uma deciso referente populao com base somente em resultados de amostras (Figura 1). Para tornar mais claro esta definio, as definies seguintes so necessrias: Uma populao (ou universo) a totalidade dos itens ou objetos a ser considerado. Uma amostra a parte da populao selecionada para anlise. Um parmetro a medida calculada para descrever uma caracterstica de toda uma populao. Uma estatstica a medida calculada para descrever uma caracterstica de apenas uma amostra da populao.
Para melhor elucidar estes conceitos, digamos que h uma necessidade de saber a opinio da qualidade de vida no campus de sua faculdade. A populao, ou universo, ser todos os alunos da faculdade, enquanto a amostra consistir os estudantes selecionados para participar da pesquisa. O objetivo da pesquisa descrever vrias atitudes ou caractersticas de toda a populao (os parmetros). Isto seria alcanado utilizando-se as estatsticas obtidas da amostra de estudantes para estimar atitudes ou caractersticas de interesse da populao. Desse modo, um aspecto principal da inferncia o processo que utiliza a estatstica amostral para tomar decises sobre os parmetros da populao. Populao/Universo Amostra
Parmetro Estatstica Figura 1. Diagrama de uma estatstica descritiva, com seus diversos nveis de categorias. A amostra pode ser definida tambm como o conjunto de observaes extradas de uma fonte (populao), segundo determinadas regras e critrios, sendo a populao a fonte de observaes. A populao pode ser constituda de elementos simples, como o caso dos seres humanos ou das plantas superiores ou das bactrias, ou por elementos coletivos, como o caso das irmandades com mais de um indivduo, das famlias, ou das pessoas que habitam uma casa. A necessidade da inferncia estatstica deriva da necessidade da amostragem. Quando a populao se torna grande, geralmente dispendioso demais, consome muito tempo e muito cansativo obter informaes sobre a populao inteira. Decises pertinentes s caractersticas da populao devem ser baseadas na informao contida numa amostra da populao. 3.3 Tipos de Dados Existem basicamente dois tipos de dados de caractersticas de variveis aleatrias que podem ser estudadas e que produzem os resultados ou os dados observados: categorizados ou numricos (Figura 2). 3.3.1 Variveis Aleatrias Categorizadas Este tipo de varivel produz respostas categorizadas. Por exemplo, voc tem Sim No. carro? 3.3.2 Variveis Aleatrias Numricas Produz respostas numricas, podendo ser nmeros discretos ou contnuos. A resposta para pergunta: "Quantos livros voc possui?", a resposta discreta, enquanto a reposta para "Qual a sua altura?", contnua.
Dados discretos so respostas numricas que surgem a partir de processo de contagem e dados contnuos so repostas numricas que surgem a partir de um processo de medio. Na Figura 2, segue exemplos de variveis tanto para aleatrias categorizadas, quanto para aleatrias numricas (discretas e contnuas).
Tipos de Dados
Categorizadas
Numricas
Discretas Voc possui carro?

Quantas revistas voc assina?
Contnuas
Qual sua altura?
Sim
No
1,75m
Figura 2. Diagrama de tipos de dados
Por que Utilizar a Estatstica
A Estatstica uma rea da matemtica muito utilizada hoje em dia, entretanto o uso inadequado e fantico desta ferramenta torna muito difcil a compreenso dos resultados e levam-na ao descrdito. A Estatstica nada mais que uma ferramenta que poder auxiliar na interpretao dos resultados e poder confirmar a hiptese a ser testada ou simplesmente recus-la. Desta forma devemos ter muito cuidado ao utilizar estatstica, como a ferramenta que ir dizer se, por exemplo, "uma rea ser condenada por poluio de metais pesado no solo". O que pode ocorrer que a estatstica ir indicar uma diferena numrica, caber ao profissional avaliar os parmetros no previsveis no modelo matemtico e tomar a deciso.
Planejamento Experimental
5.1 Fases do Planejamento Quando realizamos um estudo, primeiro consideramos sua importncia. Em seguida, traamos os objetivos que pretendemos alcanar e a finalidade de sua realizao. Se houver alguma informao que possa auxiliar como ponto de partida, esta poder fornecer alguns indicadores ou ensinar novas tcnicas que serviro para complementar nossa experincia. Estas informaes devero ser avaliadas e criticadas, pois os dados podero apresentar falhas ou nada representaram para o estudo do problema ou para a elaborao das hipteses a serem formuladas. Em suma, diremos que os dados selecionados devem ser os estritamente necessrios.
5.1.1 Problema Ao planejar o problema que se vai pesquisar, dever ser dada especial ateno aos seguintes pontos: Definio da importncia do problema que se estuda; Determinao do(s) objetivo(s) e finalidade da investigao. Definir a importncia do problema que se estuda explicar o que vamos estudar. Ser impossvel o planejamento das etapas subseqentes se no ficar claramente evidenciado o problema a investigar. No basta, por exemplo, dizer que se vai estudar a biodiversidade da floresta atlntica, o efeito da poluio do rio Paraba do Sul, pois provavelmente nenhum pesquisador ter possibilidade e capacidade de abordar todos os aspectos da biodiversidade ou da poluio. importante tambm especificar sua extenso. 5.1.2 Informaes Existentes Antes de empreender o experimento, o pesquisador deve revisar tudo o que diz respeito ao fato em estudo, com a finalidade de saber o que j se conhece sobre o assunto. Decerto sero encontrados vrios subsdios que fornecero valiosa colaborao para o estudo. A reviso bibliogrfica sobre o assunto dever sofrer cuidadosa seleo para que os resultados mais afins possam ser aproveitados no conforto e discusso posteriores da pesquisa. 5.1.3 Noes Gerais Sobre Hiptese A hiptese, resultado de um raciocnio indutivo (consciente ou subconsciente), requer demonstrao ou prova de sua adequao. Sabemos que a veracidade de uma hiptese nunca pode ser demonstrada ou provada definitivamente. O que se faz verificar se ela no seria falsa; o que nos levaria a rejeit-la e a formular outra, se necessrio. Enquanto no se possa demonstrar que ela incorreta, mantm-se a hiptese como boa. Dela deduzimos as conseqncias ou fazemos previses. Por sua vez, essas conseqncias e previses sero testadas, para ver se a hiptese adotada ainda se mantm ou no. O planejamento de pesquisa consiste, portanto, na elaborao de um plano de observao, ou de experimentao, destinado a contestar determinada hiptese, por mais justa e slida que possa parecer. A estratgia para isso depende da natureza do problema em causa. Muitas vezes, o que se tem em vista verificar uma relao de causa e efeito: queremos saber se a varivel X e a varivel Y, peculiares a determinado fenmeno, guardam entre si relaes de causa e efeito (direta ou indiretamente). Na prtica, teremos de montar uma observao ou uma experincia em que se possa verificar o aparecimento de Y quando ocorre X, ou alteraes dos valores de Y quando varia X, de tal forma que se possa demonstrar a existncia de uma relao constante entre os valores de X e Y. A varivel X, que precede a outra, chamada varivel independente, enquanto Y, que se supe depender de X, a varivel dependente. Do ponto de vista operacional, podemos encontrar duas situaes. Uma prpria de fenmenos sobre os quais no podemos influir nem exercer qualquer controle, limitando-se o estudo cientfico observao de como X e Y se apresentam espontaneamente, ento, como observar e medir seus valores e como analisar as relaes qualitativas e quantitativas que possam existir entre eles (ver item Pesquisa Observacional, p. 9). A outra seria a interdependncia das duas variveis.
5.1.4 Formulao das Hipteses A estatstica, testa duas hipteses, que geralmente so denominadas de H0 ou Hiptese nula e H1 ou Hiptese alternativa. As hipteses estatsticas no necessariamente devero ser idnticas hiptese cientfica. 5.1.4.1 Elaborando as hipteses O pressuposto a hiptese estatstica sempre testar a nulidade dos dados. Por exemplo, em um experimente est sendo testada a capacidade de duas substncias possurem o mesmo poder de reao qumica, nas propores utilizadas. A H0 dever ser a seguinte: As substncias possuem a mesma capacidade de reao. J a H1, ser As substncias no possuem a mesma capacidade de reao. A hiptese nula admite que os resultados sejam iguais ou com diferenas aleatrias entre os tratamentos. H 0 : X1 = X 2 = X 3 = ... X n
J a hiptese alternativa, testa a falta de nulidade ou falta de diferenas aleatrias entre os tratamentos. H a : X1 X 2 X 3 ... X n 5.1.4.2 Hiptese Estatstica x Hiptese Cientfica A hiptese estatstica testa somente os dados numricos obtidos atravs de um modelo matemtico fixo e contendo restries, que no o permite avaliar variveis complexas e multveis (clima, efeito antrpico, etc.). A hiptese cientfica poder ser a mesma hiptese estatstica ou basear-se nela, porm a resposta para entendimento dos resultados, no ser somente baseada em um modelo matemtico. Desta forma, valer alm da experincia do pesquisador, uma boa reviso bibliogrfica e uma interpretao imparcial dos dados, somada com uma facilidade de concluir de acordo no somente pelos nmeros, mas pela descrio do fato, seja ela: biolgica, social, etc.
5.1.5 Testando as Hipteses Existem vrias formas de testar as hipteses elaboradas. Normalmente testa-se atravs de modelos matemticos, que so denominados testes estatsticos, que se dividem basicamente em Teste Paramtricos e No Paramtricos, que sero visto no item Tcnicas Estatsticas Para Anlise de dados, p. 14. 5.1.6 Riscos na Tomada de Deciso Atravs Teste de Hipteses Quando se utiliza uma estatstica para tomar deciso sobre um parmetro da populao, existe um risco de se chegar a uma concluso incorreta. Na verdade, dois tipos de erro podem ocorrer quando aplicamos a metodologia do teste de hipteses: Um erro do tipo I ocorre se a hiptese nula H0 for rejeitada quando de fato verdadeira e no deveria ser rejeitada. Um erro do tipo II ocorre se a hiptese nula H0 for rejeitada quando de fato falsa e no deveria ser rejeitada.
5.1.7 Aleatorizao Na oportunidade em que organizamos os ensaios devemos proporcionar condies idnticas para cada tratamento, possibilitando que se houver algum erro este seja atribudo ao acaso, ou seja, no tendencioso. Com este processo o erro experimental poder ser mensurado atravs do modelo matemtico utilizado para analisar os dados. 5.2 Erros de Observaes Quanto aos componentes de uma populao, o pesquisador ter a oportunidade de verificar a existncia de diferenas entre os mesmos. Atravs da observao ou coleta de dados, haver sempre uma discrepncia entre as amostragens realizadas, seja por falha no aparelho utilizado ou pela desateno do observador. So os erros experimentais oriundos de fatores que no podem ser controlados. 5.2.1 Erros do Observador O grau de treinamento dos observadores, o excesso de trabalho, seu estado fsico e condies ambientais podem ser as principais causas de erros das observaes. Como exemplo, poderamos citar a experincia de que participaram cinco tcnicos especializados em anlise de foto area (foto interpretao), que examinaram em pocas separadas por um perodo de dois meses, as mesmas 500 fotos, com a finalidade de verificar a degradao ambiental acentuada das reas fotografadas. As fotos foram interpretadas separadamente por cada tcnico conforme a Tabela 1. Erros cometidos pelo observador devero ser considerados no modelo matemtico escolhido para anlise dos dados. Entretanto se estes erros forem muito distantes, ou seja, forem muito discrepantes, o modelo matemtico poder no prev erro to grande. Assim o treinamento dos observadores dever ser de forma a permitir um menor erro experimental possvel. Tabela 1. Resultados da interpretao de 500 fotos areas de diversas reas com presena de mata. (dados fictcios) Observador
A B C D E
Fotos onde a degradao foi considerada positiva (n) 1 leitura 2 leitura 118 139 69 78 83 88 96 89 106 92
Observa-se pela tabela acima que em nenhuma das duas ocasies os diferentes observadores coincidiram quanto ao nmero de fotos consideradas positivas para o referido diagnstico. O mesmo foi verificado em relao a cada um dos observadores que apresentaram resultados diferentes entre as duas leituras. Devemos concluir que, tais discordncias no refletem uma variao real, e sim cometida por quem procedeu leitura do material fotogrfico.
5.2.2 Erro do Mtodo de Observao Os mtodos de observao possuem erros mais ou menos importantes. Por isso h uma preocupao natural de todo pesquisador em aperfeio-los ou substitu-los por outros mtodos mais eficientes a fim de aumentar a exatido dos resultados. Cada mtodo em particular pode ter uma srie de fatores que conduzem distoro dos resultados. 5.2.3 Por Falta de Resposta Este tipo de erro poder ou no ocorrer no experimento. Ele ocorrer se no houver a possibilidade de obter, dentro da metodologia, o dado que ir compor o conjunto de informaes a serem analisadas. Por exemplo, na coleta de informaes a respeito da poluio de um determinado crrego, houve uma seca muito intensa secando a gua no ponto de coleta pr-determinado, desta forma, houve um erro por falta de resposta, assim no poder o observador coletar em outro ponto, j que a metodologia previu que aquele era o ponto a ser amostrado. Em experimento, que constituem blocos e parcelas, o erro por falta de resposta ocorrer atravs da perda de uma parcela. Os modelos matemticos que prevem erros por falta de resposta so apropriados, pois iro permitir uma flexibilidade de estimar o dado faltoso. 5.3 Controle dos Erros nas Observaes Apesar da distino que procuramos dar s diferentes fontes de erros. Devemos lembrar que eles so bastante independentes. Qualquer que seja a causa dos erros anteriormente abordados, estes podero ser reduzidos ou eliminados de acordo com as coisas que os determinam. Os erros dependentes dos observadores podem ser minimizados por uma preparao e por um treinamento mais eficientes, assim como por uma melhoria das condies fsicas e de trabalho. Os erros causados pelos mtodos de observao podem ser reduzidos selecionando-se o funcionamento dos aparelhos utilizados. 5.4 Mtodos de Coleta de Dados Embora a maioria das experimentaes as informaes devam ser retiradas diretamente no "campo", em muitas ocasies podem-se aproveitar dados previamente obtidos por outras pessoas. No primeiro caso, consideramos que a informao foi recolhida de fonte primria e no segundo caso dizemos que a fonte secundria. 5.4.1 Fontes Primrias Quando no h informaes dos dados que queremos estudar, devemos ir a acampo para obt-lo, assim a metodologia dever prever a coleta de dados na fonte primria. Um exemplo deste tipo de fonte a coleta de gua para a anlise de poluio de um determinado crrego. A coleta esta sendo realizada no campo, no sendo utilizados dados previamente coletados por outro pesquisador. 5.4.2 Fontes Secundrias Quando as informaes que nos interessa j foram coletadas por outro pesquisador, podemos utiliz-las. Este tipo de fonte chamado secundrio, pelo simples fato, da coleta dos dados ter sido realizada por outra pessoa. bvio que a qualidade dever ser
levada em considerao, alm do que, devemos verificar a metodologia utilizada, para saber se esta poder responder ao questionamento que a pesquisa prope-se a responder.
5.5 Pesquisa Observacional Em certos campos da biologia e das cincias sociais, por exemplo, os mtodos experimentais podem ser difceis ou mesmo impossveis de aplicar. Ento a observao cientfica adquire grande importncia e deve ser feita com o mximo de cuidado. Teorias to fundamentais como a da evoluo forma estabelecidas com base exclusiva na observao da natureza. A viagem de Darwin ao redor do mundo permitiulhe coligir tal quantidade de informaes que pde consubstanciar a hiptese formulada por Lamarck, Saint Hilaire e outros naturalistas sobre a evoluo dos seres vivos. Darwin buscou correlacionar as caractersticas prprias das espcies com as condies do meio em que vivia cada uma delas. Suas observaes sobre as relaes entre organismos e o meio contriburam decisivamente para a criao da ecologia. A observao deve ser inteligente e sagaz, de modo permitir clara distino entre os fatos que so relevantes, para o estudo em causa, e os inmeros outros que se apresentam concomitantemente. Por isso deve ser atenta, precisa e metdica. Deve ser persistente, completa, porm analtica. Exige que o pesquisador seja curioso, paciente, objetivo e imparcial; capaz de com os olhos isentos de preconceitos e a cabea livre das frmulas tradicionais, de idias fixas ou baseadas em dogmas ou em autoridades que no demonstraram cabalmente, na praticam a validade de suas bases. Sempre que possvel, portanto, as observaes devem ser corretamente registradas, repetidas e quantificadas, partindo-se de medidas rigorosas que permitam a anlise estatstica dos dados. 5.6 Pesquisa Experimental A experimentao ou experimento ou simplesmente experimento um mtodo cientfico e de observao dos fatos ou fenmenos naturais, sob condies particulares estabelecidas pelo pesquisador. Em sua essncia, a experimentao deve permitir comparar o efeito de suas ou mais condies ou tratamentos, bem definidos, sobre um atributo do organismo ou material que objeto da pesquisa. As condies, que o pesquisador seleciona ou manipula na experincia, so geralmente denominadas variveis independentes, enquanto que as mudanas observadas em conseqncia, no atributo, so as variveis independentes. Assim, em estudos de dietas ou os alimentos administrados seriam as variveis independentes, e o crescimento em peso ou altura, corresponderiam s variveis dependentes. Em experincias mais simples, os valores de uma varivel independente (eixo das abscissas - X), so confrontados com os dados da varivel dependente (eixo das ordenadas - Y). Por vezes, apenas duas condies da varivel so testadas (por exemplo: duas temperaturas, duas concentraes de uma substncia, a presena ou a ausncia de luz, a administrao ou no de um medicamento, etc.). Mas, como a resposta do organismo ou do fenmeno pode no ser diretamente proporcional intensidade do fator ensaiado, torna-se em geral necessrio experimentar trs ou mais valores de varivel independente, para que se possa apreciar seu efeito e estabelecer a lei do fenmeno. (Figura 3).
10
30 25 20 Y 15 10 5 A X B A Y B
35 30 25 20 15 10 5 A B X C D A B D C
Figura 3. Interpretao dos dados experimentais. O grfico esquerda, baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B), parece sugerir que Y cresce medida que X cresce, entretanto no grfico direita, em que foram registrados outros valores intermedirios (definidos pelos pontos B e C), mostra que a relao entre X e Y obedece a uma lei mais completa. 5.6.1 Princpios da Experimentao A experimentao a forma que o pesquisador, seja na rea cientfica ou social, encontra para estimar os dados da pesquisa que ir realizar. Os princpios bsicos da experimentao cientfica so: a. A experimentao dever ter impreterivelmente repeties, para assegurar que a resposta no foi obtida por mera casualidade e sim por inerncia do tratamento. b. A casualizao um princpio fundamental, pois permite que o experimento possa ser regido por efeitos gerais a todos os experimentos. Assim as parcelas dos tratamentos devero ser distribudas ao acaso pelo experimento, caso a rea experimental no apresente uniformidade; c. O controle das variveis aleatrias (chuva, vento, temperatura, efeito antrpico, etc.), dever ser controlado, caso no seja possvel, recomenda-se que o efeito seja igual para todos os tratamentos ou itens testados; d. O experimento dever ser realizado de acordo com uma tcnica j conhecida e testada; e. Caso a tcnica a ser utilizada seja original, esta dever ser experimentada antes de ser utilizada na experimentao; f. Os modelos estatsticos a serem utilizados na experimentao devero ser adequados ao que se pretende responder, ou seja, dever haver uma adequao da metodologia (objetivos) com o modelo, para que os resultados possam levar o pesquisador a uma resposta coerente e segura; g. Amostragens regulares, quando possveis, pois permitem uma melhor anlise dos dados; h. Certificao de que as pessoas envolvidas na experimentao possuam treinamento e conhecimento a cerca do modelo estatstico e da metodologia a ser empregada. 5.7 Tipos de Amostras 5.7.1 Amostras Simples ao Acaso Um dos mtodos mais usados. Emprega-se este processo, quando dispomos de uma populao que apresenta caractersticas homogneas, isto , pouca variao no conjunto dos elementos, ou seja, varincia prxima ou igual mdia.
11
5.7.2 Amostra Estratificada Utilizada quando dispomos de informaes de que a populao apresenta caractersticas heterogneas, isto , grande nmero de fatores ou variveis que podem comprometer as concluses se no eliminados, atravs de um procedimento correto. A populao heterognea transformada em subpopulaes homogneas. Estas subpopulaes tm nome de estratos. O tamanho da amostra ser determinado em funo da varincia de caracterstica a estudar em cada estrato, ou ento considerando o nmero de seus elementos e procedendo-se a um percentual de cada estrato. Obtm-se, assim, uma amostra estratificada proporcional. Considera-se este tipo de amostra que possibilita maior preciso quanto aos resultados. 5.7.3 Amostra Sistemtica Aplicada quando a populao apresenta um nmero finito de elementos e os dados esto distribudos aleatoriamente. O nmero de elementos da amostra ser obtido da seguinte forma: Numa populao constituda por 500 elementos e a amostra por 50 elementos, onde N = 500 e n = 50 dividem-se N por n, isto , 500 por 50, obtendo-se 10, em seguida, sorteia-se um nmero da primeira dezena e, a partir dele, escolhem-se os demais, observando-se que se o nmero sorteado for, por exemplo, cinco, o segundo dever ser 15, o terceiro ser 25, e assim por diante, at obterem-se os 50 elementos que constituiro a amostra. 5.7.4 Amostra por rea Utiliza mapas geogrficos de cidades e municpios. As unidades que comporo a amostra sero sorteadas em funo das condies de variabilidade existentes, podendo a seqncia ser obtida atravs de sorteio de ruas e residncias. A famlia poder ser a unidade mais simples a ser pesquisada. 5.7.5 Amostra por Conglomeradas Visto que, pela estratificao, o uso de amostragem nos conduz a ganhar em preciso. Embora a subdiviso da populao seja em estratos, para que, de cada um, utiliza-se uma quantidade de elementos o que torna o mtodo de seleo um pouco mais trabalhoso ele redunda conseqentemente em ganho de preciso, o que , no entanto, compensado apenas pela diminuio das tarefas. Aps a determinao dos conglomerados da populao, sorteiam-se aleatoriamente os conglomerados que iro participar da amostra. Outros mtodos de seleo podero ser associados para determinao dos elementos de cada conglomerado para compor a frao amostral. 5.7.6 Amostra Selecionada Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona para avaliar o perfil de seus componentes, considerando que os mesmos apresentam pelo menos uma caracterstica em comum. Por exemplo, na rea de sade comum a realizao de pesquisas de que so selecionados os pacientes portadores de determinadas enfermidades. Poderia ser a doena de Parkinson, hepatite, tuberculose, entre outras. Portanto, neste caso, s faro parte do estudo indivduos portadores de enfermidade a ser pesquisada.
12
5.8 Determinao do Tamanho da Amostra muito comum um pesquisador indagar qual o nmero de amostras a serem estabelecidas para uma determinada pesquisa de campo, laboratrio ou uma simples investigao. A determinao do tamanho da amostra depende de alguns fatores: 1. Tamanho da populao alvo. Quanto ao nmero de elementos que compe, podemos classificar em finitas e infinitas. Na obteno do tamanho amostral ser importante esta informao. Na populao finita, por exemplo, N= 3.000, a obteno da amostra se torna menos complexa do que nos casos de populaes infinitas de (N= 800.000). 2. Varincia ou porcentual. Em alguns casos so empregadas caractersticas que apresentam determinada variabilidade. Em outros casos, observamos a percentagem de certas caractersticas em um conjunto. Dependendo do tipo de investigao, ora usamos a varincia, ora usamos a percentagem. 3. Nvel de confiana (). Deve-se imaginar que, ao apresentarmos um valor percentual, referente taxa de prevalncia do fenmeno estudado na amostra observada, aquele valor tem, em relao ao valor percentual da populao, uma diferena, que , a priori, arbitrada pelo pesquisador. Esta diferena arbitrada considerada tendo em conta um nvel de acerto que normalmente consideramos de 95% ou 99% de confiana, ou seja, o nvel de confiana de que aquela diferena arbitrada realmente ocorra at o limite de diferena proposto. Os nveis de confiana propostos rotineiramente so de 95% e 99% de confiana. Simbolizado pela letra z, este valor substitudo na frmula (1) por uma constante 1,96, quando o nvel de confiana corresponde a 95%, e por 2,58 quando o nvel de confiana de 99%. 4. Informao da literatura (p). Toda pesquisa a realizar em que investigamos a taxa de prevalncia que fenmeno apresenta, na literatura, resultados os quais utilizaremos quando da determinao do valor de n em relao ao valor de p. Chamamos q o valor complementar de p para 100%, ou seja, p + q = 100%. 5. Erro de amostragem ou preciso. Ao procedermos s tcnicas de amostragem para determinao do tamanho da amostra (n), entende-se que a amostra obtida apresentar um determinado valor para a taxa de prevalncia de certo evento. Normalmente esperada uma diferena em relao taxa de prevalncia da populao-alvo. Esta diferena conhecida como erro de amostragem, a qual geralmente arbitrada pelo pesquisador. 5.8.1 Tamanho da Amostra para Dados Discretos Quando dispomos de variveis discretas, utilizamos as seguintes frmulas: n z2 p q (1) e n = 0 (2) n0 = 2 n (P p ) 1+ 0 N Onde n0: nmero inicial; Z: nvel e confiana; p: valor obtido de trabalho anteriormente realizado; N tamanho da populao; q: 100%-p; (P-p): erro arbitrado pelo pesquisador.
13
Quando se trata de trabalho original e no se dispe de nenhum valor usamos p=50%. Em populaes finitas, so utilizadas as frmulas (1) e (2). Para populaes infinitas e para as que N seja um valor muito elevado, apenas a frmula (1) deve ser utilizada. Exemplo: com a finalidade para verificar a incidncia de doena de Chagas em uma populao de certa regio, desejamos determinar o tamanho da amostra, sendo o tamanho da populao igual a 40.000 pessoas. Considerando uma prevalncia de anos anteriores igual a 20% com valor z = 1,96 (=5%) e sendo estabelecida um erro de 4%, qual seria o nmero de elementos que a amostra deveria conter? A frmula adequada para mensurar o tamanho da amostra a equao 1. Desta forma temos: Z = 1,96; p = 20%; q = 80%; e (P-p)= 4% 1,96 2 20 80 3,84 1.600 n0 = n0 = 3,84 100 = 384 2 4 16 384 384 n= n = = 380,35 384 1,0096 1+ 40.0000
O nmero de indivduos que deveramos examinar para a determinao da prevalncia de 384 para uma populao infinita e 380, para uma populao finita.
5.8.2 Tamanho da Amostra para Dados Contnuos Para variveis quantitativas contnuas, dispomos das seguintes frmulas: n z 2 S2 (1) e n = 0 (2) n0 = 2 n XX 1+ 0 N
Onde n0: nmero inicial; z: nvel de confiana; X : mdia da amostra; X : mdia da populao alvo; S: desvio padro obtido de trabalho anteriormente realizado. ( X X ): erro arbitrado pelo pesquisador; N: tamanho da populao. No sendo encontrado um desvio padro em outro trabalho, procede-se a uma pr-amostragem, retirando-se 30 observaes da populao e calculando-se o desvio padro da caracterstica a ser estudada. A utilizao das frmulas (1) e (2), deste item, tem procedimento semelhante ao amostrado para variveis discretas. Exemplo: numa pesquisa para determinar a taxa mdia de hemoglobina dos indivduos de uma comunidade, deparamos com o problema de definir o tamanho da amostra. Apenas sabemos que a populao desta comunidade de aproximadamente de 25.000 indivduos, o que torna impraticvel utilizar todos os elementos. Face a isto, resolvemos determinar o nmero de elementos que comporo a amostra. Selecionamos ao acaso 30 elementos, determinamos o valor do teor de hemoglobina de cada um e calculamos a varincia (medida de disperso), cujo valor foi igual a 9mg2. Para tal estudo, a frmula a empregar para determinao do tamanho da amostra ser a frmula 1 deste item.
14
A preciso considerada para esta pesquisa foi de 0,5mg e o valor z= 1,96. Substituindo na frmula teremos: 34,56 1,96 2 9 3,84 9 n0 = n 0 = n 0 = n 0 = 138,24 138 2 0,5 0,25 0,25 138,24 138,24 n= n = n = 137,48 137 138,24 1,0055 1+ 25.000 Para o estudo a ser realizado recomenda-se que o nmero mnimo de indivduos ser igual a 138 para populaes infinitas e 137 para populaes finitas.
Tcnicas Estatsticas Para Anlise de dados
6.1 Medidas de Tendncia Central Os fenmenos quando estudados estatisticamente, so traduzidos por um conjunto de dados numricos. A descrio desse conjunto de dados torna-se mais clara quando se obtm medidas que resumem as informaes necessrias. Essas medidas do-nos o valor tpico do conjunto de dados. Os valores tpicos de um conjunto de dados tendem a se localizar no centro da srie. So, por isso, chamados medidas de tendncia central. A importncia das medidas de tendncia central dupla: Representam ou resumem todos os valores obtidos pelo grupo e, como tal, fornecem uma descrio precisa da execuo do grupo como um todo, e; Permitem o confronto de dois ou mais grupos. Usam-se, em geral, trs medidas de tendncia central: mdia aritmtica (simples, ponderada, de dados agrupados em intervalos), mediana e moda. 6.1.1 Mdia Aritmtica Simples ( X ) A media aritmtica simples a soma dos valores ou medidas, divididas pela quantidade destes. Sendo representado pela frmula: x X= n Onde X : representa a mdia; x : a soma das variveis; e o n o nmeros de indivduos ou elementos. Exemplo: deseja-se saber o valor mdio do seguinte conjunto de dados: 32, 25, 32, 30, 26, 30, 29, 26, 29 e 33.
x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33.
n = 10 292 X= 29,2 10
6.1.2 Mdia Aritmtica Ponderada Quando se tem uma sria de valores sucessivos com a respectiva distribuio de freqncia, pode-se calcular a mdia aritmtica ponderada. A forma de apresentao da distribuio de freqncia seria:
15
Varivel X1 X2 . . . Xn
Freqncia f1 f2 . . . fn
A expresso da mdia ponderada ser: xf = x 1f1 + x 2 f 2 + ... + x n f n X= n f 1 + f 2 + ... + f n Exemplo: Calcular a mdia de idade de crianas at 9 anos de uma determinada localidade. Idade (anos) Freqncia 2 10 3 8 4 6 5 5 6 5 7 5 8 7 9 4 X= 2 10 + 3 8 + ... + 9 4 250 = = 5 anos 10 + 8 + ... + 4 50
6.1.3 Mdia Aritmtica de Dados Agrupados em Intervalos H vezes em que os dados no so verificados com seu verdadeiro valor individual, mas so representados por uma classe que pode ter um determinado intervalo. Neste caso, operamos da mesma maneira do caso anterior. Considerando que o intervalo no tem um valor definido e sim um conjunto de valores. Utilizaremos como representante o ponto mdio de cada intervalo. Por exemplo, a distribuio de freqncia abaixo, procede-se da seguinte forma: Idade (anos) Freqncia (f) 0 | 5 4 5 | 10 2 10 | 15 3 15 | 20 1 Idade (anos) 0 | 5 5 | 10 10 | 15 15 | 20
Valor central (X) 2,5 7,5 12,5 17,5
Freqncia (f) 4 2 3 1 10
X.f 10,0 15,0 37,5 17,5 80,0
Aplicando a frmula para calcular a mdia ponderada teremos:
16
n 10 Desta forma a mdia da populao avaliada oito anos. Quando os dados apresentam homogeneidade, possvel o uso da mdia aritmtica, que tem como: Vantagens: o Ser fcil de calcular e entender; o Unir em um valor todas as observaes do conjunto. Desvantagens: o No servir para sries variveis assimtricas; o No expressar variaes dentro da distribuio de dados.
X=
xf 80 = 8 anos
6.1.4 Mediana (Me) um valor situado no centro da distribuio de freqncias. A distribuio tem, portanto, como objetivo encontrar um valor que permita conter 50% dos dados acima deste valor e 50% abaixo. A mediana especialmente til quando se trata de sries assimtricas, isto , quando alguns valores so elevados ou baixos em relao aos demais. A mediana no influenciada pela magnitude de cada uma dessas sries. Para o clculo da mediana devemos previamente realizar alguns ajustes aos dados como segue: Ordenam-se todos os valores, de forma crescente; Determina-se o total de valores (n); n +1 Localiza-se o valor central mediante a frmula: , quando o nmero de ob2 n n servaes (n) for mpar e e + 1 , quando o nmero de observaes par, o 2 2 que corresponde mdia dos valores centrais.
Exemplo: a) Em determinada localidade foram selecionadas oito escolas, com a finalidade de estimar a mediana referente ao nmero de alunos. Tendo verificado o seguinte quadro: Escola N de alunos A 150 B 180 C 230 D 2.500 E 200 F 160 G 250 H 170 Inicialmente ordenam-se os dados: 150, 160, 170, 180, 200, 250 e 2.500. n n Como o nmero de observaes par utilizam-se as duas frmulas e + 1 , 2 2 para obter os dois valores centrais. Assim os valores centrais para este conjunto de dados so 180 (4) e 200 (5), portanto o valor mdio destes dois valores igual a 190, que corresponde mediana. Me= 190 alunos.
17
b) Em coletas de amostra de solo em cinco cidades, foram verificadas amostras poludas com metais pesados, conforme o quadro a seguir: Municpios Amostras Poludas A 48 B 42 C 52 D 95 E 46 Aps ordenar os dados teremos: 42, 46, 48, 52 e 95. Como o nmero de obsern +1 vaes mpar utilizaremos a frmula , para encontra o valor central. Desta forma, 2 o valor central 48, que corresponde ao valor da mediana. Me= 48 amostras poludas
6.2 Medidas de Variao 6.2.1 Desvio-Mdio (DM) Considerado que num conjunto de dados cada valor apresenta um afastamento em relao mdia. O desvio-mdio ser a mdia aritmtica destes afastamentos, levando-se em conta os valores absolutos desses desvios. Para um conjunto de observaes: 2, 5, 9, 11, 14 e 25 2 + 5 + 9 + 11 + 14 + 25 66 X= X = = 11 6 6
D.M. = 2 - 11 + 5 - 11 + 9 - 11 + 11 - 11 + 14 - 11 + 25 - 11 6 D.M. = 34 6 D.M. = 5,6
D.M. =
9 + 6 + 2 + 0 + 3 + 14 6
6.2.2 Desvio Padro Existem dois tipos de desvio padro, o chamado desvio padro estimado ou s e o desvio padro absoluto ou . O Desvio padro estimado (s) utilizado em populaes infinitas, ou seja, onde no se conhece com preciso o valor absoluto de n, j o (desvio padro absoluto ou verdadeiro) calculado para populaes com valor n, bem conhecido, ou seja, em populaes finitas. O desvio padro o afastamento atribudo ao acaso, ou seja, o erro amostral, que o conjunto de dados contm. Este erro refere-se diferena do valor s calculado e a mdia aritmtica. Para calcular o Desvio Padro utiliza-se a seguinte frmula:
s=
( x )
n
n 1 Onde: x: valores do conjunto de dados; : somatrio; e n: nmero de observaes. Exemplo: Calcular o desvio padro do seguinte conjunto de dados: 2, 5, 9, 11, 14 e 25 x= 2+ 5 + 9 + 11 + 14 + 25 = 66
18
x= 2 + 5 + 9 + 11 + 14 + 25 x= 4 + 25 + 81 + 121 + 196 + 625 = 1.052 n=6 66 2 4.356 1.052 1.052 6 s = 6 s = 1.052 726 s = 326 s = 65,20 s= 5 6 1 5 6 1 s = 8,07 importante ressaltar que no clculo do desvio padro utilizou-se o denominador (n-1), ou seja, o grau de liberdade, pois como o valor s uma estimativa, devemos ajustar o erro desta estimativa, eliminando um elemento do conjunto de observaes. Vale ressaltar que, no caso de populaes finitas o denominador ser n e o desvio passa ser o (desvio padro absoluto ou verdadeiro). Observamos agora uma srie de dados agrupados, isto , uma srie de valores que se repetem e, por conseguinte, so representados pela sua freqncia. x f fx 2 2 4 3 2 6 4 4 16 5 4 20 6 2 12 14 58 Total Temos um total de 14 valores agrupados em cinco categorias. Desta forma lana-se mo de um novo quadro de dados para facilitar os clculos x f fx fx 2 2 4 8 3 2 6 36 4 4 16 256 5 4 20 400 6 2 12 144 14 58 852 Total Para calcular o desvio padro desta distribuio, utiliza-se a seguinte frmula: s=
fx
n
fx n , ou seja,
2
s=
852 58 s = 60,8571 4,1429 2 s = 60,8571 17,1636 s = 43,6935 s = 6,6101 14 14
6.3 Varincia ou Quadrado Mdio o valor do desvio padro estimado ao quadrado, originando a varincia estimada (s), ou o valor do desvio padro populacional, originando a varincia populacional ().
19
A varincia a medida estimada ou calculada que determina a variao dos valores entre si, ou seja, quanto menor este valor menor ser a diferena entre os valores dos elementos do conjunto de dados.
6.4 Erro-Padro da Mdia - s(x) Quando uma investigao cientfica realizada atravs de amostra, a mdia aritmtica teria outros afastamentos (erros) em relao mdia populacional ou real. Para se determinar a mdia destes afastamentos utilizaremos o erro padro da mdia, cujo clculo expresso pela frmula: s s (x ) = n Onde: s: desvio padro da amostra e; n: nmero de observaes do conjunto de dados. Exemplo: em uma amostra com 100 observaes, obteve-se um valor s igual a 1,25, o erro-padro da mdia ser: 1,25 1,25 s (x ) = s (x ) = s(x ) = 0,125 10 100 importante ressaltar que quanto menos o valor do erro-padro da mdia, mais preciso ser os resultados em relao estimativa da mdia, anlise da varincia entre outras anlises, baseadas na estimativa de dados. 6.5 Coeficiente de Variao O coeficiente de variao (CV) uma medida abstrata que independe das unidades em que foram medidas os dados. Ele expressa o desvio padro que obteramos se a mdia representasse o ndice 100. Pode ser tambm interpretado com uma medida de preciso alcanada das estimativas dos dados em relao aos valores reais. Este parmetro estimado pela frmula: s C.V. = 100 x Onde: s: desvio padro da amostra; x : mdia aritmtica da amostra.
Quanto maior for a disperso no conjunto de observaes, maior ser o valor do coeficiente de variao. Desta forma, podemos classificar o C.V. da seguinte forma: C.V. Classificao C.V. < 10% timo 11% < C.V. <20% Bom 21% < C.V.< 30% Regular importante ressaltar que valores acima de 30% no significam um C.V. insatisfatrio, pois alguns experimentos em campo podem ter o valor C.V. de at 65% e serem considerados bons.
6.6 Curva de Distribuio Normal A maioria dos fenmenos da natureza, em especial os biolgicos, apresentam variaes dentro de um intervalo definido. Se coletssemos os dados quanto ao peso de mil indivduos, encontraramos diversos valores, dos quais haveria pequena quantidade de baixos e altos, e grande quantidade em torno dos valores centrais.
20
Numa representao grfica dos dados obtidos encontraramos uma distribuio normal conforme a figura abaixo.
Figura 4. Curva de distribuio normal simtrica, onde a mdia e s o desvio padro.

A curva de distribuio normal ou simplesmente curva normal caracterizada por dois parmetros: a mdia e o desvio padro (ou a varincia). O ponto mximo da funo ocorre no valor mdio (situado ao centro da curva, que simtrica); a distncia entre ele e cada um dos pontos em que muda a direo da curvatura, esquerda e a direita da mdia () corresponde ao valor do desvio padro(s) (Figura 4). A forma desta curva depende do desvio padro, sendo tanto mais alta e estreita quanto menor for o valor de s (Figura 5).
Figura 5. Curvas de distribuio normal das freqncias de X, tendo a mesma mdia () e diferentes graus de disperso dos valores de X, isto , desvios padres (s) diferentes.
A rea da figura sob a curva compreendida entre valores iguais a s, de um e outro lado da mdia (), contm 68,2% dos valores de X, que sero tanto mais prximos de quanto menor for o desvio padro (Figura 6).
21
Figura 6. Curva normal padro, tendo por parmetros =0 e s= 1. As reas sob a curva assinaladas entre os traos verticais, indicam as percentagens de valores de X a contidas.
A rea compreendida entre -2s e +2s abrange cerca de 95,5% dos valores de X, restando, portanto duas reas extremas, apenas 4,5% das observaes ou eventos medidos. As propriedades da curva normal permitem seu uso para o clculo de probabilidade com que determinados valores obtidos durante as observaes, ou as medies, possam ocorrer em funo das variaes.
6.6.1 Limites de Confiana Quando se desconhece o valor de determinado parmetro de uma populao (sua mdia, por exemplo), podemos estim-lo a partir de uma amostra extrada dessa populao. A estimativa, entretanto, pode ser inexata e no saberemos o quanto ela incorreta. Para a estimativa de um parmetro, consideram-se como sendo seus limites de confiana, aqueles valores entre os quais fica includo, com uma alta probabilidade, o valor exato desse parmetro. A probabilidade P= 0,05 (ou 5%), que corresponde a um desvio ou erro padro de aproximadamente 2s (ou, mais precisamente, 1,96s), geralmente aceita, por conveno, como limite para decidir se um resultado afastado da mdia (ou a diferena entre duas mdias) significativo ou no. Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de que os valores encontrados pertenam a uma mesma populao. Assim, se o valor mdio (m) de uma observao comportar um desvio ou erro padro maior que 1,96s, em relao ao valor hipottico da mdia verdadeira (), concluiremos que ele no pertence populao cuja mdia . Na Figura 7, os limites de confiana so representados pelos valores de -C e +C que circunscrevem, com grande probabilidade, o valor do parmetro em causa. A amplitude entre esses valores limites denomina-se domnio de confiana ou intervalo de confiana.
22
Figura 7. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em relao mdia , medidos em unidades de desvio-padro. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) indicada pela rea, sob a curva, situada esquerda de C. 6.6.2 Erro Padro Em alguns casos, conveniente trabalhar com a mdia das mdias amostrais. Nesse caso o desvio padro de uma distribuio de mdias ou de diferenas entre mdias tambm chamado de erro padro. 6.7 Teste de Normalidade dos Dados Os testes empregados para verificar a distribuio normal dos dados, tm por objetivo direcionar o pesquisador a saber qual o tipo de teste ser utilizado, se um teste paramtrico ou no paramtrico. necessrio explorar um pouco mais a idia sobre a distribuio de variveis. Uma questo que pode ser levantada primeiramente se a maioria das variveis normalmente distribuda e, portanto poder ser empregados testes paramtricos sem preocupao quantos s suas restries. Testes estatsticos com grandes amostras mostram que nem sempre as suposies de normalidade de confirmam. Por outro lado, como nem sempre se dispes de um nmero elevado de casos para estudo, s vezes nem possvel decidir se determinada varivel possui ou no distribuio normal (na prtica a amostra deve ter o valor n > 100). Os testes comumente utilizados so KlomogorovSmirnov, ou teste K-S, que um teste tradicional de normalidade e o teste de Shapiro-Wilks, ou teste S-W, vem sendo empregado cada vez com maior freqncia. 6.8 Teste de Klomogorov-Smirnov (K-S) Este teste compara a distribuio real dos dados (amostra) com uma distribuio normal gerada por uma mdia e um desvio padro supostamente conhecidos (populacionais). 6.9 Teste de Shapiro-Wilks (S-W) Este teste uma boa opo para se testas a normalidade de uma distribuio. o teste pode ser usado em amostra de at 2.000 observaes. Nos ltimos anos o teste SW tem sido preferido ao teste K-S pela capacidade de adaptao a uma variada gama de problemas sobre a variao de normalidade.
23
Testes Paramtricos e No Paramtricos
De acordo com a distribuio dos dados, utilizam-se testes de duas categorias: Os testes paramtricos - aplicam-se a amostras extradas de populaes com distribuio normal e varincias iguais ou muito prximas, alm de exigirem que as medidas sejam feitas em escalas numricas intervalares, suscetveis de tratamento matemtico. Estes testes so, em geral, os de maior potncia, podendo ser aplicados mesmo quando ocorram pequenos desvios de normalidade ou da varincia entre as amostras. Os testes no-paramtricos - so menos exigentes quanto natureza da distribuio dos dados experimentais, so em geral menos potentes. Se os dados experimentais no estiverem de acordo com os pressupostos para a aplicao de provas paramtricas (por exemplo, se no seguirem a distribuio normal), uma alternativa a transformao de dados dos seus valores (vide item Transformao de Dados, p. 37), de tal forma que os pressupostos possam ser satisfeitos. A transformao mais utilizada a converso dos dados em logaritmos decimais. Os elementos necessrios para a utilizao de um teste so: Formular as duas hipteses: a de nulidade (H0), que supe no haver diferena significativa entre os valores encontrados e os esperados; e a hiptese alternativa (H1), onde essa diferena existir; Estabelecer o nvel de significncia e, conseqentemente, as regies crticas de aceitao de H0; Definir se, se trata de um teste mono ou bicaudal; Tomar as amostras de tamanho n e registrar os valores, calcular a mdia (), a varincia (s) e o desvio padro (s) e; Escolher o teste estatstico adequado. Para maiores detalhes e saber com escolher um teste, consulte o Fluxograma Para Auxiliar na Escolha de Testes Estatsticos, p. 43.
7.1 Teste t - Student H certas ocasies em que o pesquisador deseja a comparao de suas amostras que provm de populaes diferentes. Neste caso, ao constatar as mdias destas amostras para verificar se h a diferena entre elas, estaremos indiretamente comparando as duas populaes. E por analogia, poderamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado), enquanto outro grupo nada receberia (grupo controle). O efeito do tratamento aplicado seria verificado pela comparao dos dois grupos. Nesses casos, o teste t seria indicado para tal comparao salientando que a varivel em anlise teria que apresentar os dados em distribuio normal ou aproximadamente normal. O valor t - student calculado dado pela frmula: X t= s2 n Onde: X : mdia; s= varincia e N: nmero de observaes
As formas de utilizao deste teste apresentam situaes diferentes como mostras os subitens abaixo:
24
7.1.1 Dados Pareados (Amostras Dependentes) Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indivduos ou animais ou plantas. H a uma preocupao em que haja um pareamento entre indivduos para que eles difiram somente no aspecto, tratado e no-tratado. Em um estudo foi separada uma populao de 10 crianas para os testes com administrao da dieta de folha de mandioca, obtivemos os seguintes dados: Tabela 2. Dados do peso de 10 crianas antes e depois da administrao a base de folhas de mandioca (dados fictcios). Item
1 2 3 4 5 6 7 8 9 10 Total
Peso (Kg) Antes Depois 24 28 23 25 24 25 23 29 30 32 31 34 31 38 14 19 20 22 18 23 !Configurao no !Configurao no vlida de caractere vlida de caractere
Diferena 4 2 1 6 2 3 7 5 2 5 !Configurao no vlida de caractere
Procedimento: a) Obtm-se as diferenas entre os valores antes e depois (quadro acima); b) Verifica-se a mdia aritmtica das diferenas; c) Verifica-se a varincia das diferenas e; d) Aplica-se o teste t - student. 37 b) X d = = 3,7 10 c) d=173; d=37; n= 10 173 1369 10 = 173 136,9 = 39,1 = 4,01 9 9 9
=t= 3,7 0,401 = 3,7 = 5,84 0,6332
s2 =
d) t =
3,7 4,01 10
O prximo passo e recorrer tabela do teste t - student (Tabela 11, p. 44) e compara-se o valor do t calculado com o valor crtico da tabela em funo de com n-1 graus de liberdade.
25
No exemplo acima, n= 10, portanto, devemos verificar os valores crticos com nove graus de liberdade. Desta forma, encontramos os valores 2,26 (5% ou =0,05) e 3,25 (1% ou =0,01). O valor encontrado (calculado) de t= 5,84 maior do que os valores da tabela. Conclumos pela rejeio de H0 (hiptese nula) em nvel de 1% de probabilidade (=0,01). Conclui-se que a adio do farelo de mandioca na alimentao contribuiu para o aumento do peso corpreo das crianas.
7.1.2 Dados Pareados (Amostras Independentes) Neste caso os dados so tratados de forma diferente, ou seja, possuem o mesmo valor n, mas no pertencem ao mesmo tratamento ou no h comparao entre antes e depois. O teste t utilizado nesta situao pressupe varincias diferentes, mesmo o as duas amostras possuindo valores n iguais. O valor t - student calculado dado pela frmula: X1 X 2 t= 2 2 s1 s 2 n1 n 2
Onde: X1 e X 2 : mdias das amostras; s1= e s2= desvios-padro das amostras; e n1 e n2: nmero de observaes das amostras. Esta equao deve ser utilizada, quando se conhece a varincia populacional (). Exemplo:
Tabela 3. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril, numa rea de re-vegetao (dados fictcios).
Leguminosa A Leguminosa B X1 = 38 cm X 2 = 33,5 cm s1= 5 cm s2= 6 kg n1= 26 n2= 26 Calculado o valor de t teremos: 38 - 33,5 4,5 4,5 4,5 4,5 t= = = = = = 2,9379 2,94 25 36 0,9615 + 1,3846 2,3461 1,5317 52 6 2 + + 26 26 26 26 Para calcular o Grau de Liberdade, procedemos da seguinte forma: GL= n1 + n2 2 ou (n11) + (n21). Para o nosso exemplo acima temos o GL = 26 + 26 2 = 50 ou (261) + (26 1)=50. Os valores a 5% e 1% de probabilidade so 2,68 e 2,01, respectivamente (Tabela 11, p. 44). Comparando o valor calculado (2,94) com os valores tabelados verifica-se que h diferena estatstica a 5% e a 1% de probabilidade. Desta forma, conclumos que h 99% de probabilidade de que a leguminosa A, possuam taxa de crescimento mdia mais elevada que a leguminosa B.
26
7.1.3 Dados No-Pareados - Varincias Desiguais (Heterocedsticas) Caso os dados no pertenam s amostras no pareadas, o teste T ser aplicado baseando-se na diferena entre as mdias das duas amostras, podendo as mesmas apresentarem tamanhos diferentes (n1 e n2). Supe-se, neste caso, que as amostras so independentes e que apresentam varincias desiguais. H uma regra prtica que identifica tal desigualdade a ponto de justificar tal procedimento. Se a relao entre as varincias apresentarem valor maior do que quatro, isto justifica a conduta sugerida. Por exemplo: s1= 27 e s2= 5 2 s1 27 Portanto = 2 = = 5,4 5 s2 Seguindo o critrio estabelecido, as amostras sero comparadas de acordo com este resultado. Exemplo: temos duas amostras de gua em que os dados quanto ao nvel de contaminao de mercrio apresentam os seguintes valores: Amostra A Amostra B X 1=160 ppm X 2=148 ppm s1 =74 ppm s2 =18 ppm n1 = 20 n2 = 32
O valor do teste t ser obtido atravs da expresso: X X2 t= 1 2 s1 s 2 + 2 n1 n 2 Calculado o valor de t teremos: 160 148 12 12 t= = = = 5,82 74 18 4,26 2,06 + 20 32 Para verificar a significncia deste valor, devemos calcular o grau de liberdade para o conjunto de dados, em que g calculado atravs da frmula:
2 s1 s 2 + 2 n1 n 2 2
g=
s2 1 n1
n1 1
s2 2 n2
n2 1
Para nosso exemplo seria: 2 74 18 + 4,26 2 20 32 g= 2 = = 24,8 25 2 0,73 2 74 18 20 + 32 20 1 32 1
27
Consulta-se ento a tabela do teste t-student (Tabela 11, p. 44), para verificar os valores crticos nos nveos de 5% e 1% de probabilidade para 25 graus de liberdade. Na tabela iremos obter o valor de 2,06 (5%) e 2,79 (1%). Desta forma, concluise que o valor obtido pata t = 5,82 significativo no nvel de 1% (1% ou =0,01), aceitando-se a hiptese alternativa, devido diferena significativa entre as mdias das duas amostras.
7.1.4 Dados No-Pareados - Varincias Iguais (Homocedsticas) A aplicao do teste t de Student para este caso realizada quando comparamos as mdias aritmticas de duas amostras independentes, nas quais as varincias apresentam valores aproximadamente iguais. Ainda neste caso, o procedimento metodolgico consiste em se utilizar uma varincia ponderada, considerando tambm o nmero de graus de liberdade de cada uma das amostras. Exemplo: para verificar se duas amostras de gua mineral de duas marcas possuem a mesma quantidade sulfatos, um pesquisador separou ao acaso, um lote de caixa de cada marca e ao acaso avaliou o contedo de uma garrafa de cada caixa. A marca A e marca B, possuam 10 e 7 caixas no lote selecionado, respectivamente. Ou seja, foram avaliados os contedos de 10 e 7 garrafas, respectivamente. Exemplo: Amostra (mg.L) Marca A Marca B 1,4 1,7 1,5 1,8 1,8 1,4 1,3 1,2 1,1 1,9 1,6 1,0 1,5 1,5 1,4 1,2 1,4 X A= 1,42 X B= 1,5 sA= 0,04 sB= 0,11 nA= 10 nB = 7
A varincia ponderada dada pela frmula: (n A 1) s 2 + (n B 1) s 2 2 A B s = nA + nB 2 Para nosso exemplo teramos: (10 1) 0,04 + (7 1) 0,11 = 9 0,04 + 6 0,11 = 0,36 + 0,66 = 1,01 = 0,0673 s2 = 10 + 7 2 15 15 15 Em seguida aplica-se a frmula para o teste t. XA XB t= 1 1 s2 + n nB A Assim temos:
28
t=
1,42 - 1,5
1 1 0,0673 + 10 7
0,8 0,8 = 1,98 0,1634 0,4043
Os valores de t tabelado para 15 graus de liberdade a 5 e 1% so respectivamente, 2,13 e 2,95. Desta forma, conclui-se que as duas marcas de gua mineral no apresentam diferentes propores de sulfatos em sua composio, sendo que a marca B possui maiores concentraes em relao marca A.
7.2 Teste Qui-Quadrado () O teste no-paramtrico de qui-quadrado foi desenvolvido por Pearson, sendo muito utilizado em pesquisas biolgicas. O grau de liberdade para o teste de o nmero de observaes/ classes menos 1. A frmula utilizada para calcular o : (fo - fe )2 2 = fe Onde: fo= freqncia observada e; fe= freqncia esperada. Portanto o valor do desvio elevado ao quadrado e dividido pela freqncia esperada. Em muitos casos utiliza-se este teste em experimentos probabilsticos, por exemplo, lanamentos de moedas ou proporo de doentes aps uma epidemia. No primeiro caso a probabilidade de lanarmos 10 vezes uma moeda e cair cara de 50% (freqncia esperada) e o valor real aps os lanamentos ser a freqncia observada. No segundo caso a freqncia esperada dever ser corrigida (calculada) atravs da Tabela de Contingncia. 7.3 Tabela de Contingncia Em muitos trabalhos experimentais, os dados colhidos representam ocorrncia de certos fenmenos que se podem classificar numa tabela, chamada tabela de contingncia. Estas tabelas tm como objetivo estudar a possvel associao entre duas variveis que classificam os dados. Em tal situao a H0 (hiptese nula) ser testar a independncia entre as variveis. Para poder calcular o , necessrio que tenhamos as freqncias tericas, o que se faz admitindo-se a hiptese de que todos os grupos reajam da mesma maneira diante da condio a elas imposta. A comparao entre os valores calculados de , para verificar a significncia pode ser obtido na tabela de (Tabela 12, p. 45). Exemplo: Num Shopping Center, foram escolhidas ao acaso pessoas com trs diferentes faixas etrias, para verificar a incidncia de diabete. Para tal, foram coletadas amostras de sangue. A H0 que no diferena entre as faixas etrias em relao a ter diabete.
Os dados coletados ao final do experimento foram: Faixa Etria Pessoas* (anos) Com diabete Sem diabete A: 10-15 2 (11,74) 75 (65,26)
77
29
Faixa Etria (anos) B: 16-21 C: 22-40
Pessoas* Com diabete Sem diabete 12 (11,28) 62 (62,72) 20 (10,98) 52 (61,02)

34 189
74 72 !Configurao no vlida de caractere
* Valores entre parnteses e em negrito representam as freqncias calculadas
Neste caso temos uma tabela de contingncia de 2 x 3, pois temos duas situaes as serem testadas (com ou sem diabete) em trs grupos (faixas etrias). O Grau de liberdades para tabelas de contingncias ser calculado pela seguinte frmula: GL = (n s 1) (n g 1) . No nosso exemplo teremos:
GL = (2 1) (3 1) GL = 1 2 GL = 2 Para calcular as freqncias realiza-se uma regra de trs simples como segue: 34 223 fe 77
Ou seja, fe A =
34 77 a fe da terceira coluna (sem diabete) calculada pela diferena 223 entre os valores da fe da 2 coluna (com diabete) e o valor da coluna total (). Os demais valores da linha subseqentes so obtidos com a realizao da regra de trs para cada valor da 2 coluna. Para calcular o do conjunto de dados utilizaremos a frmula vista anteriormente. Assim teremos: (2 11,74)2 + (75 65,26 )2 + (12 11,28)2 + (62 62,72)2 + (20 10,98)2 + 2 = 11,74 65,26 11,28 62,71 10,98
(52 61,02)2 2 = 94,87 + 94,87 + 0,5184 + 0,5184 + 81,36 + 81,36

61,02 11,74 65,26 11,28 62,72 10,98 61,02 2 = 8,09 + 1,45 + 0,05 + 0,01 + 7,41 + 1,33 2 = 18,34 De acordo com a Tabela 12 (p. 45), o valor para 2 graus de liberdade a 5 e 1% de probabilidade seriam 5,99 e 9,21, respectivamente. Desta forma, conclui-se que h diferena entre as faixas etrias, ou seja, a ocorrncia de diabete depende da faixa etria, segundo o teste de a 5 e 1% de probabilidade.
7.4 Teste de Kruskal-Wallis Este teste foi criado como substitutivo anlise de varincia paramtrica (Teste
F). Ele utilizado para que se verifique o contraste entre k amostras independentes. Os valores obtidos nas diversas amostras diferem entre si e, portanto, ser uma maneira se verificar se estas diferenas so devidas ao acaso ou se as amostras provm de populaes diferentes. No teste de Kruskal-Wallis todas as observaes recebem uma pontuao atravs dos nmeros 1, 2, 3, 4, ...n. Assim, ao menor valor se atribuir o valor 1, e assim sucessivamente at atingir o maior valor, que receber a maior pontuao. Da mesma forma que nos outros testes, sero consideradas sempre duas hipteses (H0 e H1).
30
Para o clculo do valor H do teste de Kruskal-Wallis utiliza-se a frmula: 2 12 k R H= i =1 i 3 (N + 1) N (N + 1) ni Onde: Ri = a soma das ordens atribudas ao tratamento i; k =corresponde ao nmero de tratamentos a comparar; ni = nmero de observaes em cada tratamento k e; N = nmero total de observaes em todos os tratamentos k. Na ordenao global que se faz para atribuio dos postos aos dados, considerase que nos casos de empate entre duas ou mais observaes, calcula-se a mdia das ordens que seria atribuda a elas se no houvesse o empate. Para verificao de significncia quanto s diferenas observadas entre tratamentos k, considera-se que o teste tem uma distribuio aproximada de , com k-1 graus de liberdade, ou seja, a tabela para comparar os valores a tabela de (Tabela 12, p. 45). Para exemplificarmos o teste de Kruskal-Wallis, supomos que foram testados ou experimentados trs mtodos para dessalinizao de gua. Assim sendo, foram coletadas diversas amostras de gua com diversas concentraes de sal, que no vem ao caso no exemplo a ser testado. Desta forma, testou-se o tempo de dessalinizao dos trs mtodos. Os resultados do experimento seguem abaixo: Mtodos A B C DD posto DD posto DD posto 17 11 20 12 32 17 14 9 5 3 35 20 4 2 9 6 26 15 8 5 13 8 34 18,5 29 16 34 18,5 21 13 6 4 2 1 45 21 15 10 11 7 50 23 22 14 47 22 RA=57,0 RC= 69,5 RC= 149,5 nA= 7 nC = 8 nC = 8 x A= 13,29 x B= 14,50 x C= 36,25
DD= dias para dessalinizao.
Para calcular H teremos: 57 2 69,5 2 149,5 2 12 H= + + 23 (23 + 1) 7 8 8
3 (23 + 1) 12 3.249 4.830,25 22.350,25 H= + + 3 24 23 24 7 8 8 12 H= (464,14 + 603,78 + 2.793,78) 3 24 552 12 H= (3.861,70 ) 72 H = 0,0217 3.861,70 72 552 H = 11,95
Como j foi dito este teste segue a distribuio do teste . Desta forma, sendo k = 3 (mtodos), os graus de liberdade correspondem a 2, pois GL= k-1. Portanto, os valores da tabela , correspondem a 5 e 1%, so 5,99 e 9,21, respectivamente.
31
Considerando que o valor calculado H=11,95 maior que os valores tabelados, rejeitamos H0 (no h diferenas entre os mtodos testados no tempo de dessalinizao das amostras), assim aceita a H1. Pelos valores R encontrados nos resultados verifica-se que o mtodo A e mais eficiente no processo de dessalinizao, pois leva menos tempo em comparao aos demais.
7.5 Teste de Friedman (Anlise da Varincia) Da mesma forma que o teste de Kruskal-Wallis, este teste um substitutivo ao teste F para anlise de varincia paramtrica, sendo utilizado quando as amostras, cujas observaes podem verificar valores com acentuada variao e em cada tratamento so constitudos blocos com a inteno de que isto resulte em um pareamento considervel entres os diversos tratamentos. De forma anloga aos demais testes, formula-se a H0 e a H1. Para testar a H0, utiliza-se tabela de , co grau de liberdade k-1. O valor do teste de Friedman (Xr2) calculado atravs da seguinte equao: 12 k 2 = i =1 R i2 3n (k + 1) r nk (k + 1) Onde: n = nmero de blocos; k = o nmero de tratamentos; Ri = a soma das ordens atribudas aos dados do tratamento i, nos blocos n. Para os casos de empate entre observaes de mesmo bloco, calcula-se a mdia aritmtica das ordens. A ordenao dos valores se d dentro dos blocos. Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamentos) em cinco reas diferentes, delimitados pelas caractersticas edficas do solo (blocos). Este solo foi exposto h poluentes de uma determinada fbrica. Assim sendo, quer saber se o poluente est distribudo de forma igual entre as profundidades avaliadas, ou seja, as concentraes do poluente so iguais em todas as profundidades (Hiptese Nula ou H0). Os resultados da anlise foram as seguintes:
Tabela 4. Resultados das amostras de cinco diferentes reas delimitadas pelas caractersticas edficas do solo, em quatro diferentes profundidades. Os dados apresentados referem-se a o poluente --16-Imaginol-Poluentis, em mg.mm de solo Blocos rea A rea B rea C rea D rea E Total 0-10 12 (2) 8 (2) 14 (2) 17 (3) 12 (2)
R1= 11
Profundidade (cm) 11-20 21-30 13 (3) 16 (4) 9 (3) 12 (4) 20 (3) 22 (4) 16 (2) 21 (4) 15 (3) 16 (4)
R2= 14 R3= 20
31-50 7 (1) 5 (1) 6 (1) 11 (1) 10 (1)

R4 = 5
*Os valores entre parnteses e em negrito correspondem ordenao dos tratamentos dentro dos blocos (linhas). Sendo o valor Ri a somas dos valores de ordenao nos tratamentos (colunas).
Substituindo os valores na frmula para o clculo do valor r, teremos:
32
12 112 + 14 2 + 20 2 + 5 2 3 5 5 5 4(4 + 1) 12 2 = (121 + 196 + 400 + 25) 75 r 5 4(4 + 1) 12 2 = 742 75 = 89,04 75 r 100 2 = 14,04 r 2 = r Como valor de graus de liberdade igual a k-1 graus de liberdade e sendo k=4 (tratamentos), tm-se 3 graus de liberdade. A partir da tabela (Tabela 12, p. 45). Os valores para 5 e 1% de probabilidade so 7,82 e 11,32, respectivamente. Sendo o valor de r calculado maior que os valores da tabela de , rejeita-se a hiptese nula (H0) e aceita a hiptese alternativa (H1). Ou seja, a profundidade de 21-30 cm tem uma maior concentrao do poluente que as demais profundidades avaliadas, nas reas onde foram coletadas amostras.
Correlao Linear
A correlao linear utilizada para verificar, num determinado conjunto, a dependncia entre duas sries de variveis. Trata-se de um valor abstrato que d uma idia sobre a dependncia entre os dados apresentados. A correlao pode ser denominada positiva ou negativa. Quando positiva h a variao positiva da varivel dependente (Y), quando h variao positiva da varivel independente (X) vice-versa. Quando negativa h a variao negativa de Y, quando h variao positiva de X e vice-versa.
8.1 Coeficiente de Correlao (r) O coeficiente de correlao e designado pela letra r. Pode ser utilizado para dados normais (Correlao de Pearson) e para dados no normais (Correlao de Spearman). 8.1.1 Correlao de Pearson Utilizado na anlise de dados que possuem distribuio normal. XY XY n r= (n 1) s X s Y Onde: r= coeficiente de correlao de Pearson; XY = soma dos produtos entre os valores de X e Y; X x Y= produto da soma dos valores de X e Y; n = nmero de amostras de X e Y; sX e sY= desvios padres de X e Y 8.1.2 Correlao de Spearman Este coeficiente de correlao baseia-se no rank dos valores X e Y e largamente utilizado em analise de correlao e dados no paramtricos. 6 d i2 rs = 1 3 n n Onde: rs= coeficiente de correlao de Spearman; d1 = a diferena entre cada valor X e cada valor Y correspondente; n = nmero de pares de dados.
33
Exemplo:
Tabela 5. Correlao de Spearman entre as notas brutas de matemtica e biologia (Zar, 1999). Estudante
1 2 3 4 5 6 7 8 9 10
Notas de Matemtica 57 45 72 78 53 63 86 98 59 71
Rank de Xi 3 1 7 8 2 5 9 10 4 6
Notas de Biologia 83 37 41 84 56 85 77 87 70 59
Rank de Yi 7 1 2 8 3 9 6 10 5 4
di
4 0 5 0 1 4 3 0 1 2 Total
di 2
16 0 25 0 1 16 9 0 1 4 72
n= 10; di2=72
6 (72 ) 432 432 1 1 1 0,4364 0,5636 3 10 10 1000 10 990 Para verificar se h significncia na correlao rs = 1
8.1.3 Aspectos Gerais da Correlao Linear Os valores de r variam entre -1 (associao negativa completa) e +1 (associao positiva completa). Quando um valor significativo, atravs do teste de t para r, apresentado de forma negativa dizemos que a correlao negativa e significativa, caso o valor seja positivo, dizemos que a correlao positiva e significativa. Para melhor entender melhor a explanao anterior, deve-se ter em mente que a varivel Y quem sofre variao em funo de X. Assim sendo, quando um valor negativo, quer dizer que com o aumento dos valores de X, Y diminuem e quando o valor positivo, existe uma proporcionalidade direta entre as variveis, ou seja, quando aumenta os valores de X aumenta os valores de Y (Figura 8).
3 2,5 2 1,5 1 0,5 0 0 20 40 60 A B 3 2,5 2 1,5 1 0,5 0 0 20 40 60
Figura 8. Correlao linear simples positiva (A); e inversa ou negativa (B), apresentando a linha de tendncia de regresso linear simples de dados fictcios.
A utilizao de um ou outro coeficiente depender da normalidade dos dados (veja o tpico Teste de Normalidade dos Dados, p.22).
34
8.2 Coeficiente de Determinao (r) Ao valor encontrado de r elevado ao quadrado (r) denomina-se coeficiente de determinao. Este coeficiente expressa a porcentagem de variao dos valores de Y em funo do valor X. Por exemplo, o valor r encontrado em determinada anlise igual a 0,30. Sendo r= 0,30, logo 30% da variao de Y so atribudas a X. 8.3 Coeficiente de Alienao (K) Este coeficiente funo do coeficiente de correlao, expresso pela frmula:
K = 1 r2 Este coeficiente exprime a ausncia de relao entre X e Y. Por exemplo, r= 0,30.
K = 1 0,30 K = 0,70 K = 0,8367 Desta forma, conclumos que h mais ausncia de relao do que intensidade de relao entre X e Y.
8.4 Significncia do Teste de Correlao Existem basicamente duas formas de verificar a significncia do var r, a mais simples baseia-se simplesmente nos intervalos de valores de r, a outra considera o teste t, conhecido como teste t para r. 8.4.1 Significncia Baseada nos Intervalos A classificao simples e basea-se nas Tabela 6 e Tabela 7, que acordo com a necessidade de com uma maior preciso intervalar (
Tabela 6) pode ser utilizada um ou outra tabela.
Tabela 6. Classificao do valor r atravs de intervalos de 0 a 1. Intervalo 0,0 0,20 0,21 0,40 0,41 0,70 0,71 0,90 0,91 1,0 Significncia Correlaes nulas Correlaes fracas Correlaes substncias Correlaes fortes Correlaes extremamente Fortes
Tabela 7. Classificao do valor r atravs de intervalos de acordo com e Teste de Rugg. Intervalo r < 0,15 0,15 < r < 0,29 0,30 < r < 0,49 r >0,50 Significncia r desprezvel r baixo r aprecivel r acentuado
A significncia das tabelas acima poder ser utilizada tanto na correlao de Pearson, quanto na de Spearmann.
35
8.4.2 Significncia Baseada no Teste t para r (Pearson) O teste de t para r calculado atravs da seguinte equao: r tr = n2 1 r2 Para este teste compara-se o valor de tr calculado com o valor de t, na Tabela 11 (p, 44), com n-2 graus de liberdade.
Anlise de Regresso
freqente o estudo da relao entre duas sries de variveis. Por exemplo, o peso de crianas de acordo coma dieta oferecida em diferentes dosagens. Sabe-se que determinadas dietas tm interferncia no ganho ou na reduo do peso de indivduos da raa humana. Portanto h um interesse de expressar essa relao sob a forma matemtica, atravs da apresentao de uma funo. Para identificao de uma possvel correlao entre sries de variveis, torna-se bastante eficaz a construo de um diagrama que se obtm em sistemas de eixos cartesianos. Hoje em dia os programas (softwares) de planilha de clculo e de estatstica, fornecem a equao da reta ou de outro tipo de regresso que se queira plotar. Desta forma, basta organizar os dado de forma correta e selecionar a criao de um grfico de disperso, para verificar a com o prprio nome diz, a disperso dos dados de Y em funo de X. A mostra como montar uma srie de dados para criao de um grfico de disperso no Microsoft Excel.
Tabela 8. Srie de dados da correlao da flutuao populacional do pulgo Toxoptera aurantii (Homoptera, Aphididae) em funo da brotao foliar de tangerina cv Ponc, sob cultivo orgnico na Fazendinha Agroecolgica, no perodo de outubro de 2002 e outubro de 2003 (Extrado de Rodrigues, 2004). Exemplo para o Microsoft Excel. A 1
2 3 T. a 0,00 0,00 20,00 5,00 40,00 7,50 40,00 2,50 60,00 2,50 0,00 0,00 30,00 2,50 50,00 10,00 100,00 12,50 100,00 25,00 100,00 60,00
4
Para criao do grfico de disperso basta selecionar os dados das linhas 2 e 3 Grfico e selecionar o grfico Disperso (XY) (Tabela 1) e selecionar o menu Inserir em seguida clique em Avanar > para configurar o grfico ou em Concluir para finalizar a criao. Aps criar o grfico selecione um dos pontos e em seguida clique no boto direito de mouse e selecione a opo Adicionar linha de tendncia... Ser exibida uma janela com mostra a Figura 9. O tipo de linha ser de acordo com a equao que melhor de adeqei a distribuio dos dados, lembrando que um evento biolgico somente poder ser explicado at uma equao de segundo grau, ou seja, caos opte por linha do tipo polinomial a ordem para eventos biolgicos dever ser 2.. A exibio da equao e do valor de R feita atravs da seleo da Aba Opes, selecionando a caixa de seleo: Exibir equao no grfico Exibir valor de R-quadrado no grfico
36
Figura 9. Janela de configurao da linha de tendncia (linha de regresso) e configurao da equao de regresso no Microsoft Excel. 9.1 Regresso Linear Simples Neste tipo de regresso possvel verificar a associao entre as sries de dados, plotar a linha e a equao da reta de duas variveis, X independente e Y dependente.
T. aurantii 70 60 50 40 30 20 10 0 -10 0 20 40 60 80 100 120 y = 0,3095x - 2,3472 R2 = 0,3984
Figura 10. Regresso linear simples entre a flutuao populacional de T. aurantii e a brotao foliar de tangerina cv. Ponc, em cultivo orgnico de tangerina cv. Ponc, na Fazendinha Agroecolgica, no perodo de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004).
9.2 Regresso Linear Mltipla Este tipo de regresso possibilita a associao de uma varivel dependentes (Z), com duas variveis independentes (X e Y), neste caso uma das varveis independentes (X) poder parcialmente interferir na outra varivel independente (Y). Como pode ser visto na Figura 11.
37
Figura 11. Correlao mltipla da amplitude trmica (varivel x), brotao (varivel y) e a flutuao populacional de Toxoptera citricida (varivel z), em cultivo orgnico de tangerina cv. Ponc, na Fazendinha Agroecolgica, no perodo de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004). 9.3 Regresso Mltipla Neste tipo de regresso possvel verificar a associao entre as sries de dados, plotar a linha de tendncia polinomial e a equao de segundo graus das duas variveis, X independente e Y dependente. Figura 12. Regresso T. aurantii mltipla entre a flutuao populacional de T. auran70 tii e a brotao foliar de 60 tangerina cv. Ponc, em 50 y = 0,0046x2 - 0,2141x + 7,1984 40 cultivo orgnico de tangeR2 = 0,4695 30 rina cv. Ponc, na Fazen20 dinha Agroecolgica, no 10 perodo de outubro de 0 2002 a outubro de 2003 0 20 40 60 80 100 120 (Adaptado de Rodrigues, 2004).
10 Transformao de Dados
Para uma aplicao vlida dos testes de significncia, baseados nas propriedades das curva normal, necessrio que o dados tenham uma distribuio normal (Figura 4, Figura 5 e Figura 6). As porcentagens, as contagens e as notas dadas a certas caractersticas qualitativas, exigem quase sempre essa transformao. Vamos apresentar nesta apostila algumas das principais transformaes de dados empregadas na normalizao dos dados e as situaes que cada uma se aplica.
38
10.1 Raiz Quadrada Essa transformao utilizada quando a varincia e proporcional a mdia, ou seja, quando h uma reduo dos valores de mdia e varincia diminui simultaneamente. freqentemente utilizado em dados biolgicos quando amostras so tiradas da distribuio de Poisson (isto , quando os dados consistem em ocorrncias aleatrias de objetos ou eventos). Transformando os dados utilizando suas razes quadradas resulta em uma amostra cuja distribuio normal. As equaes normalmente utilizadas so: x ' = x + 0,5 ou x ' = x + 1 ou x ' = x , sendo a primeira mais utilizada. O dados que se recomenda utilizar este tipo de transformao so dados de percentagens e contagens (nmeros inteiros). 10.2 Transformao Logartimica Este transformao utilizada principalmente quando as mdias e os desvios padres (erros), tendem a serem proporcionais, sendo, nesse caso, os coeficientes de variao aproximadamente iguais. utilizada, ainda, quando os dados so representados por nmeros positivos, ou porcentagens que abrangem uma grande amplitude de variao. Quando aparece o valor zero, utiliza-se a transformao x' = log (x+1). A base 10 para os logaritmos utilizada normalmente, por convenincia, porm qualquer outra base poder ser utilizada, desde que, seja especificada. 10.3 Transformao Angular (Arcoseno) Essa transformao utilizada quando os dados esto associados a uma distribuio binomial (presena-ausncia), como muitas vezes que um determinado carter aparece num total definido. o caso, por exemplo, do nmero de plantas sobreviventes em relao ao nmero total de plantas que deveriam estar presentes se nenhuma tivesse morrido aps a poluio de um determinado solo. Os dados so transformados em percentagens e, em seguida, so calculados os valores atravs da frmula p' = arcsen % , utilizando-se uma tabela apropriada. Nesse tipo de transformao, todos os dados deveriam estar baseados em um nmero de observaes iguais, mas o mtodo pode tambm ser utilizado quando esse nmero no rigorosamente igual sugerido na literatura que valores de 0 e 100%, sejam substitudos por n e 100- n, respectivamente, antes de entrar na tabela. 10.4 Consideraes Gerais Quando utilizada uma transformao de dados, todas as comparaes entre mdias so realizadas na escala transformada. Quando se achar prefervel no se apresentar os resultados na escala transformada, os dados finais devem ser transformados novamente para escala original. Por exemplo, elevar ao quadrado os valore submetido transformao de raiz quadrada.
11 Testes Especficos Para Anlise de Populaes e Comunidades

11.1 ndice de Diversidade e Dominncia Populacional Existe uma srie de ndice de diversidade, que podem ser utilizados em diversas situaes. A medida mais simples de diversidade de espcie o nmero de espcie (s), ou a riqueza de espcie. Vrios ndices de diversidade foram propostos que incorporam ambos S e N, o nmero total de indivduos em todas as espcies (Brower et al. 1997).
39
Quando o ndice de diversidade diminui, indica que h competio interespecfica e que o local menos diversificado, tendendo a dominncia de uma determinada espcie, porm quando h um aumento deste ndice, h um indicativo de que o local bastante diversificado, mesmo que o nmero de indivduos seja reduzido.
11.1.1 ndice de Margalef () Este ndice foi proposto por Margalef (1951) e tem como objetivo estimar o nmero de espcies e o nmero de indivduos de uma comunidade. Este ndice dado pela frmula abaixo: S 1 = log N Onde: S: Nmero de espcies levantadas; N: Nmero de indivduos total 11.1.2 ndice de Glason (Dg) semelhante ao ndice anterior, porm considera todas as espcies da amostra. S Dg = log N Onde: S = Nmero de espcies levantadas e N = Nmero de indivduos total 11.1.3 ndice de Menhinick (Dm) Este ndice semelhante aos dois anteriores, entretanto utiliza a raiz quadrada do nmero de indivduos total de cada amostra, numa tentativa de normalizar os dados. S Db = N Onde: S = Nmero de espcies levantadas e N = Nmero de indivduos total 11.1.4 ndice de Shanon-Wiener (H') considerado o ndice de diversidade mais completo, pois alm de considerar o nmero de espcies, considera a proporo de cada espcie em relao ao todo. Normalizando os dados e diminuindo a probabilidade de erro dos clculos. H ' = - p i log p i' Onde: p = proporo da espcie em relao ao nmero total de indivduos 11.1.5 ndice de Dominncia Berger-Parker (d) Este ndice estima a dominncia dentro de uma comunidade, ou seja, verifica se h ou no dominncia de uma determinada espcie numa comunidade. N d = Max N total Onde: NMax= o nmero de indivduos da espcie mais abundante e NTotal= total de indivduos amostrados. 11.2 Exemplo O exemplo hipottico abaixo da diversidade de cochonilhas em agroecossistema ctrico ilustra os ndices de diversidade das cochonilhas de um pomar de citros.
40
Tabela 9. ndices de diversidade de cochonilhas em agroecossiema ctrico. Perodo S N Dg 1994 10 268 1,609 4,118 1995 10 235 1,648 4,218 1996 10 323 1,557 3,985 1997 10 435 1,481 3,790 !Configura Mdia 10 1,574 4,045 o no vlida de caractere
Dm 0,611 0,652 0,556 0,479 0,575
11.3 ndice de Similaridade entre Populaes 11.3.1 Quociente de Similaridade O objetivo deste quociente verificar a similaridade entre duas comunidades ou habitat, no que se refere a composio especfica (espcies). Existem duas frmulas para calcular o QS propostas por Jaccard (1912) e Sorensen (1948), que so as seguintes: j Jaccard QS = (a + b j )
2j (a + b ) Onde: a = Nmero de espcies presente no habitat ou comunidade A, ou nmero de levantamentos com a espcie a; b = Nmero de espcies presente no habitat ou comunidade B; ou nmero de levantamentos com a espcie b e j = Nmero de espcies presente nos dois habitats ou comunidades ou nmero de levantamentos contendo, simultaneamente, as duas espcies.
Sorensen
QS =
11.3.2 Porcentagem de Similaridade Expressa os resultados semelhantes ao do Quociente de Similaridade, porm leva em conta no somente a composio das espcies, como tambm o nmero de indivduos, pois se calcula pelo somatrio dos menores valores das percentagens observadas de cada espcies em relao ao total de indivduos, nas duas comunidades (Southwood, 1971).
% S = (% a + % b + % c + ... + % n ) Onde: % a = menor porcentagem da espcie a observada no confronto das comunidades; % b = idem, para espcies b; % c = idem, para espcies c e % n = idem, para espcies n.
Tabela 10. Duas comunidades com sua composio de espcies em percentagem Comunidade
A B
Espcies a 15 33 b 35 14 c 27 36 d 23 17
A partir dos dados da Tabela 10, podemos calcular a %S: % S = (15 + 14 + 27 + 17 ) % S = 73%
41
11.3.3 ndice de Afinidade Este ndice estima a freqncia com que duas espcies ocorrem simultaneamente em determinada comunidade ou habitat. Foi proposto por FAGER (1957). dado pela frmula: 2j I AB = n A + nB Onde: nA = Nmero de ocorrncia da espcie A; nB = Nmero de ocorrncia da espcie B e j = Nmero de ocorrncia conjunta das espcies A e B;
Os valores mnimos de j significativos a 0,5% de probabilidade so dados na Tabela 15, p. 46.
11.3.4 Constncia Este parmetro indica a percentagem de uma determinada espcie em relao a todos os levantamentos realizados. dado pela frmula: n 100 C= N Onde: n = Nmero de coletas contendo a espcies em estudo e N = Nmero total de coletas realizadas. A Constncia de uma espcie poder ser classificada da seguinte forma: a) Espcies constantes presentes em mais de 50% dos levantamentos; b) Espcies acessrias presentes entre 2550% dos levantamentos; c) Espcies Acidentais Presentes em menos de 25% dos levantamentos.
11.3.5 ndice de Associao (IA) Verifica o ndice de o nvel de associao existente entre duas espcies, baseiase no total do nmero de indivduos de ambas as espcies que ocorrem simultaneamente nos levantamentos realizados. J IA = 0,5 A+ B Onde: A = Nmero total de indivduos da espcie A coletados ou amostrados em todos os levantamentos; B = Idem, para espcies B e J = Nmero de indivduos da espcie A e B nos levantamentos em que ocorrem simultaneamente. A significncia de j pode ser observada atravs da Tabela 15, p. 46.
42
12 Bibliografia
Arango, H.G. 2001. Bioestatstica Terica e Computacional. Rio de Janeiro: Guanabara Koogan, 235p. Beiguelman, B. 2002. Curso prtico de bioestatstica. Ribeiro Preto: FUNPEC, 5 Ed., 272p. Berger, W.H. & Parker, F.L. 1970. Diversity of Planktonic Foraminifera in Deep-Sea sediments. Science, 168: 1345-1347. Brower, J.E.; Zar, J.H. & von Ende, C.N. 1998. Field and Laboratory Methods for General Ecology. Quebecor: MC Graw Hill, 4th ed., 273p and software included. Centeno, A.J. 2002. Curso de Estatstica Aplicada Biologia. Goinia (Coleo Didtica, 3): Ed. Da UFG, 2 ed., 2 reimpr. 234p. Clark, L.R.; Geier, P.W.; Hughes, R.D. & Morris, R.F. 1967. The Ecology of insect Populations in Theory and Practice. Methuen & Co., London. 232p. Dauber, J.; Hirsch. M.; Simmering, D.; Waldhardt, R.; Otte A. & Wolters, V. 2003. Landscape structure as an indicator of biodiversity: matrix effects on species richness. Agriculture, Ecosystems and Environment, 98: 321-329. Fager, E.W. 1957. Determination and analysis of recurrent groups. Ecology, 38:586595. Gomes, F.P. 1990. Curso de Estatstica Experimental, Piracicaba: Nobel, 13 ed (revista e ampliada), 467p. Jaccard, P. 1912. The distribution of the flora in the alpine zone, NeroPhytal. 11:37-50. Lara, F.M. 1992. Princpios de Entomologia. Ed. cone, 3 ed. 331 p. Laroca, S. 1995. Ecologia: princpios e mtodos: Petrpolis: Vozes, 197p. Levine, D.M.; Berenson, M.L & Stephan, D. 2000. Estatstica: teoria e Aplicaes usando Microsoft Excel em portugus. Souza, T.C.P (Trad.). Rio de Janeiro: LTC. 811p. Lewinsohn, T.M & Prado, P. I. K.L. 1997.O uso de anlise multivariadas ecolgicas em estudos ambientais interdisciplinares. Caderno V, Campinas: UNICAMP, 43p. Magnusson, W. E. & Mouro, G. 2003. Estatstica [Sem] Matemtica: A ligao entre as questes e a anlise. Londrina: Planta. 126p. Mulekar, M.S. & Mishra, S.T. 2000. Confidence interval estimation of overlap: equal means case. Computational Statistics & Data Analysis, 34: 121-137. Rey, L. 2000. Planejar e redigir trabalhos cientficos, So Paulo: Edgard Blcher, 2 ed. (revista e ampliada), 318p. Rodrigues, P.C. 2002. Bioestatstica. Niteri: EdUFF. 3 ed. 339p. Rodrigues, W.C. 2004. Hompteros (Homoptera: Sternorrhyncha) associados tangerina cv. Ponc (Citrus reticulata Blanco) em cultivo orgnico e a interao com predadores e formigas. Seropdica, UFRuralRJ. 63f. Tese de Doutorado. Siegel, S. 1979. Estatstica no paramtrica. So Paulo: MC Graw Hill do Brasil. 169p. Silveira Neto, S.; Nakano, O; Barbin, D. & Villa Nova, N. A. 1976. Manual de Ecologia de Insetos. Ed. Agronmica Ceres, 419 p. Sorensen, T. 1948. A method of establishing groups of equal amplitude in plant sociology basead an similarity of species. Biol. Skr. 5:1-34 Southwood, T.R.E. 1971. Ecological Methods. Chapman and Hall Ltd., 391p. Vanzolini, P.E.1993. Mtodos estatsticos elementares em sistemtica zoolgica. So Paulo, Huirtec. 130p. Zar. J.H. 1999. Biostatistical Analysis. New Jersey: Prentice Hall. 4th ed., 663p and index included.
43
13 Anexos
Figura 13. Fluxograma Para Auxiliar na Escolha de Testes Estatsticos
Dados com Distribuio Normal Dados com Distribuio No Normal
2 Tratamentos 2 Tratamentos > 2 Tratamentos Dados Numricos divididos em Categorias Teste T ANOVA Teste F Teste 2 (Qui-Quadrado)
No dividido em blocos (Amostras compostas)
Dividido em Bloco
Dados Pareados
Dados no Pareados
No ser abordado Calcula Valor

2
S2Maior S2Menor < 4
S2Maior S2Menor 4
Teste de KruskalWallis
Teste de Friedman
Calcula Valor H Varincias iguais (Homocedsticas) Varincias desiguais (Heterocedsticas)
Calcula Valor
2r
Calcula Varincia Ponderada
Compara com valor 2 Tabelado ( = 5%)
Se
2calc 2tab Rejeita H0 Coloca *
Se
2calc < 2tab Aceita H0 Coloca ns
Calcula Valor T
Se Tcalc Ttab Rejeita H0 Coloca *
Compara com T tabelado ( =5%)
Compara com 2 tabelado ( =1%)
Compara com T tabelado ( =1%)
Se Tcalc < Ttab Aceita H0 Coloca ns
Se
2calc 2tab Coloca **
Se
2calc < 2tab Mantm *
Se Tcalc Ttab Coloca **
Se Tcalc < Ttab Mantm *
Conclui textualmente
44
Tabela 11. Valores de t -student em nveis de 5% e 1% (=0,05 a 0,01) de probabilidade3. Grau de liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 25 30 50 100 500 5% (=0,05) 12,71 4,30 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,20 2,18 2,16 2,14 2,13 2,12 2,11 2,10 2,09 2,09 2,06 2,04 2,01 1,98 1,96 1,96 1% (=0,01) 63,66 9,92 5,84 4,60 4,03 3,71 3,50 3,36 3,25 3,17 3,11 3,06 3,01 2,98 2,95 2,92 2,90 2,88 2,86 2,84 2,79 2,75 2,68 2,63 2,59 2,58
A tabela completa poder ser encontrada em Gomes (1990) e Levine et al. (1998).
45
Tabela 12. Valores de (Qui-quadrado) em nveis de 5% e 1% (=0,05 a 0,01) de probabilidade4. Grau de Liberdade 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 5% (=0,05) 3,84 5,99 7,82 9,49 11,07 12,59 14,07 15,51 16,92 18,31 19,68 21,03 22,36 23,68 25,00 26,30 27,59 28,87 30,14 31,41 32,67 33,92 35,17 36,42 37,65 38,88 40,11 41,34 42,30 43,77 44,99 46,19 47,40 48,60 49,80 50,99 52,19 53,38 54,57 55,76 1% (=0,01) 6,64 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 24,72 26,22 27,69 29,14 30,58 32,00 33,41 34,80 36,19 37,57 38,98 40,29 41,64 42,98 44,31 45,64 46,96 48,28 49,60 50,89 48,23 49,49 54,78 56,06 57,34 58,62 59,89 61,16 62,43 63,69
A tabela completa poder ser encontrada em Gomes (1990) e Levine et al. (1998).
46
Tabela 13. Valores crticos para o Coeficiente de Correlao de Spearman (rs) 5 n 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 30 35 40 45 50 55 60 65 70 75 80 85 90 95 100
(2)
0,50 0,600 0,500 0,371 0,321 0,310 0,267 0,248 0,236 0,217 0,209 0,200 0,189 0,182 0,176 0,170 0,165 0,161 0,156 0,152 0,148 0,144 0,142 0,128 0,118 0,110 0,103 0,097 0,093 0,089 0,085 0,082 0,079 0,076 0,074 0,072 0,070 0,068
0,10 1,000 0,900 0,829 0,714 0,643 0,600 0,564 0,536 0,503 0,484 0,464 0,446 0,429 0,414 0,401 0,391 0,380 0,370 0,361 0,353 0,344 0,337 0,306 0,283 0,264 0,248 0,235 0,224 0,214 0,206 0,198 0,191 0,185 0,180 0,174 0,170 0,165
0,05 1,000 0,886 0,786 0,738 0,700 0,648 0,618 0,587 0,560 0,538 0,521 0,503 0,485 0,472 0,460 0,447 0,435 0,425 0,415 0,406 0,398 0,362 0,335 0,313 0,294 0,279 0,266 0,255 0,244 0,235 0,227 0,220 0,213 0,207 0,202 0,197
0,01 1,000 0,929 0,881 0,833 0,794 0,755 0,727 0,703 0,679 0,654 0,635 0,615 0,600 0,584 0,570 0,556 0,544 0,532 0,521 0,511 0,467 0,433 0,405 0,382 0,363 0,346 0,331 0,318 0,307 0,297 0,287 0,279 0,271 0,264 0,257
A tabela completa poder ser consultada em Zar (1999).
47
Tabela 14. Valores para transformao arcsen % 6

% 0,0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 0 0 1,81 2,56 3,14 3,63 4,05+ 4,44 4,80 5,13 5,44 5,74 8,13 9,98 11,54 12,92 14,18 15,34 16,43 17,46 18,44 19,37 20,27 21,13 21,97 22,79 23,58 24,35+ 25,10 25,84 26,56 % 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 0 27,28 27,97 28,66 29,33 30,00 30,66 31,31 31,9532,58 32,21 33,83 34,4535,06 35,67 36,27 36,87 37,47 38,06 38,6539,23 39,82 40,40 40,98 41,55+ 42,13 42,71 43,28 43,85 44,43 45,00 % 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 0 45,57 46,1546,72 47,29 47,87 48,4549,02 49,60 50,18 50,77 51,35+ 51,94 52,53 53,13 53,73 54,33 54,94 55,55+ 56,17 56,79 57,42 58,05+ 58,69 59,34 60,00 60,67 61,34 62,03 62,72 63,44 % 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99,0 99,1 99,2 99,3 99,4 99,5 99,6 99,7 99,8 99,9 100,0 0 64,16 64,90 65,65 66,42 67,21 68,03 68,87 69,73 70,63 71,56 72,54 73,57 74,66 75,82 77,08 78,45 80,02 81,87 84,26 84,56 84,87 85,20 85,56 85,9586,37 86,86 87,44 88,19 90,00 -
Os sinais (+) e (-), seguindo ngulos terminados em 5, so orientaes para arredondamento a uma decimal.
A tabela completa poder ser consultada em Zar (1999).
48
Tabela 15. Valores mnimos de j, significativos a 0,5% (Southwood, 1971).

nA 5 6 7 8 9 10 20 30 40 50 60 70 80 90 100 1,0 5 5 6 7 7 8 14 19 25 29 36 41 46 52 57 nB/na 1,5 5 6 7 8 8 9 16 22 29 35 42 48 55 61 67 2,0 6 7 8 9 10 17 24 32 39 46 53 59 67 74
49
************* O minuto que voc est vivendo agora o mais importante de sua vida, onde quer que voc esteja. Preste ateno ao que est fazendo. O ontem j lhe fugiu das mos. O amanh ainda no chegou. Viva o momento presente, porque dele depende todo o seu futuro. Procure aproveitar ao mximo o momento que est vivendo, tirando todas as vantagens que puder, para seu aperfeioamento. C. Torres Pastorinho Minutos da Sabedoria, p. 154 *************

Estatística Aplicada

Enviado por

Dados do documento

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Estatística Aplicada

Enviado por

Direitos autorais:

Formatos disponíveis

6 Edio Revisada e Ampliada

Esta obra distribuda atravs da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br

Copyright2004-2008 Rodri Copyright2004-2008, W.C. Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Discretas Voc possui carro?

Qual sua altura?

Figura 2. Diagrama de tipos de dados

Por que Utilizar a Estatstica

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Tcnicas Estatsticas Para Anlise de dados

Apostila de Estatstica Aplicada

Valor central (X) 2,5 7,5 12,5 17,5

X.f 10,0 15,0 37,5 17,5 80,0

Aplicando a frmula para calcular a mdia ponderada teremos:

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

852 58 s = 60,8571 4,1429 2 s = 60,8571 17,1636 s = 43,6935 s = 6,6101 14 14

Apostila de Estatstica Aplicada

William Costa Rodrigues

Figura 4. Curva de distribuio normal simtrica, onde a mdia e s o desvio padro.

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

Testes Paramtricos e No Paramtricos

William Costa Rodrigues

Diferena 4 2 1 6 2 3 7 5 2 5 !Configurao no vlida de caractere

Apostila de Estatstica Aplicada

William Costa Rodrigues

Para nosso exemplo seria: 2 74 18 + 4,26 2 20 32 g= 2 = = 24,8 25 2 0,73 2 74 18 20 + 32 20 1 32 1

Apostila de Estatstica Aplicada

William Costa Rodrigues

0,8 0,8 = 1,98 0,1634 0,4043

Apostila de Estatstica Aplicada

Faixa Etria (anos) B: 16-21 C: 22-40

Pessoas* Com diabete Sem diabete 12 (11,28) 62 (62,72) 20 (10,98) 52 (61,02)

74 72 !Configurao no vlida de caractere

* Valores entre parnteses e em negrito representam as freqncias calculadas

(52 61,02)2 2 = 94,87 + 94,87 + 0,5184 + 0,5184 + 81,36 + 81,36

William Costa Rodrigues

Para calcular H teremos: 57 2 69,5 2 149,5 2 12 H= + + 23 (23 + 1) 7 8 8

Apostila de Estatstica Aplicada

31-50 7 (1) 5 (1) 6 (1) 11 (1) 10 (1)

Substituindo os valores na frmula para o clculo do valor r, teremos:

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

Apostila de Estatstica Aplicada

William Costa Rodrigues

11 Testes Especficos Para Anlise de Populaes e Comunidades