O Autor

:
William Costa Rodrigues é Agrônomo, Doutor em Agronomia (Fito-
tecnia) e Pós-Doutor em Entomologia, pela Univ. Federal Rural do
Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto
Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de
Ecologia
1
, Toxicologia
1
, Climatologia
1
, Estudos de Impacto Ambien-
tal
1
, Estatística Aplicada
2
e Auditoria Certificação Ambiental
2
, na gra-
duação e de Estatística Ambiental
1
e Biondicadores Ambientais
1
na
especialização de Planejamento e Gestão Ambiental
1
, onde também é
Supervisor Pedagógico. Atua como desenvolvedor de softwares agrí-
colas e Científicos. Coordenador Geral do projeto Entomologistas do
Brasil (www.ebras.bio.br) e Editor-Chefe do Periódico Online En-
tomoBrasilis (www.periodico.ebras.bio.br). Coordenador e autor de
capítulos no livro Citricultura Fluminense: Principais pragas e
seus inimigos naturais. Trabalha ativamente com análise estatística
em projetos na área agrícola e ambiental. O autor poderá ser contatado
através do e-mail: wcostarodrigues@yahoo.com.br. Para maiores
informações acesse o currículo Lattes do autor no seguinte endereço:
http://lattes.cnpq.br/9873385223698434.

Esta Obra:
A apostila Estatística Ambiental foi inicialmente utilizada no progra-
ma de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e
no Curso de graduação em Gestão Ambiental, na disciplina Estatística
Aplicada, tendo como objetivo informar o discente sobre os princípios
básicos da estatística, relacionando-a com a metodologia científica,
possibilitando um entendimento básico sobre o assunto. Hoje a aposti-
la é também utilizada em cursos de graduação e desde 2009 mudou o
título para Estatística Aplicada.

Esta obra é distribuída através da Creative Commons Licence.
http://creativecommons.org/licenses/by-nc-sa/2.5/br


Copyright©2003 Copyright©2003 Copyright©2003 Copyright©2003- -- -20 20 20 2010 10 10 10, W.C. Rodrigues , W.C. Rodrigues , W.C. Rodrigues , W.C. Rodrigues


1
Disciplina Ministrada na Universidade Severino Sombra
2
Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental
8ª Edição
Revisada e Ampliada
Com listas de Exercícios

Sumário

1 Introdução ................................................................................................................. 1
1.1 Crescimento e Desenvolvimento da Estatística Moderna ................................ 1
1.2 Variação ao Acaso ............................................................................................ 1
2 Ensaio x Experimentação ......................................................................................... 2
3 Conceitos Estatísticos ............................................................................................... 2
3.1 Estatística Descritiva ........................................................................................ 2
3.2 Inferência Estatística......................................................................................... 2
3.3 Tipos de Dados ................................................................................................. 3
3.3.1 Variáveis Aleatórias Categorizadas .............................................................. 3
3.3.2 Variáveis Aleatórias Numéricas ................................................................... 3
4 Por que Utilizar a Estatística .................................................................................... 4
5 Planejamento Experimental ...................................................................................... 4
5.1 Fases do Planejamento ..................................................................................... 4
5.1.1 Problema ....................................................................................................... 5
5.1.2 Informações Existentes ................................................................................. 5
5.1.3 Noções Gerais Sobre Hipótese ..................................................................... 5
5.1.4 Formulação das Hipóteses ............................................................................ 6
5.1.4.1 Elaborando as hipóteses........................................................................ 6
5.1.4.2 Hipótese Estatística x Hipótese Científica ........................................... 6
5.1.5 Testando as Hipóteses .................................................................................. 6
5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses ......................... 6
5.1.7 Aleatorização ................................................................................................ 7
5.2 Erros de Observações ....................................................................................... 7
5.2.1 Erros do Observador ..................................................................................... 7
5.2.2 Erro do Método de Observação .................................................................... 7
5.2.3 Por Falta de Resposta ................................................................................... 8
5.3 Controle dos Erros nas Observações ................................................................ 8
5.4 Métodos de Coleta de Dados ............................................................................ 8
5.4.1 Fontes Primárias ........................................................................................... 8
5.4.2 Fontes Secundárias ....................................................................................... 8
5.5 Pesquisa Observacional .................................................................................... 9
5.6 Pesquisa Experimental ...................................................................................... 9
5.6.1 Princípios da Experimentação .................................................................... 10
5.7 Tipos de Amostras .......................................................................................... 10
5.7.1 Amostras Simples ao Acaso ....................................................................... 10
5.7.2 Amostra Estratificada ................................................................................. 11
5.7.3 Amostra Sistemática ................................................................................... 11
5.7.4 Amostra por Área ....................................................................................... 11
5.7.5 Amostra por Conglomeradas ...................................................................... 11
5.7.6 Amostra Selecionada .................................................................................. 11
5.8 Determinação do Tamanho da Amostra ......................................................... 12
5.8.1 Tamanho da Amostra para Dados Discretos .............................................. 12
5.8.2 Tamanho da Amostra para Dados Contínuos ............................................. 13
6 Tabela ..................................................................................................................... 14
6.1 Elementos Fundamentais de uma Tabela Estatística ...................................... 14
6.2 Elementos Complementares de uma Tabela Estatística ................................. 14
6.3 Observações para a Construção de Tabelas Estatísticas ................................. 15
6.4 Sinais Convencionais Utilizados em Tabela Estatística ................................. 15

6.5 Tipo de Tabela ................................................................................................ 15
6.5.1 Tabela Simples (Unidimensional) .............................................................. 15
6.5.2 Tabela de Dupla Entrada ou Cruzada (Bidimensional) .............................. 16
7 Representação Gráfica dos Dados Estatísticos ....................................................... 16
7.1 Gráficos de Colunas ....................................................................................... 16
7.2 Gráficos em Barras ......................................................................................... 17
7.3 Gráficos de Linhas .......................................................................................... 18
7.4 Gráficos de Pizza ............................................................................................ 18
7.5 Gráficos Compostos ....................................................................................... 19
8 Probabilidade Estatística......................................................................................... 19
8.1 Regras para Combinar Probabilidade ............................................................. 21
8.2 Probabilidade Condicionada ........................................................................... 22
9 Técnicas Estatísticas Para Análise de dados .......................................................... 22
9.1 Medidas de Tendência Central ....................................................................... 22
9.1.1 Média Aritmética Simples ( X) .................................................................. 23
9.1.2 Média Aritmética Ponderada ...................................................................... 23
9.1.3 Média Aritmética de Dados Agrupados em Intervalos .............................. 24
9.1.4 Mediana (Me) ............................................................................................. 24
9.2 Medidas de Variação ...................................................................................... 25
9.2.1 Desvio-Médio (DM) ................................................................................... 25
9.2.2 Desvio Padrão ............................................................................................. 26
9.3 Variância ou Quadrado Médio ....................................................................... 27
9.4 Erro-Padrão da Média - s(x) ........................................................................... 27
9.5 Coeficiente de Variação.................................................................................. 28
9.6 Curva de Distribuição Normal ........................................................................ 28
9.6.1 Limites de Confiança .................................................................................. 29
9.6.2 Erro Padrão ................................................................................................. 30
9.7 Teste de Normalidade dos Dados ................................................................... 30
9.8 Teste de Klomogorov-Smirnov (K-S) ............................................................ 31
9.9 Teste de Shapiro-Wilks (S-W) ....................................................................... 31
10 Testes Paramétricos e Não Paramétricos ................................................................ 31
10.1 Teste t - Student .............................................................................................. 31
10.1.1 Dados Pareados (Amostras Dependentes) .............................................. 32
10.1.2 Dados Pareados (Amostras Independentes) ........................................... 33
10.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)........... 34
10.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas) ................. 35
10.2 Teste Qui-Quadrado (χ²) ................................................................................ 36
10.3 Tabela de Contingência .................................................................................. 36
10.4 Teste de Kruskal-Wallis ................................................................................. 37
10.5 Teste de Friedman (Análise da Variância) ..................................................... 39
11 Correlação Linear ................................................................................................... 40
11.1 Coeficiente de Correlação (r) ......................................................................... 40
11.1.1 Correlação de Pearson ............................................................................ 40
11.1.2 Correlação de Spearman ......................................................................... 41
11.1.3 Aspectos Gerais da Correlação Linear ................................................... 41
11.2 Coeficiente de Determinação (r²) ................................................................... 42
11.3 Coeficiente de Alienação (K) ......................................................................... 42
11.4 Significância do Teste de Correlação ............................................................. 42
11.4.1 Significância Baseada nos Intervalos ..................................................... 42
11.4.2 Significância Baseada no Teste t para r (Pearson) ................................. 43

12 Análise de Regressão .............................................................................................. 43
12.1 Regressão Linear Simples .............................................................................. 44
12.2 Regressão Linear Múltipla.............................................................................. 45
12.3 Regressão Múltipla ......................................................................................... 45
13 Transformação de Dados ........................................................................................ 46
13.1 Raiz Quadrada ................................................................................................ 46
13.2 Transformação Logarítimica .......................................................................... 46
13.3 Transformação Angular (Arcoseno) ............................................................... 46
13.4 Considerações Gerais ..................................................................................... 46
14 Testes Específicos Para Análise de Populações e Comunidades ........................... 47
14.1 Índice de Diversidade e Dominância Populacional ........................................ 47
14.1.1 Índice de Margalef (α) ............................................................................ 47
14.1.2 Índice de Glason (D
g
) ............................................................................. 47
14.1.3 Índice de Menhinick (D
m
) ...................................................................... 47
14.1.4 Índice de Shanon-Wiener (H') ................................................................ 47
14.1.5 Índice de Dominância Berger-Parker (d)................................................ 47
14.2 Exemplo .......................................................................................................... 48
14.3 Índice de Similaridade entre Populações ........................................................ 48
14.3.1 Quociente de Similaridade...................................................................... 48
14.3.2 Porcentagem de Similaridade ................................................................. 48
14.3.3 Índice de Afinidade ................................................................................ 49
14.3.4 Constância .............................................................................................. 49
14.3.5 Índice de Associação (IA) ...................................................................... 49
15 Lista de Exercícios.................................................................................................. 50
16 Bibliografia ............................................................................................................. 54
17 Anexos .................................................................................................................... 56


Índice de Tabelas
Tabela 1. Resultados da interpretação de 500 fotos aéreas de diversas áreas com
presença de mata. (dados fictícios) ........................................................................... 7
Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de folhas
de mandioca (dados fictícios). ................................................................................ 32
Tabela 3. Dados de um experimento com a taxa de crescimento de mudas de duas
leguminosas em sistema agro-silvo-pastoril, numa área de re-vegetação (dados
fictícios). ................................................................................................................. 33
Tabela 4. Resultados das amostras de cinco diferentes áreas delimitadas pelas
características edáficas do solo, em quatro diferentes profundidades. Os dados
apresentados referem-se a o poluente α-β-16-Imaginol-Poluentis, em mg.mm³ de
solo ......................................................................................................................... 39
Tabela 5. Correlação de Spearman entre as notas brutas de matemática e biologia (Zar,
1999). ...................................................................................................................... 41
Tabela 6. Classificação do valor r através de intervalos de 0 a 1. .................................. 42
Tabela 7. Classificação do valor r através de intervalos de acordo com e Teste de Rugg.
................................................................................................................................ 43
Tabela 8. Série de dados da correlação da flutuação populacional do pulgão Toxoptera
aurantii (Homoptera, Aphididae) em função da brotação foliar de tangerina cv
Poncã, sob cultivo orgânico na Fazendinha Agroecológica, no período de outubro
de 2002 e outubro de 2003 (Extraído de Rodrigues, 2004). Exemplo para o
Microsoft Excel. ..................................................................................................... 43
Tabela 9. Índices de diversidade de cochonilhas em agroecossiema cítrico. ................. 48
Tabela 10. Duas comunidades com sua composição de espécies em percentagem ....... 49
Tabela 11. Valores de t -student em níveis de 5% e 1% (α=0,05 a 0,01) de
probabilidade. ......................................................................................................... 57
Tabela 12. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0,05 a 0,01) de
probabilidade .......................................................................................................... 58
Tabela 13. Valores críticos para o Coeficiente de Correlação de Spearman (r
s
) ............ 59
Tabela 14. Valores para transformação % arcsen ....................................................... 60
Tabela 15. Valores mínimos de j, significativos a 0,5% (Southwood, 1971). ............... 61

Índice de Figuras
Figura 1. Diagrama de uma estatística descritiva, com seus diversos níveis de
categorias. ................................................................................................................. 3
Figura 2. Diagrama de tipos de dados estatísticos. ........................................................... 4
Figura 3. Interpretação dos dados experimentais. O gráfico à esquerda, baseado em
apenas dois pares de valores anotados para X e Y (que definem os pontos A e B),
parece sugerir que Y cresce à medida que X cresce, entretanto no gráfico à direita,
em que foram registrados outros valores intermediários (definidos pelos pontos B e
C), mostra que a relação entre X e Y obedece a uma lei mais completa. ............... 10
Figura 4. Produção de veículos no Brasil (1992-1996). ................................................. 16
Figura 5. Alunos formados na Universidade Federal de Pernambuco em 1999. ........... 17
Figura 6. Preferência de programas de televisão por sexo. ............................................ 17
Figura 7. Produção de cebola no Brasil em 1992. .......................................................... 17
Figura 8. Crescimento demográfico do Brasil de 1995 a 1999. ..................................... 18
Figura 9. Fatia de mercado de empresas de venda de seguros de saúde no estado do Rio
de Janeiro. ............................................................................................................... 18
Figura 10. Eleitores por estado da região Sudeste do Brasil. ......................................... 19
Figura 11. Flutuação populacional de pulgão preto dos citros em função da temperatura
média em 1996, no campus da Universidade Federal Rural do Rio de Janeiro. .... 19
Figura 12. Curva de distribuição normal simétrica, onde µ é a média e s o desvio
padrão. .................................................................................................................... 28
Figura 13. Curvas de distribuição normal das freqüências de X, tendo a mesma média
(µ) e diferentes graus de dispersão dos valores de X, isto é, desvios padrões (s)
diferentes. ............................................................................................................... 29
Figura 13. Curva normal padrão, tendo por parâmetros µ=0 e s= 1. As áreas sob a curva
assinaladas entre os traços verticais indicam as percentagens de valores de X aí
contidas. .................................................................................................................. 29
Figura 15. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos
afastamentos de X em relação à média µ, medidos em unidades de desvio-padrão.
A probabilidade (P) com que X possa ter valor menor que uma coordenada
escolhida (C) é indicada pela área, sob a curva, situada à esquerda de C. ............. 30
Figura 16. Correlação linear simples positiva (A); e inversa ou negativa (B),
apresentando a linha de tendência de regressão linear simples de dados fictícios. 42
Figura 17. Janela de configuração da linha de tendência (linha de regressão) e
configuração da equação de regressão no Microsoft Excel. ................................... 44
Figura 18. Regressão linear simples entre a flutuação populacional de T. aurantii e a
brotação foliar de tangerina cv. Poncã, em cultivo orgânico de tangerina cv. Poncã,
na Fazendinha Agroecológica, no período de outubro de 2002 a outubro de 2003
(Adaptado de Rodrigues, 2004). ............................................................................. 44
Figura 19. Correlação múltipla da amplitude térmica (variável x), brotação (variável y) e
a flutuação populacional de Toxoptera citricida (variável z), em cultivo orgânico
de tangerina cv. Poncã, na Fazendinha Agroecológica, no período de outubro de
2002 a outubro de 2003 (Adaptado de Rodrigues, 2004). ...................................... 45
Figura 20. Regressão múltipla entre a flutuação populacional de T. aurantii e a brotação
foliar de tangerina cv. Poncã, em cultivo orgânico de tangerina cv. Poncã, na
Fazendinha Agroecológica, no período de outubro de 2002 a outubro de 2003
(Adaptado de Rodrigues, 2004). ............................................................................. 45
Figura 20. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos ....................... 56

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
1

1 Introdução
Diariamente estamos envolvidos em análises estatísticas, por exemplo, quando
você é abordado na rua para responder qual o candidato irá votar na próxima eleição,
quando o IBGE faz uma visita a sua casa para o censo. Desta forma, você está fazendo
parte da estatística, mas não é só desta forma que você faz parte do infinito mundo da
estatística. Quando você está desempregado ou empregado, está fazendo parte da esta-
tística, quando seu salário aumenta, faz parte também. Bom, podemos ver que em quase
tudo, eu disse quase tudo, podemos empregar a estatística, obviamente que não pode-
mos deixar a estatística dominar nossas vidas, pois o principal objetivo desta ferramenta
é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor
indicar o caminho para uma tomada de decisão.
A estatística, como parte da matemática aplicada, trata da coleta, da análise e da
interpretação de dados observados. Estudando os mais variados fenômenos das diversas
áreas do conhecimento, ela representa um valioso instrumento de trabalho nos dias de
hoje.
Na área ambiental, o estudo da estatística justifica-se pela necessidade de desen-
volver pesquisas, realizar experimentos, e mesmo pela utilização dos resultados e pes-
quisas feitas, realizar experimentos, e mesmo pela utilização dos resultados e pesquisas
feitas por aqueles que a isso se dediquem, seja visando o aprimoramento de métodos e
técnicas de investigação, seja por exigências do próprio desenvolvimento do país.

1.1 Crescimento e Desenvolvimento da Estatística Moderna
Historicamente, o crescimento e o desenvolvimento da estatística moderna po-
dem ser relacionados a três fatores isolados – a necessidade dos governos de coletar
dados dos cidadãos, o desenvolvimento da teoria da probabilidade e o advento da in-
formática.
Foram levantados dados através dos registros históricos. Durante as civilizações
egípcias, grega e romana, os dados eram obtidos principalmente com o objetivo de reco-
lherem impostos e para o recenseamento militar. Na Idade Média, as instituições religi-
osas freqüentemente mantinham registros relativos a nascimentos, morte e casamentos.
No Brasil o censo é realizado a cada 10 anos, avaliando o crescimento populacional e a
distribuição desta população no território nacional entre outros aspectos avaliados. De
fato, a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de e-
quipamentos de tabulação no início do século XX. Isso levou ao desenvolvimento de
computadores mainframe e finalmente a revolução dos computadores pessoais.

1.2 Variação ao Acaso
O que dificulta ao trabalho de pesquisador e exige a análise estatística é a pre-
sença, em todos os dados obtidos, de efeitos fatores não controlados (que podem ser
controlados). Esses efeitos, sempre presentes, não podem ser conhecidos individualmen-
te e alteram pouco ou muito, os resultados obtidos. Eles são indicados pela designação
geral de variação do acaso ou variação aleatória. O efeito dessa variação do acaso é tal
que pode alterar completamente os resultados experimentais. Assim, ao comparar no
campo duas paisagens, poderá haver, se a avaliação for, em dias diferentes, uma interfe-
rência da luz solar, que irá interferir na distinção das cores. As variações ao acaso po-
dem ser exemplificadas como: temperatura ambiente, aferição do aparelho utilizado
para mensurar, variação nos intervalos de amostragem, variação no horário de coleta
dos dados, etc.

William Costa Rodrigues

P
á
g
i
n
a
2


2 Ensaio x Experimentação
Existem diferenças básicas entre os dois métodos de avaliar um dado científico.
As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a
forma de apresentação dos dados. Abaixo no Quadro 1 são listadas as diferenças entre
os dois métodos.

Quadro 1. Diferenças entre Ensaio e Experimentação.
Ensaio Experimentação
Tempo de duração da avaliação é curta, obje-
tivando somente uma pré-avaliação dos resul-
tados.
O tempo de avaliação deverá ser o suficiente
para que os dados coletado possam garantir
uma avaliação, com margem de erro menor
possível.
O número de amostras é reduzido. O número de amostra deverá ser suficiente
para avaliar os dados com a maior precisão
possível
O tamanho do experimento é reduzido. O tamanho do experimento deverá ser sufici-
ente para avaliar os dados.
As variações ao acaso são parcialmente con-
trolados, não havendo rigor.
As variações ao acaso são controladas com
rigor, possibilitando assim menor erro amos-
tral e na análise estatística.
A análise e interpretação dos dados não podem
possuir muito rigor e deve se adequar ao tipo
de ensaio realizado, número de amostras, nú-
mero de amostragens realizadas, etc.
A análise e interpretação dos dados deverão
ser rigorosas e adequadas ao tipo de experi-
mentação realizada.


3 Conceitos Estatísticos

3.1 Estatística Descritiva
Pode ser definida como os métodos que envolvem a coleta, a apresentação e a
caracterização de um conjunto de dados de modo a descrever apropriadamente as várias
características deste conjunto.
Embora os métodos estatísticos descritivos sejam importantes para a apresenta-
ção e a caracterização dos dados, foi o desenvolvimento de métodos estatísticos de infe-
rência, como um produto de teoria da probabilidade, que levou à ampla aplicação da
estatística em todos os campos de pesquisas atuais.

3.2 Inferência Estatística
Pode ser definida como os métodos que tornam possível a estimativa de uma
característica de uma população ou a tomada de uma decisão referente à população com
base somente em resultados de amostras (Figura 1).
Para tornar mais claro esta definição, as definições seguintes são necessárias:
Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado.
Uma amostra é a parte da população selecionada para análise.
Um parâmetro é a medida calculada para descrever uma característica de toda uma
população.
Uma estatística é a medida calculada para descrever uma característica de apenas uma
amostra da população.

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
3

Para melhor elucidar estes conceitos, digamos que há uma necessidade de saber
a opinião da qualidade de vida no campus de sua faculdade. A população, ou universo,
será todos os alunos da faculdade, enquanto a amostra consistirá os estudantes selecio-
nados para participar da pesquisa. O objetivo da pesquisa é descrever várias atitudes ou
características de toda a população (os parâmetros). Isto seria alcançado utilizando-se
as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características
de interesse da população. Desse modo, um aspecto principal da inferência é o processo
que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população.


Figura 1. Diagrama de uma estatística descritiva, com seus diversos níveis de categorias.
A amostra pode ser definida também como o conjunto de observações extraídas de uma fonte
(população), segundo determinadas regras e critérios, sendo a população a fonte de observa-
ções.
A população pode ser constituída de elementos simples, como é o caso dos seres humanos ou
das plantas superiores ou das bactérias, ou por elementos coletivos, como é o caso das irman-
dades com mais de um indivíduo, das famílias, ou das pessoas que habitam uma casa.

A necessidade da inferência estatística deriva da necessidade da amostragem.
Quando a população se torna grande, é geralmente dispendioso demais, consome muito
tempo e é muito cansativo obter informações sobre a população inteira. Decisões perti-
nentes às características da população devem ser baseadas na informação contida numa
amostra da população.

3.3 Tipos de Dados
Existem basicamente dois tipos de dados de características de variáveis aleató-
rias que podem ser estudadas e que produzem os resultados ou os dados observados:
categorizados ou numéricos (Figura 2).

3.3.1 Variáveis Aleatórias Categorizadas
Este tipo de variável produz respostas categorizadas. Por exemplo, você tem
carro? Sim Não.

3.3.2 Variáveis Aleatórias Numéricas
Produz respostas numéricas, podendo ser números discretos ou contínuos. A
resposta para pergunta: "Quantos livros você possui?", a resposta é discreta, enquanto a
reposta para "Qual a sua altura?", é contínua.
Dados discretos são respostas numéricas que surgem a partir de processo de con-
tagem e dados contínuos são repostas numéricas que surgem a partir de um processo de
medição.
P Po op pu ul la aç çã ão o/ /U Un ni iv ve er rs so o
A Am mo os st tr ra a
P Pa ar râ âm me et tr ro o
E Es st ta at tí ís st ti ic ca a
William Costa Rodrigues

P
á
g
i
n
a
4

Na Figura 2, segue exemplos de variáveis tanto para aleatórias categorizadas,
quanto para aleatórias numéricas (discretas e contínuas).

Figura 2. Diagrama de tipos de dados estatísticos.


4 Por que Utilizar a Estatística
A Estatística é uma área da matemática muito utilizada hoje em dia, entretanto
o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos
resultados e levam-na ao descrédito.
A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpre-
tação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recu-
sá-la.
Desta forma devemos ter muito cuidado ao utilizar à estatística, como a ferra-
menta que irá dizer se, por exemplo, "uma área será condenada por poluição de metais
pesado no solo". O que pode ocorrer é que a estatística irá indicar uma diferença numé-
rica, caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático
e tomar a decisão.


5 Planejamento Experimental

5.1 Fases do Planejamento
Quando realizamos um estudo, primeiro consideramos sua importância. Em se-
guida, traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização.
Se houver alguma informação que possa auxiliar como ponto de partida, esta poderá
fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar
nossa experiência. Estas informações deverão ser avaliadas e criticadas, pois os dados
poderão apresentar falhas ou nada representaram para o estudo do problema ou para a
elaboração das hipóteses a serem formuladas. Em suma, diremos que os dados selecio-
nados devem ser os estritamente necessários.

Tipos de Dados
Categorizadas Numéricas
Você possui
carro?
Sim Não
Discretas Contínuas
Qual sua altura? Quantas revistas você
assina?
5 1,75m
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
5

5.1.1 Problema
Ao planejar o problema que se vai pesquisar, deverá ser dada especial atenção
aos seguintes pontos:
Definição da importância do problema que se estuda;
Determinação do(s) objetivo(s) e finalidade da investigação.

Definir a importância do problema que se estuda é explicar o que vamos estudar.
Será impossível o planejamento das etapas subseqüentes se não ficar claramente evi-
denciado o problema a investigar. Não basta, por exemplo, dizer que se vai estudar a
biodiversidade da floresta atlântica, o efeito da poluição do rio Paraíba do Sul, pois pro-
vavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os
aspectos da biodiversidade ou da poluição. É importante também especificar sua exten-
são.

5.1.2 Informações Existentes
Antes de empreender o experimento, o pesquisador deve revisar tudo o que diz
respeito ao fato em estudo, com a finalidade de saber o que já se conhece sobre o assun-
to. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para
o estudo.
A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que
os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à
da pesquisa.
5.1.3 Noções Gerais Sobre Hipótese
A hipótese, resultado de um raciocínio indutivo (consciente ou subconsciente),
requer demonstração ou prova de sua adequação. Sabemos que a veracidade de uma
hipótese nunca pode ser demonstrada ou provada definitivamente. O que se faz é verifi-
car se ela não seria falsa; o que nos levaria a rejeitá-la e a formular outra, se necessário.
Enquanto não se possa demonstrar que ela é incorreta, mantém-se a hipótese
como boa. Dela deduzimos as conseqüências ou fazemos previsões.
Por sua vez, essas conseqüências e previsões serão testadas, para ver se a hipóte-
se adotada ainda se mantém ou não.
O planejamento de pesquisa consiste, portanto, na elaboração de um plano de
observação, ou de experimentação, destinado a contestar determinada hipótese, por mais
justa e sólida que possa parecer. A estratégia para isso depende da natureza do problema
em causa.
Muitas vezes, o que se tem em vista é verificar uma relação de causa e efeito:
queremos saber se a variável X e a variável Y, peculiares a determinado fenômeno,
guardam entre si relações de causa e efeito (direta ou indiretamente).
Na prática, teremos de montar uma observação ou uma experiência em que se
possa verificar o aparecimento de Y quando ocorre X, ou alterações dos valores de Y
quando varia X, de tal forma que se possa demonstrar a existência de uma relação cons-
tante entre os valores de X e Y. A variável X, que precede a outra, é chamada variável
independente, enquanto Y, que se supõe depender de X, é a variável dependente.
Do ponto de vista operacional, podemos encontrar duas situações. Uma própria
de fenômenos sobre os quais não podemos influir nem exercer qualquer controle, limi-
tando-se o estudo científico à observação de como X e Y se apresentam espontaneamen-
te, então, como observar e medir seus valores e como analisar as relações qualitativas e
quantitativas que possam existir entre eles (ver item Pesquisa Observacional, p. 9). A
outra seria a interdependência das duas variáveis.

William Costa Rodrigues

P
á
g
i
n
a
6

5.1.4 Formulação das Hipóteses
A estatística, testa duas hipóteses, que geralmente são denominadas de H0 ou
Hipótese nula e H1 ou Hipótese alternativa.
As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese
científica.

5.1.4.1 Elaborando as hipóteses
O pressuposto a hipótese estatística é sempre testar a nulidade dos dados. Por
exemplo, em um experimente está sendo testada a capacidade de duas substâncias pos-
suírem o mesmo poder de reação química, nas proporções utilizadas. A H0 deverá ser a
seguinte: As substâncias possuem a mesma capacidade de reação. Já a H1, será As
substâncias não possuem a mesma capacidade de reação.
A hipótese nula admite que os resultados sejam iguais ou com diferenças aleató-
rias entre os tratamentos.
n 3 2 1 0
X ... X X X : H = = =

Já a hipótese alternativa, testa a falta de nulidade ou falta de diferenças aleató-
rias entre os tratamentos.
n 3 2 1 a
X ... X X X : H ≠ ≠ ≠

5.1.4.2 Hipótese Estatística x Hipótese Científica
A hipótese estatística testa somente os dados numéricos obtidos através de um
modelo matemático fixo e contendo restrições, que não o permite avaliar variáveis
complexas e multáveis (clima, efeito antrópico, etc.).
A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela,
porém a resposta para entendimento dos resultados, não será somente baseada em um
modelo matemático. Desta forma, valerá além da experiência do pesquisador, uma boa
revisão bibliográfica e uma interpretação imparcial dos dados, somada com uma facili-
dade de concluir de acordo não somente pelos números, mas pela descrição do fato, seja
ela: biológica, social, etc.

5.1.5 Testando as Hipóteses
Existem várias formas de testar as hipóteses elaboradas. Normalmente testa-se
através de modelos matemáticos, que são denominados testes estatísticos, que se divi-
dem basicamente em Teste Paramétricos e Não Paramétricos, que serão visto no item
Técnicas Estatísticas Para Análise de dados, p. 22.

5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses
Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da po-
pulação, existe um risco de se chegar a uma conclusão incorreta. Na verdade, dois tipos
de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses:
Um erro do tipo I ocorre se a hipótese nula H
0
for rejeitada quando de fato é
verdadeira e não deveria ser rejeitada.
Um erro do tipo II ocorre se a hipótese nula H
0
for aceita quando de fato é falsa
e não deveria ser aceita.

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
7

5.1.7 Aleatorização
Na oportunidade em que organizamos os ensaios devemos proporcionar condi-
ções idênticas para cada tratamento, possibilitando que se houver algum erro este seja
atribuído ao acaso, ou seja, não tendencioso. Com este processo o erro experimental
poderá ser mensurado através do modelo matemático utilizado para analisar os dados.

5.2 Erros de Observações
Quanto aos componentes de uma população, o pesquisador terá a oportunidade
de verificar a existência de diferenças entre os mesmos.
Através da observação ou coleta de dados, haverá sempre uma discrepância en-
tre as amostragens realizadas, seja por falha no aparelho utilizado ou pela desatenção do
observador. São os erros experimentais oriundos de fatores que não podem ser controla-
dos.

5.2.1 Erros do Observador
O grau de treinamento dos observadores, o excesso de trabalho, seu estado físico
e condições ambientais podem ser as principais causas de erros das observações. Como
exemplo, poderíamos citar a experiência de que participaram cinco técnicos especiali-
zados em análise de foto aérea (foto interpretação), que examinaram em épocas separa-
das por um período de dois meses, as mesmas 500 fotos, com a finalidade de verificar a
degradação ambiental acentuada das áreas fotografadas. As fotos foram interpretadas
separadamente por cada técnico conforme a Tabela 1.
Erros cometidos pelo observador deverão ser considerados no modelo matemáti-
co escolhido para análise dos dados. Entretanto se estes erros forem muito distantes, ou
seja, forem muito discrepantes, o modelo matemático poderá não prevê erro tão grande.
Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro
experimental possível.

Tabela 1. Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata. (dados
fictícios)
Observador
Fotos onde a degradação foi considerada positiva (nº)
1ª leitura 2ª leitura
A 118 139
B 69 78
C 83 88
D 96 89
E 106 92

Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes
observadores coincidiram quanto ao número de fotos consideradas positivas para o refe-
rido diagnóstico. O mesmo foi verificado em relação a cada um dos observadores que
apresentaram resultados diferentes entre as duas leituras.
Devemos concluir que, tais discordâncias não refletem uma variação real, e sim
cometida por quem procedeu à leitura do material fotográfico.

5.2.2 Erro do Método de Observação
Os métodos de observação possuem erros mais ou menos importantes. Por isso
há uma preocupação natural de todo pesquisador em aperfeiçoá-los ou substituí-los por
outros métodos mais eficientes a fim de aumentar a exatidão dos resultados.
William Costa Rodrigues

P
á
g
i
n
a
8

Cada método em particular pode ter uma série de fatores que conduzem à distor-
ção dos resultados.

5.2.3 Por Falta de Resposta
Este tipo de erro poderá ou não ocorrer no experimento. Ele ocorrerá se não
houver a possibilidade de obter, dentro da metodologia, o dado que irá compor o con-
junto de informações a serem analisadas. Por exemplo, na coleta de informações a res-
peito da poluição de um determinado córrego, houve uma seca muito intensa secando a
água no ponto de coleta pré-determinado, desta forma, houve um erro por falta de res-
posta, assim não poderá o observador coletar em outro ponto, já que a metodologia pre-
viu que aquele era o ponto a ser amostrado.
Em experimento, que constituem blocos e parcelas, o erro por falta de resposta
ocorrerá através da perda de uma parcela.
Os modelos matemáticos que prevêem erros por falta de resposta são apropria-
dos, pois irão permitir uma flexibilidade de estimar o dado faltoso.

5.3 Controle dos Erros nas Observações
Apesar da distinção que procuramos dar ás diferentes fontes de erros. Devemos
lembrar que eles são bastante independentes.
Qualquer que seja a causa dos erros anteriormente abordados, estes poderão ser
reduzidos ou eliminados de acordo com as coisas que os determinam.
Os erros dependentes dos observadores podem ser minimizados por uma prepa-
ração e por um treinamento mais eficientes, assim como por uma melhoria das condi-
ções físicas e de trabalho.
Os erros causados pelos métodos de observação podem ser reduzidos selecio-
nando-se o funcionamento dos aparelhos utilizados.

5.4 Métodos de Coleta de Dados
Embora a maioria das experimentações as informações devam ser retiradas dire-
tamente no "campo", em muitas ocasiões podem-se aproveitar dados previamente obti-
dos por outras pessoas. No primeiro caso, consideramos que a informação foi recolhida
de fonte primária e no segundo caso dizemos que a fonte é secundária.

5.4.1 Fontes Primárias
Quando não há informações dos dados que queremos estudar, devemos ir a a-
campo para obtê-lo, assim a metodologia deverá prever a coleta de dados na fonte pri-
mária.
Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de
um determinado córrego. A coleta esta sendo realizada no campo, não sendo utilizados
dados previamente coletados por outro pesquisador.

5.4.2 Fontes Secundárias
Quando as informações que nos interessa já foram coletadas por outro pesquisa-
dor, podemos utilizá-las. Este tipo de fonte é chamado secundário, pelo simples fato, da
coleta dos dados ter sido realizada por outra pessoa. É óbvio que a qualidade deverá ser
levada em consideração, além do que, devemos verificar a metodologia utilizada, para
saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder.

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
9

5.5 Pesquisa Observacional
Em certos campos da biologia e das ciências sociais, por exemplo, os métodos
experimentais podem ser difíceis ou mesmo impossíveis de aplicar. Então a observação
científica adquire grande importância e deve ser feita com o máximo de cuidado.
Teorias tão fundamentais como a da evolução forma estabelecidas com base
exclusiva na observação da natureza. A viagem de Darwin ao redor do mundo permitiu-
lhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada
por Lamarck, Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. Dar-
win buscou correlacionar as características próprias das espécies com as condições do
meio em que vivia cada uma delas. Suas observações sobre as relações entre organismos
e o meio contribuíram decisivamente para a criação da ecologia.
A observação deve ser inteligente e sagaz, de modo permitir clara distinção entre
os fatos que são relevantes, para o estudo em causa, e os inúmeros outros que se apre-
sentam concomitantemente. Por isso deve ser atenta, precisa e metódica. Deve ser per-
sistente, completa, porém analítica.
Exige que o pesquisador seja curioso, paciente, objetivo e imparcial; capaz de
com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais, de idéi-
as fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente,
na praticam a validade de suas bases.
Sempre que possível, portanto, as observações devem ser corretamente registra-
das, repetidas e quantificadas, partindo-se de medidas rigorosas que permitam a análise
estatística dos dados.

5.6 Pesquisa Experimental
A experimentação ou simplesmente experimento é um método científico e de
observação dos fatos ou fenômenos naturais, sob condições particulares estabelecidas
pelo pesquisador.
Em sua essência, a experimentação deve permitir comparar o efeito de suas ou
mais condições ou tratamentos, bem definidos, sobre um atributo do organismo ou ma-
terial que é objeto da pesquisa.
As condições, que o pesquisador seleciona ou manipula na experiência, são ge-
ralmente denominadas variáveis dependentes, enquanto que as mudanças observadas em
conseqüência, no atributo, são as variáveis independentes. Assim, em estudos de dietas
ou os alimentos administrados seriam as variáveis independentes, e o crescimento em
peso ou altura, corresponderiam às variáveis dependentes.
Em experiências mais simples, os valores de uma variável independente (eixo
das abscissas - X), são confrontados com os dados da variável dependente (eixo das
ordenadas - Y). Por vezes, apenas duas condições da variável são testadas (por exemplo:
duas temperaturas, duas concentrações de uma substância, a presença ou a ausência de
luz, a administração ou não de um medicamento, etc.). Mas, como a resposta do orga-
nismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator
ensaiado, torna-se em geral necessário experimentar três ou mais valores de variável
independente, para que se possa apreciar seu efeito e estabelecer a lei do fenômeno.
(Figura 3).

William Costa Rodrigues

P
á
g
i
n
a
1
0

B
A
5
10
15
20
25
30
A B
X
Y
A
C
D
B
5
10
15
20
25
30
35
A B C D
X
Y

Figura 3. Interpretação dos dados experimentais. O gráfico à esquerda, baseado em apenas dois pares de
valores anotados para X e Y (que definem os pontos A e B), parece sugerir que Y cresce à medida que X
cresce, entretanto no gráfico à direita, em que foram registrados outros valores intermediários (definidos
pelos pontos B e C), mostra que a relação entre X e Y obedece a uma lei mais completa.

5.6.1 Princípios da Experimentação
A experimentação é a forma que o pesquisador, seja na área científica ou social,
encontra para estimar os dados da pesquisa que irá realizar.
Os princípios básicos da experimentação científica são:
a. A experimentação deverá ter impreterivelmente repetições, para assegurar que a
resposta não foi obtida por mera casualidade e sim por inerência do tratamento.
b. A casualização é um princípio fundamental, pois permite que o experimento possa
ser regido por efeitos gerais a todos os experimentos. Assim as parcelas dos trata-
mentos deverão ser distribuídas ao acaso pelo experimento, caso a área experimental
não apresente uniformidade;
c. O controle das variáveis aleatórias (chuva, vento, temperatura, efeito antrópico,
etc.), deverá ser controlado, caso não seja possível, recomenda-se que o efeito seja
igual para todos os tratamentos ou itens testados;
d. O experimento deverá ser realizado de acordo com uma técnica já conhecida e testa-
da;
e. Caso a técnica a ser utilizada seja original, esta deverá ser experimentada antes de
ser utilizada na experimentação;
f. Os modelos estatísticos a serem utilizados na experimentação deverão ser adequados
ao que se pretende responder, ou seja, deverá haver uma adequação da metodologia
(objetivos) com o modelo, para que os resultados possam levar o pesquisador a uma
resposta coerente e segura;
g. Amostragens regulares, quando possíveis, pois permitem uma melhor análise dos
dados;
h. Certificação de que as pessoas envolvidas na experimentação possuam treinamento e
conhecimento a cerca do modelo estatístico e da metodologia a ser empregada.

5.7 Tipos de Amostras
5.7.1 Amostras Simples ao Acaso
Um dos métodos mais usados. Emprega-se este processo, quando dispomos de
uma população que apresenta características homogêneas, isto é, pouca variação no con-
junto dos elementos, ou seja, variância próxima ou igual à média.

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
1
1

5.7.2 Amostra Estratificada
Utilizada quando dispomos de informações de que a população apresenta carac-
terísticas heterogêneas, isto é, grande número de fatores ou variáveis que podem com-
prometer as conclusões se não eliminados, através de um procedimento correto.
A população heterogênea é transformada em subpopulações homogêneas. Estas
subpopulações têm nome de estratos. O tamanho da amostra será determinado em fun-
ção da variância de característica a estudar em cada estrato, ou então considerando o
número de seus elementos e procedendo-se a um percentual de cada estrato. Obtém-se,
assim, uma amostra estratificada proporcional.
Considera-se este tipo de amostra que possibilita maior precisão quanto aos re-
sultados.

5.7.3 Amostra Sistemática
Aplicada quando a população apresenta um número finito de elementos e os da-
dos estão distribuídos aleatoriamente. O número de elementos da amostra será obtido da
seguinte forma:
Numa população constituída por 500 elementos e a amostra por 50 elementos,
onde N = 500 e n = 50 dividem-se N por n, isto é, 500 por 50, obtendo-se 10, em segui-
da, sorteia-se um número da primeira dezena e, a partir dele, escolhem-se os demais,
observando-se que se o número sorteado for, por exemplo, cinco, o segundo deverá ser
15, o terceiro será 25, e assim por diante, até obterem-se os 50 elementos que constitui-
rão a amostra.

5.7.4 Amostra por Área
Utiliza mapas geográficos de cidades e municípios. As unidades que comporão a
amostra serão sorteadas em função das condições de variabilidade existentes, podendo a
seqüência ser obtida através de sorteio de ruas e residências. A família poderá ser a uni-
dade mais simples a ser pesquisada.

5.7.5 Amostra por Conglomeradas
Visto que, pela estratificação, o uso de amostragem nos conduz a ganhar em
precisão. Embora a subdivisão da população seja em estratos, para que, de cada um,
utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco
mais trabalhoso – ele redunda conseqüentemente em ganho de precisão, o que é, no en-
tanto, compensado apenas pela diminuição das tarefas. Após a determinação dos con-
glomerados da população, sorteiam-se aleatoriamente os conglomerados que irão parti-
cipar da amostra.
Outros métodos de seleção poderão ser associados para determinação dos ele-
mentos de cada conglomerado para compor a fração amostral.

5.7.6 Amostra Selecionada
Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona
para avaliar o perfil de seus componentes, considerando que os mesmos apresentam
pelo menos uma característica em comum.
Por exemplo, na área de saúde é comum a realização de pesquisas de que são
selecionados os pacientes portadores de determinadas enfermidades. Poderia ser a doen-
ça de Parkinson, hepatite, tuberculose, entre outras. Portanto, neste caso, só farão parte
do estudo indivíduos portadores de enfermidade a ser pesquisada.

William Costa Rodrigues

P
á
g
i
n
a
1
2

5.8 Determinação do Tamanho da Amostra
É muito comum um pesquisador indagar qual o número de amostras a serem
estabelecidas para uma determinada pesquisa de campo, laboratório ou uma simples
investigação.
A determinação do tamanho da amostra depende de alguns fatores:
1. Tamanho da população alvo. Quanto ao número de elementos que compõe, pode-
mos classificar em finitas e infinitas. Na obtenção do tamanho amostral será importante
esta informação.
Na população finita, por exemplo, N= 3.000, a obtenção da amostra se torna
menos complexa do que nos casos de populações infinitas de (N= 800.000).

2. Variância ou porcentual. Em alguns casos são empregadas características que apre-
sentam determinada variabilidade. Em outros casos, observamos a percentagem de cer-
tas características em um conjunto. Dependendo do tipo de investigação, ora usamos a
variância, ora usamos a percentagem.

3. Nível de confiança (α αα α). Deve-se imaginar que, ao apresentarmos um valor percentu-
al, referente à taxa de prevalência do fenômeno estudado na amostra observada, aquele
valor tem, em relação ao valor percentual da população, uma diferença, que é, a priori,
arbitrada pelo pesquisador. Esta diferença arbitrada é considerada tendo em conta um
nível de acerto que normalmente consideramos de 95% ou 99% de confiança, ou seja, o
nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de
diferença proposto.
Os níveis de confiança propostos rotineiramente são de 95% e 99% de confian-
ça. Simbolizado pela letra z, este valor é substituído na fórmula (1) por uma constante
1,96, quando o nível de confiança corresponde a 95%, e por 2,58 quando o nível de con-
fiança é de 99%.

4. Informação da literatura (p). Toda pesquisa a realizar em que investigamos a taxa
de prevalência que fenômeno apresenta, na literatura, resultados os quais utilizaremos
quando da determinação do valor de n em relação ao valor de p. Chamamos q o valor
complementar de p para 100%, ou seja, p + q = 100%.

5. Erro de amostragem (e). Ao procedermos às técnicas de amostragem para determi-
nação do tamanho da amostra (n), entende-se que a amostra obtida apresentará um de-
terminado valor para a taxa de prevalência de certo evento. Normalmente é esperada
uma diferença em relação à taxa de prevalência da população-alvo. Esta diferença é
conhecida como erro de amostragem, a qual geralmente é arbitrada pelo pesquisador.

5.8.1 Tamanho da Amostra para Dados Discretos
Quando dispomos de variáveis discretas, utilizamos as seguintes fórmulas:
n
2
2
0
e
q p z × ×
= (Equação 1)

N
n
1
n
n
0
0
+
= (Equação 2)
Onde n
0
: número inicial; Z: nível e confiança; p: valor obtido de trabalho anteri-
ormente realizado; N tamanho da população; q: 100%-p; (P-p): erro arbitrado pelo pes-
quisador.
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
1
3


Quando se trata de trabalho original e não se dispõe de nenhum valor usamos
p=50%.
Em populações finitas, são utilizadas as fórmulas (1) e (2). Para populações infi-
nitas e para as que N seja um valor muito elevado, apenas a fórmula (1) deve ser utiliza-
da.
Exemplo: com a finalidade para verificar a incidência de doença de Chagas em
uma população de certa região, desejamos determinar o tamanho da amostra, sendo o
tamanho da população igual a 40.000 pessoas.
Considerando uma prevalência de anos anteriores igual a 20% com valor z =
1,96 (α=5%) e sendo estabelecida um erro de 4%, qual seria o número de elementos que
a amostra deveria conter?
A fórmula adequada para mensurar o tamanho da amostra é a equação 1. Desta
forma temos:
Z = 1,96; p = 20%; q = 80%; e (P-p)= 4%
384 100 3,84
16
600 . 1 84 , 3
n
4
80 20 96 , 1
n
0 2
2
0
= × ∴
×
= ∴
× ×
=
35 , 380
1,0096
384
n
40.0000
384
1
384
n = = ∴
+
=

O número de indivíduos que deveríamos examinar para a determinação da pre-
valência é de 384 para uma população infinita e 380, para uma população finita.

5.8.2 Tamanho da Amostra para Dados Contínuos
Para variáveis quantitativas contínuas, dispomos das seguintes fórmulas:
( )

X X
S z
n
2
2 2
0

×
= (Equação 1)

N
n
1
n
n
0
0
+
= (Equação 2)

Onde n
0
: número inicial; z: nível de confiança; X: média da amostra; X: média
da população alvo; S: desvio padrão obtido de trabalho anteriormente realizado. ( X-
X): erro arbitrado pelo pesquisador; N: tamanho da população.
Não sendo encontrado um desvio padrão em outro trabalho, procede-se a uma
pré-amostragem, retirando-se 30 observações da população e calculando-se o desvio
padrão da característica a ser estudada.
A utilização das fórmulas (1) e (2), deste item, tem procedimento semelhante ao
amostrado para variáveis discretas.

Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos in-
divíduos de uma comunidade, deparamos com o problema de definir o tamanho da a-
mostra. Apenas sabemos que a população desta comunidade é de aproximadamente de
25.000 indivíduos, o que torna impraticável utilizar todos os elementos. Face a isto,
resolvemos determinar o número de elementos que comporão a amostra. Selecionamos
William Costa Rodrigues

P
á
g
i
n
a
1
4

ao acaso 30 elementos, determinamos o valor do teor de hemoglobina de cada um e cal-
culamos a variância (medida de dispersão), cujo valor foi igual a 9mg
2
.
Para tal estudo, a fórmula a empregar para determinação do tamanho da amostra
será a fórmula 1 deste item.
A precisão considerada para esta pesquisa foi de 0,5mg e o valor z= 1,96. Substi-
tuindo na fórmula teremos:
138 138,2976 n
25 , 0
34,5744
n
25 , 0
9 8416 , 3
n
5 , 0
9 96 , 1
n
0 0 0 2
2
0
≅ = ∴ = ∴
×
= ∴
×
=
137 5411 , 137 n
1,0055
138,2976
n
000 . 25
138.2976
1
138,2976
n ≅ = ∴ = ∴
+
=
Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos
será igual a 138 para populações infinitas e 137 para populações finitas.

6 Tabela
Trata-se simplesmente de um quadro, que sintetiza em conjunto de observações,
com o objetivo de uniformizá-la e racionalizá-la, de forma a tornar mais simples e fácil
seu entendimento. Desta forma, uma tabela deve ser construída de modo a fornecer o
máximo de esclarecimentos, com o mínimo espaço, começando com sua legenda que
deve ser explicativa.

6.1 Elementos Fundamentais de uma Tabela Estatística
a) Legenda: é a indicação contida na parte superior da tabela, onde deve estar de-
finido o fato observado, com a especificação de local e época, referentes a esse
fato, ou seja, deve ser autoexplicativa;
o Exemplo: Número (N), freqüência relativa (F) de fêmeas e riqueza de
espécies (S) de moscas-das-frutas (Diptera: Tephritidae) capturadas nas
armadilhas McPhail, em três municípios da região Norte e dois municí-
pios da região Noroeste do Estado do Rio de Janeiro (maio de 2005 a
abril de 2007).
b) Corpo: construído por linhas e colunas, que fornecem o conteúdo das informa-
ções prestadas.
c) Cabeçalho: é a parte da tabela que apresenta a natureza do que contém cada co-
luna. Ou seja, apresenta o conteúdo referente a cada coluna.
o Exemplo:
Local Ocorrência (nº)

d) Coluna indicadora: é a que determina o que contêm cada linha. Ou seja, apre-
senta o conteúdo referente a cada linha.
Local Ocorrência (nº)
Região metropolitana
Região serrana
Região dos lagos
e) Linha/Coluna de Totais: quando pertinente a tabela deverá apresentar uma li-
nha e/ou coluna de totais, contendo a soma dos valores das linhas e colunas.

6.2 Elementos Complementares de uma Tabela Estatística
a) Fonte: designa a entidade/autor que forneceu os dados estatísticos.
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
1
5

o Exemplo: Fonte: IBGE, IBOPE, Ministério da Agricultura
b) Notas: esclarecimentos de natureza geral, a nota pode ser usada para indicar
uma informação extra do cabeçalho, que não cabe na respectiva célula, ou escla-
recer a natureza da informação.
Preferencialmente, as fontes e notas devem ser inseridas no rodapé da tabela, ou seja, logo a-
baixo dela e com fonte menor que o corpo.

6.3 Observações para a Construção de Tabelas Estatísticas
As recomendações aqui são meramente formais e facilitam o entendimento dos
dados inseridos dentre da tabela. Desta forma, uma tabela:
Não deverá ser fechada lateralmente;
As casas (células) não deverão estar em branco, apresentando sempre um núme-
ro ou sinal convencional;
As linhas horizontais deverão estar presentes somente na divisão do cabeçalho e
corpo e entre o corpo e a linha de total.
As linhas verticais devem ser evitadas, exceto quando houver a coluna de total,
onde o uso é facultativo, mas em geral não se usa.
Poderão ser utilizadas linhas alternativas ou em faixas, com fundo cinza claro,
em geral 10%, para diferenciar uma linha da outra e facilitar a leitura da tabela,
principalmente quando há muitas linhas. Inclusive este sombreamento pode ser
utilizado no cabeçalho e na linha de total da tabela.

6.4 Sinais Convencionais Utilizados em Tabela Estatística
São também convenções, referentes ao aspecto formal de uma tabela estatística:
Três pontos (...): quando o dado (informação) existe, mas não dispomos dele;
Ponto de Interrogação (?): quando há dúvida quanto à exatidão de determinado
dado;
O zero (0): quando o valor for realmente zero;
Traço horizontal (- ou −): quando não houve dado na coleta do mesmo.
Mais ou menos (±): quando os dados inseridos na tabela representam a média e o
desvio-padrão utiliza-se deste símbolo, ou seja, o número antes representa a mé-
dia e depois representa o desvio padrão, respectivamente.
o Exemplo: 12,54±3,2455

6.5 Tipo de Tabela
6.5.1 Tabela Simples (Unidimensional)
É uma tabela que possui dados ou informações relativas a uma única variável.
Ou seja, uma coluna com a variável que se quer representar e outras colunas com os
dados numéricos a serem exibidos pela tabela.
Exemplo:
Taxa de crescimento de variedades de leguminosas submetidas a um composto rico em
matéria orgânica, no município de Vassouras, RJ, de janeiro a abril de 2009.
Variedade Taxa de Crescimento (cm)
Amendoim forrageiro 20
Crotalaria juncea 15
Crotalaria spectabilis 19
Gliricídia 08

William Costa Rodrigues

P
á
g
i
n
a
1
6

6.5.2 Tabela de Dupla Entrada ou Cruzada (Bidimensional)
Este tipo de tabela possui dados relativos a mais de uma variável. Ou seja, uma
coluna para a variável e outras colunas para cada variável, que serão representadas nu-
mericamente nas linhas.
Programação
Gênero
Total
Masculino Feminino
Noticiário 08 05 13
Musical 10 10 20
Novela 07 15 22
Esportivo 15 06 21
Outros 05 03 08
Total 45 39 84


7 Representação Gráfica dos Dados Estatísticos
Gráfico estatístico nada mais é do que uma forma de apresentação dos dados
estatísticos. Tem como objetivo produzir, em quem o analisa, uma informação direta e
objetiva do fenômeno em análise.
Convém ressaltar que o mais relevante é interpretar os resultados, ou seja, reco-
nhecer no gráfico alguma(s) medida(s) estatística(s) que possa(m) eventualmente se-
ja(m) demonstrada(s) no gráfico.

7.1 Gráficos de Colunas
É a representação estatística de uma série estatística por meio de retângulos con-
tíguos, dispostos verticalmente, ou seja, perpendiculares ao eixo x e paralelas ao eixo y.
As barras possuem mesma base (eixo x), entretanto seus valores dependem dos dados
das variáveis dependentes (eixo y).
0
100
200
300
400
500
600
700
800
900
1000
92 93 94 95 96
Ano
V
e
í
c
u
l
o
s
(
m
i
l
h
a
r
e
s

d
e

u
n
i
d
a
d
e
s
)

Figura 4. Produção de veículos no Brasil (1992-1996).
Este tipo de gráfico é utilizado geralmente para séries temporais (Figura 4), séries específicas
(Figura 5) ou séries geográficas (Figura 6).
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
1
7

0
50
100
150
200
250
Advogados Médicos Engenheiros
Profissão
A
l
u
n
o
s

(
n
º
)

Figura 5. Alunos formados na Universidade Federal de Pernambuco em 1999.
0
2
4
6
8
10
12
14
16
Masculino Feminino
Sexo
P
e
s
s
o
a
s

(
n
º
)
a - Noticiário
b - Musical
c - Novela
d - Esportivo
e - Outros

Figura 6. Preferência de programas de televisão por sexo.
7.2 Gráficos em Barras
É a representação de uma série estatística por meio de retângulos dispostos hori-
zontalmente, ou seja, perpendicular ao eixo y e paralelo o eixo x. Os retângulos possuem
mesma altura e os seus comprimentos são variáveis, de acordo com os valores das vari-
áveis dependentes.
0 50 100 150 200 250 300 350
Minas Gerais
Pernambuco
Sta. Catarina
R.G. Sul
São Paulo
Produção cebola (mil toneladas)

Figura 7. Produção de cebola no Brasil em 1992.
É normalmente utilizado em séries geográficas ou na representação de séries específicas.

William Costa Rodrigues

P
á
g
i
n
a
1
8

7.3 Gráficos de Linhas
Este tipo de gráfico é utilizado em séries temporais ou que os dados tenham re-
lação “entre si”. Um exemplo é a flutuação populacional de um animal ou planta ou a
flutuação demográfica de um país (Figura 8).

0
10
20
30
40
50
60
70
80
90
1995 1996 1997 1998 1999
Ano
P
o
p
u
l
a
ç
ã
o

(
e
m

m
i
l
h
õ
e
s
)

Figura 8. Crescimento demográfico do Brasil de 1995 a 1999.

7.4 Gráficos de Pizza
São gráficos utilizados em séries geográficas que possibilitam a visualização
dos resultados na forma de porcentagem. Vale ressaltar que os valores a serem especifi-
cados devem ser os valores reais, pois os programas calculam automaticamente a por-
centagem.
49%
16%
11%
24%
Empresa A
Empresa B
Empresa C
Empresa D

Figura 9. Fatia de mercado de empresas de venda de seguros de saúde no estado do Rio de Janeiro.
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
1
9


Figura 10. Eleitores por estado da região Sudeste do Brasil.
Nete caso há uma subdivisão, separando os dois menores valores de percentagem dos dados


7.5 Gráficos Compostos
Podemos ter gráficos compostos e assim trabalhar com duas séries independen-
tes. Como é o caso de séries específicas e séries temporais. Ou mesmo variáveis com
mesma série, mas com escalas numéricas diferentes (Figura 11).

0
5
10
15
20
25
30
35
40
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Período levantamento
T
e
m
p
e
r
a
t
u
r
a

(
º
C
)
0
2
4
6
8
10
12
F
l
u
t
u
a
ç
ã
o

p
o
p
u
l
a
c
i
o
n
a
l

(
%
)
Temperatura média Toxoptera citricida

Figura 11. Flutuação populacional de pulgão preto dos citros em função da temperatura média em 1996,
no campus da Universidade Federal Rural do Rio de Janeiro.


8 Probabilidade Estatística
Os acontecimentos na natureza ocorrem e se repetem segundo normas e leis. A
maior ou menor ocorrência de um determinado acontecimento deve-se às circunstâncias
nas quais ele se realiza. Assim não podemos assumir como certo a ocorrência do acon-
tecimento, uma vez que está sujeita a uma série de fatores. Contudo, podemos tomar
decisões, tendo-se em vista experiências anteriores, com bases nos mais prováveis resul-
William Costa Rodrigues

P
á
g
i
n
a
2
0

tados. Essa tomada de decisão, quando o conhecimento da ocorrência de um determina-
do acontecimento, não é exata, é feita através do conceito de probabilidade.
A probabilidade pode ser conceituada, usando o bom senso, como o grau de
crença que podemos ter na ocorrência de qualquer acontecimento eventual.
Para firma esta ilustração, consideremos duas urnas, A e B, cada qual contendo
200 bolas de igual tamanho e mesmo material, distribuídas sem qualquer regularidade
em seu interior. A respeito dessas urnas temos a informação de que existem 100 bolas
de cor preta e outras tantas de cor vermelha na urna A, enquanto a urna B contém 199
bolas de cor preta e apenas uma de cor vermelha.
Suponhamos, agora, um jogo no qual as bolas de urna A devem ser extraídas
uma de cada vez, às cegas e não exaustivamente, isto é, com retorno imediato de cada
bola extraída dessa urna. Se nos pedíssemos para optar por uma aposta na retirada de
uma bola preta ou na de uma bola vermelha da urna A, responderíamos, prontamente,
que nos é indiferente apostar em uma ou na outra cor. Por que prontamente? Talvez
porque saibamos, empiricamente, que, por existir a mesa quantidade de bolas pretas e de
bolas vermelhas distribuídas na urna A sem qualquer regularidade, isto é, ao acaso, não
se deve esperar que as bolas com uma das cores sejam extraídas preferencialmente.
Pelas mesmas razões empíricas diríamos que, em relação à urna B, optaríamos
por apostar na extração de uma bola de cor preta, pois o nosso grau de crença a respeito
da extração de uma bola preta da urna B é maior do que aquele a respeito da extração de
uma bola vermelha.
O bom senso que empregamos em relação aos jogos com as urnas de nosso e-
xemplo pode ser traduzido em termos matemáticos por intermédio do conceito clássico
de probabilidade. Assim, pode-se dizer que num conjunto de n casos igualmente possí-
veis e mutuamente exclusivos, submetidas às mesmas condições físicas, se x desses ca-
sos são favoráveis a um acontecimento a, a probabilidade do acontecimento a será ex-
pressa por intermédio da divisão do número de casos favoráveis ao acontecimento a
pelo número de casos igualmente possíveis e mutuamente exclusivos, isto é:
n
x
P(a) =
Em relação à urna A, pode-se dizer que existem n = 200 casos igualmente possí-
veis e mutuamente exclusivos ou incompatíveis, isto é, se uma determinada bola for
retirada em uma extração, as outras necessariamente não serão naquela mesma extração.
Desses casos, 100 são favoráveis a retirada de uma bola preta e 100 favoráveis a retirada
de uma bola vermelha. Desse modo, se apostarmos na extração de uma bola preta tere-
mos um número de caso favoráveis x = 100, portanto:
2
1
200
100
P(a) = = , isto é, 0,5 ou 50%
Em relação à urna B, teremos que a probabilidade de extrair uma bola preta será:
0,995
200
199
P(a) = = ou 99,5%
Em relação à extrair uma bola vermelha termos:
0,005
200
1
P(a) = = ou 0,5%

De outra forma, seja F o número de casos favoráveis à ocorrência do evento A e
C o número de casos contrários. Chamamos de probabilidade de ocorrência de A na
razão do número de casos favoráveis à ocorrência (F) pelo numero de casos totais (F +
C).
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
2
1

C F
F
(A) p
+
=
A fórmula acima não é aplicável se o espaço amostrado for finito e os acontecimentos igualmen-
te prováveis.
Exemplo 1:
Supondo que uma sacola contendo 3 bolas amarelas, 4 vermelhas e 6 brancas.
Qual a probabilidade de tirarmos uma bola amarela?
Solução:
Nº casos favoráveis (F) = 3
Nº casos contrários (C) = 10 (4 +6)
Nº casos totais (F+C) = 13 (10 + 3)
0,2308
13
3
10 3
3
(A) p = =
+
=
A probabilidade é de 0,2308, ou seja 23,08%. Assim a probabilidade poderá ser
expressa em porcentagem, já que assumimos que F+C é o total, este valor passa a ser
100%.
Nesse caso a probabilidade irá variar entre 0 e 1, como podemos verificar na
item 8.1 Regras para Combinar Probabilidade.


Exemplo 2:
Qual a probabilidade de um dado espermatozóide conter um cromossoma x?
Solução:
Partindo da pressuposição de que é igualmente possível ter x e y, a probabilidade
é de ½.
Dois conceitos são fundamentais para o entendimento da probabilidade:
Se a ocorrência de um evento é certa, sua probabilidade é 1. Se sua não-
ocorrência é certa, sua probabilidade é 0 (zero). Em qualquer outro caso, a pro-
babilidade é uma fração entre 0 e 1;
Se a probabilidade de um evento acontecer é p, a probabilidade de não acontecer
é 1-p. Chamamos aqui a probabilidade de “ um evento não ocorrer “ de q. Assim
temos:
o q = 1-p logo, p + q = 1

8.1 Regras para Combinar Probabilidade
As duas regras a seguir representam um método simplificado de trabalhar e ope-
rar com probabilidade.
Regra 1 – A probabilidade de um grupo de evento, mutuamente exclusivos, ocor-
rer é a soma das probabilidades de cada evento.
Dois eventos são ditos mutuamente exclusivos se a ocorrência de um deles, em
dado ensaio, exclui a possibilidade de ocorrência do outro.
Exemplo:
Qual probabilidade de tirarmos um Ás ou uma Rainha de um baralho de cartas?
Solução:
A probabilidade de tirarmos um Ás é 4/52, pela definição de probabilidade. É
também válido para uma rainha.
Desta forma:
13
2
52
4
52
4
p = + = (pela regra 1)
William Costa Rodrigues

P
á
g
i
n
a
2
2

Regra 2 – A probabilidade de que dois ou mais eventos independentes ocorram
juntos é o produto das probabilidades individuais.
Exemplo:
Dois pais de olhos castanhos são heterozigotos para o alelo olhos azuis?
¼ é dado pela primeira Lei de Mendel.
16
1
4
1
4
1
p = × =

8.2 Probabilidade Condicionada
Sejam A e B dois eventos associados a um experimento E. Representamos por
P(B/A) a probabilidade condicionada do evento B quando A tiver ocorrido. Sempre que
calculamos P (B), dado A, estaremos essencialmente calculando P (B) em relação ao
espaço amostral reduzindo a (A) em lugar de fazê-lo em relação ao espaço amostral (S).
quando calculamos P (B/A), estaremos nos perguntando o quanto provável será estare-
mos em (B), sabendo que devemos estar em (A). Isto é, espaço amostral fica reduzido
de (S) para (A).
Exemplo:
Dois dados equilibrados são lançados, registrando-se os resultados com (x
1
,

x
2
).
Por isso, o espaço amostral (A) pode ser representado pela seguinte matriz de 36 resul-
tados igualmente prováveis.
¦
¦
)
¦
¦
`
¹
¦
¦
¹
¦
¦
´
¦
=
) 6 , 6 ( ) 2 , 6 ( ) 1 , 6 (
) 6 , 2 ( ) 2 , 2 ( ) 1 , 2 (
) 6 , 1 ( ) 2 , 1 ( 1) 1, (
A
K
L M L M M M
K
K


Consideramos os dois eventos seguintes:
A = {(x
1
, x
2
)|x
1
+ x
2
= 10} e B = {(x
1
, x
2
)|x
1
> x
2
}
A = {(5, 5), (4, 6), (6, 4)}
B = {(2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (3, 2), (4, 2), (5, 2), (6, 2), (4, 3), (5, 3), (6, 3), (5,
4), (6, 4), (6, 5)}
36
15
(B) P
36
3
(A) P = =

Existem várias outras aplicações e formas de utilizar a probabilidade, que poderão ser encon-
trada na vasta literatura sobre estatística e probabilidade.

9 Técnicas Estatísticas Para Análise de dados

9.1 Medidas de Tendência Central
Os fenômenos quando estudados estatisticamente, são traduzidos por um conjun-
to de dados numéricos. A descrição desse conjunto de dados torna-se mais clara quando
se obtêm medidas que resumem as informações necessárias. Essas medidas dão-nos o
valor típico do conjunto de dados.
Os valores típicos de um conjunto de dados tendem a se localizar no centro da
série. São, por isso, chamados medidas de tendência central.
A importância das medidas de tendência central é dupla:
Representam ou resumem todos os valores obtidos pelo grupo e, como tal, for-
necem uma descrição precisa da execução do grupo como um todo, e;
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
2
3

Permitem o confronto de dois ou mais grupos.
Usam-se, em geral, três medidas de tendência central: média aritmética (simples,
ponderada, de dados agrupados em intervalos), mediana e moda.

9.1.1 Média Aritmética Simples ( X)
A média aritmética simples é a soma dos valores ou medidas, divididas pela
quantidade destes. Sendo representado pela fórmula:
n
x
X

=
Onde X: representa a média;

x : a soma das variáveis; e o n o números de
indivíduos ou elementos.
Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32, 25,
32, 30, 26, 30, 29, 26, 29 e 33.


x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33.
n = 10
2 , 29
10
292
X ⇒ =

9.1.2 Média Aritmética Ponderada
Quando se tem uma série de valores sucessivos com a respectiva distribuição de
freqüência, pode-se calcular a média aritmética ponderada. A forma de apresentação da
distribuição de freqüência seria:

Variável Freqüência
X
1
f
1
X
2
f
2

. .
. .
. .
X
n
f
n


A expressão da média ponderada será:
n 2 1
n n 2 2 1 1
f ... f f
f x ... f x f x
n
f x
X
+ + +
+ + +
= =



Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada locali-
dade.
Idade (anos) Freqüência
2 10

3 8
4 6
5 5
6 5
7 5
8 7
9 4
William Costa Rodrigues

P
á
g
i
n
a
2
4


50
250
4 ... 8 10
4 9 ... 8 3 10 2
X =
+ + +
× + + × + ×
= = 5 anos

9.1.3 Média Aritmética de Dados Agrupados em Intervalos
Há vezes em que os dados não são verificados com seu verdadeiro valor indivi-
dual, mas são representados por uma classe que pode ter um determinado intervalo.
Neste caso, operamos da mesma maneira do caso anterior. Considerando que o intervalo
não tem um valor definido e sim um conjunto de valores. Utilizaremos como represen-
tante o ponto médio de cada intervalo.

Por exemplo, a distribuição de freqüência abaixo, procede-se da seguinte forma:
Idade (anos) Freqüência (f)
0 |– 5 4
5 |– 10 2
10 |– 15 3
15 |– 20 1

Idade (anos) Valor central (X) Freqüência (f) X.f
0 |– 5 2,5 4 10,0
5 |– 10 7,5 2 15,0
10 |– 15 12,5 3 37,5
15 |– 20 17,5 1 17,5
Σ – 10 80,0

Aplicando a fórmula para calcular a média ponderada teremos:
anos 8
10
80

n
xf
X = ∴ =


Desta forma a média da população avaliada é oito anos.
Quando os dados apresentam homogeneidade, é possível o uso da média aritmé-
tica, que tem como:
Vantagens:
o Ser fácil de calcular e entender;
o Unir em um valor todas as observações do conjunto.
Desvantagens:
o Não servir para séries variáveis assimétricas;
o Não expressar variações dentro da distribuição de dados.

9.1.4 Mediana (Me)
É um valor situado no centro da distribuição de freqüências. A distribuição tem,
portanto, como objetivo encontrar um valor que permita conter 50% dos dados acima
deste valor e 50% abaixo.
A mediana é especialmente útil quando se trata de séries assimétricas, isto é,
quando alguns valores são elevados ou baixos em relação aos demais. A mediana não é
influenciada pela magnitude de cada uma dessas séries. Para o cálculo da mediana de-
vemos previamente realizar alguns ajustes aos dados como segue:
Ordenam-se todos os valores, de forma crescente;
Determina-se o total de valores (n);
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
2
5

Localiza-se o valor central mediante a fórmula:
2
1 n +
, quando o número de ob-
servações (n) for ímpar e 1
2
n
e
2
n
+ , quando o número de observações é par, o
que corresponde à média dos valores centrais.

Exemplo:
a) Em determinada localidade foram selecionadas oito escolas, com a finalidade de
estimar a mediana referente ao número de alunos. Tendo verificado o seguinte
quadro:
Escola Nº de alunos
A 150
B 180
C 230
D 2.500
E 200
F 160
G 250
H 170
Inicialmente ordenam-se os dados: 150, 160, 170, 180, 200, 230, 250 e 2.500.
Como o número de observações é par utilizam-se as duas fórmulas 1
2
n
e
2
n
+ ,
para obter os dois valores centrais. Assim os valores centrais para este conjunto de da-
dos são 180 (4º) e 200 (5º), portanto o valor médio destes dois valores é igual a 190, que
corresponde à mediana.
Me= 190 alunos.

b) Em coletas de amostra de solo em cinco cidades, foram verificadas amostras po-
luídas com metais pesados, conforme o quadro a seguir:
Municípios Amostras Poluídas
A 48
B 42
C 52
D 95
E 46
Após ordenar os dados teremos: 42, 46, 48, 52 e 95. Como o número de obser-
vações é ímpar utilizaremos a fórmula
2
1 n +
, para encontra o valor central. Desta forma,
o valor central é 48, que corresponde ao valor da mediana.
Me= 48 amostras poluídas

9.2 Medidas de Variação
9.2.1 Desvio-Médio (DM)
Considerado que num conjunto de dados cada valor apresenta um afastamento
em relação à média. O desvio-médio será a média aritmética destes afastamentos, le-
vando-se em conta os valores absolutos desses desvios.
Para um conjunto de observações: 2, 5, 9, 11, 14 e 25
William Costa Rodrigues

P
á
g
i
n
a
2
6

11
6
66
X
6
25 14 11 9 5 2
X = = ∴
+ + + + +
=

6
11 - 25 11 - 14 11 - 11 11 - 9 11 - 5 11 - 2
D.M.
+ + + + +
=

6 , 5 D.M.
6
34
D.M.
6
14 3 0 2 6 9
D.M. = ∴ = ∴
+ + + + +
=

9.2.2 Desvio Padrão
Existem dois tipos de desvio padrão, o chamado desvio padrão estimado ou s e o
desvio padrão absoluto ou σ σσ σ. O Desvio padrão estimado (s) é utilizado em populações
infinitas, ou seja, onde não se conhece com precisão o valor absoluto de n, já o σ σσ σ (des-
vio padrão absoluto ou verdadeiro) é calculado para populações com valor n, bem co-
nhecido, ou seja, em populações finitas.
O desvio padrão é o afastamento atribuído ao acaso, ou seja, o erro amostral, que
o conjunto de dados contém. Este erro refere-se à diferença do valor s calculado e a mé-
dia aritmética. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula:
( )
1 n
n
x
x
s
2
2


=



Onde: x: valores do conjunto de dados; Σ: somatório; e n: número de observa-
ções.

Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2, 5, 9, 11, 14 e 25
Σx= 2+ 5 + 9 + 11 + 14 + 25 = 66
Σx²= 2² + 5² + 9² + 11² + 14² + 25² ∴Σx²= 4 + 25 + 81 + 121 + 196 + 625 = 1.052
n = 6

07 , 8 s
5,20 6 s
5
326
s
1 6
726 052 . 1
s
5
6
356 . 4
052 . 1
s
1 6
6
66
052 . 1
s
2
= ∴
= ∴ = ∴


= ∴

= ∴


=

É importante ressaltar que no cálculo do desvio padrão utilizou-se o denominador (n-1), ou se-
ja, o grau de liberdade, pois como o valor s é uma estimativa, devemos ajustar o erro desta es-
timativa, eliminando um elemento do conjunto de observações. Vale ressaltar que, no caso de
populações finitas o denominador será n e o desvio passa ser o σ σσ σ (desvio padrão absoluto ou
verdadeiro).

Observamos agora uma série de dados agrupados, isto é, uma série de valores
que se repetem e, por conseguinte, são representados pela sua freqüência.
x f fx
2 2 4
3 2 6
4 4 16
5 4 20
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
2
7

x f fx
6 2 12
Total 14 58

Temos um total de 14 valores agrupados em cinco categorias. Desta forma lan-
ça-se mão de um novo quadro de dados para facilitar os cálculos
x f fx fx²
2 2 4 16
3 2 6 36
4 4 16 256
5 4 20 400
6 2 12 144
Total 14 58 852

Para calcular o desvio padrão desta distribuição, utiliza-se a seguinte fórmula:
2 2
n
fx
n
fx
s
|
|
¹
|

\
|
− =
∑ ∑
, ou seja,

6,6101 s 6935 , 43 s 1636 , 17 8571 , 60 s 1429 , 4 8571 , 60 s
14
58
14
852
s
2
2
= ∴ = ∴ − = ∴ − = ∴
|
¹
|

\
|
− =


9.3 Variância ou Quadrado Médio
É o valor do desvio padrão estimado ao quadrado, originando a variância esti-
mada (s²), ou o valor do desvio padrão populacional, originando a variância populacio-
nal (σ σσ σ²).
A variância é a medida estimada ou calculada que determina a variação dos va-
lores entre si, ou seja, quanto menor este valor menor será a diferença entre os valores
dos elementos do conjunto de dados.

9.4 Erro-Padrão da Média - s(x)
Quando uma investigação científica é realizada através de amostra, a média a-
ritmética teria outros afastamentos (erros) em relação média populacional ou real. Para
se determinar a média destes afastamentos utilizaremos o erro padrão da média, cujo
cálculo é expresso pela fórmula:
( )
n
s
x s =
Onde: s: desvio padrão da amostra e; n: número de observações do conjunto de dados.
Exemplo: em uma amostra com 100 observações, obteve-se um valor s igual a
1,25, o erro-padrão da média será:
( ) ( ) ( ) 125 , 0 x s
10
25 , 1
x s
100
1,25
x s = ∴ = ∴ =
É importante ressaltar que quanto menor for o valor do erro-padrão da média, mais preciso se-
rá os resultados em relação à estimativa da média, análise da variância entre outras análises,
baseadas na estimativa de dados.

William Costa Rodrigues

P
á
g
i
n
a
2
8

9.5 Coeficiente de Variação
O coeficiente de variação (CV) é uma medida abstrata que independe das unida-
des em que foram medidas os dados. Ele expressa o desvio padrão que obteríamos se a
média representasse o índice 100. Pode ser também interpretado com uma medida de
precisão alcançada das estimativas dos dados em relação aos valores reais. Este parâme-
tro é estimado pela fórmula:
100
x
s
C.V. × =
Onde: s: desvio padrão da amostra; x : média aritmética da amostra.

Quanto maior for a dispersão no conjunto de observações, maior será o valor do
coeficiente de variação. Desta forma, podemos classificar o C.V. da seguinte forma:
C.V. Classificação
C.V. < 10% Ótimo
11% < C.V. <20% Bom
21% < C.V.< 30% Regular

É importante ressaltar que valores acima de 30% não significam um C.V. insatisfatório, pois
alguns experimentos em campo podem ter o valor C.V. de até 65% e serem considerados bons.

9.6 Curva de Distribuição Normal
A maioria dos fenômenos da natureza, em especial os biológicos, apresentam
variações dentro de um intervalo definido.
Se coletássemos os dados quanto ao peso de mil indivíduos, encontraríamos di-
versos valores, dos quais haveria pequena quantidade de baixos e altos, e grande quanti-
dade em torno dos valores centrais.
Numa representação gráfica dos dados obtidos encontraríamos uma distribuição
normal conforme a figura abaixo.

Figura 12. Curva de distribuição normal simétrica, onde µ é a média e s o desvio padrão.
A curva de distribuição normal ou simplesmente curva normal é caracterizada
por dois parâmetros: a média e o desvio padrão (ou a variância).
O ponto máximo da função ocorre no valor médio (situado ao centro da curva,
que é simétrica); a distância entre ele e cada um dos pontos em que muda a direção da
curvatura, à esquerda e a direita da média (µ) corresponde ao valor do desvio padrão(s)
(Figura 12).
A forma desta curva depende do desvio padrão, sendo tanto mais alta e estreita
quanto menor for o valor de s (Figura 13).
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
2
9


Figura 13. Curvas de distribuição normal das freqüências de X, tendo a mesma média (µ) e diferentes
graus de dispersão dos valores de X, isto é, desvios padrões (s) diferentes.
A área da figura sob a curva compreendida entre valores iguais a s, de um e ou-
tro lado da média (µ), contém 68,2% dos valores de X, que serão tanto mais próximos
de µ quanto menor for o desvio padrão (Figura 14).

Figura 14. Curva normal padrão, tendo por parâmetros µ=0 e s= 1. As áreas sob a curva assinaladas entre
os traços verticais indicam as percentagens de valores de X aí contidas.
A área compreendida entre -2s e +2s abrange cerca de 95,5% dos valores de X,
restando, portanto duas áreas extremas, apenas 4,5% das observações ou eventos medi-
dos.
As propriedades da curva normal permitem seu uso para o cálculo de probabili-
dade com que determinados valores obtidos durante as observações, ou as medições,
possam ocorrer em função das variações.

9.6.1 Limites de Confiança
Quando se desconhece o valor de determinado parâmetro de uma população (sua
média, por exemplo), podemos estimá-lo a partir de uma amostra extraída dessa popula-
ção. A estimativa, entretanto, pode ser inexata e não saberemos o quanto ela é incorreta.
William Costa Rodrigues

P
á
g
i
n
a
3
0

Para a estimativa de um parâmetro, consideram-se como sendo seus limites de
confiança, aqueles valores entre os quais fica incluído, com uma alta probabilidade, o
valor exato desse parâmetro.
A probabilidade P= 0,05 (ou 5%), que corresponde a um desvio ou erro padrão
de aproximadamente 2s (ou, mais precisamente, 1,96s), é geralmente aceita, por con-
venção, como limite para decidir se um resultado afastado da média (ou a diferença en-
tre duas médias) é significativo ou não.
Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de
que os valores encontrados pertençam a uma mesma população. Assim, se o valor mé-
dio (m) de uma observação comportar um desvio ou erro padrão maior que 1,96s, em
relação ao valor hipotético da média verdadeira (µ), concluiremos que ele não pertence
à população cuja média é µ.
Na Figura 15, os limites de confiança são representados pelos valores de -C e +C
que circunscrevem, com grande probabilidade, o valor do parâmetro em causa. A ampli-
tude entre esses valores limites denomina-se domínio de confiança ou intervalo de con-
fiança.


Figura 15. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em rela-
ção à média µ, medidos em unidades de desvio-padrão. A probabilidade (P) com que X possa ter valor
menor que uma coordenada escolhida (C) é indicada pela área, sob a curva, situada à esquerda de C.

9.6.2 Erro Padrão
Em alguns casos, é conveniente trabalhar com a média das médias amostrais.
Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre mé-
dias é também chamado de erro padrão.

9.7 Teste de Normalidade dos Dados
Os testes empregados para verificar a distribuição normal dos dados, têm por
objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado, se um teste
paramétrico ou não paramétrico.
É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis.
Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é nor-
malmente distribuída e, portanto poder ser empregados testes paramétricos sem preocu-
pação quantos às suas restrições. Testes estatísticos com grandes amostras mostram que
nem sempre as suposições de normalidade de confirmam. Por outro lado, como nem
sempre se dispões de um número elevado de casos para estudo, às vezes nem é possível
decidir se determinada variável possui ou não distribuição normal (na prática a amostra
deve ter o valor n > 100).
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
3
1

Os testes comumente utilizados são Klomogorov–Smirnov, ou teste K-S, que é
um teste tradicional de normalidade e o teste de Shapiro-Wilks, ou teste S-W, vem sen-
do empregado cada vez com maior freqüência.

9.8 Teste de Klomogorov-Smirnov (K-S)
Este teste compara a distribuição real dos dados (amostra) com uma distribuição
normal gerada por uma média e um desvio padrão supostamente conhecidos (popula-
cionais).

9.9 Teste de Shapiro-Wilks (S-W)
Este teste é uma boa opção para se testas a normalidade de uma distribuição. o
teste pode ser usado em amostra de até 2.000 observações. Nos últimos anos o teste S-
W tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de
problemas sobre a variação de normalidade.

10 Testes Paramétricos e Não Paramétricos
De acordo com a distribuição dos dados, utilizam-se testes de duas categorias:
Os testes paramétricos - aplicam-se a amostras extraídas de populações com dis-
tribuição normal e variâncias iguais ou muito próximas, além de exigirem que as
medidas sejam feitas em escalas numéricas intervalares, suscetíveis de tratamen-
to matemático. Estes testes são, em geral, os de maior potência, podendo ser a-
plicados mesmo quando ocorram pequenos desvios de normalidade ou da vari-
ância entre as amostras.
Os testes não-paramétricos - são menos exigentes quanto à natureza da distribu-
ição dos dados experimentais, são em geral menos potentes.
Se os dados experimentais não estiverem de acordo com os pressupostos para a
aplicação de provas paramétricas (por exemplo, se não seguirem a distribuição normal),
uma alternativa é a transformação de dados dos seus valores (vide item Transformação
de Dados, p. 46), de tal forma que os pressupostos possam ser satisfeitos. A transforma-
ção mais utilizada é a conversão dos dados em logaritmos decimais.
Os elementos necessários para a utilização de um teste são:
Formular as duas hipóteses: a de nulidade (H
0
), que supõe não haver diferença
significativa entre os valores encontrados e os esperados; e a hipótese alternativa
(H
1
), onde essa diferença existirá;
Estabelecer o nível de significância α e, conseqüentemente, as regiões críticas de
aceitação de H
0
;
Definir se, se trata de um teste mono ou bicaudal;
Tomar as amostras de tamanho n e registrar os valores, calcular a média (µ), a
variância (s²) e o desvio padrão (s) e;
Escolher o teste estatístico adequado.
Para maiores detalhes e saber com escolher um teste, consulte o Fluxograma
Para Auxiliar na Escolha de Testes Estatísticos, p. 56.

10.1 Teste t - Student
Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras
que provêm de populações diferentes. Neste caso, ao constatar as médias destas amos-
tras para verificar se há a diferença entre elas, estaremos indiretamente comparando as
duas populações. E por analogia, poderíamos proceder a um experimento em que um
grupo receberia uma droga (grupo tratado), enquanto outro grupo nada receberia (grupo
William Costa Rodrigues

P
á
g
i
n
a
3
2

controle). O efeito do tratamento aplicado seria verificado pela comparação dos dois
grupos.
Nesses casos, o teste t seria indicado para tal comparação salientando que a vari-
ável em análise teria que apresentar os dados em distribuição normal ou aproximada-
mente normal.
O valor t - student calculado é dado pela fórmula:
n
s
X
t
2
=
Onde: X: média; s²= variância e N: número de observações

As formas de utilização deste teste apresentam situações diferentes como mos-
tras os subitens abaixo:

10.1.1 Dados Pareados (Amostras Dependentes)
Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indiví-
duos ou animais ou plantas. Há a uma preocupação em que haja um pareamento entre
indivíduos para que eles difiram somente no aspecto, tratado e não-tratado.
Em um estudo foi separada uma população de 10 crianças para os testes com
administração da dieta de folha de mandioca, obtivemos os seguintes dados:

Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca
(dados fictícios).
Item
Peso (Kg)
Diferença
Antes Depois
1 24 28 4
2 23 25 2
3 24 25 1
4 23 29 6
5 30 32 2
6 31 34 3
7 31 38 7
8 14 19 5
9 20 22 2
10 18 23 5
Total 238 275 37

Procedimento:
a) Obtêm-se as diferenças entre os valores antes e depois (quadro acima);
b) Verifica-se a média aritmética das diferenças;
c) Verifica-se a variância das diferenças e;
d) Aplica-se o teste t - student.
b) 7 , 3
10
37
X
d
= =

c) Σd²=173; Σd=37; n= 10

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
3
3

01 , 4
9
1 , 39
9
9 , 136 173
9
10
1369
173
s
2
= =

=

=

d) 84 , 5
0,6332
3,7

0,401
3,7
t
10
4,01
3,7
t = = = = =

O próximo passo e recorrer à tabela do teste t - student (Tabela 11, p. 57) e
compara-se o valor do t calculado com o valor crítico da tabela em função de α com n-1
graus de liberdade.
No exemplo acima, n= 10, portanto, devemos verificar os valores críticos com
nove graus de liberdade. Desta forma, encontramos os valores 2,26 (5% ou α=0,05) e
3,25 (1% ou α=0,01).
O valor encontrado (calculado) de t= 5,84 é maior do que os valores da tabela.
Concluímos pela rejeição de H
0
(hipótese nula) em nível de 1% de probabilidade
(α=0,01).
Conclui-se que a adição do farelo de mandioca na alimentação contribuiu para o
aumento do peso corpóreo das crianças.

10.1.2 Dados Pareados (Amostras Independentes)
Neste caso os dados são tratados de forma diferente, ou seja, possuem o mesmo
valor n, mas não pertencem ao mesmo tratamento ou não há comparação entre antes e
depois. O teste t utilizado nesta situação pressupõe variâncias diferentes, mesmo o as
duas amostras possuindo valores n iguais.
O valor t - student calculado é dado pela fórmula:
2
2
2
1
2
1
2 1
n
s
n
s
X X
t
+

=
Onde:
1
X e
2
X : médias das amostras; s
1
= e s
2
= desvios-padrão das amostras; e n
1
e n
2
:
número de observações das amostras.

Esta equação deve ser utilizada, quando se conhece a variância populacional (σ²).
Exemplo:
Tabela 3. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em siste-
ma agro-silvo-pastoril, numa área de re-vegetação (dados fictícios).
Leguminosa A Leguminosa B
1
X = 38 cm
2
X = 33,5 cm
s
1
= 5 cm
s2
= 6 cm
n
1
= 26 n
2
= 26
Calculado o valor de t teremos:
94 , 2 9379 , 2
5317 , 1
4,5
3461 , 2
4,5
3846 , 1 9615 , 0
4,5
26
36
26
25
4,5
26
6
26
5
33,5 - 38
t
2 2
≅ = = =
+
=
+
=
+
=

Para calcular o Grau de Liberdade, procedemos da seguinte forma:
William Costa Rodrigues

P
á
g
i
n
a
3
4

GL= n
1
+ n
2
–2 ou (n
1
–1) + (n
2
–1).
Para o nosso exemplo acima temos o GL = 26 + 26 – 2 = 50 ou (26–1) + (26–
1)=50. Os valores a 5% e 1% de probabilidade são 2,68 e 2,01, respectivamente (Tabela
11, p. 57). Comparando o valor calculado (2,94) com os valores tabelados verifica-se
que há diferença estatística a 5% e a 1% de probabilidade. Desta forma, concluímos que
há 99% de probabilidade de que a leguminosa A, possuam taxa de crescimento média
mais elevada que a leguminosa B.

10.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)
Caso os dados não pertençam às amostras não pareadas, o teste T será aplicado
baseando-se na diferença entre as médias das duas amostras, podendo as mesmas apre-
sentarem tamanhos diferentes (n
1
e n
2
).
Supõe-se, neste caso, que as amostras são independentes e que apresentam vari-
âncias desiguais.
Há uma regra prática que identifica tal desigualdade a ponto de justificar tal pro-
cedimento. Se a relação entre as variâncias apresentarem valor maior do que quatro, isto
justifica a conduta sugerida.
Por exemplo: s²
1
= 27 e s²
2
= 5
Portanto = 5,4
5
27

s
s
2
2
2
1
= =
Seguindo o critério estabelecido, as amostras serão comparadas de acordo com
este resultado.
Exemplo: temos duas amostras de água em que os dados quanto ao nível de con-
taminação de mercúrio apresentam os seguintes valores:
Amostra A Amostra B
X
1
=160 ppm X
2
=148 ppm

1
=74 ppm s²
2
=18 ppm
n
1
= 20 n
2
= 32

O valor do teste t será obtido através da expressão:
2
2
2
1
2
1
2 1
n
s
n
s
X X
t
+

=
Calculado o valor de t teremos:
5,82
2,06
12

4,26
12

32
18
20
74
148 160
t = = =
+

=
Para verificar a significância deste valor, devemos calcular o grau de liberdade
para o conjunto de dados, em que g é calculado através da fórmula:
1 n
n
s
1 n
n
s
n
s
n
s
g
2
2
2
2
2
1
2
1
2
1
2
2
2
2
1
2
1

|
|
¹
|

\
|
+

|
|
¹
|

\
|
|
|
¹
|

\
|
+
= ou
2
n n
g
2 1
+
=
Para nosso exemplo seria:
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
3
5

25 8 , 24
73 , 0
4,26

1 32
32
18
1 20
20
74
32
18
20
74
g
2
2
2 2
2
≅ = =

|
¹
|

\
|
+

|
¹
|

\
|
|
¹
|

\
|
+
=

Consulta-se então a tabela do teste t-student (Tabela 11, p. 57), para verificar os
valores críticos nos níveos de 5% e 1% de probabilidade para 25 graus de liberdade.
Na tabela iremos obter o valor de 2,06 (5%) e 2,79 (1%). Desta forma, conclui-
se que o valor obtido pata t = 5,82 é significativo no nível de 1% (1% ou α=0,01), acei-
tando-se a hipótese alternativa, devido à diferença significativa entre as médias das duas
amostras.

10.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas)
A aplicação do teste t de Student para este caso é realizada quando comparamos
as médias aritméticas de duas amostras independentes, nas quais as variâncias apresen-
tam valores aproximadamente iguais. Ainda neste caso, o procedimento metodológico
consiste em se utilizar uma variância ponderada, considerando também o número de
graus de liberdade de cada uma das amostras.
Exemplo: para verificar se duas amostras de água mineral de duas marcas possu-
em a mesma quantidade sulfatos, um pesquisador separou ao acaso, um lote de caixa de
cada marca e ao acaso avaliou o conteúdo de uma garrafa de cada caixa. A marca A e
marca B, possuíam 10 e 7 caixas no lote selecionado, respectivamente. Ou seja, foram
avaliados os conteúdos de 10 e 7 garrafas, respectivamente.
Exemplo:
Amostra (mg.L)
Marca A Marca B
1,4 1,7
1,5 1,8
1,8 1,4
1,3 1,2
1,1 1,9
1,6 1,0
1,5 1,5
1,4 -
1,2 -
1,4 -
X
A
= 1,42

X
B
= 1,50
s
A
²= 0,04 s
B
²= 0,11
n
A
= 10 n
B
= 7

A variância ponderada é dada pela fórmula:
( ) ( )
2 n n
s 1 n s 1 n
s
B A
2
B B
2
A A 2
− +
× − + × −
=
Para nosso exemplo teríamos:
( ) ( )
0680 , 0
15
02 , 1
15
0,66 0,36

15
11 , 0 6 04 , 0 9

2 7 0 1
11 , 0 1 7 04 , 0 1 10

2
= =
+
=
× + ×
=
− +
× − + × −
= s
William Costa Rodrigues

P
á
g
i
n
a
3
6

Em seguida aplica-se a fórmula para o teste t.
|
|
¹
|

\
|
+

=
B A
2
B A
n
1
n
1
s
X X
t
Assim temos:
23 , 6
1285 , 0
8 , 0
0165 , 0
8 , 0
7
1
10
1
0680 , 0
1,5 - 1,42
− ≅

=

=
|
¹
|

\
|
+
= t

Os valores de t tabelado para 15 graus de liberdade a 5 e 1% são respectivamen-
te, 2,13 e 2,95. Desta forma, conclui-se que as duas marcas de água mineral apresentam
diferentes proporções de sulfatos em sua composição, sendo que a marca B possui mai-
ores concentrações em relação à marca A.

10.2 Teste Qui-Quadrado (χ χχ χ²)
O teste não-paramêtrico de qui-quadrado foi desenvolvido por Pearson, sendo
muito utilizado em pesquisas biológicas.
O grau de liberdade para o teste de χ² é o número de observações/ classes menos
1.
A fórmula utilizada para calcular o χ² é:
( )
fe
fe - fo
2
2

= χ
Onde: fo= freqüência observada e; fe= freqüência esperada.
Portanto o valor do desvio é elevado ao quadrado e dividido pela freqüência es-
perada.
Em muitos casos utiliza-se este teste em experimentos probabilísticos, por e-
xemplo, lançamentos de moedas ou proporção de doentes após uma epidemia. No pri-
meiro caso a probabilidade de lançarmos 10 vezes uma moeda e cair cara é de 50%
(freqüência esperada) e o valor real após os lançamentos será a freqüência observada.
No segundo caso a freqüência esperada deverá ser corrigida (calculada) através da Ta-
bela de Contingência.

10.3 Tabela de Contingência
Em muitos trabalhos experimentais, os dados colhidos representam ocorrência
de certos fenômenos que se podem classificar numa tabela, chamada tabela de contin-
gência.
Estas tabelas têm como objetivo estudar a possível associação entre duas variá-
veis que classificam os dados. Em tal situação a H
0
(hipótese nula) será testar a inde-
pendência entre as variáveis.
Para poder calcular o χ², é necessário que tenhamos as freqüências teóricas, o
que se faz admitindo-se a hipótese de que todos os grupos reajam da mesma maneira
diante da condição a elas imposta.
A comparação entre os valores calculados de χ², para verificar a significância
pode ser obtido na tabela de χ² (Tabela 12, p. 58).
Exemplo: Num Shopping Center, foram escolhidas ao acaso pessoas com três
diferentes faixas etárias, para verificar a incidência de diabete. Para tal, foram coletadas
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
3
7

amostras de sangue. A H
0
é que não diferença entre as faixas etárias em relação a ter
diabete.

Os dados coletados ao final do experimento foram:
Faixa Etária
(anos)
Pessoas*
Σ ΣΣ Σ
Com diabete Sem diabete
A: 10-15 2 (11,74) 75 (65,26) 77
B: 16-21 12 (11,28) 62 (62,72) 74
C: 22-40 20 (10,98) 52 (61,02) 72
Σ ΣΣ Σ 34 189 223
* Valores entre parênteses e em negrito representam as freqüências calculadas

Neste caso temos uma tabela de contingência de 2 x 3, pois temos duas situações
as serem testadas (com ou sem diabete) em três grupos (faixas etárias).
O Grau de liberdades para tabelas de contingências será calculado pela seguinte
fórmula: ( ) ( ) 1 n 1 n GL
g s
− × − = . No nosso exemplo teremos:
( ) ( ) 2 GL 2 1 GL 1 3 1 2 GL = ∴ × = ∴ − × − =
Para calcular as freqüências realiza-se uma regra de três simples como segue:
34 –––––––––––––––– 223
fe –––––––––––––––– 77

Ou seja,
223
77 4 3
fe
A
×
= a fe da terceira coluna (sem diabete) é calculada pela diferença
entre os valores da fe da 2ª coluna (com diabete) e o valor da coluna total (Σ). Os de-
mais valores da linha subseqüentes são obtidos com a realização da regra de três para
cada valor da 2ª coluna.
Para calcular o χ² do conjunto de dados utilizaremos a fórmula vista anterior-
mente. Assim teremos:
( ) ( ) ( ) ( ) ( )
( )
34 , 18 1,33 41 , 7 0,01 0,05 1,45 8,09
02 , 61
36 , 81
98 , 10
36 , 81
72 , 62
5184 , 0
28 , 11
5184 , 0
26 , 65
87 , 94
74 , 11
87 , 94

02 , 61
02 , 61 52
98 , 10
98 , 10 20
71 , 62
72 , 62 62
28 , 11
28 , 11 12
26 , 65
26 , 65 75
74 , 11
74 , 11 2
2 2
2
2
2 2 2 2 2
2
= χ ∴ + + + + + = χ
∴ + + + + + = χ ∴

+

+

+

+

+

= χ


De acordo com a Tabela 12 (p. 58), o valor χ² para 2 graus de liberdade a 5 e 1%
de probabilidade seriam 5,99 e 9,21, respectivamente. Desta forma, conclui-se que há
diferença entre as faixas etárias, ou seja, a ocorrência de diabete depende da faixa etária,
segundo o teste de χ² a 5 e 1% de probabilidade.

10.4 Teste de Kruskal-Wallis
Este teste foi criado como substitutivo à análise de variância paramétrica (Teste
F).
Ele é utilizado para que se verifique o contraste entre k amostras independentes.
Os valores obtidos nas diversas amostras diferem entre si e, portanto, será uma
maneira se verificar se estas diferenças são devidas ao acaso ou se as amostras provêm
de populações diferentes.
William Costa Rodrigues

P
á
g
i
n
a
3
8

No teste de Kruskal-Wallis todas as observações recebem uma pontuação atra-
vés dos números 1, 2, 3, 4, ...n. Assim, ao menor valor se atribuirá o valor 1, e assim
sucessivamente até atingir o maior valor, que receberá a maior pontuação.
Da mesma forma que nos outros testes, serão consideradas sempre duas hipóte-
ses (H
0
e H
1
).
Para o cálculo do valor H do teste de Kruskal-Wallis utiliza-se a fórmula:
( )
( ) 1 N 3
n
R
1 N N
12
H
k
1 i
i
2
i
+ − ×
+
=

=

Onde: Ri = a soma das ordens atribuídas ao tratamento i; k =corresponde ao número de
tratamentos a comparar; n
i
= número de observações em cada tratamento k e; N = nú-
mero total de observações em todos os tratamentos k.
Na ordenação global que se faz para atribuição dos postos aos dados, considera-
se que nos casos de empate entre duas ou mais observações, calcula-se a média das or-
dens que seria atribuída a elas se não houvesse o empate.
Para verificação de significância quanto às diferenças observadas entre tratamen-
tos k, considera-se que o teste tem uma distribuição aproximada de χ², com k-1 graus de
liberdade, ou seja, a tabela para comparar os valores é a tabela de χ² (Tabela 12, p. 58).
Para exemplificarmos o teste de Kruskal-Wallis, supomos que foram testados ou
experimentados três métodos para dessalinização de água. Assim sendo, foram coleta-
das diversas amostras de água com diversas concentrações de sal, que não vem ao caso
no exemplo a ser testado. Desta forma, testou-se o tempo de dessalinização dos três mé-
todos. Os resultados do experimento seguem abaixo:
Métodos
A B C
DD posto DD posto DD posto
17 11 20 12 32 17
14 9 5 3 35 20
4 2 9 6 26 15
8 5 13 8 34 18,5
29 16 34 18,5 21 13
6 4 2 1 45 21
15 10 11 7 50 23
- - 22 14 47 22
R
A
=57,0 R
B
= 69,5 R
C
= 149,5
n
A
= 7 N
B
= 8 n
C
= 8
x
A
= 13,29 x
B
= 14,50 x
C
= 36,25
DD= dias para dessalinização.

Para calcular H teremos:
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
3
9

( )
( )
( )
( )
95 , 11 H
72 70 , 861 . 3 0217 , 0 H 72 70 , 861 . 3
552
12
H
24 3 78 , 793 . 2 78 , 603 14 , 464
552
12
H
24 3
8
25 , 350 . 22
8
25 , 830 . 4
7
249 . 3
4 2 23
12
H
1 23 3
8
5 , 149
8
5 , 69
7
57
1 23 23
12
H
2 2 2
=
− × = ∴ − × =
∴ × − + + × =
∴ × − |
¹
|

\
|
+ + ×
×
=
∴ + −
|
|
¹
|

\
|
+ + ×
+
=


Como já foi dito este teste segue a distribuição do teste χ². Desta forma, sendo k
= 3 (métodos), os graus de liberdade correspondem a 2, pois GL= k-1. Portanto, os valo-
res da tabela χ², correspondem a 5 e 1%, são 5,99 e 9,21, respectivamente.
Considerando que o valor calculado H=11,95 é maior que os valores tabelados,
rejeitamos H
0
(não há diferenças entre os métodos testados no tempo de dessalinização
das amostras), assim aceita a H
1
. Pelos valores R encontrados nos resultados verifica-se
que o método A e mais eficiente no processo de dessalinização, pois leva menos tempo
em comparação aos demais.

10.5 Teste de Friedman (Análise da Variância)
Da mesma forma que o teste de Kruskal-Wallis, este teste é um substitutivo ao
teste F para análise de variância paramétrica, sendo utilizado quando as amostras, cujas
observações podem verificar valores com acentuada variação e em cada tratamento são
constituídos blocos com a intenção de que isto resulte em um pareamento considerável
entres os diversos tratamentos.
De forma análoga aos demais testes, formula-se a H
0
e a H
1
. Para testar a H
0,
utiliza-se tabela de χ², co grau de liberdade k-1.
O valor do teste de Friedman (X
r
2
) é calculado através da seguinte equação:
( )
( ) ( ) 1 k 3n R
1 k nk
12

k
1 i
2
i
2
r
+ − ×
+
= χ

=

Onde: n = número de blocos; k = o número de tratamentos; Ri = a soma das ordens atri-
buídas aos dados do tratamento i, nos blocos n.
Para os casos de empate entre observações de mesmo bloco, calcula-se a média
aritmética das ordens. A ordenação dos valores se dá dentro dos blocos.
Exemplo: Foram coletadas cinco amostras em quatro profundidades (tratamen-
tos) em cinco áreas diferentes, delimitados pelas características edáficas do solo (blo-
cos). Este solo foi exposto há poluentes de uma determinada fábrica. Assim sendo, quer
saber se o poluente está distribuído de forma igual entre as profundidades avaliadas, ou
seja, as concentrações do poluente são iguais em todas as profundidades (Hipótese Nula
ou H
0
). Os resultados da análise foram as seguintes:
Tabela 4. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do
solo, em quatro diferentes profundidades. Os dados apresentados referem-se a o poluente α-β-16-
Imaginol-Poluentis, em mg.mm³ de solo
Blocos
Profundidade (cm)
0-10 11-20 21-30 31-50
Área A 12 (2) 13 (3) 16 (4) 7 (1)
Área B 8 (2) 9 (3) 12 (4) 5 (1)
William Costa Rodrigues

P
á
g
i
n
a
4
0

Blocos
Profundidade (cm)
0-10 11-20 21-30 31-50
Área C 14 (2) 20 (3) 22 (4) 6 (1)
Área D 17 (3) 16 (2) 21 (4) 11 (1)
Área E 12 (2) 15 (3) 16 (4) 10 (1)
Total
R
1
= 11 R
2
= 14 R
3
= 20 R
4
= 5
*Os valores entre parênteses e em negrito correspondem à ordenação dos tratamentos dentro dos blocos
(linhas). Sendo o valor Ri a somas dos valores de ordenação nos tratamentos (colunas).

Substituindo os valores na fórmula para o cálculo do valor χ²
r
, teremos:
( )
( )
( )
( )
04 , 14
75 04 , 89 75 742
100
12

75 25 400 196 121
1 4 4 5
12
5 5 3 5 20 14 11
1 4 4 5
12
2
r
2
r
2
r
2 2 2 2 2
r
= χ
∴ − = − × = χ
− + + + ×
+ ×
= χ
∴ × × − + + + ×
+ ×
= χ


Como valor de graus de liberdade é igual a k-1 graus de liberdade e sendo k=4
(tratamentos), têm-se 3 graus de liberdade. A partir da tabela χ² (Tabela 12, p. 58). Os
valores para 5 e 1% de probabilidade são 7,82 e 11,32, respectivamente.
Sendo o valor de χ²
r
calculado maior que os valores da tabela de χ², rejeita-se a
hipótese nula (H
0
) e aceita a hipótese alternativa (H
1
). Ou seja, a profundidade de 21-30
cm tem uma maior concentração do poluente que as demais profundidades avaliadas,
nas áreas onde foram coletadas amostras.

11 Correlação Linear
A correlação linear é utilizada para verificar, num determinado conjunto, a de-
pendência entre duas séries de variáveis.
Trata-se de um valor abstrato que dá uma idéia sobre a dependência entre os
dados apresentados.
A correlação pode ser denominada positiva ou negativa. Quando positiva há a
variação positiva da variável dependente (Y), quando há variação positiva da variável
independente (X) vice-versa. Quando negativa há a variação negativa de Y, quando há
variação positiva de X e vice-versa.

11.1 Coeficiente de Correlação (r)
O coeficiente de correlação e designado pela letra r. Pode ser utilizado para da-
dos normais (Correlação de Pearson) e para dados não normais (Correlação de Spear-
man).
11.1.1 Correlação de Pearson
Utilizado na análise de dados que possuem distribuição normal.
( )
Y X
s s 1 n
n
Y X
XY
r
× × −
×

=

∑ ∑

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
4
1

Onde: r= coeficiente de correlação de Pearson; ΣXY = soma dos produtos entre os valo-
res de X e Y; ΣX x ΣY= produto da soma dos valores de X e Y; n = número de amostras
de X e Y; s
X
e s
Y
= desvios padrões de X e Y

11.1.2 Correlação de Spearman
Este coeficiente de correlação baseia-se no rank dos valores X e Y e é largamen-
te utilizado em análise de correlação e dados não paramétricos.
n n
d 6
1 r
3
2
i
s

− =


Onde: r
s
= coeficiente de correlação de Spearman; d
1
= é a diferença entre cada valor X e
cada valor Y correspondente; n = número de pares de dados.
A correlação de Spearman, não possui um teste de significância específico, en-
tretanto o teste de Rugg ou Significância Baseada nos Intervalos é perfeitamente aceitá-
vel nos caso de comparação e verificação de significâncias do valor r.
Este tipo de correlação em geral é utilizado em dados oriundos de experimentos
biológicos, ou de dados coletados no campo, em geral, são dados não paramétricos.
Muitos autores preferem transformar os dados para ter mais precisão na análise,
mas nesse caso o teste de correlação de Spearman já não possui validade, tendo que ser
aplicado o Teste de correlação de Pearson.

Exemplo:

Tabela 5. Correlação de Spearman entre as notas brutas de matemática e biologia (Zar, 1999).
Estudante
Notas de
Matemática
Rank de
X
i

Notas de
Biologia
Rank de
Y
i
di d
i
2
1 57 3 83 7 –4 16
2 45 1 37 1 0 0
3 72 7 41 2 5 25
4 78 8 84 8 0 0
5 53 2 56 3 –1 1
6 63 5 85 9 –4 16
7 86 9 77 6 3 9
8 98 10 87 10 0 0
9 59 4 70 5 –1 1
10 71 6 59 4 2 4
Total 72
n= 10; Σd
i
2=
72
( )
5636 , 0 4364 , 0 1
990
432
1
10 1000
432
1
10 10
72 6
1 r
3 s
∴ − ∴ − ∴

− ∴

− =
Para verificar se há significância na correlação

11.1.3 Aspectos Gerais da Correlação Linear
Os valores de r variam entre -1 (associação negativa completa) e +1 (associação
positiva completa). Quando um valor é significativo, através do teste de t para r, é apre-
sentado de forma negativa dizemos que a correlação é negativa e significativa, caso o
valor seja positivo, dizemos que a correlação é positiva e significativa.
Para melhor entender melhor a explanação anterior, deve-se ter em mente que a
variável Y é quem sofre variação em função de X. Assim sendo, quando um valor é
William Costa Rodrigues

P
á
g
i
n
a
4
2

negativo, quer dizer que com o aumento dos valores de X, Y diminuem e quando o va-
lor é positivo, existe uma proporcionalidade direta entre as variáveis, ou seja, quando
aumenta os valores de X aumenta os valores de Y (Figura 16).
0
0,5
1
1,5
2
2,5
3
0 20 40 60
A

0
0,5
1
1,5
2
2,5
3
0 20 40 60
B

Figura 16. Correlação linear simples positiva (A); e inversa ou negativa (B), apresentando a linha de ten-
dência de regressão linear simples de dados fictícios.
A utilização de um ou outro coeficiente dependerá da normalidade dos dados (veja o tópico Tes-
te de Normalidade dos Dados, p.30).

11.2 Coeficiente de Determinação (r²)
Ao valor encontrado de r elevado ao quadrado (r²) denomina-se coeficiente de
determinação.
Este coeficiente expressa a porcentagem de variação dos valores de Y em função
do valor X. Por exemplo, o valor r² encontrado em determinada análise é igual a 0,30.
Sendo r²= 0,30, logo 30% da variação de Y são atribuídas a X.

11.3 Coeficiente de Alienação (K)
Este coeficiente é função do coeficiente de correlação, expresso pela fórmula:
2
r 1 K − =
Este coeficiente exprime a ausência de relação entre X e Y. Por exemplo, r²=
0,30.
8367 , 0 K 70 , 0 K 30 , 0 1 K = ∴ = ∴ − =
Desta forma, concluímos que há mais ausência de relação do que intensidade de
relação entre X e Y.

11.4 Significância do Teste de Correlação
Existem basicamente duas formas de verificar a significância do var r, a mais
simples baseia-se simplesmente nos intervalos de valores de r, a outra considera o teste
t, conhecido como teste t para r.

11.4.1 Significância Baseada nos Intervalos
A classificação é simples e basea-se nas Tabelas 6 e 7, que acordo com a neces-
sidade de com uma maior precisão intervalar (Tabela 6) pode ser utilizada um ou outra
tabela.
Tabela 6. Classificação do valor r através de intervalos de 0 a 1.
Intervalo Significância
0,0 – 0,20 Correlações nulas
0,21 – 0,40 Correlações fracas
0,41 – 0,70 Correlações substâncias
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
4
3

Intervalo Significância
0,71 – 0,90 Correlações fortes
0,91– 1,0 Correlações extremamente Fortes

Tabela 7. Classificação do valor r através de intervalos de acordo com e Teste de Rugg.
Intervalo Significância
r < 0,15 r desprezível
0,15 < r < 0,29 r baixo
0,30 < r < 0,49 r apreciável
r >0,50 r acentuado

A significância das tabelas acima poderá ser utilizada tanto na correlação de Pearson, quanto
na de Spearmann.

11.4.2 Significância Baseada no Teste t para r (Pearson)
O teste de t para r é calculado através da seguinte equação:
2 n
r 1
r
t
2
r
− ×

=
Para este teste compara-se o valor de t
r
calculado com o valor de t, na Tabela 11
(p, 57), com n-2 graus de liberdade.

12 Análise de Regressão
É freqüente o estudo da relação entre duas séries de variáveis. Por exemplo, o
peso de crianças de acordo coma dieta oferecida em diferentes dosagens. Sabe-se que
determinadas dietas têm interferência no ganho ou na redução do peso de indivíduos da
raça humana. Portanto há um interesse de expressar essa relação sob a forma matemáti-
ca, através da apresentação de uma função.
Para identificação de uma possível correlação entre séries de variáveis, torna-se
bastante eficaz a construção de um diagrama que se obtém em sistemas de eixos cartesi-
anos.
Hoje em dia os programas (softwares) de planilha de cálculo e de estatística,
fornecem a equação da reta ou de outro tipo de regressão que se queira plotar. Desta
forma, basta organizar os dado de forma correta e selecionar a criação de um gráfico de
dispersão, para verificar a com o próprio nome diz, a dispersão dos dados de Y em fun-
ção de X. A mostra como montar uma série de dados para criação de um gráfico de dis-
persão no Microsoft Excel.
Tabela 8. Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homop-
tera, Aphididae) em função da brotação foliar de tangerina cv Poncã, sob cultivo orgânico na Fazendinha
Agroecológica, no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues, 2004). Exem-
plo para o Microsoft Excel.
A B C D E F G H I J L M
1
2 0,00 20,00 40,00 40,00 60,00 0,00 30,00 50,00 100,00 100,00 100,00
3 T. a 0,00 5,00 7,50 2,50 2,50 0,00 2,50 10,00 12,50 25,00 60,00
4

Para criação do gráfico de dispersão basta selecionar os dados das linhas 2 e 3
(Tabela 1) e selecionar o menu Inserir Gráfico e selecionar o gráfico Dispersão (XY)
William Costa Rodrigues

P
á
g
i
n
a
4
4

em seguida clique em Avançar > para configurar o gráfico ou em Concluir para finali-
zar a criação. Após criar o gráfico selecione um dos pontos e em seguida clique no bo-
tão direito de mouse e selecione a opção Adicionar linha de tendência... Será exibida
uma janela com mostra a Figura 17. O tipo de linha será de acordo com a equação que
melhor de adeqüei a distribuição dos dados, lembrando que um evento biológico somen-
te poderá ser explicado até uma equação de segundo grau, ou seja, caos opte por linha
do tipo polinomial a ordem para eventos biológicos deverá ser 2.
A exibição da equação e do valor de R² é feita através da seleção da Aba Op-
ções, selecionando a caixa de seleção:
Exibir equação no gráfico
Exibir valor de R-quadrado no gráfico

Figura 17. Janela de configuração da linha de tendência (linha de regressão) e configuração da equação de
regressão no Microsoft Excel.

12.1 Regressão Linear Simples
Neste tipo de regressão é possível verificar a associação entre as séries de dados,
plotar a linha e a equação da reta de duas variáveis, X independente e Y dependente.
y = 0,3095x - 2,3472
R² = 0,3984
-10
0
10
20
30
40
50
60
70
0 20 40 60 80 100 120
T. aurantii

Figura 18. Regressão linear simples entre a flutuação populacional de T. aurantii e a brotação foliar de
tangerina cv. Poncã, em cultivo orgânico de tangerina cv. Poncã, na Fazendinha Agroecológica, no perío-
do de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004).
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
4
5


12.2 Regressão Linear Múltipla
Este tipo de regressão possibilita a associação de uma variável dependentes (Z),
com duas variáveis independentes (X e Y), neste caso uma das varáveis independentes
(X) poderá parcialmente interferir na outra variável independente (Y). Como pode ser
visto na Figura 19.

Figura 19. Correlação múltipla da amplitude térmica (variável x), brotação (variável y) e a flutuação po-
pulacional de Toxoptera citricida (variável z), em cultivo orgânico de tangerina cv. Poncã, na Fazendinha
Agroecológica, no período de outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004).

12.3 Regressão Múltipla
Neste tipo de regressão é possível verificar a associação entre as séries de dados,
plotar a linha de tendência polinomial e a equação de segundo graus das duas variáveis,
X independente e Y dependente.
y = 0,0046x
2
- 0,2141x + 7,1984
R
2
= 0,4695
0
10
20
30
40
50
60
70
0 20 40 60 80 100 120
T. aurantii

Figura 20. Regressão múltipla entre a flutuação populacional de T. aurantii e a brotação foliar de tangeri-
na cv. Poncã, em cultivo orgânico de tangerina cv. Poncã, na Fazendinha Agroecológica, no período de
outubro de 2002 a outubro de 2003 (Adaptado de Rodrigues, 2004).

William Costa Rodrigues

P
á
g
i
n
a
4
6

13 Transformação de Dados
Para uma aplicação válida dos testes de significância, baseados nas propriedades
das curva normal, é necessário que o dados tenham uma distribuição normal (Figura 12,
Figura 13 e Figura 14). As porcentagens, as contagens e as notas dadas a certas caracte-
rísticas qualitativas, exigem quase sempre essa transformação.
Vamos apresentar nesta apostila algumas das principais transformações de dados
empregadas na normalização dos dados e as situações que cada uma se aplica.

13.1 Raiz Quadrada
Essa transformação é utilizada quando a variância e proporcional a média, ou
seja, quando há uma redução dos valores de média e variância diminui simultaneamen-
te. É freqüentemente utilizado em dados biológicos quando amostras são tiradas da dis-
tribuição de Poisson (isto é, quando os dados consistem em ocorrências aleatórias de
objetos ou eventos). Transformando os dados utilizando suas raízes quadradas resulta
em uma amostra cuja distribuição é normal. As equações normalmente utilizadas são:
x ' x ou 1 x ' x ou 5 , 0 x ' x = + = + = , sendo a primeira mais utilizada.
Os dados que se recomenda utilizar este tipo de transformação são dados de per-
centagens e contagens (números inteiros).

13.2 Transformação Logarítimica
Este transformação é utilizada principalmente quando as médias e os desvios
padrões (erros) tendem a serem proporcionais, sendo, nesse caso, os coeficientes de
variação aproximadamente iguais. É utilizada, ainda, quando os dados são representados
por números positivos, ou porcentagens que abrangem uma grande amplitude de varia-
ção. Quando aparece o valor zero, utiliza-se a transformação x' = log (x+1). A base 10
para os logaritmos é utilizada normalmente, por conveniência, porém qualquer outra
base poderá ser utilizada, desde que, seja especificada.

13.3 Transformação Angular (Arcoseno)
Essa transformação é utilizada quando os dados estão associados a uma distribu-
ição binomial (presença-ausência), como muitas vezes que um determinado caráter apa-
rece num total definido. É o caso, por exemplo, do número de plantas sobreviventes em
relação ao número total de plantas que deveriam estar presentes se nenhuma tivesse
morrido após a poluição de um determinado solo. Os dados são transformados em per-
centagens e, em seguida, são calculados os valores através da fórmula % arcsen ' p = ,
utilizando-se uma tabela apropriada. Nesse tipo de transformação, todos os dados deve-
riam estar baseados em um número de observações iguais, mas o método pode também
ser utilizado quando esse número não é rigorosamente igual é sugerido na literatura que
valores de 0 e 100%, sejam substituídos por ¼n e 100- ¼n, respectivamente, antes de
entrar na tabela.

13.4 Considerações Gerais
Quando é utilizada uma transformação de dados, todas as comparações entre
médias são realizadas na escala transformada. Quando se achar preferível não se apre-
sentar os resultados na escala transformada, os dados finais devem ser transformados
novamente para escala original. Por exemplo, elevar ao quadrado os valore submetido à
transformação de raiz quadrada.

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
4
7

14 Testes Específicos Para Análise de Populações e Comunidades
14.1 Índice de Diversidade e Dominância Populacional
Existe uma série de índice de diversidade, que podem ser utilizados em diversas
situações.
A medida mais simples de diversidade de espécie é o número de espécie (s), ou a
riqueza de espécie. Vários índices de diversidade foram propostos que incorporam am-
bos S e N, o número total de indivíduos em todas as espécies (Brower et al. 1997).
Quando o índice de diversidade diminui, indica que há competição interespecífi-
ca e que o local é menos diversificado, tendendo a dominância de uma determinada es-
pécie, porém quando há um aumento deste índice, há um indicativo de que o local é
bastante diversificado, mesmo que o número de indivíduos seja reduzido.

14.1.1 Índice de Margalef (α)
Este índice foi proposto por Margalef (1951) e tem como objetivo estimar o nú-
mero de espécies e o número de indivíduos de uma comunidade.
Este índice é dado pela fórmula abaixo:
N log
1 −
=
S
α
Onde: S: Número de espécies levantadas; N: Número de indivíduos total

14.1.2 Índice de Glason (D
g
)
É semelhante ao índice anterior, porém considera todas as espécies da amostra.
N log
S
D
g
=
Onde: S = Número de espécies levantadas e N = Número de indivíduos total

14.1.3 Índice de Menhinick (D
m
)
Este índice é semelhante aos dois anteriores, entretanto utiliza a raiz quadrada do
número de indivíduos total de cada amostra, numa tentativa de normalizar os dados.
N
S
D
b
=
Onde: S = Número de espécies levantadas e N = Número de indivíduos total

14.1.4 Índice de Shanon-Wiener (H')
É considerado o índice de diversidade mais completo, pois além de considerar o
número de espécies, considera a proporção de cada espécie em relação ao todo. Norma-
lizando os dados e diminuindo a probabilidade de erro dos cálculos.

× =
i' i
p log p - ' H
Onde: p = proporção da espécie em relação ao número total de indivíduos

14.1.5 Índice de Dominância Berger-Parker (d)
Este índice estima a dominância dentro de uma comunidade, ou seja, verifica se
há ou não dominância de uma determinada espécie numa comunidade.
total
Max
N
N
= d
William Costa Rodrigues

P
á
g
i
n
a
4
8

Onde: N
Max
= é o número de indivíduos da espécie mais abundante e N
Total
= é total de
indivíduos amostrados.

14.2 Exemplo
O exemplo hipotético abaixo da diversidade de cochonilhas em agroecossistema
cítrico ilustra os índices de diversidade das cochonilhas de um pomar de citros.

Tabela 9. Índices de diversidade de cochonilhas em agroecossiema cítrico.
Período S N α αα α D
g
D
m

1994 10 268 1,609 4,118 0,611
1995 10 235 1,648 4,218 0,652
1996 10 323 1,557 3,985 0,556
1997 10 435 1,481 3,790 0,479
Média 10 315 1,574 4,045 0,575

14.3 Índice de Similaridade entre Populações

14.3.1 Quociente de Similaridade
O objetivo deste quociente é verificar a similaridade entre duas comunidades ou
habitat, no que se refere a composição específica (espécies). Existem duas fórmulas para
calcular o QS propostas por Jaccard (1912) e Sorensen (1948), que são as seguintes:
Jaccard
( ) j b a
j
QS
− +
=

Sorensen
( ) b a
j
QS
+
=
2

Onde: a = Número de espécies presente no habitat ou comunidade A, ou número de le-
vantamentos com a espécie a; b = Número de espécies presente no habitat ou comuni-
dade B; ou número de levantamentos com a espécie b e j = Número de espécies presen-
te nos dois habitats ou comunidades ou número de levantamentos contendo, simultane-
amente, as duas espécies.

14.3.2 Porcentagem de Similaridade
Expressa os resultados semelhantes ao do Quociente de Similaridade, porém
leva em conta não somente a composição das espécies, como também o número de in-
divíduos, pois se calcula pelo somatório dos menores valores das percentagens observa-
das de cada espécies em relação ao total de indivíduos, nas duas comunidades (South-
wood, 1971).

( )

+ + + + = n % ... c % b % a % %S
Onde: % a = menor porcentagem da espécie a observada no confronto das comunida-
des; % b = idem, para espécies b; % c = idem, para espécies c e % n = idem, para espé-
cies n.
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
4
9


Tabela 10. Duas comunidades com sua composição de espécies em percentagem
Comunidade
Espécies
A b c d
A 15 35 27 23
B 33 14 36 17

A partir dos dados daTabela 10, podemos calcular a %S:
( ) % 73 % 17 27 14 15 % = ∴ + + + = S S

14.3.3 Índice de Afinidade
Este índice estima a freqüência com que duas espécies ocorrem simultaneamente
em determinada comunidade ou habitat. Foi proposto por FAGER (1957).
É dado pela fórmula:
B A
AB
n n
j
I
+
=
2

Onde: n
A
= Número de ocorrência da espécie A; n
B
= Número de ocorrência da espécie
B e j = Número de ocorrência conjunta das espécies A e B;

Os valores mínimos de j significativos a 0,5% de probabilidade são dados na
Tabela 15, p. 59.

14.3.4 Constância
Este parâmetro indica a percentagem de uma determinada espécie em relação a
todos os levantamentos realizados.
É dado pela fórmula:
N
n
C
100 ×
=
Onde: n = Número de coletas contendo a espécies em estudo e N = Número total de
coletas realizadas.
A Constância de uma espécie poderá ser classificada da seguinte forma:
a) Espécies constantes – presentes em mais de 50% dos levantamentos;
b) Espécies acessórias – presentes entre 25–50% dos levantamentos;
c) Espécies Acidentais – Presentes em menos de 25% dos levantamentos.

14.3.5 Índice de Associação (IA)
Verifica o índice de o nível de associação existente entre duas espécies, baseia-
se no total do número de indivíduos de ambas as espécies que ocorrem simultaneamente
nos levantamentos realizados.
5 , 0 −
+
=
B A
J
IA
Onde: A = Número total de indivíduos da espécie A coletados ou amostrados em todos
os levantamentos; B = Idem, para espécies B e J = Número de indivíduos da espécie A e
B nos levantamentos em que ocorrem simultaneamente.
A significância de j pode ser observada através da Tabela 15, p. 59.

William Costa Rodrigues

P
á
g
i
n
a
5
0

15 Lista de Exercícios
1. Qual a diferença básica entre ensaio e experimento?

2. Qual a ligação entre a variável independente e a dependente?

3. Para as seguintes situações abaixo elabora a hipótese estatística (hipótese nula).
a. Um experimento pretende testar cinco cultivares de leguminosas para verificar a e-
ficiência na fixação de nitrogênio no solo
b. Para avaliar a contaminação de córrego foram utilizados seis métodos, para saber
qual o mais eficiente.
c. Para avaliar a incidência de mosquitos transmissor da dengue (Aedes aegipty), fo-
ram aplicados dois métodos para contagem de número de larvas.
d. Foi selecionada uma população de moradores de um bairro para saber a opinião de-
les sobre o impacto ambiental da região.
e. Foram selecionados moradores da margem de um córrego, para verificar a incidên-
cia de doenças infecciosas, provocadas por contaminação da água consumida.
f. Um pesquisador quer saber qual o diâmetro médio de árvores de uma determinada
espécie, que crescem numa floresta.
g. Num solo rico em bactérias fixadoras de nitrogênio, um pesquisador quer saber a
taxa de crescimento médio desta população.

4. Quanto aos tipos de dados indique os tipos correspondentes, se categorizados, discretos ou
contínuos.
a. Número de livros que possuo: _________________
b. Altura da instante da biblioteca: _________________
c. Distância Paracambi-Rio de Janeiro: _________________
d. Quantas turmas têm no curso de Gestão Ambiental: _________________
e. Quantas árvores têm no horto florestal: _________________
f. Qual altura média de plantas: _________________

5. Qual o princípio básico da experimentação?

6. Exemplifique erro por
a. Falta de resposta
b. Do observador
c. Do método de amostra

7. Exemplifique amostra dos tipos estratificada e amostra selecionada.

8. Diferencie amostras com dados pareados e não-pareados.

9. Qual a diferença de amostra homocedásticas e heterocedásticas?

10. Quais os elementos necessários para a utilização de um teste estatístico.

11. Você foi convidado para realizar um estudo numa população de mamíferos que continha
48.000 indivíduos, para saber a incidência de uma determinada enfermidade. Sabe-se que o
valor de ocorrência anterior foi de 15%, o nível de confiança é igual a 95% (α=5%). Para
esta pesquisa foi estabelecido um erro de 5%. Pergunta-se qual o número mínimo que a a-
mostra desta população deve conter para que possamos confiar nos dados obtidos no estudo
a ser realizado?

12. Para realizar um estudo sobre nível de escolaridade de pessoas de uma determinada cidade,
realizou-se um estudo bibliográfico. Foi verificado que em estudo prévio a taxa de analfabe-
tismo foi de 15%. O nível de confiança para realizar o estudo é de 1,96% e a o erro atribuí-
do ao estudo é de 2%. Sabe-se ainda que a população da cidade é de 45.560 pessoas.
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
5
1


13. No conjunto de dados abaixo, calcule a média aritmética simples e a mediana.
23, 12, 34, 54, 32, 33, 21, 23, 27, 49, 39, 34, 32, 21, 28, 17, 23, 34, 45, 32, 39 e 56

14. Numa escola temos crianças divididas em classe por idade, para verificar o índice de desnu-
trição. Em um determinado estudo contabilizou-se a freqüência destas, conforme tabela a-
baixo. Qual a hipótese estatística? Qual a média de caso de desnutrição.
Idade (anos) Freqüência (f)
5 58
6 21
7 32
8 25
9 25
10 08

15. Numa escola temos crianças divididas em classe por idade, para verificar o índice de desnu-
trição. Em um determinado estudo contabilizou-se a freqüência destas, conforme tabela a-
baixo. Qual a hipótese estatística? Qual a média de caso de desnutrição.
Idade (anos) Freqüência (f)
1 |–4 32
4 |–7 25
7 |-9 62
9 |-13 25

16. Qual a média ponderada para os dados apresentados na tabela abaixo.
Idade (anos) Freqüência (f)
1 21
2 21
3 45
4 25
5 63
6 38
7 29
8 14
9 19
10 28
11 25
12 26
13 14
14 25
15 37

17. Em determinada localidade foram selecionadas 12 escolas, determine a mediana referente
ao número de alunos das escolas a partir dos dados apresentados no seguinte quadro:
Escola Nº de alunos
A 125
B 138
C 235
D 1.250
E 1.365
F 568
G 250
H 165
I 432
J 560
L 321
M 285

William Costa Rodrigues

P
á
g
i
n
a
5
2

18. Observando o conjunto de dados na tabela abaixo, pede para se calcular a media e o desvio
padrão, erro-padrão da média e o coeficiente de variação.
x f fx
2 5
3 28
4 45
5 46
6 27

19. Após a coleta de dados a respeito do número sementes produzidos por uma determinada
essência florestas. Tornou necessário determinar a média, o desvio padrão a variância do e o
erro padrão da média do número de sementes produzida pelas plantas amostradas. Os dados
seguem no quadro abaixo:
Planta Nº sementes Planta Nº sementes Planta Nº sementes
A 125 C 210 E 152
B 232 D 131 F 98

20. Um pesquisador realizou um estudo sobre amostra de água em dois córregos, para medir a
contaminação por tetracloreto de carbono (CCl4). Após a coleta os dados o pesquisador
construiu a tabela abaixo.

Repetição Amostra A Amostra B
1 56 12
2 43 23
3 23 65
4 45 43
5 67 43
6 34 23
7 32 19
8 34 22
9 56 16
10 32 -
11 24 -
A partir dos dados acima o pesquisador necessita realizar uma análise estatística para testar a
hipótese nula. Desta forma, pede-se para calcular o Coeficiente de variação, Desvio Padrão,
Variância, aplique o teste estatístico pertinente e conclua com base nos resultados.

21. Para verificar a eficiência da adubação nitrogenada, no crescimento de leguminosas, foi
realizado um experimento com dois tratamentos (dados na tabela abaixo). Verifique se há
diferença estatística entre os tratamentos.
Repetição Tratamento A (cm) Tratamento B (cm)
1 56 34
2 45 23
3 65 39
4 47 27
5 38 18
6 59 43
7 63 23
8 49 22
9 56 21
10 34 23

Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
5
3


22. Num experimento para comparar a o peso médio entre duas raças de porco (Duroc e Lan-
drace). Um pesquisador fez a mensuração de 26 animais para cada raça, onde obteve os da-
dos conforme a tabela abaixo:
Duroc Landrace
x
= 38 kg
x
= 33,5 kg
S1 = 5 kg S2 = 6 kg
n1 = 26 n2 = 26
Pede-se para verificar se há diferença estatística entre os tratamentos e concluir baseado nos
resultados encontrados.

23. Um pesquisador resolve medir o nível de poluição em uma comunidade próxima a uma
indústria. Os métodos escolhidos foram amostrar solo e água, já que a comunidade é ribei-
rinha. A partir do conjunto de dados abaixo, calcule a média, o desvio padrão e a variância,
comparando os dois tipos de amostras e concluindo sobre as diferenças.
Nível de metal pesado a partir da amostra de solo e água numa comunidade próxima a uma indústria.
Amostra de Solo Amostra de Água
Amostra Metal pesado (mg) Amostra Metal pesado (mg)
1 250 1 198
2 273 2 215
3 185 3 236
4 192 4 176
5 132 5 321
6 224 6 245
7 125 7 268
8 321 8 301

24. Em testes de contaminação de solo, foi verificado que duas áreas estavam com índices de
poluente acima do permitido. Para se fazer uma análise mais crítica os dados são apresenta-
dos abaixo. Desta forma, qual das duas áreas apresenta maior poluição? E qual a hipótese
nula para a questão.
Área A Área B
xA
= 195,3 mg
xB =198,7 mg
S
2
A =351 S
2
B =75
nA = 35 nB = 28

25. Num experimento para verificar entre a diferença de duas amostras que não possuem dis-
tribuição normal. Os dados se referentes ao número de pessoas sadias e infectadas por den-
gue, dividido por faixa etária.
Faixa Etária (anos)
Pessoas
Σ
Com Dengue Sem Dengue
10-15 10 25 35
16-25 15 40 55
26-40 22 56 78
Σ 47 121 168


William Costa Rodrigues

P
á
g
i
n
a
5
4

16 Bibliografia

Arango, H.G. 2001. Bioestatística Teórica e Computacional. Rio de Janeiro: Guanabara
– Koogan, 235p.
Beiguelman, B. 2002. Curso prático de bioestatística. Ribeirão Preto: FUNPEC, 5ª Ed.,
272p.
Berger, W.H. & Parker, F.L. 1970. Diversity of Planktonic Foraminifera in Deep-Sea
sediments. Science, 168: 1345-1347.
Brower, J.E.; Zar, J.H. & von Ende, C.N. 1998. Field and Laboratory Methods for
General Ecology. Quebecor: MC Graw Hill, 4
th
ed., 273p and software included.
Carvalho, S. & Campos, W. 2008. Estatística simplificada. Rio de Janeiro: Elsevier.
608p.
Centeno, A.J. 2002. Curso de Estatística Aplicada à Biologia. Goiânia (Coleção Didáti-
ca, 3): Ed. Da UFG, 2ª ed., 2ª reimpr. 234p.
Clark, L.R.; Geier, P.W.; Hughes, R.D. & Morris, R.F. 1967. The Ecology of insect
Populations in Theory and Practice. Methuen & Co., London. 232p.
Dauber, J.; Hirsch. M.; Simmering, D.; Waldhardt, R.; Otte A. & Wolters, V.
2003. Landscape structure as an indicator of biodiversity: matrix effects on species
richness. Agriculture, Ecosystems and Environment, 98: 321-329.
Fager, E.W. 1957. Determination and analysis of recurrent groups. Ecology, 38:586-
595.
Gomes, F.P. 1990. Curso de Estatística Experimental, Piracicaba: Nobel, 13ª ed (revista
e ampliada), 467p.
Jaccard, P. 1912. The distribution of the flora in the alpine zone, NeroPhytal. 11:37-50.
Lara, F.M. 1992. Princípios de Entomologia. Ed. ícone, 3ª ed. 331 p.
Laroca, S. 1995. Ecologia: princípios e métodos: Petrópolis: Vozes, 197p.
Levine, D.M.; Berenson, M.L & Stephan, D. 2000. Estatística: teoria e Aplicações
usando Microsoft® Excel em português. Souza, T.C.P (Trad.). Rio de Janeiro:
LTC. 811p.
Lewinsohn, T.M & Prado, P. I. K.L. 1997.O uso de análise multivariadas ecológicas
em estudos ambientais interdisciplinares. Caderno V, Campinas: UNICAMP, 43p.
Magnusson, W. E. & Mourão, G. 2003. Estatística [Sem] Matemática: A ligação entre
as questões e a análise. Londrina: Planta. 126p.
Mulekar, M.S. & Mishra, S.T. 2000. Confidence interval estimation of overlap: equal
means case. Computational Statistics & Data Analysis, 34: 121-137.
Rey, L. 2000. Planejar e redigir trabalhos científicos, São Paulo: Edgard Blücher, 2ª ed.
(revista e ampliada), 318p.
Rodrigues, P.C. 2002. Bioestatística. Niterói: EdUFF. 3ª ed. 339p.
Rodrigues, W.C. 2004. Homópteros (Homoptera: Sternorrhyncha) associados à tange-
rina cv. Poncã (Citrus reticulata Blanco) em cultivo orgânico e a interação com
predadores e formigas. Seropédica, UFRuralRJ. 63f. Tese de Doutorado.
Siegel, S. 1979. Estatística não paramétrica. São Paulo: MC Graw Hill do Brasil. 169p.
Silveira Neto, S.; Nakano, O; Barbin, D. & Villa Nova, N. A. 1976. Manual de Eco-
logia de Insetos. Ed. Agronômica Ceres, 419 p.
Sorensen, T. 1948. A method of establishing groups of equal amplitude in plant sociol-
ogy basead an similarity of species. Biol. Skr. 5:1-34
Southwood, T.R.E. 1971. Ecological Methods. Chapman and Hall Ltd., 391p.
Vanzolini, P.E.1993. Métodos estatísticos elementares em sistemática zoológica. São
Paulo, Huirtec. 130p.
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
5
5

Zar. J.H. 1999. Biostatistical Analysis. New Jersey: Prentice Hall. 4
th
ed., 663p and
index included.
William Costa Rodrigues

P
á
g
i
n
a
5
6

17 Anexos
2 Tratamentos > 2 Tratamentos
ANOVA
Teste F
Dados não
Pareados
Dados Pareados
Teste T
Variâncias iguais
(Homocedásticas)
S
2
Maior
S
2
Menor 4
S
2
Maior
S
2
Menor < 4
Variâncias desiguais
(Heterocedásticas)
Calcula Variância
Ponderada
Calcula Valor T
Conclui
textualmente
Compara com T
tabelado ( =5%)
Se Tcalc Ttab
Rejeita H0
Coloca *
Se Tcalc < Ttab
Aceita H0
Coloca
ns
Compara com T
tabelado ( =1%)
Se Tcalc Ttab
Coloca **
Se Tcalc < Ttab
Mantém*
2 Tratamentos
Dados Numéricos
divididos em
Categorias
Teste
2
(Qui-Quadrado)
Calcula Valor
2
Compara com
valor
2
Tabelado
( = 5%)
Não dividido em
blocos
(Amostras
compostas)
Dividido em Bloco
Teste de Kruskal-
Wallis
Teste de Friedman
Calcula Valor H Calcula Valor
2
r
Dados com Distribuição Não Normal Dados com Distribuição Normal
Não será
abordado
Se
2
calc <
2
tab
Aceita H0
Coloca
ns
Se
2
calc
2
tab
Rejeita H0
Coloca *
Compara com
2
tabelado ( =1%)
Se
2
calc
2
tab
Coloca **
Se
2
calc <
2
tab
Mantém*

Figura 21. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
5
7

Tabela 11. Valores de t -student em níveis de 5% e 1% (α=0,05 a 0,01) de probabilidade
3
.
Grau de liberdade 5% (α αα α=0,05) 1% (α αα α=0,01)
1 12,71 63,66
2 4,30 9,92
3 3,18 5,84
4 2,78 4,60
5 2,57 4,03
6 2,45 3,71
7 2,36 3,50
8 2,31 3,36
9 2,26 3,25
10 2,23 3,17
11 2,20 3,11
12 2,18 3,06
13 2,16 3,01
14 2,14 2,98
15 2,13 2,95
16 2,12 2,92
17 2,11 2,90
18 2,10 2,88
19 2,09 2,86
20 2,09 2,84
25 2,06 2,79
30 2,04 2,75
50 2,01 2,68
100 1,98 2,63
500 1,96 2,59
∞ 1,96 2,58


3
A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al. (1998).
William Costa Rodrigues

P
á
g
i
n
a
5
8

Tabela 12. Valores de χ² (Qui-quadrado) em níveis de 5% e 1% (α=0,05 a 0,01) de probabilidade
4
.
Grau de Liberdade 5% (α αα α=0,05) 1% (α αα α=0,01)
1 3,84 6,64
2 5,99 9,21
3 7,82 11,34
4 9,49 13,28
5 11,07 15,09
6 12,59 16,81
7 14,07 18,48
8 15,51 20,09
9 16,92 21,67
10 18,31 23,21
11 19,68 24,72
12 21,03 26,22
13 22,36 27,69
14 23,68 29,14
15 25,00 30,58
16 26,30 32,00
17 27,59 33,41
18 28,87 34,80
19 30,14 36,19
20 31,41 37,57
21 32,67 38,98
22 33,92 40,29
23 35,17 41,64
24 36,42 42,98
25 37,65 44,31
26 38,88 45,64
27 40,11 46,96
28 41,34 48,28
29 42,30 49,60
30 43,77 50,89
31 44,99 48,23
32 46,19 49,49
33 47,40 54,78
34 48,60 56,06
35 49,80 57,34
36 50,99 58,62
37 52,19 59,89
38 53,38 61,16
39 54,57 62,43
40 55,76 63,69


4
A tabela completa poderá ser encontrada em Gomes (1990) e Levine et al. (1998).
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
5
9

Tabela 13. Valores críticos para o Coeficiente de Correlação de Spearman (r
s
)
5

n α αα α(2) 0,50 0,10 0,05 0,01
4 0,600 1,000 – –
5 0,500 0,900 1,000 –
6 0,371 0,829 0,886 1,000
7 0,321 0,714 0,786 0,929
8 0,310 0,643 0,738 0,881
9 0,267 0,600 0,700 0,833
10 0,248 0,564 0,648 0,794
11 0,236 0,536 0,618 0,755
12 0,217 0,503 0,587 0,727
13 0,209 0,484 0,560 0,703
14 0,200 0,464 0,538 0,679
15 0,189 0,446 0,521 0,654
16 0,182 0,429 0,503 0,635
17 0,176 0,414 0,485 0,615
18 0,170 0,401 0,472 0,600
19 0,165 0,391 0,460 0,584
20 0,161 0,380 0,447 0,570
21 0,156 0,370 0,435 0,556
22 0,152 0,361 0,425 0,544
23 0,148 0,353 0,415 0,532
24 0,144 0,344 0,406 0,521
25 0,142 0,337 0,398 0,511
30 0,128 0,306 0,362 0,467
35 0,118 0,283 0,335 0,433
40 0,110 0,264 0,313 0,405
45 0,103 0,248 0,294 0,382
50 0,097 0,235 0,279 0,363
55 0,093 0,224 0,266 0,346
60 0,089 0,214 0,255 0,331
65 0,085 0,206 0,244 0,318
70 0,082 0,198 0,235 0,307
75 0,079 0,191 0,227 0,297
80 0,076 0,185 0,220 0,287
85 0,074 0,180 0,213 0,279
90 0,072 0,174 0,207 0,271
95 0,070 0,170 0,202 0,264
100 0,068 0,165 0,197 0,257


5
A tabela completa poderá ser consultada em Zar (1999).
William Costa Rodrigues

P
á
g
i
n
a
6
0

Tabela 14. Valores para transformação % arcsen
6

% 0 % 0 % 0 % 0
0,0 0 21 27,28 51 45,57 81 64,16
0,1 1,81 22 27,97 52 46,15- 82 64,90
0,2 2,56 23 28,66 53 46,72 83 65,65
0,3 3,14 24 29,33 54 47,29 84 66,42
0,4 3,63 25 30,00 55 47,87 85 67,21
0,5 4,05+ 26 30,66 56 48,45- 86 68,03
0,6 4,44 27 31,31 57 49,02 87 68,87
0,7 4,80 28 31,95- 58 49,60 88 69,73
0,8 5,13 29 32,58 59 50,18 89 70,63
0,9 5,44 30 32,21 60 50,77 90 71,56
1 5,74 31 33,83 61 51,35+ 91 72,54
2 8,13 32 34,45- 62 51,94 92 73,57
3 9,98 33 35,06 63 52,53 93 74,66
4 11,54 34 35,67 64 53,13 94 75,82
5 12,92 35 36,27 65 53,73 95 77,08
6 14,18 36 36,87 66 54,33 96 78,45
7 15,34 37 37,47 67 54,94 97 80,02
8 16,43 38 38,06 68 55,55+ 98 81,87
9 17,46 39 38,65- 69 56,17 99,0 84,26
10 18,44 40 39,23 70 56,79 99,1 84,56
11 19,37 41 39,82 71 57,42 99,2 84,87
12 20,27 42 40,40 72 58,05+ 99,3 85,20
13 21,13 43 40,98 73 58,69 99,4 85,56
14 21,97 44 41,55+ 74 59,34 99,5 85,95-
15 22,79 45 42,13 75 60,00 99,6 86,37
16 23,58 46 42,71 76 60,67 99,7 86,86
17 24,35+ 47 43,28 77 61,34 99,8 87,44
18 25,10 48 43,85 78 62,03 99,9 88,19
19 25,84 49 44,43 79 62,72 100,0 90,00
20 26,56 50 45,00 80 63,44 - -
Os sinais (+) e (-), seguindo ângulos terminados em 5, são orientações para arredondamento a uma deci-
mal.


6
A tabela completa poderá ser consultada em Zar (1999).
Apostila de Estatística Aplicada - 2010

P
á
g
i
n
a
6
1

Tabela 15. Valores mínimos de j, significativos a 0,5% (Southwood, 1971).
n
A
n
B
/n
a
1,0 1,5 2,0
5 5 5 –
6 5 6 6
7 6 7 7
8 7 8 8
9 7 8 9
10 8 9 10
20 14 16 17
30 19 22 24
40 25 29 32
50 29 35 39
60 36 42 46
70 41 48 53
80 46 55 59
90 52 61 67
100 57 67 74
William Costa Rodrigues

P
á
g
i
n
a
6
2

*************
O minuto que você está vivendo agora é o mais importante de sua vida, onde quer que
você esteja.
Preste atenção ao que está fazendo.
O ontem já lhe fugiu das mãos.
O amanhã ainda não chegou.
Viva o momento presente, porque dele depende todo o seu futuro.
Procure aproveitar ao máximo o momento que está vivendo, tirando todas as vantagens
que puder, para seu aperfeiçoamento.
C. Torres Pastorinho
Minutos da Sabedoria, p. 154
*************

Sign up to vote on this title
UsefulNot useful