Você está na página 1de 70
8ª Edição Revisada e Ampliada Com listas de Exercícios
8ª Edição
Revisada e Ampliada
Com listas de Exercícios

O Autor:

William Costa Rodrigues é Agrônomo, Doutor em Agronomia (Fito- tecnia) e Pós-Doutor em Entomologia, pela Univ. Federal Rural do Rio de Janeiro. Prof. da Universidade Severino Sombra e no Instituto Superior de Tecnologia de Paracambi/ FAETEC-RJ, ministra aulas de

Ecologia 1 , Toxicologia 1 , Climatologia 1 , Estudos de Impacto Ambien-

tal 1 , Estatística Aplicada 2 e Auditoria Certificação Ambiental 2 , na gra-

duação e de Estatística Ambiental 1 e Biondicadores Ambientais 1 na especialização de Planejamento e Gestão Ambiental 1 , onde também é Supervisor Pedagógico. Atua como desenvolvedor de softwares agrí- colas e Científicos. Coordenador Geral do projeto Entomologistas do Brasil (www.ebras.bio.br ) e Editor-Chefe do Periódico Online En- tomoBrasilis (www.periodico.ebras.bio.br ). Coordenador e autor de capítulos no livro Citricultura Fluminense: Principais pragas e seus inimigos naturais. Trabalha ativamente com análise estatística em projetos na área agrícola e ambiental. O autor poderá ser contatado através do e-mail: wcostarodrigues@yahoo.com.br . Para maiores informações acesse o currículo Lattes do autor no seguinte endereço:

http://lattes.cnpq.br/9873385223698434 .

Esta Obra:

A apostila Estatística Ambiental foi inicialmente utilizada no progra-

ma de Pós-Graduação Lato Sensu, Planejamento e Gestão Ambiental e no Curso de graduação em Gestão Ambiental, na disciplina Estatística Aplicada, tendo como objetivo informar o discente sobre os princípios básicos da estatística, relacionando-a com a metodologia científica,

possibilitando um entendimento básico sobre o assunto. Hoje a aposti-

la é também utilizada em cursos de graduação e desde 2009 mudou o

título para Estatística Aplicada.

e desde 2009 mudou o título para Estatística Aplicada . Esta obra é distribuída através da

Esta obra é distribuída através da Creative Commons Licence. http://creativecommons.org/licenses/by-nc-sa/2.5/br

Copyright©2003Copyright©2003-Copyright©2003Copyright©2003--20-202010201010,10,,, W.C.W.C.W.C.W.C. RodriguesRodriguesRodriguesRodrigues

1 Disciplina Ministrada na Universidade Severino Sombra

2 Disciplina Ministrada no Instituto Superior de Tecnologia em Paracambi, RJ- Curso de Gestão Ambiental

Sumário

1 Introdução

1

1.1 Crescimento e Desenvolvimento da Estatística Moderna

1

1.2 Variação ao Acaso

1

2 Ensaio x Experimentação

2

3 Conceitos Estatísticos

2

3.1 Estatística Descritiva

2

3.2 Inferência Estatística

2

3.3 Tipos de Dados

3

3.3.1 Variáveis Aleatórias Categorizadas

3

3.3.2 Variáveis Aleatórias Numéricas

3

4 Por que Utilizar a Estatística

4

5 Planejamento Experimental

4

5.1

Fases do Planejamento

4

5.1.1 Problema

5

5.1.2 Informações Existentes

5

5.1.3 Noções Gerais Sobre Hipótese

5

5.1.4 Formulação das Hipóteses

6

5.1.4.1 Elaborando as hipóteses

6

5.1.4.2 Hipótese Estatística x Hipótese Científica

6

5.1.5 Testando as Hipóteses

6

5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses

6

5.1.7 Aleatorização

7

5.2

Erros de Observações

7

5.2.1 Erros do Observador

7

5.2.2 Erro do Método de Observação

7

5.2.3 Por Falta de Resposta

8

5.3 Controle dos Erros nas Observações

8

5.4 Métodos de Coleta de Dados

8

5.4.1 Fontes Primárias

8

5.4.2 Fontes Secundárias

8

5.5 Pesquisa Observacional

9

5.6 Pesquisa Experimental

9

5.6.1

Princípios da Experimentação

10

5.7

Tipos de Amostras

10

5.7.1 Amostras Simples ao Acaso

10

5.7.2 Amostra Estratificada

11

5.7.3 Amostra Sistemática

11

5.7.4 Amostra por Área

11

5.7.5 Amostra por Conglomeradas

11

5.7.6 Amostra Selecionada

11

5.8

Determinação do Tamanho da Amostra

12

5.8.1

Tamanho da Amostra para Dados Discretos

12

5.8.2

Tamanho da Amostra para Dados Contínuos

13

6 Tabela

14

6.1 Elementos Fundamentais de uma Tabela Estatística

14

6.2 Elementos Complementares de uma Tabela Estatística

14

6.3 Observações para a Construção de Tabelas Estatísticas

15

6.5

Tipo de Tabela

15

6.5.1 Tabela Simples (Unidimensional)

15

6.5.2 Tabela de Dupla Entrada ou Cruzada (Bidimensional)

16

7 Representação Gráfica dos Dados Estatísticos

16

7.1 Gráficos de Colunas

16

7.2 Gráficos em Barras

17

7.3 Gráficos de Linhas

18

7.4 Gráficos de Pizza

18

7.5 Gráficos Compostos

19

8 Probabilidade Estatística

19

8.1 Regras para Combinar Probabilidade

21

8.2 Probabilidade Condicionada

22

9 Técnicas Estatísticas Para Análise de dados

22

9.1

Medidas de Tendência Central

22

9.1.1 Média Aritmética Simples ( X )

23

9.1.2 Média Aritmética Ponderada

23

9.1.3 Média Aritmética de Dados Agrupados em Intervalos

24

9.1.4 Mediana (Me)

24

9.2

Medidas de Variação

25

9.2.1 Desvio-Médio (DM)

25

9.2.2 Desvio Padrão

26

9.3 Variância ou Quadrado Médio

27

9.4 Erro-Padrão da Média - s(x)

27

9.5 Coeficiente de Variação

28

9.6 Curva de Distribuição Normal

28

9.6.1 Limites de Confiança

29

9.6.2 Erro Padrão

30

9.7 Teste de Normalidade dos Dados

30

9.8 Teste de Klomogorov-Smirnov (K-S)

31

9.9 Teste de Shapiro-Wilks (S-W)

31

10 Testes Paramétricos e Não Paramétricos

31

10.1

Teste t - Student

31

10.1.1 Dados Pareados (Amostras Dependentes)

32

10.1.2 Dados Pareados (Amostras Independentes)

33

10.1.3 Dados Não-Pareados - Variâncias Desiguais (Heterocedásticas)

34

10.1.4 Dados Não-Pareados - Variâncias Iguais (Homocedásticas)

35

10.2 Teste Qui-Quadrado ( ²)

36

10.3 Tabela de Contingência

36

10.4 Teste de Kruskal-Wallis

37

10.5 Teste de Friedman (Análise da Variância)

39

11 Correlação Linear

40

11.1

Coeficiente de Correlação (r)

40

11.1.1 Correlação de Pearson

40

11.1.2 Correlação de Spearman

41

11.1.3 Aspectos Gerais da Correlação Linear

41

11.2 Coeficiente de Determinação (r²)

42

11.3 Coeficiente de Alienação (K)

42

11.4 Significância do Teste de Correlação

42

 

11.4.1

Significância Baseada nos Intervalos

42

12

Análise de Regressão

43

12.1 Regressão Linear Simples

12.2 Regressão Linear Múltipla

12.3 Regressão Múltipla

13 Transformação de Dados

13.1 Raiz Quadrada

13.2 Transformação Logarítimica

13.3 Transformação Angular (Arcoseno)

13.4 Considerações Gerais

14 Testes Específicos Para Análise de Populações e Comunidades

14.1 Índice de Diversidade e Dominância Populacional

14.1.1 Índice de Margalef ( )

14.1.2 Índice de Glason (D )

g

14.1.3 Índice de Menhinick (D m )

14.1.4 Índice de Shanon-Wiener (H')

14.1.5 Índice de Dominância Berger-Parker (d)

14.2 Exemplo

14.3 Índice de Similaridade entre Populações

14.3.1 Quociente de Similaridade

14.3.2 Porcentagem de Similaridade

14.3.3 Índice de Afinidade

14.3.4 Constância

14.3.5 Índice de Associação (IA)

15 Lista de Exercícios

16 Bibliografia

Anexos

17

44

45

45

46

46

46

46

46

47

47

47

47

47

47

47

48

48

48

48

49

49

49

50

54

56

Índice de Tabelas

Tabela 1. Resultados da interpretação de 500 fotos aéreas de diversas áreas com

7

Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de folhas

32

Tabela 3. Dados de um experimento com a taxa de crescimento de mudas de duas leguminosas em sistema agro-silvo-pastoril, numa área de re-vegetação (dados

33

Tabela 4. Resultados das amostras de cinco diferentes áreas delimitadas pelas características edáficas do solo, em quatro diferentes profundidades. Os dados

apresentados referem-se a o poluente - -16-Imaginol-Poluentis, em mg.mm³ de

39

Tabela 5. Correlação de Spearman entre as notas brutas de matemática e biologia (Zar,

presença de mata. (dados fictícios)

de mandioca (dados

solo

1999)

41

Tabela 6. Classificação do valor r através de intervalos de 0 a 1

42

Tabela 7. Classificação do valor r através de intervalos de acordo com e Teste de Rugg.

43

Tabela 8. Série de dados da correlação da flutuação populacional do pulgão Toxoptera aurantii (Homoptera, Aphididae) em função da brotação foliar de tangerina cv Poncã, sob cultivo orgânico na Fazendinha Agroecológica, no período de outubro de 2002 e outubro de 2003 (Extraído de Rodrigues, 2004). Exemplo para o

Microsoft

43

Tabela 9. Índices de diversidade de cochonilhas em agroecossiema

48

Tabela 10. Duas comunidades com sua composição de espécies em percentagem

49

Tabela 11.

Valores de t -student em

níveis de 5%

e

1%

( =0,05

a 0,01)

de

 

57

Tabela 12. Valores de ² (Qui-quadrado) em níveis de 5% e 1% ( =0,05 a 0,01) de

probabilidade

58

Tabela 13. Valores críticos para o Coeficiente de Correlação de Spearman (r s )

59

Tabela 14. Valores para transformação arcsen

%
%

60

Tabela 15. Valores mínimos de j, significativos a 0,5% (Southwood,

61

Índice de Figuras

Figura 1. Diagrama de uma estatística descritiva, com seus diversos níveis de

 

3

Figura 2. Diagrama de tipos de dados estatísticos

4

Figura 3. Interpretação dos dados experimentais. O gráfico à esquerda, baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B), parece sugerir que Y cresce à medida que X cresce, entretanto no gráfico à direita,

em que foram registrados outros valores intermediários (definidos pelos pontos B e

C), mostra que a relação entre X e Y obedece a uma lei mais completa

10

Figura 4. Produção de veículos no Brasil

16

Figura 5. Alunos formados na Universidade Federal de Pernambuco em

17

Figura 6. Preferência de programas de televisão por

17

Figura 7. Produção de cebola no Brasil em

17

Figura 8. Crescimento demográfico do Brasil de 1995 a

18

Figura 9. Fatia de mercado de empresas de venda de seguros de saúde no estado do Rio

de

Janeiro

18

Figura 10. Eleitores por estado da região Sudeste do

19

Figura 11. Flutuação populacional de pulgão preto dos citros em função da temperatura

19

Figura 12. Curva de distribuição normal simétrica, onde é a média e s o desvio

28

Figura 13. Curvas de distribuição normal das freqüências de X, tendo a mesma média ( ) e diferentes graus de dispersão dos valores de X, isto é, desvios padrões (s)

29

Figura 13. Curva normal padrão, tendo por parâmetros =0 e s= 1. As áreas sob a curva assinaladas entre os traços verticais indicam as percentagens de valores de X aí

média em 1996, no campus da Universidade Federal Rural do Rio de

29

Figura 15. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos

afastamentos de X em relação à média , medidos em unidades de desvio-padrão.

A probabilidade (P) com que X possa ter valor menor que uma coordenada

30

Figura 16. Correlação linear simples positiva (A); e inversa ou negativa (B),

apresentando a linha de tendência de regressão linear simples de dados fictícios. 42 Figura 17. Janela de configuração da linha de tendência (linha de regressão) e

44

Figura 18. Regressão linear simples entre a flutuação populacional de T. aurantii e a

brotação foliar de tangerina cv. Poncã, em cultivo orgânico de tangerina cv. Poncã,

na Fazendinha Agroecológica, no período de outubro de 2002 a outubro de 2003

44

Figura 19. Correlação múltipla da amplitude térmica (variável x), brotação (variável y) e a flutuação populacional de Toxoptera citricida (variável z), em cultivo orgânico

de tangerina cv. Poncã, na Fazendinha Agroecológica, no período de outubro de

contidas

escolhida (C) é indicada pela área, sob a curva, situada à esquerda de

configuração da equação de regressão no Microsoft Excel

(Adaptado de Rodrigues, 2004)

2002 a outubro de 2003 (Adaptado de Rodrigues, 2004)

45

Figura 20. Regressão múltipla entre a flutuação populacional de T. aurantii e a brotação foliar de tangerina cv. Poncã, em cultivo orgânico de tangerina cv. Poncã, na

Fazendinha Agroecológica, no período de outubro de 2002 a outubro de 2003

(Adaptado de Rodrigues, 2004)

45

Figura 20. Fluxograma Para Auxiliar na Escolha de Testes Estatísticos

56

Apostila de Estatística Aplicada - 2010

Página1

1

Introdução

Diariamente estamos envolvidos em análises estatísticas, por exemplo, quando você é abordado na rua para responder qual o candidato irá votar na próxima eleição, quando o IBGE faz uma visita a sua casa para o censo. Desta forma, você está fazendo parte da estatística, mas não é só desta forma que você faz parte do infinito mundo da estatística. Quando você está desempregado ou empregado, está fazendo parte da esta- tística, quando seu salário aumenta, faz parte também. Bom, podemos ver que em quase tudo, eu disse quase tudo, podemos empregar a estatística, obviamente que não pode-

mos deixar a estatística dominar nossas vidas, pois o principal objetivo desta ferramenta é auxiliar na tomada de decisão ou de avaliar uma determinada situação e poder melhor indicar o caminho para uma tomada de decisão.

A estatística, como parte da matemática aplicada, trata da coleta, da análise e da

interpretação de dados observados. Estudando os mais variados fenômenos das diversas áreas do conhecimento, ela representa um valioso instrumento de trabalho nos dias de hoje.

Na área ambiental, o estudo da estatística justifica-se pela necessidade de desen- volver pesquisas, realizar experimentos, e mesmo pela utilização dos resultados e pes- quisas feitas, realizar experimentos, e mesmo pela utilização dos resultados e pesquisas feitas por aqueles que a isso se dediquem, seja visando o aprimoramento de métodos e técnicas de investigação, seja por exigências do próprio desenvolvimento do país.

1.1 Crescimento e Desenvolvimento da Estatística Moderna

Historicamente, o crescimento e o desenvolvimento da estatística moderna po- dem ser relacionados a três fatores isolados – a necessidade dos governos de coletar dados dos cidadãos, o desenvolvimento da teoria da probabilidade e o advento da in- formática. Foram levantados dados através dos registros históricos. Durante as civilizações egípcias, grega e romana, os dados eram obtidos principalmente com o objetivo de reco- lherem impostos e para o recenseamento militar. Na Idade Média, as instituições religi- osas freqüentemente mantinham registros relativos a nascimentos, morte e casamentos. No Brasil o censo é realizado a cada 10 anos, avaliando o crescimento populacional e a distribuição desta população no território nacional entre outros aspectos avaliados. De fato, a crescente necessidade dos censos ajudou a incentivar o desenvolvimento de e- quipamentos de tabulação no início do século XX. Isso levou ao desenvolvimento de computadores mainframe e finalmente a revolução dos computadores pessoais.

1.2 Variação ao Acaso

O que dificulta ao trabalho de pesquisador e exige a análise estatística é a pre-

sença, em todos os dados obtidos, de efeitos fatores não controlados (que podem ser controlados). Esses efeitos, sempre presentes, não podem ser conhecidos individualmen- te e alteram pouco ou muito, os resultados obtidos. Eles são indicados pela designação geral de variação do acaso ou variação aleatória. O efeito dessa variação do acaso é tal que pode alterar completamente os resultados experimentais. Assim, ao comparar no campo duas paisagens, poderá haver, se a avaliação for, em dias diferentes, uma interfe- rência da luz solar, que irá interferir na distinção das cores. As variações ao acaso po- dem ser exemplificadas como: temperatura ambiente, aferição do aparelho utilizado para mensurar, variação nos intervalos de amostragem, variação no horário de coleta dos dados, etc.

William Costa Rodrigues

Página2

2 Ensaio x Experimentação

Existem diferenças básicas entre os dois métodos de avaliar um dado científico. As diferenças vão desde a simples forma de avaliar e encarar a coleta dos dados até a forma de apresentação dos dados. Abaixo no Quadro 1 são listadas as diferenças entre os dois métodos.

Quadro 1. Diferenças entre Ensaio e Experimentação.

 

Ensaio

 

Experimentação

Tempo de duração da avaliação é curta, obje- tivando somente uma pré-avaliação dos resul- tados.

Tempo de duração da avaliação é curta, obje- tivando somente uma pré-avaliação dos resul- tados.

é curta, obje- tivando somente uma pré-avaliação dos resul- tados. O tempo de avaliação deverá ser

O

tempo de avaliação deverá ser o suficiente

para que os dados coletado possam garantir uma avaliação, com margem de erro menor possível.

O número de amostras é reduzido. O número de amostra deverá ser suficiente

O

número de amostras é reduzido.

O número de amostras é reduzido. O número de amostra deverá ser suficiente

O

número de amostra deverá ser suficiente

 

para avaliar os dados com a maior precisão

possível

O tamanho do experimento é reduzido. O tamanho do experimento deverá ser sufici-

O

tamanho do experimento é reduzido.

O tamanho do experimento é reduzido. O tamanho do experimento deverá ser sufici-

O

tamanho do experimento deverá ser sufici-

 

ente para avaliar os dados.

As variações ao acaso são parcialmente con- trolados, não havendo rigor. As variações ao acaso

As variações ao acaso são parcialmente con- trolados, não havendo rigor.

acaso são parcialmente con- trolados, não havendo rigor. As variações ao acaso são controladas com rigor,

As variações ao acaso são controladas com rigor, possibilitando assim menor erro amos- tral e na análise estatística.

A análise e interpretação dos dados não podem A análise e interpretação dos dados deverão

A

análise e interpretação dos dados não podem

A análise e interpretação dos dados não podem A análise e interpretação dos dados deverão

A

análise e interpretação dos dados deverão

possuir muito rigor e deve se adequar ao tipo

ser rigorosas e adequadas ao tipo de experi-

de ensaio realizado, número de amostras, nú- mero de amostragens realizadas, etc.

mentação realizada.

3 Conceitos Estatísticos

3.1 Estatística Descritiva

Pode ser definida como os métodos que envolvem a coleta, a apresentação e a caracterização de um conjunto de dados de modo a descrever apropriadamente as várias características deste conjunto. Embora os métodos estatísticos descritivos sejam importantes para a apresenta- ção e a caracterização dos dados, foi o desenvolvimento de métodos estatísticos de infe- rência, como um produto de teoria da probabilidade, que levou à ampla aplicação da estatística em todos os campos de pesquisas atuais.

3.2 Inferência Estatística

Pode ser definida como os métodos que tornam possível a estimativa de uma característica de uma população ou a tomada de uma decisão referente à população com base somente em resultados de amostras (Figura 1). Para tornar mais claro esta definição, as definições seguintes são necessárias:

Uma população (ou universo) é a totalidade dos itens ou objetos a ser considerado. Uma amostra é a parte da população selecionada para análise. Um parâmetro é a medida calculada para descrever uma característica de toda uma população. Uma estatística é a medida calculada para descrever uma característica de apenas uma amostra da população.

Apostila de Estatística Aplicada - 2010

Página3

Para melhor elucidar estes conceitos, digamos que há uma necessidade de saber a opinião da qualidade de vida no campus de sua faculdade. A população, ou universo, será todos os alunos da faculdade, enquanto a amostra consistirá os estudantes selecio- nados para participar da pesquisa. O objetivo da pesquisa é descrever várias atitudes ou características de toda a população (os parâmetros). Isto seria alcançado utilizando-se as estatísticas obtidas da amostra de estudantes para estimar atitudes ou características de interesse da população. Desse modo, um aspecto principal da inferência é o processo que utiliza a estatística amostral para tomar decisões sobre os parâmetros da população.

PPooppuullaaççããoo//UUnniivveerrssoo AAmmoossttrraa PPaarrââmmeettrroo EEssttaattííssttiiccaa
PPooppuullaaççããoo//UUnniivveerrssoo
AAmmoossttrraa
PPaarrââmmeettrroo
EEssttaattííssttiiccaa

Figura 1. Diagrama de uma estatística descritiva, com seus diversos níveis de categorias.

A amostra pode ser definida também como o conjunto de observações extraídas de uma fonte

A

amostra pode ser definida também como o conjunto de observações extraídas de uma fonte

(população), segundo determinadas regras e critérios, sendo a população a fonte de observa-

 

ções.

A população pode ser constituída de elementos simples, como é o caso dos seres humanos

A

população pode ser constituída de elementos simples, como é o caso dos seres humanos ou

das plantas superiores ou das bactérias, ou por elementos coletivos, como é o caso das irman-

dades com mais de um indivíduo, das famílias, ou das pessoas que habitam uma casa.

A necessidade da inferência estatística deriva da necessidade da amostragem. Quando a população se torna grande, é geralmente dispendioso demais, consome muito tempo e é muito cansativo obter informações sobre a população inteira. Decisões perti- nentes às características da população devem ser baseadas na informação contida numa amostra da população.

3.3 Tipos de Dados

Existem basicamente dois tipos de dados de características de variáveis aleató- rias que podem ser estudadas e que produzem os resultados ou os dados observados:

categorizados ou numéricos (Figura 2).

3.3.1 Variáveis Aleatórias Categorizadas

Este tipo de variável produz respostas categorizadas. Por exemplo, você tem

carro?

respostas categorizadas. Por exemplo, você tem carro? Sim Não. 3.3.2 Variáveis Aleatórias Numéricas Produz

Sim

respostas categorizadas. Por exemplo, você tem carro? Sim Não. 3.3.2 Variáveis Aleatórias Numéricas Produz

Não.

3.3.2 Variáveis Aleatórias Numéricas

Produz respostas numéricas, podendo ser números discretos ou contínuos. A resposta para pergunta: "Quantos livros você possui?", a resposta é discreta, enquanto a reposta para "Qual a sua altura?", é contínua. Dados discretos são respostas numéricas que surgem a partir de processo de con- tagem e dados contínuos são repostas numéricas que surgem a partir de um processo de medição.

William Costa Rodrigues

Página4

Na Figura 2, segue exemplos de variáveis tanto para aleatórias categorizadas, quanto para aleatórias numéricas (discretas e contínuas).

Tipos de Dados
Tipos de Dados
numéricas (discretas e contínuas). Tipos de Dados Categorizadas Você possui carro? Sim Não Numéricas
numéricas (discretas e contínuas). Tipos de Dados Categorizadas Você possui carro? Sim Não Numéricas
Categorizadas Você possui carro? Sim Não
Categorizadas
Você possui
carro?
Sim Não
Numéricas
Numéricas
Categorizadas Você possui carro? Sim Não Numéricas Discretas Quantas revistas você assina? 5 Contínuas
Categorizadas Você possui carro? Sim Não Numéricas Discretas Quantas revistas você assina? 5 Contínuas
Categorizadas Você possui carro? Sim Não Numéricas Discretas Quantas revistas você assina? 5 Contínuas
Categorizadas Você possui carro? Sim Não Numéricas Discretas Quantas revistas você assina? 5 Contínuas
Discretas Quantas revistas você assina? 5
Discretas
Quantas revistas você
assina?
5
Contínuas Qual sua altura? 1,75m
Contínuas
Qual sua altura?
1,75m

Figura 2. Diagrama de tipos de dados estatísticos.

4 Por que Utilizar a Estatística

A Estatística é uma área da matemática muito utilizada hoje em dia, entretanto

o uso inadequado e fanático desta ferramenta torna muito difícil a compreensão dos

resultados e levam-na ao descrédito.

A Estatística nada mais é que uma ferramenta que poderá auxiliará na interpre-

tação dos resultados e poderá confirmar a hipótese a ser testada ou simplesmente recu- sá-la.

Desta forma devemos ter muito cuidado ao utilizar à estatística, como a ferra- menta que irá dizer se, por exemplo, "uma área será condenada por poluição de metais pesado no solo". O que pode ocorrer é que a estatística irá indicar uma diferença numé- rica, caberá ao profissional avaliar os parâmetros não previsíveis no modelo matemático e tomar a decisão.

5 Planejamento Experimental

5.1 Fases do Planejamento

Quando realizamos um estudo, primeiro consideramos sua importância. Em se- guida, traçamos os objetivos que pretendemos alcançar e a finalidade de sua realização. Se houver alguma informação que possa auxiliar como ponto de partida, esta poderá fornecer alguns indicadores ou ensinar novas técnicas que servirão para complementar nossa experiência. Estas informações deverão ser avaliadas e criticadas, pois os dados poderão apresentar falhas ou nada representaram para o estudo do problema ou para a elaboração das hipóteses a serem formuladas. Em suma, diremos que os dados selecio- nados devem ser os estritamente necessários.

Apostila de Estatística Aplicada - 2010

Página5

5.1.1 Problema

Ao planejar o problema que se vai pesquisar, deverá ser dada especial atenção aos seguintes pontos:

Definição da importância do problema que se estuda;deverá ser dada especial atenção aos seguintes pontos: Determinação do(s) objetivo(s) e finalidade da

Determinação do(s) objetivo(s) e finalidade da investigação.Definição da importância do problema que se estuda; Definir a importância do problema que se estuda

Definir a importância do problema que se estuda é explicar o que vamos estudar. Será impossível o planejamento das etapas subseqüentes se não ficar claramente evi- denciado o problema a investigar. Não basta, por exemplo, dizer que se vai estudar a biodiversidade da floresta atlântica, o efeito da poluição do rio Paraíba do Sul, pois pro- vavelmente nenhum pesquisador terá possibilidade e capacidade de abordar todos os aspectos da biodiversidade ou da poluição. É importante também especificar sua exten- são.

5.1.2 Informações Existentes

Antes de empreender o experimento, o pesquisador deve revisar tudo o que diz

respeito ao fato em estudo, com a finalidade de saber o que já se conhece sobre o assun- to. Decerto serão encontrados vários subsídios que fornecerão valiosa colaboração para o estudo.

A revisão bibliográfica sobre o assunto deverá sofrer cuidadosa seleção para que

os resultados mais afins possam ser aproveitados no conforto e discussão posteriores à da pesquisa.

5.1.3 Noções Gerais Sobre Hipótese

A hipótese, resultado de um raciocínio indutivo (consciente ou subconsciente),

requer demonstração ou prova de sua adequação. Sabemos que a veracidade de uma hipótese nunca pode ser demonstrada ou provada definitivamente. O que se faz é verifi-

car se ela não seria falsa; o que nos levaria a rejeitá-la e a formular outra, se necessário. Enquanto não se possa demonstrar que ela é incorreta, mantém-se a hipótese como boa. Dela deduzimos as conseqüências ou fazemos previsões. Por sua vez, essas conseqüências e previsões serão testadas, para ver se a hipóte- se adotada ainda se mantém ou não.

O planejamento de pesquisa consiste, portanto, na elaboração de um plano de

observação, ou de experimentação, destinado a contestar determinada hipótese, por mais justa e sólida que possa parecer. A estratégia para isso depende da natureza do problema em causa. Muitas vezes, o que se tem em vista é verificar uma relação de causa e efeito:

queremos saber se a variável X e a variável Y, peculiares a determinado fenômeno, guardam entre si relações de causa e efeito (direta ou indiretamente). Na prática, teremos de montar uma observação ou uma experiência em que se possa verificar o aparecimento de Y quando ocorre X, ou alterações dos valores de Y quando varia X, de tal forma que se possa demonstrar a existência de uma relação cons- tante entre os valores de X e Y. A variável X, que precede a outra, é chamada variável independente, enquanto Y, que se supõe depender de X, é a variável dependente. Do ponto de vista operacional, podemos encontrar duas situações. Uma própria de fenômenos sobre os quais não podemos influir nem exercer qualquer controle, limi- tando-se o estudo científico à observação de como X e Y se apresentam espontaneamen- te, então, como observar e medir seus valores e como analisar as relações qualitativas e quantitativas que possam existir entre eles (ver item Pesquisa Observacional, p. 9). A outra seria a interdependência das duas variáveis.

William Costa Rodrigues

Página6

5.1.4 Formulação das Hipóteses

A estatística, testa duas hipóteses, que geralmente são denominadas de H0 ou

Hipótese nula e H1 ou Hipótese alternativa. As hipóteses estatísticas não necessariamente deverão ser idênticas à hipótese científica.

5.1.4.1 Elaborando as hipóteses

O pressuposto a hipótese estatística é sempre testar a nulidade dos dados. Por

exemplo, em um experimente está sendo testada a capacidade de duas substâncias pos- suírem o mesmo poder de reação química, nas proporções utilizadas. A H0 deverá ser a seguinte: As substâncias possuem a mesma capacidade de reação. Já a H1, será As substâncias não possuem a mesma capacidade de reação.

A hipótese nula admite que os resultados sejam iguais ou com diferenças aleató-

rias entre os tratamentos.

H

0

: X

1

= X

2

= X

3

=

X

n

Já a hipótese alternativa, testa a falta de nulidade ou falta de diferenças aleató-

rias entre os tratamentos.

H

a

: X

1

π X

2

π X

3

π

X

n

5.1.4.2 Hipótese Estatística x Hipótese Científica

A hipótese estatística testa somente os dados numéricos obtidos através de um

modelo matemático fixo e contendo restrições, que não o permite avaliar variáveis complexas e multáveis (clima, efeito antrópico, etc.).

A hipótese científica poderá ser a mesma hipótese estatística ou basear-se nela,

porém a resposta para entendimento dos resultados, não será somente baseada em um modelo matemático. Desta forma, valerá além da experiência do pesquisador, uma boa revisão bibliográfica e uma interpretação imparcial dos dados, somada com uma facili- dade de concluir de acordo não somente pelos números, mas pela descrição do fato, seja ela: biológica, social, etc.

5.1.5 Testando as Hipóteses

Existem várias formas de testar as hipóteses elaboradas. Normalmente testa-se através de modelos matemáticos, que são denominados testes estatísticos, que se divi- dem basicamente em Teste Paramétricos e Não Paramétricos, que serão visto no item Técnicas Estatísticas Para Análise de dados, p. 22.

5.1.6 Riscos na Tomada de Decisão Através Teste de Hipóteses

Quando se utiliza uma estatística para tomar decisão sobre um parâmetro da po- pulação, existe um risco de se chegar a uma conclusão incorreta. Na verdade, dois tipos de erro podem ocorrer quando aplicamos a metodologia do teste de hipóteses:

Um erro do tipo I ocorre se a hipótese nula H 0 for rejeitada quando de erro do tipo I ocorre se a hipótese nula H 0 for rejeitada quando de fato é verdadeira e não deveria ser rejeitada.

Um erro do tipo II ocorre se a hipótese nula H 0 for aceita quando de erro do tipo II ocorre se a hipótese nula H 0 for aceita quando de fato é falsa e não deveria ser aceita.

Apostila de Estatística Aplicada - 2010

Página7

5.1.7 Aleatorização

Na oportunidade em que organizamos os ensaios devemos proporcionar condi- ções idênticas para cada tratamento, possibilitando que se houver algum erro este seja atribuído ao acaso, ou seja, não tendencioso. Com este processo o erro experimental poderá ser mensurado através do modelo matemático utilizado para analisar os dados.

5.2 Erros de Observações

Quanto aos componentes de uma população, o pesquisador terá a oportunidade de verificar a existência de diferenças entre os mesmos. Através da observação ou coleta de dados, haverá sempre uma discrepância en- tre as amostragens realizadas, seja por falha no aparelho utilizado ou pela desatenção do observador. São os erros experimentais oriundos de fatores que não podem ser controla- dos.

5.2.1 Erros do Observador

O grau de treinamento dos observadores, o excesso de trabalho, seu estado físico e condições ambientais podem ser as principais causas de erros das observações. Como exemplo, poderíamos citar a experiência de que participaram cinco técnicos especiali- zados em análise de foto aérea (foto interpretação), que examinaram em épocas separa- das por um período de dois meses, as mesmas 500 fotos, com a finalidade de verificar a degradação ambiental acentuada das áreas fotografadas. As fotos foram interpretadas separadamente por cada técnico conforme a Tabela 1. Erros cometidos pelo observador deverão ser considerados no modelo matemáti- co escolhido para análise dos dados. Entretanto se estes erros forem muito distantes, ou seja, forem muito discrepantes, o modelo matemático poderá não prevê erro tão grande. Assim o treinamento dos observadores deverá ser de forma a permitir um menor erro experimental possível.

Tabela 1. Resultados da interpretação de 500 fotos aéreas de diversas áreas com presença de mata. (dados fictícios)

Observador

Fotos onde a degradação foi considerada positiva (nº)

Fotos onde a degradação foi considerada positiva (nº)

1ª leitura

2ª leitura

A

118

139

B

69

78

C

83

88

D

96

89

E

106

92

Observa-se pela tabela acima que em nenhuma das duas ocasiões os diferentes observadores coincidiram quanto ao número de fotos consideradas positivas para o refe- rido diagnóstico. O mesmo foi verificado em relação a cada um dos observadores que apresentaram resultados diferentes entre as duas leituras. Devemos concluir que, tais discordâncias não refletem uma variação real, e sim cometida por quem procedeu à leitura do material fotográfico.

5.2.2 Erro do Método de Observação

Os métodos de observação possuem erros mais ou menos importantes. Por isso há uma preocupação natural de todo pesquisador em aperfeiçoá-los ou substituí-los por outros métodos mais eficientes a fim de aumentar a exatidão dos resultados.

William Costa Rodrigues

Página8

Cada método em particular pode ter uma série de fatores que conduzem à distor- ção dos resultados.

5.2.3 Por Falta de Resposta

Este tipo de erro poderá ou não ocorrer no experimento. Ele ocorrerá se não houver a possibilidade de obter, dentro da metodologia, o dado que irá compor o con- junto de informações a serem analisadas. Por exemplo, na coleta de informações a res- peito da poluição de um determinado córrego, houve uma seca muito intensa secando a água no ponto de coleta pré-determinado, desta forma, houve um erro por falta de res- posta, assim não poderá o observador coletar em outro ponto, já que a metodologia pre- viu que aquele era o ponto a ser amostrado. Em experimento, que constituem blocos e parcelas, o erro por falta de resposta ocorrerá através da perda de uma parcela. Os modelos matemáticos que prevêem erros por falta de resposta são apropria- dos, pois irão permitir uma flexibilidade de estimar o dado faltoso.

5.3 Controle dos Erros nas Observações

Apesar da distinção que procuramos dar ás diferentes fontes de erros. Devemos lembrar que eles são bastante independentes. Qualquer que seja a causa dos erros anteriormente abordados, estes poderão ser reduzidos ou eliminados de acordo com as coisas que os determinam. Os erros dependentes dos observadores podem ser minimizados por uma prepa- ração e por um treinamento mais eficientes, assim como por uma melhoria das condi- ções físicas e de trabalho. Os erros causados pelos métodos de observação podem ser reduzidos selecio- nando-se o funcionamento dos aparelhos utilizados.

5.4 Métodos de Coleta de Dados

Embora a maioria das experimentações as informações devam ser retiradas dire- tamente no "campo", em muitas ocasiões podem-se aproveitar dados previamente obti- dos por outras pessoas. No primeiro caso, consideramos que a informação foi recolhida de fonte primária e no segundo caso dizemos que a fonte é secundária.

5.4.1 Fontes Primárias

Quando não há informações dos dados que queremos estudar, devemos ir a a- campo para obtê-lo, assim a metodologia deverá prever a coleta de dados na fonte pri- mária.

Um exemplo deste tipo de fonte é a coleta de água para a análise de poluição de um determinado córrego. A coleta esta sendo realizada no campo, não sendo utilizados dados previamente coletados por outro pesquisador.

5.4.2 Fontes Secundárias

Quando as informações que nos interessa já foram coletadas por outro pesquisa- dor, podemos utilizá-las. Este tipo de fonte é chamado secundário, pelo simples fato, da coleta dos dados ter sido realizada por outra pessoa. É óbvio que a qualidade deverá ser levada em consideração, além do que, devemos verificar a metodologia utilizada, para saber se esta poderá responder ao questionamento que a pesquisa propõe-se a responder.

Apostila de Estatística Aplicada - 2010

Página9

5.5 Pesquisa Observacional

Em certos campos da biologia e das ciências sociais, por exemplo, os métodos experimentais podem ser difíceis ou mesmo impossíveis de aplicar. Então a observação científica adquire grande importância e deve ser feita com o máximo de cuidado.

Teorias tão fundamentais como a da evolução forma estabelecidas com base exclusiva na observação da natureza. A viagem de Darwin ao redor do mundo permitiu- lhe coligir tal quantidade de informações que pôde consubstanciar a hipótese formulada por Lamarck, Saint Hilaire e outros naturalistas sobre a evolução dos seres vivos. Dar- win buscou correlacionar as características próprias das espécies com as condições do meio em que vivia cada uma delas. Suas observações sobre as relações entre organismos e o meio contribuíram decisivamente para a criação da ecologia.

A observação deve ser inteligente e sagaz, de modo permitir clara distinção entre

os fatos que são relevantes, para o estudo em causa, e os inúmeros outros que se apre- sentam concomitantemente. Por isso deve ser atenta, precisa e metódica. Deve ser per- sistente, completa, porém analítica. Exige que o pesquisador seja curioso, paciente, objetivo e imparcial; capaz de com os olhos isentos de preconceitos e a cabeça livre das fórmulas tradicionais, de idéi-

as fixas ou baseadas em dogmas ou em autoridades que não demonstraram cabalmente, na praticam a validade de suas bases. Sempre que possível, portanto, as observações devem ser corretamente registra- das, repetidas e quantificadas, partindo-se de medidas rigorosas que permitam a análise estatística dos dados.

5.6 Pesquisa Experimental

A experimentação ou simplesmente experimento é um método científico e de

observação dos fatos ou fenômenos naturais, sob condições particulares estabelecidas pelo pesquisador. Em sua essência, a experimentação deve permitir comparar o efeito de suas ou mais condições ou tratamentos, bem definidos, sobre um atributo do organismo ou ma- terial que é objeto da pesquisa. As condições, que o pesquisador seleciona ou manipula na experiência, são ge- ralmente denominadas variáveis dependentes, enquanto que as mudanças observadas em conseqüência, no atributo, são as variáveis independentes. Assim, em estudos de dietas ou os alimentos administrados seriam as variáveis independentes, e o crescimento em peso ou altura, corresponderiam às variáveis dependentes. Em experiências mais simples, os valores de uma variável independente (eixo das abscissas - X), são confrontados com os dados da variável dependente (eixo das ordenadas - Y). Por vezes, apenas duas condições da variável são testadas (por exemplo:

duas temperaturas, duas concentrações de uma substância, a presença ou a ausência de luz, a administração ou não de um medicamento, etc.). Mas, como a resposta do orga- nismo ou do fenômeno pode não ser diretamente proporcional à intensidade do fator ensaiado, torna-se em geral necessário experimentar três ou mais valores de variável independente, para que se possa apreciar seu efeito e estabelecer a lei do fenômeno. (Figura 3).

William Costa Rodrigues

Y

Y

Página10

30

25

20

15

10

5

A
A

B

A

B

X

35

 

30

   

25

B
B
C
C
 

20

A
A
 

D

15

10

 

5

A

B

C

D

X

Figura 3. Interpretação dos dados experimentais. O gráfico à esquerda, baseado em apenas dois pares de valores anotados para X e Y (que definem os pontos A e B), parece sugerir que Y cresce à medida que X cresce, entretanto no gráfico à direita, em que foram registrados outros valores intermediários (definidos pelos pontos B e C), mostra que a relação entre X e Y obedece a uma lei mais completa.

5.6.1 Princípios da Experimentação

A experimentação é a forma que o pesquisador, seja na área científica ou social, encontra para estimar os dados da pesquisa que irá realizar.

Os princípios básicos da experimentação científica são:

a.

A experimentação deverá ter impreterivelmente repetições, para assegurar que a resposta não foi obtida por mera casualidade e sim por inerência do tratamento.

b.

A casualização é um princípio fundamental, pois permite que o experimento possa ser regido por efeitos gerais a todos os experimentos. Assim as parcelas dos trata- mentos deverão ser distribuídas ao acaso pelo experimento, caso a área experimental não apresente uniformidade;

c.

O controle das variáveis aleatórias (chuva, vento, temperatura, efeito antrópico, etc.), deverá ser controlado, caso não seja possível, recomenda-se que o efeito seja igual para todos os tratamentos ou itens testados;

d.

O experimento deverá ser realizado de acordo com uma técnica já conhecida e testa- da;

e.

Caso a técnica a ser utilizada seja original, esta deverá ser experimentada antes de ser utilizada na experimentação;

f.

Os modelos estatísticos a serem utilizados na experimentação deverão ser adequados ao que se pretende responder, ou seja, deverá haver uma adequação da metodologia (objetivos) com o modelo, para que os resultados possam levar o pesquisador a uma resposta coerente e segura;

g.

Amostragens regulares, quando possíveis, pois permitem uma melhor análise dos dados;

h.

Certificação de que as pessoas envolvidas na experimentação possuam treinamento e conhecimento a cerca do modelo estatístico e da metodologia a ser empregada.

5.7

Tipos de Amostras

5.7.1 Amostras Simples ao Acaso

Um dos métodos mais usados. Emprega-se este processo, quando dispomos de uma população que apresenta características homogêneas, isto é, pouca variação no con- junto dos elementos, ou seja, variância próxima ou igual à média.

Apostila de Estatística Aplicada - 2010

Página11

5.7.2 Amostra Estratificada

Utilizada quando dispomos de informações de que a população apresenta carac- terísticas heterogêneas, isto é, grande número de fatores ou variáveis que podem com- prometer as conclusões se não eliminados, através de um procedimento correto. A população heterogênea é transformada em subpopulações homogêneas. Estas subpopulações têm nome de estratos. O tamanho da amostra será determinado em fun- ção da variância de característica a estudar em cada estrato, ou então considerando o número de seus elementos e procedendo-se a um percentual de cada estrato. Obtém-se, assim, uma amostra estratificada proporcional. Considera-se este tipo de amostra que possibilita maior precisão quanto aos re- sultados.

5.7.3 Amostra Sistemática

Aplicada quando a população apresenta um número finito de elementos e os da- dos estão distribuídos aleatoriamente. O número de elementos da amostra será obtido da seguinte forma:

Numa população constituída por 500 elementos e a amostra por 50 elementos, onde N = 500 e n = 50 dividem-se N por n, isto é, 500 por 50, obtendo-se 10, em segui- da, sorteia-se um número da primeira dezena e, a partir dele, escolhem-se os demais, observando-se que se o número sorteado for, por exemplo, cinco, o segundo deverá ser 15, o terceiro será 25, e assim por diante, até obterem-se os 50 elementos que constitui- rão a amostra.

5.7.4 Amostra por Área

Utiliza mapas geográficos de cidades e municípios. As unidades que comporão a amostra serão sorteadas em função das condições de variabilidade existentes, podendo a seqüência ser obtida através de sorteio de ruas e residências. A família poderá ser a uni- dade mais simples a ser pesquisada.

5.7.5 Amostra por Conglomeradas

Visto que, pela estratificação, o uso de amostragem nos conduz a ganhar em precisão. Embora a subdivisão da população seja em estratos, para que, de cada um, utiliza-se uma quantidade de elementos – o que torna o método de seleção um pouco mais trabalhoso – ele redunda conseqüentemente em ganho de precisão, o que é, no en- tanto, compensado apenas pela diminuição das tarefas. Após a determinação dos con- glomerados da população, sorteiam-se aleatoriamente os conglomerados que irão parti- cipar da amostra. Outros métodos de seleção poderão ser associados para determinação dos ele- mentos de cada conglomerado para compor a fração amostral.

5.7.6 Amostra Selecionada

Este tipo de amostra se caracteriza por elementos que o pesquisador seleciona para avaliar o perfil de seus componentes, considerando que os mesmos apresentam pelo menos uma característica em comum. Por exemplo, na área de saúde é comum a realização de pesquisas de que são selecionados os pacientes portadores de determinadas enfermidades. Poderia ser a doen- ça de Parkinson, hepatite, tuberculose, entre outras. Portanto, neste caso, só farão parte do estudo indivíduos portadores de enfermidade a ser pesquisada.

William Costa Rodrigues

Página12

5.8 Determinação do Tamanho da Amostra

É muito comum um pesquisador indagar qual o número de amostras a serem estabelecidas para uma determinada pesquisa de campo, laboratório ou uma simples investigação. A determinação do tamanho da amostra depende de alguns fatores:

1. Tamanho da população alvo. Quanto ao número de elementos que compõe, pode-

mos classificar em finitas e infinitas. Na obtenção do tamanho amostral será importante esta informação.

Na população finita, por exemplo, N= 3.000, a obtenção da amostra se torna menos complexa do que nos casos de populações infinitas de (N= 800.000).

2. Variância ou porcentual. Em alguns casos são empregadas características que apre-

sentam determinada variabilidade. Em outros casos, observamos a percentagem de cer- tas características em um conjunto. Dependendo do tipo de investigação, ora usamos a variância, ora usamos a percentagem.

3. Nível de confiança ( ). Deve-se imaginar que, ao apresentarmos um valor percentu-

al, referente à taxa de prevalência do fenômeno estudado na amostra observada, aquele valor tem, em relação ao valor percentual da população, uma diferença, que é, a priori,

arbitrada pelo pesquisador. Esta diferença arbitrada é considerada tendo em conta um nível de acerto que normalmente consideramos de 95% ou 99% de confiança, ou seja, o nível de confiança de que aquela diferença arbitrada realmente ocorra até o limite de diferença proposto. Os níveis de confiança propostos rotineiramente são de 95% e 99% de confian- ça. Simbolizado pela letra z, este valor é substituído na fórmula (1) por uma constante 1,96, quando o nível de confiança corresponde a 95%, e por 2,58 quando o nível de con- fiança é de 99%.

4. Informação da literatura (p). Toda pesquisa a realizar em que investigamos a taxa

de prevalência que fenômeno apresenta, na literatura, resultados os quais utilizaremos quando da determinação do valor de n em relação ao valor de p. Chamamos q o valor complementar de p para 100%, ou seja, p + q = 100%.

5. Erro de amostragem (e). Ao procedermos às técnicas de amostragem para determi-

nação do tamanho da amostra (n), entende-se que a amostra obtida apresentará um de-

terminado valor para a taxa de prevalência de certo evento. Normalmente é esperada uma diferença em relação à taxa de prevalência da população-alvo. Esta diferença é conhecida como erro de amostragem, a qual geralmente é arbitrada pelo pesquisador.

5.8.1 Tamanho da Amostra para Dados Discretos

Quando dispomos de variáveis discretas, utilizamos as seguintes fórmulas:

n

0

=

z

2

p

q

e

2

n =

n 0

1 +

n

0

N

(Equação 1)

(Equação 2)

Onde n 0 : número inicial; Z: nível e confiança; p: valor obtido de trabalho anteri- ormente realizado; N tamanho da população; q: 100%-p; (P-p): erro arbitrado pelo pes- quisador.

Apostila de Estatística Aplicada - 2010

Página13

Quando se trata de trabalho original e não se dispõe de nenhum valor usamos

p=50%.

Em populações finitas, são utilizadas as fórmulas (1) e (2). Para populações infi- nitas e para as que N seja um valor muito elevado, apenas a fórmula (1) deve ser utiliza- da.

Exemplo: com a finalidade para verificar a incidência de doença de Chagas em uma população de certa região, desejamos determinar o tamanho da amostra, sendo o tamanho da população igual a 40.000 pessoas. Considerando uma prevalência de anos anteriores igual a 20% com valor z = 1,96 ( =5%) e sendo estabelecida um erro de 4%, qual seria o número de elementos que a amostra deveria conter? A fórmula adequada para mensurar o tamanho da amostra é a equação 1. Desta forma temos:

Z = 1,96; p = 20%; q = 80%; e (P-p)= 4%

n

0

=

1,96

2

20

80

4

2

n

0

n =

384

1 +

384

40.0000

=

3,84

1.600

n =

16

384

1,0096

3,84

100

= 380,35

=

384

O número de indivíduos que deveríamos examinar para a determinação da pre-

valência é de 384 para uma população infinita e 380, para uma população finita.

5.8.2 Tamanho da Amostra para Dados Contínuos

Para variáveis quantitativas contínuas, dispomos das seguintes fórmulas:

n

0

=

2 z 2 S ( ) 2 X X
2
z 2
S
(
)
2
X
X

n =

n 0

1 +

n

0

N

(Equação 1)

(Equação 2)

Onde n 0 : número inicial; z: nível de confiança; X : média da amostra; X : média

da população alvo; S: desvio padrão obtido de trabalho anteriormente realizado. ( X -

X ): erro arbitrado pelo pesquisador; N: tamanho da população. Não sendo encontrado um desvio padrão em outro trabalho, procede-se a uma pré-amostragem, retirando-se 30 observações da população e calculando-se o desvio padrão da característica a ser estudada.

A utilização das fórmulas (1) e (2), deste item, tem procedimento semelhante ao

amostrado para variáveis discretas.

Exemplo: numa pesquisa para determinar a taxa média de hemoglobina dos in- divíduos de uma comunidade, deparamos com o problema de definir o tamanho da a- mostra. Apenas sabemos que a população desta comunidade é de aproximadamente de 25.000 indivíduos, o que torna impraticável utilizar todos os elementos. Face a isto, resolvemos determinar o número de elementos que comporão a amostra. Selecionamos

William Costa Rodrigues

Página14

ao acaso 30 elementos, determinamos o valor do teor de hemoglobina de cada um e cal- culamos a variância (medida de dispersão), cujo valor foi igual a 9mg 2 . Para tal estudo, a fórmula a empregar para determinação do tamanho da amostra será a fórmula 1 deste item. A precisão considerada para esta pesquisa foi de 0,5mg e o valor z= 1,96. Substi- tuindo na fórmula teremos:

n

0

=

1,96

2

9

3,8416

9

34,5744

n

0

=

0,25

0,5

n

2

n

0

=

0,25

n

=

n

0

=

138,2976

137

138,2976

=

1 +

138.2976

138,2976

1,0055

n

=

137,5411

25.000

138

Para o estudo a será realizado recomenda-se que o número mínimo de indivíduos

será igual a 138 para populações infinitas e 137 para populações finitas.

6

Tabela

Trata-se simplesmente de um quadro, que sintetiza em conjunto de observações, com o objetivo de uniformizá-la e racionalizá-la, de forma a tornar mais simples e fácil seu entendimento. Desta forma, uma tabela deve ser construída de modo a fornecer o máximo de esclarecimentos, com o mínimo espaço, começando com sua legenda que deve ser explicativa.

6.1 Elementos Fundamentais de uma Tabela Estatística

a) Legenda: é a indicação contida na parte superior da tabela, onde deve estar de-

finido o fato observado, com a especificação de local e época, referentes a esse fato, ou seja, deve ser autoexplicativa;

o Exemplo: Número (N), freqüência relativa (F) de fêmeas e riqueza de espécies (S) de moscas-das-frutas (Diptera: Tephritidae) capturadas nas armadilhas McPhail, em três municípios da região Norte e dois municí- pios da região Noroeste do Estado do Rio de Janeiro (maio de 2005 a abril de 2007).

b) Corpo: construído por linhas e colunas, que fornecem o conteúdo das informa- ções prestadas.

c) Cabeçalho: é a parte da tabela que apresenta a natureza do que contém cada co- luna. Ou seja, apresenta o conteúdo referente a cada coluna.

o

Exemplo:

Local

Ocorrência (nº)

d) Coluna indicadora: é a que determina o que contêm cada linha. Ou seja, apre- senta o conteúdo referente a cada linha.

Local

Ocorrência (nº)

Região metropolitana

 

Região serrana

 

Região dos lagos

 

e) Linha/Coluna de Totais: quando pertinente a tabela deverá apresentar uma li- nha e/ou coluna de totais, contendo a soma dos valores das linhas e colunas.

6.2 Elementos Complementares de uma Tabela Estatística

a) Fonte: designa a entidade/autor que forneceu os dados estatísticos.

Apostila de Estatística Aplicada - 2010

Página15

o Exemplo: Fonte: IBGE, IBOPE, Ministério da Agricultura

b) Notas: esclarecimentos de natureza geral, a nota pode ser usada para indicar uma informação extra do cabeçalho, que não cabe na respectiva célula, ou escla-

recer a natureza da informação.

Preferencialmente, as fontes e notas devem ser inseridas no rodapé da tabela, ou seja, logo a- baixo dela e com fonte menor que o corpo.célula , ou escla- recer a natureza da informação. 6.3 Observações para a Construção de Tabelas

6.3 Observações para a Construção de Tabelas Estatísticas

As recomendações aqui são meramente formais e facilitam o entendimento dos dados inseridos dentre da tabela. Desta forma, uma tabela:

 
  Não deverá ser fechada lateralmente;

Não deverá ser fechada lateralmente;

As casas ( células ) não deverão estar em branco, apresentando sempre um núme-

As casas (células) não deverão estar em branco, apresentando sempre um núme-

 

ro

ou sinal convencional;

 
  As linhas horizontais deverão estar presentes somente na divisão do cabeçalho e corpo e entre

As linhas horizontais deverão estar presentes somente na divisão do cabeçalho e corpo e entre o corpo e a linha de total.

As linhas verticais devem ser evitadas, exceto quando houver a coluna de total, onde o

As linhas verticais devem ser evitadas, exceto quando houver a coluna de total, onde o uso é facultativo, mas em geral não se usa.

Poderão ser utilizadas linhas alternativas ou em faixas, com fundo cinza claro, em geral 10%,

Poderão ser utilizadas linhas alternativas ou em faixas, com fundo cinza claro, em geral 10%, para diferenciar uma linha da outra e facilitar a leitura da tabela, principalmente quando há muitas linhas. Inclusive este sombreamento pode ser utilizado no cabeçalho e na linha de total da tabela.

6.4

Sinais Convencionais Utilizados em Tabela Estatística

São também convenções, referentes ao aspecto formal de uma tabela estatística:

 
  Três pontos ( ): quando o dado (informação) existe, mas não dispomos dele;

Três pontos (

):

quando o dado (informação) existe, mas não dispomos dele;

Ponto de Interrogação (?): quando há dúvida quanto à exatidão de determinado dado ;

Ponto de Interrogação (?): quando há dúvida quanto à exatidão de determinado dado;

O zero (0): quando o valor for realmente zero;

O

zero (0): quando o valor for realmente zero;

Traço horizontal (- ou ): quando não houve dado na coleta do mesmo.

Traço horizontal (- ou ): quando não houve dado na coleta do mesmo.

Mais ou menos (±): quando os dados inseridos na tabela representam a média e o

Mais ou menos (±): quando os dados inseridos na tabela representam a média e o desvio-padrão utiliza-se deste símbolo, ou seja, o número antes representa a mé- dia e depois representa o desvio padrão, respectivamente.

o Exemplo: 12,54±3,2455

6.5 Tipo de Tabela

6.5.1 Tabela Simples (Unidimensional)

É uma tabela que possui dados ou informações relativas a uma única variável.

Ou seja, uma coluna com a variável que se quer representar e outras colunas com os dados numéricos a serem exibidos pela tabela. Exemplo:

Taxa de crescimento de variedades de leguminosas submetidas a um composto rico em matéria orgânica, no município de Vassouras, RJ, de janeiro a abril de 2009.

Variedade

Taxa de Crescimento (cm)

Amendoim forrageiro

20

Crotalaria juncea

15

Crotalaria spectabilis

19

Gliricídia

08

William Costa Rodrigues

Página16

6.5.2 Tabela de Dupla Entrada ou Cruzada (Bidimensional)

Este tipo de tabela possui dados relativos a mais de uma variável. Ou seja, uma coluna para a variável e outras colunas para cada variável, que serão representadas nu- mericamente nas linhas.

Programação

Gênero

Gênero

Masculino

Feminino

Total

Noticiário

08

05

13

Musical

10

10

20

Novela

07

15

22

Esportivo

15

06

21

Outros

05

03

08

Total

45

39

84

7 Representação Gráfica dos Dados Estatísticos

Gráfico estatístico nada mais é do que uma forma de apresentação dos dados estatísticos. Tem como objetivo produzir, em quem o analisa, uma informação direta e objetiva do fenômeno em análise. Convém ressaltar que o mais relevante é interpretar os resultados, ou seja, reco- nhecer no gráfico alguma(s) medida(s) estatística(s) que possa(m) eventualmente se- ja(m) demonstrada(s) no gráfico.

7.1 Gráficos de Colunas

É a representação estatística de uma série estatística por meio de retângulos con- tíguos, dispostos verticalmente, ou seja, perpendiculares ao eixo x e paralelas ao eixo y. As barras possuem mesma base (eixo x), entretanto seus valores dependem dos dados das variáveis dependentes (eixo y).

1000 900 800 700 600 500 400 300 200 100 0 92 93 94 95
1000
900
800
700
600
500
400
300
200
100
0
92
93
94
95
96
Veículos
(milhares de unidades)

Ano

Figura 4. Produção de veículos no Brasil (1992-1996).

Ano Figura 4. Produção de veículos no Brasil (1992-1996). Este tipo de gráfico é utilizado geralmente

Este tipo de gráfico é utilizado geralmente para séries temporais (Figura 4), séries específicas (Figura 5) ou séries geográficas (Figura 6).

Apostila de Estatística Aplicada - 2010

Página17

250 200 150 100 50 0 Advogados Médicos Engenheiros Profissão Alunos (nº)
250
200
150
100
50
0
Advogados
Médicos
Engenheiros
Profissão
Alunos (nº)

Figura 5. Alunos formados na Universidade Federal de Pernambuco em 1999.

16 14 12 10 8 6 4 2 0 Masculino Feminino Pessoas (nº)
16
14
12
10
8
6
4
2
0
Masculino
Feminino
Pessoas (nº)

Sexo

a - Noticiário b - Musical c - Novela d - Esportivo e - Outros
a - Noticiário
b - Musical
c - Novela
d - Esportivo
e - Outros

Figura 6. Preferência de programas de televisão por sexo.

7.2 Gráficos em Barras

É a representação de uma série estatística por meio de retângulos dispostos hori- zontalmente, ou seja, perpendicular ao eixo y e paralelo o eixo x. Os retângulos possuem mesma altura e os seus comprimentos são variáveis, de acordo com os valores das vari- áveis dependentes.

São Paulo R.G. Sul Sta. Catarina Pernambuco Minas Gerais 0 50 100 150 200 250
São Paulo
R.G. Sul
Sta. Catarina
Pernambuco
Minas Gerais
0
50
100
150
200
250
300
350

Produção cebola (mil toneladas)

Figura 7. Produção de cebola no Brasil em 1992. É normalmente utilizado em séries geográficas ou na representação de séries específicas.

cebola no Brasil em 1992. É normalmente utilizado em séries geográficas ou na representação de séries

William Costa Rodrigues

Página18

7.3 Gráficos de Linhas

Este tipo de gráfico é utilizado em séries temporais ou que os dados tenham re- lação “entre si”. Um exemplo é a flutuação populacional de um animal ou planta ou a flutuação demográfica de um país (Figura 8).

90 80 70 60 50 40 30 20 10 0 1995 1996 1997 1998 1999
90
80
70
60
50
40
30
20
10
0
1995
1996
1997
1998
1999
Ano
População (em milhões)

Figura 8. Crescimento demográfico do Brasil de 1995 a 1999.

7.4 Gráficos de Pizza

São gráficos utilizados em séries geográficas que possibilitam a visualização dos resultados na forma de porcentagem. Vale ressaltar que os valores a serem especifi- cados devem ser os valores reais, pois os programas calculam automaticamente a por- centagem.

11% 16% 24% 49%
11%
16%
24%
49%
Empresa A Empresa B Empresa C Empresa D
Empresa A
Empresa B
Empresa C
Empresa D

Figura 9. Fatia de mercado de empresas de venda de seguros de saúde no estado do Rio de Janeiro.

Apostila de Estatística Aplicada - 2010

Página19

Apostila de Estatística Aplicada - 2010 Página 19 Figura 10. Eleitores por estado da região Sudeste

Figura 10. Eleitores por estado da região Sudeste do Brasil.

10. Eleitores por estado da região Sudeste do Brasil. Nete caso há uma subdivisão, separando os

Nete caso há uma subdivisão, separando os dois menores valores de percentagem dos dados

7.5 Gráficos Compostos

Podemos ter gráficos compostos e assim trabalhar com duas séries independen- tes. Como é o caso de séries específicas e séries temporais. Ou mesmo variáveis com mesma série, mas com escalas numéricas diferentes (Figura 11).

Temperatura média Toxoptera citricida 40 12 35 10 30 8 25 20 6 15 4
Temperatura média
Toxoptera citricida
40
12
35
10
30
8
25
20
6
15
4
10
2
5
0
0
Jan
Fev
Mar
Abr
Mai
Jun
Jul
Ago
Set
Out
Nov
Dez
Temperatura (ºC)
Flutuação populacional (%)

Período levantamento

Figura 11. Flutuação populacional de pulgão preto dos citros em função da temperatura média em 1996, no campus da Universidade Federal Rural do Rio de Janeiro.

8 Probabilidade Estatística

Os acontecimentos na natureza ocorrem e se repetem segundo normas e leis. A maior ou menor ocorrência de um determinado acontecimento deve-se às circunstâncias nas quais ele se realiza. Assim não podemos assumir como certo a ocorrência do acon- tecimento, uma vez que está sujeita a uma série de fatores. Contudo, podemos tomar decisões, tendo-se em vista experiências anteriores, com bases nos mais prováveis resul-

William Costa Rodrigues

Página20

tados. Essa tomada de decisão, quando o conhecimento da ocorrência de um determina- do acontecimento, não é exata, é feita através do conceito de probabilidade. A probabilidade pode ser conceituada, usando o bom senso, como o grau de crença que podemos ter na ocorrência de qualquer acontecimento eventual. Para firma esta ilustração, consideremos duas urnas, A e B, cada qual contendo 200 bolas de igual tamanho e mesmo material, distribuídas sem qualquer regularidade em seu interior. A respeito dessas urnas temos a informação de que existem 100 bolas de cor preta e outras tantas de cor vermelha na urna A, enquanto a urna B contém 199 bolas de cor preta e apenas uma de cor vermelha. Suponhamos, agora, um jogo no qual as bolas de urna A devem ser extraídas uma de cada vez, às cegas e não exaustivamente, isto é, com retorno imediato de cada

bola extraída dessa urna. Se nos pedíssemos para optar por uma aposta na retirada de uma bola preta ou na de uma bola vermelha da urna A, responderíamos, prontamente, que nos é indiferente apostar em uma ou na outra cor. Por que prontamente? Talvez porque saibamos, empiricamente, que, por existir a mesa quantidade de bolas pretas e de bolas vermelhas distribuídas na urna A sem qualquer regularidade, isto é, ao acaso, não

se deve esperar que as bolas com uma das cores sejam extraídas preferencialmente. Pelas mesmas razões empíricas diríamos que, em relação à urna B, optaríamos por apostar na extração de uma bola de cor preta, pois o nosso grau de crença a respeito

da extração de uma bola preta da urna B é maior do que aquele a respeito da extração de

uma bola vermelha.

O bom senso que empregamos em relação aos jogos com as urnas de nosso e- xemplo pode ser traduzido em termos matemáticos por intermédio do conceito clássico

de probabilidade. Assim, pode-se dizer que num conjunto de n casos igualmente possí-

veis e mutuamente exclusivos, submetidas às mesmas condições físicas, se x desses ca- sos são favoráveis a um acontecimento a, a probabilidade do acontecimento a será ex- pressa por intermédio da divisão do número de casos favoráveis ao acontecimento a pelo número de casos igualmente possíveis e mutuamente exclusivos, isto é:

P(a) =

x

n

Em relação à urna A, pode-se dizer que existem n = 200 casos igualmente possí- veis e mutuamente exclusivos ou incompatíveis, isto é, se uma determinada bola for retirada em uma extração, as outras necessariamente não serão naquela mesma extração.

Desses casos, 100 são favoráveis a retirada de uma bola preta e 100 favoráveis a retirada

de uma bola vermelha. Desse modo, se apostarmos na extração de uma bola preta tere-

mos um número de caso favoráveis x = 100, portanto:

 

100

1

P(a) =

=

, isto é, 0,5 ou 50%

 

200

2

Em relação à urna B, teremos que a probabilidade de extrair uma bola preta será:

P(a) =

199

200

= 0,995

ou 99,5%

Em relação à extrair uma bola vermelha termos:

P(a) =

1

200

= 0,005

ou 0,5%

De outra forma, seja F o número de casos favoráveis à ocorrência do evento A e

C o número de casos contrários. Chamamos de probabilidade de ocorrência de A na

razão do número de casos favoráveis à ocorrência (F) pelo numero de casos totais (F + C).

Apostila de Estatística Aplicada - 2010

Página21

p (A) =

F

F

+

C

A fórmula acima não é aplicável se o espaço amostrado for finito e os acontecimentos igualmen- te prováveis.de Estatística Aplicada - 2010 Página 21 p (A) = F F + C Exemplo 1:

Exemplo 1:

Supondo que uma sacola contendo 3 bolas amarelas, 4 vermelhas e 6 brancas. Qual a probabilidade de tirarmos uma bola amarela? Solução:

Nº casos favoráveis (F) = 3 Nº casos contrários (C) = 10 (4 +6) Nº casos totais (F+C) = 13 (10 + 3)

p (A)

=

3 = 0,2308

3

=

3

+

10

13

A probabilidade é de 0,2308, ou seja 23,08%. Assim a probabilidade poderá ser expressa em porcentagem, já que assumimos que F+C é o total, este valor passa a ser

100%.

Nesse caso a probabilidade irá variar entre 0 e 1, como podemos verificar na item 8.1 Regras para Combinar Probabilidade.

Exemplo 2:

Qual a probabilidade de um dado espermatozóide conter um cromossoma x? Solução:

Partindo da pressuposição de que é igualmente possível ter x e y, a probabilidade

é de ½.

Dois conceitos são fundamentais para o entendimento da probabilidade:

Se a ocorrência de um evento é certa, sua probabilidade é 1. Se sua não- ocorrência é certa, sua probabilidade é 0 (zero). Em qualquer outro caso, a pro- babilidade é uma fração entre 0 e 1;são fundamentais para o entendimento da probabilidade: Se a probabilidade de um evento acontecer é p

Se a probabilidade de um evento acontecer é p , a probabilidade de não acontecer é 1-p . Chamamos aqui a probabilidade de p, a probabilidade de não acontecer é 1-p. Chamamos aqui a probabilidade de “ um evento não ocorrer “ de q. Assim temos:

o

q = 1-p

logo,

p + q = 1

8.1 Regras para Combinar Probabilidade

As duas regras a seguir representam um método simplificado de trabalhar e ope- rar com probabilidade.

Regra 1 – A probabilidade de um grupo de evento, mutuamente exclusivos , ocor- rer é a – A probabilidade de um grupo de evento, mutuamente exclusivos, ocor- rer é a soma das probabilidades de cada evento. Dois eventos são ditos mutuamente exclusivos se a ocorrência de um deles, em dado ensaio, exclui a possibilidade de ocorrência do outro. Exemplo:

Qual probabilidade de tirarmos um Ás ou uma Rainha de um baralho de cartas?

Solução: A probabilidade de tirarmos um Ás é 4/52, pela definição de probabilidade. É também válido para uma rainha. Desta forma:

2

4

52

+

4

52

=

p =

13

(pela regra 1)

William Costa Rodrigues

Página22

William Costa Rodrigues Página 22 Regra 2 – A probabilidade de que dois ou mais eventos

Regra 2 – A probabilidade de que dois ou mais eventos independentes ocorram juntos é o produto das probabilidades individuais. Exemplo:

Dois pais de olhos castanhos são heterozigotos para o alelo olhos azuis?

¼ é dado pela primeira Lei de Mendel.olhos castanhos são heterozigotos para o alelo olhos azuis? p = 1 1 1 = 4

p =

1

1

1

=

4

4

16

8.2 Probabilidade Condicionada

Sejam A e B dois eventos associados a um experimento E. Representamos por P(B/A) a probabilidade condicionada do evento B quando A tiver ocorrido. Sempre que calculamos P (B), dado A, estaremos essencialmente calculando P (B) em relação ao espaço amostral reduzindo a (A) em lugar de fazê-lo em relação ao espaço amostral (S). quando calculamos P (B/A), estaremos nos perguntando o quanto provável será estare- mos em (B), sabendo que devemos estar em (A). Isto é, espaço amostral fica reduzido de (S) para (A). Exemplo:

Dois dados equilibrados são lançados, registrando-se os resultados com (x 1 , x 2 ). Por isso, o espaço amostral (A) pode ser representado pela seguinte matriz de 36 resul- tados igualmente prováveis.

A =

(1,1)

(2,1)

M

(6,1)

(1, 2)

(2, 2)

M

(6, 2)

K

K

ML

K

(1, 6)

(2, 6)

ML

(6, 6)

Consideramos os dois eventos seguintes:

A = {(x 1 , x 2 )|x 1 + x 2 = 10} e B = {(x 1 , x 2 )|x 1 > x 2 }

A = {(5, 5), (4, 6), (6, 4)}

B = {(2, 1), (3, 1), (4, 1), (5, 1), (6, 1), (3, 2), (4, 2), (5, 2), (6, 2), (4, 3), (5, 3), (6, 3), (5, 4), (6, 4), (6, 5)}

2), (6, 2), (4, 3), (5, 3), (6, 3), (5, 4), (6, 4), (6, 5)}  
 

3

15

P (A) =

P (B)

=

 

36

36

Existem várias outras aplicações e formas de utilizar a probabilidade, que poderão ser encon- trada na vasta literatura sobre estatística e probabilidade.

9 Técnicas Estatísticas Para Análise de dados

9.1 Medidas de Tendência Central

Os fenômenos quando estudados estatisticamente, são traduzidos por um conjun-

to de dados numéricos. A descrição desse conjunto de dados torna-se mais clara quando

se obtêm medidas que resumem as informações necessárias. Essas medidas dão-nos o valor típico do conjunto de dados. Os valores típicos de um conjunto de dados tendem a se localizar no centro da série. São, por isso, chamados medidas de tendência central. A importância das medidas de tendência central é dupla:

Representam ou resumem todos os valores obtidos pelo grupo e, como tal, for- necem uma descrição precisa da execução do grupo como um todo, e;

os valores obtidos pelo grupo e, como tal, for- necem uma descrição precisa da execução do

Apostila de Estatística Aplicada - 2010

Página23

Apostila de Estatística Aplicada - 2010 Página 23 Permitem o confronto de dois ou mais grupos.

Permitem o confronto de dois ou mais grupos. Usam-se, em geral, três medidas de tendência central: média aritmética (simples, ponderada, de dados agrupados em intervalos), mediana e moda.

9.1.1 Média Aritmética Simples ( X )

A média aritmética simples é a soma dos valores ou medidas, divididas pela quantidade destes. Sendo representado pela fórmula:

∑ x X =
x
X =

n

Onde X : representa a média; x : a soma das variáveis; e o n o números de indivíduos ou elementos. Exemplo: deseja-se saber o valor médio do seguinte conjunto de dados: 32, 25, 32, 30, 26, 30, 29, 26, 29 e 33.

x : 32 + 25 + 32 + 30 + 26 + 30 + 29 + 26 + 29 + 33. n = 10

292 X = 10
292
X =
10

29,2

9.1.2 Média Aritmética Ponderada

Quando se tem uma série de valores sucessivos com a respectiva distribuição de freqüência, pode-se calcular a média aritmética ponderada. A forma de apresentação da distribuição de freqüência seria:

Variável

Freqüência

X

1

f

1

X

2

f

2

.

.

.

.

.

.

X

n

f

n

A expressão da média ponderada será:

xf

X =

n

=

x f

1

1

+

x

2

f

2

+

+

x

n

f

n

 

f

1

+

f

2

+

+

f

n

Exemplo: Calcular a média de idade de crianças até 9 anos de uma determinada locali- dade.

Idade (anos)

Freqüência

2

10

3

8

4

6

5

5

6

5

7

5

8

7

9

4

William Costa Rodrigues

Página24

X

=

2

10

+

3

8

+

+

9

4

=

250

= 5 anos

 

10

+

8

+

+

4

50

9.1.3 Média Aritmética de Dados Agrupados em Intervalos

Há vezes em que os dados não são verificados com seu verdadeiro valor indivi- dual, mas são representados por uma classe que pode ter um determinado intervalo. Neste caso, operamos da mesma maneira do caso anterior. Considerando que o intervalo não tem um valor definido e sim um conjunto de valores. Utilizaremos como represen- tante o ponto médio de cada intervalo.

Por exemplo, a distribuição de freqüência abaixo, procede-se da seguinte forma:

Idade (anos)

Freqüência (f)

0 |– 5

4

5 |– 10

2

10

|– 15

3

15

|– 20

1

Idade (anos)

Valor central (X)

Freqüência (f)

X.f

0 |– 5

 

2,5

4

10,0

5 |– 10

 

7,5

2

15,0

10

|– 15

12,5

3

37,5

15

|– 20

17,5

1

17,5

 

10

80,0

Aplicando a fórmula para calcular a média ponderada teremos:

∑ xf 80 X =
xf
80
X =

n 10

= 8 anos

Desta forma a média da população avaliada é oito anos.

Quando os dados apresentam homogeneidade, é possível o uso da média aritmé- tica, que tem como:

Vantagens:é possível o uso da média aritmé- tica, que tem como: o Ser fácil de calcular

o

Ser fácil de calcular e entender;

o

Unir em um valor todas as observações do conjunto.

Desvantagens:o Unir em um valor todas as observações do conjunto. o Não servir para séries variáveis

o

Não servir para séries variáveis assimétricas;

o

Não expressar variações dentro da distribuição de dados.

9.1.4

Mediana (Me)

É um valor situado no centro da distribuição de freqüências. A distribuição tem, portanto, como objetivo encontrar um valor que permita conter 50% dos dados acima deste valor e 50% abaixo. A mediana é especialmente útil quando se trata de séries assimétricas, isto é, quando alguns valores são elevados ou baixos em relação aos demais. A mediana não é influenciada pela magnitude de cada uma dessas séries. Para o cálculo da mediana de- vemos previamente realizar alguns ajustes aos dados como segue:

Ordenam-se todos os valores, de forma crescente;da mediana de- vemos previamente realizar alguns ajustes aos dados como segue: Determina-se o total de

Determina-se o total de valores (n);de- vemos previamente realizar alguns ajustes aos dados como segue: Ordenam-se todos os valores, de forma

Apostila de Estatística Aplicada - 2010

Página25

Apostila de Estatística Aplicada - 2010 Página 25 + 1 , quando o número de ob-

+1 , quando o número de ob-

2

, quando o número de observações é par, o

n

Localiza-se o valor central mediante a fórmula:

n

2

e

n

2

+ 1

servações (n) for ímpar e

que corresponde à média dos valores centrais.

Exemplo:

a) Em determinada localidade foram selecionadas oito escolas, com a finalidade de estimar a mediana referente ao número de alunos. Tendo verificado o seguinte quadro:

Escola

Nº de alunos

A

150

B

180

C

230

D

2.500

E

200

F

160

G

250

H

170

Inicialmente ordenam-se os dados: 150, 160, 170, 180, 200, 230, 250 e 2.500.

Como o número de observações é par utilizam-se as duas fórmulas

n

2

e

n

2

+ 1

,

para obter os dois valores centrais. Assim os valores centrais para este conjunto de da- dos são 180 (4º) e 200 (5º), portanto o valor médio destes dois valores é igual a 190, que corresponde à mediana. Me= 190 alunos.

b) Em coletas de amostra de solo em cinco cidades, foram verificadas amostras po- luídas com metais pesados, conforme o quadro a seguir:

Municípios

Amostras Poluídas

A

48

B

42

C

52

D

95

E

46

Após ordenar os dados teremos: 42, 46, 48, 52 e 95. Como o número de obser-

+1 , para encontra o valor central. Desta forma,

n

vações é ímpar utilizaremos a fórmula

2

o valor central é 48, que corresponde ao valor da mediana.

Me= 48 amostras poluídas

9.2 Medidas de Variação

9.2.1 Desvio-Médio (DM)

Considerado que num conjunto de dados cada valor apresenta um afastamento em relação à média. O desvio-médio será a média aritmética destes afastamentos, le- vando-se em conta os valores absolutos desses desvios. Para um conjunto de observações: 2, 5, 9, 11, 14 e 25

William Costa Rodrigues

Página26

 

X

=

2

+

5

+

9

+

11

+

14

+

25

66

X =
X
=

= 11

 
   

6

6

 

2 -11

 

+

5 -11

+

 

9 -11

+

11-11

+

14 -11

+

25 -11

 

D.M. =

 

6

D.M.

 

9

+

 

6

+

2

+

0

+

3

+

 

14

 

D.M.

=

34
34
 

D.M.

 

5,6

=

                           

=

 

6

6

9.2.2 Desvio Padrão

Existem dois tipos de desvio padrão, o chamado desvio padrão estimado ou s e o desvio padrão absoluto ou . O Desvio padrão estimado (s) é utilizado em populações infinitas, ou seja, onde não se conhece com precisão o valor absoluto de n, já o (des- vio padrão absoluto ou verdadeiro) é calculado para populações com valor n, bem co- nhecido, ou seja, em populações finitas. O desvio padrão é o afastamento atribuído ao acaso, ou seja, o erro amostral, que

o conjunto de dados contém. Este erro refere-se à diferença do valor s calculado e a mé- dia aritmética. Para calcular o Desvio Padrão utiliza-se a seguinte fórmula:

ções.

o Desvio Padrão utiliza-se a seguinte fórmula: ções. 2 x ( ∑ x ) 2 n

2

x

(

x )

2

n

s

=

n

1

Onde: x: valores do conjunto de dados; : somatório; e n: número de observa-

Exemplo: Calcular o desvio padrão do seguinte conjunto de dados: 2, 5, 9, 11, 14 e 25 x= 2+ 5 + 9 + 11 + 14 + 25 = 66

x²= 2² + 5² + 9² + 11² + 14² + 25²

x²= 4 + 25 + 81 + 121 + 196 + 625 = 1.052

+ 14² + 25² x²= 4 + 25 + 81 + 121 + 196 + 625

s

=

4.356 1.052 6 5
4.356
1.052
6
5

s

=

1.052 726 6 1
1.052
726
6
1

s

=

326 5
326
5

s

=

65,20
65,20

É importante ressaltar que no cálculo do desvio padrão utilizou-se o denominador (n-1), ou se- ja, o grau de liberdade, pois como o valor s é uma estimativa, devemos ajustar o erro desta es- timativa, eliminando um elemento do s é uma estimativa, devemos ajustar o erro desta es- timativa, eliminando um elemento do conjunto de observações. Vale ressaltar que, no caso de

(desvio padrão absoluto ou

populações finitas o denominador será n e o desvio passa ser o verdadeiro).

Observamos agora uma série de dados agrupados, isto é, uma série de valores que se repetem e, por conseguinte, são representados pela sua freqüência.

x

f

fx

2

2

4

3

2

6

4

4

16

5

4

20

Apostila de Estatística Aplicada - 2010

Página27

x

f

fx

6

2

12

Total

14

58

Temos um total de 14 valores agrupados em cinco categorias. Desta forma lan- ça-se mão de um novo quadro de dados para facilitar os cálculos

x

f

fx

fx²

2

2

4

16

3

2

6

36

4

4

16

256

5

4

20

400

6

2

12

144

Total

14

58

852

Para calcular o desvio padrão desta distribuição, utiliza-se a seguinte fórmula:

2 2 ∑ fx  ∑ fx  s =   , ou seja,
2
2
fx
fx 
s =
, ou seja,
n
n
2 852   58  2 s =  s = 60,8571 4,1429 s
2
852
  58 
2
s =
s
=
60,8571
4,1429
s
14
14

=

2 s =  s = 60,8571 4,1429 s 14  14  = 60,8571 17,1636

60,8571

17,1636

s

=

43,6935
43,6935

s

=

6,6101

9.3 Variância ou Quadrado Médio

É o valor do desvio padrão estimado ao quadrado, originando a variância esti-

mada (), ou o valor do desvio padrão populacional, originando a variância populacio-

nal ( ²).

A variância é a medida estimada ou calculada que determina a variação dos va-

lores entre si, ou seja, quanto menor este valor menor será a diferença entre os valores dos elementos do conjunto de dados.

9.4 Erro-Padrão da Média - s(x)

Quando uma investigação científica é realizada através de amostra, a média a- ritmética teria outros afastamentos (erros) em relação média populacional ou real. Para se determinar a média destes afastamentos utilizaremos o erro padrão da média, cujo cálculo é expresso pela fórmula:

s

s ( x ) = n
s
(
x
)
=
n

Onde: s: desvio padrão da amostra e; n: número de observações do conjunto de dados. Exemplo: em uma amostra com 100 observações, obteve-se um valor s igual a 1,25, o erro-padrão da média será:

1,25 1,25 s x ( ) = s ( x ) = 100 10
1,25
1,25
s x
(
)
=
s
(
x
)
=
100
10

s(x)

=

0,125

É importante ressaltar que quanto menor for o valor do erro-padrão da média, mais preciso se- rá os resultados em relação à estimativa da média, análise da variância entre outras análises, baseadas na estimativa de dados.valor s igual a 1,25, o erro-padrão da média será: 1,25 1,25 s x ( )

William Costa Rodrigues

Página28

9.5 Coeficiente de Variação

O coeficiente de variação (CV) é uma medida abstrata que independe das unida-

des em que foram medidas os dados. Ele expressa o desvio padrão que obteríamos se a média representasse o índice 100. Pode ser também interpretado com uma medida de precisão alcançada das estimativas dos dados em relação aos valores reais. Este parâme- tro é estimado pela fórmula:

C.V. =

s

Este parâme- tro é estimado pela fórmula: C.V. = s x 100 Onde: s: desvio padrão

x

100

Onde: s: desvio padrão da amostra; x : média aritmética da amostra.

Quanto maior for a dispersão no conjunto de observações, maior será o valor do coeficiente de variação. Desta forma, podemos classificar o C.V. da seguinte forma:

Desta forma, podemos classificar o C.V. da seguinte forma: C.V. Classificação C.V. < 10% Ótimo 11%

C.V.

Classificação

C.V. < 10%

Ótimo

11% < C.V. <20%

Bom

21% < C.V.< 30%

Regular

É importante ressaltar que valores acima de 30% não significam um C.V. insatisfatório, pois alguns experimentos em campo podem ter o valor C.V. de até 65% e serem considerados bons.

9.6 Curva de Distribuição Normal

A maioria dos fenômenos da natureza, em especial os biológicos, apresentam

variações dentro de um intervalo definido. Se coletássemos os dados quanto ao peso de mil indivíduos, encontraríamos di- versos valores, dos quais haveria pequena quantidade de baixos e altos, e grande quanti- dade em torno dos valores centrais. Numa representação gráfica dos dados obtidos encontraríamos uma distribuição normal conforme a figura abaixo.

uma distribuição normal conforme a figura abaixo. Figura 12. Curva de distribuição normal simétrica, onde

Figura 12. Curva de distribuição normal simétrica, onde é a média e s o desvio padrão.

A curva de distribuição normal ou simplesmente curva normal é caracterizada

por dois parâmetros: a média e o desvio padrão (ou a variância).

O ponto máximo da função ocorre no valor médio (situado ao centro da curva,

que é simétrica); a distância entre ele e cada um dos pontos em que muda a direção da

curvatura, à esquerda e a direita da média ( ) corresponde ao valor do desvio padrão(s) (Figura 12).

A forma desta curva depende do desvio padrão, sendo tanto mais alta e estreita

quanto menor for o valor de s (Figura 13).

Apostila de Estatística Aplicada - 2010

Página29

Apostila de Estatística Aplicada - 2010 Página 29 Figura 13. Curvas de distribuição normal das freqüências

Figura 13. Curvas de distribuição normal das freqüências de X, tendo a mesma média ( ) e diferentes graus de dispersão dos valores de X, isto é, desvios padrões (s) diferentes.

A área da figura sob a curva compreendida entre valores iguais a s, de um e ou-

tro lado da média ( ), contém 68,2% dos valores de X, que serão tanto mais próximos de quanto menor for o desvio padrão (Figura 14).

de quanto menor for o desvio padrão (Figura 14). Figura 14. Curva normal padrão, tendo por

Figura 14. Curva normal padrão, tendo por parâmetros =0 e s= 1. As áreas sob a curva assinaladas entre os traços verticais indicam as percentagens de valores de X aí contidas.

A área compreendida entre -2s e +2s abrange cerca de 95,5% dos valores de X,

restando, portanto duas áreas extremas, apenas 4,5% das observações ou eventos medi- dos.

As propriedades da curva normal permitem seu uso para o cálculo de probabili- dade com que determinados valores obtidos durante as observações, ou as medições, possam ocorrer em função das variações.

9.6.1 Limites de Confiança

Quando se desconhece o valor de determinado parâmetro de uma população (sua média, por exemplo), podemos estimá-lo a partir de uma amostra extraída dessa popula- ção. A estimativa, entretanto, pode ser inexata e não saberemos o quanto ela é incorreta.

William Costa Rodrigues

Página30

Para a estimativa de um parâmetro, consideram-se como sendo seus limites de confiança, aqueles valores entre os quais fica incluído, com uma alta probabilidade, o valor exato desse parâmetro.

A probabilidade P= 0,05 (ou 5%), que corresponde a um desvio ou erro padrão

de aproximadamente 2s (ou, mais precisamente, 1,96s), é geralmente aceita, por con- venção, como limite para decidir se um resultado afastado da média (ou a diferença en- tre duas médias) é significativo ou não. Um afastamento maior que 2s indica uma probabilidade menor que 1 para 20 de que os valores encontrados pertençam a uma mesma população. Assim, se o valor mé- dio (m) de uma observação comportar um desvio ou erro padrão maior que 1,96s, em relação ao valor hipotético da média verdadeira ( ), concluiremos que ele não pertence à população cuja média é . Na Figura 15, os limites de confiança são representados pelos valores de -C e +C que circunscrevem, com grande probabilidade, o valor do parâmetro em causa. A ampli- tude entre esses valores limites denomina-se domínio de confiança ou intervalo de con- fiança.

domínio de confiança ou intervalo de con- fiança. Figura 15. Os valores de Z (compreendidos entre

Figura 15. Os valores de Z (compreendidos entre -Z e +Z) correspondem aos afastamentos de X em rela- ção à média , medidos em unidades de desvio-padrão. A probabilidade (P) com que X possa ter valor menor que uma coordenada escolhida (C) é indicada pela área, sob a curva, situada à esquerda de C.

9.6.2 Erro Padrão

Em alguns casos, é conveniente trabalhar com a média das médias amostrais. Nesse caso o desvio padrão de uma distribuição de médias ou de diferenças entre mé- dias é também chamado de erro padrão.

9.7 Teste de Normalidade dos Dados

Os testes empregados para verificar a distribuição normal dos dados, têm por objetivo direcionar o pesquisador a saber qual o tipo de teste será utilizado, se um teste paramétrico ou não paramétrico.

É necessário explorar um pouco mais a idéia sobre a distribuição de variáveis.

Uma questão que pode ser levantada primeiramente é se a maioria das variáveis é nor- malmente distribuída e, portanto poder ser empregados testes paramétricos sem preocu- pação quantos às suas restrições. Testes estatísticos com grandes amostras mostram que nem sempre as suposições de normalidade de confirmam. Por outro lado, como nem sempre se dispões de um número elevado de casos para estudo, às vezes nem é possível decidir se determinada variável possui ou não distribuição normal (na prática a amostra deve ter o valor n > 100).

Apostila de Estatística Aplicada - 2010

Página31

Os testes comumente utilizados são Klomogorov–Smirnov, ou teste K-S, que é

um teste tradicional de normalidade e o teste de Shapiro-Wilks, ou teste S-W, vem sen-

do

empregado cada vez com maior freqüência.

9.8

Teste de Klomogorov-Smirnov (K-S)

Este teste compara a distribuição real dos dados (amostra) com uma distribuição normal gerada por uma média e um desvio padrão supostamente conhecidos (popula- cionais).

9.9 Teste de Shapiro-Wilks (S-W) Este teste é uma boa opção para se testas a normalidade de uma distribuição. o

teste pode ser usado em amostra de até 2.000 observações. Nos últimos anos o teste S-

W tem sido preferido ao teste K-S pela capacidade de adaptação a uma variada gama de

problemas sobre a variação de normalidade.

10 Testes Paramétricos e Não Paramétricos

De acordo com a distribuição dos dados, utilizam-se testes de duas categorias:

Os testes paramétricos - aplicam-se a amostras extraídas de populações com dis- tribuição normal e variâncias iguais ou - aplicam-se a amostras extraídas de populações com dis- tribuição normal e variâncias iguais ou muito próximas, além de exigirem que as medidas sejam feitas em escalas numéricas intervalares, suscetíveis de tratamen- to matemático. Estes testes são, em geral, os de maior potência, podendo ser a- plicados mesmo quando ocorram pequenos desvios de normalidade ou da vari- ância entre as amostras.

Os testes não-paramétricos - são menos exigentes quanto à natureza da distribu- ição dos dados experimentais, são em - são menos exigentes quanto à natureza da distribu- ição dos dados experimentais, são em geral menos potentes. Se os dados experimentais não estiverem de acordo com os pressupostos para a

aplicação de provas paramétricas (por exemplo, se não seguirem a distribuição normal), uma alternativa é a transformação de dados dos seus valores (vide item Transformação

de Dados, p. 46), de tal forma que os pressupostos possam ser satisfeitos. A transforma-

ção mais utilizada é a conversão dos dados em logaritmos decimais. Os elementos necessários para a utilização de um teste são:

Formular as duas hipóteses: a de nulidade (H 0 ), que supõe não haver diferença significativa entre os valores encontrados e os esperados; 0 ), que supõe não haver diferença significativa entre os valores encontrados e os esperados; e a hipótese alternativa (H 1 ), onde essa diferença existirá;

Estabelecer o nível de significância e, conseqüentemente, as regiões críticas de aceitação de H 0 ; e, conseqüentemente, as regiões críticas de aceitação de H 0 ;

Definir se, se trata de um teste mono ou bicaudal;as regiões críticas de aceitação de H 0 ; Tomar as amostras de tamanho n e

Tomar as amostras de tamanho n e registrar os valores, calcular a média ( ), a variância (s²) e o n e registrar os valores, calcular a média ( ), a variância (s²) e o desvio padrão (s) e;

Escolher o teste estatístico adequado. Para maiores detalhes e saber com escolher um teste, consulte o Fluxograma Para Auxiliar na Escolha de Testes Estatísticos, p. 56.média ( ), a variância (s²) e o desvio padrão (s) e; 10.1 Teste t -

10.1 Teste t - Student

Há certas ocasiões em que o pesquisador deseja a comparação de suas amostras que provêm de populações diferentes. Neste caso, ao constatar as médias destas amos- tras para verificar se há a diferença entre elas, estaremos indiretamente comparando as duas populações. E por analogia, poderíamos proceder a um experimento em que um grupo receberia uma droga (grupo tratado), enquanto outro grupo nada receberia (grupo

William Costa Rodrigues

Página32

controle). O efeito do tratamento aplicado seria verificado pela comparação dos dois grupos.

Nesses casos, o teste t seria indicado para tal comparação salientando que a vari- ável em análise teria que apresentar os dados em distribuição normal ou aproximada- mente normal. O valor t - student calculado é dado pela fórmula:

t =

X

2 s n
2
s
n

Onde: X : média; s²= variância e N: número de observações

As formas de utilização deste teste apresentam situações diferentes como mos- tras os subitens abaixo:

10.1.1 Dados Pareados (Amostras Dependentes) Trata-se do estudo de um tipo de tratamento em que se utilizam pares de indiví- duos ou animais ou plantas. Há a uma preocupação em que haja um pareamento entre indivíduos para que eles difiram somente no aspecto, tratado e não-tratado. Em um estudo foi separada uma população de 10 crianças para os testes com administração da dieta de folha de mandioca, obtivemos os seguintes dados:

Tabela 2. Dados do peso de 10 crianças antes e depois da administração a base de folhas de mandioca (dados fictícios).

Item

Peso (Kg)

Diferença

Antes

Depois