Você está na página 1de 87

Universidade Estadual de Feira de Santana

Programa de Pós-Graduação em Modelagem em


Ciências da Terra e do Ambiente-PPGM

Introdução à estatística para Ciências


Ambientais

Professores: Willian M. Aguiar e Carlos Teles


Introdução à estatística para Ciências
Ambientais
Ementa: Noções básicas de estatística; tipos de
variáveis; medidas de posição e dispersão;
delineamento e planejamento experimental; técnicas
de amostragem; construção e teste de hipóteses;
métodos de análise e apresentação tabular e gráfica
dos dados.
Introdução à estatística para Ciências
Ambientais
• Carga horária: 30horas
• Horário: 14:00-18:00
• Oferta: início do 1º semestre letivo de cada ano
Introdução à estatística para Ciências
Ambientais
Objetivos
• Orientar os discentes na construção e refinamento do seu
projeto de pesquisa, direcionando o delineamento de sua
pesquisa.
• Oferecer ao discente, ferramentas para um desenvolvimento
adequado dos projetos de pesquisa visando desde o
delineamento experimental, a coleta, organização, tratamento
e formas de apresentação de dados até a confecção dos
trabalhos científicos e dissertativos.
Introdução à estatística para Ciências
Ambientais
Programa da disciplina
-A disciplina será dividida em aulas teóricas e estudos de caso, podendo este
ser o próprio projeto do discente.
- Adquirir o conhecimento da metodologia científica e da filosofia dos testes
estatísticos para orientar a escolha dos métodos de trabalho;
- Fazer uso de testes e pacotes estatísticos para a análise de dados em
pesquisas nos campos da ecologia, da história natural e da biologia da
conservação;
- Conhecer aspectos da comunicação científica para a produção de teses de
mestrado, doutorado e para a publicação de trabalhos em periódicos.
Introdução à estatística para Ciências
Ambientais
Estudos de caso
Nessa parte da disciplina os discentes devem apresentar um estudo de caso que
poderá ser um artigo científico, relacionado ao seu trabalho, ou o próprio projeto
de pesquisa que irá desenvolver.
Deverão ser discutidos aspectos
- Objetivos propostos,
- Metodologia utilizada para atingir os objetivos propostos
- tamanho amostral
- disposição dos pontos de coleta
- Coleta e organização de dados
-Forma de apresentação dos dados
- Análise de Dados Biológicos
Introdução à estatística para Ciências
Ambientais

Aula 1
Conteúdo:
Conceitos básicos
Noções de amostragem
Organização de dados (gráficos e tabelas)
Breve histórico da estatística
Desde a antiguidade, os homens faziam registros:
1. Número de habitantes;
2. Nascimentos e óbitos;
3. Avaliavam bens e riquezas do povo, para cobrar impostos;
4. Estoque de alimentos, dentre outros.
No século XVI, surgiram as primeiras tábuas de registro de
batizados, casamentos, nascimentos, etc.
No século XVIII, Godofredo Achenwall denominou Estatística o
estudo matemático de catalogação de dados numéricos coletivos.
Verificou-se que a estatística poderia ser utilizada para tirar
conclusões e tomar decisões.
Bioestatística Básica
COMO DEFINIR ESTATÍSTICA?
• Parte da matemática em que se investigam os processos de
obtenção, organização e análise de dados sobre uma
população ou sobre uma coleção de seres quaisquer, e os
métodos de tirar conclusões e fazer predições com base
nesses dados.
• Qualquer parâmetro de uma amostra, como, p. ex., a sua
média, o seu desvio-padrão, a sua variância.
Bioestatística Básica
Os testes estatísticos são utilizados para:

¤ Comparar amostras
(houve modificação dos grupos inicialmente
semelhantes após o início da intervenção)

¤ Detectar variáveis interferentes

¤ Analisar se o tratamento depende de outras


variáveis (peso, idade, sexo)
Divisão da estatística

• Estatística descritiva- envolve o resumo e a


apresentação dos dados

• Estatística Inferencial ou indutiva- que ajuda


a concluir sobre conjuntos maiores de dados
(populações) quando apenas partes desses
conjuntos (amostras) foram estudadas.
Estatística Descritiva

• Caracterizada nas seguintes etapas

• Definição de um problema
• Planejamento
• Coleta de dados
» Crítica dos dados
• Apresentação dos dados
» Tabelas
» Gráficos
• Descrição dos dados
Estatística inferencial

Teste Estatístico
Hipótese estatística
Pressuposições no teste de hipótese
Regras de decisão
Erros tipo I e II
Teste Uni ou bilateral
Conceitos básicos
• Populações- População estatística representa o
conjunto da totalidade em uma área amostral limitada
no espaço e no tempo.
• Ex.: Todos os alunos da UEFS ou Todos os alunos da sala de aula
• Amostras- é um subconjunto de uma população, que
atendendo as premissas como aleatoriedade e
independência podem ser utilizadas para inferir
parâmetros para as populações,
• Pode se dizer que amostras são as observações ou medições
realizadas na menor unidade amostral.
• Ex.: Medidas de 200 alunos da UEFS ou medições de 15 alunos da
sala de aula
Conceitos básicos

• Dados- são as informações (numéricas ou


não) obtidas de uma amostra ou população;
» Ex.: Fulano pesa 90kg e mede 1,80m. Quais são os dados?

• Variável- É toda característica que, observada


em uma população ou amostra pode variar de
um indivíduo para outro.
» Ex.: Peso de uma pessoa, estatura de jogadores de
basquete
Conceitos básicos
As variáveis podem ser “medidas” em quatro
escalas básicas:

• Nominal- Diferencia-se uma categoria da outra por


meio de denominação
» Ex.: Masculino ou feminino

• Ordinal- Nesse nível, não só é possível identificar


diferentes categorias, mas também a intensidade
entre elas,
» Ex.: Classificação dolorosa, pode apresentar 10 graduações;
comportamento de um animal: submisso, neutro, agressivo e muito
agressivo.
Conceitos básicos
Intervalar- O valor nulo não corresponde à ausência da
característica medida. A escala possui um zero
arbitrário.
Ex.: temperatura - o 0ºC não corresponde à ausência de temperatura, mas ao
0º da escala Celsius.

Razão- é uma escala intervalar, onde o zero corresponde à ausência


da característica medida. Nesta escala, é válido afirmarmos que uma
pessoa com 70Kg possui duas vezes o peso de uma criança com 35
Kg.
Exemplo: massa corporal, idade, tempo, pressão arterial
Conceitos básicos
• Existem dois grandes grupos de variáveis:
• As categóricas ou qualitativas- dados não-
numéricos,
» Ex.: Cor de uma flor, sexo, fumante ou não-fumante
• As numéricas ou quantitativas- dados que
expressam quantidades, valores numéricos.
» Ex.: Número de sementes dentro de uma vagem

Basicamente, as variáveis categóricas são medidas nas


escalas nominal e ordinal, enquanto que as variáveis
quantitativas são mensuradas nas escalas intervalar e
de razão.
Conceitos básicos
Variáveis quantitativas
• Discretas  valores inteiros.
– Ex: número de leitos, números de casos, número de procedimentos.

• Contínuas  valores podem ser números fracionários e a


variável pode apresentar qualquer valor pertencente ao
conjunto dos números reais, só dependendo da precisão da
medida.
– Ex: pressão arterial, peso.

Geralmente, as variáveis contínuas são resultado de medição e as


discretas, de contagens.
Conceitos básicos
Variáveis na estatística experimental
Podem ser classificadas em;

• Independentes (Causa): Variáveis introduzidas


propositadamente, para verificar sua relação com o comportamento de
outras variáveis.

• Dependentes (Efeito): Variáveis cujo comportamento se quer


verificar em função das variáveis independentes.

•Espúrias: Não são objeto do estudo, mas interferem no resultado.


Devem ser cuidadosamente controladas.
Conceitos básicos

• Parâmetro- é uma valor que resume, na população, a


informação relativa a uma variável.
» Ex.: 45% dos alunos matriculados na disciplina bioestatística, em 2011,
eram do sexo masculino. Todos os alunos foram estudados, portanto a
informação refere-se à população. Então 45% é um parâmetro.

• Estimativa do parâmetro- valores referentes a amostras


representativas de uma população, ou seja, são valores
utilizados para realizar inferências sobre o parâmetro.
» Ex.: Amostra de 15 alunos de bioestatística. 40% são do sexo masculino,
esse valor é uma estimativa do parâmetro.
Conceitos básicos

• Estatística- Além de ser uma ciência, é também uma


denominação dada a uma quantidade, calculada com
base nos elementos de uma amostra, que descreve a
informação contida no conjunto de dados.
» Média, percentagem, desvio padrão, coeficiente de correlação,
calculados em uma amostra, são estatísticas.
Conceitos básicos

• Acurácia- é quanto um valor medido se aproxima do valor


real.

• Precisão- é quanto medidas repetidas se aproximam umas das


outras.
• Uma balança descalibrada pode ser precisa?
• O valor obtido possui acurácia?
Amostragem

• Características de uma amostragem


• Representatividade- é importante que a amostra represente a
população original, mantendo suas características. Ex.: razão
sexual populacional 2:1;

• Aleatoriedade- Assegurar que todos os indivíduos da população


possuem a mesma probabilidade de serem amostrados.

• Indepedência- A seleção de um indivíduo não pode influenciar a


seleção do próximo indivíduo.
Métodos de amostragem

• Amostragem aleatória simples- Qualquer indivíduo de uma


população original possui a mesma probabilidade de aparecer
na amostra e sua seleção não interfere na seleção de outro.
Métodos de amostragem

• Amostragem estratificada- Consiste em dividir a população


em subgrupos mais homogêneos (estratos) e retirar amostras
aleatórias simples dos subgrupos.
Métodos de amostragem

• Amostragem sistemática: Esse método consiste em utilizar


um arranjo espacial ou temporal dos membros de uma
população.
Quantas amostras são necessárias?
Organização de dados
DADOS
São as informações inerentes às variáveis que caracterizam os elementos
que constituem a população ou a amostra em estudo.

DADOS BRUTOS
Qualquer pesquisa é baseada em levantamento ou coleta de dados. Os
dados são obtidos diretamente da pesquisa, sem terem passados por nenhum
processo de síntese ou análise.

Por exemplo, os 50 valores, em decibéis, de nível de


ruído de tráfego em certo cruzamento estão apresentados a seguir:

58,0 62,5 65,0 67,0 68,3 65,0 66,4 58,0 67,0 67,0
62,5 62,5 66,4 66,4 65,0 65,0 60,2 60,2 60,2 60,2
59,5 59,5 59,5 65,0 66,4 66,4 66,4 60,2 62,5 67,0
67,0 67,0 70,1 70,1 71,9 70,1 67,0 66,4 66,4 68,3
68,3 68,3 65,0 65,0 62,5 62,5 65,0 65,0 68,3 71,9
Organização de dados
ROL
A mão, ou com auxílio de computador, pode-se classificar os
dados x1, x2,...,xn em ordem crescente.

Pode-se, pelo rol, verificar de maneira mais clara e rápida a


composição do conjunto, identificando o maior e o menor
valor além de alguns elementos que podem se repetir várias
vezes, mostrando assim o comportamento dos dados.
Organização de dados
DISPOSITIVO - RAMO E FOLHAS
A mais comum estrutura de dados é um grupo de números. O dispositivo
“ramo e folhas” é uma técnica flexível e eficaz para começarmos a olhar
um conjunto ou uma amostra de dados. Os dígitos mais significantes dos
valores, por si próprios, fazem muito trabalho de ordenação do grupo.
Organização de dados

Como os dados podem ser organizados?


Tabelas  quando é importante a apresentação dos
valores
Gráficos ou mapas apresentação de distribuições,
tendências ou relacionamentos entre variáveis

Resumidos com o uso de estatísticas.


Apresentação dos Dados em Tabelas

Componentes das tabelas

Título: Explica o conteúdo

Corpo: Formado pelas linhas e colunas dos dados

Cabeçalho: específica o conteúdo das colunas

Coluna indicadora: específica o conteúdo das linhas

Opcional: fonte, notas, chamadas.


Apresentação dos Dados em Tabelas
Nascidos vivos no Maternidade do HRAS segundo o ano de registro
Título

Cabeçalho (separado do corpo por um traço horizontal)

Ano de Registro Freqüência Freqüência relativa


1998 (1) 8328 32,88 (8828/25494)
1999 (1) 8214 32,22
2000 (1) 8898 34,90
Coluna indicadora
Total 25494 100
Fonte: Margotto, PR (2001)
Nota: dados retirados do livro da sala de parto
(1): os RN < 500g não foram incluídos. (chamadas)
Apresentação dos Dados em Tabelas
Tabela de Contingência ou de Dupla Entrada
(cada entrada é relativa a um dos fatores)

Gestantes sem pré-natal/gestantes com pré-natal


e mortalidade perinatal
Fator Mortalidade Pré-natal Total
Sim Não
Gestantes sem pré-natal 55 833 938
Gestantes com pré-natal 156 6720 6876
Apresentação dos Dados em Tabelas
Tabelas de distribuição de freqüências:
Peso ao nascer de nascidos vivos, em Kg
2,522 3,200 1,900 4,100 4,600 3,400

2,720 3,720 3,600 2,400 1,720 3,400

3,125 2,800 3,200 2,700 2,750 1,570

2,250 2,900 3,300 2,450 4,200 3,800

3,220 2,950 2,900 3,400 2,100 2,700


Menor peso: 1570g
3,000 2,480 2,500 2,400 4,450 2,900

3,725 3,800 3,600 3,120 2,900 3,700


Maior peso: 4600g
2,890 2,500 2,500 3,400 2,920 2,120

3,110 3,550 2,300 3,200 2,720 3,150

3,520 3,000 2,950 2,700 2,900 2,400

3,100 4,100 3,000 3,150 2,000 3,450

3,200 3,200 3,750 2,800 2,720 3,120

2,780 3,450 3,150 2,700 2,480 2,120

3,155 3,100 3,200 3,300 3,900 2,450

2,150 3,150 2,500 3,200 2,500 2,700

3,300 2,800 2,900 3,200 2,480 -

3,250 2,900 3,200 2,800 2,450 -


Apresentação dos Dados em Tabelas
Tabelas de distribuição de freqüências: 3 colunas
Definir as faixas de peso (Classes):

Classe Ponto Médio Freqüência


1,5Ι— 2,0 1,75 3
2,0Ι— 2,5 2,25 16
2,5Ι— 3,0 2,75 31
3,0Ι— 3,5 3,25 34
3,5Ι— 4,0 3,75 11
4,0 Ι— 4,5 4,25 4
4,5Ι— 5,0 4,75 1
Apresentação dos Dados em Tabelas
Tabelas de distribuição de freqüências: 3 colunas
Como definir as classes?

N º de classes: K = 1+ 3,222 log n (em geral: 5-20)


no exemplo: K = 1 + 3,222 log 100 = 7,444 (7 ou 8 classes)

- Extremo da classe: limites dos intervalos de classe


1,5 Ι— 2,0: fechado a esquerda (não pertencem a classe os
valores  2; pertencem a classe os valores  1,5)

- Ponto médio: soma dos extremos da classe ÷ 2


Apresentação dos Dados em Tabelas
Tabelas de distribuição de freqüências: 3 colunas
Como definir a amplitude das classes?

Amplitude amostral
Maior valor- menor valor da amostra/nº de classes
4.600-1.570/7= 0,433 ≈0,5
Classe Ponto Médio Frequência
1,5Ι— 2,0 1,75 3
2,0Ι— 2,5 2,25 16
2,5Ι— 3,0 2,75 31
3,0Ι— 3,5 3,25 34
3,5Ι— 4,0 3,75 11
4,0 Ι— 4,5 4,25 4
4,5Ι—I 5,0 4,75 1
Organização de dados

• Distribuição de frequência
» Quando amostramos uma população de pesos de bebês recém-
nascidos , podemos representar cada medição como um ponto ao
longo de um eixo que referencia a magnitude do valor peso.

» Os valores, conforme aumentam no número de amostras tendem a


se repetir e essas repetições irão se sobrepor no histograma,
aumentando a altura das colunas de cada intervalo. O padrão de
sobreposição tende a assumir uma forma definida.
Organização de dados

Distribuição de frequência

Histograma
Tabulação de variáveis quantitativas

•Criação de intervalos de valores (classes).


•Permite acrescentar  frequência relativa e acumulada.

Distribuição dos pesos dos prematuros


Classes de Ponto Frequência Frequência Frequência
médio relativa acumulada
pesos
400 ├─ 600 500 9 1,94 1,94

600 ├─ 800 700 47 10,10 12,04

800 ├─ 1000 900 73 15,70 27,74

1000 ├─ 1200 1100 104 22,37 50,11

1200 ├─ 1400 1300 121 26,02 76,13

1400 ├─ 1600 1500 111 23,87 100,00

Total 465 100,00


Gráficos de variáveis quantitativas

Histograma
Um histograma mostra a distribuição de frequências para os dados
discretos ou contínuos. O eixo horizontal exibe os limites verdadeiros dos
vários intervalos

30

25
Recém-nascidos (%)

20

15

10

0
600 800 1000 1200 1400 1600
peso (g)
Gráficos em barras ou colunas
São os mais comuns para exibir uma distribuição de frequências para dados
nominais e ordinais.
Gráfico de polígono de frequências
Semelhante ao histograma, mas construído a partir dos pontos médios das
classes.
Gráfico de ogiva ou polígono de frequência acumulada
Apresenta uma distribuição de frequências acumuladas, utiliza uma poligonal
ascendente utilizando os pontos extremos.
Ponto Médio Freq. Ac 100
90
500 1,94 80

Freq. Acumulada
70
700 12,04 60
50
900 27,74 40
30
1100 50,11 20
10
1300 76,13 0
500 700 900 1100 1300 1500
1500 100 Peso prématuros
Gráfico de linha ou sequência
Adequados para apresentar observações medidas ao longo do tempo, enfatizando
sua tendência ou periodicidade.
Gráfico de linha ou sequência

100 600
TEMP(ºC) UMID (%) Pluv. (mm)
500

Temperatura ºC / Umidade %
80
may/08 24,5 75,0 22,2

Pluviosidade mm
jun 22,8 78,0 43,1 400
60
jul 22,0 75,0 8,1 300
aug 23,9 74,0 3,5 40
200
sep 23,1 74,0 63,8
oct 25,0 80,0 60 20
100
nov 24,9 82,0 526,2
0 0
dec 25,6 82,0 379,1
jan/09 27,3 79,0 136,8
feb 28,8 74,0 51,6
mar 28,4 76,0 114,7
TEMP(ºC) UMID (%) PRECIP (mm)
apr 25,9 79,0 120,0
Box plot
Esse tipo de gráfico exibe somente um resumo dos dados.
A linha vertical dentro da caixa representa a mediana (Q2). A caixa representa os intervalos
interquartis (Q1 e Q3), enquanto as barras externas à caixa representam valores máximo e
mínimo.

Esses limites são determinados em função da distância entre os dois quartis (Q3 e
Q1), isto é, do desvio inter-quartílico:
DQ = Q3 – Q1* 1,5.
Observações com afastamento superior a 1,5 desvio inter-quartílico, para
cima ou para baixo, são consideradas atípicas, ou possíveis outliers.
Acima desse desvio são chamados pontos extremos.
Gráficos de dispersão
Adequado para descrever o comportamento conjunto de duas
variáveis quantitativas. Cada ponto do gráfico representa um
par de valores observados.
Medidas de tendência central ou de
posição e variabilidade
Nossos dados podem ser apresentados de
diferentes formas

Dados não agrupados

45, 48, 52, 55, 56, 59, 62, 62, 62, 67, 78, 78, 78,
80, 80, 81, 81, 82, 82, 84, 85, 90, 94, 94, 95.
Nossos dados podem ser apresentados de diferentes formas

Distribuição de frequências simples


--------------------------------------------
ALTURA | Freq freq.(%) Cum.
-------+------------------------
155 | 1 3.0% 3.0%
158 | 1 3.0% 6.1%
160 | 3 9.1% 15.2%
161 | 1 3.0% 18.2%
162 | 2 6.1% 24.2%
163 | 2 6.1% 30.3%
164 | 2 6.1% 36.4%
165 | 2 6.1% 42.4%
166 | 2 6.1% 48.5%
168 | 4 12.1% 60.6%
169 | 1 3.0% 63.6%
170 | 4 12.1% 75.8%
171 | 1 3.0% 78.8%
172 | 1 3.0% 81.8%
173 | 1 3.0% 84.8%
174 | 2 6.1% 90.9%
175 | 1 3.0% 93.9%
177 | 1 3.0% 97.0%
182 | 1 3.0% 100.0%
-------+------------------------
Total | 33 100.0%
--------------------------------
Nossos dados podem ser apresentados de
diferentes formas

Distribuição de frequências em classes


Classe Ponto Médio Freqüência

1,5Ι— 2,0 1,75 3

2,0Ι— 2,5 2,25 16

2,5Ι— 3,0 2,75 31

3,0Ι— 3,5 3,25 34

3,5Ι— 4,0 3,75 11

4,0 Ι— 4,5 4,25 4

4,5Ι— 5,0 4,75 1


Medidas de tendência
central ou de posição
diferença
Medidas de dispersão
ou variabilidade
σ=sigma (parâmetro)
s= amostra

µ
µ µ µ

µ
62,8
5
62,8
4

15,7 = 3,96
µ
µ µ µ µ
Calcule o desvio padrão

Classe Ponto Freqüência(fi)


Médio (xi)
1,5Ι— 2,0 1,75 3
2,0Ι— 2,5 2,25 16
2,5Ι— 3,0 2,75 31
3,0Ι— 3,5 3,25 34
3,5Ι— 4,0 3,75 11
4,0 Ι— 4,5 4,25 4
4,5Ι— 5,0 4,75 1