Você está na página 1de 36

Ecologia Numérica

EDUARDO TAVARES PAES

Princípios Gerais - Revisão

Correlação entre Variáveis Fisico-Qúimicas PAMPO


TEMP
Temperatura de Fundo
SAL
PH
NO3PO4
NITPO4 T °C
PPAPDI 15.35

OD 15.25

SOD
15.15
HPA 6

SIGMA_T 15.05

4C 4B
PO4 14.95

NO3
14.85
NIT
5
SIO4
PT 4D 4A

PPART 3A

NH4
CLOR 3B
NO2 2
NO2NO3
1
0 10 20 30 40 50

N
Programa:

1- Introdução à álgebra de matrizes


1.1 – Revisão de Correlação e Regressão Linear
1.2 – Teste de significância estatística da correlação
1.3 – Correlação não paramétrica
1.4 – Partição de variâncias
1.5- Exercícios e aplicações

2- Medidas de Semelhança
2.1- Euclidianas e não-euclidianas
2.2 - Paramétricas e não-Paramétricas
2.3 - Testes de Mantel e aplicações

3- Métodos de Classificação
3.1 - Classificação Hierárquica
3.2 - Classificação não-hierárquica (K-means)
3.3 - Modo Q e modo R (Análise Nodal)
3.4 - Interpretação e Significância dos agrupamentos (Métodos de bootstraping e permutação)
3.5 - Testes e aplicações
Estratégias Gerais:
 Análise exploratória. Etapa Inicial (explorar
padrões, gerar hipóteses novas)

 Análise confirmatória. Etapa Final (testar


formalmente hipóteses estatísticas, utilizando
conjunto de dados independentes, ou sub-
conjunto original escolhido ao acaso)
PRINCIPAIS TÉCNICAS:

 CORRELAÇÃO (paramétrica e não paramétrica)


 REGRESSÃO (linear e não linear)
 ANÁLISE DE CLASSIFICAÇÃO
 ANÁLISE DE ORDENAÇÃO (não será visto neste curso)
Tipos de Dados: (variáveis)
1. Nominais (discretos): contagem. Ex: número de espécies de uma amostra

2. Contínuos: medidas. Ex: temperatura, mg/l, n.org/m3, etc

3. Ordinais (ranking);

4. Categóricos ordenados (escalas).


Exemplos:
Logarítmicas: 1 – 1 a 10 Regulares: 1 – 1 a 5
2 – 11 a 100 2- 6 a 10
3 – 101 a 1000 3 – 11 a 15

5. Categóricos não ordenados (classes). Ex: locais, cores, tipos de


tratamento etc.

6. Binários: 0 ou 1 (F ou V), (Sim, ou Não)

EXISTEM PROCEDIMENTOS E ANÁLISES ESPECÍFICAS DE ACORDO


COM O TIPO DE DADO
Exemplos: (para dados univariados)

Independent Variable
Dependent Variable
Continuous Categorical
Continuous Regression ANOVA
Categorical Logistic Regression Tabular
REVISÃO
 CORRELAÇÃO
 REGRESSÃO
CORRELAÇÃO
 Varia ente -1 a 1
 Mede o grau de associação linear entre duas
variáveis
 Valores próximos de 1 = forte correlação
positiva
 Valores próximos de -1 = forte correlação
negativa
 Valores próximos de 0 = pouca ou nenhuma
associação.
Largura do corpo

Comprimento do corpo

Não existe NECESSÁRIAMENTE


uma relação direta de causa-efeito - correlação
Tipos de Correlações:

Correlação Positiva Correlação Negativa Sem correlação


Coeficiente de Corelação de Pearson
n

 ( X  X ) 2

Variância X = s 2  i 1

n 1
n

 ( X  X )(Y  Y )
Covariância = cov XY 
i 1

n 1

Exemplo no Excel =>l


 n 
  ( X  X )(Y  Y ) 
 i 1 
 n 1 
 
Correlacão = rXY 
sx s y

Cov( xy)
rx , y 
Correlação Var ( x).Var ( y )
Exemplo de Cálculo:
X Y
P
4 7
1
16
2 8
2 14
8

5 12 12 3
3 10 6
8 2 4
6 8 5 1
4 6
4 7
3 7
5 2

7 10 0
6 0 2 4 6 8 10

1 4
7
8 5
Tendência linear?
8
S 36 71
X Y
Ponto X-Xm (X-Xm)2 Y-Ym (Y-Ym)2 (X-Xm)(Y-Ym)
1 4 7 -0,50 0,25 -1,88 3,52 0,94
2 2 8 -2,50 6,25 -0,88 0,77 2,19
3 5 12 0,50 0,25 3,13 9,77 1,56
4 6 8 1,50 2,25 -0,88 0,77 -1,31
5 3 7 -1,50 2,25 -1,88 3,52 2,81
6 7 10 2,50 6,25 1,13 1,27 2,81
7 1 4 -3,50 12,25 -4,88 23,77 17,06
8 8 15 3,50 12,25 6,13 37,52 21,44
soma 36 71 0 42 0 80,875 47,5
Média 4,5 8,875 6 11,55357 6,79

var(x) var(y) cov

r= 0,8150 excel
Caso a relação não seja linear utilizar
outra medida de associação (ou
transformar dados)

-Correlação de Sperman= o mesmo que


aplicar Pearson com dados
transformados em rankings.

-Correlação
phi (dados binários) = o
mesmo que aplicar Pearson para dados
binários
Outros Coeficientes
Regressão Linear

Regressão linear simples descreve (equação) a


relação entre uma variável preditiva, plotada no
eixo x e uma variável resposta protada do eixo y
Y  o  1 X

1
Y

1.0

o
X
Log10(Number of Species) VARIÁVEL DEPENDENTE

Log10(Island area) VARIÁVEL INDEPENDENTE


Log10(Number of Species)

Log10(Island area)
ε
Ajustando os dados a um modelo linear

Yi  o  1 X i   i

intercepto declividade residuos


Valor previsto

• Propósito da regressão linear é ajustar uma reta aos


dados que melhor preve valores de y para qualquer
valor de x.

• É a reta que irá minimizar a soma


• de distancias entre os dados e a Y  o  1 X
• reta ajustada (residuos)
ε

= ŷ, valor previsto
= y i , valor observado
ε = resíduo (erro)
r = Correlação de Pearson

r 2 = quantidade (%) da variação


de y explicada por x (coeficiente de
DETERMINAÇÃO de Pearsdon)

Exemplo anterior (correlação)

R2 = (0,815)2 = 0,664

Ou seja a variável X explica 66,4% da variância (variação) da variável Y


Regressão – pontos importantes

1- Tenha certeza que a amplitude dos valores


amostrados da variável preditiva (x) é suficiente o
bastante para capturar a totalidade da variação de
respostas da variável y
Densidade de
Roedores

Densidade de semente
Desndiade de
Roedores

Densidade de Sementes
Regressão – pontos importantes

2. Tenha certeza que a coleta dos


valores da variável preditiva é
aproximadamente uniforme na
amostragem
Rodent density Rodent density

Seed density
Seed density
Premissas da Regressão

1. O modelo linear descreve


corretamente a relação funcional
entre X e Y
Premissas da Regressão

2. A variável X é medida sem erro

Spider density (numbers/m2)

Lizard density (numbers/m2)


Premissas da Regressão

3. Para qualquer valor de X, os


valores de Y amostrados são
independentes
4- Os resíduos (erros) são
normalmente distribuidos
Premissas da Regressão

5. Variâncias são constantes ao


longo da linha de regressão
Rodent density

Seed density
Testes diagnósticos para Regressão
Distribuição de residuos experada para um
modelo linear com distribuição normal de
resíduos

i

Yi
Y = a + bx (exemplo)

b= Cov(xy) = 6,79/6 = 1,131


Var(x)

a= ym - bxm = 8,85 – (4,5*1,131) = 3,785

Y = 3,785 + 1,131x
X Y
Ponto Y(est) erro
4 7
1 8,30 -1,30951
2 8
2 6,04 1,953
5 12
3 9,44 2,56
6 8
4 10,57 -2,571
3 7
5 7,178 -0,178
7 10
6 11,70 -1,702
1 4
7 4,91 -0,916
8 15
8 12,83 2,167
4
2
erro

0
-2 0 5 10 15
-4
Y(est)

Distribuição de Erro (resíduos)


 Correlação Parcial
 Exemplo:

 Correlação Cruzada
-Exemplo:

 Reamostragem:
 Permutação = teste de hipótese
 Boostraping = intervalos de confiança
 Exemplos