Escolar Documentos
Profissional Documentos
Cultura Documentos
Modelos - Lineares Versao3.6
Modelos - Lineares Versao3.6
Modelos - Lineares Versao3.6
net/publication/360792016
CITATIONS READ
0 1
3 authors:
Tainara V. Sobroza
11 PUBLICATIONS 32 CITATIONS
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
All content following this page was uploaded by Mariane Bosholn on 23 May 2022.
Mariane Bosholn
Pedro Aurélio Costa Lima Pequeno
Tainara Venturini Sobroza
1
MODELOS LINEARES:
CONCEITOS E APLICAÇÕES BIOLÓGICAS
Versão 3.6
Mariane Bosholn
Pedro Aurélio Costa Lima Pequeno
Tainara Venturini Sobroza
Julho de 2021
2
Sumário
APRESENTAÇÃO 6
SOBRE OS DADOS E IMAGENS UTILIZADOS AO LONGO DA APOSTILA 7
1. INTRODUÇÃO: CIÊNCIA, ESTATÍSTICA E O MODELO LINEAR 8
O método científico: testando relações entre variáveis 9
Medindo variabilidade: soma dos quadrados, variância e desvio padrão 15
Medindo variação conjunta entre variáveis: covariância e correlação 18
Comparando variabilidade entre variáveis em escalas muito diferentes 21
2. INFERÊNCIA ESTATÍSTICA 22
Medindo incerteza 22
Teste de hipótese nula e valor de P 23
Intervalo de confiança 27
Estatísticas: um atalho para medir incerteza 29
A origem da estatística t: uma antiga história sobre cervejas 30
Inferência frequentista e outras formas de inferência 32
3. REGRESSÃO 34
Método dos Mínimos Quadrados 34
Estimando a dispersão dos pontos: coeficiente de determinação (r²) 38
Graus de liberdade 40
De quantas observações eu preciso? 41
Por que “regressão”? Uma antiga história sobre gigantes e anões 42
Equivalência entre regressão, correlação e covariância 44
4. RELAÇÕES CURVILÍNEAS 46
Alometria e função de potência 46
Linearizando funções não lineares: logaritmos 48
Outras funções lineares que descrevem curvas 50
Relações não monotônicas: parábola e curva gaussiana 51
5. REGRESSÃO MÚLTIPLA 54
O problema da correlação entre preditores 54
Combinando regressões em uma só: regressão múltipla 55
Interação entre preditores 58
6. PREDITORES CATEGÓRICOS 61
Representando nomes com números 61
Preditor com apenas duas categorias: teste t 61
Preditor com três categorias ou mais: ANOVA e ANCOVA 63
3
Modelo Linear Geral: vários nomes, o mesmo método 65
7. PROPRIEDADES DO MODELO LINEAR GERAL 67
Criando modelos estocásticos 67
A distribuição normal ou gaussiana 67
Viés e precisão das estimativas 70
Pressupostos e robustez do Modelo Linear Geral 72
Efeitos do tamanho da amostra, ruído, multicolinearidade e número de parâmetros 73
8. MODELOS LINEARES GENERALIZADOS (GLM) 79
Desvios de normalidade 79
Distribuição de Poisson 80
Máxima verossimilhança 84
Razão de verossimilhanças, desviância e pseudo-R² 89
Distribuição binomial negativa 92
Distribuição gama 95
Distribuição de Bernoulli (ou binomial) 96
A família exponencial 98
Que distribuição eu devo usar? 99
9. SELEÇÃO DE MODELOS 100
Poder de explicação vs. parcimônia 100
Critérios de Informação de Akaike (AIC) e de Schwarz/bayesiano (SIC ou BIC) 101
10. MODELOS LINEARES (DE EFEITOS) MISTOS 104
Autocorrelação 104
Efeitos aleatórios e fator aleatório 106
Correlação intraclasse e simetria composta 109
Fatores aleatórios aninhados 111
Modelo Linear Misto Generalizado (GLMM) 111
Máxima Verossimilhança Restrita (REML) e Critérios de Informação 118
Uma nota sobre fatores aleatórios 118
11. CONCLUSÃO: UM RESUMO BEM RESUMIDO 119
REFERÊNCIAS 121
APÊNDICE 1: Linha do tempo dos modelos lineares 125
APÊNDICE 2: Principais modelos lineares, por seus nomes tradicionais 126
APÊNDICE 3: Principais distribuições estocásticas 127
4
SOBRE OS AUTORES
Esta apostila foi desenvolvida por uma discente e dois ex-discentes do Programa de
Pós-graduação em Ecologia do Instituto Nacional de Pesquisas da Amazônia
(INPA). Os três autores colaboraram igualmente na produção da obra.
Mariane Bosholn
Bacharela e Licenciada em Ciências Biológicas, é Mestra e Doutora em Biologia
(Ecologia) pelo Instituto Nacional de Pesquisas da Amazônia. Atualmente, atua
como professora substituta na Universidade Federal de Roraima (UFRR). Tem
experiência em ecologia, comportamento e fisiologia animal, estatística, e em
programação na linguagem computacional R.
5
APRESENTAÇÃO
Bons estudos!
6
SOBRE OS DADOS E IMAGENS UTILIZADOS AO LONGO DA APOSTILA
A fim de enfatizar o valor prático dos métodos discutidos nesta apostila, nós usamos
dados reais para ilustrar vários conceitos. Em particular, três conjuntos de dados são
usados:
7
1. INTRODUÇÃO: CIÊNCIA, ESTATÍSTICA E O MODELO LINEAR
O que chamamos hoje de “estatística” nasceu na virada do século XIX para o XX, e
só se popularizou depois da Segunda Guerra Mundial, a partir dos anos 1950.
Interessantemente, ela não foi criada por matemáticos puristas brincando com
fórmulas estranhas. Pelo contrário, ela foi criada por pessoas tentando responder
perguntas muito concretas sobre o mundo real, com a menor incerteza possível.
Grande parte dessas perguntas era sobre biologia, em particular sobre evolução.
Assim, os primeiros estatísticos modernos ou eram primariamente biólogos, como
Francis Galton (primo de Charles Darwin), Raphael Weldon e Sewall Wright, ou
pessoas com outras formações tentando resolver problemas biológicos, como a
enfermeira Florence Nightingale, o químico William Gosset, e os matemáticos Karl
Pearson, Ronald Fisher e Jerzy Neyman. Para Pearson (1892), considerado por
muitos o pai da estatística moderna, “a estatística é a gramática da ciência”.
Mais tarde, percebeu-se que o que pareciam ser diferentes métodos, criados em
diferentes contextos por pessoas diferentes, na verdade eram essencialmente a
mesma coisa: um “modelo linear”. Por isso, aprender sobre modelos lineares é
aprender a própria estatística. Ao mesmo tempo, aprender estatística só faz sentido
quando entendemos o método científico, porque ela foi criada pela e para a ciência.
Por sua vez, o método científico só faz sentido quando temos uma pergunta
concreta que queremos responder.
8
O método científico: testando relações entre variáveis
Por que pessoas têm alturas diferentes? Podemos pensar em diferentes respostas
possíveis, p.ex. por causa do sexo, da “genética” ou por causas nutricionais. Todas
essas características variam entre pessoas, por isso são chamadas de variáveis. Já
as possíveis respostas para a pergunta (p.ex. “por causa do sexo”), são chamadas
de hipóteses. Como testar se nossas hipóteses fazem sentido?
A primeira coisa que precisamos saber é como medir as variáveis que refletem
nossa pergunta. Se nossa pergunta trata de características de pessoas, então
devemos medir as variáveis em pessoas. Nesse caso, as pessoas serão a nossa
unidade amostral. Em suma, unidade amostral é a coisa, lugar ou momento no qual
medimos nossas variáveis. Mas voltando ao nosso exemplo, como mensurar as
características de pessoas? É fácil medir a altura de uma pessoa com uma trena ou
fita métrica. Medir o sexo de uma pessoa também é relativamente simples: podemos
classificar a pessoa como sendo do sexo masculino ou feminino (não confundir com
gênero). Agora, como se mede “genética”? Aparentemente, é mais difícil medir essa
variável. No entanto, intuitivamente, se altura tem um componente genético (i.e. é
uma característica herdável), então filhos(os) deveriam parecer com seus pais, de
modo que pais mais altos deveriam ter filhos mais altos (e vice-versa). Assim, altura
dos pais (p.ex. média do pai e da mãe) seria uma variável fácil de se medir.
9
Figura 1.1. Fluxograma mostrando efeitos hipotéticos do sexo e da altura média dos
pais sobre a altura de uma pessoa.
10
amostral”. Amostra é o conjunto coletado de unidades amostrais, que por sua vez
trata-se de uma única unidade onde obtivemos nossas medidas.
Tabela 1: Modelo de tabela a ser usada durante a coleta de dados. Cada linha
representa uma unidade amostral e cada coluna representa uma variável.
1 Masculino 1,78
2 Feminino 1,68
3 Feminino 1,59
Agora que temos os dados, podemos finalmente testar se o sexo afeta a altura.
Como? Usando um gráfico. Um gráfico nada mais é que uma resposta visual para
uma pergunta. Gráficos são úteis porque a evolução do cérebro humano reflete em
grande parte adaptações para a visão, e somos muito bons em detectar padrões em
imagens (Box 1996; Changizi 2009). Os gráficos mais úteis são aqueles que
mostram dados, pois isso permite que usemos dados do mundo real para responder
nossas perguntas, ou seja, determinar se nossas hipóteses fazem sentido ou não.
11
Pode parecer que existem muitos tipos de gráfico (p.ex. gráficos de linhas, de
barras, de caixas), mas na verdade só existe um tipo de gráfico de dados: o gráfico
de pontos, também chamado diagrama de dispersão (scatterplot). Neste gráfico,
as variáveis são representadas nos eixos, enquanto as unidades amostrais (neste
caso, pessoas) são representadas por pontos dentro do gráfico (um ponto para cada
pessoa; figura 1.2). Por convenção, chamamos a variável que queremos explicar de
variável dependente ou resposta (Y), e a colocamos no eixo vertical. Já a variável
que esperamos causar o feito, chamamos de variável independente ou preditora
(X), e a colocamos no eixo horizontal.
Figura 1.2. Gráfico de pontos para responder à pergunta “sexo afeta a altura?”, com
base em uma amostra de oito unidades amostrais (neste caso, pessoas). Cada
ponto no gráfico representa uma unidade amostral, ou seja, uma pessoa.
12
O gráfico de pontos é o melhor gráfico de dados disponível em termos de
simplicidade, clareza e flexibilidade (Friendly & Denis 2005), e há um movimento na
ciência no sentido de abandonar gráficos que não mostram dados, mas sumários
dos dados na forma de barras, caixas ou linhas. Esses gráficos escondem os dados
e, assim, necessariamente têm menos informação (Larson-Hall 2017).
De posse do gráfico, podemos responder: o sexo afeta a altura? Parece que sim, já
que os pontos representando pessoas do sexo masculino tendem a ter alturas
maiores (mais acima ao longo do eixo vertical) que pessoas do sexo feminino. Isto
quer dizer que pessoas do sexo feminino não possam ser mais altas que pessoas do
sexo masculino? Certamente não. Mas quando procuramos relações entre variáveis,
não estamos olhando o que acontece com uma ou outra pessoa em particular, mas
sim o que ocorre com a maioria, ou a tendência. Claramente, a maioria dos
homens na nossa amostra é mais alta que a maioria das mulheres.
Chegando à nossa resposta (homens tendem a ser mais altos que mulheres),
podemos julgar se isso apoia nossa hipótese ou expectativa. Mas sempre que
respondemos uma pergunta, criamos outra. Por exemplo: por que pessoas do
mesmo sexo têm alturas diferentes, de modo que às vezes uma mulher pode ser
bem mais alta que um homem (figura 1.2)? Talvez isto reflita a altura dos pais da
pessoa (figura 1.1), ou qualquer outro fator que possa afetar a altura. E se os pontos
estivessem igualmente espalhados nos dois sexos, de modo que não
conseguíssemos notar nenhuma tendência óbvia? Então teríamos refutado nossa
hipótese. Neste caso, hora de procurar uma hipótese melhor – uma que consiga
prever a relação observada. É esta capacidade de antever os resultados (e não os
resultados em si) que, entre outras coisas, nos dá segurança de que nossa hipótese
faz sentido. Se não temos hipóteses, é difícil interpretar o resultado, e fácil nos
perdermos em especulações. E é este processo todo, desde a pergunta até o teste
da hipótese usando o gráfico, que chamamos de ciência ou método científico
(figura 1.3).
13
Figura 1.3. Etapas do método científico.
Tendo dados úteis, aí sim entram os modelos lineares, o tema principal desta
apostila: eles simplesmente medem a força e a forma da relação (ou relações) entre
variáveis, assim como o tamanho da incerteza associada às relações (discutiremos
mais sobre isso nos próximos capítulos). Isso é importante porque toda amostra
14
necessariamente tem menos informação que o universo amostral sobre o qual
queremos generalizar. O que garante que, se coletássemos outra amostra, veríamos
exatamente o mesmo resultado? Nada! Por isso, precisamos de uma medida do
quanto podemos confiar que as relações vistas na amostra são generalizáveis para
o universo do qual queremos falar. Felizmente, a teoria estatística nos dá formas
simples de fazer isso: a inferência estatística.
E para que serve tudo isso? Determinar relações entre variáveis é útil porque
permite explicar, predizer e controlar fenômenos naturais. No nosso exemplo,
podemos usar o sexo para explicar, em parte, porque pessoas diferem em altura.
Também podemos prever a altura aproximada de um humano simplesmente
sabendo seu sexo (p.ex. altura média). Outro exemplo: sabemos que existe uma
relação entre o risco de ter câncer e vários hábitos, como fumar, consumir álcool, ser
sedentário ou comer carne vermelha (Stein & Colditz 2004). Por isso, podemos
prever que quanto mais temos esses hábitos, maior a chance de termos câncer.
Logo, a forma mais simples de controlar o risco de câncer é reduzir esses hábitos.
Ao testar possíveis relações com dados, podemos discriminar entre quais relações
fazem sentido e quais não fazem, usar as primeiras e descartar as últimas. Assim, a
ciência (através da estatística) nos permite fazer um “controle de qualidade” das
nossas crenças – e corrigi-las, quando necessário.
Mas como se mede uma relação entre variáveis? Para sabermos o quanto duas
variáveis mudam juntas (i. e. quanta variabilidade é compartilhada entre variáveis),
precisamos primeiro de uma forma de medir variabilidade propriamente dita – ou
seja, o quão diferentes os valores de uma variável são.
Pense nisso: queremos saber como o sexo afeta a altura em seres humanos. Como
vimos, podemos medir a altura de várias pessoas, anotar seu sexo biológico
(masculino ou feminino), e visualizar a relação com um gráfico onde as variáveis são
representadas nos eixos, e as pessoas, como pontos (um ponto para cada pessoa;
figura 1.4). Por convenção, chamamos a variável que queremos explicar de variável
15
dependente ou resposta (Y), e a variável que esperamos causar o feito de variável
independente ou preditora (X).
Figura 1.4. Variação da altura entre sexos. Cada ponto representa uma pessoa. A
linha horizontal representa a média.
Podemos dizer que a altura de indivíduos do sexo masculino é mais variável que do
sexo feminino, porque os valores da altura são mais diferentes entre si. Uma forma
simples de medir a variabilidade desse gráfico seria somar as distâncias de cada
ponto até a média. Assim, teremos um número que será maior quanto mais
diferentes os valores forem da média. No entanto, se fizermos isto, valores acima da
média serão positivos, e abaixo da média, negativos (figura 1.5, letra a). Ao somar
valores negativos e positivos, eles se anularão! Para eliminar os valores negativos e
medir a variabilidade, podemos elevar os desvios ao quadrado, e então somar.
Como qualquer número elevado ao quadrado é positivo, isto garante que só
somaremos valores positivos e que os desvios não se anularão (figura 1.5, letra b).
A soma dos desvios elevados ao quadrado é conhecida como soma dos
quadrados (Sum of Squares, SS). Se dividirmos a soma dos quadrados pelo
16
número de observações, teremos o desvio quadrado médio, mais conhecido como
variância (figura 1.5, letra c).
A soma dos quadrados (SS), variância (var) e desvio padrão (SD) são diferentes
maneiras de medir a mesma coisa, a variação: quanto maior a soma das quadrados,
maior a variância, e maior o desvio padrão. Porém o SD é mais comumente usado,
pois representa a escala original dos dados, enquanto a SS e a variância são
baseadas nos desvios elevados ao quadrado. O desvio padrão mede
17
aproximadamente o quanto os pontos desviam da média, em média. Por exemplo,
se ao medimos a altura de várias pessoas o desvio padrão for 10 cm, então em
geral as pessoas desviam (aproximadamente) 10 cm da altura média.
Figura 1.6. Produto cruzado entre duas variáveis. Cada observação (ponto) tem um
desvio em relação à média de X (letra a) e Y (letra b). Se multiplicarmos os dois
desvios de cada ponto (letra c), e depois realizarmos o seu somatório, teremos um
valor que reflete o quanto esta observação muda no mesmo sentido ao longo das
duas variáveis: quanto maiores os dois desvios, maior será o produto. Agora, se um
desvio for grande, mas o outro for pequeno, significa que as duas variáveis não
estão mudando juntas, e o produto entre desvios será pequeno.
18
Podemos sumarizar os produtos cruzados entre duas variáveis calculando sua
média, conhecida como covariância. Quando duas variáveis variam conjuntamente
(i.e. uma aumenta e a outra aumenta junto, ou uma aumenta e a outra diminui), o
valor da covariância tende a ser grande. Por outro lado, quando as variáveis variam
independentemente uma da outra, o valor tende a ser pequeno.
19
Nesta escala, toda e qualquer variável tem média igual à zero, e desvio padrão =
variância = um (porque 1² = 1!). A vantagem é que, ao fazermos isso, a covariância
passa a variar em uma escala padronizada de -1 a +1, e fica mais fácil falar o quanto
duas variáveis mudam juntas, em termos relativos: quanto mais r se aproxima de 1
(positivo ou negativo), mais forte a relação entre as variáveis; quanto mais próximo
de 0, mais fraca a relação. A covariância padronizada pelos desvios padrões é
conhecida como correlação de Pearson, correlação do momento do produto, ou
simplesmente correlação (r). O primeiro nome é uma homenagem a Karl Pearson
(1857-1936), um grande estatístico inglês que popularizou várias coisas usadas até
hoje, como a própria correlação e o desvio padrão. Curiosamente, porém, a fórmula
da correlação foi publicada primeiramente em 1844, pelo físico francês Auguste
Bravais (1811-1863). Já “momento do produto” é um jargão técnico: “momento” é
como os estatísticos às vezes chamam uma quantidade que caracteriza um conjunto
de valores, como a média. Como a correlação é baseada na média dos produtos
cruzados, também podemos dizer que ela é um “momento do produto”. Mas não se
preocupe: “correlação” já serve! O coeficiente de correlação é útil como uma medida
rápida do quão fortemente relacionadas duas variáveis estão (figura 1.8).
20
Comparando variabilidade entre variáveis em escalas muito diferentes
Às vezes, medimos uma série de variáveis, e queremos saber quais variam mais e
quais variam menos. Frequentemente, a variabilidade (i.e. soma dos quadrados,
variância ou desvio padrão) aumenta conforme a média aumenta. Isto significa que,
se medirmos uma mesma variável em escalas diferentes (e.g. temperatura em graus
Celsius, Farenheit ou Kelvin), o simples fato de mudarmos a escala pode fazer com
que nossas medidas variem mais ou menos! Normalmente, queremos uma medida
de variabilidade que permita comparar variáveis entre si, independentemente da
escala em que foram medidas. Assim, podemos dividir o desvio padrão pela média,
obtendo o coeficiente de variação (CV), uma medida padronizada da variação de
uma variável. Como o desvio padrão e a média estão na mesma unidade, o CV é
adimensional, mas pode ser intuitivamente interpretado como a proporção que o
desvio padrão representa da média. Por exemplo, um CV de 0.5 significa que o
desvio padrão equivale a 50% da média.
21
2. INFERÊNCIA ESTATÍSTICA
Medindo incerteza
Quase sempre, queremos usar nossos dados para fazer extrapolações. Por
exemplo, no caso das palmeiras (figura 1.9), observamos uma relação entre
biomassa e fósforo nas 30 parcelas de 1 hectare na Reserva Ducke. Se quisermos
saber qual a correlação entre essas variáveis apenas nessas parcelas, já vimos que
ela é r = 0,74. Mas e se quisermos falar sobre essa relação na Reserva Ducke como
um todo, que tem 10.000 hectares, e não apenas nas 30 parcelas que observamos?
Intuitivamente, as 30 parcelas devem nos informar algo sobre a Reserva, mas o
quanto? Há uma incerteza associada quando extrapolamos qualquer conclusão
baseada nos dados observados para a Reserva inteira, cuja maior parte não foi
observada.
Para que nossas inferências funcionem, precisamos de três coisas. Primeiro, nossas
unidades amostrais devem ser independentes. Isto é, cada unidade amostral
deve fornecer informação adicional sobre o universo amostral de interesse, ao invés
de repetir a mesma informação. Por exemplo, no caso das palmeiras, podemos
demarcar parcelas em lugares diferentes, ou no mesmo lugar (p.ex. parcelas
coladas uma na outra, ou totalmente sobrepostas). Este é um exemplo extremo, mas
obviamente, parcelas repetidas no mesmo lugar fornecem menos informação sobre
uma área do que parcelas espalhadas pela mesma área.
22
Segundo, para que nossas inferências funcionem, nossa amostra deve ser
representativa do universo amostral. Isto quer dizer que a variabilidade que existe
no universo amostral também deve existir na amostra. No caso das palmeiras, as 30
parcelas espalhadas pela Reserva Ducke podem ser representativas da Reserva,
mas certamente não serão representativas da Amazônia, do Brasil, da América do
Sul, etc., já que não abrangem toda variabilidade possível nessas áreas. Terceiro,
precisamos medir o tamanho da incerteza associada à nossa estimativa do
parâmetro, para podermos julgar se temos evidência suficiente para concluir algo
sobre o universo amostral ou não. Em geral, quanto maior o tamanho da amostra
(i.e. mais unidades amostrais), menor a incerteza da nossa estimativa e, portanto,
mais confiáveis nossas chutes sobre o universo amostral. Porém, há várias formas
de medir o tamanho da nossa incerteza. A seguir, veremos duas das mais
amplamente usadas pelos cientistas.
23
Figura 2.1. Embaralhamento dos dados para obter estimativas de correlação
geradas ao acaso. Se embaralharmos aleatoriamente as posições dos valores entre
unidades amostrais (linhas na tabela), destruiremos a informação sobre qualquer
relação real que poderia haver nos dados originais (A). Assim, qualquer padrão que
surgir no gráfico só pode ter surgido por acaso (B), inclusive se parecer uma relação.
24
Assim, podemos embaralhar os valores, calcular a correlação e anotar o valor, uma,
duas, três vezes... Repetindo este processo centenas ou milhares de vezes, teremos
uma série de correlações geradas ao acaso, com uma dada distribuição de
frequências: por acaso, alguns valores podem ser mais comuns que outros. A partir
disso, podemos adicionar nossa estimativa original a esta distribuição, e perguntar:
qual a chance de ela ter sido gerada por acaso? Se o valor observado (r = 0.74)
aparecer frequente na distribuição gerada ao acaso, então a chance é relativamente
grande! Quanto menor esta chance, mais confiantes de que nossa estimativa não
surgiu por acaso na nossa amostra. Uma distribuição de estimativas geradas ao
acaso é conhecida como distribuição nula (figura 2.2).
Figura 2.2. Distribuição nula das correlações entre o teor de fósforo do solo e a
biomassa de palmeiras. Os valores das variáveis usados na correlação foram
aleatorizados 999 vezes, e a correlação observada foi adicionada, resultando em
uma distribuição nula contendo 1000 correlações. A seta preta representa o valor da
correlação observado com os dados reais.
25
correlação observada tiver sido r = 0.6342? Também teremos 1/1000. E se for r =
0.9151? Novamente, 1/1000... Logo, perguntar a chance de observar nossa
estimativa exata por acaso não é muito útil. Ao invés disso, podemos perguntar: qual
a probabilidade de uma estimativa igual ou mais extrema que aquela que
observamos?
Cientistas rejeitam a hipótese nula – aceitam que têm evidência suficiente de que
suas estimativas não foram geradas por acaso – quando P é menor que um dado
limiar, ou nível de significância. Caso contrário, eles aceitam a hipótese nula, isto
é, o que vimos na amostra ocorreu por acaso. Por convenção, costuma-se assumir
significância estatística quando P < 0.05. Grosseiramente falando, isso é o mesmo
que dizer que a chance de o resultado ter sido observado por acaso é menor que
uma em vinte. Porém, o nível de significância pode ser ajustado: quanto menor o
nível de significância (p.ex. P < 0.01), mais rigoroso o teste, porque fica mais difícil
concluir que temos evidência de que não observamos uma relação por acaso. Isto
pode ser importante, por exemplo, em estudos clínicos, quando queremos testar a
eficácia de uma medicação, e o custo de um remédio ineficaz pode ser matar
26
pessoas, caso ele tenha efeitos colaterais (p.ex. usar hidroxicloroquina para tratar
COVID-19; Axfors et al. 2021). Testes de significância ou de hipótese nula foram
desenvolvidos e popularizados principalmente por Karl Pearson, pelos estatísticos
também ingleses Egon Pearson (filho de Karl; 1895-1980) e Ronald Fisher (1890-
1962), e pelo estatístico polonês Jerzy Neyman (1894-1981).
Intervalo de confiança
Uma forma alternativa de medir a incerteza associada a uma estimativa é quantificar
a variabilidade da estimativa propriamente dita: se pudéssemos coletar nossos
dados novamente e calcular a estimativa de novo, o quão diferente ela seria? Se for
muito diferente, então a incerteza associada à nossa estimativa é grande. Se for
muito parecida, a incerteza é pequena. Na prática, porém, normalmente não
coletamos nossos dados várias vezes. Pelo contrário, coletamos só uma! O que
podemos fazer é simular várias novas coletas com o mesmo número de
observações da nossa amostra verdadeira, sorteando as linhas da nossa tabela de
dados (i.e. unidades amostrais) com reposição (i.e. cada linha pode ser amostrada
mais de uma vez). A ideia é simples: se nossa amostra é representativa do universo
amostral, então amostras representativas da nossa amostra necessariamente
devem ser representativas do universo amostral. Lembre-se: se A = B, e B = C,
então A = C! O procedimento de simular estas novas amostras também é conhecido
como bootstrap. O desvio padrão das estimativas calculadas a partir das amostras
obtidas por bootstrap é chamado de erro padrão, e representa a variabilidade
esperada da nossa estimativa, ou a quão incerta ou imprecisa ela é. Quanto maior o
erro padrão, maior a incerteza (ou menor a precisão) da estimativa. O intervalo que
contém 95% das estimativas simuladas é chamado de intervalo de confiança de
95%, e foi proposto como medida de incerteza por Jerzy Neyman (figura 2.3).
27
Figura 2.3. Distribuição de estimativas simuladas por bootstrap. O desvio padrão das
estimativas é conhecido como erro padrão, e o intervalo de confiança de 95%
resume onde está a maioria (95%) das estimativas simuladas.
28
Figura 2.4. Comparação entre distribuição nula e distribuição de uma estimativa
gerada por bootstrap, para duas estimativas (r = 0.74 e r = -0.02). Em geral, quanto
menor a precisão de uma estimativa, mais essas duas distribuições se sobrepõem.
Logo, quanto mais evidência temos contra a hipótese nula (menor P), maior a
precisão da nossa estimativa (mais estreito o intervalo de confiança).
29
Estatística. A vantagem é que estatísticas são fáceis de calcular e, assim, permitem
obter o próprio valor de P usando fórmulas, sem a necessidade de inúmeras
aleatorizações. Por exemplo, para obter o valor de P associado à hipótese nula de
que r = 0, podemos usar a estatística t (sua origem será explicada a seguir):
t= r √𝒏 − 𝟐/ 𝟏 − 𝒓²
É importante destacar que todas as estatísticas seguem a mesma lógica: por si só,
não significam muita coisa, mas permitem obter medidas de incerteza como P e erro
padrão rapidamente, usando apenas fórmulas. Logo, podemos pensar nas
estatísticas como atalhos, intermediários ou “laranjas” da inferência estatística. Por
isso, em meados do século XX, estatísticas também eram chamadas simplesmente
de “quantidades de teste” (test quantities).
A estatística t foi criada pelo estatístico inglês William Gosset (1876-1937). Gosset
trabalhava na famosa cervejaria Guinness, na Irlanda, e queria uma estatística para
avaliar rapidamente se uma amostra pequena de cervejas diferia significativamente
do padrão de qualidade da cervejaria. Sua solução – a estatística t – foi publicada
em 1908 na revista Biometrika, uma das primeiras revistas de estatística do mundo,
30
criada por Karl Pearson. Como seu contrato não permitia que ele assinasse seus
próprios trabalhos, Gosset se identificou como Student (“estudante”), já que ele
também era aluno de Karl Pearson. Por isso, a estatística t também é conhecida
como t de Student. Para derivar a distribuição da estatística t, Gosset usou a
relação entre altura e comprimento do dedo médio de 3000 pessoas. Ele escreveu
cada par de medidas em um cartão, embaralhou os cartões, e então “coletou” 750
amostras de 4 pessoas (i.e. 4 cartões). Para cada amostra, ele calculou a correlação
entre as duas variáveis. Assim, Gosset gerou a distribuição empírica dessa
estimativa – tal como se tivéssemos ido a um lugar com 3000 pessoas (universo
amostral) e realmente coletado várias amostras de n = 4 pessoas. Só então ele
derivou uma fórmula que descrevia matematicamente a forma dessas distribuições.
Para isso, ele precisou usar cálculo (i.e. integrais, derivadas). Porém, as fórmulas
que costumamos associar à estatística são apenas aproximações eficientes de uma
realidade empírica, i.e. uma distribuição gerada por alguma forma de aleatorização –
seja feita “na mão”, como fez Gosset, seja feita por um computador, como podemos
fazer hoje. Se quisermos, podemos fazer exatamente como Gosset: escrever nossos
dados em papeizinhos, embaralhar e sortear quantas vezes quisermos, calculando e
anotando nossas estimativas de interesse em cada “amostragem”. Ao final, cada
valor da estimativa terá ocorrido mais ou menos vezes, e teremos uma “pilha” de
papeizinhos para cada valor, i.e. sua distribuição de frequências. Assim,
distribuições estatísticas não são meras abstrações matemáticas, mas fenômenos
do mundo real – tão concretas quanto pilhas de papel (figura 2.5)!
31
Figura 2.5. Distribuição nula da correlação entre biomassa de palmeiras e teor de
fósforo do solo, gerada “na mão”. Cada quadrado representa uma estimativa gerada
ao acaso: no computador, as ordens dos valores de biomassa e fósforo foram
embaralhadas, e a correlação foi calculada e anotada no papel (arredondada para
uma casa decimal para facilitar a visualização). Isso foi repetido 100 vezes e, no
final, os valores iguais foram enfileirados em colunas, de modo a revelar a
distribuição e frequências – uma “distribuição nula de papel”.
Como vimos, tanto P quanto intervalos de confiança são formas de medir incerteza
baseadas na frequência com que diferentes valores de uma estimativa ocorrem em
uma longa série de amostragens repetidas, sejam elas reais ou simuladas. Por isso,
este tipo de inferência costuma ser chamado de inferência frequentista. Mas esta
não é a única forma de inferência estatística... Há várias!
32
fazem uma pergunta do tipo: se estes forem os parâmetros, qual a chance de
observar estes dados? Por exemplo, no teste de hipótese nula, primeiro assumimos
que o parâmetro de interesse tem um dado valor (p.ex. r = 0), para então
calcularmos o P. No caso dos intervalos de confiança, assumimos que o parâmetro
real tem algum valor, qualquer que ele seja, para então medirmos a incerteza da
nossa estimativa em torno dele. Estes tipos de inferência podem ser chamados, de
forma mais geral, de inferência dedutiva ou dedução. O oposto disso é a
inferência indutiva ou indução, na qual invertemos a pergunta: se estes forem os
dados, qual a chance de observar estes parâmetros? Por isso, este tipo de
inferência também foi conhecido por muito tempo como “probabilidade inversa”. O
método mais famoso de indução é a inferência bayesiana.
33
3. REGRESSÃO
Figura 3.1. Três relações diferentes entre duas variáveis, com a mesma correlação (r
= 1). Ao olharmos apenas para o número, perdemos informação sobre as diferenças
entre as três nuvens de pontos.
34
̅ = 𝒂 + 𝒃𝒙
𝒚
No exemplo abaixo (figura 3.2), temos uma relação hipotética entre a abundância
(número de indivíduos) de jararacas-do-norte (Bothrops atrox) em um dado local e a
distância (m) do local até o igarapé1 mais próximo. O gráfico é baseado na relação
comumente observada por biólogos: geralmente há mais jararacas na beira dos
igarapés; quanto mais distante, menos jararacas. A reta representa a abundância
média de jararacas. Assim, a unidade do intercepto é número de indivíduos,
enquanto a unidade da inclinação é número de indivíduos por metro. Note que,
embora haja uma tendência, há variação em torno da tendência. Isto ocorre na
maioria das relações observadas no mundo real: para um mesmo valor de X, Y pode
desviar acima ou abaixo da média, porque há outros fatores que afetam Y. As setas
em vermelho representam o valor dos desvios, que neste contexto geralmente são
chamados de resíduos. O resíduo nada mais é que a distância entre uma
observação e o valor predito pela reta (i.e. a média de Y).
1
“Igarapé” é o nome comum dado aos córregos e riachos na Amazônia.
35
Figura 3.2. Relação entre abundância de jararacas (Bothrops atrox) e distância até
igarapé mais próximo (m). A reta representa como a abundância média muda em
relação à distância até o igarapé. As setas representam os resíduos, isso é, a
distância entre cada observação e a média predita pela reta. Y, X, a e b são as
variáveis dependente, independente, intercepto e inclinação da reta,
respectivamente.
36
reta) serão somados com resíduos negativos (i.e. abaixo da média), cancelando uns
aos outros! Daí o nome “mínimos quadrados”: queremos a reta minimiza as áreas
dos quadrados (figura 3.3.). Os Mínimos Quadrados foram popularizados pelo
matemático alemão Friedrich Gauss (1777-1855) em seu tratado sobre astronomia
de 1809, embora o matemático francês Adrien-Marie Legendre (1752-1833) já
tivesse publicado o método em 1805. Gauss desenvolveu várias ideias e métodos
usados até hoje, como veremos ao longo desta apostila.
Figura 3.3. Comparação da soma dos quadrados de duas retas usadas para
representar a relação entre abundância de jararacas e distância do igarapé. Em
cada caso, primeiro os resíduos são calculados (i.e. distância entre cada observação
e a média predita pela reta) (letras a e c). Depois, cada um é elevado ao quadrado
(letras b e d). Graficamente, isso é o mesmo que calcular a área de um quadrado
cujo lado é igual ao valor do resíduo. Então, as áreas de todos esses quadrados (um
para cada observação) são somadas, obtendo a Soma dos Quadrados. A reta com a
menor soma dos quadrados é a que melhor representa a nuvem de pontos. Note
que, se uma observação cair exatamente sobre a reta, seu resíduo será zero, assim
como a área do seu quadrado. Neste exemplo, a reta da esquerda claramente
representa melhor a nuvem de pontos que a reta horizontal da direita.
37
Estimando a dispersão dos pontos: coeficiente de determinação (r²)
38
Figura 3.4. Relação entre abundância de jararacas e distância do igarapé,
representada por uma reta estimada por mínimos quadrados (esquerda), e a relação
entre abundâncias observadas e preditas (direita). Cada observação (pontos pretos)
tem uma projeção sobre a reta (pontos vermelhos), que corresponde à média predita
de abundância para um dado valor de X (distância do igarapé). Se confrontarmos as
abundâncias observadas contra as a abundâncias preditas, teremos o gráfico à
direita; quanto mais forte a correlação entre ambos, maior o poder preditivo da reta.
A correlação (r) elevada ao quadrado passa a variar de 0 a 1, e é conhecida como
coeficiente de determinação.
39
Graus de liberdade
De quantas observações precisamos para estimar uma reta? Imagine que coletamos
apenas uma observação, p.ex. contamos jararacas em apenas um local. Quantas
retas diferentes podemos traçar por esse ponto? Infinitas – cada uma em uma
direção diferente (figura 3.5, letra a)! Logo, com um ponto, é impossível definir a
reta. E se tivermos dois pontos? Agora é fácil: podemos simplesmente ligar os
pontos (figura 3.5, letra b)! Agora, imagine que coletamos uma outra amostra com
outros dois pontos diferentes. Qual a chance de traçarmos uma reta exatamente
igual à primeira? É provável que para cada par de pontos que amostrarmos, teremos
uma reta diferente, que conecta perfeitamente os dois pontos, mas sempre muda
quando mudamos os pontos. Em outras palavras, com dois pontos, conseguimos
descrever perfeitamente a amostra (a reta passa exatamente nos dois pontos), mas
não conseguimos generalizar para o universo amostral, porque a reta sempre muda!
E se tivermos três pontos? Agora podemos traçar uma reta que não passa
exatamente em nenhum dos pontos, mas corta o “meio” da nuvem de pontos (figura
3.5) – exatamente como fizemos antes (figura 3.4, letra c)!
40
Assim, vemos que para estimar parâmetros de um universo amostral (e não apenas
descrever nossa amostra), precisamos no mínimo de uma observação a mais que o
número de parâmetros estimados. Na regressão, há dois parâmetros: o intercepto e
a inclinação. Logo, precisamos de no mínimo de 3 observações. Logo, a quantidade
efetiva de informação que temos para estimar os parâmetros da regressão é n – 2
observações (“n” é o tamanho da amostra), porque sempre “gastamos” duas
observações só para sermos capazes de fazer alguma generalização sobre o
universo amostral. Este número é conhecido como graus de liberdade (degrees of
freedom, df), ou quanta liberdade temos para inferir sobre o universo amostral. Por
isso, ele entra no cálculo das estatísticas usadas para medir a incerteza sobre
nossas estimativas (p.ex. t). Em geral, df = n – p, onde “p” é o número de parâmetros
que queremos estimar. Por exemplo, para estimar a variância de uma amostra,
dividimos a soma dos quadrados por n -1, já que precisamos primeiro estimar a
média para poder calcular os desvios. Os graus de liberdade foram concebidos por
Gauss no séc. XIX, mas somente explicados por Gosset em 1908, e posteriormente
popularizados por Fisher.
A figura 3.6 mostra o resultado típico de uma regressão usando os dados inventados
do exemplo da jararaca, feita em um programa de computador. Note que tínhamos
oito observações, por isso df = 8 – 2 = 6.
Então eu posso sair fazendo regressões com n = 3? Com certeza não! Este é o
número mínimo de observações, mas com n = 3, temos apenas um grau de
liberdade. Logo, teremos pouquíssima informação, e nossa estimativa será péssima!
Então de quantas observações eu preciso? Cabe relembrar a regra que discutimos
no capítulo sobre inferência: quanto maior o tamanho da mostra, mais informação
teremos (i.e. mais graus de liberdade). Porém, para um mesmo tamanho de
amostra, é mais fácil detectar relações mais fortes (i.e. menor dispersão dos pontos
em torno da tendência) que relações mais fracas (i.e. maior dispersão dos pontos).
Por isso, não existe uma “fórmula mágica” para saber de quantas observações
precisamos para estimar uma ou mais relações, porque isso sempre depende da
força das relações que queremos estimar! O que podemos fazer é assumir que a
relação tem determinada forma e força (i.e. adotar certos valores para a, b e r² como
41
verdadeiros), e então simular qual o tamanho de amostra necessário para obter
estimativas com determinada precisão, ou com um dado “poder” (i.e. capacidade de
um teste de hipótese nula de detectar um efeito quando ele realmente existe). O
problema é que, normalmente, não sabemos o valor real dos parâmetros; se
soubéssemos, não precisaríamos estimar! Uma alternativa é fazer um estudo
“piloto”, onde coletamos uma amostra pequena para obter estimativas para alimentar
o cálculo do tamanho amostral. Mas note que essas estimativas estão elas próprias
sujeitas a incerteza. Finalmente, na ausência de outras informações, alguns
sugerem um guia mais grosseiro, mas útil: para cada relação de interesse, colete
pelo menos 10 observações; se quiser comparar grupos, colete pelo menos 10
observações por grupo (Gotelli & Ellison 2011). Essa regra do 10 é baseada no
tamanho de amostra mínimo necessário detectar relações em estudos ecológicos,
que normalmente são de moderadas a fracas, e baseadas em dados de campo. A
regra do 10 serve como um guia “conservador” para que você tenha uma amostra
minimamente capaz de detectar algum efeito. Mas se quiser estimativas precisas,
provavelmente terá que coletar mais! Veremos mais detalhes sobre isso no capítulo
6, “Simulações”.
Este nome curioso se deve a um dos pioneiros em utilizar este método no século
XIX: o inglês Francis Galton (1822-1911)2. Uma questão importante em seu tempo
era como se dava a herança de características de pais para filhos. Pense nisso: em
geral, os filhos(as) tendem a ser mais parecidos com os pais do que com qualquer
outra pessoa. Assim, casais mais altos tendem a ter filhos mais altos, e casais mais
baixos, filhos mais baixos. Se esse processo simplesmente se repetir a cada
geração, então a população poderia divergir indefinidamente entre um grupo de
pessoas cada vez mais altas e outro de pessoas cada vez mais baixas. Em pouco
tempo, todos seriam ou gigantes ou anões; algumas famílias poderiam encolher até
sumir! Por que isto não acontece?
2 Francis Galton, que era primo de Charles Darwin, era muito interessado em ciências sociais e
genética. Ele inventou muitas coisas que usamos até hoje, como o uso da impressão digital para
identificar pessoas.
42
diferentes alturas dos pais, e ligou as médias com uma linha. Galton notou que as
médias se alinhavam, formando uma reta equivalente a aplicar mínimos quadrados:
pais mais altos teriam a ter filhos mais altos, como esperado (figura 3.7). Se a
transmissão da altura dos pais para os filhos fosse perfeita, então para cada 1 cm
que a altura dos pais mudasse, a altura do filho deveria mudar também 1 cm, em
média (i.e. a inclinação da reta deveria ser b = 1). Porém, a inclinação da reta
estimada era menor que 1 cm (figura 3.7)! Assim, embora pais mais altos tendessem
a ter filhos mais altos, seus filhos geralmente eram mais baixos que os próprios pais.
Da mesma forma, pais mais baixos tendiam a ter filhos relativamente baixos, porém
mais altos que eles próprios.
Figura 3.7. Relação entre altura do filho(a) e altura média dos pais entre ingleses.
Dados de Galton (1886). Cada ponto representa um filho(a). A reta contínua indica a
reta estimada por Galton usando mínimos quadrados. A reta pontilhada indica uma
reta hipotética “perfeita”, cuja inclinação é b = 1. Galton notou que a inclinação de
sua reta estimada era menor que um, sugerindo que a transmissão hereditária da
altura não é perfeita.
Galton propôs que a transmissão hereditária da altura não é perfeita, de modo que a
altura média da próxima geração (filhos) tendia a voltar à altura média da geração
anterior (pais). Galton sugeriu que isso ocorria porque as características herdadas
por uma pessoa eram provenientes não só dos pais, mas também um pouco dos
avós, dos bisavós, e assim sucessivamente através das gerações ancestrais. Em um
artigo de 1886, Galton chamou este fenômeno de “regressão à mediocridade”. Ou
43
seja, retorno à média (medíocre significa médio, comum). Isto explicaria por que a
altura média das pessoas se mantém aproximadamente constante ao longo das
gerações.
Acontece que Galton estava errado! A inclinação de Galton foi menor que um porque
esta é uma característica intrínseca dos mínimos quadrados: como ele considera
apenas os resíduos de Y, a inclinação sempre é menor que a de uma reta diagonal
perfeita. Isto pode ser facilmente demonstrado invertendo a ordem das variáveis na
análise: se usarmos X como variável dependente e Y como preditor, a inclinação
muda! Galton foi enganado por um artefato estatístico. Hoje, sabemos que a razão
pela qual a altura se mantém aproximadamente constante é a segregação aleatória
dos genes responsáveis pela altura, o que quebra associações entre alelos que
conferem altura maior ou menor geração após geração. Na presença de forças
evolutivas, como a seleção natural, a altura média das pessoas realmente pode
mudar. Porém, a genética tal como a conhecemos hoje só nasceu após a
(re)descoberta dos trabalhos de Gregor Mendel (1822-1884) no início do século XX.
Isso não diminui a importância da obra inovadora de Galton: sua proposta de como
medir o quão herdável é uma característica – regressão entre pais e filhos –
continua sendo usada até hoje. Agora, a inclinação dessa regressão é conhecida
como herdabilidade (heritability). Ela é a base da genética quantitativa, e dá uma
ideia de quanta variabilidade em uma característica se deve à variação genética (ao
invés de variação causada pelo ambiente), e permite prever o quanto uma
população deve evoluir se estiver sob seleção natural. Por isso, quando se fala em
uma reta estimada por mínimos quadrados, chamamos tradicionalmente de
“regressão”, em homenagem a Galton.
44
(X). Se invertermos a ordem das variáveis, a inclinação da reta necessariamente
mudará.
45
4. RELAÇÕES CURVILÍNEAS
Embora muitas relações possam ser razoavelmente representadas por linhas retas,
nem sempre este é o caso. Um exemplo é quando uma variável cresce
desproporcionalmente em relação à outra, um fenômeno conhecido como alometria.
Isto é comumente observado em certas características morfológicas de alguns
animais. Em algumas espécies de besouro, por exemplo, à medida que o indivíduo
cresce, o comprimento das mandíbulas tende a crescer mais rápido que o
comprimento dos élitros (asas). Em certa faixa de tamanho, isso cria uma inflexão ou
curvatura na relação entre essas variáveis, de modo que besouros maiores têm
mandíbulas desproporcionalmente grandes (figura 4.1).
46
Uma forma de representar isso é juntar duas retas para descrever a curva (figura
4.1). No entanto, essa nem sempre é uma boa escolha. Primeiro, juntar retas é uma
forma grosseira de representar curvas. Segundo, quanto mais retas usamos, mais
parâmetros temos para estimar e, portanto, mais graus de liberdade teremos que
gastar, exigindo uma amostra maior. Uma forma mais simples de descrever essa
relação curvilínea seria usar uma função matemática (i.e. equação que relaciona
duas variáveis) que descreve uma curva, ao invés de uma reta. Uma função simples
que descreve curvas é a função de potência:
𝒚 = 𝒂 ∗ 𝑿𝒃
47
parâmetros de equações lineares, e.g. um somatório de vários termos, como a
equação da reta. Entretanto, a função de potência e muitas outras são equações
não lineares, i.e. não representam um simples somatório, envolvendo também
outras operações. Por isso, era preciso “linearizar” a equação da potência, i.e.
reescrevê-la de tal forma que ela parecesse uma equação linear, envolvendo
simples somas.
Felizmente, isto pode ser feito usando logaritmos (log). Logaritmos nada mais são
que o expoente de uma potência, ou o número ao qual temos que elevar outro para
obter um dado valor. Por exemplo, 10² = 100, então log10100 = 2. Em palavras: o log
de 100 na base 10 é 2, porque temos que elevar 10 a 2 para obter 100.
Provavelmente você está muito familiarizado com pelo menos uma medida em
escala log: o potencial hidrogeniônico (pH). O pH nada mais é que a concentração
de prótons em uma solução aquosa e indica seu grau de acidez. Como essas
concentrações são naturalmente muito baixas (e.g. 10-5, 10-7 ou 10-9 mol/L),
normalmente nós usamos o logaritmo na base 10 desses valores, multiplicado por -
1. Assim, um pH de 5 equivale a uma concentração de prótons de 10 -5 mol/L ou
0,00001 mol/L, que é maior (mais ácida) que um pH de 9, que indica concentração
de prótons de 10-9 mol/L ou 0,000000001 mol/L. Isto ilustra a grande utilidade desta
transformação: em escala log, valores muito discrepantes não são tão discrepantes
assim, e fica mais fácil compará-los. Porém, quando escrevemos apenas “log”, sem
indicar a base (p.ex. log 2), subentende-se que estamos falando do “logaritmo
natural”, cuja base é o exponencial, e ≈ 2,7184. Logo, log 2 = log2,7184 2.
Para linearizar a função de potência, podemos tirar o log de cada lado da expressão
e aplicar as regras dos logaritmos: (1) o logaritmo de um produto é igual à soma dos
logaritmos dos termos envolvidos no produto, e (2) o logaritmo de uma potência é
igual ao logaritmo da base vezes o expoente da potência. Logo:
𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠(𝒂𝑿𝒃 )
48
Podemos entender mais claramente a relação entre as duas formas da função de
potência usando gráficos: em escala log, a curva da potência se torna uma reta. Isto
ocorre porque, em escala log, um número muito grande na escala original não é tão
grande assim. Assim, aqueles valores mais discrepantes da nuvem de pontos que
são responsáveis pela curvatura na tendência são puxados mais fortemente para
baixo do que valores menores, transformando a curva de potência em uma reta
(figuras 4.3 e 4.4)! Daí o nome “linearização”.
49
Note que a transformação logarítmica é apenas uma mudança de escala, tal como
como podemos representar temperatura em escalas diferentes (Celsius, Farenheit
ou Kelvin). O importante é que a informação sobre a relação entre as variáveis
permanece a mesma e, portanto, isso não representa nenhuma forma de
“manipulação de dados” em um sentido pejorativo. Para sairmos da escala log e
voltarmos à escala original, basta usar a operação inversa, o exponencial, exp(x)
ou ex, onde x é um número qualquer. Por exemplo, log 2.7184 = 1, porque a base do
logaritmo natural é e = 2.7184, e se elevarmos 2.7184 a um, teremos 2.7184! Assim,
na escala log, 2.7184 é 1. Para voltar à escala original, exp(1) = 2.7184 1 = 2.7184!
𝒍𝒐𝒈(𝒚) = 𝒂 + 𝒃𝒙
𝒚 = 𝒆 𝒂+𝒃𝒙
𝒚 = 𝒂 + 𝒃 𝐥𝐨𝐠 𝒙
Uma outra forma de gerar curvas assintóticas (i.e. que tende a atingir um platô), é
usando o inverso de X. Ou seja, 1/X. Isto é uma razão, e por isso podemos chamar a
equação resultante de função racional (figura 4.5):
𝟏
𝒚=𝒂+𝒃∗
𝒙
50
Figura 4.5. Exemplos de curvas criadas usando diferentes equações lineares.
Embora o nome “linear” possa sugerir que elas só descrevem retas, isto não poderia
estar mais distante da realidade; uma grande variedade de curvas pode ser descrita
com equações lineares, i.e. equações compostas por um somatório de dois ou mais
termos.
Às vezes, uma relação não será descrita adequadamente por nenhuma dessas
funções. Uma situação comum é quando primeiro Y muda em um sentido ao longo
de X e, a partir de determinado momento, muda no sentido oposto. Este tipo de
relação é conhecida como não monotônica, porque envolve mais de um sentido de
mudança. Um exemplo de função simples que descreve este tipo de relação é a
equação do 2º grau, equação quadrática, ou parábola (figura 4.6):
𝒚 = 𝒂 + 𝒃𝒙 − 𝒄𝒙𝟐
51
Figura 4.6. Parábola, uma função útil para descrever curvas unimodais, i.e. com um
máximo em Y em algum valor intermediário de X. A parábola também serve para
descrever o padrão oposto, i.e. valores maiores de Y nos extremos de X.
Em alguns casos, a curvatura dos nossos dados não é bem representada por uma
parábola perfeita; ao invés disto, a relação apresenta uma “cintura”. Felizmente,
podemos ajustar a parábola facilmente descrever relações com esta forma: basta
logaritmizar Y. Como vimos anteriormente, isto implica em um tipo de função
exponencial, que neste caso produz uma curva gaussiana3 (figura 4.7):
𝒍𝒐𝒈(𝒚) = 𝒂 + 𝒃𝒙 − 𝒄𝒙𝟐
𝟐
𝒚 = 𝐞 𝒂+𝒃𝒙−𝒄
3
Em homenagem à Friedrich Gauss, que descreveu matematicamente uma
distribuição estocástica com forma de sino, como veremos no capítulo 7.
52
Figura 4.7. Curva gaussiana e sua equação. Note que a curva gaussiana nada mais
é que uma parábola transformada para a escala exponencial.
53
5. REGRESSÃO MÚLTIPLA
54
Correlações entre preditores costumam ser chamadas de multicolinearidade. Para
resolver este problema, estatísticos criaram um método padrão: o experimento. A
ideia é simples: variamos apenas a variável cujo efeito queremos testar, controlamos
todas as outras variáveis que puderem ser importantes, e vemos o que acontece
com nossa variável resposta. É daqui que vem o termo “variável independente”: em
um experimento, a variável preditora é medida de modo a ser independente de
outras variáveis, para que seu efeito (se houver) não seja confundido com o de
qualquer outra coisa.
55
abundâncias, então essa variação certamente não pode ser explicada pela distância.
Assim, podemos dizer que a reta é componente determinístico da regressão. Os
resíduos demonstram que nem toda a variação na abundância é explicada pela
distância do igarapé, e representam o componente estocástico (ou aleatório) da
regressão. Nesse caso, é provável que alguma outra variável (que não medimos e
talvez nem conheçamos) pode estar causando essa variação.
Podemos extrair os resíduos desse gráfico e criar uma nova variável dependente,
“resíduos da abundância”. Por definição, esta nova variável representa a variação na
abundância que não tem a ver com a distância do igarapé. Assim, podemos usá-la
para perguntar: será que algum outro fator (e.g. o fósforo) tem relação com a
abundância, depois que descontamos o efeito da distância do igarapé?
Da mesma forma, podemos repetir este procedimento para o fósforo: depois que
“tiramos” o efeito do fósforo, a distância do igarapé tem algum efeito? Deste modo,
podemos isolar estatisticamente o efeito de um preditor dos possíveis efeitos de
outros preditores. Combinando os efeitos isolados de dois ou mais preditores em
56
uma mesma regressão, temos uma regressão múltipla. A regressão múltipla é
extremamente útil porque quebra correlações entre preditores, isolando o efeito
independente de cada um (mais detalhes sobre isso no capítulo 7). Isso permite
avaliar melhor quais variáveis podem afetar ou não a variável resposta, sem precisar
fazer um experimento controlado. Parece mágica – mas é estatística!
̅ = 𝒂 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 +. . . +𝒃𝒏 𝒙𝒏
𝒚
57
Interação entre preditores
Em alguns casos, o efeito de um preditor sobre a variável resposta depende do valor
de outro preditor. Nesses casos, nós temos uma interação entre preditores. Um
exemplo ecológico disso é a hipótese do “deslocamento de caráter” (character
displacement): quando duas espécies ecologicamente parecidas (que consomem
recursos similares) ocorrem separadas (em alopatria), tendem a ser de um jeito;
quando ocorrem juntas (em simpatria), tendem a ser de outro. Há várias causas para
isso. Por exemplo, em animais que se comunicam por vocalizações (p.ex. aves e
primatas), espécies parecidas podem mudar certas características do seu som para
que sejam mais parecidas em simpatria que em alopatria, possivelmente porque isso
facilita o reconhecimento de certos comportamentos entre espécies e evita conflitos
territoriais (Sobroza et al. 2021). Assim, a variável dependente (característica do
som) pode refletir uma interação entre espécie (espécie A ou espécie B) e contato
geográfico (alopatria ou simpatria). Ou seja, o efeito da espécie sobre o som pode
mudar dependendo se estão em alopatria ou simpatria (Fig. 5.3).
58
Interações são representadas como produtos entre dois ou mais preditores na
equação da regressão múltipla. Por exemplo, para testar se há interação entre os
efeitos de espécie e contato geográfico sobre a largura de banda dos sons emitidos
pelos sauins, teríamos:
Outro exemplo de interação pode ser observado na evolução da relação entre forma
e função. Por exemplo, a dieta de uma espécie de animal costuma ser relacionada
ao seu tamanho corporal, já que tamanhos diferentes impõem restrições diferentes
sobre a capacidade de coletar a digerir alimento. Porém, o efeito do tamanho sobre
a dieta pode mudar dependendo de outras adaptações das espécies, como a forma
das mandíbulas (Pequeno et al. 2021; figura 5.4).
Figura 5.4. Cupins são insetos sociais que se alimentam de substratos variando
grandemente no grau de decomposição ou mineralização, desde madeira (pouco
mineralizado) até matéria orgânica do solo (altamente mineralizado). O grau de
mineralização da dieta de uma espécie aumenta com o tamanho corporal, mas
apenas em espécies com mandíbulas “socadoras” (que funcionam como um pilão,
adaptadas para revolver substratos quebradiços, como solo). Já em espécies com
mandíbulas “trituradoras” (com superfície áspera, adaptadas cortar e esmagar fibras
vegetais), essa relação praticamente não existe. Cada ponto é uma espécie. Note
que a massa corporal está em escala logarítmica, para facilitar a visualização da
relação. Adaptado de Pequeno et al. (2021).
59
No caso dos cupins, para testar uma interação entre massa corporal e forma da
mandíbula sobre a mineralização da dieta, teríamos:
60
6. PREDITORES CATEGÓRICOS
Em alguns casos, temos preditores que não são quantitativos, mas qualitativos ou
categóricos, i.e. representam categorias ou grupos. Exemplos de variáveis
categóricas relativamente comuns são sexo (macho ou fêmea), cor (preto, branco,
vermelho, etc.) e região (Norte, Sul, Sudeste, etc.). Note que todas essas variáveis
“categóricas” na verdade escondem quantidades: “sexo” é um sumário de várias
características quantitativas, incluindo dimensões morfológicas, composição
bioquímica do corpo, concentrações de hormônios, padrões de expressão gênica,
frequência com que a pessoa manifesta diferentes comportamentos, etc. “Cor” é
uma combinação da reflectância das ondas eletromagnéticas com comprimentos de
onda dentro da faixa de luz visível. “Região” é uma combinação de coordenadas
geográficas que determinam exatamente a posição de um lugar na superfície do
planeta. Assim, variáveis categóricas sempre são aproximações grosseiras e, por
isso, sempre têm menos informação que medidas quantitativas. Ainda assim,
frequentemente usamos categorias, ou por tradição, ou porque às vezes é muito
difícil medir diretamente o que nós realmente queremos.
Categorias geralmente são representadas como palavras, mas até agora vimos que,
para representar relações entre variáveis, usamos números e equações. Como
expressar nomes ou palavras como números? Se os nomes indicarem categorias
ordinais (em que umas são intrinsecamente maiores que outras, p.ex. “baixo” e
“alto”), podemos usar números inteiros como 1, 2, e 3, p.ex. 1 para “baixo”, 2 para
“médio” e 3 para “alto”. Mas muitas variáveis categóricas não representam
necessariamente uma ordem, mas sim grupos diferentes. Uma forma simples de
resolver isso é usar código binário (0 e 1), ou dummy variable.
O caso mais simples é quando temos apenas dois grupos. Por exemplo, imagine
que queremos comparar abundância de uma espécie entre dois hábitats (e.g.
vegetação aberta vs. fechada). Podemos representar qualquer um dos dois grupos
como 0, o outro como 1, e então fazer uma regressão entre abundância e “hábitat”
61
codificado desta forma. Note que, agora, o intercepto representa a média do grupo
indicado como 0, e a inclinação indica a diferença entre as médias dos grupos
(figura 6.1).
Figura 6.1. Abundância de uma dada espécie em diferentes “hábitats”. Nesse caso,
habitat trata-se de uma variável categórica com dois grupos, representada com
código binário (0 ou 1). Cada ponto representa um local, e a linha vermelha
representa uma reta de regressão. Note que o intercepto (o ponto onde a reta corta
Y quando X = 0) passa a ser a média do primeiro grupo, porque este grupo é
representado exatamente como 0. Já a inclinação passa a ser a diferença entre as
médias dos grupos, porque ela indica quantas unidades Y muda por unidade de X, e
de 0 para 1 há exatamente uma unidade. Se somamos o intercepto à inclinação,
teremos a média do grupo 1.
62
Preditor com três categorias ou mais: ANOVA e ANCOVA
Figura 6.2. Relação entre abundância de uma espécie e “hábitat”, uma variável
categórica com três grupos.
Podemos representar estes três grupos com dummy variables cujas combinações
identificam exatamente cada grupo, e então fazer uma regressão múltipla tendo
estas novas variáveis como preditores (figura 6.3):
63
Figura 6.3. Regressão múltipla entre abundância de uma espécie e “hábitat”, um
preditor categórico (baixio, platô e vertente) codificado como código binário. Ao invés
de uma única variável “hábitat”, precisamos de duas variáveis binárias para
representar as três categorias. Os valores estimados dos coeficientes são
hipotéticos.
Note que, para representar três grupos, precisamos de duas dummy variables, que
vamos chamar genericamente de X1 e X2. Quando as duas são 0, significa que
estamos falando do baixio; quando X1 é 1 e X2 é 0, estamos falando do platô; e
quando X1 é 0 e X2 é 1, estamos falando da vertente. A combinação que escolhemos
para indicar cada grupo é totalmente arbitrária; computadores normalmente seguem
ordem alfabética, mas isso não é obrigatório.
64
Tradicionalmente, quando fazemos uma regressão entre uma variável resposta
quantitativa e uma variável preditora categórica com três ou mais categorias,
chamamos de Análise de Variância (ANOVA). Quando temos dois ou mais
preditores, uns quantitativos e outros categóricos, chamamos de Análise de
Covariância (ANCOVA) (a figura 5.4 é um exemplo). A ANOVA foi concebida por
Ronald Fisher (1918).
Mas então por que usamos nomes diferentes, se todas essas análises são a mesma
coisa? Porque, como vimos, cada análise surgiu em um contexto histórico diferente,
65
a partir da pesquisa de pessoas diferentes, parecendo coisas realmente diferentes
(Apêndice 1). No fim do século XIX, Galton e Pearson, entre outros, ajudaram a
popularizar a correlação e a regressão. Em 1908, Gosset criou o teste t. Uma
década depois, Fisher criou a ANOVA e, no processo, elucidou as relações entre
regressão, teste t e ANOVA (Fisher 1918; 1922a). De fato, Fisher, “criou” a ANOVA
a partir de uma regressão múltipla – exatamente como vimos!
Apesar disso, nas cinco décadas subsequentes (1920 – 1970), os primeiros livros-
textos de estatística para cientistas ensinavam correlação, regressão, teste t e
ANOVA separadamente, como se fossem coisas diferentes. Isso se deve, em
grande parte, à motivação por trás desses métodos: correlação e regressão foram
desenvolvidas principalmente a partir de estudos observacionais ou correlativos
sobre genética e evolução, como aqueles de Galton e Pearson, onde as variáveis
são medidas em condições naturais. Já teste t e ANOVA foram popularizados por
Fisher, que – embora também tenha feito contribuições importantes à genética e
evolução – queria ajudar agrônomos a delinear estudos experimentais (p.ex. teste
de fertilizantes), nos quais as variáveis preditores geralmente são manipuladas para
assumirem alguns valores específicos – os chamados tratamentos. Como esta
manipulação frequentemente foca em poucos valores, essas variáveis criadas
experimentalmente eram convenientemente analisadas como categorias.
66
7. PROPRIEDADES DO MODELO LINEAR GERAL
Imagine que nós vivemos em um universo paralelo onde nós somos Deuses (ou
Deusas) – onipresentes, oniscientes e, mais importante, onipotentes. Nós podemos
criar tanto planetas quanto os seres vivos que os habitam. Vamos criar uma espécie
de planta. Para nossa planta proliferar, nós decidimos que ela precisa de cinco
fatores limitantes: água, luz, nitrogênio, potássio e fósforo (figura 7.1).
67
Figura 7.1. Fluxograma mostrando relações hipotéticas entre a densidade de uma
espécie e os cinco fatores que a limitam, conforme nossa vontade. As setas indicam
qual variável afeta qual variável; os sinais indicam se o efeito é positivo ou negativo.
Para simplificar mais ainda, vamos dizer que, quando todos os fatores limitantes são
zero, a planta não consegue proliferar e, portanto, sua densidade tende a ser zero (a
= 0). Também vamos assumir que todos os fatores limitantes têm o mesmo efeito (b1
= b2 = b3 = b4 = b5 = 1). Assim, ficamos apenas com:
Agora, precisamos criar valores para nossos preditores para gerar a densidade da
planta. Poderíamos escolher valores exatos para cada uma, mas isso daria muito
trabalho! Vamos simplesmente assumir que cada um pode variar dentro de certos
limites (p.ex. 0 a 100), e sortear n valores de cada uma. De posse desses valores,
podemos finalmente somar os preditores que criamos conforme a equação acima,
para gerar as densidades. Se fizermos isso, veremos que, curiosamente, a
distribuição de frequências da nossa variável resposta terá uma forma simétrica, de
68
sino. Isto é, a maioria dos locais no nosso planeta terá densidades intermediárias da
espécie, ao mesmo tempo em que teremos locais com densidades menores ou
maiores em igual proporção à medida que nos afastamos da tendência central
(figura 7.2). Esta distribuição é conhecida como distribuição normal ou gaussiana,
em homenagem a Friedrich Gauss, um dos primeiros a estudá-la, na virada do
século XVIII para o século XIX. Porém, seu uso foi popularizado apenas no fim do
século XIX, entre outros, por Francis Galton: acreditando que variáveis medidas no
mundo real geralmente tinham essa distribuição de frequências, Galton a via como
uma regra ou “norma” da natureza – daí o nome “normal”.
69
Figura 7.3. Regressão cujos resíduos têm distribuição normal. “Y = Normal(média,
variância)” significa que a variável Y segue uma distribuição normal com uma dada
média e uma dada variância. A média, porém, não é fixa; ela muda com X, de
acordo com a equação linear a + bX.
Podemos usar nosso simples modelo linear estocástico para simular várias amostras
de um dado universo amostral onde os parâmetros (intercepto, inclinações e
variância dos resíduos) assumem os valores que quisermos. Isto nos permite medir
o quanto nossas estimativas obtidas por Mínimos Quadrados se aproximam dos
70
valores reais, que nós escolhemos. De fato, é exatamente isto que estatísticos
fazem para testar seus métodos.
Quando trabalhamos com amostras, sabemos que, para cada amostra diferente que
coletarmos, teremos estimativas diferentes devido à incerteza inerente à
amostragem. Portanto, há incerteza nas nossas estimativas. Podemos caracterizar
nossas estimativas com base em duas características: viés e precisão. Viés é o
quanto nossa estimativa desvia do valor real de um parâmetro, em média.
Idealmente, queremos que nossas estimativas não tenham viés nenhum! Já
precisão é o quão variável a estimativa é entre diferentes amostras. Idealmente
queremos estimativas precisas, i.e. que variem pouco entre amostras. No capítulo 2,
vimos formas de medir precisão, i.e. erro padrão e intervalo de confiança.
71
Pressupostos e robustez do Modelo Linear Geral
72
Há várias formas de contornar desvios acentuados destes pressupostos. Uma forma
relativamente simples é logaritmizar a variável resposta (Y). Como vimos no capítulo
4, o log tende a reduzir discrepâncias entre valores muito diferentes em uma dada
escala, o que pode “normalizar” distribuições não normais e homogeneizar a
variância ao longo de X. Acontece que isso não é uma garantia, já que pode
funcionar em alguns casos, mas não em outros. Uma segunda possível solução é
ignorar as estatísticas, os Ps e os intervalos de confiança obtidos matematicamente
e usar simulação para obtê-los, como fizemos no capítulo 2. Como as distribuições
geradas assim são baseadas nos próprios dados, elas automaticamente incorporam
todas as suas características (Gotelli & Ellison 2011). Uma terceira possível solução
é simplesmente adotar uma distribuição que faça mais sentido para os resíduos.
Esse é o “território” dos Modelos Lineares Generalizados (GLM), como veremos no
capítulo a seguir (capítulo 8).
73
a diferença maior é entre amostras moderadas e amostras pequenas (figura 7.5).
Além disso, quanto maior o tamanho da amostra, menor o valor de P. É intuitivo:
quanto mais informação temos, menor a incerteza sobre os resultados e, portanto,
menor a chance de observarmos uma dada estimativa por acaso.
Por outro lado, quando variamos a dispersão dos pontos na relação (medida pelo
coeficiente de determinação, R²) mas mantemos o tamanho da amostra constante,
notamos o seguinte: quando a dispersão é muito grande (R² perto de 0,0), o modelo
não consegue discernir entre algum efeito (inclinação real) e efeito nenhum
(inclinação de zero), e a estimativa tende a zero. À medida que a dispersão diminui
(R² aumenta), o modelo tende a acertar o valor real da inclinação em média. Porém,
variação na estimativa é grande, e só diminui conforme a dispersão diminui ainda
mais (R² perto de 1,0). Ao mesmo tempo, quanto maior o R², menor o valor de P, já
que a incerteza sobre a relação diminui.
74
Figura 7.6. Variação nas estimativas da inclinação b e no valor de P do teste da
inclinação em relação ao coeficiente de determinação (R²). Cada ponto representa
uma simulação, i.e. uma amostra de uma relação entre duas variáveis quantitativas
gerada de acordo com o Modelo Linear Geral, e analisada com este mesmo modelo.
A linha tracejada indica o valor real do parâmetro nas simulações (gráfico da
esquerda) e o nível de significância de 0,05 (gráfico da direita).
Agora, imagine que temos uma variável resposta Y que é afetada por um preditor X1
(b1 = 1), mas não é afetada por uma outra variável X 2 (b2 = 0). Porém, X1 e X2 são
correlacionadas, de tal modo que, se olharmos as relações simples entre Y e X 1 e Y
e X2, é difícil saber se o efeito é de X1, X2 ou ambas (tal como no exemplo do patauá
do capítulo 5). O quanto a regressão múltipla consegue realmente “quebrar” a
correlação entre preditores e identificar corretamente que o efeito é de X 1 e não de
X2? A resposta é: depende da correlação entre os preditores. Quanto mais forte a
correlação, mas imprecisas as estimativas dos seus respectivos efeitos, embora
ambas não tenham viés, em média (figura 7.7). Em geral, a regressão múltipla
consegue identificar corretamente o real efeito. Porém, quando a correlação entre
preditores é muito forte (p.ex. r > 0.8), a imprecisão é tão grande que as estimativas
começam a se sobrepor entre preditores. Assim, corremos o risco de concluir que o
efeito de um preditor, quando na verdade é do outro (figura 7.7). Por outro lado,
quando não há correlação nenhuma entre preditores, as estimativas das regressões
simples e múltipla são idênticas e, portanto, tanto faz analisar os preditores juntos ou
separados. Por isso, analisar vários preditores juntos é mais útil quando a correlação
75
entre preditores é intermediária. Mas e se quisermos “quebrar” mesmo correlações
muito altas? Basta aumentarmos a precisão das nossas estimativas, para não
confundirmos os efeitos entre preditores. A forma mais simples de fazer isso é
aumentando o tamanho da amostra (figura 7.5) (mais detalhes no capítulo 5).
76
Agora, e se considerarmos um preditor aleatório, sem nenhum efeito? Neste caso,
se detectarmos um “efeito”, só pode ser por acaso! Assumindo um nível de
significância de 0,05 ou 5%, o valor de P vai oscilar uniformemente entre 0 e 1, e
vamos encontrar um falso “efeito” aproximadamente 5% das vezes (figura 7.8). Ou
seja, se uma variável não tem efeito, a chance de concluir que ela realmente não
tem efeito não depende do número de preditores, e refle unicamente o nível de
significância que escolhemos (figura 7.8). Assim, note que “nível de significância” é a
mesma coisa que a taxa de erro tipo I, ou o quanto aceitamos detectar um efeito que
não existe por acaso, também chamado de “falso positivo”.
77
Resumindo: a incerteza sobre nossas estimativas é menor quando (1) nossa
amostra é maior; (2) a relação que investigamos é mais forte (menor dispersão dos
pontos); (3) a correlação entre nossos preditores é menor; e (4) a amostra é grande
em relação ao número de preditores (ou seja, temos muitas observações por
preditor). No mundo real, sabemos que muitas relações são fracas ou “ruidosas”
(p.ex. porque estão sob muitos efeitos misturados), e que vários preditores de
interesse estão correlacionados em maior ou menor grau, de modo que
precisaremos os incluir no mesmo modelo para controlar a confusão que essas
correlações podem causar nas nossas conclusões. Por isso, é muito importante
planejarmos um delineamento amostral que seja compatível a força e número de
relações que esperamos investigar: quanto mais fracas e mais numerosas elas
forem, maior será a informação necessária para obter estimativas razoáveis (maior
amostra).
78
8. MODELOS LINEARES GENERALIZADOS (GLM)
Desvios de normalidade
Até agora, trabalhamos com modelos lineares que usavam a soma dos quadrados
para determinar qual o melhor ajuste da linha de tendência. Como vimos, Gauss
demonstrou que esses modelos assumem implicitamente que os resíduos têm
distribuição normal e homocedástica. Nestas condições, é garantido que nossas
estimativas acertam o valor real dos parâmetros (em média), e podemos usar
fórmulas matemáticas relativamente simples para calcular estatísticas (p.ex. t ou F) e
obter valores de P e intervalos de confiança. No entanto, nem sempre podemos
garantir que esses pressupostos são válidos.
Na maioria das situações do mundo real, é mais útil simplesmente usar métodos de
aleatorização para inferência (como no capítulo 2), ou não assumir resíduos com
distribuição normal e/ou homocedástica. Por exemplo, podemos criar modelos que
79
assumem resíduos com distribuição normal com alguma forma de
heterocedastícidade usando Mínimos Quadrados Generalizados (Generalized
Least Squares, GLS). O GLS funciona igual ao método dos Mínimos Quadrados
Ordinários (Ordinary Least Squares, OLS), exceto pelo fato de que os resíduos
recebem um peso na hora de calcular a soma dos quadrados: resíduos maiores
ganham peso menor na soma. Assim, aquelas observações que estão próximas da
tendência contribuem mais para a estimativa da reta. Quando há
heterocedasticidade, são as estimativas obtidas por GLS que são BLUE (i.e. sem
viés e com maior precisão possível), e não as de OLS.
A seguir, abordaremos alguns tipos de distribuição úteis para descrever dados não
normais, começando pela distribuição de Poisson.
Distribuição de Poisson
80
Figura 8.1. A distribuição de Poisson representa contagens. Geralmente, os valores
mais frequentes são relativamente baixos, criando uma cauda espichada para a
direita.
81
Quando lambda é baixo (p.ex. λ = 0,8), as contagens tendem a ser baixas e mais
parecidas. Já quando lambda é relativamente alto (p.ex. λ = 12), as contagens
tendem a ser maiores e mais diferentes entre si (i.e. mais variáveis) (figura 8.3).
Quando lambda ≥ 30, praticamente não há diferença entre a forma das distribuições
de Poisson e normal. Este é um exemplo de como a distribuição às vezes funciona
como uma boa aproximação para outras distribuições: se tivermos contagens muito
altas (i.e. com média alta), a distribuição normal pode ser uma aproximação razoável
da distribuição de Poisson.
82
A B
Figura 8.4. Comparação das distribuições dos resíduos de modelos lineares com
distribuição normal (A) e distribuição de Poisson (B). Enquanto no primeiro caso a
variância é constante ao longo de X (homocedasticidade), no segundo caso ela
aumenta com a média e, portanto, muda ao longo de X (heterocedasticidade).
Como vimos, uma característica fundamental de contagens é que elas não podem
ser negativas. Ocasionalmente, porém, podemos ter preditores que assumem
valores negativos, como temperatura ou déficit hídrico. Se usarmos a equação linear
direto para representar a média das contagens em função deste preditores,
corremos o risco de que nossa equação preveja contagens menores que zero – o
que não faz o menor sentido (figura 8.5)! Como evitar isso? Uma forma simples, e
com a qual já estamos familiarizados, é usar logaritmos: log não é definido para
valores iguais ou menores que zero. Assim, se colocarmos a média de Y na escala
log, esses valores simplesmente não existirão para o nosso modelo. O modelo será:
𝒀𝒎é𝒅𝒊𝒂 = 𝒂 + 𝒃𝑿
𝐥𝐨𝐠(𝒀𝒎é𝒅𝒊𝒂 ) = 𝒂 + 𝒃𝑿
𝒀𝒎é𝒅𝒊𝒂 = 𝒆𝒂+𝒃𝑿
83
Note que dizer que a média de Y está em escala log é o mesmo que dizer que a
média de Y é dada pelo exponencial da equação linear. Em outras palavras: agora,
ao invés de assumir que a relação entre Y e X é uma reta, nosso novo modelo
assume que a relação segue uma curva exponencial. A função matemática usada
para que a média da variável resposta fique em uma escala que faça sentido é
conhecida como função de ligação (link function). (figura 8.5). Note que, ao fazer
isso, nós automaticamente mudamos as unidades dos coeficientes: o intercepto
agora está em log de Y, e a inclinação, em log de Y por unidade de X.
Figura 8.5. A função de ligação que garante que um GLM só prediga médias que
façam sentido para a variável resposta. No caso da distribuição de Poisson, que
representa contagens, não faz sentido haver valores negativos. Por isso, usamos a
função log, para as quais tais valores não são definidos.
Máxima verossimilhança
Ok, mas como determinar a melhor posição da linha de tendência? Seria possível
usar o método dos mínimos quadrados? Infelizmente, não! Como vimos, ao usar
esse método, assumimos implicitamente que a distribuição dos resíduos é normal!
Porém, podemos usar uma estratégia parecida. Primeiro, podemos “chutar” várias
possíveis linhas de tendência, i.e. intercepto e inclinação(ões) (figura 8.6):
84
Figura 8.6. Para descobrir qual a melhor linha de tendência para um conjunto de
dados, podemos “chutar” várias possíveis linhas de tendências e avaliar qual delas
aumenta a probabilidade de observarmos o conjunto de pontos do gráfico.
Segundo, ao invés de calcular a soma dos quadrados para cada uma, podemos
calcular a probabilidade de que cada ponto amostral ocorra se aquela linha for a
linha verdadeira. Os estatísticos chamam isso de probabilidade condicional, i.e.
probabilidade de observar Y condicionada à nossa curva:
𝑷(𝒀|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂)
85
Figura 8.7. Calculando a probabilidade de observar cada ponto no gráfico, segundo
uma das nossas curvas “chutadas”. A linha cortando a nuvem de pontos representa
a média de Y predita pelo modelo, e as curvas unimodais paralelas ao eixo Y
(perpendiculares aos eixos Y e X, “saindo” do gráfico) representam a distribuição de
Poisson. Para cada ponto, nós vemos qual é a média predita pelo modelo,
desenhamos a distribuição de Poisson, e medimos a distância ou “altura” entre o
ponto e a curva da distribuição. Quanto maior esta altura, maior a probabilidade de
observar esse ponto, caso esta seja a linha de tendência verdadeira. A figura ilustra
este cálculo para dois pontos: um com média mais baixa, e outro com média mais
alta. Note que, à medida que a média aumenta ao longo de X, a distribuição de
Poisson fica mais “aberta” (porque média = variância!). Neste exemplo, a
probabilidade de observar o ponto na média mais baixa é maior (“altura” maior, mais
perto da média) que a probabilidade de observar o ponto na média mais alta (“altura
menor”, mais longe da média).
Como temos vários pontos em cada gráfico, temos uma probabilidade independente
para cada um. Assim, precisamos combinar estas probabilidades, de modo a termos
a probabilidade conjunta de gerar estes dados com a nossa curva “chutada”. Para
fazer isso, usamos a regra do E: a probabilidade de um evento ocorrer E outro
evento independente ocorrer também é igual ao produto entre as probabilidades de
cada um. Logo, a probabilidade de observar o primeiro ponto E o segundo E o
terceiro, etc. é igual ao produtório das probabilidades de todos eles:
86
Este processo envolverá n probabilidades, ou seja, o número total de pontos (i.e.
tamanho da nossa amostra). Feito isto para esta curva, podemos chutar muitas
curvas diferentes e repetir o processo para cada uma. Assim, teremos muitas curvas
com muitas probabilidades diferentes de terem gerado os dados. Por fim, podemos
comparar a probabilidade conjunta dos dados entre todas elas, e ficar com aquela
que maximiza essa probabilidade! A probabilidade conjunta dos dados condicionada
a certos parâmetros (i.e. uma curva qualquer) é chamada de verossimilhança
(likelihood), e o modelo com melhor ajuste é aquele com máxima verossimilhança
(maximum likelihood), i.e. que maximiza a probabilidade de gerar os dados. Como
produtos de probabilidades são números muitíssimo pequenos (p.ex. 0,000000...), é
comum usar o logaritmo natural da verossimilhança (log-likelihood), porque em
escala log, valores muito pequenos não são tão pequenos assim! Logo, é mais fácil
interpretar e visualizar esses números. A relação entre (log da) verossimilhança e
valores de um ou mais parâmetros é conhecida como perfil ou superfície de
verossimilhança (likelihood profile ou surface) (figura 8.8).
87
Além disso, historicamente, é mais fácil programar um computador para encontrar
um valor mínimo que um máximo. Por isso, normalmente o log da verossimilhança é
multiplicado por -1. Com isso, o “pico” da superfície de verossimilhança se inverte, e
o objetivo passa ser minimizar o negativo do log da verossimilhança (figura 8.9).
88
Gauss demonstrou que, se os resíduos forem gerados por uma distribuição normal,
o método de máxima verossimilhança produz estimativas idênticas àquelas obtidas
por mínimos quadrados! Assim, podemos dizer que o método de mínimos quadrados
é um caso especial da máxima verossimilhança e, portanto, que o Modelo Linear
Geral (que assume normalidade dos resíduos) é um caso especial do Modelo Linear
Generalizado (GLM). A vantagem da máxima verossimilhança é que ela pode ser
aplicada para estimar parâmetros de qualquer modelo assumindo qualquer
distribuição, desde que possamos representar esta distribuição matematicamente.
89
Figura 8.10 Comparação entre um modelo estimado por máxima verossimilhança
(esquerda) e um modelo saturado ou “perfeito”, que descreve exatamente os pontos
nos gráfico, passando por todos eles (direita).
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐)
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐
𝐥𝐨𝐠 ( )
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐
90
residual é a distância do nosso modelo do modelo saturado, como já vimos; a
desviância nula é a distância de um modelo nulo (i.e. o pior modelo possível, apenas
com um intercepto representando a média da variável dependente) do modelo
saturado. Assim, a desviância nula representa a variabilidade total a ser explicada,
enquanto a desviância residual representa a variabilidade não explicada pelo nosso
modelo. Logo, a razão entre a desviância residual a desviância nula representa a
proporção de variação não explicada pelo nosso modelo, e um menos esse valor é a
variação que é explicada (figura 8.11). Esta é a forma mais comum de calcular o R²
para GLMs. Porém, para algumas distribuições, o valor máximo possível pode ser
um pouco menor que 100%, e por isso às vezes ele é chamado de pseudo-R²:
𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒓𝒆𝒔𝒊𝒅𝒖𝒂𝒍
Pseudo R²=𝟏 −
𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒏𝒖𝒍𝒂
91
Agora, tudo que falta para que nosso GLM fique completo é que possamos medir a
incerteza sobre as estimativas dos coeficientes, i.e. obter valores de P e intervalos
de confiança. O matemático americano Samuel Wilks (1906-1964) mostrou que
estimativas de razão de verossimilhanças seguem uma distribuição estatística
conhecida como qui-quadrado (Χ²), um resultado conhecido como Teorema de
Wilks (Wilks, 1938). Como a desviância é baseada na razão de verossimilhanças,
suas estimativas também seguem esta distribuição. Assim, a estatística Χ² serve
para testar a significância global de um GLM, i.e. se a desviância residual do modelo
é menor que o esperado ao acaso – tal como a estatística F no Modelo Linear Geral.
Para testarmos a significância de um dado preditor, podemos calcular a desviância
entre um par de modelos idênticos, exceto que um inclui e o outro exclui um dado
preditor. Isto nos dirá se a inclusão do preditor no modelo reduz a desviância
residual mais que o esperado ao acaso, i.e. se o preditor tem um efeito maior que o
esperado ao acaso, tal como a estatística t no Modelo Linear Geral.
O GLM com distribuição de Poisson é o modelo linear mais simples possível para
representar contagens. Lembre-se que, nele, média e variância são a mesma coisa
(lambda); é um modelo “econômico”. Porém, isso só funciona bem quando as coisas
que contamos estão distribuídas aleatoriamente no espaço ou no tempo. No mundo
real, muitos organismos vivem de modo agregado. Isso faz com que, em uma coleta
de dados, muitos locais de amostragem possam não conter nenhum indivíduo,
enquanto em alguns outros a contagem possa de ser muito alta (figura 8.12).
Consequentemente, a distribuição das frequências tende a ser acentuada nos zeros,
e mais assimétrica que o previsto pela distribuição de Poisson. Nesses casos, uma
distribuição que considere explicitamente a agregação da distribuição daquilo que
estamos contando é mais informativa.
92
Figura 8.12. Frequentemente, os organismos estão distribuídos de forma agregada
na paisagem (esquerda). Isto leva a muitas contagens com zero e poucas contagens
muito altas (direita).
Quando a variância aumenta muito rápido com a média (p.ex. k muito baixo),
podemos ter nuvens de pontos em forma de triângulo, como se os pontos variassem
até um determinado “teto” (figura 8.13). Nestas condições, também podemos
observar alguns pontos discrepantes, com contagens muito maiores que a maioria
(figura 8.13).
93
Figura 8.13. Dados simulados a partir de um GLM com distribuição binomial
negativa. À medida que k diminui, a variância aumenta cada vez mais rápido com a
média, criando padrões cada vez mais heterocedásticos. Isto pode resultar em
nuvens de pontos em forma de triângulo, que se os pontos batessem em um “teto”
superior (esquerda) ou, em casos mais extremos, em umas poucas observações
discrepantes (direita).
94
Distribuição gama
Às vezes, nossa variável resposta não é uma contagem, mas sim a densidade de
alguma coisa, uma concentração ou uma taxa. Estes tipos de variável têm duas
coisas em comum: assim como contagens, não podem assumir valores negativos,
mas diferentemente de contagens, têm valores contínuos (i.e. podem ser frações).
Uma distribuição útil para descrever essa situação – e que deriva naturalmente das
distribuições que já investigamos – é a distribuição gama.
𝒗𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝒎𝒆𝒅𝒊𝒂𝟐
Escala= Forma=
𝒎é𝒅𝒊𝒂 𝒗𝒂𝒓𝒊â𝒏𝒄𝒊𝒂
Note que, quando qualquer um dos dois parâmetros muda, a média e a variância
mudam junto. Assim, a distribuição gama também é intrinsecamente
heterocedástica. Quanto maior o valor da “escala”, mais espichada a distribuição;
quanto maior o valor da “forma”, mais simétrica a distribuição (figuras 7.13 e 7.14).
Uma característica importante (e um tanto irritante) da distribuição gama é que ela
não descreve zeros, apenas valores positivos. Assim, se houver zeros na sua
variável dependente, você precisará de outra distribuição similar que admita zeros
(veja adiante).
95
Figura 8.14. Distribuição gama com diferentes combinações dos parâmetros de
forma e escala. Adaptado de Bolker (2008).
Logo, quando nossa variável resposta é binária (o ou 1), usar um modelo linear para
prever sua média é o mesmo que prever a probabilidade de ocorrência de um dado
evento, p.ex. a presença de uma espécie. Quanto maior a probabilidade de
ocorrência, maior a chance de ela ser observada de fato. Além disso, note que,
assim como já visto em outros tipos de distribuição, a linha de tendência não pode
96
ser representada por uma reta, pois ela poderia prever probabilidades acima de um
e abaixo de zero, o que não faz sentido (figura 8.15)!
Diferentes funções de ligação podem transformar uma reta em uma curva, de tal
modo que o valor mínimo possível seja zero, e o maior possível, um. A mais popular
é a função logit, que transforma a reta em uma curva sigmoide ou em forma de
“s”: (figura 8.16).
𝒙
𝒍𝒐𝒈𝒊𝒕 (𝒙) = 𝒍𝒐𝒈 ( )
𝟏−𝒙
97
Figura 8.16. A função logit converte uma linha reta em uma curva sigmoide ou em
forma de “s”, tendo apenas valores de 0 a 1, como é próprio das probabilidades.
A distribuição de Bernoulli também pode ser entendida como o lance de uma moeda:
ou dá uma coisa, ou dá outra. Porém, às vezes, nós não temos apenas uma
observação de ocorrência por unidade amostral, mas sim várias. Por exemplo,
podemos observar vários animais, cada um em vários momentos, e anotar quando
eles apresentam determinado comportamento (p.ex. comer). Se observarmos cada
animal 10 vezes, teremos a proporção de vezes em que cada animal estava
comendo, o que nos dá uma ideia da probabilidade ou propensão de um animal
estar comendo ou não. Neste caso, precisamos de dois parâmetros para descrever
a distribuição: a probabilidade de ocorrência do comportamento, como já vimos, e o
número de observações por indivíduo. A distribuição resultante é uma generalização
da distribuição de Bernoulli, e é conhecida como distribuição binomial. Também
podemos dizer que a distribuição de Bernoulli é a mesma coisa que a distribuição
binomial, quando o número de observações por unidade amostral é apenas um.
A família exponencial
98
esta família, mas como vimos, pode ser considerada uma “agregada”, já que pode
ser derivada a partir de uma generalização da distribuição de Poisson. Há várias
famílias de distribuições estocásticas e, portanto, existem inúmeras distribuições.
Porém, várias descrevem variáveis mais ou menos parecidas. Desse modo,
frequentemente a família exponencial é suficiente para descrever problemas do
mundo real. Porém, em alguns casos específicos, podemos precisar de outras. Por
exemplo, a distribuição gama descreve apenas valores positivos (i.e. sem zeros), o
que às vezes é um problema. Uma distribuição que não é exponencial, mas é
parecida com a gama e inclui zeros é a distribuição de Tweedie.
Como vimos, podemos prever qual distribuição mais apropriada para nosso modelo
simplesmente sabendo a natureza da variável resposta. Assim, não precisamos ficar
presos à distribuição normal. Isto era uma necessidade no século passado, quando
não havia computadores rápidos e acessíveis, e a computação da máxima
verossimilhança era difícil. Hoje, isso não é mais desculpa. Quando a distribuição
normal claramente não for uma aproximação razoável, basta usarmos outra
distribuição mais apropriada no nosso modelo linear (Apêndice 3). Em geral, quando
escolhemos uma distribuição inadequada para nosso modelo, estamos
essencialmente assumindo uma relação errada entre a média e a variância. Logo,
estamos mais sujeitos a resultados espúrios (erro tipo I ou II), dependo dos detalhes
dos dados (como discutido no capítulo 7, “Pressupostos do Modelo Linear Geral”).
99
9. SELEÇÃO DE MODELOS
Poderíamos simplesmente ver qual modelo possui melhor ajuste, p.ex. maior R², e
escolher este. Porém, qual a probabilidade da estimativa da inclinação de um
modelo linear ser exatamente zero? Praticamente... Zero! Nem que seja por acaso,
a inclinação de um preditor qualquer provavelmente será maior ou menor que zero,
mesmo que seja só um pouco. Sendo assim, podemos esperar o R² aumente
mesmo quando adicionarmos ao modelo preditores sem efeito algum. De fato,
quanto maior o número de preditores em um modelo, maior tende a ser o valor do
R², mesmo que eles não tenham efeito real (figura 9.1)!
Figura 9.1. Simulação mostrando que quanto mais preditores aleatórios adicionamos
a um modelo linear, maior tende a ser a “variação explicada (R²)”, muito embora
esses preditores não tenham realmente qualquer efeito sobre a variável dependente
(cada ponto é uma simulação). A variação que eles “explicam” é por acaso!
100
Isto cria um problema: se simplesmente usarmos o R² para comparar modelos,
podemos estar baseando nossa conclusão no acaso! Uma forma intuitiva de
contornar esse problema é penalizar nossa medida de ajuste do modelo pelo
número de parâmetros do modelo. Assim, quanto maior o ajuste, melhor o modelo.
Porém, quanto mais parâmetros o modelo tiver, pior, já que esses parâmetros a mais
podem estar “explicando” alguma variação por puro acaso. Idealmente, queremos
um modelo que explique o tanto quanto possível com o menor número de preditores
possível, i.e. um modelo parcimonioso.
𝑨𝑰𝑪 = −𝟐 𝐥𝐨𝐠(𝒗𝒆𝒓𝒐𝒔𝒔𝒊𝒎𝒊𝒍𝒉𝒂𝒏ç𝒂) + 𝟐 𝒑
Pela fórmula, vemos que o AIC é exatamente a desviância menos duas vezes o
número de parâmetros. Teoricamente, poderíamos multiplicar o número de
parâmetros por um número diferente de dois. Se ele for menor, a penalidade pela
complexidade será menor. Se ele for maior, a penalidade será maior. As inúmeras
variantes do AIC diferem principalmente nessa penalidade da complexidade.
101
𝑺𝑰𝑪 𝒐𝒖 𝑩𝑰𝑪 = −𝟐 𝐥𝐨𝐠(𝒗𝒆𝒓𝒐𝒔𝒔𝒊𝒎𝒊𝒍𝒉𝒂𝒏ç𝒂) + 𝒑 𝒍𝒐𝒈(𝒏)
Na prática, o termo p*log(n) tem duas implicações principais: (1) para tamanhos de
amostra maiores, o BIC tende a ser mais rigoroso que o AIC e, portanto, tende a
favorecer modelos com menos parâmetros (i.e. menos preditores); (2) o BIC separa
mais fortemente modelos “bons” de modelos “ruins” quanto maior a amostra.
Os valores absolutos de AIC e BIC não significam nada no mundo real. O que
importa é a diferença entre os valores absolutos, conhecida como delta (ΔAIC ou
ΔBIC). Assim, geralmente calculamos a diferença de cada modelo em relação ao
modelo com menor AIC ou BIC, e então comparamos essas diferenças. Por
exemplo, se tivermos três modelos cujos valores de AIC são 100, 104, 110, então
seus respectivos ΔAIC serão 100 – 100 = 0; 104 – 100 = 4; e 110 – 100 = 10.
Quanto menor o ΔAIC, melhor (mais parcimonioso) o modelo entre o conjunto de
modelos considerados. Por isso que o melhor modelo seria aquele cujo valor de AIC
foi 100, com ΔAIC = 0.
Assim como testes de hipótese nula adotam um nível de significância como regra
para decidir quando temos evidência para um efeito, Critérios de Informação
também costumam ser usados com um ponto de corte. Um modelo é considerado
claramente melhor que os demais quando ΔAIC > 2 em relação aos demais
modelos. No exemplo, o ΔAIC entre o melhor modelo (menor AIC) e os demais foi 4,
então ele é claramente melhor. Quando ΔAIC < 2, não conseguimos dizer
claramente qual modelo é melhor. Neste caso, ficamos com o modelo com menos
parâmetros, porque por definição ele é mais parcimonioso (Arnold 2010).
102
Usando simulação, é possível demonstrar que o AIC tende a favorecer o modelo que
melhor prediz a variável resposta, enquanto o BIC tende a escolher o modelo que
contém os efeitos reais, desde que os preditores reais estejam entre aqueles
analisados. Note a sutileza: podemos ser capazes de prever bem uma variável
mesmo que não saibamos os preditores que realmente a afetam, p.ex. se tivermos
preditores que são correlacionados àqueles que realmente causam o efeito. Para o
AIC, essa distinção é irrelevante, porque geralmente nunca sabemos quais são os
efeitos reais. Para o BIC, esta diferença importa: ele quer que o modelo seja uma
aproximação da realidade tão boa quanto possível! Nesta apostila, não tomaremos
partido. Apenas notamos que todos os Critérios tentam escolher modelos
parcimoniosos, diferindo em como exatamente medem “parcimônia”.
103
10. MODELOS LINEARES (DE EFEITOS) MISTOS
Autocorrelação
Como vimos até aqui, os resíduos de modelos lineares são como uma lixeira: tudo
que não nos importa – efeitos que não medimos – vai parar neles. Desse modo, os
resíduos representam variação aleatória e, portanto, cada um deve variar
independentemente dos demais (figura 10.1).
104
Para entendermos de fato o que é pseudorrepetição, vamos pensar em um exemplo
biológico real. Em organismos que se reproduzem assexuadamente (vários micro-
organismos e plantas, e certos animais como alguns crustáceos, insetos, ácaros e
tardígrados), “clones” são uma forma óbvia de pseudorréplica, porque cada indivíduo
faz uma cópia (quase) perfeita de si mesmo. Todas as cópias do mesmo indivíduo
são essencialmente o mesmo clone, i.e. pseudorréplicas do mesmo indivíduo! Logo,
se estivermos interessados em uma questão cuja unidade amostral é um indivíduo
de algum desses organismos, ao coletarmos nossa amostra, poderemos ter grupos
de indivíduos pertencentes ao mesmo clone. Neste caso, esperamos que os
resíduos do nosso modelo não sejam totalmente aleatórios, mas estejam
relacionados ao clone, i.e. sejam mais parecidos entre indivíduos do mesmo clone
que de clones diferentes (figura 10.2).
105
Ao avaliarmos os resíduos, percebemos que eles deixam de variar aleatoriamente;
ao invés disso, estão relacionados ao “clone”. Isso sugere que o modelo que
escolhemos provavelmente está deixando alguma informação importante de fora
(model missidentification). Note que a autocorrelação ou pseudorrepetição é uma
propriedade do modelo, e não dos dados; ela sempre depende de como o modelo foi
especificado (p.ex. quais preditores foram incluídos, e como), e de uma variável
explícita segundo a qual possamos determinar se há autocorrelação ou não (neste
caso, “clone”).
Para resolver esse problema, podemos usar uma solução ainda mais simples que
um código binário: podemos representar o efeito de “clone” como uma simples
variável aleatória. Primeiro, dizemos que cada clone tem sua própria média; em
seguida, dizemos que essas médias variam aleatoriamente em torno de uma média
geral dos indivíduos, independente do clone. Assim, a média de cada clone passa a
ter um desvio em relação à média global, assim como cada indivíduo do mesmo
clone pode desviar da média do próprio clone. Desta forma, passamos a ter dois
tipos de resíduos: dentro do mesmo clone, e entre clones. Neste contexto, os
resíduos dentro do mesmo clone continuam sendo chamados simplesmente de
“resíduos”. Já os resíduos entre as médias dos clones são conhecidos como efeitos
aleatórios, e a variável “clone”, que agrupa as observações, é conhecida como
fator aleatório (figura 10.3).
106
Figura 10.3. Efeitos aleatórios e fator aleatório. Quando queremos controlar a
autocorrelação entre unidades amostrais pertencentes ao mesmo grupo (aqui,
“clone”), podemos incluir a identidade do grupo no modelo como um fator aleatório.
Assim, (1) os resíduos de cada grupo terão sua própria média, e (2) a média de cada
grupo terá um desvio em relação à média global dos resíduos. Logo, teremos dois
tipos de resíduos: um entre indivíduos do mesmo grupo, que continuaremos
chamando simplesmente de “resíduos”; e outro entre grupo, que chamaremos de
efeitos aleatórios. À esquerda: os pontos pretos representam os indivíduos, as linhas
cinzas horizontais representam as médias (linha maior: média global; linhas
menores: médias de cada grupo), e as verticais, os efeitos aleatórios. À direita: e os
pontos cinzas representa as médias dos clones, a linha horizontal representa a
média global, e as verticais, os efeitos aleatórios. Note que, neste exemplo, toda a
variação ocorre entre clones (i.e. os resíduos dentro dos clones são nulos).
107
aleatório como uma variável com distribuição normal de média zero e uma dada
variância, que representa o tamanho do efeito do fator aleatório:
Agora, vamos adicionar este termo ao nosso modelo linear. Lembrando que um
modelo linear é uma simples soma, o efeito do fator aleatório é simplesmente
somado à equação da reta:
𝒀𝒎é𝒅𝒊𝒂 = 𝒂 + 𝒃𝑿 + "𝒄𝒍𝒐𝒏𝒆"
𝒀𝒎é𝒅𝒊𝒂 = 𝒂𝒄𝒍𝒐𝒏𝒆 + 𝒃𝑿
Por isso, um modelo linear com um fator aleatório é chamado às vezes de modelo
de intercepto aleatório (random intercept model). Porém, o nome mais comum
para este tipo de modelo é modelo de efeitos mistos (mixed effects model) ou,
simplesmente, modelo misto (mixed model) (Laird & Ware 1982). Isto porque,
agora, temos dois tipos de efeito: o efeito do(s) nosso(s) preditor(es), que realmente
queremos testar (também chamados de efeitos fixos), e o efeito do(s) fator(res)
aleatório(s), que queremos apenas controlar para descontar a autocorrelação
(efeitos aleatórios). Como temos dois níveis de variabilidade (resíduos dentro e entre
grupos), às vezes também são chamados de modelos hierárquicos (hierarchical
models), modelos multiníveis (multilevel models), ou modelos de componentes
de variância (variance component models). Na literatura mais antiga, esse tipo de
modelo também era conhecido como ANOVA de medidas repetidas (repeated-
measures ANOVA), por geralmente ser usado em situações que temos várias
observações repetidas ao longo do tempo em diferentes indivíduos ou locais. Porém,
não se confunda: essencialmente, é tudo a mesma coisa!
108
Correlação intraclasse e simetria composta
Nosso exemplo usou “clones” para ilustrar um fator aleatório. Porém, qualquer tipo
de grupo ou categoria pode ser usado para capturar a similaridade entre unidades
do mesmo grupo, e controlar isto na análise. Nas ciências biológicas, as situações
mais comuns em que isso ocorre são quando temos pseudorrepetições temporais
(i.e. observações repetidas no mesmo local ao longo do tempo, em diferentes
locais), espaciais (i.e. observações repetidas em diferentes pontos de um mesmo
local, em diferentes locais) ou (filo)genéticas (p.ex. quando as unidades amostrais
são indivíduos agrupados em famílias, ou espécies agrupadas por clados) (figura
10.4). No nosso exemplo, “clone” pode ser entendido como representando
autocorrelação genética, já que indivíduos do mesmo clone são geneticamente
(quase) idênticos.
109
em qual das duas situações “clone” explica melhor a variação dos resíduos?
...Também na primeira, porque toda a variação ocorre entre clones, e nenhuma
dentro deles.
110
𝒏𝒈𝒓𝒖𝒑𝒐𝒔 ∗ 𝒏𝒅𝒆𝒏𝒕𝒓𝒐
𝑵𝒆𝒇𝒆𝒕𝒊𝒗𝒐 =
𝟏 + (𝒏𝒅𝒆𝒏𝒕𝒓𝒐 − 𝟏) ∗ 𝛒
A esta altura, não deve ser difícil perceber que seria muito útil combinar LMM e
GLM, i.e. flexibilizar o modelo linear misto para escolher qualquer distribuição para
os resíduos, criando um Modelo Linear Misto Generalizado (GLMM). Apesar de
intuitivo, a computação necessária para estimar parâmetros desse tipo de modelo é
complexa, e só se tornou viável nos anos 1990 (Breslow & Clayton 1993). Além
disso, o GLMM só se popularizou entre cientistas nos anos 2000, graças à
popularização dos computadores, de programas para sua aplicação, e da publicação
de guias mais acessível (e.g. Bolker et al. 2009, Harrison et al. 2018).
111
Um exemplo da utilidade do GLMM para responder questões complexas vem da
ecologia. Normalmente, dados de comunidades ecológicas consistem em uma
tabela onde cada linha representa um local, e cada coluna, a ocorrência/abundância
de uma espécie. Esses dados estão agrupados por local e, ao mesmo tempo, por
espécie (figura 10.6). Assim, faz sentido esperarmos autocorrelação entre
observações (i.e. células da tabela) tanto de um mesmo local (porque organismos
ocorrendo no mesmo lugar experimentam ambientes parecidos) quanto de uma
mesma espécie (porque organismos da mesma espécie compartilham
características).
112
Para entender exatamente como, vamos usar como exemplo palmeiras da tribo
Euterpeae, a tribo do açaí (Euterpe spp.) e outros gêneros proximamente
aparentados. Cinco espécies de palmeiras desta tribo ocorrem na Reserva Ducke,
em Manaus. São elas: Euterpre precatoria, Hyospathe elegans, Oenocarpus bacaba,
Oenocarpus bataua e Oenocarpus minor. Indivíduos destas cinco espécies foram
contados em 30 parcelas de 4 × 250 m, distantes pelo menos 1 km entre si. Assim,
temos 30 parcelas (linhas) × 5 espécies (colunas) = 150 contagens.
Figura 10.7: Relações entre abundância e teor de fósforo do solo em cinco espécies
de palmeiras na Reserva Ducke, Manaus, Brasil.
113
recortamos a coluna de uma espécie e a colamos abaixo da coluna da espécie
anterior: a segunda espécie vai abaixo da primeira, a terceira abaixo da segunda,
etc. Uma vez “empilhadas” as abundâncias de todas as espécies, criamos também
uma nova variável, “espécie”, que indica a qual espécie cada valor de abundância
pertence. Assim, passamos de uma tabela de 30 linhas × 5 colunas para uma de
150 linhas × 2 colunas, mais a coluna que identifica a parcela, mais a coluna com os
teores de fósforo de cada parcela (figura 10.8). Agora, podemos visualizar a
resposta global da comunidade de palmeiras Euterpeae ao teor de fósforo do solo,
em um único gráfico:
A princípio, poderíamos fazer uma regressão separada para cada espécie para
quantificar estas relações (figura 10.9). Porém, aí estaríamos falando de cada
espécie individualmente, não da comunidade como um todo!
114
Figura 10.9: Regressões entre abundância e teor de fósforo do solo para cinco
espécies de palmeiras da tribo Euterpeae na Reserva Ducke, Manaus, Brasil. Cada
ponto representa uma dada espécie em um dado local; cada cor representa uma
espécie.
Vamos começar inserindo “espécie” como fator aleatório: lembre-se que a resposta
da abundância ao fósforo varia entre espécies (figura 10.9). Logo, não faz sentido
considerarmos um único intercepto e uma única inclinação para todas as espécies.
Ao invés disso, podemos considerar que tanto o intercepto quanto a inclinação
variam aleatoriamente entre espécies – tal como já havíamos feito apenas com o
intercepto. Assim, haverá um intercepto global e uma inclinação global, mas cada
espécie poderá desviar deles para mais ou para menos, tendo seu próprio intercepto
e inclinação:
115
Agora que já adicionamos o efeito aleatório de “espécie”, vamos adicionar o efeito
aleatório de “local”. Este é fácil: basta indicar “local” como um intercepto aleatório,
agrupando observações da mesma parcela, tal como fizemos no exemplo dos
clones:
Como nossa variável dependente “abundância” é uma contagem, sabemos que seus
valores nunca podem ser negativos. Para garantir que nosso modelo não fará
predições sem sentido, podemos usar a função de ligação log, tal como fizemos nos
GLM para contagens:
Lembre-se também que, para cada fator aleatório, temos uma variância associada;
logo, neste exemplo, temos três variâncias (i.e. intercepto aleatório entre locais,
intercepto aleatório entre espécies, e inclinação entre espécies). Assim, nosso
modelo terá um intercepto + uma inclinação + k + três variâncias = 6 parâmetros
para estimar. Intuitivamente, quanto mais locais, melhor será nossa estimativa sobre
a variação entre eles; quanto mais espécies, melhor nossa estimativa sobre a
variação entre elas. Agora, sim: temos um GLMM!
GLMMs herdam todos os conceitos principais dos modelos mais simples que já
aprendemos. Podemos adicionar mais preditores, incluindo interações, por exemplo
entre características das espécies e variáveis ambientais para testar como a
resposta das espécies ao ambiente depende de suas características (figura 10.10;
116
Pequeno et al. 2021). Podemos incluir outros fatores aleatórios, p.ex. se nossas
parcelas forem espacialmente agregadas, ou se quisermos considerar o parentesco
entre espécies. Podemos usar qualquer distribuição para os resíduos, p.ex.
distribuição binomial, se tivermos apenas ocorrências. Podemos usar
transformações dos preditores para testar relações curvilíneas. Embora nosso
exemplo seja ecológico, a lógica é a mesma para qualquer outro problema
multivariado, i.e. várias variáveis dependentes que queremos explicar ou prever ao
mesmo tempo, como o tamanho de várias estruturas morfológicas de um organismo,
ou a concentração de vários compostos químicos, ou o nível de expressão de vários
genes... A criatividade é o limite!
117
Máxima Verossimilhança Restrita (REML) e Critérios de Informação
Para estimar a variação explicada pelo fator aleatório, temos primeiro que estimar o
efeito dos preditores, de modo a obter os resíduos. Por isso, os estatísticos
costumam usar uma adaptação do método de máxima verossimilhança para obter
estimativas dos parâmetros de modelos de efeitos mistos, conhecido como máxima
verossimilhança restrita (restricted maximum likelihood, REML). A “restrição”
refere-se aos efeitos dos preditores ou efeitos fixos, que são descontados primeiro
durante o processo de estimativa dos parâmetros. Quando a máxima
verossimilhança convencional é usada, a estimativa da variância dos efeitos
aleatórios é enviesada. Isso é importante porque Critérios de Informação para
seleção de modelos, como o AIC, são baseados na verossimilhança dos modelos,
não na verossimilhança restrita! Se você quiser aplicar Critério de Informação a
modelos com efeitos mistos, certifique-se primeiro de que os modelos incluem os
mesmos fatores aleatórios e que seus parâmetros foram estimados usando máxima
verossimilhança convencional, e só então calcule os Critérios (Zuur et al. 2009).
118
11. CONCLUSÃO: UM RESUMO BEM RESUMIDO
Antes de decidir qual a análise mais adequada para o seu caso, responda às
seguintes perguntas (a ordem delas é aproximada):
Por fim, esperamos ter convencido o leitor ou leitora de que a maioria das análises
estatísticas usadas na ciência se resume a uma mesma coisa: um modelo linear. Os
diferentes nomes dados a cada análise devem-se mais à história que à estatística
propriamente dita (Apêndice 1). Matematicamente, o que estamos fazendo em todas
essas análises é usar uma equação de soma para descrever como uma variável
resposta muda em função de uma ou mais variáveis preditoras, combinada a uma
distribuição estocástica que descreve como as observações variam em torno da
tendência. Conceitualmente, o que estamos fazendo – da correlação mais simples
ao GLMM mais complexo – é tão somente sumarizar nuvens de pontos com linhas
retas (ou com curvas que sejam retas em alguma outra escala).
Há vários desdobramentos dos modelos lineares que não abordamos aqui para
manter a concisão. Porém, estes desdobramentos podem ser úteis, e é bom saber
que eles existem. Por exemplo, podemos combinar vários modelos lineares para
testar simultaneamente e quantificar relações diretas e indiretas entre um conjunto
de variáveis, p.ex. variáveis de solo e de clima que afetam variáveis de vegetação
119
que afetam a abundância de um animal. Esta técnica é conhecida como análise de
caminhos (Wright 1921) ou, de forma, mais geral, modelo de equações
estruturais (Shipley 2016). Também podemos combinar distribuições estocásticas
em um mesmo modelo. Por exemplo, uma situação relativamente comum na
ecologia é uma grande proporção de zeros (> 90%) em dados de ocorrência ou
abundância de espécies. Assim, podemos combinar uma distribuição de Bernoulli a
uma distribuição de Poisson e criar um modelo inflado com zeros, a fim de
descrever o excesso de zeros em relação àqueles preditos pela distribuição de
Poisson (Zuur et al. 2009).
Outra situação relativamente comum é quando queremos medir a abundância de um
animal, mas a detecção dele é difícil porque ele se camufla, de modo que nossas
contagens são subestimativas cujo viés pode depender do ambiente (p.ex. detecção
mais fácil na vegetação aberta). Neste caso, podemos criar um modelo que
descreve a abundância observada em função de outros dois “submodelos”: um que
descreve a probabilidade de detecção (p.ex. GLM binomial), e outro que descreve a
abundância real (não observada) como se ela fosse um efeito aleatório, i.e. cada
abundância observada sofre um desvio “extra” em relação à média predita, que nos
diz o quanto seria a abundância real. Assim, podemos testar efeitos sobre a
abundância descontando a detecção imperfeita. Esses são chamados modelos de
espaço de estados (state-space models) ou de variáveis latentes (latente variable
models), e exigem delineamentos um pouco mais complexos. Ainda assim, são
apenas GLM(M)s “compostos”, i.e. modelos separados combinados de algum jeito
para descrever os dados de forma mais realista (Kéry & Royle 2016).
120
REFERÊNCIAS
Bolker, B.M. (2008). Ecological models and data in R. Princeton University Press.
Bolker, B.M., Brooks, M.E., Clarck, C.J., Geange, S.W., Poulsen, J.R., Stevens,
M.H.H., White, J.S.S. (2009). Generalized linear mixed models: a practical guide
for ecology and evolution. Trends in Ecology and Evolution, 24: 127–135.
Bosholn, M., Fecchio, A., Silveira, P., Braga, M.E., Anciães, M. (2016). Effects of
avian malaria on male behaviour and female visitation in lekking blue-crowned
manakins. Journal of Avian Biology, 47: 457-465.
Box, G. (1996). Scientific statistics, teaching, learning and the computer. Report
Series in Quality and Productivity. Report 146.
Castilho, C.V., Magnusson, W.E., Araujo, R.N.O., Luizão, R.C.C., Luizão, F.J. , Lima,
A.P. , Higuchi, N. (2006). Variation in aboveground tree live biomass in a central
Amazonian forest: effects of soil and topography. Forest Ecology and
Management, 234: 85–96.
Changizi, M. 2009. The vision revolution: how the latest research overturns
everything we thought we knew about human vision. Benbella Books.
121
Cohen, J., Cohen, P., West, S.G., Aiken, L.S. (2003). Applied multiple
regression/correlation analysis for the behavioral sciences. 3rd edition.
Lawrence Erbaum Associates.
Costa, F.R.C., Guillaumet, J.-L., Lima, A.P., Pereira, O.S. (2008). Gradients within
gradients: the mesoscale distribution patterns of palms in a central amazonian
forest. Journal of Vegetation Science, 20: 69–78.
De Freitas, C.G, Dambros, C., Eiserhardt, W.L.,Costa, F.R.C, Svenning, J., Balslev,
H. (2014). Phylogenetic structure of a palm community in the central Amazon:
changes along a hydro-edaphic gradient. Plant Ecology, 215: 1173–1185.
Fisher, R.A. (1922a). The goodness of fit of regression formulae, and the
distribution of regression coefficients. Journal of the Royal Statistical Society, 85:
597–612.
Friendly, M., Denis, D. (2005). The early origins and development of the
scatterplot. Journal of the History of the Behavioral Sciences, 41:103-130.
Gotelli, N.J., & Ellison, A.M. (2011). Princípios de estatística em ecologia. Artmed
Editora.
Gujarati, D.N., Porter, D.C. (2009). Basic econometrics. 5th edition. McGraw-Hill
Irwin.
Harrison et al. 2018. A brief introduction to mixed effects modelling and multi-
model inference in ecology. PeerJ, 6:e4794.
122
Kéry, M., Royle, J.A. (2016). Applied hierarchical modeling in ecology: analysis
of distribution, abundance and species richness in R and BUGS. Academic
Press.
Laird, N.M., Ware, J.H. (1982). Random-effects models for longitudinal data.
Biometrics, 38: 963–974.
Landeiro, V.L. & Baccaro, F.B. (2018). Apostila de introdução ao R. Versão 6.3.1.
Disponível em: https://sites.google.com/site/vllandeiror/
Larson-Hall, J. 2017. Moving beyond the bar plot and the line graph to create
informative and attractive graphics. The Modern Language Journal, 101:244-270.
Pequeno, P.A.C.L., Graça, M.B., Oliveira, J.R., Sobotník, J., Acioli, A.N.S. (2021).
Can shifts in metabolic scaling predict coevolution between diet quality and
body size? Evolution, 75:141–148.
Pequeno, P.A.C.L., Franklin, E., Norton, R.A. (2021). Modelling selection, drift,
dispersal and their interactions in the community assembly of Amazonian soil
mites. Oecologia.
Romiti, F., Tini, M., Redolfi De Zan, L., Chiari, S., Zauli, A., & Carpaneto, G.M.
(2015). Exaggerated allometric structures in relation to demographic and
123
ecological parameters in Lucanus cervus (Coleoptera: Lucanidae). Journal of
Morphology, 276: 1193–1204.
Schietti, J., Emilio, T., Rennó, C.D., Drucker, D.P., Costa, F.R.C, Nogueira,
A., Baccaro, F.B., Figueiredo, F., Castilho, C.V., Kinupp, V., Guillaumet, J-L., Garcia,
A. R.M., Lima, A.P., Magnusson, W.E. (2013). Vertical distance from drainage
drives floristic composition changes in an Amazonian rainforest. Plant Ecology
& Diversity. 7: 241–253.
Sobroza, T.V., Gordo, M., Pequeno, P.A.C.L., Dunn, J.C., Spironello, W.R., Rabelo,
R.M., Barnett, A.P.A. (2021). Convergent character displacement in sympatric
tamarin calls (Saguinus spp.). Behavioral Ecology and Sociobiology, 75:1–13.
Stein, C.J., Colditz, G.A. (2004). Modifiable risk factors for cancer. British Journal
of Cancer, 90:299-303.
Wilks, S.S. (1938). The large-sample distribution of the likelihood ratio for
testing composite hypotheses. The Annals of Mathematical Statistics, 9: 60–62.
Zuur, A.F., leno, E.N ,Walker, N.J , Saveliev, A.A., Smith, G.M. (2009). Mixed
effects models and extensions in ecology with R. Springer.
124
APÊNDICE 1: Linha do tempo dos modelos lineares
125
APÊNDICE 2: Principais modelos lineares, por seus nomes tradicionais
Nome tradicional Variável Variável independente Função de Distribuição Resíduos Resíduos independentes?
dependente (X) ligação dos resíduos homocedásticos?
(Y) canônica
ANOVA de medidas repetidas Quantitativa Três ou mais categorias Identidade Normal Sim Não; autocorrelação dada
ou aninhada (nested) por fatores aleatórios
Regressão logística Binária (0/1) Quantitativa e/ou Logit Binomial Não Sim
categórica
Regressão multinomial Três ou mais Quantitativa e/ou Logit Multinomial Não Sim
categorias categórica
Modelo Linear Generalizado Quantitativa ou Quantitativa e/ou Várias (identidade, Várias (normal, binomial, Geralmente não Sim
(GLM) categórica categórica logit, log, etc.) Poisson, etc.) (depende da
distribuição)
Modelo Linear Misto (ou de Quantitativa Quantitativa e/ou Identidade Normal Sim Não; autocorrelação dada
Efeitos Mistos) (LMM) categórica por fatores aleatórios
Modelo Linear Misto Quantitativa ou Quantitativa e/ou Várias (identidade, Várias (normal, binomial, Geralmente não Não; autocorrelação dada
Generalizado (GLMM) categórica categórica logit, log, etc.) Poisson, etc.) (depende da por fatores aleatórios
distribuição)
Obs.: note como cada nome diferente na verdade representa um caso particular de um GLM, que neste esquema é o modelo mais geral de todos.
126
APÊNDICE 3: Principais distribuições estocásticas
Poisson Contagens 0,+∞ Lambda (média= Número de organismos por Os organismos apresentam uma distribuição
variância) m² espacial aleatória
Binomial Contagens 0,+∞ média, Número de organismos por Os organismos apresentam uma distribuição
negativa k (tamanho da m² espacial agregada
agregação)
Gama Valores contínuos >0 , + ∞ Forma (shape) e Densidades, concentrações A distribuição de Tweedie não é da família
escala (scale) e taxas em geral exponencial, mas é similar e inclui zeros.
Binomial ou Presença ou 0,1 Probabilidade, Ocorrência de um Quando há apenas uma repetição, chamamos
ausência, número de organismo, prevalência de de distribuição de Bernoulli. Outra distribuição
Bernoulli
proporção repetições um organismo, proporção de específica para proporções, mas que não é da
organismos com uma dada família exponencial, é a distribuição Beta.
característica
127