Modelos - Lineares Versao3.6

Você também pode gostar

Você está na página 1de 128

See discussions, stats, and author profiles for this publication at: https://www.researchgate.

net/publication/360792016

Modelos Lineares: Conceitos & Aplicações Biológicas

Method · January 2020


DOI: 10.13140/RG.2.2.21835.05921

CITATIONS READ

0 1

3 authors:

Mariane Bosholn Pedro Pequeno


Universidade Federal de Roraima (UFRR) Universidade Federal de Roraima (UFRR)
12 PUBLICATIONS 167 CITATIONS 40 PUBLICATIONS 377 CITATIONS

SEE PROFILE SEE PROFILE

Tainara V. Sobroza

11 PUBLICATIONS 32 CITATIONS

SEE PROFILE

Some of the authors of this publication are also working on these related projects:

PPBio/CENBAM View project

Animal Behavior training View project

All content following this page was uploaded by Mariane Bosholn on 23 May 2022.

The user has requested enhancement of the downloaded file.


Modelos Lineares
Conceitos & Aplicações Biológicas
Versão 3.6

Mariane Bosholn
Pedro Aurélio Costa Lima Pequeno
Tainara Venturini Sobroza

1
MODELOS LINEARES:
CONCEITOS E APLICAÇÕES BIOLÓGICAS
Versão 3.6

Mariane Bosholn
Pedro Aurélio Costa Lima Pequeno
Tainara Venturini Sobroza

Julho de 2021

2
Sumário

APRESENTAÇÃO 6
SOBRE OS DADOS E IMAGENS UTILIZADOS AO LONGO DA APOSTILA 7
1. INTRODUÇÃO: CIÊNCIA, ESTATÍSTICA E O MODELO LINEAR 8
O método científico: testando relações entre variáveis 9
Medindo variabilidade: soma dos quadrados, variância e desvio padrão 15
Medindo variação conjunta entre variáveis: covariância e correlação 18
Comparando variabilidade entre variáveis em escalas muito diferentes 21
2. INFERÊNCIA ESTATÍSTICA 22
Medindo incerteza 22
Teste de hipótese nula e valor de P 23
Intervalo de confiança 27
Estatísticas: um atalho para medir incerteza 29
A origem da estatística t: uma antiga história sobre cervejas 30
Inferência frequentista e outras formas de inferência 32
3. REGRESSÃO 34
Método dos Mínimos Quadrados 34
Estimando a dispersão dos pontos: coeficiente de determinação (r²) 38
Graus de liberdade 40
De quantas observações eu preciso? 41
Por que “regressão”? Uma antiga história sobre gigantes e anões 42
Equivalência entre regressão, correlação e covariância 44
4. RELAÇÕES CURVILÍNEAS 46
Alometria e função de potência 46
Linearizando funções não lineares: logaritmos 48
Outras funções lineares que descrevem curvas 50
Relações não monotônicas: parábola e curva gaussiana 51
5. REGRESSÃO MÚLTIPLA 54
O problema da correlação entre preditores 54
Combinando regressões em uma só: regressão múltipla 55
Interação entre preditores 58
6. PREDITORES CATEGÓRICOS 61
Representando nomes com números 61
Preditor com apenas duas categorias: teste t 61
Preditor com três categorias ou mais: ANOVA e ANCOVA 63

3
Modelo Linear Geral: vários nomes, o mesmo método 65
7. PROPRIEDADES DO MODELO LINEAR GERAL 67
Criando modelos estocásticos 67
A distribuição normal ou gaussiana 67
Viés e precisão das estimativas 70
Pressupostos e robustez do Modelo Linear Geral 72
Efeitos do tamanho da amostra, ruído, multicolinearidade e número de parâmetros 73
8. MODELOS LINEARES GENERALIZADOS (GLM) 79
Desvios de normalidade 79
Distribuição de Poisson 80
Máxima verossimilhança 84
Razão de verossimilhanças, desviância e pseudo-R² 89
Distribuição binomial negativa 92
Distribuição gama 95
Distribuição de Bernoulli (ou binomial) 96
A família exponencial 98
Que distribuição eu devo usar? 99
9. SELEÇÃO DE MODELOS 100
Poder de explicação vs. parcimônia 100
Critérios de Informação de Akaike (AIC) e de Schwarz/bayesiano (SIC ou BIC) 101
10. MODELOS LINEARES (DE EFEITOS) MISTOS 104
Autocorrelação 104
Efeitos aleatórios e fator aleatório 106
Correlação intraclasse e simetria composta 109
Fatores aleatórios aninhados 111
Modelo Linear Misto Generalizado (GLMM) 111
Máxima Verossimilhança Restrita (REML) e Critérios de Informação 118
Uma nota sobre fatores aleatórios 118
11. CONCLUSÃO: UM RESUMO BEM RESUMIDO 119
REFERÊNCIAS 121
APÊNDICE 1: Linha do tempo dos modelos lineares 125
APÊNDICE 2: Principais modelos lineares, por seus nomes tradicionais 126
APÊNDICE 3: Principais distribuições estocásticas 127

4
SOBRE OS AUTORES

Esta apostila foi desenvolvida por uma discente e dois ex-discentes do Programa de
Pós-graduação em Ecologia do Instituto Nacional de Pesquisas da Amazônia
(INPA). Os três autores colaboraram igualmente na produção da obra.

Mariane Bosholn
Bacharela e Licenciada em Ciências Biológicas, é Mestra e Doutora em Biologia
(Ecologia) pelo Instituto Nacional de Pesquisas da Amazônia. Atualmente, atua
como professora substituta na Universidade Federal de Roraima (UFRR). Tem
experiência em ecologia, comportamento e fisiologia animal, estatística, e em
programação na linguagem computacional R.

Currículo Lattes: http://lattes.cnpq.br/8102271563187887

Pedro Aurélio Costa Lima Pequeno


Bacharel em Ciências Biológicas formado pela Universidade Federal do Amazonas
(UFAM), é Mestre e Doutor em Biologia (Ecologia) pelo Instituto Nacional de
Pesquisas da Amazônia. Atualmente, é professor visitante na Universidade Federal
de Roraima (UFRR). Tem experiência em ecologia, biologia evolutiva, comunicação
científica, estatística e delineamento amostral, e em programação na linguagem
computacional R.
Currículo Lattes: http://lattes.cnpq.br/7013126109041225

Tainara Venturini Sobroza


Bacharela em Ciências Biólogicas formada pela Universidade Federal de Santa
Maria (UFSM), e Mestra em Biologia (Ecologia) pelo Instituto Nacional de Pesquisas
da Amazônia. Atualmente, é doutoranda em Biologia (Ecologia) no mesmo instituto.
Tem experiência em ecologia de vertebrados, comportamento animal, com ênfase
em bioacústica, estatística, e em programação na linguagem computacional R.

Currículo Lattes: http://lattes.cnpq.br/5061460882816513

5
APRESENTAÇÃO

Esta apostila nasceu como material de apoio à disciplina de “Modelos Lineares”,


oferecida através do Programa de Pós-graduação em Ecologia do Instituto Nacional
de Pesquisas da Amazônia (INPA) a partir de 2018. O objetivo da disciplina é
oferecer uma visão clara e unificada dos principais conceitos envolvidos no uso de
modelos lineares – teste t, ANOVA, ANCOVA, regressão, GLM(M) e suas variações
– para responder questões científicas.

O objetivo da apostila é demonstrar que os aparentemente infinitos métodos de


análise estatística são, essencialmente, apenas um: um modelo linear. Isto é, um
modelo que usa uma linha (geralmente reta) para sumarizar uma nuvem de pontos
que reflete a relação entre duas (ou mais) variáveis. Nossa experiência é que essa
compreensão ajuda a organizar a confusão na qual a maioria dos estudantes sem
formação nas chamadas “ciências exatas” se perde ao tentar aprender estatística,
facilitando sua aplicação consciente. Nossa visão é que, assim como ninguém
precisa ser engenheiro para dirigir um veículo ou usar um computador, ninguém
precisa ser matemático para ser capaz de usar estatística para responder questões
de seu interesse. Usamos pouca matemática, e assumimos familiaridade apenas
com as quatro operações básicas. Em contraste, usamos muitas figuras (70 figuras)
para facilitar a comunicação.

Esta NÃO É uma apostila sobre delineamento amostral ou programação estatística.


Portanto, não oferecemos códigos de programação ou resultados de programas
estatísticos. Porém, há boas apostilas gratuitas sobre programação (p.ex. Landeiro
& Baccaro 2018), além de vários livros em linguagem acessível sobre delineamento
amostral (Magnusson et al. 2015) e modelos lineares (p.ex. Cohen et al. 2003,
Bolker 2008, Gujarati & Porter 2009, Gotelli & Ellison 2011), inclusive com tutoriais
para usar no computador (p.ex. Zuur et al. 2009, Kéry & Royle 2016, Krushke 2016).

A apostila é um projeto em construção. Fique atento para novas versões!

Em caso de dúvidas/sugestões, escreva para os autores:

Mariane Bosholn: bosholn.m@gmail.com

Tainara V. Sobroza: tv.sobroza@gmail.com

Pedro A. C. L. Pequeno: pacolipe@gmail.com

Bons estudos!

6
SOBRE OS DADOS E IMAGENS UTILIZADOS AO LONGO DA APOSTILA

A fim de enfatizar o valor prático dos métodos discutidos nesta apostila, nós usamos
dados reais para ilustrar vários conceitos. Em particular, três conjuntos de dados são
usados:

1) Biomassa de palmeiras em uma floresta na Amazônia. Estes dados


compreendem estimativas de biomassa acima do solo de palmeiras em 30 parcelas
de 1 hectare situadas na Reserva Ducke, Manaus, AM. Os dados estão disponíveis
como apêndice em Castilho et al. (2006). Nós agradecemos à gentileza dos autores
pelo compartilhamento dos dados.

2) Abundâncias de palmeiras da tribo Euterpeae na Amazônia. Estes dados


consistem em contagens de cinco espécies desta tribo em 30 parcelas de 250 x 4 m
situadas na Reserva Ducke, Manaus, AM. Os dados já foram usados em
publicações (p.ex. Costa et al. 2008, Schietti et al. 2013, de Freitas et al. 2014) e
estão disponíveis no repositório de dados do Programa de Pesquisas em
Biodiversidade (https://ppbio.inpa.gov.br/repositorio/dados), com o título:

Jean Louis Guillaumet, Albertina Lima, and Flávia Costa. Composição da


comunidade de palmeiras da Reserva Ducke. Programa de Pesquisa em
Biodiversidade (PPBio).

Nós agradecemos à gentileza dos autores pelo compartilhamento dos dados.

3) Dados de altura de pais e filhos. Estes dados foram usados originalmente no


trabalho clássico de Francis Galton (1886) sobre a herança da estatura em
humanos, e compreendem as alturas de 889 pessoas e de seus respectivos pais. Os
dados são de domínio público, e podem ser facilmente encontrados na internet.

Todas as imagens (gráficos, figuras e fotografias) usadas nesta apostila foram


geradas pelos autores, cedidas para uso, ou são livres para uso não comercial.

7
1. INTRODUÇÃO: CIÊNCIA, ESTATÍSTICA E O MODELO LINEAR

O que chamamos hoje de “estatística” nasceu na virada do século XIX para o XX, e
só se popularizou depois da Segunda Guerra Mundial, a partir dos anos 1950.
Interessantemente, ela não foi criada por matemáticos puristas brincando com
fórmulas estranhas. Pelo contrário, ela foi criada por pessoas tentando responder
perguntas muito concretas sobre o mundo real, com a menor incerteza possível.
Grande parte dessas perguntas era sobre biologia, em particular sobre evolução.
Assim, os primeiros estatísticos modernos ou eram primariamente biólogos, como
Francis Galton (primo de Charles Darwin), Raphael Weldon e Sewall Wright, ou
pessoas com outras formações tentando resolver problemas biológicos, como a
enfermeira Florence Nightingale, o químico William Gosset, e os matemáticos Karl
Pearson, Ronald Fisher e Jerzy Neyman. Para Pearson (1892), considerado por
muitos o pai da estatística moderna, “a estatística é a gramática da ciência”.

Mais tarde, percebeu-se que o que pareciam ser diferentes métodos, criados em
diferentes contextos por pessoas diferentes, na verdade eram essencialmente a
mesma coisa: um “modelo linear”. Por isso, aprender sobre modelos lineares é
aprender a própria estatística. Ao mesmo tempo, aprender estatística só faz sentido
quando entendemos o método científico, porque ela foi criada pela e para a ciência.
Por sua vez, o método científico só faz sentido quando temos uma pergunta
concreta que queremos responder.

A seguir, resumimos como o método científico permite responder perguntas sobre o


mundo. Caso o(a) leitor(a) esteja confortável com este tema, talvez queira pular esta
seção e ir direto para o tópico “Medindo variabilidade” (página 15).

8
O método científico: testando relações entre variáveis

Por que pessoas têm alturas diferentes? Podemos pensar em diferentes respostas
possíveis, p.ex. por causa do sexo, da “genética” ou por causas nutricionais. Todas
essas características variam entre pessoas, por isso são chamadas de variáveis. Já
as possíveis respostas para a pergunta (p.ex. “por causa do sexo”), são chamadas
de hipóteses. Como testar se nossas hipóteses fazem sentido?

A primeira coisa que precisamos saber é como medir as variáveis que refletem
nossa pergunta. Se nossa pergunta trata de características de pessoas, então
devemos medir as variáveis em pessoas. Nesse caso, as pessoas serão a nossa
unidade amostral. Em suma, unidade amostral é a coisa, lugar ou momento no qual
medimos nossas variáveis. Mas voltando ao nosso exemplo, como mensurar as
características de pessoas? É fácil medir a altura de uma pessoa com uma trena ou
fita métrica. Medir o sexo de uma pessoa também é relativamente simples: podemos
classificar a pessoa como sendo do sexo masculino ou feminino (não confundir com
gênero). Agora, como se mede “genética”? Aparentemente, é mais difícil medir essa
variável. No entanto, intuitivamente, se altura tem um componente genético (i.e. é
uma característica herdável), então filhos(os) deveriam parecer com seus pais, de
modo que pais mais altos deveriam ter filhos mais altos (e vice-versa). Assim, altura
dos pais (p.ex. média do pai e da mãe) seria uma variável fácil de se medir.

A segunda coisa que precisamos saber é desenhar como achamos que as


variáveis da nossa pergunta se relacionam. Isso permite comunicar
explicitamente nossas hipóteses, e garante que nós realmente entendemos nossa
pergunta e nossas hipóteses. Enquanto não formos capazes de desenhar isso,
corremos o risco de confundir tanto a nós mesmos quanto aos outros. A forma mais
simples de desenhar isso é através de fluxogramas, onde escrevemos os nomes
das variáveis (com suas unidades de medida) e indicamos as relações que
esperamos entre elas usando setas (cada seta saindo da variável que esperamos
causar o efeito e indo para a variável que esperamos sofrer o efeito) (figura 1.1).

9
Figura 1.1. Fluxograma mostrando efeitos hipotéticos do sexo e da altura média dos
pais sobre a altura de uma pessoa.

A terceira coisa que precisamos saber é com que generalidade queremos


responder nossa pergunta. Queremos saber se o sexo afeta a altura em pessoas
do nosso bairro, da nossa cidade, do Brasil ou do mundo inteiro? Saber isso é
importante porque irá determinar onde vamos coletar os dados: se queremos falar
das pessoas da cidade, precisamos coletar dados de pessoas da cidade. O que
esses dados nos dirão sobre o Brasil? Nada, já que não teremos dados de pessoas
do resto do país! Queremos falar do Brasil? Então precisaremos de dados de
pessoas de todo o Brasil. Esse conjunto maior de unidades amostrais sobre as quais
queremos generalizar é chamado universo amostral. Estatísticos também chamam
universo amostral de população estatística ou simplesmente população, mas para
a maioria das pessoas “população” é um grupo de pessoas ou indivíduos, e o
universo amostral pode ser um grupo de qualquer coisa (p.ex. indivíduos, lugares ou
momentos). Por isso, nesta apostila, usaremos universo amostral. A princípio,
podemos coletar dados de todas as unidades amostrais que compõem o universo
amostral, mas geralmente ele é tão grande (p.ex. 150 milhões de pessoas adultas
no Brasil) que só conseguimos coletar uma pequena parte dele. Essa parte,
chamamos amostra. Tome cuidado para não confundir “amostra” com “unidade

10
amostral”. Amostra é o conjunto coletado de unidades amostrais, que por sua vez
trata-se de uma única unidade onde obtivemos nossas medidas.

A quantidade de unidades amostrais (tamanho da amostra) e a forma com que as


coletamos determina quanta informação conseguimos extrair da amostra e, assim, o
quanto conseguimos generalizar sobre o universo amostral (mais detalhes no
capítulo 2). Tendo refletido sobre a melhor forma de fazer isso, agora (e só agora)
podemos de fato medir as variáveis de interesse para responder nossa pergunta.
Por exemplo, se queremos saber se o sexo afeta a altura das pessoas da nossa
cidade, podemos dar uma volta pela cidade, perguntando para diferentes pessoas
qual sua altura e seu sexo, e anotando as respostas. A forma mais simples e eficaz
de registar nossos dados é usando uma tabela onde cada linha representa uma
unidade amostral, e cada coluna representa uma variável (tabela 1).

Tabela 1: Modelo de tabela a ser usada durante a coleta de dados. Cada linha
representa uma unidade amostral e cada coluna representa uma variável.

Pessoa Sexo Altura (cm)

1 Masculino 1,78

2 Feminino 1,68

3 Feminino 1,59

etc. etc. etc.

Agora que temos os dados, podemos finalmente testar se o sexo afeta a altura.
Como? Usando um gráfico. Um gráfico nada mais é que uma resposta visual para
uma pergunta. Gráficos são úteis porque a evolução do cérebro humano reflete em
grande parte adaptações para a visão, e somos muito bons em detectar padrões em
imagens (Box 1996; Changizi 2009). Os gráficos mais úteis são aqueles que
mostram dados, pois isso permite que usemos dados do mundo real para responder
nossas perguntas, ou seja, determinar se nossas hipóteses fazem sentido ou não.

11
Pode parecer que existem muitos tipos de gráfico (p.ex. gráficos de linhas, de
barras, de caixas), mas na verdade só existe um tipo de gráfico de dados: o gráfico
de pontos, também chamado diagrama de dispersão (scatterplot). Neste gráfico,
as variáveis são representadas nos eixos, enquanto as unidades amostrais (neste
caso, pessoas) são representadas por pontos dentro do gráfico (um ponto para cada
pessoa; figura 1.2). Por convenção, chamamos a variável que queremos explicar de
variável dependente ou resposta (Y), e a colocamos no eixo vertical. Já a variável
que esperamos causar o feito, chamamos de variável independente ou preditora
(X), e a colocamos no eixo horizontal.

Figura 1.2. Gráfico de pontos para responder à pergunta “sexo afeta a altura?”, com
base em uma amostra de oito unidades amostrais (neste caso, pessoas). Cada
ponto no gráfico representa uma unidade amostral, ou seja, uma pessoa.

12
O gráfico de pontos é o melhor gráfico de dados disponível em termos de
simplicidade, clareza e flexibilidade (Friendly & Denis 2005), e há um movimento na
ciência no sentido de abandonar gráficos que não mostram dados, mas sumários
dos dados na forma de barras, caixas ou linhas. Esses gráficos escondem os dados
e, assim, necessariamente têm menos informação (Larson-Hall 2017).

De posse do gráfico, podemos responder: o sexo afeta a altura? Parece que sim, já
que os pontos representando pessoas do sexo masculino tendem a ter alturas
maiores (mais acima ao longo do eixo vertical) que pessoas do sexo feminino. Isto
quer dizer que pessoas do sexo feminino não possam ser mais altas que pessoas do
sexo masculino? Certamente não. Mas quando procuramos relações entre variáveis,
não estamos olhando o que acontece com uma ou outra pessoa em particular, mas
sim o que ocorre com a maioria, ou a tendência. Claramente, a maioria dos
homens na nossa amostra é mais alta que a maioria das mulheres.

Chegando à nossa resposta (homens tendem a ser mais altos que mulheres),
podemos julgar se isso apoia nossa hipótese ou expectativa. Mas sempre que
respondemos uma pergunta, criamos outra. Por exemplo: por que pessoas do
mesmo sexo têm alturas diferentes, de modo que às vezes uma mulher pode ser
bem mais alta que um homem (figura 1.2)? Talvez isto reflita a altura dos pais da
pessoa (figura 1.1), ou qualquer outro fator que possa afetar a altura. E se os pontos
estivessem igualmente espalhados nos dois sexos, de modo que não
conseguíssemos notar nenhuma tendência óbvia? Então teríamos refutado nossa
hipótese. Neste caso, hora de procurar uma hipótese melhor – uma que consiga
prever a relação observada. É esta capacidade de antever os resultados (e não os
resultados em si) que, entre outras coisas, nos dá segurança de que nossa hipótese
faz sentido. Se não temos hipóteses, é difícil interpretar o resultado, e fácil nos
perdermos em especulações. E é este processo todo, desde a pergunta até o teste
da hipótese usando o gráfico, que chamamos de ciência ou método científico
(figura 1.3).

13
Figura 1.3. Etapas do método científico.

O exemplo sobre altura de pessoas de diferentes sexos ilustra duas coisas.


Primeiro, ciência e estatística são inseparáveis, porque a estatística nasceu da
ciência. Estatística NÃO é matemática: a matemática é apenas uma linguagem útil
para aplicar conceitos estatísticos, cujo objetivo é responder perguntas científicas
com a menor incerteza possível (Box 1996; Cohen et al. 2003). Segundo, o que se
costuma chamar de “análise estatística” é uma parte pequena de todo o processo.
Todo o resto – definir a pergunta, a(s) hipótese(s), as variáveis que refletem a
pergunta, a unidade amostral, o universo amostral, e como a amostra será coletada
– é o delineamento amostral. As habilidades de saber montar um delineamento e
interpretar gráficos são muito mais importantes para usar estatística que saber a
matemática das análises. Você sempre pode usar análises diferentes com os
mesmos dados, mas se os dados forem ruins – se não permitirem responder à
pergunta –, não há mágica que resolva; só coletando tudo de novo! A única forma de
evitar isso é garantir que você seguiu o método científico (figura 1.3).

Tendo dados úteis, aí sim entram os modelos lineares, o tema principal desta
apostila: eles simplesmente medem a força e a forma da relação (ou relações) entre
variáveis, assim como o tamanho da incerteza associada às relações (discutiremos
mais sobre isso nos próximos capítulos). Isso é importante porque toda amostra

14
necessariamente tem menos informação que o universo amostral sobre o qual
queremos generalizar. O que garante que, se coletássemos outra amostra, veríamos
exatamente o mesmo resultado? Nada! Por isso, precisamos de uma medida do
quanto podemos confiar que as relações vistas na amostra são generalizáveis para
o universo do qual queremos falar. Felizmente, a teoria estatística nos dá formas
simples de fazer isso: a inferência estatística.

E para que serve tudo isso? Determinar relações entre variáveis é útil porque
permite explicar, predizer e controlar fenômenos naturais. No nosso exemplo,
podemos usar o sexo para explicar, em parte, porque pessoas diferem em altura.
Também podemos prever a altura aproximada de um humano simplesmente
sabendo seu sexo (p.ex. altura média). Outro exemplo: sabemos que existe uma
relação entre o risco de ter câncer e vários hábitos, como fumar, consumir álcool, ser
sedentário ou comer carne vermelha (Stein & Colditz 2004). Por isso, podemos
prever que quanto mais temos esses hábitos, maior a chance de termos câncer.
Logo, a forma mais simples de controlar o risco de câncer é reduzir esses hábitos.
Ao testar possíveis relações com dados, podemos discriminar entre quais relações
fazem sentido e quais não fazem, usar as primeiras e descartar as últimas. Assim, a
ciência (através da estatística) nos permite fazer um “controle de qualidade” das
nossas crenças – e corrigi-las, quando necessário.

Mas como se mede uma relação entre variáveis? Para sabermos o quanto duas
variáveis mudam juntas (i. e. quanta variabilidade é compartilhada entre variáveis),
precisamos primeiro de uma forma de medir variabilidade propriamente dita – ou
seja, o quão diferentes os valores de uma variável são.

Medindo variabilidade: soma dos quadrados, variância e desvio padrão

Pense nisso: queremos saber como o sexo afeta a altura em seres humanos. Como
vimos, podemos medir a altura de várias pessoas, anotar seu sexo biológico
(masculino ou feminino), e visualizar a relação com um gráfico onde as variáveis são
representadas nos eixos, e as pessoas, como pontos (um ponto para cada pessoa;
figura 1.4). Por convenção, chamamos a variável que queremos explicar de variável

15
dependente ou resposta (Y), e a variável que esperamos causar o feito de variável
independente ou preditora (X).

No exemplo abaixo (Figura 1.4), a altura é a variável dependente (Y) enquanto o


sexo é a variável independente (X). Considerando essa mesma figura, em qual dos
sexos há uma maior variação da altura?

Figura 1.4. Variação da altura entre sexos. Cada ponto representa uma pessoa. A
linha horizontal representa a média.

Podemos dizer que a altura de indivíduos do sexo masculino é mais variável que do
sexo feminino, porque os valores da altura são mais diferentes entre si. Uma forma
simples de medir a variabilidade desse gráfico seria somar as distâncias de cada
ponto até a média. Assim, teremos um número que será maior quanto mais
diferentes os valores forem da média. No entanto, se fizermos isto, valores acima da
média serão positivos, e abaixo da média, negativos (figura 1.5, letra a). Ao somar
valores negativos e positivos, eles se anularão! Para eliminar os valores negativos e
medir a variabilidade, podemos elevar os desvios ao quadrado, e então somar.
Como qualquer número elevado ao quadrado é positivo, isto garante que só
somaremos valores positivos e que os desvios não se anularão (figura 1.5, letra b).
A soma dos desvios elevados ao quadrado é conhecida como soma dos
quadrados (Sum of Squares, SS). Se dividirmos a soma dos quadrados pelo

16
número de observações, teremos o desvio quadrado médio, mais conhecido como
variância (figura 1.5, letra c).

Uma desvantagem da soma dos quadrados ou variância para medir variabilidade é


que, como os desvios são elevados ao quadrado, a unidade de medida da nossa
variável Y também é elevada ao quadrado. Por exemplo, como a variável Y da figura
1.4 e 1.5 é a altura (m), os desvios estarão em m². Normalmente, queremos falar da
nossa variável na escala original, não na escala ao quadrado. Para voltar à escala
original, precisamos tirar a raiz quadrada. A raiz quadrada da variância é
denominada desvio padrão (Standard Deviation, SD) (Figura 1.5, letra d).

Figura 1.5. Medidas de variabilidade (soma dos quadrados, variância e desvio


padrão) baseadas no desvio de cada observação em relação à média. (A) Figura
ilustrando as distâncias de cada unidade amostral até a média, representada pela
linha horizontal preta. Em rosa, as distâncias femininas e, em azul, as masculinas;
(B) Cálculo da soma dos quadrados (SS); (C) Cálculo da variância (var); (D) Cálculo
do desvio padrão (SD).

A soma dos quadrados (SS), variância (var) e desvio padrão (SD) são diferentes
maneiras de medir a mesma coisa, a variação: quanto maior a soma das quadrados,
maior a variância, e maior o desvio padrão. Porém o SD é mais comumente usado,
pois representa a escala original dos dados, enquanto a SS e a variância são
baseadas nos desvios elevados ao quadrado. O desvio padrão mede

17
aproximadamente o quanto os pontos desviam da média, em média. Por exemplo,
se ao medimos a altura de várias pessoas o desvio padrão for 10 cm, então em
geral as pessoas desviam (aproximadamente) 10 cm da altura média.

Medindo variação conjunta entre variáveis: covariância e correlação


Geralmente queremos entender a relação entre variáveis diferentes e, portanto, a
variação conjunta das variáveis. Isto é, o quanto elas mudam juntas. Como vimos,
podemos usar um gráfico cujos eixos representam as variáveis (Y, eixo vertical; X,
eixo horizontal), e cada observação é representada por um ponto. Em um gráfico
como este, cada ponto apresenta desvios tanto em relação à média do eixo X
(Figura 1.6, letra a), quanto em relação à média do eixo Y (Figura 1.6, letra b). Uma
forma de sumarizar a variação conjunta de duas variáveis é através do produto dos
desvios de x e y, o que é chamado de produto cruzado.

Figura 1.6. Produto cruzado entre duas variáveis. Cada observação (ponto) tem um
desvio em relação à média de X (letra a) e Y (letra b). Se multiplicarmos os dois
desvios de cada ponto (letra c), e depois realizarmos o seu somatório, teremos um
valor que reflete o quanto esta observação muda no mesmo sentido ao longo das
duas variáveis: quanto maiores os dois desvios, maior será o produto. Agora, se um
desvio for grande, mas o outro for pequeno, significa que as duas variáveis não
estão mudando juntas, e o produto entre desvios será pequeno.

18
Podemos sumarizar os produtos cruzados entre duas variáveis calculando sua
média, conhecida como covariância. Quando duas variáveis variam conjuntamente
(i.e. uma aumenta e a outra aumenta junto, ou uma aumenta e a outra diminui), o
valor da covariância tende a ser grande. Por outro lado, quando as variáveis variam
independentemente uma da outra, o valor tende a ser pequeno.

Uma limitação da covariância é que, muitas vezes, usamos variáveis em escalas de


variação diferentes. Por exemplo, em uma análise sobre a relação entre abundância
de uma espécie (variável resposta) e a altitude (variável preditora), a unidade de
uma das variáveis é indivíduo (i.e. uma contagem), enquanto a outra é metro. Logo,
a unidade da covariância é... indivíduos × metro! Para a maioria das pessoas, isto
não é muito intuitivo. Como colocar variáveis medidas em escalas diferentes em uma
mesma escala?

Uma solução é dividir o desvio de cada observação pelo desvio padrão, um


procedimento às vezes chamado de “transformação z”, ou simplesmente de
padronização. A ideia é simples: como a unidade dos desvios é a mesma unidade
do desvio padrão, ao dividirmos os primeiros pelo segundo, as unidades se
cancelam, colocando quaisquer variáveis na mesma escala... A escala dos desvios
padrões (figura 1.7).

Figura 1.7. Colocando variáveis medidas em escalas diferentes na mesma escala.


Se dividirmos os desvios das observações pelo desvio padrão da variável,
automaticamente os valores passam para a mesma escala: a escala dos desvios
padrões. Isto ocorre porque dividimos a unidade original pela unidade do desvio
padrão (que é a mesma unidade original da variável). Logo, as duas unidades se
cancelam. Note que, após esta padronização, as variáveis passam a ter média 0;
valores maiores que a média, passam a ser positivos, e menores, negativos.

19
Nesta escala, toda e qualquer variável tem média igual à zero, e desvio padrão =
variância = um (porque 1² = 1!). A vantagem é que, ao fazermos isso, a covariância
passa a variar em uma escala padronizada de -1 a +1, e fica mais fácil falar o quanto
duas variáveis mudam juntas, em termos relativos: quanto mais r se aproxima de 1
(positivo ou negativo), mais forte a relação entre as variáveis; quanto mais próximo
de 0, mais fraca a relação. A covariância padronizada pelos desvios padrões é
conhecida como correlação de Pearson, correlação do momento do produto, ou
simplesmente correlação (r). O primeiro nome é uma homenagem a Karl Pearson
(1857-1936), um grande estatístico inglês que popularizou várias coisas usadas até
hoje, como a própria correlação e o desvio padrão. Curiosamente, porém, a fórmula
da correlação foi publicada primeiramente em 1844, pelo físico francês Auguste
Bravais (1811-1863). Já “momento do produto” é um jargão técnico: “momento” é
como os estatísticos às vezes chamam uma quantidade que caracteriza um conjunto
de valores, como a média. Como a correlação é baseada na média dos produtos
cruzados, também podemos dizer que ela é um “momento do produto”. Mas não se
preocupe: “correlação” já serve! O coeficiente de correlação é útil como uma medida
rápida do quão fortemente relacionadas duas variáveis estão (figura 1.8).

Figura 1.8. Relação entre biomassa de palmeiras e teor de fósforo do solo na


Reserva Ducke, Manaus, AM. A correlação medida (r = 0.74) sugere uma relação
positiva, moderada à forte. Isto está de acordo com o padrão que observamos no
gráfico.

20
Comparando variabilidade entre variáveis em escalas muito diferentes
Às vezes, medimos uma série de variáveis, e queremos saber quais variam mais e
quais variam menos. Frequentemente, a variabilidade (i.e. soma dos quadrados,
variância ou desvio padrão) aumenta conforme a média aumenta. Isto significa que,
se medirmos uma mesma variável em escalas diferentes (e.g. temperatura em graus
Celsius, Farenheit ou Kelvin), o simples fato de mudarmos a escala pode fazer com
que nossas medidas variem mais ou menos! Normalmente, queremos uma medida
de variabilidade que permita comparar variáveis entre si, independentemente da
escala em que foram medidas. Assim, podemos dividir o desvio padrão pela média,
obtendo o coeficiente de variação (CV), uma medida padronizada da variação de
uma variável. Como o desvio padrão e a média estão na mesma unidade, o CV é
adimensional, mas pode ser intuitivamente interpretado como a proporção que o
desvio padrão representa da média. Por exemplo, um CV de 0.5 significa que o
desvio padrão equivale a 50% da média.

21
2. INFERÊNCIA ESTATÍSTICA

Medindo incerteza
Quase sempre, queremos usar nossos dados para fazer extrapolações. Por
exemplo, no caso das palmeiras (figura 1.9), observamos uma relação entre
biomassa e fósforo nas 30 parcelas de 1 hectare na Reserva Ducke. Se quisermos
saber qual a correlação entre essas variáveis apenas nessas parcelas, já vimos que
ela é r = 0,74. Mas e se quisermos falar sobre essa relação na Reserva Ducke como
um todo, que tem 10.000 hectares, e não apenas nas 30 parcelas que observamos?
Intuitivamente, as 30 parcelas devem nos informar algo sobre a Reserva, mas o
quanto? Há uma incerteza associada quando extrapolamos qualquer conclusão
baseada nos dados observados para a Reserva inteira, cuja maior parte não foi
observada.

Neste exemplo, as parcelas observadas representam nossa amostra, e cada


parcela é uma unidade amostral, isto é, aquilo em que medimos nossas variáveis.
A Reserva Ducke representa a área maior sobre a qual queremos falar, ou nosso
universo amostral. O valor da correlação observada na nossa amostra, que
sabemos com certeza, é uma estimativa. Já o valor real da correlação na Reserva
Ducke como um todo, que não sabemos com certeza, é um parâmetro. Assim,
pode-se dizer que os cientistas estão quase sempre tentando estimar ou “chutar” um
ou mais parâmetros, que permitem responder à questão de interesse. É esse “chute”
que chamamos de inferência.

Para que nossas inferências funcionem, precisamos de três coisas. Primeiro, nossas
unidades amostrais devem ser independentes. Isto é, cada unidade amostral
deve fornecer informação adicional sobre o universo amostral de interesse, ao invés
de repetir a mesma informação. Por exemplo, no caso das palmeiras, podemos
demarcar parcelas em lugares diferentes, ou no mesmo lugar (p.ex. parcelas
coladas uma na outra, ou totalmente sobrepostas). Este é um exemplo extremo, mas
obviamente, parcelas repetidas no mesmo lugar fornecem menos informação sobre
uma área do que parcelas espalhadas pela mesma área.

22
Segundo, para que nossas inferências funcionem, nossa amostra deve ser
representativa do universo amostral. Isto quer dizer que a variabilidade que existe
no universo amostral também deve existir na amostra. No caso das palmeiras, as 30
parcelas espalhadas pela Reserva Ducke podem ser representativas da Reserva,
mas certamente não serão representativas da Amazônia, do Brasil, da América do
Sul, etc., já que não abrangem toda variabilidade possível nessas áreas. Terceiro,
precisamos medir o tamanho da incerteza associada à nossa estimativa do
parâmetro, para podermos julgar se temos evidência suficiente para concluir algo
sobre o universo amostral ou não. Em geral, quanto maior o tamanho da amostra
(i.e. mais unidades amostrais), menor a incerteza da nossa estimativa e, portanto,
mais confiáveis nossas chutes sobre o universo amostral. Porém, há várias formas
de medir o tamanho da nossa incerteza. A seguir, veremos duas das mais
amplamente usadas pelos cientistas.

Teste de hipótese nula e valor de P


Uma forma de medir a incerteza associada a uma estimativa é simular estimativas
que sabemos terem sido geradas por acaso. Por exemplo, no caso das palmeiras,
podemos “embaralhar” os valores de biomassa e fósforo na nossa tabela, isto é,
trocar a ordem dos valores entre parcelas, aleatoriamente. Ao fazermos isso, nós
automaticamente quebramos qualquer relação real que possa existir nos dados, já
que desfazemos o pareamento original entre os valores de biomassa e fósforo.
Qualquer padrão que ocorrer após o embaralhamento surgiu, necessariamente, por
acaso (figura 2.1)!

23
Figura 2.1. Embaralhamento dos dados para obter estimativas de correlação
geradas ao acaso. Se embaralharmos aleatoriamente as posições dos valores entre
unidades amostrais (linhas na tabela), destruiremos a informação sobre qualquer
relação real que poderia haver nos dados originais (A). Assim, qualquer padrão que
surgir no gráfico só pode ter surgido por acaso (B), inclusive se parecer uma relação.

24
Assim, podemos embaralhar os valores, calcular a correlação e anotar o valor, uma,
duas, três vezes... Repetindo este processo centenas ou milhares de vezes, teremos
uma série de correlações geradas ao acaso, com uma dada distribuição de
frequências: por acaso, alguns valores podem ser mais comuns que outros. A partir
disso, podemos adicionar nossa estimativa original a esta distribuição, e perguntar:
qual a chance de ela ter sido gerada por acaso? Se o valor observado (r = 0.74)
aparecer frequente na distribuição gerada ao acaso, então a chance é relativamente
grande! Quanto menor esta chance, mais confiantes de que nossa estimativa não
surgiu por acaso na nossa amostra. Uma distribuição de estimativas geradas ao
acaso é conhecida como distribuição nula (figura 2.2).

Figura 2.2. Distribuição nula das correlações entre o teor de fósforo do solo e a
biomassa de palmeiras. Os valores das variáveis usados na correlação foram
aleatorizados 999 vezes, e a correlação observada foi adicionada, resultando em
uma distribuição nula contendo 1000 correlações. A seta preta representa o valor da
correlação observado com os dados reais.

Mas há um detalhe: se perguntarmos simplesmente qual a chance de observar uma


estimativa qualquer na distribuição nula, a probabilidade sempre será um dividido
pelo número total de estimativas, porque é improvável que algum valor exato (com
várias casas decimais) vá se repetir. Por exemplo, se gerarmos 999 correlações
aleatórias e juntarmos nossa correlação observada para criar uma distribuição nula,
a chance de observar r = 0.7412 nessa distribuição será 1/1000. Mas e se a

25
correlação observada tiver sido r = 0.6342? Também teremos 1/1000. E se for r =
0.9151? Novamente, 1/1000... Logo, perguntar a chance de observar nossa
estimativa exata por acaso não é muito útil. Ao invés disso, podemos perguntar: qual
a probabilidade de uma estimativa igual ou mais extrema que aquela que
observamos?

Como podemos perceber na figura 2.2, pouquíssimas correlações geradas ao acaso


foram iguais ou mais extremas (i.e. maiores) que a correlação estimada a partir dos
dados reais. Agora, se a correlação observada fosse p.ex. r = 0.5, podemos ver que
teríamos uma proporção maior de valores iguais ou mais extremos. Assim, quando
mais nossa estimativa cair na “cauda” da distribuição, menor será essa proporção e,
portanto, menor a chance de observar uma estimativa igual ou mais extrema que
aquela que foi observada em nossa amostra. Esta proporção é conhecida como
(valor de) P, e usar uma distribuição nula para testar se nossa estimativa é igual ou
mais extrema que o esperado ao acaso é conhecido como teste de hipótese nula.
Neste caso, a hipótese nula é que não há correlação nenhuma (r = 0); note que a
maioria das correlações geradas ao acaso se concentra em torno de zero (figura
2.2). Certifique-se de que isto faz sentido: se embaralhamos as variáveis e
quebramos qualquer relação que poderia haver, a correlação mais provável
necessariamente é... Correlação nenhuma! Assim, o P funciona como uma medida
do tamanho da incerteza sobre o quanto podemos extrapolar nossa estimativa para
o universo amostral, assumindo que ela pode ter surgido por acaso na nossa
amostra. Quanto maior o valor de P, maior a incerteza.

Cientistas rejeitam a hipótese nula – aceitam que têm evidência suficiente de que
suas estimativas não foram geradas por acaso – quando P é menor que um dado
limiar, ou nível de significância. Caso contrário, eles aceitam a hipótese nula, isto
é, o que vimos na amostra ocorreu por acaso. Por convenção, costuma-se assumir
significância estatística quando P < 0.05. Grosseiramente falando, isso é o mesmo
que dizer que a chance de o resultado ter sido observado por acaso é menor que
uma em vinte. Porém, o nível de significância pode ser ajustado: quanto menor o
nível de significância (p.ex. P < 0.01), mais rigoroso o teste, porque fica mais difícil
concluir que temos evidência de que não observamos uma relação por acaso. Isto
pode ser importante, por exemplo, em estudos clínicos, quando queremos testar a
eficácia de uma medicação, e o custo de um remédio ineficaz pode ser matar

26
pessoas, caso ele tenha efeitos colaterais (p.ex. usar hidroxicloroquina para tratar
COVID-19; Axfors et al. 2021). Testes de significância ou de hipótese nula foram
desenvolvidos e popularizados principalmente por Karl Pearson, pelos estatísticos
também ingleses Egon Pearson (filho de Karl; 1895-1980) e Ronald Fisher (1890-
1962), e pelo estatístico polonês Jerzy Neyman (1894-1981).

Intervalo de confiança
Uma forma alternativa de medir a incerteza associada a uma estimativa é quantificar
a variabilidade da estimativa propriamente dita: se pudéssemos coletar nossos
dados novamente e calcular a estimativa de novo, o quão diferente ela seria? Se for
muito diferente, então a incerteza associada à nossa estimativa é grande. Se for
muito parecida, a incerteza é pequena. Na prática, porém, normalmente não
coletamos nossos dados várias vezes. Pelo contrário, coletamos só uma! O que
podemos fazer é simular várias novas coletas com o mesmo número de
observações da nossa amostra verdadeira, sorteando as linhas da nossa tabela de
dados (i.e. unidades amostrais) com reposição (i.e. cada linha pode ser amostrada
mais de uma vez). A ideia é simples: se nossa amostra é representativa do universo
amostral, então amostras representativas da nossa amostra necessariamente
devem ser representativas do universo amostral. Lembre-se: se A = B, e B = C,
então A = C! O procedimento de simular estas novas amostras também é conhecido
como bootstrap. O desvio padrão das estimativas calculadas a partir das amostras
obtidas por bootstrap é chamado de erro padrão, e representa a variabilidade
esperada da nossa estimativa, ou a quão incerta ou imprecisa ela é. Quanto maior o
erro padrão, maior a incerteza (ou menor a precisão) da estimativa. O intervalo que
contém 95% das estimativas simuladas é chamado de intervalo de confiança de
95%, e foi proposto como medida de incerteza por Jerzy Neyman (figura 2.3).

27
Figura 2.3. Distribuição de estimativas simuladas por bootstrap. O desvio padrão das
estimativas é conhecido como erro padrão, e o intervalo de confiança de 95%
resume onde está a maioria (95%) das estimativas simuladas.

A diferença crucial entre P e intervalo de confiança é que o primeiro se refere a uma


hipótese específica, a hipótese nula. Por exemplo, qual a chance de observar essa
relação se na verdade não houver relação nenhuma (r = 0) – e, portanto, a relação
só pode ter surgido por acaso? Já o intervalo de confiança não assume ou depende
de hipótese alguma, medindo diretamente a precisão da estimativa. Além disso, ele
permite testar qualquer hipótese sobre o valor da estimativa: quando o intervalo
inclui o valor hipotético, então os consideramos estatisticamente iguais (i.e. não
temos evidência suficiente de que nossa estimativa é diferente do valor hipotético).
Logo, também podemos testar a hipótese nula de que r = 0: basta ver se nosso
intervalo inclui este valor (e aceitamos a hipótese nula) ou exclui (e rejeitamos a
hipótese nula). Assim, P e intervalo de confiança são relacionados (figura 2.4). Qual
devemos usar depende da pergunta que queremos responder, ou de que informação
queremos enfatizar.

28
Figura 2.4. Comparação entre distribuição nula e distribuição de uma estimativa
gerada por bootstrap, para duas estimativas (r = 0.74 e r = -0.02). Em geral, quanto
menor a precisão de uma estimativa, mais essas duas distribuições se sobrepõem.
Logo, quanto mais evidência temos contra a hipótese nula (menor P), maior a
precisão da nossa estimativa (mais estreito o intervalo de confiança).

Hoje, o P é a medida de incerteza mais popular entre cientistas, mas o intervalo de


confiança também é muito usado. Porém, a popularização deste uso é relativamente
recente: somente a partir da década 1980 as revistas científicas começaram a exigir
regularmente que cientistas oferecessem alguma medida da incerteza associada
aos seus resultados.

Estatísticas: um atalho para medir incerteza


Simulações são úteis para obter medidas de incerteza, mas só são praticáveis
porque temos computadores que fazem muitos sorteios rapidamente. Durante a
maior parte da história, não havia computadores eficientes ou disponíveis o
suficiente para isso. Por isso, os estatísticos desenvolveram uma teoria matemática
que permite aproximar o valor de P a partir de certos pressupostos sobre os dados.
Para isto, calcula-se um número a partir dos dados, conhecido ele próprio como...

29
Estatística. A vantagem é que estatísticas são fáceis de calcular e, assim, permitem
obter o próprio valor de P usando fórmulas, sem a necessidade de inúmeras
aleatorizações. Por exemplo, para obter o valor de P associado à hipótese nula de
que r = 0, podemos usar a estatística t (sua origem será explicada a seguir):

t= r √𝒏 − 𝟐/ 𝟏 − 𝒓²

Dado certos pressupostos, a estatística t tem uma distribuição conhecida, e isso


permite calcular coisas como o P e o erro padrão rapidamente. Há muitas
estatísticas, cada uma mais apropriada para uma situação, p.ex. t, z, F, χ², G, etc.

É importante destacar que todas as estatísticas seguem a mesma lógica: por si só,
não significam muita coisa, mas permitem obter medidas de incerteza como P e erro
padrão rapidamente, usando apenas fórmulas. Logo, podemos pensar nas
estatísticas como atalhos, intermediários ou “laranjas” da inferência estatística. Por
isso, em meados do século XX, estatísticas também eram chamadas simplesmente
de “quantidades de teste” (test quantities).

A origem da estatística t: uma antiga história sobre cervejas


Hoje, programas estatísticos de computador continuam usando estatísticas, mais por
conveniência e/ou tradição que por necessidade. Uma inferência sempre pode ser
feita com alguma forma de aleatorização, p.ex. “embaralhamento” dos dados no
teste de hipótese nula, ou bootstrap para estimar erro padrão e/ou intervalo de
confiança. A matemática apenas torna isso mais fácil e rápido (Cohen et al. 2003).
Porém, as aleatorizações funcionam mesmo quando a matemática falha, i.e. quando
os pressupostos dos métodos são violados pelos dados (mais sobre isso no capítulo
7). Hoje, a estatística matemática é tão desenvolvida que é fácil esquecer que ela é
apenas uma aproximação para uma longa série de eventos repetidos no mundo real.
Porém, um exemplo histórico ajuda a lembrar disso.

A estatística t foi criada pelo estatístico inglês William Gosset (1876-1937). Gosset
trabalhava na famosa cervejaria Guinness, na Irlanda, e queria uma estatística para
avaliar rapidamente se uma amostra pequena de cervejas diferia significativamente
do padrão de qualidade da cervejaria. Sua solução – a estatística t – foi publicada
em 1908 na revista Biometrika, uma das primeiras revistas de estatística do mundo,

30
criada por Karl Pearson. Como seu contrato não permitia que ele assinasse seus
próprios trabalhos, Gosset se identificou como Student (“estudante”), já que ele
também era aluno de Karl Pearson. Por isso, a estatística t também é conhecida
como t de Student. Para derivar a distribuição da estatística t, Gosset usou a
relação entre altura e comprimento do dedo médio de 3000 pessoas. Ele escreveu
cada par de medidas em um cartão, embaralhou os cartões, e então “coletou” 750
amostras de 4 pessoas (i.e. 4 cartões). Para cada amostra, ele calculou a correlação
entre as duas variáveis. Assim, Gosset gerou a distribuição empírica dessa
estimativa – tal como se tivéssemos ido a um lugar com 3000 pessoas (universo
amostral) e realmente coletado várias amostras de n = 4 pessoas. Só então ele
derivou uma fórmula que descrevia matematicamente a forma dessas distribuições.
Para isso, ele precisou usar cálculo (i.e. integrais, derivadas). Porém, as fórmulas
que costumamos associar à estatística são apenas aproximações eficientes de uma
realidade empírica, i.e. uma distribuição gerada por alguma forma de aleatorização –
seja feita “na mão”, como fez Gosset, seja feita por um computador, como podemos
fazer hoje. Se quisermos, podemos fazer exatamente como Gosset: escrever nossos
dados em papeizinhos, embaralhar e sortear quantas vezes quisermos, calculando e
anotando nossas estimativas de interesse em cada “amostragem”. Ao final, cada
valor da estimativa terá ocorrido mais ou menos vezes, e teremos uma “pilha” de
papeizinhos para cada valor, i.e. sua distribuição de frequências. Assim,
distribuições estatísticas não são meras abstrações matemáticas, mas fenômenos
do mundo real – tão concretas quanto pilhas de papel (figura 2.5)!

31
Figura 2.5. Distribuição nula da correlação entre biomassa de palmeiras e teor de
fósforo do solo, gerada “na mão”. Cada quadrado representa uma estimativa gerada
ao acaso: no computador, as ordens dos valores de biomassa e fósforo foram
embaralhadas, e a correlação foi calculada e anotada no papel (arredondada para
uma casa decimal para facilitar a visualização). Isso foi repetido 100 vezes e, no
final, os valores iguais foram enfileirados em colunas, de modo a revelar a
distribuição e frequências – uma “distribuição nula de papel”.

Inferência frequentista e outras formas de inferência

Como vimos, tanto P quanto intervalos de confiança são formas de medir incerteza
baseadas na frequência com que diferentes valores de uma estimativa ocorrem em
uma longa série de amostragens repetidas, sejam elas reais ou simuladas. Por isso,
este tipo de inferência costuma ser chamado de inferência frequentista. Mas esta
não é a única forma de inferência estatística... Há várias!

Duas outras formas, proximamente relacionadas ao frequentismo, são aquelas


baseadas no princípio de máxima verossimilhança (capítulo 8) e na teoria da
informação (capítulo 9). Estas formas de inferência têm em comum o fato de que

32
fazem uma pergunta do tipo: se estes forem os parâmetros, qual a chance de
observar estes dados? Por exemplo, no teste de hipótese nula, primeiro assumimos
que o parâmetro de interesse tem um dado valor (p.ex. r = 0), para então
calcularmos o P. No caso dos intervalos de confiança, assumimos que o parâmetro
real tem algum valor, qualquer que ele seja, para então medirmos a incerteza da
nossa estimativa em torno dele. Estes tipos de inferência podem ser chamados, de
forma mais geral, de inferência dedutiva ou dedução. O oposto disso é a
inferência indutiva ou indução, na qual invertemos a pergunta: se estes forem os
dados, qual a chance de observar estes parâmetros? Por isso, este tipo de
inferência também foi conhecido por muito tempo como “probabilidade inversa”. O
método mais famoso de indução é a inferência bayesiana.

Estatísticos e filósofos discutem ativamente o mérito de cada abordagem. Nesta


apostila, não discutiremos bayesianismo; basta saber que, para usar inferência
bayesiana, é necessário usar máxima verossimilhança (capítulo 8). Assim, se o(a)
leitor(a) entender os conceitos explicados nesta apostila, não terá dificuldade em
aprender inferência bayesiana (p.ex. Gotelli & Ellison 2011, Magnusson et al. 2015)
e a usar com auxílio de um guia (p.ex. Kéry & Royle 2016, Kruschke 2016).

33
3. REGRESSÃO

Método dos Mínimos Quadrados

Coeficientes de correlação são medidas rápidas e úteis da força da relação entre


duas variáveis. Porém, eles também são medidas grosseiras. Isto é ilustrado pela
figura 3.1, onde três nuvens de pontos ocupando diferentes posições no gráfico têm
exatamente a mesma correlação.

Figura 3.1. Três relações diferentes entre duas variáveis, com a mesma correlação (r
= 1). Ao olharmos apenas para o número, perdemos informação sobre as diferenças
entre as três nuvens de pontos.

Idealmente, gostaríamos de uma forma de medir estas relações que identificasse


suas diferenças. Ou seja, gostaríamos de representar não apenas a força da
relação, mas também sua forma. Qual a maneira mais simples de representar a
forma da relação entre duas variáveis? Através de uma simples linha reta! Neste
caso, usamos uma reta como representação de como a variável resposta (Y) tende
a mudar em função da variável preditora (X). “Tendência” é o que ocorre com a
maioria, e sua medida mais popular é a média. Portanto, usamos a reta para
representar a média de Y ao longo de X. A vantagem de fazermos isso é que a reta
pode ser descrita por uma simples equação do primeiro grau, que sumariza a forma
da relação entre Y e X:

34
̅ = 𝒂 + 𝒃𝒙
𝒚

onde Y com traço em cima representa a média da variável resposta Y, X representa


a variável preditora, e a e b são constantes ou coeficientes: a é conhecido como
intercepto (intercept), e b é a inclinação (slope). Em um gráfico, a é o ponto onde a
reta corta o eixo vertical (Y) quando o X é igual à zero. Logo, sua unidade de medida
é a mesma unidade de Y. Já o b representa o quanto Y muda por unidade de X. Ou
seja, a inclinação é uma taxa e, portanto, sua unidade de medida é unidade de Y
sobre (ou dividido por) unidade de X.

No exemplo abaixo (figura 3.2), temos uma relação hipotética entre a abundância
(número de indivíduos) de jararacas-do-norte (Bothrops atrox) em um dado local e a
distância (m) do local até o igarapé1 mais próximo. O gráfico é baseado na relação
comumente observada por biólogos: geralmente há mais jararacas na beira dos
igarapés; quanto mais distante, menos jararacas. A reta representa a abundância
média de jararacas. Assim, a unidade do intercepto é número de indivíduos,
enquanto a unidade da inclinação é número de indivíduos por metro. Note que,
embora haja uma tendência, há variação em torno da tendência. Isto ocorre na
maioria das relações observadas no mundo real: para um mesmo valor de X, Y pode
desviar acima ou abaixo da média, porque há outros fatores que afetam Y. As setas
em vermelho representam o valor dos desvios, que neste contexto geralmente são
chamados de resíduos. O resíduo nada mais é que a distância entre uma
observação e o valor predito pela reta (i.e. a média de Y).

1
“Igarapé” é o nome comum dado aos córregos e riachos na Amazônia.

35
Figura 3.2. Relação entre abundância de jararacas (Bothrops atrox) e distância até
igarapé mais próximo (m). A reta representa como a abundância média muda em
relação à distância até o igarapé. As setas representam os resíduos, isso é, a
distância entre cada observação e a média predita pela reta. Y, X, a e b são as
variáveis dependente, independente, intercepto e inclinação da reta,
respectivamente.

Para determinar o local exato da posição da reta, precisamos de um método para


estimar o valor do intercepto e da inclinação. Poderíamos simplesmente usar o
“olhômetro” e traçar a reta na posição que julgamos melhor representar a tendência.
O problema é que, se diferentes pessoas fizerem isso, provavelmente traçarão retas
um pouco diferentes, mesmo que sejam os mesmos dados! Logo, precisamos de um
critério objetivo, de modo que qualquer pessoa analisando os mesmos dados
chegue à mesma conclusão.

Um método relativamente simples e popular para fazer isso é o chamado Método


dos Mínimos Quadrados, também conhecido como Mínimos Quadrados Ordinários
(Ordinary Least Squares, OLS). Esse método busca a melhor reta para um conjunto
de dados minimizando a soma dos resíduos elevados ao quadrado. Isso faz sentido:
intuitivamente, a reta que melhor representa a relação é aquela que passa no “meio”
dos pontos, de modo que as distâncias entre os pontos e a reta sejam relativamente
pequenas. Assim, se fizermos duas retas – uma passando próxima aos pontos e
outra longe –, calcularmos as distâncias e as somarmos, veremos que a reta que
passa mais perto terá uma soma menor, porque os resíduos são menores. Porém,
tal como vimos no início desta apostila, precisamos elevar cada resíduo ao quadrado
antes de somar, caso contrário resíduos positivos (i.e. acima da média prevista pela

36
reta) serão somados com resíduos negativos (i.e. abaixo da média), cancelando uns
aos outros! Daí o nome “mínimos quadrados”: queremos a reta minimiza as áreas
dos quadrados (figura 3.3.). Os Mínimos Quadrados foram popularizados pelo
matemático alemão Friedrich Gauss (1777-1855) em seu tratado sobre astronomia
de 1809, embora o matemático francês Adrien-Marie Legendre (1752-1833) já
tivesse publicado o método em 1805. Gauss desenvolveu várias ideias e métodos
usados até hoje, como veremos ao longo desta apostila.

Figura 3.3. Comparação da soma dos quadrados de duas retas usadas para
representar a relação entre abundância de jararacas e distância do igarapé. Em
cada caso, primeiro os resíduos são calculados (i.e. distância entre cada observação
e a média predita pela reta) (letras a e c). Depois, cada um é elevado ao quadrado
(letras b e d). Graficamente, isso é o mesmo que calcular a área de um quadrado
cujo lado é igual ao valor do resíduo. Então, as áreas de todos esses quadrados (um
para cada observação) são somadas, obtendo a Soma dos Quadrados. A reta com a
menor soma dos quadrados é a que melhor representa a nuvem de pontos. Note
que, se uma observação cair exatamente sobre a reta, seu resíduo será zero, assim
como a área do seu quadrado. Neste exemplo, a reta da esquerda claramente
representa melhor a nuvem de pontos que a reta horizontal da direita.

37
Estimando a dispersão dos pontos: coeficiente de determinação (r²)

Para completar nossa descrição da forma da relação, também é importante termos


uma medida da dispersão dos pontos ao redor da reta: quanto maior a dispersão,
mais fraca a relação. Uma forma relativamente simples e geral de fazer isso é
determinar o quão fortemente os valores observados da nossa variável resposta (Y)
estão relacionados aos valores preditos pela reta; quanto mais forte essa relação,
maior o poder preditivo da reta. Já vimos que podemos medir a dispersão dos
pontos em um gráfico usando o coeficiente de correlação. O problema é que o
coeficiente de correlação pode ser negativo, mas a correlação entre valores
observados e preditos nunca pode ser negativa; necessariamente, valores maiores
de Y tenderão a estar associados a valores maiores preditos pela reta. Por isso,
podemos mudar a escala do coeficiente de correlação de modo que, ao invés de
variar entre -1 e 1, ele varie apenas entre 0 e 1. Como? Elevando-o ao quadrado,
porque tanto números negativos quanto positivos elevados ao quadrado ficam
positivos! Assim, temos o r² ou coeficiente de determinação, ou R² se tivermos
dois ou mais preditores (como veremos mais adiante). Por variar entre 0 e 1, o r²
pode ser interpretado como uma proporção ou percentagem, isto é, a proporção da
variação de Y que é explicada por X. Quanto maior o r², melhor conseguimos prever
Y a partir de X (figura 3.4). O R² foi proposto pelo geneticista Sewall Wright (1921).
Quando combinamos a reta estimada por mínimos quadrados à medida de
dispersão em torno dela, temos o que geralmente se chama de regressão linear, ou
simplesmente regressão.

38
Figura 3.4. Relação entre abundância de jararacas e distância do igarapé,
representada por uma reta estimada por mínimos quadrados (esquerda), e a relação
entre abundâncias observadas e preditas (direita). Cada observação (pontos pretos)
tem uma projeção sobre a reta (pontos vermelhos), que corresponde à média predita
de abundância para um dado valor de X (distância do igarapé). Se confrontarmos as
abundâncias observadas contra as a abundâncias preditas, teremos o gráfico à
direita; quanto mais forte a correlação entre ambos, maior o poder preditivo da reta.
A correlação (r) elevada ao quadrado passa a variar de 0 a 1, e é conhecida como
coeficiente de determinação.

Nas figuras anteriores, vimos que a abundância de jararacas depende da distância


do igarapé em uma amostra de locais. Mas como saber se essa conclusão se
estende a um universo amostral maior, e não apareceu na nossa amostra por puro
acaso? Agora, este problema já deve ser familiar: os mínimos quadrados nos dão
estimativas do intercepto e da inclinação, mas precisamos medir a incerteza sobre
eles para julgar o quanto podemos confiar que essa relação não surgiu por acaso na
nossa amostra. Se não houver relação nenhuma entre as variáveis, Y deve ser
constante ao longo de X. Logo, a hipótese nula que queremos testar é b = 0. Ronald
Fisher (1922a) mostrou que a distribuição nula dos coeficientes de uma regressão
segue a distribuição da estatística t, criada por William Gosset em 1908. Por isso,
podemos testar a inclinação usando esta estatística, e maioria dos programas de
análise estatística faz exatamente isso.

39
Graus de liberdade

De quantas observações precisamos para estimar uma reta? Imagine que coletamos
apenas uma observação, p.ex. contamos jararacas em apenas um local. Quantas
retas diferentes podemos traçar por esse ponto? Infinitas – cada uma em uma
direção diferente (figura 3.5, letra a)! Logo, com um ponto, é impossível definir a
reta. E se tivermos dois pontos? Agora é fácil: podemos simplesmente ligar os
pontos (figura 3.5, letra b)! Agora, imagine que coletamos uma outra amostra com
outros dois pontos diferentes. Qual a chance de traçarmos uma reta exatamente
igual à primeira? É provável que para cada par de pontos que amostrarmos, teremos
uma reta diferente, que conecta perfeitamente os dois pontos, mas sempre muda
quando mudamos os pontos. Em outras palavras, com dois pontos, conseguimos
descrever perfeitamente a amostra (a reta passa exatamente nos dois pontos), mas
não conseguimos generalizar para o universo amostral, porque a reta sempre muda!
E se tivermos três pontos? Agora podemos traçar uma reta que não passa
exatamente em nenhum dos pontos, mas corta o “meio” da nuvem de pontos (figura
3.5) – exatamente como fizemos antes (figura 3.4, letra c)!

Figura 3.5 Estimando linhas de regressão com n = 1, n = 2 e n = 3. Com apenas


uma observação, qualquer reta que passe pelo ponto descreve perfeitamente dos
dados. Logo, não conseguimos determinar a melhor reta. Com duas observações,
basta ligarmos os pontos para termos uma “reta perfeita”, mas isso não nos diz nada
sobre o universo amostral. Se coletarmos outros dois pontos, teremos sempre uma
reta diferente. Com três observações, finalmente podemos traçar uma reta que corta
o “meio” da nuvem de pontos e nos dá alguma informação para além da amostra.
Logo, a quantidade efetiva de informação da nossa amostra não é n, mas n – 2, ou
graus de liberdade.

40
Assim, vemos que para estimar parâmetros de um universo amostral (e não apenas
descrever nossa amostra), precisamos no mínimo de uma observação a mais que o
número de parâmetros estimados. Na regressão, há dois parâmetros: o intercepto e
a inclinação. Logo, precisamos de no mínimo de 3 observações. Logo, a quantidade
efetiva de informação que temos para estimar os parâmetros da regressão é n – 2
observações (“n” é o tamanho da amostra), porque sempre “gastamos” duas
observações só para sermos capazes de fazer alguma generalização sobre o
universo amostral. Este número é conhecido como graus de liberdade (degrees of
freedom, df), ou quanta liberdade temos para inferir sobre o universo amostral. Por
isso, ele entra no cálculo das estatísticas usadas para medir a incerteza sobre
nossas estimativas (p.ex. t). Em geral, df = n – p, onde “p” é o número de parâmetros
que queremos estimar. Por exemplo, para estimar a variância de uma amostra,
dividimos a soma dos quadrados por n -1, já que precisamos primeiro estimar a
média para poder calcular os desvios. Os graus de liberdade foram concebidos por
Gauss no séc. XIX, mas somente explicados por Gosset em 1908, e posteriormente
popularizados por Fisher.

A figura 3.6 mostra o resultado típico de uma regressão usando os dados inventados
do exemplo da jararaca, feita em um programa de computador. Note que tínhamos
oito observações, por isso df = 8 – 2 = 6.

De quantas observações eu preciso?

Então eu posso sair fazendo regressões com n = 3? Com certeza não! Este é o
número mínimo de observações, mas com n = 3, temos apenas um grau de
liberdade. Logo, teremos pouquíssima informação, e nossa estimativa será péssima!
Então de quantas observações eu preciso? Cabe relembrar a regra que discutimos
no capítulo sobre inferência: quanto maior o tamanho da mostra, mais informação
teremos (i.e. mais graus de liberdade). Porém, para um mesmo tamanho de
amostra, é mais fácil detectar relações mais fortes (i.e. menor dispersão dos pontos
em torno da tendência) que relações mais fracas (i.e. maior dispersão dos pontos).
Por isso, não existe uma “fórmula mágica” para saber de quantas observações
precisamos para estimar uma ou mais relações, porque isso sempre depende da
força das relações que queremos estimar! O que podemos fazer é assumir que a
relação tem determinada forma e força (i.e. adotar certos valores para a, b e r² como

41
verdadeiros), e então simular qual o tamanho de amostra necessário para obter
estimativas com determinada precisão, ou com um dado “poder” (i.e. capacidade de
um teste de hipótese nula de detectar um efeito quando ele realmente existe). O
problema é que, normalmente, não sabemos o valor real dos parâmetros; se
soubéssemos, não precisaríamos estimar! Uma alternativa é fazer um estudo
“piloto”, onde coletamos uma amostra pequena para obter estimativas para alimentar
o cálculo do tamanho amostral. Mas note que essas estimativas estão elas próprias
sujeitas a incerteza. Finalmente, na ausência de outras informações, alguns
sugerem um guia mais grosseiro, mas útil: para cada relação de interesse, colete
pelo menos 10 observações; se quiser comparar grupos, colete pelo menos 10
observações por grupo (Gotelli & Ellison 2011). Essa regra do 10 é baseada no
tamanho de amostra mínimo necessário detectar relações em estudos ecológicos,
que normalmente são de moderadas a fracas, e baseadas em dados de campo. A
regra do 10 serve como um guia “conservador” para que você tenha uma amostra
minimamente capaz de detectar algum efeito. Mas se quiser estimativas precisas,
provavelmente terá que coletar mais! Veremos mais detalhes sobre isso no capítulo
6, “Simulações”.

Por que “regressão”? Uma antiga história sobre gigantes e anões

Este nome curioso se deve a um dos pioneiros em utilizar este método no século
XIX: o inglês Francis Galton (1822-1911)2. Uma questão importante em seu tempo
era como se dava a herança de características de pais para filhos. Pense nisso: em
geral, os filhos(as) tendem a ser mais parecidos com os pais do que com qualquer
outra pessoa. Assim, casais mais altos tendem a ter filhos mais altos, e casais mais
baixos, filhos mais baixos. Se esse processo simplesmente se repetir a cada
geração, então a população poderia divergir indefinidamente entre um grupo de
pessoas cada vez mais altas e outro de pessoas cada vez mais baixas. Em pouco
tempo, todos seriam ou gigantes ou anões; algumas famílias poderiam encolher até
sumir! Por que isto não acontece?

Galton coletou dados sobre a altura de centenas de ingleses e sobre as alturas


médias de seus respectivos pais, calculou a média de altura dos filhos para

2 Francis Galton, que era primo de Charles Darwin, era muito interessado em ciências sociais e
genética. Ele inventou muitas coisas que usamos até hoje, como o uso da impressão digital para
identificar pessoas.

42
diferentes alturas dos pais, e ligou as médias com uma linha. Galton notou que as
médias se alinhavam, formando uma reta equivalente a aplicar mínimos quadrados:
pais mais altos teriam a ter filhos mais altos, como esperado (figura 3.7). Se a
transmissão da altura dos pais para os filhos fosse perfeita, então para cada 1 cm
que a altura dos pais mudasse, a altura do filho deveria mudar também 1 cm, em
média (i.e. a inclinação da reta deveria ser b = 1). Porém, a inclinação da reta
estimada era menor que 1 cm (figura 3.7)! Assim, embora pais mais altos tendessem
a ter filhos mais altos, seus filhos geralmente eram mais baixos que os próprios pais.
Da mesma forma, pais mais baixos tendiam a ter filhos relativamente baixos, porém
mais altos que eles próprios.

Figura 3.7. Relação entre altura do filho(a) e altura média dos pais entre ingleses.
Dados de Galton (1886). Cada ponto representa um filho(a). A reta contínua indica a
reta estimada por Galton usando mínimos quadrados. A reta pontilhada indica uma
reta hipotética “perfeita”, cuja inclinação é b = 1. Galton notou que a inclinação de
sua reta estimada era menor que um, sugerindo que a transmissão hereditária da
altura não é perfeita.

Galton propôs que a transmissão hereditária da altura não é perfeita, de modo que a
altura média da próxima geração (filhos) tendia a voltar à altura média da geração
anterior (pais). Galton sugeriu que isso ocorria porque as características herdadas
por uma pessoa eram provenientes não só dos pais, mas também um pouco dos
avós, dos bisavós, e assim sucessivamente através das gerações ancestrais. Em um
artigo de 1886, Galton chamou este fenômeno de “regressão à mediocridade”. Ou

43
seja, retorno à média (medíocre significa médio, comum). Isto explicaria por que a
altura média das pessoas se mantém aproximadamente constante ao longo das
gerações.

Acontece que Galton estava errado! A inclinação de Galton foi menor que um porque
esta é uma característica intrínseca dos mínimos quadrados: como ele considera
apenas os resíduos de Y, a inclinação sempre é menor que a de uma reta diagonal
perfeita. Isto pode ser facilmente demonstrado invertendo a ordem das variáveis na
análise: se usarmos X como variável dependente e Y como preditor, a inclinação
muda! Galton foi enganado por um artefato estatístico. Hoje, sabemos que a razão
pela qual a altura se mantém aproximadamente constante é a segregação aleatória
dos genes responsáveis pela altura, o que quebra associações entre alelos que
conferem altura maior ou menor geração após geração. Na presença de forças
evolutivas, como a seleção natural, a altura média das pessoas realmente pode
mudar. Porém, a genética tal como a conhecemos hoje só nasceu após a
(re)descoberta dos trabalhos de Gregor Mendel (1822-1884) no início do século XX.
Isso não diminui a importância da obra inovadora de Galton: sua proposta de como
medir o quão herdável é uma característica – regressão entre pais e filhos –
continua sendo usada até hoje. Agora, a inclinação dessa regressão é conhecida
como herdabilidade (heritability). Ela é a base da genética quantitativa, e dá uma
ideia de quanta variabilidade em uma característica se deve à variação genética (ao
invés de variação causada pelo ambiente), e permite prever o quanto uma
população deve evoluir se estiver sob seleção natural. Por isso, quando se fala em
uma reta estimada por mínimos quadrados, chamamos tradicionalmente de
“regressão”, em homenagem a Galton.

Equivalência entre regressão, correlação e covariância

Como vimos, as variáveis estão em unidades de medida diferentes. Logo, a


regressão de uma variável Y em relação a uma variável X nunca será equivalente a
uma regressão entre uma variável X em relação à variável Y. Afinal, a unidade da
inclinação é a unidade da variável resposta (Y) sobre a unidade da variável preditora

44
(X). Se invertermos a ordem das variáveis, a inclinação da reta necessariamente
mudará.

Mas e se colocássemos as variáveis na mesma escala, como fizemos para


transformar a covariância em correlação (i.e. dividindo os desvios de cada variável
pelo seu respectivo desvio padrão)? Neste caso, veremos que a inclinação da reta
passa a ser exatamente igual ao coeficiente de correlação entre as variáveis! Teste
você mesmo: calcule a correlação entre duas variáveis, e então faça uma regressão
entre as mesmas variáveis padronizadas. Isto demonstra a equivalência matemática
entre regressão e correlação – e, por consequência, covariância, que é a base da
correlação. O que muda entre essas análises aparentemente distintas é quais
informações são enfatizadas no resultado. A regressão enfatiza a magnitude da
variação de Y em relação à variação em X, enquanto a correlação padroniza as
escalas das duas variáveis, de modo que o foco não é o quanto uma variável muda
em relação à outra, mas o quanto as duas mudam juntas. Conceitualmente, porém,
todas elas estão fazendo a mesma coisa: traçando retas por uma nuvem de pontos
para sumarizar a relação entre as variáveis. A conexão entre correlação e regressão
foi reconhecida ainda no século XIX, e sumarizada por Karl Pearson em 1896. A
decisão sobre qual análise usar depende da questão que você quer responder, e de
qual informação você quer enfatizar.

45
4. RELAÇÕES CURVILÍNEAS

Alometria e função de potência

Embora muitas relações possam ser razoavelmente representadas por linhas retas,
nem sempre este é o caso. Um exemplo é quando uma variável cresce
desproporcionalmente em relação à outra, um fenômeno conhecido como alometria.
Isto é comumente observado em certas características morfológicas de alguns
animais. Em algumas espécies de besouro, por exemplo, à medida que o indivíduo
cresce, o comprimento das mandíbulas tende a crescer mais rápido que o
comprimento dos élitros (asas). Em certa faixa de tamanho, isso cria uma inflexão ou
curvatura na relação entre essas variáveis, de modo que besouros maiores têm
mandíbulas desproporcionalmente grandes (figura 4.1).

Figura 4.1. Relação entre comprimento da mandíbula (LnML) e comprimento do


élitro (LnEL, uma medida do tamanho corporal) em uma espécie de besouro,
conforme Romiti et al. (2015). Os eixos estão em escala logarítmica. Cada ponto
representa um indivíduo. Note a curvatura ou “dobra” da relação na área entre as
linhas verticais pontilhadas.

46
Uma forma de representar isso é juntar duas retas para descrever a curva (figura
4.1). No entanto, essa nem sempre é uma boa escolha. Primeiro, juntar retas é uma
forma grosseira de representar curvas. Segundo, quanto mais retas usamos, mais
parâmetros temos para estimar e, portanto, mais graus de liberdade teremos que
gastar, exigindo uma amostra maior. Uma forma mais simples de descrever essa
relação curvilínea seria usar uma função matemática (i.e. equação que relaciona
duas variáveis) que descreve uma curva, ao invés de uma reta. Uma função simples
que descreve curvas é a função de potência:

𝒚 = 𝒂 ∗ 𝑿𝒃

onde a controla a magnitude de variação de Y, e b (o “expoente”) controla a forma


da curva. Quando b > 1, a curva apresenta um crescimento acelerado. Quando 0 < b
< 1, observamos que a taxa de aumento é grande inicialmente, mas depois
desacelera. Esse tipo de relação é geralmente chamada de “assintótica” (i.e. tende a
atingir uma assíntota, ou platô), “saturante” ou “limitante”. Por fim, quando b < 0,
surge uma curva de declínio, cuja taxa de mudança também diminui gradualmente.
Todas essas curvas são monotônicas, i.e. Y só aumenta ou só diminui ao longo de
X, embora a taxa de mudança mude (figura 4.2).

Figura 4.2. Curvas criadas com a função de potência, Y = aXb.

Como estimar os parâmetros de relações curvilíneas, que não seguem a equação da


reta? A princípio, podemos usar o método dos mínimos quadrados. Porém,
historicamente, os computadores tinham programas capazes de estimar apenas os

47
parâmetros de equações lineares, e.g. um somatório de vários termos, como a
equação da reta. Entretanto, a função de potência e muitas outras são equações
não lineares, i.e. não representam um simples somatório, envolvendo também
outras operações. Por isso, era preciso “linearizar” a equação da potência, i.e.
reescrevê-la de tal forma que ela parecesse uma equação linear, envolvendo
simples somas.

Linearizando funções não lineares: logaritmos

Felizmente, isto pode ser feito usando logaritmos (log). Logaritmos nada mais são
que o expoente de uma potência, ou o número ao qual temos que elevar outro para
obter um dado valor. Por exemplo, 10² = 100, então log10100 = 2. Em palavras: o log
de 100 na base 10 é 2, porque temos que elevar 10 a 2 para obter 100.
Provavelmente você está muito familiarizado com pelo menos uma medida em
escala log: o potencial hidrogeniônico (pH). O pH nada mais é que a concentração
de prótons em uma solução aquosa e indica seu grau de acidez. Como essas
concentrações são naturalmente muito baixas (e.g. 10-5, 10-7 ou 10-9 mol/L),
normalmente nós usamos o logaritmo na base 10 desses valores, multiplicado por -
1. Assim, um pH de 5 equivale a uma concentração de prótons de 10 -5 mol/L ou
0,00001 mol/L, que é maior (mais ácida) que um pH de 9, que indica concentração
de prótons de 10-9 mol/L ou 0,000000001 mol/L. Isto ilustra a grande utilidade desta
transformação: em escala log, valores muito discrepantes não são tão discrepantes
assim, e fica mais fácil compará-los. Porém, quando escrevemos apenas “log”, sem
indicar a base (p.ex. log 2), subentende-se que estamos falando do “logaritmo
natural”, cuja base é o exponencial, e ≈ 2,7184. Logo, log 2 = log2,7184 2.

Para linearizar a função de potência, podemos tirar o log de cada lado da expressão
e aplicar as regras dos logaritmos: (1) o logaritmo de um produto é igual à soma dos
logaritmos dos termos envolvidos no produto, e (2) o logaritmo de uma potência é
igual ao logaritmo da base vezes o expoente da potência. Logo:

𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠(𝒂𝑿𝒃 )

𝐥𝐨𝐠(𝒀) = 𝐥𝐨 𝐠( 𝒂) + 𝒍𝒐𝒈 (𝑿𝒃 )

𝐥𝐨𝐠(𝒀) = 𝐥𝐨𝐠( 𝒂) + 𝒃 𝐥𝐨𝐠 (𝑿)

48
Podemos entender mais claramente a relação entre as duas formas da função de
potência usando gráficos: em escala log, a curva da potência se torna uma reta. Isto
ocorre porque, em escala log, um número muito grande na escala original não é tão
grande assim. Assim, aqueles valores mais discrepantes da nuvem de pontos que
são responsáveis pela curvatura na tendência são puxados mais fortemente para
baixo do que valores menores, transformando a curva de potência em uma reta
(figuras 4.3 e 4.4)! Daí o nome “linearização”.

Figura 4.3. Função de potência na escala original das variáveis (esquerda) e em


escala log (direita). Note que, em escala log, uma curva de potência é uma reta;
igualmente, uma reta em escala log equivale a uma curva de potência em escala
antilog (também conhecida como exponencial).

Figura 4.4. Exemplo de relação linearizada com logaritmos. O tangará-de-coroa-azul


(Lepidothrix coronata) é uma ave amazônica cujos machos se reúnem em grupos
chamados leks para atrair fêmeas para reprodução. Durante suas exibições, os
machos podem interagir, e.g. vocalizar ou dançar ao mesmo tempo. No gráfico, cada
ponto é um lek, e a reta é a tendência média estimada por mínimos quadrados. Leks
cujos machos interagem mais tendem a atrair mais fêmeas (no gráfico, cada ponto é
um lek; Bosholn et al. 2016).

49
Note que a transformação logarítmica é apenas uma mudança de escala, tal como
como podemos representar temperatura em escalas diferentes (Celsius, Farenheit
ou Kelvin). O importante é que a informação sobre a relação entre as variáveis
permanece a mesma e, portanto, isso não representa nenhuma forma de
“manipulação de dados” em um sentido pejorativo. Para sairmos da escala log e
voltarmos à escala original, basta usar a operação inversa, o exponencial, exp(x)
ou ex, onde x é um número qualquer. Por exemplo, log 2.7184 = 1, porque a base do
logaritmo natural é e = 2.7184, e se elevarmos 2.7184 a um, teremos 2.7184! Assim,
na escala log, 2.7184 é 1. Para voltar à escala original, exp(1) = 2.7184 1 = 2.7184!

Outras funções lineares que descrevem curvas

Dependendo da forma exata da relação de interesse, é possível logaritmizar apenas


uma das variáveis (X ou Y). Quando logaritmizamos apenas o Y, tem-se o que
chamamos de função exponencial:

𝒍𝒐𝒈(𝒚) = 𝒂 + 𝒃𝒙

𝒚 = 𝒆 𝒂+𝒃𝒙

Também é possível gerar curvas através da logaritmização da variável X, criando


uma função logarítmica (figura 4.5):

𝒚 = 𝒂 + 𝒃 𝐥𝐨𝐠 𝒙

Uma outra forma de gerar curvas assintóticas (i.e. que tende a atingir um platô), é
usando o inverso de X. Ou seja, 1/X. Isto é uma razão, e por isso podemos chamar a
equação resultante de função racional (figura 4.5):

𝟏
𝒚=𝒂+𝒃∗
𝒙

50
Figura 4.5. Exemplos de curvas criadas usando diferentes equações lineares.
Embora o nome “linear” possa sugerir que elas só descrevem retas, isto não poderia
estar mais distante da realidade; uma grande variedade de curvas pode ser descrita
com equações lineares, i.e. equações compostas por um somatório de dois ou mais
termos.

Relações não monotônicas: parábola e curva gaussiana

Às vezes, uma relação não será descrita adequadamente por nenhuma dessas
funções. Uma situação comum é quando primeiro Y muda em um sentido ao longo
de X e, a partir de determinado momento, muda no sentido oposto. Este tipo de
relação é conhecida como não monotônica, porque envolve mais de um sentido de
mudança. Um exemplo de função simples que descreve este tipo de relação é a
equação do 2º grau, equação quadrática, ou parábola (figura 4.6):

𝒚 = 𝒂 + 𝒃𝒙 − 𝒄𝒙𝟐

Note que esta equação é relativamente similar àquela da reta. No entanto, há um


termo adicional associado a um novo parâmetro, c. Os parâmetros a e b também
não tem mais a mesma interpretação simples que na reta: em geral, servem apenas
para especificar a posição exata da curva no gráfico, enquanto controla o sentido da
concavidade da curva. Quando c > 0, a curva tem concavidade para cima (i.e. em
forma de “U”); quando c < 0, a curva tem concavidade para baixo (i.e. em forma de
“∩”). Um exemplo de relação na forma de parábola pode ser observado no exemplo
abaixo (figura 4.5). Este tipo de curva também é chamado de unimodal, i.e. há uma
“moda” ou “máximo” ou “pico” em algum valor intermediário ou “ótimo” de X.

51
Figura 4.6. Parábola, uma função útil para descrever curvas unimodais, i.e. com um
máximo em Y em algum valor intermediário de X. A parábola também serve para
descrever o padrão oposto, i.e. valores maiores de Y nos extremos de X.

Em alguns casos, a curvatura dos nossos dados não é bem representada por uma
parábola perfeita; ao invés disto, a relação apresenta uma “cintura”. Felizmente,
podemos ajustar a parábola facilmente descrever relações com esta forma: basta
logaritmizar Y. Como vimos anteriormente, isto implica em um tipo de função
exponencial, que neste caso produz uma curva gaussiana3 (figura 4.7):

𝒍𝒐𝒈(𝒚) = 𝒂 + 𝒃𝒙 − 𝒄𝒙𝟐

𝟐
𝒚 = 𝐞 𝒂+𝒃𝒙−𝒄

3
Em homenagem à Friedrich Gauss, que descreveu matematicamente uma
distribuição estocástica com forma de sino, como veremos no capítulo 7.

52
Figura 4.7. Curva gaussiana e sua equação. Note que a curva gaussiana nada mais
é que uma parábola transformada para a escala exponencial.

53
5. REGRESSÃO MÚLTIPLA

O problema da correlação entre preditores


Muitas vezes, nossas variáveis de interesse podem estar associadas a outras, o que
pode dificultar a detecção de relações de causalidade entre as variáveis.
Consequentemente, regressões simples podem não ser tão úteis.

O patauá (Oenocarpus bataua) é uma palmeira comum na Amazônia. Em geral, há


mais patauá próximo aos igarapés (córregos amazônicos), sugerindo que o patauá
precisa de muita água (figura 5.1, letra a). Ao mesmo tempo, plantas também
precisam de nutrientes, sobretudo nutrientes relativamente escassos, como o fósforo
(P) (figura 5.1, letra b). Quando olhamos a relação entre o teor de fósforo do solo e a
distância do igarapé, notamos que há mais fósforo justamente próximo aos igarapés
(figura 5.1, letra c). Não por acaso, também há uma forte relação entre a quantidade
de patauá e o teor de fósforo do solo. Assim, fica a pergunta: por que há mais
patauá perto dos igarapés? Por causa da água? Do fósforo? Ou dos dois?

Figura 5.1. Relações entre abundância da palmeira patauá (Oenocarpus bataua),


distância até o igarapé mais próximo e o teor de fósforo do solo em uma floresta
tropical nas cercanias de Manaus, AM.

54
Correlações entre preditores costumam ser chamadas de multicolinearidade. Para
resolver este problema, estatísticos criaram um método padrão: o experimento. A
ideia é simples: variamos apenas a variável cujo efeito queremos testar, controlamos
todas as outras variáveis que puderem ser importantes, e vemos o que acontece
com nossa variável resposta. É daqui que vem o termo “variável independente”: em
um experimento, a variável preditora é medida de modo a ser independente de
outras variáveis, para que seu efeito (se houver) não seja confundido com o de
qualquer outra coisa.

Poderíamos pensar em um experimento onde plantamos patauá em vários locais e,


em cada local, mantemos todas as características ambientais constantes, exceto a
disponibilidade de água. Após certo tempo, contamos quantos patauás cresceram.
Se houver mais patauás onde houver mais água, então o efeito só pode ser da
água. Poderíamos aplicar a mesma ideia ao fósforo, para testar se este nutriente
tem algum efeito, independentemente da água. O problema é que, em muitas
situações, simplesmente não é possível fazer um experimento controlado como
esse, seja por questões éticas (e.g. certas questões envolvendo animais ou
pessoas), ou por limitações logísticas e/ou financeiras (e.g. como faz um
experimento com planetas ou galáxias?!). Além disso, quando fazemos um
experimento, nós determinamos quais preditores são livres para variar e o quanto
cada um varia, e nossas escolhas não necessariamente refletirão o que ocorre na
natureza. Assim, experimentos são ótimos para determinar causalidade – se uma
variável causa ou não certo efeito – mas são limitados no quanto nos permitem falar
sobre o que é mais ou menos importante sob condições naturais, que é o que
cientistas como biólogos, geólogos, economistas ou sociólogos querem saber. E
agora?

Combinando regressões em uma só: regressão múltipla


Vejamos a relação entre a abundância de patauá e a distância do igarapé (figura
5.2). Como já vimos no capítulo 3, a reta sumariza a relação entre as variáveis.
Logo, a variação em torno da reta só pode refletir fatores que não tem a ver com
distância do igarapé. Por exemplo, a uma distância de aproximadamente 50 metros
do igarapé há, em média, 100 patauás, embora a abundância possa ser muito maior
ou muito menor que isso (figura 5.2). Se a distância é a mesma para todas essas

55
abundâncias, então essa variação certamente não pode ser explicada pela distância.
Assim, podemos dizer que a reta é componente determinístico da regressão. Os
resíduos demonstram que nem toda a variação na abundância é explicada pela
distância do igarapé, e representam o componente estocástico (ou aleatório) da
regressão. Nesse caso, é provável que alguma outra variável (que não medimos e
talvez nem conheçamos) pode estar causando essa variação.

Podemos extrair os resíduos desse gráfico e criar uma nova variável dependente,
“resíduos da abundância”. Por definição, esta nova variável representa a variação na
abundância que não tem a ver com a distância do igarapé. Assim, podemos usá-la
para perguntar: será que algum outro fator (e.g. o fósforo) tem relação com a
abundância, depois que descontamos o efeito da distância do igarapé?

Figura 5.2. Relação entre abundância de patauá (Oenocarpus bataua) e distância do


igarapé. A reta representa a abundância média, estimada por mínimos quadrados;
as setas indicam os resíduos. Note que, para uma mesma distância (e.g. 50 m), a
abundância pode ser muito maior ou muito menor que a média predita pela reta,
sugerindo que outros fatores também afetam a abundância. Assim, podemos usar os
resíduos para testar se algum outro fator explica a variação na abundância, depois
que descontamos o efeito da distância do igarapé.

Da mesma forma, podemos repetir este procedimento para o fósforo: depois que
“tiramos” o efeito do fósforo, a distância do igarapé tem algum efeito? Deste modo,
podemos isolar estatisticamente o efeito de um preditor dos possíveis efeitos de
outros preditores. Combinando os efeitos isolados de dois ou mais preditores em

56
uma mesma regressão, temos uma regressão múltipla. A regressão múltipla é
extremamente útil porque quebra correlações entre preditores, isolando o efeito
independente de cada um (mais detalhes sobre isso no capítulo 7). Isso permite
avaliar melhor quais variáveis podem afetar ou não a variável resposta, sem precisar
fazer um experimento controlado. Parece mágica – mas é estatística!

A regressão múltipla é representa pela equação:

̅ = 𝒂 + 𝒃𝟏 𝒙𝟏 + 𝒃𝟐 𝒙𝟐 +. . . +𝒃𝒏 𝒙𝒏
𝒚

onde Y com traço em cima representa a média da variável resposta Y, X representa


a variável preditora, “a” é o intercepto (intercept), “b” é a inclinação (slope), e “n”
representa o número de preditores. Note que se trata meramente da equação da
reta que usamos na regressão simples, com termos adicionais para cada preditor
além do primeiro. Para relembrar detalhes sobre regressão simples, reveja o capítulo
3.

No caso da regressão múltipla, temos apenas um intercepto, que pode ser


interpretado como a média dos interceptos de todos os preditores. As inclinações
representam o quanto Y muda por unidade de cada um dos X, independentemente
dos demais preditores incluídos na regressão. O coeficiente de determinação (r²)
agora é chamado de coeficiente de determinação múltipla (R²), e sumariza a
variação explicada conjuntamente por todos os preditores que tenham algum efeito.
Além disso, passamos a ter dois tipos de teste de teste de hipótese nula: (1) um
teste global, baseado na estatística F, que determina se nosso modelo explica
uma variação maior que o esperado ao acaso; e (2) um teste para cada uma das
inclinações, baseados na estatística t, que indica se um preditor em particular tem
efeito maior que o esperado ao acaso – tal como na regressão simples. Sempre
devemos olhar primeiro a significância global; mesmo que incluamos preditores sem
nenhum efeito sobre nossa variável dependente, a probabilidade de eles explicarem
absolutamente nenhuma variação (i.e. R² exatamente igual a zero) é muito baixa.
Logo, mesmo variáveis sem qualquer relação com a variável resposta podem
explicar alguma variação por puro acaso, e quanto mais preditores aleatórios, maior
esse risco. Mas não queremos basear nossas conclusões no acaso! O teste global
nos protege disso. Para relembrar detalhes sobre inferência, reveja o capítulo 2.

57
Interação entre preditores
Em alguns casos, o efeito de um preditor sobre a variável resposta depende do valor
de outro preditor. Nesses casos, nós temos uma interação entre preditores. Um
exemplo ecológico disso é a hipótese do “deslocamento de caráter” (character
displacement): quando duas espécies ecologicamente parecidas (que consomem
recursos similares) ocorrem separadas (em alopatria), tendem a ser de um jeito;
quando ocorrem juntas (em simpatria), tendem a ser de outro. Há várias causas para
isso. Por exemplo, em animais que se comunicam por vocalizações (p.ex. aves e
primatas), espécies parecidas podem mudar certas características do seu som para
que sejam mais parecidas em simpatria que em alopatria, possivelmente porque isso
facilita o reconhecimento de certos comportamentos entre espécies e evita conflitos
territoriais (Sobroza et al. 2021). Assim, a variável dependente (característica do
som) pode refletir uma interação entre espécie (espécie A ou espécie B) e contato
geográfico (alopatria ou simpatria). Ou seja, o efeito da espécie sobre o som pode
mudar dependendo se estão em alopatria ou simpatria (Fig. 5.3).

5.3. Exemplo de interação estatística na ecologia: deslocamento de caráter.


Saguinus bicolor (sauim-de-coleira) e Saguinus midas (sauim-de-mãos-douradas)
são duas espécies de primatas amazônicos ecologicamente parecidas (tamanho e
dieta similares), que usam chamados longos pare se comunicar. Uma característica
desses chamados é a largura de banda, ou a diversidade frequências contidas no
som. Em florestas primárias (sem perturbação humana) onde as espécies ocorrem
separadas uma da outra (alopatria), elas fazem chamados longos com larguras de
banda diferentes. Porém, quando ocorrem juntas (simpatria), S. midas emite larguras
de banda similares às de S. bicolor. Cada ponto representa um local. Adaptado de
Sobroza et al. (2021).

58
Interações são representadas como produtos entre dois ou mais preditores na
equação da regressão múltipla. Por exemplo, para testar se há interação entre os
efeitos de espécie e contato geográfico sobre a largura de banda dos sons emitidos
pelos sauins, teríamos:

̅̅̅̅̅̅̅̅̅̅̅̅ = 𝒂 + 𝒃𝟏 𝒆𝒔𝒑é𝒄𝒊𝒆 + 𝒃𝟐 𝒄𝒐𝒏𝒕𝒂𝒕𝒐 + 𝒃𝟑 𝒆𝒔𝒑é𝒄𝒊𝒆 × 𝒄𝒐𝒏𝒕𝒂𝒕𝒐


𝒍𝒂𝒓𝒈𝒖𝒓𝒂

Outro exemplo de interação pode ser observado na evolução da relação entre forma
e função. Por exemplo, a dieta de uma espécie de animal costuma ser relacionada
ao seu tamanho corporal, já que tamanhos diferentes impõem restrições diferentes
sobre a capacidade de coletar a digerir alimento. Porém, o efeito do tamanho sobre
a dieta pode mudar dependendo de outras adaptações das espécies, como a forma
das mandíbulas (Pequeno et al. 2021; figura 5.4).

Figura 5.4. Cupins são insetos sociais que se alimentam de substratos variando
grandemente no grau de decomposição ou mineralização, desde madeira (pouco
mineralizado) até matéria orgânica do solo (altamente mineralizado). O grau de
mineralização da dieta de uma espécie aumenta com o tamanho corporal, mas
apenas em espécies com mandíbulas “socadoras” (que funcionam como um pilão,
adaptadas para revolver substratos quebradiços, como solo). Já em espécies com
mandíbulas “trituradoras” (com superfície áspera, adaptadas cortar e esmagar fibras
vegetais), essa relação praticamente não existe. Cada ponto é uma espécie. Note
que a massa corporal está em escala logarítmica, para facilitar a visualização da
relação. Adaptado de Pequeno et al. (2021).

59
No caso dos cupins, para testar uma interação entre massa corporal e forma da
mandíbula sobre a mineralização da dieta, teríamos:

̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅̅ = 𝒂 + 𝒃𝟏 𝒎𝒂𝒔𝒔𝒂 + 𝒃𝟐 𝒇𝒐𝒓𝒎𝒂 + 𝒃𝟑 𝒎𝒂𝒔𝒔𝒂 × 𝒇𝒐𝒓𝒎𝒂


𝒎𝒊𝒏𝒆𝒓𝒂𝒍𝒊𝒛𝒂çã𝒐

Importante: não confunda interação com correlação! Correlação entre preditores


significa que um ou mais preditores tendem a mudar juntos. Isso não diz nada sobre
o efeito que eles têm na variável resposta ou dependente. Uma interação significa
que um preditor tem um efeito, mas este efeito muda conforme outro preditor muda.

60
6. PREDITORES CATEGÓRICOS

Representando nomes com números

Em alguns casos, temos preditores que não são quantitativos, mas qualitativos ou
categóricos, i.e. representam categorias ou grupos. Exemplos de variáveis
categóricas relativamente comuns são sexo (macho ou fêmea), cor (preto, branco,
vermelho, etc.) e região (Norte, Sul, Sudeste, etc.). Note que todas essas variáveis
“categóricas” na verdade escondem quantidades: “sexo” é um sumário de várias
características quantitativas, incluindo dimensões morfológicas, composição
bioquímica do corpo, concentrações de hormônios, padrões de expressão gênica,
frequência com que a pessoa manifesta diferentes comportamentos, etc. “Cor” é
uma combinação da reflectância das ondas eletromagnéticas com comprimentos de
onda dentro da faixa de luz visível. “Região” é uma combinação de coordenadas
geográficas que determinam exatamente a posição de um lugar na superfície do
planeta. Assim, variáveis categóricas sempre são aproximações grosseiras e, por
isso, sempre têm menos informação que medidas quantitativas. Ainda assim,
frequentemente usamos categorias, ou por tradição, ou porque às vezes é muito
difícil medir diretamente o que nós realmente queremos.

Categorias geralmente são representadas como palavras, mas até agora vimos que,
para representar relações entre variáveis, usamos números e equações. Como
expressar nomes ou palavras como números? Se os nomes indicarem categorias
ordinais (em que umas são intrinsecamente maiores que outras, p.ex. “baixo” e
“alto”), podemos usar números inteiros como 1, 2, e 3, p.ex. 1 para “baixo”, 2 para
“médio” e 3 para “alto”. Mas muitas variáveis categóricas não representam
necessariamente uma ordem, mas sim grupos diferentes. Uma forma simples de
resolver isso é usar código binário (0 e 1), ou dummy variable.

Preditor com apenas duas categorias: teste t

O caso mais simples é quando temos apenas dois grupos. Por exemplo, imagine
que queremos comparar abundância de uma espécie entre dois hábitats (e.g.
vegetação aberta vs. fechada). Podemos representar qualquer um dos dois grupos
como 0, o outro como 1, e então fazer uma regressão entre abundância e “hábitat”

61
codificado desta forma. Note que, agora, o intercepto representa a média do grupo
indicado como 0, e a inclinação indica a diferença entre as médias dos grupos
(figura 6.1).

Figura 6.1. Abundância de uma dada espécie em diferentes “hábitats”. Nesse caso,
habitat trata-se de uma variável categórica com dois grupos, representada com
código binário (0 ou 1). Cada ponto representa um local, e a linha vermelha
representa uma reta de regressão. Note que o intercepto (o ponto onde a reta corta
Y quando X = 0) passa a ser a média do primeiro grupo, porque este grupo é
representado exatamente como 0. Já a inclinação passa a ser a diferença entre as
médias dos grupos, porque ela indica quantas unidades Y muda por unidade de X, e
de 0 para 1 há exatamente uma unidade. Se somamos o intercepto à inclinação,
teremos a média do grupo 1.

Assim, testar se a inclinação da reta difere significativamente de zero é o mesmo


que testar se há diferença entre as médias dos grupos. Como vimos nos capítulos 2
e 3, podemos usar a estatística t para testar a inclinação da regressão. Não por
acaso, quando fazemos uma regressão entre uma variável resposta quantitativa e
um preditor categórico com apenas duas categorias, chamamos tradicionalmente de
teste t. Note, porém, que isto é exatamente a mesma coisa que uma regressão feita
com um preditor codificado como 0 ou 1. Desse modo, independentemente de você
usar um teste t ou regressão simples, o resultado será o mesmo. Pense nisso!

62
Preditor com três categorias ou mais: ANOVA e ANCOVA

Agora imagine que queremos saber se há relação entre a abundância de uma


espécie e “hábitat”, um preditor categórico com três categorias: baixio (terras mais
baixas), platô (terras mais altas) ou vertente (encostas) (figura 6.2).

Figura 6.2. Relação entre abundância de uma espécie e “hábitat”, uma variável
categórica com três grupos.

Podemos representar estes três grupos com dummy variables cujas combinações
identificam exatamente cada grupo, e então fazer uma regressão múltipla tendo
estas novas variáveis como preditores (figura 6.3):

63
Figura 6.3. Regressão múltipla entre abundância de uma espécie e “hábitat”, um
preditor categórico (baixio, platô e vertente) codificado como código binário. Ao invés
de uma única variável “hábitat”, precisamos de duas variáveis binárias para
representar as três categorias. Os valores estimados dos coeficientes são
hipotéticos.

Note que, para representar três grupos, precisamos de duas dummy variables, que
vamos chamar genericamente de X1 e X2. Quando as duas são 0, significa que
estamos falando do baixio; quando X1 é 1 e X2 é 0, estamos falando do platô; e
quando X1 é 0 e X2 é 1, estamos falando da vertente. A combinação que escolhemos
para indicar cada grupo é totalmente arbitrária; computadores normalmente seguem
ordem alfabética, mas isso não é obrigatório.

Ao fazermos a regressão múltipla usando X1 e X2 como preditores, note que cada


coeficiente passa a ser associado a um grupo. Por exemplo, quando X1 e X2 são
zero, a equação fica 7.8 + 3.7×0 + 12×0 = 7.8. Como a equação indica a média da
variável resposta, isto nos diz que a média da abundância da espécie no baixio é 7.8
indivíduos! Agora, se X1 = 1 e X2 = 0, estamos falando do platô, e teremos 7.8 +
3.7×1 + 12×0 = 11.5. Logo, a abundância média no platô é 11.5 indivíduos. O
mesmo pode ser feito para obter a média da vertente. Assim, a equação nos diz a
média de cada grupo! Se houver alguma diferença entre grupos, então nossas
dummy variables (que representam os grupos) devem explicar alguma variação na
abundância além do esperado ao caso. Já vimos que, na regressão múltipla, isto é
testado com a estatística F, então podemos aplicar exatamente essa ideia aqui.

64
Tradicionalmente, quando fazemos uma regressão entre uma variável resposta
quantitativa e uma variável preditora categórica com três ou mais categorias,
chamamos de Análise de Variância (ANOVA). Quando temos dois ou mais
preditores, uns quantitativos e outros categóricos, chamamos de Análise de
Covariância (ANCOVA) (a figura 5.4 é um exemplo). A ANOVA foi concebida por
Ronald Fisher (1918).

Note que os coeficientes representam a média de um grupo (intercepto) ou


diferenças entre médias (inclinações) dos outros grupos em relação ao grupo de
referência, representado pelo intercepto. Porém, normalmente não queremos testar
se todos os grupos diferem em relação um mesmo grupo de referência, mas sim
comparar todos os grupos entre si, para saber quais diferem de quais. Há várias
formas de fazer isso. Uma das mais populares é aplicar outro teste sobre o resultado
da ANOVA, que testa quais médias diferem de quais. Este tipo de teste costuma ser
chamado de teste post hoc (do latim, “depois disto”). Um dos testes post hoc mais
comumente usados é o teste de Tukey, criado pelo matemático americano John
Tukey (1915-2000).

Modelo Linear Geral: vários nomes, o mesmo método

Se o teste t, a ANOVA, e a ANCOVA nada mais são que aplicações da regressão a


preditores categóricos, então... Teste t, ANOVA, ANCOVA e regressão são a mesma
coisa! Mas, nos primeiros capítulos dessa apostila já vimos que regressão,
correlação e covariância também são a mesma coisa. Logo, covariância, correlação,
regressão (simples e múltipla), teste t, ANOVA e ANCOVA são todos exatamente a
mesma coisa! Quando um programa de computador executa estas análises, ele usa
o mesmo código de programação (com código binário para preditores categóricos),
porque todas elas são apenas diferentes apresentações do mesmo método: um
modelo linear. Isto é, uma equação de soma (e.g. Y = a + bX) que indica como a
média de uma variável muda em relação à(s) outra(s), cujos parâmetros são
estimados através do método dos mínimos quadrados. Por isso, todas essas
análises recebem o nome conjunto de Modelo Linear Geral (não confundir com
“Modelo Linear Generalizado (GLM)”, capítulo 8).

Mas então por que usamos nomes diferentes, se todas essas análises são a mesma
coisa? Porque, como vimos, cada análise surgiu em um contexto histórico diferente,

65
a partir da pesquisa de pessoas diferentes, parecendo coisas realmente diferentes
(Apêndice 1). No fim do século XIX, Galton e Pearson, entre outros, ajudaram a
popularizar a correlação e a regressão. Em 1908, Gosset criou o teste t. Uma
década depois, Fisher criou a ANOVA e, no processo, elucidou as relações entre
regressão, teste t e ANOVA (Fisher 1918; 1922a). De fato, Fisher, “criou” a ANOVA
a partir de uma regressão múltipla – exatamente como vimos!

Apesar disso, nas cinco décadas subsequentes (1920 – 1970), os primeiros livros-
textos de estatística para cientistas ensinavam correlação, regressão, teste t e
ANOVA separadamente, como se fossem coisas diferentes. Isso se deve, em
grande parte, à motivação por trás desses métodos: correlação e regressão foram
desenvolvidas principalmente a partir de estudos observacionais ou correlativos
sobre genética e evolução, como aqueles de Galton e Pearson, onde as variáveis
são medidas em condições naturais. Já teste t e ANOVA foram popularizados por
Fisher, que – embora também tenha feito contribuições importantes à genética e
evolução – queria ajudar agrônomos a delinear estudos experimentais (p.ex. teste
de fertilizantes), nos quais as variáveis preditores geralmente são manipuladas para
assumirem alguns valores específicos – os chamados tratamentos. Como esta
manipulação frequentemente foca em poucos valores, essas variáveis criadas
experimentalmente eram convenientemente analisadas como categorias.

Somente no fim dos anos 1960, estatísticos começaram a popularizar o estudo


unificados desses métodos entre cientistas (Cohen, 1968). Por tradição, os nomes
históricos continuam sendo usados rotineiramente (Apêndice 2). O importante é: se
você entende o que é um modelo linear, você automaticamente entende todas essas
análises!

66
7. PROPRIEDADES DO MODELO LINEAR GERAL

Criando modelos estocásticos

Vimos que um modelo linear é um método relativamente simples e extremamente


flexível para descrever e testar relações entre variáveis. Não por acaso, modelos
lineares são de longe o método de análise de dados mais usado na maioria das
disciplinas científicas, de física e biologia à psicologia e ciências sociais. Porém,
normalmente, aplicamos modelos lineares à dados cujas relações reais são
desconhecidas, caso contrário, não precisaríamos dos modelos. Logo, temos que
confiar que nossas inferências a partir dos modelos (i.e. coeficientes estimados e
medidas de incerteza associadas) refletem a realidade. Mas o quanto podemos
confiar nisso? A única forma de saber se nossos métodos realmente funcionam é
criar dados fictícios com relações conhecidas, aplicar os métodos, e então
determinar o quanto as estimativas recuperam os valores reais dos parâmetros que
nós criamos. Mais ainda, podemos usar simulações para determinar as propriedades
do modelo linear. Isto é, como e quanto diferentes situações afetam as estimativas,
de modo a sabermos quando ele é mais ou menos útil.

A fim de representar o componente determinístico das relações, podemos usar a


equação linear para descrever uma tendência. Porém, também precisamos
representar o componente estocástico, i.e os desvios ou resíduos em torno da
tendência. Poderíamos escolher valores arbitrários para os resíduos “de cabeça”,
um por um, mas isso não seria nem um pouco prático. O que precisamos é de uma
distribuição estocástica, i.e. uma regra que gere automaticamente variabilidade
em torno de uma tendência.

A distribuição normal ou gaussiana

Imagine que nós vivemos em um universo paralelo onde nós somos Deuses (ou
Deusas) – onipresentes, oniscientes e, mais importante, onipotentes. Nós podemos
criar tanto planetas quanto os seres vivos que os habitam. Vamos criar uma espécie
de planta. Para nossa planta proliferar, nós decidimos que ela precisa de cinco
fatores limitantes: água, luz, nitrogênio, potássio e fósforo (figura 7.1).

67
Figura 7.1. Fluxograma mostrando relações hipotéticas entre a densidade de uma
espécie e os cinco fatores que a limitam, conforme nossa vontade. As setas indicam
qual variável afeta qual variável; os sinais indicam se o efeito é positivo ou negativo.

Podemos representar esses efeitos hipotéticos matematicamente usando uma


equação linear (assunto já abordado nos capítulos 3, 4, e 5). Por exemplo:

𝒅𝒆𝒏𝒔𝒊𝒅𝒂𝒅𝒆 = 𝒂 + 𝒃𝟏 á𝒈𝒖𝒂 + 𝒃𝟐 𝒍𝒖𝒛 + 𝒃𝟑 𝑵 + 𝒃𝟒 𝑲 + 𝒃𝟓 𝑷

Para simplificar mais ainda, vamos dizer que, quando todos os fatores limitantes são
zero, a planta não consegue proliferar e, portanto, sua densidade tende a ser zero (a
= 0). Também vamos assumir que todos os fatores limitantes têm o mesmo efeito (b1
= b2 = b3 = b4 = b5 = 1). Assim, ficamos apenas com:

𝒅𝒆𝒏𝒔𝒊𝒅𝒂𝒅𝒆 = á𝒈𝒖𝒂 + 𝒍𝒖𝒛 + 𝑵 + 𝑲 + 𝑷

Agora, precisamos criar valores para nossos preditores para gerar a densidade da
planta. Poderíamos escolher valores exatos para cada uma, mas isso daria muito
trabalho! Vamos simplesmente assumir que cada um pode variar dentro de certos
limites (p.ex. 0 a 100), e sortear n valores de cada uma. De posse desses valores,
podemos finalmente somar os preditores que criamos conforme a equação acima,
para gerar as densidades. Se fizermos isso, veremos que, curiosamente, a
distribuição de frequências da nossa variável resposta terá uma forma simétrica, de

68
sino. Isto é, a maioria dos locais no nosso planeta terá densidades intermediárias da
espécie, ao mesmo tempo em que teremos locais com densidades menores ou
maiores em igual proporção à medida que nos afastamos da tendência central
(figura 7.2). Esta distribuição é conhecida como distribuição normal ou gaussiana,
em homenagem a Friedrich Gauss, um dos primeiros a estudá-la, na virada do
século XVIII para o século XIX. Porém, seu uso foi popularizado apenas no fim do
século XIX, entre outros, por Francis Galton: acreditando que variáveis medidas no
mundo real geralmente tinham essa distribuição de frequências, Galton a via como
uma regra ou “norma” da natureza – daí o nome “normal”.

Figura 7.2. Distribuição normal ou gaussiana da densidade simulada.

Se fizermos uma regressão entre nossa variável resposta simulada e qualquer um


dos nossos preditores simulados, também observaremos que os resíduos seguem
uma distribuição normal: para cada valor de X, os resíduos mais comuns serão
aqueles próximos da média (i.e. da reta), diminuindo em frequência quanto mais nos
afastamos dela (figura 7.3). Assim, a distribuição normal é controlada por dois
parâmetros: a média, que diz onde está a maioria dos valores, e a variância, que diz
o quão espalhados os valores estão em torno da média. Ela não tem limites inferior
ou superior; os valores podem ir de -∞ a +∞ (figura 7.3).

69
Figura 7.3. Regressão cujos resíduos têm distribuição normal. “Y = Normal(média,
variância)” significa que a variável Y segue uma distribuição normal com uma dada
média e uma dada variância. A média, porém, não é fixa; ela muda com X, de
acordo com a equação linear a + bX.

Pronto! Agora temos um modelo verdadeiramente estocástico para simular dados.


Além de determinar a média de Y, nosso modelo também diz como se dá variação
em torno da média: através de uma distribuição normal, cuja média é dada pela
equação linear que representa a relação entre Y e X, e cuja dispersão em torno
desta tendência tem uma dada variância (que já conhecemos do capítulo 1). O
interessante é que, essencialmente, tudo que nós fizemos foi somar variáveis
aleatórias! Esta tendência de que a soma de várias variáveis aleatórias ou de seus
efeitos gere uma distribuição normal é conhecida como Teorema do Limite Central,
o qual foi demonstrado pela primeira vez pelo matemático francês Abraham de
Moivre (1667-1754).

Viés e precisão das estimativas

Podemos usar nosso simples modelo linear estocástico para simular várias amostras
de um dado universo amostral onde os parâmetros (intercepto, inclinações e
variância dos resíduos) assumem os valores que quisermos. Isto nos permite medir
o quanto nossas estimativas obtidas por Mínimos Quadrados se aproximam dos

70
valores reais, que nós escolhemos. De fato, é exatamente isto que estatísticos
fazem para testar seus métodos.

Quando trabalhamos com amostras, sabemos que, para cada amostra diferente que
coletarmos, teremos estimativas diferentes devido à incerteza inerente à
amostragem. Portanto, há incerteza nas nossas estimativas. Podemos caracterizar
nossas estimativas com base em duas características: viés e precisão. Viés é o
quanto nossa estimativa desvia do valor real de um parâmetro, em média.
Idealmente, queremos que nossas estimativas não tenham viés nenhum! Já
precisão é o quão variável a estimativa é entre diferentes amostras. Idealmente
queremos estimativas precisas, i.e. que variem pouco entre amostras. No capítulo 2,
vimos formas de medir precisão, i.e. erro padrão e intervalo de confiança.

Para entendermos viés e precisão mais claramente, podemos pensar em um jogo de


dardos: o parâmetro é o “alvo” que queremos acertar, e nossas estimativas são os
dardos. Quanto mais perto do alvo acertamos, menor o viés; quanto mais próximas
as posições que acertamos, maior a precisão (figura 7.4).

Figura 7.4. Diferentes combinações de viés e precisão. O círculo preto no centro


representa o parâmetro, cujo valor queremos acertar. Os pontos vermelhos
representam nossas estimativas, cada uma obtida com uma amostra diferente.
Quanto mais próximas do alvo, menor o viés das estimativas. Quanto mais próximas
entre si, maior a precisão das estimativas.

71
Pressupostos e robustez do Modelo Linear Geral

Gauss demonstrou que, quando os resíduos são independentes (o conceito de


“independência” é apresentado no capítulo 2) e a distribuição dos resíduos de um
modelo linear é normal (normalidade dos resíduos) e constante ao longo de X
(homocedasticidade dos resíduos) (figura 7.3), o critério de mínimos quadrados
garante que nossos chutes sobre o intercepto e a inclinação não terão viés (i.e.
estarão certos, em média) e serão tão precisos quanto possível (i.e. erro padrão
relativamente baixo). Por isso, nestas condições, diz-se que o modelo linear é
BLUE, i.e. Best Linear Unbiased Estimator, ou “melhor estimador linear não
enviesado”. Posteriormente, o matemático russo Andrey Markov (1856–1922)
demonstrou que essa conclusão é válida mesmo se os resíduos não tiverem
distribuição normal! Por isso, tudo que precisamos para que o modelo linear seja
BLUE é que os resíduos sejam independentes e a variância seja constante. Esta
conclusão é conhecida como Teorema de Gauss-Markov. Assim, dizemos que o
modelo linear é robusto a desvios de normalidade dos resíduos (Cohen et al.
2003). Por outro lado, para que a distribuição das estatísticas (p.ex. t, F) usadas
para obter valores de P, erros padrões e intervalos de confiança se comportem
como o esperado e sejam confiáveis, precisamos tanto de homocedasticidade
quanto de normalidade dos resíduos.

Desvios leves a moderados de homocedasticidade (heterocedasticidade) não


afetam muito os resultados e, portanto, o Modelo Linear Geral também pode ser
considerado robusto à heterocedasticidade até certo grau, embora esta robustez
seja menor que a desvios de normalidade. Porém, heterocedasticidade acentuada
(p.ex. capítulo 8, “Modelo Linear Generalizado”, figura 8.13) enviesa a estimativa da
variância dos resíduos para mais ou para menos, dependendo da forma da
heterocedasticidade. Embora nossas estimativas de intercepto e inclinação
continuem sem viés (i.e. corretas, em média), o viés da estimativa da variância afeta
a precisão dos coeficientes e, portanto, os valores de P, erros padrões e intervalos
de confiança (Gujarati & Porter 2009). Isto significa que corremos um risco maior
tanto de detectar um efeito que não existe (erro tipo I) quanto de não detectar um
efeito que existe (erro tipo II).

72
Há várias formas de contornar desvios acentuados destes pressupostos. Uma forma
relativamente simples é logaritmizar a variável resposta (Y). Como vimos no capítulo
4, o log tende a reduzir discrepâncias entre valores muito diferentes em uma dada
escala, o que pode “normalizar” distribuições não normais e homogeneizar a
variância ao longo de X. Acontece que isso não é uma garantia, já que pode
funcionar em alguns casos, mas não em outros. Uma segunda possível solução é
ignorar as estatísticas, os Ps e os intervalos de confiança obtidos matematicamente
e usar simulação para obtê-los, como fizemos no capítulo 2. Como as distribuições
geradas assim são baseadas nos próprios dados, elas automaticamente incorporam
todas as suas características (Gotelli & Ellison 2011). Uma terceira possível solução
é simplesmente adotar uma distribuição que faça mais sentido para os resíduos.
Esse é o “território” dos Modelos Lineares Generalizados (GLM), como veremos no
capítulo a seguir (capítulo 8).

Efeitos do tamanho da amostra, ruído, multicolinearidade e número de


parâmetros

Quatro fatores principais afetam as estimativas de um modelo linear: (1) o tamanho


da amostra (n); (2) a dispersão dos pontos em torno da tendência que investigamos
(variância ou desvio padrão dos resíduos, também medida pelo R²), ou ruído
(noise); (3) o grau de correlação entre preditores, ou multicolinearidade; e (4) o
número de para parâmetros para estimar no modelo. Usando nosso modelo linear
com resíduos com distribuição normal e homocedástica, podemos criar uma relação,
simular várias amostras, e ver como esses fatores afetam nossas estimativas.

Quanto menor o tamanho amostral, maior é a variabilidade das estimativas (figura


7.5). Porém, em média, as estimativas giram em torno do valor real do parâmetro,
mostrando que elas não são enviesadas, qualquer que seja o tamanho da amostra.
O problema é que, no mundo real, nós normalmente coletamos apenas uma
amostra, e não várias. Por isso, quando a amostra é muito pequena, nossa
estimativa individual pode ser muito enviesada, mesmo que, em média, saibamos
que ela não é. Por outro lado, note que a precisão das estimativas aumenta
rapidamente com o tamanho da amostra e então fica mais ou menos constante, de
modo que não precisamos de amostras gigantescas para ter uma precisão razoável:

73
a diferença maior é entre amostras moderadas e amostras pequenas (figura 7.5).
Além disso, quanto maior o tamanho da amostra, menor o valor de P. É intuitivo:
quanto mais informação temos, menor a incerteza sobre os resultados e, portanto,
menor a chance de observarmos uma dada estimativa por acaso.

Figura 7.5. Variação na estimativa da inclinação b e no valor de P do teste da


inclinação em relação ao tamanho da amostra. Cada ponto representa uma
simulação, i.e. uma amostra de uma relação entre duas variáveis quantitativas
gerada de acordo com o Modelo Linear Geral, e analisada com este mesmo modelo.
A linha tracejada indica o valor real dos parâmetros nas simulações.

Por outro lado, quando variamos a dispersão dos pontos na relação (medida pelo
coeficiente de determinação, R²) mas mantemos o tamanho da amostra constante,
notamos o seguinte: quando a dispersão é muito grande (R² perto de 0,0), o modelo
não consegue discernir entre algum efeito (inclinação real) e efeito nenhum
(inclinação de zero), e a estimativa tende a zero. À medida que a dispersão diminui
(R² aumenta), o modelo tende a acertar o valor real da inclinação em média. Porém,
variação na estimativa é grande, e só diminui conforme a dispersão diminui ainda
mais (R² perto de 1,0). Ao mesmo tempo, quanto maior o R², menor o valor de P, já
que a incerteza sobre a relação diminui.

74
Figura 7.6. Variação nas estimativas da inclinação b e no valor de P do teste da
inclinação em relação ao coeficiente de determinação (R²). Cada ponto representa
uma simulação, i.e. uma amostra de uma relação entre duas variáveis quantitativas
gerada de acordo com o Modelo Linear Geral, e analisada com este mesmo modelo.
A linha tracejada indica o valor real do parâmetro nas simulações (gráfico da
esquerda) e o nível de significância de 0,05 (gráfico da direita).

Agora, imagine que temos uma variável resposta Y que é afetada por um preditor X1
(b1 = 1), mas não é afetada por uma outra variável X 2 (b2 = 0). Porém, X1 e X2 são
correlacionadas, de tal modo que, se olharmos as relações simples entre Y e X 1 e Y
e X2, é difícil saber se o efeito é de X1, X2 ou ambas (tal como no exemplo do patauá
do capítulo 5). O quanto a regressão múltipla consegue realmente “quebrar” a
correlação entre preditores e identificar corretamente que o efeito é de X 1 e não de
X2? A resposta é: depende da correlação entre os preditores. Quanto mais forte a
correlação, mas imprecisas as estimativas dos seus respectivos efeitos, embora
ambas não tenham viés, em média (figura 7.7). Em geral, a regressão múltipla
consegue identificar corretamente o real efeito. Porém, quando a correlação entre
preditores é muito forte (p.ex. r > 0.8), a imprecisão é tão grande que as estimativas
começam a se sobrepor entre preditores. Assim, corremos o risco de concluir que o
efeito de um preditor, quando na verdade é do outro (figura 7.7). Por outro lado,
quando não há correlação nenhuma entre preditores, as estimativas das regressões
simples e múltipla são idênticas e, portanto, tanto faz analisar os preditores juntos ou
separados. Por isso, analisar vários preditores juntos é mais útil quando a correlação

75
entre preditores é intermediária. Mas e se quisermos “quebrar” mesmo correlações
muito altas? Basta aumentarmos a precisão das nossas estimativas, para não
confundirmos os efeitos entre preditores. A forma mais simples de fazer isso é
aumentando o tamanho da amostra (figura 7.5) (mais detalhes no capítulo 5).

Figura 7.7. Estimativas dos efeitos de dois possíveis preditores em relação à


correlação entre preditores. Cada ponto representa uma simulação, i.e. uma amostra
de uma relação entre duas variáveis quantitativas gerada de acordo com o Modelo
Linear Geral, e analisada com este mesmo modelo. As linhas tracejadas indicam o
valor real dos parâmetros. Nas simulações, apenas X 1 afeta Y (b1 = 1); X1 não afeta
Y (b2 = 1), mas está correlacionada à X2 conforme os valores indicados. Os dois
preditores variam na mesma escala (média zero a variância um).

Finalmente, o que acontece quando adicionamos mais preditores ao modelo? Se


considerarmos um preditor que realmente tem efeito, quanto mais preditores
adicionarmos ao modelo, maior tende a ser o valor de P, e menor a proporção de
vezes que conseguimos detectar o efeito (P < 0,05) (figura 7.8). Estatísticos
costumam dizer que o poder do teste (nossa capacidade de detectar um efeito,
dado que ele existe) diminui ou, de modo similar, que a chance de erro tipo II
aumenta. Isso ocorre porque estamos repartindo a mesma informação disponível
(nossa amostra) cada vez mais a cada novo preditor que adicionamos, de modo que
acabamos com menos informação por preditor, aumentando a incerteza.

76
Agora, e se considerarmos um preditor aleatório, sem nenhum efeito? Neste caso,
se detectarmos um “efeito”, só pode ser por acaso! Assumindo um nível de
significância de 0,05 ou 5%, o valor de P vai oscilar uniformemente entre 0 e 1, e
vamos encontrar um falso “efeito” aproximadamente 5% das vezes (figura 7.8). Ou
seja, se uma variável não tem efeito, a chance de concluir que ela realmente não
tem efeito não depende do número de preditores, e refle unicamente o nível de
significância que escolhemos (figura 7.8). Assim, note que “nível de significância” é a
mesma coisa que a taxa de erro tipo I, ou o quanto aceitamos detectar um efeito que
não existe por acaso, também chamado de “falso positivo”.

Figura 7.8. Simulação do impacto do número de preditores sobre as estimativas de


dois preditores independentes, sendo que um realmente tem um efeito (X1) e outro
não (X2). Cada ponto representa uma simulação, i.e. uma amostra de uma relação
simulada de acordo com o Modelo Linear Geral, e analisada com este mesmo
modelo. As linhas sólidas representam a proporção de resultados significativos (P <
0,05) para cada grupo de simulações com um dado número de preditores; a linha
horizontal tracejada representa o nível de significância ou taxa de erro tipo I. Todas
as variáveis simuladas variam na mesma escala (média zero a variância um).

77
Resumindo: a incerteza sobre nossas estimativas é menor quando (1) nossa
amostra é maior; (2) a relação que investigamos é mais forte (menor dispersão dos
pontos); (3) a correlação entre nossos preditores é menor; e (4) a amostra é grande
em relação ao número de preditores (ou seja, temos muitas observações por
preditor). No mundo real, sabemos que muitas relações são fracas ou “ruidosas”
(p.ex. porque estão sob muitos efeitos misturados), e que vários preditores de
interesse estão correlacionados em maior ou menor grau, de modo que
precisaremos os incluir no mesmo modelo para controlar a confusão que essas
correlações podem causar nas nossas conclusões. Por isso, é muito importante
planejarmos um delineamento amostral que seja compatível a força e número de
relações que esperamos investigar: quanto mais fracas e mais numerosas elas
forem, maior será a informação necessária para obter estimativas razoáveis (maior
amostra).

Se pudermos fazer um experimento, podemos montar um delineamento que quebre


correlações entre preditores e reduza o ruído sobre nossa variável resposta, o que
também nos dará mais segurança para tirar conclusões sobre causa e efeito. Porém,
em um estudo observacional ou de campo, onde o interesse é em entender a
natureza como ela é, os fatores sobre os quais teremos maior controle são o
tamanho da amostra e quais preditores mediremos. Assim, é crucial planejar uma
amostra cujo tamanho seja compatível com o número de relações que pretendemos
investigar, além de escolher criteriosamente que preditores medir, para que o
modelo seja uma representação razoável da nossa hipótese (i.e. nosso fluxograma;
capítulo 1). A “regra do 10” (capítulo 3) serve como um guia grosseiro, mas você
sempre pode fazer simulações para estimar o tamanho amostral mínimo necessário
para detectar certas relações com um dado grau de incerteza (como fizemos aqui),
ou usar alguma “calculadora de tamanho amostral”, desde que tenha alguma ideia
sobre os efeitos que pretende detectar (p.ex. https://www.danielsoper.com/statcalc/).

78
8. MODELOS LINEARES GENERALIZADOS (GLM)

Desvios de normalidade

Até agora, trabalhamos com modelos lineares que usavam a soma dos quadrados
para determinar qual o melhor ajuste da linha de tendência. Como vimos, Gauss
demonstrou que esses modelos assumem implicitamente que os resíduos têm
distribuição normal e homocedástica. Nestas condições, é garantido que nossas
estimativas acertam o valor real dos parâmetros (em média), e podemos usar
fórmulas matemáticas relativamente simples para calcular estatísticas (p.ex. t ou F) e
obter valores de P e intervalos de confiança. No entanto, nem sempre podemos
garantir que esses pressupostos são válidos.

Uma prática relativamente comum em certas áreas é aplicar testes de normalidade


(p.ex. teste de Shapiro-Wilk, teste de Kolmogorov-Smirnov) à variável resposta (Y)
para avaliar se o uso do Modelo Linear Geral é apropriado. A hipótese nula destes
testes é que a variável segue uma distribuição normal. Há pelos menos cinco
problemas com essa prática. Primeiro, o pressuposto de normalidade é sobre os
resíduos, não sobre os valores originais da variável resposta. Consequentemente, a
variável pode ter qualquer distribuição! Segundo, mesmo que aplicássemos estes
testes aos resíduos, frequentemente temos poucas observações por valor de X. Por
exemplo, em uma regressão, geralmente temos apenas um valor de Y para cada
valor de X. Logo, na prática, é impossível avaliar rigorosamente se os resíduos
seguem uma distribuição normal (ou qualquer outra) ao longo de X! Terceiro, testes
de normalidade têm baixo poder para tamanhos de amostra comuns (n < 50) e,
portanto, tendem a dizer que a distribuição é normal quando na verdade ela não é
(Razali & Wah 2011). Quarto, como vimos no capítulo 7, o Modelo Linear Geral é
relativamente robusto à desvios de normalidade dos resíduos. Quinto, normalidade
dos resíduos não garante que eles serão homocedásticos, que é o pressuposto mais
importante. Por tudo isso, este uso para testes de normalidade geralmente tem
pouca utilidade.

Na maioria das situações do mundo real, é mais útil simplesmente usar métodos de
aleatorização para inferência (como no capítulo 2), ou não assumir resíduos com
distribuição normal e/ou homocedástica. Por exemplo, podemos criar modelos que

79
assumem resíduos com distribuição normal com alguma forma de
heterocedastícidade usando Mínimos Quadrados Generalizados (Generalized
Least Squares, GLS). O GLS funciona igual ao método dos Mínimos Quadrados
Ordinários (Ordinary Least Squares, OLS), exceto pelo fato de que os resíduos
recebem um peso na hora de calcular a soma dos quadrados: resíduos maiores
ganham peso menor na soma. Assim, aquelas observações que estão próximas da
tendência contribuem mais para a estimativa da reta. Quando há
heterocedasticidade, são as estimativas obtidas por GLS que são BLUE (i.e. sem
viés e com maior precisão possível), e não as de OLS.

Ao mesmo tempo, há inúmeras distribuições estocásticas além da distribuição


normal, criadas para descrever diferentes tipos de dados. Quase sempre, podemos
prever qual a distribuição da variável resposta e de seus resíduos sabendo apenas
as principais características da variável. Quando generalizamos o modelo linear para
adotar qualquer distribuição para os resíduos (e não apenas a normal), temos um
Modelo Linear Generalizado (GLM) (Nelder & Wedderburn 1972).

A seguir, abordaremos alguns tipos de distribuição úteis para descrever dados não
normais, começando pela distribuição de Poisson.

Distribuição de Poisson

Um tipo relativamente comum de variável resposta são contagens. Contagens só


podem assumir valores inteiros iguais ou maiores que zero. Essas premissas
diferenciam a distribuição de Poisson da normal, que por sua vez admite valores
contínuos (i.e. “quebrados”) e possivelmente negativos. Além disso, contagens
frequentemente têm uma distribuição “espichada” (skewed), com muitos valores
relativamente baixos (p.ex. zeros ou valores próximos de zero).

Em suma, se uma coisa (p.ex. um organismo) é distribuída aleatoriamente no


espaço ou no tempo, e nós demarcarmos várias unidades amostrais de mesma área
ou mesma duração para contar essa coisa, as contagens seguirão a chamada
distribuição de Poisson (pronuncia-se “poassón”) (figura 8.1), em homenagem ao
matemático francês Siméon Poisson (1781-1840).

80
Figura 8.1. A distribuição de Poisson representa contagens. Geralmente, os valores
mais frequentes são relativamente baixos, criando uma cauda espichada para a
direita.

Na distribuição de Poisson, a média e variância das contagens são positivamente


associadas: quando a média de um conjunto de contagens aumenta, a variância
aumenta na mesma proporção e, portanto, são iguais (figura 8.2). Como média e
variância têm informações redundantes, só precisamos de um parâmetro para
representar média e variância ao mesmo tempo, ao qual chamamos de lambda (λ).

Figura 8.2. Relação positiva e proporcional entre média e variância na distribuição


de Poisson. Cada ponto representa uma amostra aleatória de contagens
padronizadas de alguma coisa distribuída aleatoriamente no espaço ou no tempo.
Basta um parâmetro para descrever tanto a média quanto a variância nesta
distribuição, i.e. média = variância = lambda (λ).

81
Quando lambda é baixo (p.ex. λ = 0,8), as contagens tendem a ser baixas e mais
parecidas. Já quando lambda é relativamente alto (p.ex. λ = 12), as contagens
tendem a ser maiores e mais diferentes entre si (i.e. mais variáveis) (figura 8.3).
Quando lambda ≥ 30, praticamente não há diferença entre a forma das distribuições
de Poisson e normal. Este é um exemplo de como a distribuição às vezes funciona
como uma boa aproximação para outras distribuições: se tivermos contagens muito
altas (i.e. com média alta), a distribuição normal pode ser uma aproximação razoável
da distribuição de Poisson.

Figura 8.3. Lambda controla a média e a variância da distribuição de Poisson.


Assim, ele também controla a forma: quanto maior seu valor, mais espalhada a
distribuição, de modo que ela tende a parecer cada vez mais com a normal.
Adaptado de Bolker (2008).

Agora, vamos trocar a distribuição normal pela distribuição de Poisson em um


modelo linear. Lembrando que a equação do modelo descreve a média da variável
resposta Y, temos que ela descreve como lambda muda com X, porque na
distribuição de Poisson, a média é lambda! Mas lembre-se que a variância também é
igual à média... Logo, a distribuição de Poisson é intrinsecamente heterocedástica:
quanto maior a média, maior a variância, de modo que esta última muda
naturalmente ao longo de X (figura 8.4)

82
A B

Figura 8.4. Comparação das distribuições dos resíduos de modelos lineares com
distribuição normal (A) e distribuição de Poisson (B). Enquanto no primeiro caso a
variância é constante ao longo de X (homocedasticidade), no segundo caso ela
aumenta com a média e, portanto, muda ao longo de X (heterocedasticidade).

Como vimos, uma característica fundamental de contagens é que elas não podem
ser negativas. Ocasionalmente, porém, podemos ter preditores que assumem
valores negativos, como temperatura ou déficit hídrico. Se usarmos a equação linear
direto para representar a média das contagens em função deste preditores,
corremos o risco de que nossa equação preveja contagens menores que zero – o
que não faz o menor sentido (figura 8.5)! Como evitar isso? Uma forma simples, e
com a qual já estamos familiarizados, é usar logaritmos: log não é definido para
valores iguais ou menores que zero. Assim, se colocarmos a média de Y na escala
log, esses valores simplesmente não existirão para o nosso modelo. O modelo será:

𝒀𝒎é𝒅𝒊𝒂 = 𝒂 + 𝒃𝑿

𝐥𝐨𝐠(𝒀𝒎é𝒅𝒊𝒂 ) = 𝒂 + 𝒃𝑿

𝒀𝒎é𝒅𝒊𝒂 = 𝐞𝐱𝐩 (𝒂 + 𝒃𝑿)

𝒀𝒎é𝒅𝒊𝒂 = 𝒆𝒂+𝒃𝑿

83
Note que dizer que a média de Y está em escala log é o mesmo que dizer que a
média de Y é dada pelo exponencial da equação linear. Em outras palavras: agora,
ao invés de assumir que a relação entre Y e X é uma reta, nosso novo modelo
assume que a relação segue uma curva exponencial. A função matemática usada
para que a média da variável resposta fique em uma escala que faça sentido é
conhecida como função de ligação (link function). (figura 8.5). Note que, ao fazer
isso, nós automaticamente mudamos as unidades dos coeficientes: o intercepto
agora está em log de Y, e a inclinação, em log de Y por unidade de X.

Figura 8.5. A função de ligação que garante que um GLM só prediga médias que
façam sentido para a variável resposta. No caso da distribuição de Poisson, que
representa contagens, não faz sentido haver valores negativos. Por isso, usamos a
função log, para as quais tais valores não são definidos.

Máxima verossimilhança

Ok, mas como determinar a melhor posição da linha de tendência? Seria possível
usar o método dos mínimos quadrados? Infelizmente, não! Como vimos, ao usar
esse método, assumimos implicitamente que a distribuição dos resíduos é normal!
Porém, podemos usar uma estratégia parecida. Primeiro, podemos “chutar” várias
possíveis linhas de tendência, i.e. intercepto e inclinação(ões) (figura 8.6):

84
Figura 8.6. Para descobrir qual a melhor linha de tendência para um conjunto de
dados, podemos “chutar” várias possíveis linhas de tendências e avaliar qual delas
aumenta a probabilidade de observarmos o conjunto de pontos do gráfico.

Segundo, ao invés de calcular a soma dos quadrados para cada uma, podemos
calcular a probabilidade de que cada ponto amostral ocorra se aquela linha for a
linha verdadeira. Os estatísticos chamam isso de probabilidade condicional, i.e.
probabilidade de observar Y condicionada à nossa curva:

𝑷(𝒀|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂)

E como calculamos essas probabilidades? Assumindo que uma dada distribuição


gerou os resíduos! Por exemplo, se nossa variável resposta é uma contagem,
podemos assumir a distribuição de Poisson. Esta distribuição (ou as várias outras
existentes) tem uma fórmula matemática que descreve exatamente a probabilidade
de vermos certa contagem para um dado valor dos parâmetros (neste caso, apenas
um, lambda). A fórmula em si não nos importa; importa que consigamos enxergar o
que ela faz. Para cada ponto no gráfico, podemos usar a fórmula da distribuição
para “desenhar” que forma exata ela tem em cada posição ao longo da linha de
tendência. Assim, podemos “passear” ao longo da linha, parando em cada ponto,
desenhando a forma esperada da distribuição para aquele valor da linha (i.e. média
de Y), e medindo a probabilidade de observar aquele ponto (figura 8.7).

85
Figura 8.7. Calculando a probabilidade de observar cada ponto no gráfico, segundo
uma das nossas curvas “chutadas”. A linha cortando a nuvem de pontos representa
a média de Y predita pelo modelo, e as curvas unimodais paralelas ao eixo Y
(perpendiculares aos eixos Y e X, “saindo” do gráfico) representam a distribuição de
Poisson. Para cada ponto, nós vemos qual é a média predita pelo modelo,
desenhamos a distribuição de Poisson, e medimos a distância ou “altura” entre o
ponto e a curva da distribuição. Quanto maior esta altura, maior a probabilidade de
observar esse ponto, caso esta seja a linha de tendência verdadeira. A figura ilustra
este cálculo para dois pontos: um com média mais baixa, e outro com média mais
alta. Note que, à medida que a média aumenta ao longo de X, a distribuição de
Poisson fica mais “aberta” (porque média = variância!). Neste exemplo, a
probabilidade de observar o ponto na média mais baixa é maior (“altura” maior, mais
perto da média) que a probabilidade de observar o ponto na média mais alta (“altura
menor”, mais longe da média).

Como temos vários pontos em cada gráfico, temos uma probabilidade independente
para cada um. Assim, precisamos combinar estas probabilidades, de modo a termos
a probabilidade conjunta de gerar estes dados com a nossa curva “chutada”. Para
fazer isso, usamos a regra do E: a probabilidade de um evento ocorrer E outro
evento independente ocorrer também é igual ao produto entre as probabilidades de
cada um. Logo, a probabilidade de observar o primeiro ponto E o segundo E o
terceiro, etc. é igual ao produtório das probabilidades de todos eles:

𝑷𝒓𝒐𝒃𝒂𝒃𝒊𝒍𝒊𝒅𝒂𝒅𝒆 𝒄𝒐𝒏𝒋𝒖𝒏𝒕𝒂 = 𝑷(𝒀𝟏|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) × 𝑷(𝒀𝟐|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) × 𝑷(𝒀𝟑|𝒏𝒐𝒔𝒔𝒂 𝒄𝒖𝒓𝒗𝒂) × …

86
Este processo envolverá n probabilidades, ou seja, o número total de pontos (i.e.
tamanho da nossa amostra). Feito isto para esta curva, podemos chutar muitas
curvas diferentes e repetir o processo para cada uma. Assim, teremos muitas curvas
com muitas probabilidades diferentes de terem gerado os dados. Por fim, podemos
comparar a probabilidade conjunta dos dados entre todas elas, e ficar com aquela
que maximiza essa probabilidade! A probabilidade conjunta dos dados condicionada
a certos parâmetros (i.e. uma curva qualquer) é chamada de verossimilhança
(likelihood), e o modelo com melhor ajuste é aquele com máxima verossimilhança
(maximum likelihood), i.e. que maximiza a probabilidade de gerar os dados. Como
produtos de probabilidades são números muitíssimo pequenos (p.ex. 0,000000...), é
comum usar o logaritmo natural da verossimilhança (log-likelihood), porque em
escala log, valores muito pequenos não são tão pequenos assim! Logo, é mais fácil
interpretar e visualizar esses números. A relação entre (log da) verossimilhança e
valores de um ou mais parâmetros é conhecida como perfil ou superfície de
verossimilhança (likelihood profile ou surface) (figura 8.8).

Figura 8.8. Gráfico hipotético mostrando o funcionamento do método de máxima


verossimilhança (maximum likelihood). Imagine que queremos saber qual curva
representa melhor a relação nos nossos dados. Chutamos vários valores de
inclinação (b) e, para cada um, usamos a distribuição de Poisson para calcular a
probabilidade de cada observação e, então, a probabilidade conjunta das
observações (i.e. verossimilhança). Enfim, observamos como a verossimilhança
muda entre os diferentes valores de b. No exemplo, o valor de b que maximiza a
probabilidade dos dados é em torno de 3, onde se forma um “pico”. Logo, esta é a
nossa melhor estimativa, i.e. de máxima verossimilhança.

87
Além disso, historicamente, é mais fácil programar um computador para encontrar
um valor mínimo que um máximo. Por isso, normalmente o log da verossimilhança é
multiplicado por -1. Com isso, o “pico” da superfície de verossimilhança se inverte, e
o objetivo passa ser minimizar o negativo do log da verossimilhança (figura 8.9).

Figura 8.9. Gráfico hipotético mostrando o mínimo do negativo do log da


verossimilhança em relação aos valores de um parâmetro (b). Note que, apesar da
mudança de escala ter virado o gráfico de cabeça para baixo, a estimativa de
máxima verossimilhança (ou que minimiza o negativo do log da verossimilhança) é
exatamente a mesma, em torno de três.

No nosso exemplo, chutamos inúmeros valores mais ou menos aleatoriamente para


os parâmetros para ilustrar o conceito. Na prática, porém, estatísticos
desenvolveram algoritmos que aceleram esse processo, de modo que conseguimos
encontrar os valores que maximizam a verossimilhança com relativamente poucos
chutes. Alguns exemplos comumente empregados são o método de Newton e o
algoritmo de scoring de Fisher.

88
Gauss demonstrou que, se os resíduos forem gerados por uma distribuição normal,
o método de máxima verossimilhança produz estimativas idênticas àquelas obtidas
por mínimos quadrados! Assim, podemos dizer que o método de mínimos quadrados
é um caso especial da máxima verossimilhança e, portanto, que o Modelo Linear
Geral (que assume normalidade dos resíduos) é um caso especial do Modelo Linear
Generalizado (GLM). A vantagem da máxima verossimilhança é que ela pode ser
aplicada para estimar parâmetros de qualquer modelo assumindo qualquer
distribuição, desde que possamos representar esta distribuição matematicamente.

O conceito de máxima verossimilhança foi inventado independentemente por dois


matemáticos, ainda no século XVIII: o holandês Daniel Bernoulli (1700-1782) e o
suíço Johann Lambert (1728-1777). Porém, ele só foi elaborado matematicamente e
aplicado no século XIX, por Gauss, com o nome de “plausibilidade da estimativa”.
Somente no século XX, Fisher (1922b) cunhou o nome “máxima verossimilhança”,
sendo um dos principais responsáveis pela popularização do método.

Razão de verossimilhanças, desviância e pseudo-R²

Assim como no Modelo Linear Geral, precisamos de uma medida do ajuste do


Modelo Linear Generalizado, i.e. da variabilidade em torno da tendência. Uma forma
simples é medir o R² entre valores preditos e observados, como fizemos antes.
Porém, historicamente, estatísticos optaram por generalizar a soma dos quadrados –
a primeira medida de variabilidade que aprendemos – para a situação geral em que
a distribuição dos resíduos não necessariamente é normal.

Para um conjunto de dados qualquer, sempre podemos comparar nosso modelo


obtido por máxima verossimilhança com um modelo “perfeito”, i.e. um modelo em
que simplesmente ligamos um ponto ao outro, de modo que a alinha passe
exatamente sobre todos eles (figura 8.10). Note que este modelo explica 100% da
variação na nossa variável resposta; ele é conhecido como modelo saturado.
Porém, como vimos no capítulo 3 (“Regressão”), isto não é muito útil porque não nos
diz nada sobre o universo amostral, apenas sobre a amostra. O ponto é que, ao
comparamos nosso modelo de máxima verossimilhança com este modelo saturado,
temos uma medida do quão bom é o ajuste do nosso modelo: quanto mais a
verossimilhança do nosso modelo se aproxima da verossimilhança do modelo
saturado, melhor nosso modelo prevê os dados, i.e. mais perto da “perfeição”.

89
Figura 8.10 Comparação entre um modelo estimado por máxima verossimilhança
(esquerda) e um modelo saturado ou “perfeito”, que descreve exatamente os pontos
nos gráfico, passando por todos eles (direita).

A comparação é feita dividindo a verossimilhança do nosso modelo pela


verossimilhança do modelo saturado, gerando uma razão de verossimilhanças
(likelihood ratio). Quanto maior esta razão, melhor nosso modelo em relação ao
modelo “perfeito”. Porém, lembre-se que a verossimilhança é uma probabilidade
conjunta, i.e. um número muito pequeno! Assim, costuma-se usar o log da razão de
verossimilhanças. Pelas propriedades dos logaritmos, o log de uma razão é o
mesmo que a diferença entre os logs. Por fim, por convenção, os estatísticos
multiplicam o resultado por -2, para que esse valor seja equivalente à soma dos
quadrados quando os resíduos são normais. O resultado final é a desviância:

𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐)
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)

𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐
𝐥𝐨𝐠 ( )
𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐

𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐)

−𝟐(𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐) − 𝐥𝐨𝐠 𝑷(𝒀|𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐))

Como multiplicamos por menos no final, a lógica da desviância é o contrário da


razão de verossimilhanças: quanto maior a desviância, pior o ajuste do modelo em
relação ao modelo “perfeito”. Além disso, há dois tipos de desviância: a desviância

90
residual é a distância do nosso modelo do modelo saturado, como já vimos; a
desviância nula é a distância de um modelo nulo (i.e. o pior modelo possível, apenas
com um intercepto representando a média da variável dependente) do modelo
saturado. Assim, a desviância nula representa a variabilidade total a ser explicada,
enquanto a desviância residual representa a variabilidade não explicada pelo nosso
modelo. Logo, a razão entre a desviância residual a desviância nula representa a
proporção de variação não explicada pelo nosso modelo, e um menos esse valor é a
variação que é explicada (figura 8.11). Esta é a forma mais comum de calcular o R²
para GLMs. Porém, para algumas distribuições, o valor máximo possível pode ser
um pouco menor que 100%, e por isso às vezes ele é chamado de pseudo-R²:

𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐧𝐮𝐥𝐚 = −𝟐 ∗ (𝒍𝒐𝒈𝑽𝒆𝒓𝒐 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒏𝒖𝒍𝒐) − 𝒍𝒐𝒈𝑽𝒆𝒓𝒐 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐))

𝐃𝐞𝐬𝐯𝐢â𝐧𝐜𝐢𝐚 𝐫𝐞𝐬𝐢𝐝𝐮𝐚𝐥 = −𝟐 ∗ (𝒍𝒐𝒈𝑽𝒆𝒓𝒐 (𝒎𝒆𝒖 𝒎𝒐𝒅𝒆𝒍𝒐) − 𝒍𝒐𝒈𝑽𝒆𝒓𝒐 (𝒎𝒐𝒅𝒆𝒍𝒐 𝒔𝒂𝒕𝒖𝒓𝒂𝒅𝒐))

𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒓𝒆𝒔𝒊𝒅𝒖𝒂𝒍
Pseudo R²=𝟏 −
𝑫𝒆𝒔𝒗𝒊â𝒏𝒄𝒊𝒂 𝒏𝒖𝒍𝒂

Figura 8.11. Diagrama representando a decomposição da variação explicada por um


GLM, medida com base na desviância.

91
Agora, tudo que falta para que nosso GLM fique completo é que possamos medir a
incerteza sobre as estimativas dos coeficientes, i.e. obter valores de P e intervalos
de confiança. O matemático americano Samuel Wilks (1906-1964) mostrou que
estimativas de razão de verossimilhanças seguem uma distribuição estatística
conhecida como qui-quadrado (Χ²), um resultado conhecido como Teorema de
Wilks (Wilks, 1938). Como a desviância é baseada na razão de verossimilhanças,
suas estimativas também seguem esta distribuição. Assim, a estatística Χ² serve
para testar a significância global de um GLM, i.e. se a desviância residual do modelo
é menor que o esperado ao acaso – tal como a estatística F no Modelo Linear Geral.
Para testarmos a significância de um dado preditor, podemos calcular a desviância
entre um par de modelos idênticos, exceto que um inclui e o outro exclui um dado
preditor. Isto nos dirá se a inclusão do preditor no modelo reduz a desviância
residual mais que o esperado ao acaso, i.e. se o preditor tem um efeito maior que o
esperado ao acaso, tal como a estatística t no Modelo Linear Geral.

Distribuição binomial negativa

O GLM com distribuição de Poisson é o modelo linear mais simples possível para
representar contagens. Lembre-se que, nele, média e variância são a mesma coisa
(lambda); é um modelo “econômico”. Porém, isso só funciona bem quando as coisas
que contamos estão distribuídas aleatoriamente no espaço ou no tempo. No mundo
real, muitos organismos vivem de modo agregado. Isso faz com que, em uma coleta
de dados, muitos locais de amostragem possam não conter nenhum indivíduo,
enquanto em alguns outros a contagem possa de ser muito alta (figura 8.12).
Consequentemente, a distribuição das frequências tende a ser acentuada nos zeros,
e mais assimétrica que o previsto pela distribuição de Poisson. Nesses casos, uma
distribuição que considere explicitamente a agregação da distribuição daquilo que
estamos contando é mais informativa.

92
Figura 8.12. Frequentemente, os organismos estão distribuídos de forma agregada
na paisagem (esquerda). Isto leva a muitas contagens com zero e poucas contagens
muito altas (direita).

Esta situação é representada pela distribuição binomial negativa. Esta distribuição


tem dois parâmetros: a já conhecida média, e k, um parâmetro que determina o grau
de agregação dos indivíduos no espaço (ou no tempo). Quanto menor o valor de k,
maior é a agregação dos indivíduos, i.e. mais eles tendem a estar concentrados em
certas áreas (ou períodos). Quando o valor de k é muito grande, significa que os
indivíduos não estão muito agregados, i.e. estão espalhados mais ou menos
aleatoriamente. Neste caso, a distribuição binomial negativa tende a ser semelhante
à distribuição de Poisson, e tanto faz usar uma ou outra. Porém, diferentemente da
distribuição de Poisson, a binomial negativa não assume que a variância é igual à
média; ao invés disso, a variância aumenta com a média e diminui com k. Assim, um
GLM com distribuição binomial negativa não apenas permite que os resíduos sejam
heterocedásticos, como permite que a variância aumente mais rápido que a média
ao longo de X. Assim como no GLM com distribuição de Poisson, o GLM com
distribuição binomial negativa assume tipicamente log como função de ligação, o
que garante que o modelo não preveja contagens negativas.

Quando a variância aumenta muito rápido com a média (p.ex. k muito baixo),
podemos ter nuvens de pontos em forma de triângulo, como se os pontos variassem
até um determinado “teto” (figura 8.13). Nestas condições, também podemos
observar alguns pontos discrepantes, com contagens muito maiores que a maioria
(figura 8.13).

93
Figura 8.13. Dados simulados a partir de um GLM com distribuição binomial
negativa. À medida que k diminui, a variância aumenta cada vez mais rápido com a
média, criando padrões cada vez mais heterocedásticos. Isto pode resultar em
nuvens de pontos em forma de triângulo, que se os pontos batessem em um “teto”
superior (esquerda) ou, em casos mais extremos, em umas poucas observações
discrepantes (direita).

Observações discrepantes costumam ser chamadas de outliers. Alguns


pesquisadores excluem outliers para realizar suas análises, assumindo que essas
observações não são esperada e podem distorcer os resultados. Porém, note que
estas observações discrepantes são totalmente esperadas se as contagens seguem
a distribuição binomial negativa. Em geral, organismos se distribuem com algum
grau de agregação, por isso a distribuição binomial negativa costuma ser mais
apropriada que a distribuição de Poisson para representar contagens de seres vivos.

Uma alternativa às vezes usada à distribuição binomial negativa é “corrigir” a


distribuição de Poisson adicionando um parâmetro separado para controlar a
variância, chamado de sobredispersão (overdispersion). Assim, a variância não
precisa ser igual à média. No contexto dos GLMs, isto é conhecido como um GLM
quasi-Poisson. Note, porém, que não existe distribuição quasi-Poisson! Trata-se
apenas de uma correção para as medidas de incerteza obtidas a partir de uma
distribuição de Poisson (p.ex. P, erro padrão, intervalo de confiança). Na prática,
GLMs quasi-Poisson e binomial negativo tendem a produzir resultados similares;
quando a variância é igual a média, ambos podem ser substituídos pelo GLM de
Poisson.

94
Distribuição gama

Às vezes, nossa variável resposta não é uma contagem, mas sim a densidade de
alguma coisa, uma concentração ou uma taxa. Estes tipos de variável têm duas
coisas em comum: assim como contagens, não podem assumir valores negativos,
mas diferentemente de contagens, têm valores contínuos (i.e. podem ser frações).
Uma distribuição útil para descrever essa situação – e que deriva naturalmente das
distribuições que já investigamos – é a distribuição gama.

Já vimos que, se formos a uma área em que um organismo está distribuído


aleatoriamente e o contarmos em diferentes locais nessa área, as contagens
seguirão a distribuição de Poisson com uma dada média = variância = lambda. Note
que esta média é uma densidade, i.e. quantos indivíduos encontramos, em média,
em uma determinada área. Agora, se fizermos isso em várias áreas com diferentes
densidades, a distribuição dessas densidades (i.e. médias das contagens) seguirá
ela própria a distribuição gama.

Esta distribuição tem dois parâmetros, geralmente chamados “forma” (shape) e


“escala” (scale). A média e a variância dependem destes dois parâmetros, e são
relacionados:

𝒗𝒂𝒓𝒊â𝒏𝒄𝒊𝒂 𝒎𝒆𝒅𝒊𝒂𝟐
Escala= Forma=
𝒎é𝒅𝒊𝒂 𝒗𝒂𝒓𝒊â𝒏𝒄𝒊𝒂

Note que, quando qualquer um dos dois parâmetros muda, a média e a variância
mudam junto. Assim, a distribuição gama também é intrinsecamente
heterocedástica. Quanto maior o valor da “escala”, mais espichada a distribuição;
quanto maior o valor da “forma”, mais simétrica a distribuição (figuras 7.13 e 7.14).
Uma característica importante (e um tanto irritante) da distribuição gama é que ela
não descreve zeros, apenas valores positivos. Assim, se houver zeros na sua
variável dependente, você precisará de outra distribuição similar que admita zeros
(veja adiante).

95
Figura 8.14. Distribuição gama com diferentes combinações dos parâmetros de
forma e escala. Adaptado de Bolker (2008).

Distribuição de Bernoulli (ou binomial)


Se ampliarmos suficientemente a resolução espacial ou temporal de uma contagem,
ela invariavelmente pode degenerar para uma simples anotação presenças e
ausências (1 ou 0). Por exemplo, se contarmos árvores de uma espécie em
quadrados de 2 × 2 m, é provável que só caiba uma árvore em cada quadrado. Se
replicarmos esse quadrado por uma área, teremos vários zeros e uns. A média de
uma variável binária como esta é uma proporção. Por exemplo, (0 + 1 + 1 + 0 +1)/6
= 3/6 = 0.6. Esta proporção também pode ser interpretada como uma probabilidade,
i.e. a chance de um quadrado estar ocupado por essa espécie é de 60%. Esta
situação é descrita pela distribuição de Bernoulli, nomeada em homenagem ao
seu criador, o matemático suíço Jacob Bernoulli (1654-1705), irmão de Daniel
Bernoulli. Seu único parâmetro é a média – que, neste caso, é o mesmo que a
probabilidade de ocorrência.

Logo, quando nossa variável resposta é binária (o ou 1), usar um modelo linear para
prever sua média é o mesmo que prever a probabilidade de ocorrência de um dado
evento, p.ex. a presença de uma espécie. Quanto maior a probabilidade de
ocorrência, maior a chance de ela ser observada de fato. Além disso, note que,
assim como já visto em outros tipos de distribuição, a linha de tendência não pode

96
ser representada por uma reta, pois ela poderia prever probabilidades acima de um
e abaixo de zero, o que não faz sentido (figura 8.15)!

Figura 8.15. Relação hipotética entre probabilidade de ocorrência (i.e. média da


ocorrência) de uma espécie e um gradiente ambiental (altitude). Neste caso, uma
reta poderia prever valores abaixo de zero ou acima de um, mas isso não faz
sentido, já que probabilidades só podem variar de 0 a 1.

Diferentes funções de ligação podem transformar uma reta em uma curva, de tal
modo que o valor mínimo possível seja zero, e o maior possível, um. A mais popular
é a função logit, que transforma a reta em uma curva sigmoide ou em forma de
“s”: (figura 8.16).

𝒙
𝒍𝒐𝒈𝒊𝒕 (𝒙) = 𝒍𝒐𝒈 ( )
𝟏−𝒙

97
Figura 8.16. A função logit converte uma linha reta em uma curva sigmoide ou em
forma de “s”, tendo apenas valores de 0 a 1, como é próprio das probabilidades.

A distribuição de Bernoulli também pode ser entendida como o lance de uma moeda:
ou dá uma coisa, ou dá outra. Porém, às vezes, nós não temos apenas uma
observação de ocorrência por unidade amostral, mas sim várias. Por exemplo,
podemos observar vários animais, cada um em vários momentos, e anotar quando
eles apresentam determinado comportamento (p.ex. comer). Se observarmos cada
animal 10 vezes, teremos a proporção de vezes em que cada animal estava
comendo, o que nos dá uma ideia da probabilidade ou propensão de um animal
estar comendo ou não. Neste caso, precisamos de dois parâmetros para descrever
a distribuição: a probabilidade de ocorrência do comportamento, como já vimos, e o
número de observações por indivíduo. A distribuição resultante é uma generalização
da distribuição de Bernoulli, e é conhecida como distribuição binomial. Também
podemos dizer que a distribuição de Bernoulli é a mesma coisa que a distribuição
binomial, quando o número de observações por unidade amostral é apenas um.

A família exponencial

As distribuições normal, de Poisson, gama, e binomial (ou de Bernoulli) podem todas


ser descritas usando uma fórmula geral que envolve exponenciais. Por isso, os
estatísticos dizem que essas distribuições formam uma mesma família de
distribuições: a família exponencial. A distribuição binomial negativa não pertence a

98
esta família, mas como vimos, pode ser considerada uma “agregada”, já que pode
ser derivada a partir de uma generalização da distribuição de Poisson. Há várias
famílias de distribuições estocásticas e, portanto, existem inúmeras distribuições.
Porém, várias descrevem variáveis mais ou menos parecidas. Desse modo,
frequentemente a família exponencial é suficiente para descrever problemas do
mundo real. Porém, em alguns casos específicos, podemos precisar de outras. Por
exemplo, a distribuição gama descreve apenas valores positivos (i.e. sem zeros), o
que às vezes é um problema. Uma distribuição que não é exponencial, mas é
parecida com a gama e inclui zeros é a distribuição de Tweedie.

Que distribuição eu devo usar?

Como vimos, podemos prever qual distribuição mais apropriada para nosso modelo
simplesmente sabendo a natureza da variável resposta. Assim, não precisamos ficar
presos à distribuição normal. Isto era uma necessidade no século passado, quando
não havia computadores rápidos e acessíveis, e a computação da máxima
verossimilhança era difícil. Hoje, isso não é mais desculpa. Quando a distribuição
normal claramente não for uma aproximação razoável, basta usarmos outra
distribuição mais apropriada no nosso modelo linear (Apêndice 3). Em geral, quando
escolhemos uma distribuição inadequada para nosso modelo, estamos
essencialmente assumindo uma relação errada entre a média e a variância. Logo,
estamos mais sujeitos a resultados espúrios (erro tipo I ou II), dependo dos detalhes
dos dados (como discutido no capítulo 7, “Pressupostos do Modelo Linear Geral”).

99
9. SELEÇÃO DE MODELOS

Poder de explicação vs. parcimônia

Em muitas situações, temos um conjunto de preditores e queremos determinar qual


combinação melhor explica nossa variável resposta. Também podemos ter
hipóteses alternativas sobre quais preditores explicam nossa variável resposta, de
modo que cada hipótese é representada por um modelo diferente, com preditores
possivelmente diferentes. Nos dois casos, o objetivo e fazer uma seleção de
modelos, i.e. determinar qual modelo melhor explica os dados.

Poderíamos simplesmente ver qual modelo possui melhor ajuste, p.ex. maior R², e
escolher este. Porém, qual a probabilidade da estimativa da inclinação de um
modelo linear ser exatamente zero? Praticamente... Zero! Nem que seja por acaso,
a inclinação de um preditor qualquer provavelmente será maior ou menor que zero,
mesmo que seja só um pouco. Sendo assim, podemos esperar o R² aumente
mesmo quando adicionarmos ao modelo preditores sem efeito algum. De fato,
quanto maior o número de preditores em um modelo, maior tende a ser o valor do
R², mesmo que eles não tenham efeito real (figura 9.1)!

Figura 9.1. Simulação mostrando que quanto mais preditores aleatórios adicionamos
a um modelo linear, maior tende a ser a “variação explicada (R²)”, muito embora
esses preditores não tenham realmente qualquer efeito sobre a variável dependente
(cada ponto é uma simulação). A variação que eles “explicam” é por acaso!

100
Isto cria um problema: se simplesmente usarmos o R² para comparar modelos,
podemos estar baseando nossa conclusão no acaso! Uma forma intuitiva de
contornar esse problema é penalizar nossa medida de ajuste do modelo pelo
número de parâmetros do modelo. Assim, quanto maior o ajuste, melhor o modelo.
Porém, quanto mais parâmetros o modelo tiver, pior, já que esses parâmetros a mais
podem estar “explicando” alguma variação por puro acaso. Idealmente, queremos
um modelo que explique o tanto quanto possível com o menor número de preditores
possível, i.e. um modelo parcimonioso.

Critérios de Informação de Akaike (AIC) e de Schwarz/bayesiano (SIC ou BIC)

Há várias formas de pesar o ajuste e a complexidade de um modelo com um único


número, coletivamente conhecidos como Critérios de Informação. O Critério de
Informação de Akaike (AIC) é um dos métodos mais populares, tendo sido criado
pelo estatístico japonês Hirotugo Akaike (1927-2009). O AIC mede o ajuste de um
modelo com base na desviância. Como vimos no capítulo anterior, a desviância
mede o quão ruim é o ajuste de um modelo, ou o quanto ele desvia de um modelo
“perfeito” (que explica tudo). Logo, quanto menor a desviância, melhor o modelo. Da
mesma forma, quanto menor o AIC, melhor o modelo. Porém, o AIC penaliza o
ajuste pelo número de parâmetros (p). Desse modo, quanto maior o número de
parâmetros, pior o modelo é considerado. Assim, o AIC busca um equilíbrio entre
maior ajuste e menor complexidade do modelo, ou seja, maior parcimônia:

𝑨𝑰𝑪 = −𝟐 𝐥𝐨𝐠(𝒗𝒆𝒓𝒐𝒔𝒔𝒊𝒎𝒊𝒍𝒉𝒂𝒏ç𝒂) + 𝟐 𝒑

Pela fórmula, vemos que o AIC é exatamente a desviância menos duas vezes o
número de parâmetros. Teoricamente, poderíamos multiplicar o número de
parâmetros por um número diferente de dois. Se ele for menor, a penalidade pela
complexidade será menor. Se ele for maior, a penalidade será maior. As inúmeras
variantes do AIC diferem principalmente nessa penalidade da complexidade.

Outra medida de parcimônia relativamente comum é o Critério de Informação de


Schwarz (SIC), proposto pelo matemático austríaco Gideon Schwarz (1933-2007),
também conhecido como Critério de Informação Bayesiano (BIC). A principal
diferença entre SIC e AIC é que o primeiro penaliza o modelo não só pelo número
de parâmetros, mas também pelo tamanho da amostra (n):

101
𝑺𝑰𝑪 𝒐𝒖 𝑩𝑰𝑪 = −𝟐 𝐥𝐨𝐠(𝒗𝒆𝒓𝒐𝒔𝒔𝒊𝒎𝒊𝒍𝒉𝒂𝒏ç𝒂) + 𝒑 𝒍𝒐𝒈(𝒏)

Na prática, o termo p*log(n) tem duas implicações principais: (1) para tamanhos de
amostra maiores, o BIC tende a ser mais rigoroso que o AIC e, portanto, tende a
favorecer modelos com menos parâmetros (i.e. menos preditores); (2) o BIC separa
mais fortemente modelos “bons” de modelos “ruins” quanto maior a amostra.

Os valores absolutos de AIC e BIC não significam nada no mundo real. O que
importa é a diferença entre os valores absolutos, conhecida como delta (ΔAIC ou
ΔBIC). Assim, geralmente calculamos a diferença de cada modelo em relação ao
modelo com menor AIC ou BIC, e então comparamos essas diferenças. Por
exemplo, se tivermos três modelos cujos valores de AIC são 100, 104, 110, então
seus respectivos ΔAIC serão 100 – 100 = 0; 104 – 100 = 4; e 110 – 100 = 10.
Quanto menor o ΔAIC, melhor (mais parcimonioso) o modelo entre o conjunto de
modelos considerados. Por isso que o melhor modelo seria aquele cujo valor de AIC
foi 100, com ΔAIC = 0.

Assim como testes de hipótese nula adotam um nível de significância como regra
para decidir quando temos evidência para um efeito, Critérios de Informação
também costumam ser usados com um ponto de corte. Um modelo é considerado
claramente melhor que os demais quando ΔAIC > 2 em relação aos demais
modelos. No exemplo, o ΔAIC entre o melhor modelo (menor AIC) e os demais foi 4,
então ele é claramente melhor. Quando ΔAIC < 2, não conseguimos dizer
claramente qual modelo é melhor. Neste caso, ficamos com o modelo com menos
parâmetros, porque por definição ele é mais parcimonioso (Arnold 2010).

Ao usar Critérios de Informação, é importante atentar para o fato de que só podemos


comparar modelos ajustados exatamente às mesmas observações da variável
resposta (isto é, mesma amostra), caso contrário as comparações misturarão
diferenças entre modelos com diferenças entre os conjuntos de dados! Além disso, o
tipo de distribuição que assumimos para o modelo afeta o valor da verossimilhança.
Por isso, só faz sentido comparar modelos com distribuições para o mesmo tipo de
variável resposta, caso contrário a comparação misturará diferenças de ajuste entre
modelos com diferenças no tipo de fórmula usada para calcular a verossimilhança,
que não tem a ver com os dados.

102
Usando simulação, é possível demonstrar que o AIC tende a favorecer o modelo que
melhor prediz a variável resposta, enquanto o BIC tende a escolher o modelo que
contém os efeitos reais, desde que os preditores reais estejam entre aqueles
analisados. Note a sutileza: podemos ser capazes de prever bem uma variável
mesmo que não saibamos os preditores que realmente a afetam, p.ex. se tivermos
preditores que são correlacionados àqueles que realmente causam o efeito. Para o
AIC, essa distinção é irrelevante, porque geralmente nunca sabemos quais são os
efeitos reais. Para o BIC, esta diferença importa: ele quer que o modelo seja uma
aproximação da realidade tão boa quanto possível! Nesta apostila, não tomaremos
partido. Apenas notamos que todos os Critérios tentam escolher modelos
parcimoniosos, diferindo em como exatamente medem “parcimônia”.

103
10. MODELOS LINEARES (DE EFEITOS) MISTOS

Autocorrelação

Como vimos até aqui, os resíduos de modelos lineares são como uma lixeira: tudo
que não nos importa – efeitos que não medimos – vai parar neles. Desse modo, os
resíduos representam variação aleatória e, portanto, cada um deve variar
independentemente dos demais (figura 10.1).

Figura 10.1. Relação hipotética entre abundância de uma espécie e altitude (à


esquerda). Tudo que não é previsto pela reta (componente determinístico) são
resíduos, o componente estocástico do modelo. Sendo os resíduos estocásticos,
eles não devem estar relacionados à altitude e devem ser aleatórios (à direita).

Quando os resíduos não são aleatórios, temos autocorrelação ou


pseudorrepetição: uma observação fornece informação que já foi fornecida por
outra e, portanto, é redundante. Assim, o principal (mas não único) efeito da
autocorrelação é fazer sua amostra parecer maior do que ela realmente é. O
problema é que, como vimos no capítulo 7, conforme aumentamos o tamanho da
amostra, menores nossas medidas de incerteza, como o P. Isto faz com que
aumentemos o risco de rejeitar a hipótese nula mesmo quando ela é verdadeira
(erro tipo I), i.e. detectar um efeito que na verdade não existe. Assim, quando
possuímos pseudorrepetições é como se tivéssemos “clones” das unidades
amostrais.

104
Para entendermos de fato o que é pseudorrepetição, vamos pensar em um exemplo
biológico real. Em organismos que se reproduzem assexuadamente (vários micro-
organismos e plantas, e certos animais como alguns crustáceos, insetos, ácaros e
tardígrados), “clones” são uma forma óbvia de pseudorréplica, porque cada indivíduo
faz uma cópia (quase) perfeita de si mesmo. Todas as cópias do mesmo indivíduo
são essencialmente o mesmo clone, i.e. pseudorréplicas do mesmo indivíduo! Logo,
se estivermos interessados em uma questão cuja unidade amostral é um indivíduo
de algum desses organismos, ao coletarmos nossa amostra, poderemos ter grupos
de indivíduos pertencentes ao mesmo clone. Neste caso, esperamos que os
resíduos do nosso modelo não sejam totalmente aleatórios, mas estejam
relacionados ao clone, i.e. sejam mais parecidos entre indivíduos do mesmo clone
que de clones diferentes (figura 10.2).

Figura 10.2. Relação entre resíduos de um modelo linear e o clone ao qual


pertencem. Cada ponto representa um indivíduo. Quando nossa amostra contém
pseudorrepetições (p.ex. alguns indivíduos são clones e, portanto, idênticos entre
si), os resíduos deixam de ser realmente aleatórios, como deveriam, e são
“explicados” por algum fator – neste exemplo, pela variável categórica “clone”, que
indica a qual clone cada indivíduo pertence. Note como os valores dos resíduos são
iguais dentro do mesmo clone, mas diferem entre clones.

105
Ao avaliarmos os resíduos, percebemos que eles deixam de variar aleatoriamente;
ao invés disso, estão relacionados ao “clone”. Isso sugere que o modelo que
escolhemos provavelmente está deixando alguma informação importante de fora
(model missidentification). Note que a autocorrelação ou pseudorrepetição é uma
propriedade do modelo, e não dos dados; ela sempre depende de como o modelo foi
especificado (p.ex. quais preditores foram incluídos, e como), e de uma variável
explícita segundo a qual possamos determinar se há autocorrelação ou não (neste
caso, “clone”).

Efeitos aleatórios e fator aleatório

Para evitar que a pseudorrepetição influencie nossas medidas de incerteza (i.e. P e


intervalos de confiança), ela deve ser incorporada ao modelo de alguma forma. Uma
possibilidade simples, usando o que já sabemos, seria incorporar a identidade do
“clone” como mais um preditor no modelo. No entanto, isto custaria muitos graus de
liberdade... Lembre-se: para representar variáveis categóricas, precisamos usar um
esquema de código binário de modo que, para k categorias, temos que gastar k-1
graus de liberdade. Além disso, nem estamos realmente interessados em testar o
efeito de “clone”! Tudo que queremos é controlar e descontar o efeito da
autocorrelação que sabemos (ou esperamos) existir entre indivíduos pertencentes
ao mesmo clone, para termos segurança sobre os outros efeitos que realmente
queremos testar.

Para resolver esse problema, podemos usar uma solução ainda mais simples que
um código binário: podemos representar o efeito de “clone” como uma simples
variável aleatória. Primeiro, dizemos que cada clone tem sua própria média; em
seguida, dizemos que essas médias variam aleatoriamente em torno de uma média
geral dos indivíduos, independente do clone. Assim, a média de cada clone passa a
ter um desvio em relação à média global, assim como cada indivíduo do mesmo
clone pode desviar da média do próprio clone. Desta forma, passamos a ter dois
tipos de resíduos: dentro do mesmo clone, e entre clones. Neste contexto, os
resíduos dentro do mesmo clone continuam sendo chamados simplesmente de
“resíduos”. Já os resíduos entre as médias dos clones são conhecidos como efeitos
aleatórios, e a variável “clone”, que agrupa as observações, é conhecida como
fator aleatório (figura 10.3).

106
Figura 10.3. Efeitos aleatórios e fator aleatório. Quando queremos controlar a
autocorrelação entre unidades amostrais pertencentes ao mesmo grupo (aqui,
“clone”), podemos incluir a identidade do grupo no modelo como um fator aleatório.
Assim, (1) os resíduos de cada grupo terão sua própria média, e (2) a média de cada
grupo terá um desvio em relação à média global dos resíduos. Logo, teremos dois
tipos de resíduos: um entre indivíduos do mesmo grupo, que continuaremos
chamando simplesmente de “resíduos”; e outro entre grupo, que chamaremos de
efeitos aleatórios. À esquerda: os pontos pretos representam os indivíduos, as linhas
cinzas horizontais representam as médias (linha maior: média global; linhas
menores: médias de cada grupo), e as verticais, os efeitos aleatórios. À direita: e os
pontos cinzas representa as médias dos clones, a linha horizontal representa a
média global, e as verticais, os efeitos aleatórios. Note que, neste exemplo, toda a
variação ocorre entre clones (i.e. os resíduos dentro dos clones são nulos).

Isto pode soar contraditório: se o efeito é do clone, porque chamar de “aleatório”?


Acontece que, na terminologia estatística, qualquer resíduo é, por definição,
aleatório, visto que eles representam a variação “não explicada”. Como os efeitos
aleatórios nada mais são que um tipo de resíduo, então eles também são aleatórios!
Mas não se confunda, esta é a terminologia estatística. Biologicamente, os efeitos
“aleatórios” deste exemplo representam, de fato, o efeito de “clone”. Quanto mais
forte este efeito, mais diferentes os clones serão uns dos outros.

Como os efeitos aleatórios são um tipo de resíduos, para representá-los no nosso


modelo linear, precisamos assumir uma distribuição estocástica para eles. Como em
outras situações, costuma-se assumir a distribuição normal, já que os resíduos
podem ter tanto valores positivos quanto negativos, sem limite superior ou inferior.
Além disso, como a média dos resíduos é zero, podemos definir o efeito do fator

107
aleatório como uma variável com distribuição normal de média zero e uma dada
variância, que representa o tamanho do efeito do fator aleatório:

𝑪𝒍𝒐𝒏𝒆 ~ 𝑵𝒐𝒓𝒎𝒂𝒍 (𝒎é𝒅𝒊𝒂, 𝒗𝒂𝒓)

𝑪𝒍𝒐𝒏𝒆 ~ 𝑵𝒐𝒓𝒎𝒂𝒍 (𝟎, 𝒗𝒂𝒓)

Agora, vamos adicionar este termo ao nosso modelo linear. Lembrando que um
modelo linear é uma simples soma, o efeito do fator aleatório é simplesmente
somado à equação da reta:

𝒀𝒎é𝒅𝒊𝒂 = 𝒂 + 𝒃𝑿 + "𝒄𝒍𝒐𝒏𝒆"

Note que podemos simplificar esta equação somando o efeito do “clone” ao


intercepto. Como cada clone tem seu desvio em relação à média global (i.e. seu
efeito aleatório), isso é o mesmo que cada clone ter seu próprio intercepto:

𝒀𝒎é𝒅𝒊𝒂 = 𝒂𝒄𝒍𝒐𝒏𝒆 + 𝒃𝑿

Por isso, um modelo linear com um fator aleatório é chamado às vezes de modelo
de intercepto aleatório (random intercept model). Porém, o nome mais comum
para este tipo de modelo é modelo de efeitos mistos (mixed effects model) ou,
simplesmente, modelo misto (mixed model) (Laird & Ware 1982). Isto porque,
agora, temos dois tipos de efeito: o efeito do(s) nosso(s) preditor(es), que realmente
queremos testar (também chamados de efeitos fixos), e o efeito do(s) fator(res)
aleatório(s), que queremos apenas controlar para descontar a autocorrelação
(efeitos aleatórios). Como temos dois níveis de variabilidade (resíduos dentro e entre
grupos), às vezes também são chamados de modelos hierárquicos (hierarchical
models), modelos multiníveis (multilevel models), ou modelos de componentes
de variância (variance component models). Na literatura mais antiga, esse tipo de
modelo também era conhecido como ANOVA de medidas repetidas (repeated-
measures ANOVA), por geralmente ser usado em situações que temos várias
observações repetidas ao longo do tempo em diferentes indivíduos ou locais. Porém,
não se confunda: essencialmente, é tudo a mesma coisa!

108
Correlação intraclasse e simetria composta

Nosso exemplo usou “clones” para ilustrar um fator aleatório. Porém, qualquer tipo
de grupo ou categoria pode ser usado para capturar a similaridade entre unidades
do mesmo grupo, e controlar isto na análise. Nas ciências biológicas, as situações
mais comuns em que isso ocorre são quando temos pseudorrepetições temporais
(i.e. observações repetidas no mesmo local ao longo do tempo, em diferentes
locais), espaciais (i.e. observações repetidas em diferentes pontos de um mesmo
local, em diferentes locais) ou (filo)genéticas (p.ex. quando as unidades amostrais
são indivíduos agrupados em famílias, ou espécies agrupadas por clados) (figura
10.4). No nosso exemplo, “clone” pode ser entendido como representando
autocorrelação genética, já que indivíduos do mesmo clone são geneticamente
(quase) idênticos.

Figura 10.4: Tipos comuns de agrupamento entre unidades amostrais em estudos


biológicos.

Agora que já adicionamos o efeito do fator aleatório ao modelo, vamos entender


como exatamente ele mede o grau de autocorrelação ou pseudorreplicação entre
indivíduos do mesmo grupo. Vamos tomar como exemplo a figura 10.5. Nela, temos
duas situações: em uma, só há variação nos resíduos do modelo entre clones, de
modo que indivíduos do mesmo clone são idênticos. Já na outra, há variação tanto
dentro quanto entre clones. Em qual das duas situações a autocorrelação ou
pseudorrepetição é mais forte? Na primeira, porque os clones são idênticos! Agora,

109
em qual das duas situações “clone” explica melhor a variação dos resíduos?
...Também na primeira, porque toda a variação ocorre entre clones, e nenhuma
dentro deles.

Figura 10.5. Diferentes níveis de autocorrelação entre observações do mesmo


grupo. Quando observações do mesmo grupo são idênticas, a autocorrelação é
máxima, mas a variação explicada por “grupo” também é. Logo podemos usar uma
medida similar ao r² para medir a autocorrelação dos resíduos: o coeficiente de
correlação intra-classe (ρ), que varia de 0 (observações totalmente independentes) a
1 (pseudorréplicas perfeitas).

Assim, notamos que os conceitos de autocorrelação/pseudorrepetição e variação


explicada são análogos: quanto maior a variação explicada dos resíduos pelo fator
aleatório, maior é a autocorrelação entre membros do mesmo grupo (figura 10.5).
Logo, podemos usar uma medida análoga ao coeficiente de determinação (r²) para
medir autocorrelação dos resíduos. Porém, no contexto dos fatores aleatórios, esta
medida é chamada de coeficiente de correlação intra-classe (ρ ou rô). Esta é a
forma mais simples de autocorrelação, conhecida como simetria composta
(compound symmetry): nós assumimos que o grau de autocorrelação é similar em
todos os grupos, de modo que a podemos medir com um único número.

Intuitivamente, quanto maior a autocorrelação ou pseudorrepetição, mais


redundantes as unidades amostrais e, portanto, menor a quantidade efetiva de
informação na amostra. Quando o número de observações é o mesmo para cada
grupo do fator aleatório, podemos estimar o tamanho efetivo da amostra usando a
seguinte fórmula (Zuur et al. 2009):

110
𝒏𝒈𝒓𝒖𝒑𝒐𝒔 ∗ 𝒏𝒅𝒆𝒏𝒕𝒓𝒐
𝑵𝒆𝒇𝒆𝒕𝒊𝒗𝒐 =
𝟏 + (𝒏𝒅𝒆𝒏𝒕𝒓𝒐 − 𝟏) ∗ 𝛒

onde “n grupos” indica o número de grupos, e “n dentro” indica o número de


observações dentro do mesmo grupo. Assim, por exemplo, se tivéssemos 10
indivíduos de cinco clones, nosso tamanho amostral aparente seria N = 50. Porém,
se indivíduos do mesmo clone fossem pseudorréplicas perfeitas (ρ = 1), então
aplicando a fórmula, Nefetivo = 5! Faz sentido: se repetições do mesmo clone são
redundantes, então cada clone representa na verdade apenas uma unidade de
informação independente. Neste caso, seria melhor coletar mais clones, ao invés de
vários indivíduos dos mesmos clones.

Fatores aleatórios aninhados

Não precisamos necessariamente nos restringir a um único nível de agrupamento:


podemos ter indivíduos agrupados por clone, clones agrupados por população,
populações agrupadas por região, etc. Da mesma forma, em uma análise evolutiva,
podemos ter espécies dentro de gêneros dentro de famílias dentro de ordens, etc.
Neste caso, dizemos que há uma hierarquia, i.e. uma sucessão de grupos cada vez
mais inclusivos. Estes níveis podem ser igualmente representados em um modelo
linear como fatores aleatórios, com um fator para cada nível, para capturar a
similaridade entre unidades amostrais em cada nível da hierarquia. Neste caso,
chamamos de fatores aleatórios aninhados (nested random factors) e, na
literatura mais antiga, este tipo de modelo costumava ser chamado de ANOVA
aninhada (nested ANOVA). Na dúvida, chame de “modelo linear misto”!

Modelo Linear Misto Generalizado (GLMM)

A esta altura, não deve ser difícil perceber que seria muito útil combinar LMM e
GLM, i.e. flexibilizar o modelo linear misto para escolher qualquer distribuição para
os resíduos, criando um Modelo Linear Misto Generalizado (GLMM). Apesar de
intuitivo, a computação necessária para estimar parâmetros desse tipo de modelo é
complexa, e só se tornou viável nos anos 1990 (Breslow & Clayton 1993). Além
disso, o GLMM só se popularizou entre cientistas nos anos 2000, graças à
popularização dos computadores, de programas para sua aplicação, e da publicação
de guias mais acessível (e.g. Bolker et al. 2009, Harrison et al. 2018).

111
Um exemplo da utilidade do GLMM para responder questões complexas vem da
ecologia. Normalmente, dados de comunidades ecológicas consistem em uma
tabela onde cada linha representa um local, e cada coluna, a ocorrência/abundância
de uma espécie. Esses dados estão agrupados por local e, ao mesmo tempo, por
espécie (figura 10.6). Assim, faz sentido esperarmos autocorrelação entre
observações (i.e. células da tabela) tanto de um mesmo local (porque organismos
ocorrendo no mesmo lugar experimentam ambientes parecidos) quanto de uma
mesma espécie (porque organismos da mesma espécie compartilham
características).

Figura 10.6: Estrutura agrupada de dados de comunidades ecológicas. Geralmente,


dados de comunidades consistem em uma tabela onde as linhas representam locais
(p.ex. parcelas, onde coletamos certo tipo de organismo) e as colunas, espécies (i.e.
as ocorrências ou abundâncias de uma espécie em cada parcela).

Ecólogos querem explicar como as abundâncias das espécies respondem a uma ou


mais variáveis ambientais, ou como essa resposta é afetada por características das
espécies (p.ex. tamanho corporal). Tradicionalmente, vários métodos foram
desenvolvidos para responder questões como essas (p.ex. métodos de ordenação
direta e indireta, RLQ, fourth corner analysis). Porém, na última década, ficou claro
que essas questões são facilmente respondidas com GLMM (Sydenham et al. 2019).

112
Para entender exatamente como, vamos usar como exemplo palmeiras da tribo
Euterpeae, a tribo do açaí (Euterpe spp.) e outros gêneros proximamente
aparentados. Cinco espécies de palmeiras desta tribo ocorrem na Reserva Ducke,
em Manaus. São elas: Euterpre precatoria, Hyospathe elegans, Oenocarpus bacaba,
Oenocarpus bataua e Oenocarpus minor. Indivíduos destas cinco espécies foram
contados em 30 parcelas de 4 × 250 m, distantes pelo menos 1 km entre si. Assim,
temos 30 parcelas (linhas) × 5 espécies (colunas) = 150 contagens.

Como a abundância das espécies responde à concentração de nutrientes no solo,


como o fósforo (figura 10.7)?

Figura 10.7: Relações entre abundância e teor de fósforo do solo em cinco espécies
de palmeiras na Reserva Ducke, Manaus, Brasil.

Os gráficos sugerem que algumas espécies aumentam em abundância quanto mais


fósforo no solo, enquanto outras diminuem. Para criar um modelo conjunto para
todas as espécies, primeiro temos que reorganizar a tabela de dados. Lembre-se: na
tabela, original cada espécie é representada por uma coluna separada (figura 9.6).
Para modelarmos a comunidade inteira, precisamos que as abundâncias das cinco
espécies estejam em apenas uma coluna, de modo que a comunidade possa ser
representada por uma única variável “abundância”. Para isto, nós simplesmente

113
recortamos a coluna de uma espécie e a colamos abaixo da coluna da espécie
anterior: a segunda espécie vai abaixo da primeira, a terceira abaixo da segunda,
etc. Uma vez “empilhadas” as abundâncias de todas as espécies, criamos também
uma nova variável, “espécie”, que indica a qual espécie cada valor de abundância
pertence. Assim, passamos de uma tabela de 30 linhas × 5 colunas para uma de
150 linhas × 2 colunas, mais a coluna que identifica a parcela, mais a coluna com os
teores de fósforo de cada parcela (figura 10.8). Agora, podemos visualizar a
resposta global da comunidade de palmeiras Euterpeae ao teor de fósforo do solo,
em um único gráfico:

Figura 10.8: Relação entre abundância de palmeiras Euterpeae e teor de fósforo do


solo na Reserva Ducke, Manaus, Brasil. Cada ponto representa uma observação de
uma dada espécie em uma dada parcela; cada cor representa uma espécie.

A princípio, poderíamos fazer uma regressão separada para cada espécie para
quantificar estas relações (figura 10.9). Porém, aí estaríamos falando de cada
espécie individualmente, não da comunidade como um todo!

114
Figura 10.9: Regressões entre abundância e teor de fósforo do solo para cinco
espécies de palmeiras da tribo Euterpeae na Reserva Ducke, Manaus, Brasil. Cada
ponto representa uma dada espécie em um dado local; cada cor representa uma
espécie.

Para combinar as cinco regressões em apenas uma, podemos usar fatores


aleatórios, tal como vimos antes: “abundância” será a variável dependente (Y), “teor
de fósforo do solo” será o preditor (X), e “local” e “espécie” serão fatores aleatórios,
indicando como as observações do mesmo local ou da mesma espécie estão
autocorrelacionadas, respectivamente.

Vamos começar inserindo “espécie” como fator aleatório: lembre-se que a resposta
da abundância ao fósforo varia entre espécies (figura 10.9). Logo, não faz sentido
considerarmos um único intercepto e uma única inclinação para todas as espécies.
Ao invés disso, podemos considerar que tanto o intercepto quanto a inclinação
variam aleatoriamente entre espécies – tal como já havíamos feito apenas com o
intercepto. Assim, haverá um intercepto global e uma inclinação global, mas cada
espécie poderá desviar deles para mais ou para menos, tendo seu próprio intercepto
e inclinação:

𝒀𝒎é𝒅𝒊𝒂 = 𝒂𝒔𝒑 + 𝒃𝒔𝒑 𝑿

Na literatura, esta representação às vezes é chamada de modelo de inclinação


aleatória (random slope model); nada mais é que um modelo de efeitos mistos
com efeitos aleatórios tanto sobre o intercepto quanto sobre a inclinação.

115
Agora que já adicionamos o efeito aleatório de “espécie”, vamos adicionar o efeito
aleatório de “local”. Este é fácil: basta indicar “local” como um intercepto aleatório,
agrupando observações da mesma parcela, tal como fizemos no exemplo dos
clones:

𝒀𝒎é𝒅𝒊𝒂 = 𝒂𝒍𝒐𝒄𝒂𝒍 + 𝒂𝒔𝒑 + 𝒃𝒔𝒑 𝑿

Como nossa variável dependente “abundância” é uma contagem, sabemos que seus
valores nunca podem ser negativos. Para garantir que nosso modelo não fará
predições sem sentido, podemos usar a função de ligação log, tal como fizemos nos
GLM para contagens:

𝒍𝒐𝒈 (𝒀𝒎é𝒅𝒊𝒂 ) = 𝒂𝒍𝒐𝒄𝒂𝒍 + 𝒂𝒔𝒑 + 𝒃𝒔𝒑 𝑿


𝒀𝒎é𝒅𝒊𝒂 = 𝒆𝒙𝒑(𝒂𝒍𝒐𝒄𝒂𝒍 + 𝒂𝒔𝒑 + 𝒃𝒔𝒑 𝑿)

Finalmente, como sabemos que contagens geralmente seguem uma distribuição


binomial negativa (i.e. muitos valores baixos, poucos valores altos), podemos
assumir explicitamente esta distribuição para os resíduos. Lembre-se que esta
distribuição tem dois parâmetros: média e k, que controla o quão rápido a variância
muda ao longo de X. Logo:

𝒀 ~ 𝑩𝒊𝒏𝑵𝒆𝒈 (𝒎é𝒅𝒊𝒂 = 𝐞𝐱𝐩 (𝒂𝒍𝒐𝒄𝒂𝒍 + 𝒂𝒔𝒑 + 𝒃𝒔𝒑 𝑿), 𝒌)

Lembre-se também que, para cada fator aleatório, temos uma variância associada;
logo, neste exemplo, temos três variâncias (i.e. intercepto aleatório entre locais,
intercepto aleatório entre espécies, e inclinação entre espécies). Assim, nosso
modelo terá um intercepto + uma inclinação + k + três variâncias = 6 parâmetros
para estimar. Intuitivamente, quanto mais locais, melhor será nossa estimativa sobre
a variação entre eles; quanto mais espécies, melhor nossa estimativa sobre a
variação entre elas. Agora, sim: temos um GLMM!

GLMMs herdam todos os conceitos principais dos modelos mais simples que já
aprendemos. Podemos adicionar mais preditores, incluindo interações, por exemplo
entre características das espécies e variáveis ambientais para testar como a
resposta das espécies ao ambiente depende de suas características (figura 10.10;

116
Pequeno et al. 2021). Podemos incluir outros fatores aleatórios, p.ex. se nossas
parcelas forem espacialmente agregadas, ou se quisermos considerar o parentesco
entre espécies. Podemos usar qualquer distribuição para os resíduos, p.ex.
distribuição binomial, se tivermos apenas ocorrências. Podemos usar
transformações dos preditores para testar relações curvilíneas. Embora nosso
exemplo seja ecológico, a lógica é a mesma para qualquer outro problema
multivariado, i.e. várias variáveis dependentes que queremos explicar ou prever ao
mesmo tempo, como o tamanho de várias estruturas morfológicas de um organismo,
ou a concentração de vários compostos químicos, ou o nível de expressão de vários
genes... A criatividade é o limite!

Figura 10.10: Relação entre a ocorrência de espécies de ácaros oribatídeos (Acari:


Oribatida) e o teor de fósforo do solo em uma paisagem natural na Amazônia central
(Reserva Ducke, Manaus, AM). Concatenando as ocorrências (presença ou
ausência) de 135 espécies amostradas em 55 locais, criou-se uma única variável
que “ocorrência” que pode ser modelada (p.ex. com distribuição binomial e função
de ligação logit) em função de quaisquer preditores de interesse, incluindo “espécie”
e “local” como fatores aleatórios para controlar a autocorrelação esperada. Neste
exemplo, há uma interação entre teor de fósforo do solo e tamanho corporal da
espécie: a chance de ocorrência tende a aumentar com o fósforo em espécies
maiores, e a diminuir em espécies menores. As linhas representam as tendências
médias preditas; as faixas coloridas indicam intervalos de confiança de 95%; e os
tracinhos superiores e inferiores indicam as presenças e ausências que foram
observadas na amostra, respectivamente. Adaptado de Pequeno et al. (2021).
.

117
Máxima Verossimilhança Restrita (REML) e Critérios de Informação
Para estimar a variação explicada pelo fator aleatório, temos primeiro que estimar o
efeito dos preditores, de modo a obter os resíduos. Por isso, os estatísticos
costumam usar uma adaptação do método de máxima verossimilhança para obter
estimativas dos parâmetros de modelos de efeitos mistos, conhecido como máxima
verossimilhança restrita (restricted maximum likelihood, REML). A “restrição”
refere-se aos efeitos dos preditores ou efeitos fixos, que são descontados primeiro
durante o processo de estimativa dos parâmetros. Quando a máxima
verossimilhança convencional é usada, a estimativa da variância dos efeitos
aleatórios é enviesada. Isso é importante porque Critérios de Informação para
seleção de modelos, como o AIC, são baseados na verossimilhança dos modelos,
não na verossimilhança restrita! Se você quiser aplicar Critério de Informação a
modelos com efeitos mistos, certifique-se primeiro de que os modelos incluem os
mesmos fatores aleatórios e que seus parâmetros foram estimados usando máxima
verossimilhança convencional, e só então calcule os Critérios (Zuur et al. 2009).

Uma nota sobre fatores aleatórios


Frequentemente, se você incluir as variáveis realmente importantes para testar a
sua hipótese e evitar formas óbvias de autocorrelação no delineamento amostral,
você não precisará se preocupar com fatores aleatórios! Fatores aleatórios são mais
úteis quando as questões de interesse realmente envolvem variabilidade dentro de e
entre grupos, como no exemplo de comunidades ecológicas.

118
11. CONCLUSÃO: UM RESUMO BEM RESUMIDO

Antes de decidir qual a análise mais adequada para o seu caso, responda às
seguintes perguntas (a ordem delas é aproximada):

1) Qual é a minha pergunta científica?


2) Qual é a minha hipótese para a minha pergunta?
3) Qual é o meu universo amostral/unidade amostral?
4) Que tamanho de amostra preciso para responder minha pergunta?
5) Qual é minha variável resposta/dependente? Quais meus preditores e, se
houver, fatores aleatórios?
6) Qual é a distribuição que reflete a minha variável dependente?
7) Qual é a equação que reflete a tendência predita pela minha hipótese?
8) Qual o grau de correlação entre os meus preditores? Se a multicolinearidade
for grande em relação ao tamanho da amostra, como vou resolver isso?
9) Agora sim, faça seu modelo!
10) E não esqueça, faça gráficos em TODAS as etapas anteriores. Se os gráficos
dizem uma coisa e os números dizem outra, algo está errado!

Por fim, esperamos ter convencido o leitor ou leitora de que a maioria das análises
estatísticas usadas na ciência se resume a uma mesma coisa: um modelo linear. Os
diferentes nomes dados a cada análise devem-se mais à história que à estatística
propriamente dita (Apêndice 1). Matematicamente, o que estamos fazendo em todas
essas análises é usar uma equação de soma para descrever como uma variável
resposta muda em função de uma ou mais variáveis preditoras, combinada a uma
distribuição estocástica que descreve como as observações variam em torno da
tendência. Conceitualmente, o que estamos fazendo – da correlação mais simples
ao GLMM mais complexo – é tão somente sumarizar nuvens de pontos com linhas
retas (ou com curvas que sejam retas em alguma outra escala).

Há vários desdobramentos dos modelos lineares que não abordamos aqui para
manter a concisão. Porém, estes desdobramentos podem ser úteis, e é bom saber
que eles existem. Por exemplo, podemos combinar vários modelos lineares para
testar simultaneamente e quantificar relações diretas e indiretas entre um conjunto
de variáveis, p.ex. variáveis de solo e de clima que afetam variáveis de vegetação

119
que afetam a abundância de um animal. Esta técnica é conhecida como análise de
caminhos (Wright 1921) ou, de forma, mais geral, modelo de equações
estruturais (Shipley 2016). Também podemos combinar distribuições estocásticas
em um mesmo modelo. Por exemplo, uma situação relativamente comum na
ecologia é uma grande proporção de zeros (> 90%) em dados de ocorrência ou
abundância de espécies. Assim, podemos combinar uma distribuição de Bernoulli a
uma distribuição de Poisson e criar um modelo inflado com zeros, a fim de
descrever o excesso de zeros em relação àqueles preditos pela distribuição de
Poisson (Zuur et al. 2009).
Outra situação relativamente comum é quando queremos medir a abundância de um
animal, mas a detecção dele é difícil porque ele se camufla, de modo que nossas
contagens são subestimativas cujo viés pode depender do ambiente (p.ex. detecção
mais fácil na vegetação aberta). Neste caso, podemos criar um modelo que
descreve a abundância observada em função de outros dois “submodelos”: um que
descreve a probabilidade de detecção (p.ex. GLM binomial), e outro que descreve a
abundância real (não observada) como se ela fosse um efeito aleatório, i.e. cada
abundância observada sofre um desvio “extra” em relação à média predita, que nos
diz o quanto seria a abundância real. Assim, podemos testar efeitos sobre a
abundância descontando a detecção imperfeita. Esses são chamados modelos de
espaço de estados (state-space models) ou de variáveis latentes (latente variable
models), e exigem delineamentos um pouco mais complexos. Ainda assim, são
apenas GLM(M)s “compostos”, i.e. modelos separados combinados de algum jeito
para descrever os dados de forma mais realista (Kéry & Royle 2016).

GLMMs são mais complexos apenas na quantidade de características que podemos


especificar, e não na natureza dessas características. Eles empregam exatamente
os mesmos conceitos básicos que aprendemos sobre variabilidade e relações entre
variáveis nos primeiros capítulos. Assim, podemos dizer que todas as análises que
aprendemos nesta apostila são GLMMs, diferindo apenas na combinação entre
equação da média e distribuição dos resíduos que cada uma usa (Apêndices 2 e 3).

A partir de agora, quando perguntarem o que é um modelo linear, você pode


responder: “e o que não é?”

120
REFERÊNCIAS

Arnold, T.W. (2010). Uninformative parameters and model selection using


Akaike's Information Criterion. Journal of Wildlife Management, 74: 1175-1178.

Axfors, C. et al. (2021). Mortality outcomes with hydroxychloroquine and


chloroquine in COVID-19 from an international collaborative meta-analysis of
randomized trials. Nature Communications, 12:1–13.

Bolker, B.M. (2008). Ecological models and data in R. Princeton University Press.

Bolker, B.M., Brooks, M.E., Clarck, C.J., Geange, S.W., Poulsen, J.R., Stevens,
M.H.H., White, J.S.S. (2009). Generalized linear mixed models: a practical guide
for ecology and evolution. Trends in Ecology and Evolution, 24: 127–135.

Bosholn, M., Fecchio, A., Silveira, P., Braga, M.E., Anciães, M. (2016). Effects of
avian malaria on male behaviour and female visitation in lekking blue-crowned
manakins. Journal of Avian Biology, 47: 457-465.

Box, G. (1996). Scientific statistics, teaching, learning and the computer. Report
Series in Quality and Productivity. Report 146.

Bravais, A. (1844) Analyse mathématique sur les probabilités des erreurs de


situation d'un point. Imprimerie Royale.

Breslow, N.E., Clayton, D.G. (1993). Approximate Inference in generalized linear


mixed models. Journal of the American Statistical Association 88:9–25.

Castilho, C.V., Magnusson, W.E., Araujo, R.N.O., Luizão, R.C.C., Luizão, F.J. , Lima,
A.P. , Higuchi, N. (2006). Variation in aboveground tree live biomass in a central
Amazonian forest: effects of soil and topography. Forest Ecology and
Management, 234: 85–96.

Changizi, M. 2009. The vision revolution: how the latest research overturns
everything we thought we knew about human vision. Benbella Books.

Cohen, J. (1968). Multiple regression as a general data-analytic system.


Psychological Bulletin, 70: 426–443.

121
Cohen, J., Cohen, P., West, S.G., Aiken, L.S. (2003). Applied multiple
regression/correlation analysis for the behavioral sciences. 3rd edition.
Lawrence Erbaum Associates.

Costa, F.R.C., Guillaumet, J.-L., Lima, A.P., Pereira, O.S. (2008). Gradients within
gradients: the mesoscale distribution patterns of palms in a central amazonian
forest. Journal of Vegetation Science, 20: 69–78.

De Freitas, C.G, Dambros, C., Eiserhardt, W.L.,Costa, F.R.C, Svenning, J., Balslev,
H. (2014). Phylogenetic structure of a palm community in the central Amazon:
changes along a hydro-edaphic gradient. Plant Ecology, 215: 1173–1185.

Fisher, R.A. (1918). The correlation between relatives on the supposition of


Mendelian inheritance. Transactions of the Royal Society of Edinburgh, 52: 399–
433.

Fisher, R.A. (1922a). The goodness of fit of regression formulae, and the
distribution of regression coefficients. Journal of the Royal Statistical Society, 85:
597–612.

Fisher, R.A. (1922b). Mathematical foundations of theoretical statistics.


Philosophical Transactions o the Royal Society of London, 222: 309–368.

Friendly, M., Denis, D. (2005). The early origins and development of the
scatterplot. Journal of the History of the Behavioral Sciences, 41:103-130.

Galton, F. (1886) Regression towards mediocrity in hereditary stature. Journal of


the Anthropological Institute of Great Britain and Ireland. 15: 246–263.

Gotelli, N.J., & Ellison, A.M. (2011). Princípios de estatística em ecologia. Artmed
Editora.

Gujarati, D.N., Porter, D.C. (2009). Basic econometrics. 5th edition. McGraw-Hill
Irwin.

Harrison et al. 2018. A brief introduction to mixed effects modelling and multi-
model inference in ecology. PeerJ, 6:e4794.

122
Kéry, M., Royle, J.A. (2016). Applied hierarchical modeling in ecology: analysis
of distribution, abundance and species richness in R and BUGS. Academic
Press.

Laird, N.M., Ware, J.H. (1982). Random-effects models for longitudinal data.
Biometrics, 38: 963–974.

Landeiro, V.L. & Baccaro, F.B. (2018). Apostila de introdução ao R. Versão 6.3.1.
Disponível em: https://sites.google.com/site/vllandeiror/

Larson-Hall, J. 2017. Moving beyond the bar plot and the line graph to create
informative and attractive graphics. The Modern Language Journal, 101:244-270.

Magnusson, W.E, Mourão, G.M., Costa, F.R.C. (2015). Estatística sem


matemática: a ligação entre as questões e análises. Editora Planta.

Nelder, J.A., Wedderburn, R.W.M. (1972). Generalized linear models. Journal of


the Royal Statistical Society. 135: 370–384.

Pearson, K. (1896). Mathematical contributions to the theory of evolution. III.


regression, heredity and panmixia. Philosophical Transactions of the Royal
Society of London. 187: 253–318.

Pequeno, P.A.C.L., Graça, M.B., Oliveira, J.R., Sobotník, J., Acioli, A.N.S. (2021).
Can shifts in metabolic scaling predict coevolution between diet quality and
body size? Evolution, 75:141–148.

Pequeno, P.A.C.L., Franklin, E., Norton, R.A. (2021). Modelling selection, drift,
dispersal and their interactions in the community assembly of Amazonian soil
mites. Oecologia.

Razali, N.M., Wah, Y.B. (2011). Power comparisons of Shapiro-Wilk,


Kolmogorov-Smirnov, Lilliefors and Anderson-Darling tests. Journal of
Statistical Modeling and Analytics. 2:21–33.

Romiti, F., Tini, M., Redolfi De Zan, L., Chiari, S., Zauli, A., & Carpaneto, G.M.
(2015). Exaggerated allometric structures in relation to demographic and

123
ecological parameters in Lucanus cervus (Coleoptera: Lucanidae). Journal of
Morphology, 276: 1193–1204.

Schietti, J., Emilio, T., Rennó, C.D., Drucker, D.P., Costa, F.R.C, Nogueira,
A., Baccaro, F.B., Figueiredo, F., Castilho, C.V., Kinupp, V., Guillaumet, J-L., Garcia,
A. R.M., Lima, A.P., Magnusson, W.E. (2013). Vertical distance from drainage
drives floristic composition changes in an Amazonian rainforest. Plant Ecology
& Diversity. 7: 241–253.

Shipley, W. (2016). Cause and correlation in biology: a user’s guide to path


analysis, structural equations and causal inference with R. Cambridge University
Press.

Sobroza, T.V., Gordo, M., Pequeno, P.A.C.L., Dunn, J.C., Spironello, W.R., Rabelo,
R.M., Barnett, A.P.A. (2021). Convergent character displacement in sympatric
tamarin calls (Saguinus spp.). Behavioral Ecology and Sociobiology, 75:1–13.

Stein, C.J., Colditz, G.A. (2004). Modifiable risk factors for cancer. British Journal
of Cancer, 90:299-303.

Student. (1908). The probable error of a mean. Biometrika 6:1–25.

Sydenham, M.A.K., Moe, S.R., Steinert, M., Eldegard, K. (2019). Univariate


Community Assembly Analysis (UniCAA): Combining hierarchical models with
null models to test the influence of spatially restricted dispersal, environmental
filtering, and stochasticity on community assembly. Ecology and Evolution
9:1473–1488.

Wilks, S.S. (1938). The large-sample distribution of the likelihood ratio for
testing composite hypotheses. The Annals of Mathematical Statistics, 9: 60–62.

Wright, S. (1921). Correlation and causation. Journal of Agricultural Research. 20:


557–585.

Zuur, A.F., leno, E.N ,Walker, N.J , Saveliev, A.A., Smith, G.M. (2009). Mixed
effects models and extensions in ecology with R. Springer.

124
APÊNDICE 1: Linha do tempo dos modelos lineares

As referências destacadas ou introduziram uma ideia ou método, ou ajudaram na


sua consolidação e popularização. Muitas ideias e métodos estatísticos foram
concebidos muito antes de se tornarem amplamente conhecidos. Por isso, o
verdadeiro autor frequentemente não recebe o devido crédito, p.ex. a correlação “de
Pearson”, cujo conceito foi primeiro aplicado por Galton, e cuja fórmula já havia sido
derivada por Bravais. A tendência de nomear ideias ou descobertas em homenagem
àqueles que não são seus autores originais foi identificada pelo historiador Stephen
Stigler (1941-), e é conhecida como Lei de Stigler.

125
APÊNDICE 2: Principais modelos lineares, por seus nomes tradicionais

Nome tradicional Variável Variável independente Função de Distribuição Resíduos Resíduos independentes?
dependente (X) ligação dos resíduos homocedásticos?
(Y) canônica

teste t Quantitativa Duas categorias Identidade Normal Sim Sim

ANOVA Quantitativa Três ou mais categorias Identidade Normal Sim Sim

ANOVA de medidas repetidas Quantitativa Três ou mais categorias Identidade Normal Sim Não; autocorrelação dada
ou aninhada (nested) por fatores aleatórios

Regressão simples ou Quantitativa Quantitativa Identidade Normal Sim Sim


múltipla

ANCOVA Quantitativa Quantitativa e categórica Identidade Normal Sim Sim

Regressão logística Binária (0/1) Quantitativa e/ou Logit Binomial Não Sim
categórica

Regressão multinomial Três ou mais Quantitativa e/ou Logit Multinomial Não Sim
categorias categórica

Modelo Linear Generalizado Quantitativa ou Quantitativa e/ou Várias (identidade, Várias (normal, binomial, Geralmente não Sim
(GLM) categórica categórica logit, log, etc.) Poisson, etc.) (depende da
distribuição)

Modelo Linear Misto (ou de Quantitativa Quantitativa e/ou Identidade Normal Sim Não; autocorrelação dada
Efeitos Mistos) (LMM) categórica por fatores aleatórios

Modelo Linear Misto Quantitativa ou Quantitativa e/ou Várias (identidade, Várias (normal, binomial, Geralmente não Não; autocorrelação dada
Generalizado (GLMM) categórica categórica logit, log, etc.) Poisson, etc.) (depende da por fatores aleatórios
distribuição)

Obs.: note como cada nome diferente na verdade representa um caso particular de um GLM, que neste esquema é o modelo mais geral de todos.

126
APÊNDICE 3: Principais distribuições estocásticas

Distribuição Tipo de variável Amplitude Parâmetro Exemplo OBS

Normal Valores contínuos -∞,+∞ Média, variância Altura, massa corporal,


temperatura

Poisson Contagens 0,+∞ Lambda (média= Número de organismos por Os organismos apresentam uma distribuição
variância) m² espacial aleatória

Binomial Contagens 0,+∞ média, Número de organismos por Os organismos apresentam uma distribuição
negativa k (tamanho da m² espacial agregada
agregação)

Gama Valores contínuos >0 , + ∞ Forma (shape) e Densidades, concentrações A distribuição de Tweedie não é da família
escala (scale) e taxas em geral exponencial, mas é similar e inclui zeros.

Binomial ou Presença ou 0,1 Probabilidade, Ocorrência de um Quando há apenas uma repetição, chamamos
ausência, número de organismo, prevalência de de distribuição de Bernoulli. Outra distribuição
Bernoulli
proporção repetições um organismo, proporção de específica para proporções, mas que não é da
organismos com uma dada família exponencial, é a distribuição Beta.
característica

127

View publication stats

Você também pode gostar