Escolar Documentos
Profissional Documentos
Cultura Documentos
Arleu Barbosa
à Interpretação de
Gráficos e Análises Viana Junior
Estatísticas
100%
50%
0%
01 02 03 04 05 06
100% 100%
100%
0% 0%
100% 100%
0% 0% 0%
www.biologiadaconservacao.com.br
PREFÁCIO
Página 2
Gráficos são representações visuais que contem infor-
mação numérica ou espacial. Um gráfico tem a função de facilitar
a interpretação de resultados de testes estatísticos mais compli-
cados, ou sumarizar as informações gigantescas que uma tabela
pode ter. Porém, a depender da informação que está sendo colo-
cada ali, ler e interpretar um gráfico pode ser uma frustração
para o biólogo.
Página 4
14 ●●
115
12 ●●
110 ●
●
Abundância
10
105
Riqueza
●●●●●●●●
8 ●●●● ●●●
100 ●●●●● ●●●●●●
6 ●●●● ●
95
●●●●●●●
90 4 ●●●
●●
85 2
●
A B C D 20 30 40 50
Respondendo...
Página 5
Você saberia acertar que análise estatística foi feita para um
gráfico como esses abaixo? OBS.: Esses gráficos foram tirados de
artigos científicos, dos quais estão referenciados.
Solar et al. 2016
a
Ant species richness per tansect
1.0
c 0.5
NMDS
0.0
-0.5
PFU PFL PFLB SEF REF PAS AGR -1.0 -0.5 0.0 0.5
1.2
6
Temp. P. americana
C.S.
4 Cond.
RDA2
-8
-6 -4 -2 0 2 4 6 8 10 12 14
−1.0 −0.5 0.0 0.5 1.0 1.5
RDA1
Low High
Y
Dependente
Resposta
Horizontal
Abcissas
X
Independente
Explicativa
Vertical
Ordenadas
Página 7
Existem dois tipos de variáveis: categórica/qualitativa e
numérica/quantitativa. A natureza quanto ao tipo de dado não só
influenciará na forma gráfica, como também na análise estatísti-
ca. Variáveis categóricas são aquelas que possuem qualidade,
ou como o próprio nome já diz, categorias: macho/fêmea; juve-
nil/jovem/adulto; dia/noite; seco/chuvoso; inicial/intermediário/-
tardio. Essas categorias inclusive podem ser variadas, como cores
por exemplo: vermelho, laranja, amarelo, verde, azul, anil, e viole-
ta. As cores do arco-íris podem ser consideradas classes de uma
categoria.
Página 8
BOX PLOT
É um dos gráficos mais clássicos, porém não tão utilizado
em artigos científicos. No entanto , nos dias de hoje, no meio
acadêmico se sugere usar com mais frequência esse tipo de gráfi-
co, pois ele demonstra com maior fidelidade a dispersão das
observações (Krzywinski and Altman, 2014).
30 3
20
10 2
1 {
0
A B
Tipo de Variável Tipo de Análises
Y – numérica Teste-t
X - categórica Teste U de Mann-Whitney
Anova one-way
GLM
1 – O quadrado central representa 50% da cobertura central dos dados, também conhecida
como IQR (InterQuartile Range). Seus limites inferiores e superiores representam 25º e 75º
percentil, também podendo ser o 1º quartil e o 3º quartil. A faixa escura do meio é o 2º quartil
3 – Os pontos são representados pelos outliers, que são pontos mais isolados da maior con-
}
3º quartil
4
3 IQR
2º quartil
ou mediana
2
1º quartil
● ●
●●
30 30
●●
● ●
● ●
● ●
20 20 ●●●
●●
10 10
●
● ●
●● ●● ● ●
● ●
●● ●
●
●●
●● ●
● ●●● ●●●●
● ● ●● ●
0 0 ●
A B A B
Página 10
Perceba que na caixa que representa o lado B há uma
maior concentração dos pontos próximo em zero, e essa frequên-
cia vai diminuindo com o aumento do eixo Y. Abaixo mais um
exemplo de como os boxplots representam melhor a dispersão
em relação a um outro gráfico que iremos falar na próxima
sessão.
Página 11
Bar PLOT
30 2
}
20 *
1
10
0
A B
1 – Sempre quando trabalhamos com amostras, nossa intenção é coletar uma pequena
parte de uma determinada população para que possamos fazer inferências sobre ela
como todo. Uma das principais medidas de posição gerada para descrever a população
através de uma amostragem é a média, representada pela parte superior da barra. Como
a população varia dentro dessa média, existe uma medida da dispersão desses dados em
dispersão podem ser representadas pela amplitude máxima e mínima, variância, desvio
padrão, erro padrão ou intervalo de confiança e o tipo de medida você está usando deve
ser informada no rótulo do eixo Y. Para saber mais sobre barras de erro, sugiro ler o artigo
Página 12
2 – O asterisco entre as barras é geralmente inserido no gráfico para representar a
médias diferem estatisticamente, quando o resultado analítico fica abaixo do nosso nível
de significância (geralmente é α < 0.05), essa é a forma que representamos esse resultado
no gráfico. Mas atenção, isso só é útil quando temos apenas duas barras ou “trata-
mentos”! Mais que duas, mostrarei para você como representamos da maneira corre-
ta.
30 ●
30
25
20
*
20
* 15
●
10
10
5
0
0
A B A B
60 60
40 40
20
* 20
*
0 0
−20 −20
−40 −40
−60 −60
A B A B
Página 13
60 60
40 40
●
20
* 20
● *
t1$y
0 0
−20 −20
−40 −40
−60 −60
A B A B
25
1
b
20
Riqueza de Aves (Média ± EP)
15
a
10 a
0
A B C
Áreas de Coleta
Página 14
1 – As letras em cima de cada erro padrão no gráfico representam um teste de comparação
uma análise de variância (ANOVA) forem aceitos, é preciso realizar um teste a posteriori, caso
você tenha mais de 2 níveis para sua variável X categórica. Nesse nosso exemplo, temos 3
níveis da variável Área. Caso a ANOVA gere um resultado abaixo do nível de significância esta-
belecido, a única interpretação que você pode fazer é que no mínimo um dos níveis é difer-
ente dos outros. Aí vem a seguinte pergunta: Quem é diferente de quem? Dessa forma,
precisamos realizar um teste a posteriori, que nesse nosso caso foi o Teste de Tukey. Após
interpretar o resultado, letras devem ser colocadas em cima de cada barra. Quando colo-
camos letras iguais, não existe diferença estatística entre as médias; letras diferentes indica a
existência de diferença.
Página 15
scatter PLOT
Saindo dos gráficos de barras, os scatter plots ou gráficos
de dispersão, são extremamente importantes quando queremos
demonstrar a relação entre variáveis numéricas, seja ilustrando
uma relação de causa e efeito ou uma relação de associação entre
variáveis. Esses tipos de gráficos são importantes para verificar
padrões ecológicos, diferente dos gráficos de barras que repre-
sentam tamanho de efeito.
20
y = −17.4905 + 0.8156*x
R² = 0. 48
●
15
Abundância de Morcegos
●
● ● ● ● ●
● ● ●
10 ● ● ● ●
● ● ●
● ● ●
●● ● ●
5 ●
●
● ●
●
26 28 30 32 34 36 38 40
Temperatura (ºC)
Página 16
1 – Esses valores podem vir diretamente no texto ou na legenda do gráfico. Essa equação
representa a fórmula na qual foi calculada a estimativa da linha reta (geralmente presente
uma equação do primeiro grau Y = a + bx. Porém, vamos entender o que isso significa. O “a”,
representado no gráfico pelo valor 27.8, representa o ponto que a reta começa em Y, levando
em consideração que o X é zero. Perceba que no nosso gráfico o eixo X inicia em 10. Esse “a” é
conhecido como o intercepto da reta. O “b” representa o coeficiente angular e ele demonstra
a inclinação da reta e a relação que a variável Y tem com o X. Ou seja, o quanto cada unidade
2 – Esse valor é conhecido como coeficiente de determinação. Esse valor varia entre 0 e 1 e
Quanto mais próximo de 1, mais próximos os pontos estão da reta; quanto mais distante,
10 ● 10 ●
● ●
R² = 1 R² = 0.86
8 ● 8 ●
● ●
6 ● 6 ●
y
● ●
4 ● 4 ●
● ●
2 ● 2 ●
● ●
2 4 6 8 10 2 4 6 8 10
x x
10 ● 10 ● ●
●
R² = 0.65 R² = 0.27 ●
8 ● 8
● ●
6 ● ● 6 ●
y
● ●
4 ● 4 ●
● ●
2 ● 2
●
2 4 6 8 10 2 4 6 8 10
x x Página 17
Até agora, acho que ainda continua tranquilo.
10 ● 5 ● ●
8 ● 4
y
3 ● ● ● ●
6 ●
y
●
2 ●
4 ●
●
1 ● ●
2 ●
● 0 ●
2 4 6 8 10 0 2 4 6 8 10
x x
10 ● 10 ● ●
y = exp(−064 + 0.27*x)
8 8 ● ●
y
6 ● 6 ●
y
4 4 ● ●
● ●
2 ● ● ● 2 ●
y = 4.75 + 1.71*x − 0.22*x²
● ● ● ●
2 4 6 8 10 2 4 6 8 10
x x
Página 18
Depois de explicar para você um pouco sobre gráficos de
barra, que são para variáveis categóricas, e gráficos de dis-
persão, que são para variáveis numéricas, será que temos uma
maneira de, em um mesmo gráfico, colocar variáveis categóricas e
numéricas? A resposta você já sabe! É claro que tem.
Página 19
20
●
15 1
Abundância de Morcegos
●
● ● ● ● ●
● ● ●
10 ● ● ● ●
● ● ●
● ● ●
●● ● ●
5 ●
●
● ● ● A
●
● B
0
26 28 30 32 34 36 38 40
Temperatura (ºC)
Tipo de Variável Tipo de Análises
Y – numérica ANCOVA
X - categórico + numérica GLM
parâmetros analisados. Vamos pensar um pouco! [eu sei, foi plágio...]. Eu poderia analisar
as duas variáveis de forma separada, fazendo um gráfico de barras para saber a diferença
das medias entre as áreas, e outro gráfico de dispersão para verificar a relação entre quan-
tidade de morcegos e a temperatura. Mas eu iria gastar mais espaço na folha do meu artigo
ou relatório e ainda iria perder uma informação preciosa que é a INTERAÇÃO. Sabemos
que na natureza não um único fator não possui a capacidade de explicar todos os padrões
vezes variáveis que nem conseguimos medir ou observar. No entanto essas variáveis não
agem sozinhas e isoladas, mas interagem entre si para gerar as maravilhas do nosso siste-
ma natural. Esse gráfico nos dá esse exemplo. Essa imagem é a mesma imagem do nosso
primeiro exemplo de SCATTER PLOT, no entanto conseguimos colocar mais uma infor-
mente nessa abundância. Porém, não é sempre que a área B tem mais morcegos que a
área A. A temperatura age de maneira distinta nas duas áreas de estudo. Se pudéssemos
nessa área iria ser superior que na área B. Isso mostra que o efeito da temperatura na
um gráfico de dispersão ou um gráfico de barras, essa informação não poderia ser capaz
Página 21
4 18
1.0
12 2 3 3
jun.07 ●● jul.07 ● ●● ●● ● ●
mar.06
fev.07 jun.06
mar.07
Likelihood of flight event
may.07
0.5
0.0 ●●●
●●●● ● ● ● ●
0 50 100 150
Rainfall (mm)
Esse tipo de gráfico é gerado quando temos uma variável resposta binária. Mas como seria
isso Arleu? Seria assim: Uma variável resposta binária é quando estamos verificando um
evento de forma dual (p. ex. acontece ou não acontece, tem ou não tem, homem ou
mulher...). Estritamente a variável explicativa tem que ser uma variável continua. Essa
Vamos ao nosso exemplo! Eu estava verificando mensalmente durante o ano todo, vários
ninhos de cupins para saber o período em que aconteceriam revoadas. Telei os ninhos com
tecido e verificava se em cada vistoria havia buracos abertos, alados mortos ou presos, asas
caídas, qualquer característica que pudesse diagnosticar o evento de revoada. Então minha
mês. Esta seria minha variável explicativa. Então realizando modelos estatísticos com esses
do evento acontecer ou não acontecer. Se levarmos em consideração que no 50% (no eixo
Y está com o numero 0.5) é o momento onde há a probabilidade do evento mudar de “não
acontecer”, para “acontecer” (ou vice-versa, dependendo da sua variável), qual ponto do
eixo X esse fenômeno ocorre? Olhando para o gráfico, mais ou menos quando atingimos
gráfico baseado nesta análise. Assim, a partir daí, eu preciso explicar quais mecanismos
estão por trás dessa influência da chuva na probabilidade de revoada por cupins.
1.0
● Somente Cupins
Controle
Fungo
0.8
Sobrevivência (%)
0.6
0.4
0.2
0.0
0 1 2 3 4 5 6 7 8 9 10
Tempo (dias)
Tipo de Variável Tipo de Análises
Y – tempo Analise de sobrevivência
X - categórica
Página 23
Temos agora um exemplo bastante peculiar de gráfico. Olhando o padrão da curva se
assemelha bastante ao exemplo anterior, porém com uma relação invertida. Mesmo com
toda essa semelhança, essa análise traz informações bem mais complexas e interessantes.
Estamos falando da análise de sobrevivência. Essa análise é bem usada pelo pessoal da
relação à diferentes tratamentos, como tipos de substrato. Mas sem delongas... Vamos
da como “análise de tempo até o evento”. Para entender o que isto significa, para realizar
que não deixe dúvida do que seja. Esse evento tem que ser binário. Lembra muito a
regressão logística, não é? No entanto essa analise verifica a probabilidade desse evento
acontecer (ou não) no tempo. Como disse anteriormente na caixinha do gráfico, não foi
colocado que a variável resposta pode ser contínua ou categórica. Disse que o TEMPO é a
nossa variável de interesse. Um pouco confuso, não é? Mas vamos tentar trabalhar com o
de cupins [CUPINS DE NOVO, ARLEU! Foi mal, este é o grupo que eu trabalho ]. Então,
inseri em uma placa de petri 25 indivíduos de uma mesma colônia em contato com difer-
entes recursos, separados em três tratamentos: i) papel filtro contaminado com fungos; ii)
papel filtro umedecido; iii) apenas cupins na placa sem nenhum recurso. Todas foram
desde o tempo zero (primeiro dia do experimento) até o dia em que todos os indivíduos
morressem. Agora acho que ficou mais fácil de entender... Nosso evento era a morte de
todos os indivíduos. É um evento claro, sem a mínima condição de dúvida. Neste caso,
nossa variável resposta era o dia de morte e nossa variável explicativa eram os nossos
tratamentos. Logo, fazendo modelos estatísticos para verificar o tempo de morte desses
neste gráfico. Percebam que a longevidade dos cupins aumenta quando estão em contato
quando estão com um recurso úmido. O que isso quer dizer então Arleu?
Página 24
É simples! Parece que fungos auxiliam na sobrevivência dessa espécie de cupim,
aumentando seu tempo de vida. A partir daí cabe a nós explicar quais benefícios os cupins
3
Site 1
5 10 15 20
t (days)
1 100
10
Percent germinated
0.8 80
Searching rate
15
0.6 60
0.4 40 5
Male–female
Male–male
0.2
Single male 20
20
0
0 20 40 60 80 100 120
Time elapsed until nest establishment (h)
0 5 10 15 20 25 30
Days
Página 25
Este e-book pode ser o primeiro passo para você se
tornar um pouco mais autônomo na sua forma de ver e interpre-
tar um gráfico em um artigo ou relatório. Em um segundo mo-
mento podemos trabalhar com você coisas sobre gráficos multi-
variados, erros mais comuns e sugestões de como elaborar um
bom gráfico. Páginas do próximo capítulo... Por enquanto, espero
que este conteúdo abordado lhe traga um bom desempenho!
OBRIGADO
Página 27
MSc. Arleu Barbosa Viana-Junior
Página 28
RECOMENDAÇÕES DE LEITURA
Cohen J. (1990). Thing I have learned (so far). American Psy-
chologist. 45: 1304-1312.
Cumming G. et al. (2007). Error bars in experiments biology.
The Journal of Cell Biology. 177: 7-11.
Krzywinski M. and Altman N. (2013). Error bars. Nature Meth-
ods. 10: 921-922.
Krzywinski M. and Altman N. (2014). Visualizing sample with
box plots. Nature Methods. 11: 119-120.
Streit M. and Gehlenborg N. (2014). Bar charts and box plots.
Nature Methods. 11: 117.
Weissgerber T. L. et al. (2015). Beyond Bar and Line Graphs:
Time for a New Data Presentation Paradigm. Plos One. 13: 1-10
Página 29
AGRADECIMENTO
Este E-BOOK foi elaborado em 2016 após anos de
estudo dentro da minha jornada acadêmica em ciências biológi-
cas da qual gostaria de agradecer os professores doutores Lean-
dro Sousa-Souto (UFS), Frederico Neves (UFMG), Ricardo Solar
(UFMG), Ronaldo Reis (Unimontes), Og de Souza (UFV) que até
hoje são minhas referencias em analises de dados e estudo das
técnicas com o software R. Não poderia deixar de agradecer
também os amigos do Laboratório de Entomologia da UFS e da
Vila Parentoni (UFMG) que enriquecem meus conhecimentos
dentro da biologia e analises de dados. Agradeço a Renata
Muylaert por todas as conversas e aprendizados sobre R e pela
revisão realizada nesse e-book. Agradeço também a Bocaina –
Biologia da Conservação pela oportunidade de parceria com os
diretores (Lucas Perillo e Felipe Fonseca).
Página 30