Você está na página 1de 6

UNIVERSIDADE FEDERAL DE SÃO CARLOS

Programa de Pós-Graduação em Ecologia e Recursos Naturais (PPG-ERN)

Disciplina: ERN-709 Estatística Aplicada à Ecologia


Julho de 2021

Prof. Responsável: Prof. Dr. Mercival Roberto Francisco

Aluno: Enzo Coletti Manzoli

Avaliação 1

1) Usando um exemplo de sua preferência, explique em detalhes o funcionamento de


uma ANOVA, mostrando os cálculos e falando sobre o papel de cada etapa, incluindo a
verificação do grau de significância através da distribuição F de Fisher.

Primeiramente devemos definir o que é a ANOVA, ela é uma análise de


variância que visa comparar se a diferença na variação entre os tratamentos é diferente
da variação dentro deles, levando em conta os tamanhos amostrais.
O exemplo escolhido foi o seguinte:

Tratamento 1 Tratamento 2 Tratamento 3

10 9 12

12 11 13

12 11 15

13 12 16

Em um primeiro momento iremos quantificar o grau de variação dentro de cada


grupo, ou seja o resíduo. E como isso será feito? Fazendo a média de cada tratamento e
depois calculando a somatória dos quadrados dos desvios dentro, isso vai representar o
quanto de resíduo existe dentro de cada tratamento, ou seja o quanto os valores diferem
da média.

Média= 11,75 Média= 10,75 Média= 14

(10-11,75)^2=3,0625 (9-10,75)^2=3,0625 (12-14)^2=4

(12-11,75)^2=0,0625 (11-10,75)^2=0,0625 (13-14)^2=1

(12-11,75)^2=0,625 (11-10,75)^2=0,625 (15-14)^2=1

(13-11,75)^2=0,625 (12-10,75)^2=1,5625 (16-14)^2=4

⅀=4,75 ⅀=4,75 ⅀=10


A somatória de todos eles vai dar ⅀⅀=19,5, presentando nosso SQ dentro.
Nossa próxima etapa então é descobrir o quadrado médio (QM dentro)
utilizando a fórmula (SQ dentro/ a.(n-1)) sendo que a é o número de tratamentos e n é
o número de réplicas dentro dos tratamentos.

Portanto QM dentro = 2,166


Esse valor representa o quanto, em média, os números dentro de cada tratamento
diferem de suas médias, representando assim o quanto há de resíduo.

Nessa próxima etapa precisamos representar o valor entre os tratamentos.


Comecemos então calculando a média geral:
Média geral = (11,75+10,75+14)/3 = 12,19

Vamos subtrair cada média de cada coluna da média geral dela ao quadrado,
multiplicado pelo n amostral (n.(média do tratamento x - média geral)^2), isso
mostra o quão diferente está nosso tratamento se difere do todo. Com isso temos:

4.(11,75-12,16)^2=0,672 4.(10,75-12,16)^2=7,952 4.(14-12,16)^2=13,542

Se a média de um tratamento de um tratamento difere muito do geral indica que


essa média está sendo significativamente diferente.

Fazendo a somatória de todos esses resultados obtemos o SQ entre =22,166

A partir disso podemos calcular o QM entre com a seguinte fórmula:


SQ entre/(a-1)=QMentre
22,166/(3-1) = 11,083
Esse valor vai representar o quanto os valores dentro de cada tratamento vão
diferir em relação a média geral, representando a variação entre os tratamentos.
Agora chegamos na Razão-F ou F observado, onde nos dividimos
(QMentre/QMdentro), gerando um valor que representa a proporção da variação que
temos entre os grupos em relação a variação dentro deles.
Razão-F=11,083/2,166 =5,116
Valores que são muito próximos de 1, ou menores, nos mostram que os resíduos
devem ter o mesmo efeito entre os tratamentos e que portanto a diferença entre eles
deve não ser significativa. Já com valores maiores indicam que os tratamentos têm
efeito maior que a variação residual.
Mas isso não é o suficiente para vermos se essa diferença é significativa, para
isso precisamos antes de mais nada definir nossos graus de liberdade 1 e 2 para
considerarmos nosso número de tratamentos e tamanho amostral, respectivamente, na
função de distribuição de Fisher.
gl 1= (a-1) = (3-1) = 2
gl 2= a(n-1) = 3.(4-1)=9

Com base na função de distribuição de Fisher, podemos ver se o F observado


dos nossos dados se enquadra dentro F crítico resultante da sua função de distribuição,
ou seja se ele está dentro dos 0,05% finais da função.
Podemos ver aqui então que nosso F observado ultrapassa o valor do F crítico,
isso nos indica que a diferença entre nossos tratamentos é significativa e não está
ocorrendo ao acaso.

2) Baseando-se na resposta da questão acima, defina sucintamente: valor de alfa, grau


de liberdade,valor observado e valor crítico e o valor de P.
● O grau de liberdade ele vai representar um ajuste na função para considerar
algo.
● O valor de alfa diz qual vai ser o valor crítico adotado na curva de
distribuição-F.
● O valor observado é o valor resultante da nossa Razão-F (QM entre/QM
dentro).
● O valor crítico é aquele F indicado pelo valor que iremos comparar na
distribuição-F com nosso valor observado.
● O valor de P é onde nosso valor observado vai entrar dentro da curva. o que
sobrar dentro da curva a partir do valor observado vai ser o valor de P.

3) Explique (cálculo e interpretação): variância, desvio padrão, coeficiente de variação,


erro padrão e intervalo de confiança.
● A variância representa em média o quanto os valores das nossas observações se
distanciam da média ao quadrado, também pode ser chamada de desvio padrão
superestimado.
Var = ± Somatória dos quadrados dos desvios de uma coluna/(número de
tratamentos -1)
● O desvio padrão é o valor que mais representa em média o quanto os dados se
afastam da média, ele está em uma escala melhor para interpretação.
DP = ± √Var
Quanto maior for nosso DP em relação à média, isso nos indicará que nossos
dados são muito diferentes da média, dessa forma eles podem estar fugindo de
uma distribuição normal.
● O coeficiente de variação é um valor em porcentagem que representa o quanto
o DP é em relação a média dos valores de cada coluna de dados. Esse valor é
aceitável até 15%.
CV = (DP/Média dos valores da coluna x).100

● O erro padrão é um valor sempre menor que o DP, ele é um valor em uma
escala inferior ao DP e portanto um valor subestimado. Ele é mais utilizado em
análises multivariadas para representar o quanto os dados variam em relação a
uma média.
SE = DP/ √n

● O intervalo de confiança é uma faixa de valores com 95% de confiança que


você vai ter seus dados dentro de um intervalo.
IC = (Média - 1,96 . DP) e (Média + 1,96. DP)
Note que para termos 96% de confiança devemos multiplicar o DP por ±2,
contudo como queremos que esteja com 95% de confiança devemos multiplicar
por ±1,96.

4) Explique o funcionamento de um Box-plot.

Primeiramente precisamos falar que o Box-plot trabalha com medidas de


posição pois ele ordena todos nossos dados em ordem crescente de valores.

Então supondo que eu tenha um conjunto de dados com 100 medidas de 1 até
100, a posição da Mediana vai ser o valor 50 no eixo Y do gráfico, o Quartil Superior
vai ser o valor 75 e assim por diante.
De maneira geral podemos dizer que o Box-plot representa as distorções de
posições dos dados, onde distorções muito grande podem mostrar que nossos dados
muito provavelmente não são normalmente distribuídos.

5) Usando um exemplo de sua preferência, explique em detalhes o funcionamento de


um teste de Chi-quadrado (tabela de contingência 2 x 2), mostrando os cálculos e
falando sobre o papel de cada etapa, incluindo a verificação do grau de significância
através da distribuição de Chi-quadrado.

Antes de começarmos com o exemplo precisamos falar que o teste de


Chi-quadrado (✗²) é utilizado para se trabalhar com tabelas de contingência e que vai
comparar proporções utilizando dados categóricos, portanto não há uma medida para
cada amostra, diferente do ANOVA.

Exemplo:
Queremos achar se a proporção de sobreviventes para mortos é diferente entre
aqueles que tomaram remédio e aqueles que tomaram placebo.

Precisamos achar as frequências para acharmos as probabilidades.

O que está grifado de verde é o equivalente aos nossos valores observados e


vamos gerar os valores esperados, grifados de amarelo.
Sobreviveu Morreu ⅀

Remédio 48 17 65

Placebo 20 36 56

⅀ 68 53 ⅀Total=121

Para isso calcularemos a probabilidade de cada indivíduo pertencer a


determinada categoria.
Probabilidade de sobreviver = 68/121 = 0,56
Probabilidade de morrer = 53/121= 0,44
Probabilidade de tomar remédio = 65/121= 0,54
Probabilidade de não tomar remédio = 56/121= 0,46

Para gerarmos o valor esperado de cada célula devemos multiplicar as


probabilidades que compõem a célula (vulgo a regra do “e”), multiplicando esse valor
pelo total da população (121).

Sobreviveu Morreu

Remédio 0,56 . 0,54. 121= 36,6 0,44 . 0,54 . 121=28,75

Placebo 0,56 . 0,46 . 121= 31,17 0,44 . 0,46 . 121=24,5


Agora com a fórmula de ✗² podemos comparar os resultados observados com o
esperado, a fórmula é a seguinte:

✗²=⅀ (Observados-Esperados)²/Esperados

Então para nossa tabela teremos o seguinte:

✗² = (48-36)²/36,6 + (17-28,75)²/28,75 + (20-31,17)²/31,17 + (36-24,5)²/24,5


✗²=17,74

Esse valor final de ✗² vai ser uma grandeza do quanto temos de diferença entre
os valores observados e esperados dentro das células da tabela, e essa diferença entre
observado e esperado é nosso resíduo

. Agora esse valor de ✗² vai entrar em uma tabela de ✗², porém precisamos
calcular nosso grau de liberdade (gl):

gl=(número de linhas - 1) . (número de colunas - 1)


gl = 1

Finalmente podemos comparar nosso resultado dentro da tabela:

Percebemos aqui que com um grau de liberdade igual 1 e um P de 0,05 final da


curva temos o valor crítico de 3,841, ou seja valores acima desse valor serão
significativos. Portanto nossos dados apresentam diferença significativa!

Você também pode gostar