Você está na página 1de 42

Estatística e Metodologias de Investiga o

LIC. EQUINICULTURA E ENF. VETERINÁRIA 2023/2024


JOSÉ TELO DA GAMA: JOSE.GAMA@IPPORTALEGRE.PT



Estatística descritiva
Correlação linear: Diagrama de dispersão
Por vezes, pretende-se estudar não apenas uma característica da população, mas duas ou mais
características que se supõe relacionadas entre si.

No caso de se pretender estudar duas características conjuntamente, os valores observados


aparecem sob a forma de pares de valores, isto é, cada indivíduo ou resultado experimental
contribui com um conjunto de dois valores.
Estatística descritiva
Correlação linear: Diagrama de dispersão
É o que acontece, por exemplo, quando se considera para cada aluno candidato ao ensino
superior, a classificação interna final e a nota do exame de uma disciplina. Outros exemplos são
a altura e peso de alunos de uma escola primária; as notas de Física e Matemática dos alunos do
10º ano de uma dada escola; as alturas de pais e filhos; o consumo de gasolina e a cilindrada de
um carro, etc..

Então, para estudar duas características conjuntas, recolhe-se uma amostra de dados
bivariados, que pode ser representada da seguinte forma:

(x1, y1), (x2, y2), (x3, y3), …, (xn, yn),


Estatística descritiva
Correlação linear: Diagrama de dispersão
Para representar e organizar este tipo de informação considera-se uma representação gráfica a
que se dá o nome de nuvem de pontos ou diagrama de dispersão.

Diagrama de dispersão: É uma representação gráfica para os dados bivariados, em que cada par
de dados é representado por um ponto de coordenadas num sistema de eixos coordenados.

Este tipo de representação é muito útil pois permite realçar algumas propriedades entre os
dados, nomeadamente no que diz respeito ao tipo de associação entre as variáveis e .

𝑋
𝑌
Estatística descritiva
Correlação linear: Diagrama de dispersão
Exemplo 1

Um grupo de investigadores está interessado em saber se nas futuras mães o nível de uma
proteína se altera (e no caso afirmativo, de que modo) ao longo da gravidez.

Selecionaram-se para o estudo 19 mulheres saudáveis, todas em estado diferente de gravidez


(tempo de gestação), e mediu-se o nível de proteína em cada uma delas, obtendo-se os
seguintes resultados (Bowman et al. 1987):
Estatística descritiva
Correlação linear: Diagrama de dispersão
Estatística descritiva
Correlação linear: Diagrama de dispersão
Estatística descritiva
Correlação linear: Diagrama de dispersão
O objetivo desta experiência é averiguar como é que uma variável (nível de proteína) é afetada
por uma outra variável (tempo de gestação).

Se representarmos estes dados graficamente através da nuvem de pontos vemos claramente


que o nível da proteína aumenta com o tempo de gestação.

Podemos traçar uma reta no gráfico de modo que os pontos se encontrem próximos da reta e
bem distribuídos para um lado e outro da mesma.

Diz-se então que as variáveis estão positivamente correlacionadas. É pois de esperar que se
consiga saber, através do tempo de gestação, qual o nível provável de proteína no sangue.
Estatística descritiva
Correlação linear: Diagrama de dispersão
Exemplo 2

Recolheram-se amostras de solo do estuário do rio Tejo a oito profundidades distintas e


mediram-se os respetivos graus de humidade (gramas de água/100 g de solo) obtendo-se os
seguintes resultados (Davis, 1973):
Estatística descritiva
Correlação linear: Diagrama de dispersão

Observamos que quando a profundidade


aumenta, a humidade diminui. Diz-se,
neste caso, que as duas variáveis estão
negativamente correlacionadas, pois
variam em sentidos opostos.
Estatística descritiva
Correlação linear: Diagrama de dispersão
Exemplo 3

Com o objetivo de averiguar se a distância atingida no salto em comprimento está relacionada


com o peso dos estudantes, um professor de Educação Física selecionou aleatoriamente 11
estudantes do sexo masculino para uma prova, tendo obtido os seguintes resultados:
Estatística descritiva
Correlação linear: Diagrama de dispersão
Observamos que não há uma relação
clara entre estas duas características.
A nuvem de pontos encontra-se
bastante dispersa. Diz-se que as duas
características estão fracamente
correlacionadas. Não é de esperar
que o facto de sabermos o peso do
aluno nos indique de algum modo a
distância que ele vai saltar. Pode ser
pesado e saltar bastante, como pode
saltar pouco.
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
O grau de associação linear entre duas variáveis é traduzido matematicamente por uma
estatística a que se dá o nome de coeficiente de correlação linear de Pearson, a qual se
representa geralmente por .

Se representarmos por os valores das observações correspondentes a uma das variáveis e por
os valores das observações correspondentes à outra variável, então o coeficiente obtém-se
através da expressão

onde e y representam a média das observações respectivas.


𝑦
𝑥
𝑥
𝑟
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Prova-se que o valor desta estatística está entre (-1) e 1.

• Quando > 0 diz-se que as variáveis estão positivamente correlacionadas;

• Quando < 0 diz-se que as variáveis estão negativamente correlacionadas;

• Quando = 0 diz-se que as variáveis não estão correlacionadas.

Os valores extremos da correlação, = 1 ou = −1, correspondem à situação em que os valores


das variáveis se encontram sobre uma reta com declive positivo ou negativo.
𝑟
𝑟
𝑟
𝑟
𝑟
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
O esquema seguinte ajuda a classificar a correlação linear entre duas variáveis:
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Observação

Repare-se que

Observação: nos exemplos apresentados utiliza-se a segunda expressão para calcular o coeficiente de correlação linear.
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Exemplo 1

Considere-se as variáveis
: çã ( )
: í í
𝑥
𝑦
𝑛
𝑡
𝑒
𝑣
𝑚
𝑒
𝑙
𝑝
𝑑
𝑜
𝑒
𝑑
𝑝
𝑒
𝑟
𝑔
𝑜
𝑒
𝑡
𝑒
𝑠
𝑡
𝑛
𝑎
𝑎
𝑜
𝑠
𝑒
𝑚
𝑎
𝑛
𝑎
𝑠
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
A última linha da tabela (linha dos totais) indica-nos que:

Assim,
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Estamos agora em condições de calcular o valor do coeficiente de correlação:
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
O resultado obtido indica-nos a existência de uma associação linear positiva forte entre o
tempo de gestação e o nível de proteína nas grávidas porque, além do valor ser positivo,
também é superior a 0,75.
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Exemplo 2

Considere-se as variáveis : ( )e :h (gr. de água/100 gr. de solo)


𝑥
𝑝
𝑟
𝑜
𝑓
𝑢
𝑛
𝑑
𝑖
𝑑
𝑎
𝑑
𝑒
𝑐
𝑚
𝑦
𝑢
𝑚
𝑖
𝑑
𝑎
𝑑
𝑒
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Exemplo 2

Considere-se as variáveis : ( )e :h (gr. de água/100 gr. de solo)


𝑥
𝑝
𝑟
𝑜
𝑓
𝑢
𝑛
𝑑
𝑖
𝑑
𝑎
𝑑
𝑒
𝑐
𝑚
𝑦
𝑢
𝑚
𝑖
𝑑
𝑎
𝑑
𝑒
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
A última linha da tabela (linha dos totais) indica-nos que:

Assim,
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Estamos agora em condições de calcular o valor do coeficiente de correlação:
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
O resultado obtido indica-nos a existência de uma associação linear negativa forte entre a
profundidade do solo e a humidade porque além do valor ser negativo também está entre
(-0,75) e (-1).
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Exemplo 3

Considere-se as variáveis : ( ) e : salto (cm)


𝑥
𝑝
𝑒
𝑠
𝑜
𝑘
𝑔
𝑦
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Exemplo 3

Considere-se as variáveis : ( ) e : salto (cm)


𝑥
𝑝
𝑒
𝑠
𝑜
𝑘
𝑔
𝑦
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
A última linha da tabela (linha dos totais) indica-nos que:

Assim,
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
Estamos agora em condições de calcular o valor do coeficiente de correlação:
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
O resultado obtido indica-nos a existência de uma associação linear muito fraca entre o peso
do estudante e a distância alcançada no salto em cumprimento porque o valor de r está muito
próximo de zero.
Estatística descritiva
Correlação linear: Coeficiente de correlação linear de Pearson
É também importante frisar que o coeficiente de correlação traduz apenas o grau de associação
linear existente entre duas variáveis. O facto do coeficiente de correlação ser zero, não implica
que as variáveis não estejam associadas.

No exemplo que se segue, = 0 e, no entanto, as variáveis e estão associadas pela relação


determinística não linear 2 + 2 = 9.
𝑥
𝑟
𝑦
𝑥
𝑦
Estatística descritiva
Regressão linear: Reta de regressão linear
Quando a correlação entre duas variáveis é elevada (quer esta seja positiva ou negativa), então
se conhecermos o valor de uma das variáveis é possível ter uma ideia do valor que a outra
variável irá tomar. Em linguagem estatística, diz-se que podemos inferir o valor da outra
variável.

Assim, voltando ao exemplo do nível de proteína nas gestantes, consideremos uma senhora
grávida com 24 semanas de gestação. Qual será o valor que o nível de proteína deve
apresentar?
Estatística descritiva
Regressão linear: Reta de regressão linear
Para respondermos a esta questão podemos construir uma
reta que "melhor" aproxime os pontos que constituem a
nuvem de pontos. Claro que há muitas retas possíveis.

Um dos critérios mais usados para definir esta reta é o de


tornar mínima a soma dos quadrados dos desvios dos
pontos em relação à reta1. Essa reta é a chamada reta de
regressão (dos mínimos quadrados).

1 Designamos por desvio no ponto de abcissa a diferença entre o valor observado e o valor
correspondente sobre a reta.
Estatística descritiva
Regressão linear: Reta de regressão linear
Matematicamente é possível encontrar essa reta. Prova-se que ela passa pelo centro de
gravidade da distribuição, isto é, pelo ponto ( , ) e que o declive está relacionado com o
coeficiente de correlação e tem o mesmo sinal.

Assim, o modelo matemático que expressa a associação linear entre duas variáveis é a reta de
regressão linear

obtida de tal modo que os desvios (resíduos, habitualmente representados por ) quadráticos
das observações em relação à reta sejam mínimos (método dos mínimos quadrados).
𝑥
𝑦
𝑒
Estatística descritiva
Regressão linear: Reta de regressão linear
Obtêm-se então as seguintes expressões que permitem estimar o declive da reta de regressão e
a interseção da reta com o eixo das ordenadas:

( çã )

em que e são as médias dos valores observados de X e Y, respetivamente.


𝑥
𝑦
𝑖
𝑛
𝑡
𝑒
𝑟
𝑠
𝑒
𝑜
𝑐
𝑜
𝑚
𝑜
𝑒
𝑖
𝑥
𝑜
𝑑
𝑎
𝑠
𝑜
𝑟
𝑑
𝑒
𝑛
𝑎
𝑑
𝑎
𝑠
Estatística descritiva
Regressão linear: Reta de regressão linear
Exemplo 1

Considerando uma vez mais o exemplo 1, temos:


Estatística descritiva
Regressão linear: Reta de regressão linear
Para este exemplo, a reta de regressão é

Construída a reta, podemos responder à questão inicialmente formulada:

“Qual será o valor que o nível de proteína que uma senhora grávida de 24 semanas deve
apresentar?”

O valor que inferimos para o nível da proteína correspondente a 24 semanas de gravidez é o


valor sobre a reta correspondente a x = 24

isto é,
Estatística descritiva
Regressão linear: Reta de regressão linear
Estatística descritiva
Regressão linear: Coeficiente de determinação
O coeficiente de determinação ( 2) corresponde ao quadrado do coeficiente de correlação (r).

Trata-se de uma medida da proporção de variação na variável dependente que pode ser
explicada pela variável independente . Note-se que 0 ≤ 2 ≤1.

E.g., se 2 = 0,9 significa que a variável independente explica 90% da variação da variável
dependente . Quando 2 = 0 significa que a variação de não contribui em nada para explicar
a variação de . Por outro lado, quando 2 = 1 a variação total de é explicada totalmente pela
variação de .
𝑟
𝑋
𝑌
𝑌
𝑟
𝑟
𝑋
𝑟
𝑋
𝑟
𝑋
𝑌
𝑌
Estatística descritiva
Regressão linear: Coeficiente de determinação
Consideremos novamente o exemplo 1 e o modelo definido pela reta:

Neste exemplo, o coeficiente de determinação é igual a

Repare-se que a proporção de variação de explicada por é aproximadamente 74%.


𝑌
𝑋

Você também pode gostar