Você está na página 1de 37

ANÁLISE ESTATÍSTICA

REGRESSÃO LINEAR
Autor(a): Guilherme Augusto Pianezzer

Revisor: Eder Cassettari

Tempo de leitura do conteúdo estimado em 1 hora e 5 minutos.


Introdução
Caro(a) estudante, neste estudo, investigaremos os métodos de regressão
linear, que buscam determinar uma função que melhor descreve um
determinado conjunto de dados que podem se comportar, aproximadamente,
como uma reta linear, i.e. Para isso, compreenderemos um problema
contextualizado que costuma surgir em laboratórios ou em situações do
cotidiano: a forma de determinar o coeficiente linear de uma certa mola.

Para isso, analisaremos como, a partir de medidas coletadas, utilizar o método


de regressão linear, também conhecido como método dos mínimos quadrados,
para resolver esse problema. Vejamos, a seguir, o modelo estatístico por trás
dessa metodologia.

Teste de Hipótese
A Figura 4.1 apresenta o tipo de modelo investigado. Aqui, gostaríamos de
encontrar como a variável independente está associada aos possíveis valores
que a variável dependente assume.

Figura 4.1 - Visualização de uma regressão linear


Fonte: Morettin (2010, p. 450).

#PraCegoVer: na figura, observamos um gráfico em que o eixo horizontal aponta os


dados preditores de 20 até 40, com passo 5; enquanto, isso, no eixo vertical, estão
as respostas de 100 a 120, com passo 10. São apresentados vários pontos
dispersos em torno de uma reta, a qual indica a melhor reta que descreve esses
pontos, i.e., aquela que minimiza o erro.

Para analisarmos esse cenário, suponhamos que você seja um cientista


preocupado em verificar características de uma determinada mola. Como
sabemos que toda mola atende à Lei de Hooke, qual seja:

F = −k. Δ
   X,

Então pretendemos coletar dados para encontrar o coeficiente de elasticidade,


k. Conforme indica Triola (2010, p. 416), “para correlações lineares, podemos
identificar uma equação que melhor se ajusta aos dados e podemos usar essa
equação para predizer o valor de uma variável, dado o valor de outra”.
Vejamos o tipo de análise que você deve realizar.

No primeiro cenário de regressão que consideraremos, analisaremos o caso


linear simples. Nesse caso, uma única variável de controle (independente), x,
altera o resultado de uma única variável de saída (dependente), y.

Para o tipo de análise que desejamos realizar, é necessário coletar um conjunto


de dados relacionando às duas variáveis. Nesse caso, consideramos n pares
de medidas e as denotamos por:

(x1 , y ) , (x2 , y ) , … , (xn , y )


1 2 n

Essas medidas podem ser descritas a partir de uma tabela. No exemplo que
discutiremos neste estudo, consideramos os dados descritos na Tabela 4.1.
Deslocamento versus força Força versus deslocamento

     
Observação  F (N ) Observação
Δ
   x  (cm) Δ
   x  (cm) F (N )

1 220 122 11 230 133

2 220 119 12 230 133

3 220 122 13 230 132

4 220 122 14 230 133

5 220 122 15 230 135

6 225 126 16 235 135

7 225 129 17 235 136

8 225 126 18 235 137

9 225 124 19 235 137

10 225 128 20 235 137


Tabela 4.1 - Dados de forças necessárias para causar um determinado deslocamento
Fonte: Elaborada pelo autor.

#PraCegoVer: na tabela, composta de 11 linhas e 6 colunas, observamos


as observações referentes aos dados de deslocamento versus força. São
20 observações, representadas pelos seguintes pares ordenados: 220 com
122; 220 com 119. 220 com 122; 220 com 122; 220 com 122; 225 com
126; 225 com 129; 225 com 126; 225 com 124; 225 com 128; 230 com
133; 230 com 133; 230 com 132; 230 com 133; 230 com 135; 235 com
135; 235 com 136; 235 com 137; 235 com 137 e 235 com 137.

Nessa tabela, realizamos um experimento com uma determinada mola,


esticando-a por 220, 225, 230 ou 235 cm e medindo a força necessária para
realizar tal deslocamento. Como as medidas foram realizadas em momentos
diferentes, obtemos valores com uma determinada variabilidade, devido ao
comportamento de fatores que não controlamos no experimento.

Lei de Hooke Lei de Newton Lei de Ohm

Quando investigamos a Lei de Hook, podemos determinar o coeficiente de


elasticidade de uma mola a partir da regressão linear.

1. conteúdo do item 1: Lei de Hooke: quando investigamos a Lei de


Hook, podemos determinar o coeficiente de elasticidade de uma
mola a partir da regressão linear.
2. conteúdo do item 2: Lei de Newton: podemos determinar a força
em um determinado móvel medindo a aceleração e a massa e
usando a regressão linear.
3. conteúdo do item 3: Lei de Ohm: podemos determinar a resistência
de um determinado resistor medindo a corrente elétrica e a tensão
e usando a regressão linear adequadamente.

A título de exemplo, aproveitamos os dados da tabela anterior e utilizamos o


software Excel para traçar o gráfico dos dados do problema na Figura 4.2. Note
que a variável independente é o deslocamento, enquanto a variável dependente
é a força.

Figura 4.2 - Gráfico deslocamento versus força apresentado para os dados


coletados
Fonte: Elaborada pelo autor.

#PraCegoVer: na figura, observamos um gráfico em que o eixo horizontal apresenta


dados de força de 220 a 235, com passo 5, enquanto o eixo vertical apresenta
dados de deslocamento de 118 a 138, com passo 2. Os pontos representam as
diversas informações. Para a força de 220, estão apresentados os deslocamentos
de 119 e 122; para a força de 225, os deslocamentos de 124, 126, 128 e 129; para a
força de 230, os deslocamentos de 132, 133 e 135; e, para a força de 235, os
deslocamentos de 135, 136 e 137. Os dados se apresentam, aproximadamente,
como uma reta.

Note, também, que o gráfico já nos permite observar que os dados se


comportam, aproximadamente, como uma reta, indicando o caso de análise da
regressão linear simples.
Para os pares de dados (xi , y )
i
, o modelo estatístico de regressão linear
simples é dado por:

y = α + β. x + ϵi , i = 1, … , n

Note que se trata de uma equação de reta, em que β representa o coeficiente


angular (i.e., a inclinação da reta), α o coeficiente linear e ϵi  o erro obtido
gerado pela aleatoriedade e por não considerar outros efeitos na explicação da
variável de interesse. Aqui, Morettin (2010, p. 450) nos lembra que “alpha, o
intercepto, representa o ponto onde a reta corta o eixo das ordenadas, e beta, o
coeficiente angular, representa o quanto varia a média de y para um aumento
de uma unidade da variável x.”

No modelo considerado, supomos que a relação entre as duas variáveis yi e xi


são lineares. Entretanto nem sempre essa é uma assertiva verdadeira, de forma
que, ao final da análise, verificaremos a importância do coeficiente de
determinação para adequar a confiabilidade do modelo. Além disso, supomos
que as variáveis não são aleatórias, visto que temos um controle (i.e., um
planejamento do experimento) dos dados selecionados. Também, supomos
que as médias dos erros são nulos, de forma que

y = α + β. x.

Agora que você compreendeu o tipo de informações que estamos tratando,


vejamos se você conhece o cálculo de média que será necessário para a
metodologia de regressão linear pelo método dos mínimos quadrados.

Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)

Um recorte da tabela 4.1 analisada nos mostra que várias medidas foram
realizadas para o deslocamento da mola, resultando em diversas forças
diferentes.
Deslocamento versus força

F (N )
Observação  Δ
   x  (cm)

1 220 122

2 220 119

3 220 122

4 220 122

5 220 122

Tabela - Medidas de força extraídas para deslocamento de 220 cm


Fonte: Elaborada pelo autor.

#PraCegoVer: a tabela, composta de 6 linhas e 3 colunas,


apresenta dados numéricos de observação, deslocamento medido
em centímetros e força medida em Newton. A primeira
observação foi de um deslocamento de 220, devido a uma força
de 122. A segunda, 220 e 119. A terceira, a quarta e a quinta foram
ambas de 220 e 122.
Observando tais resultados, verificamos que, para os cinco ensaios em um
determinado momento, o deslocamento de 220 cm exigiu, somente, uma
aplicação de 119 N de força, enquanto os outros quatro ensaios exigiram 122
N. Veja que existe variabilidade devido a vários fatores não medidos, como
direção precisa de aplicação da força, características pontuais da mola, como
temperatura, variabilidade dos instrumentos de medida e do instrumentador.
Com base nos dados apresentados na tabela acima, indique a média da força
necessária para mover a mola 220 cm.

a) 119 N.
b) 120 N.
c) 120,5 N.
d) 121,4 N.
e) 122 N.

Estimação dos
Parâmetros do
Modelo
Perceba que o nosso objetivo é determinar a melhor reta para esse conjunto de
pontos. Para isso, os parâmetros dele envolvidos são o coeficiente angular e o
coeficiente linear dele. Assim, vejamos com cuidado como selecionar os
devidos valores dele dentre as infinitas possibilidades. Segundo Morettin (2010,
p. 452), encontramos os “estimadores de mínimos quadrados para os
parâmetros do modelo linear, mas o mesmo desenvolvimento pode ser
aplicado em modelos mais complexos”.

Devemos considerar uma estratégia para determinar a melhor reta que


descreve o conjunto de pontos analisados. Na regressão que desenvolveremos,
consideramos utilizar a reta que minimiza o quadrado dos erros, de forma que
costumamos denominar a regressão linear como pertencente à classe de
métodos dos mínimos quadrados.

1. conteúdo do item 1: Eu mi bibendum neque egestas congue


quisque egestas diam in.
2. conteúdo do item 2: Eu mi bibendum neque egestas congue
quisque egestas diam in.
3. conteúdo do item 3: Eu mi bibendum neque egestas congue
quisque egestas diam in.

Para compreender a minimização do erro, considere o cálculo do erro ao


escolhermos um dos possíveis valores que α e β podem assumir. Para o
conjunto de dados (xi , yi ) temos que:

ϵi = y − (α + β. xi ) .
i

Como y
i
representa o valor observado e α + β. xi   representa o valor
estimado pela regressão, verificamos que ei representa o quão afastada a
estimativa está do valor observado (i.e. medido).

Considerando a soma do quadrado do erro ei dado por SQE:


n n

2 2
SQE = ∑ ϵ = ∑ [y − (α + β. xi ]
i i

i=1 i=1

e considerando que desejamos encontrar os valores de α e β que minimizam


SQE, então encontramos os pontos críticos fazendo:


SQE = 0
∂α
{

SQE = 0
∂β

O que nos leva a (pelo uso da regra de derivação – regra da cadeia):


n n
−2. ∑ [y − (α + β. xi )] = 0 ∑ [y − (α + β. xi )] = 0
i=1 i i=1 i
{ ∴ { ∴
n n
2. ∑ [y − (α + β. xi ]. xi = 0 ∑ [y − (α + β. xi )]. xi = 0
i=1 i i=1 i

n n
∑ y = ∑ [α + β. xi ]
i=1 i i=1
{
n n
∑ y xi = ∑ [(α + β. xi ) . xi ]
i=1 i i=1

Mesmo com tanta equação para ser analisada, você deve se atentar à
importância dela e aos pré-requisitos necessários à análise correta desse
material. Vejamos, na seção Saiba Mais, uma sugestão de estudo para essa
temática.

SAIBA MAIS

Você deve estar percebendo que essa temática


nos remete a conceitos essenciais de cálculo
diferencial e integral, especialmente os problemas
de minimização. Caso queira conhecer mais
sobre a regra da cadeia e como ela permite
encontrar a derivada de função composta, você
deve se atentar à demonstração dela.
ASSISTIR

Fonte: Elaborado pelo Autor.

Essas equações podem ser simplificadas se considerarmos as médias das


observações, i.e.

n n
1 1
x̄ = ∑ xi ,  ȳ = ∑y
i
n n
i=1 i=1

Assim, reescrevemos:
n n
∑ y = nα + β. ∑ xi
i=1 i i=1
{
n n n 2
∑ xi y = α.   ∑ xi + β. ∑ x
i=1 i i=1 i=1 i

Isolando α na primeira equação e substituindo na segunda, obtemos:

n n
1
α = [∑ y − β. ∑ xi ]
i
n
i=1 i=1

n n n n n
1
2
∑ xi y = [∑ y − β. ∑ xi ] . ∑ xi + β. ∑ x
i i i
n
i=1 i=1 i=1 i=1 i=1

Multiplicando por n:

n n n n n

2
n. ∑ xi y = [∑ y − β. ∑ xi ] . ∑ xi + βn. ∑ x
i i i

i=1 i=1 i=1 i=1 i=1

Assim,
n n n
n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
β =
n 2 n 2
n. ∑ x − (∑ xi )
i=1 i i=1
Substituindo o termo β na expressão de α , podemos encontrar:

n n
1
α = [∑ y − β. ∑ xi ] =
i
n
i=1 i=1

n n n n n
1 n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
[∑ y − [ ] . ∑ xi ]
i 2
n n
n 2
i=1 n. ∑ x − (∑ xi ) i=1
i=1 i i=1

Entretanto é mais recomendável utilizar o próprio modelo de regressão para


encontrar o cálculo de α , visto que:

y
^ = α + βx
^

α = ȳ − βx̄

Depois de tanta álgebra, perceba que a utilização prática do método é


relativamente simples. Usamos as equações finais para encontrar o coeficiente
linear e o coeficiente angular. Acredito que você conseguirá fazer a atividade a
seguir sem maiores dificuldades.

Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)

Considere os dados coletados para o estiramento da mola, conforme a tabela


abaixo.
Deslocamento versus força Deslocamento versus força

       
Observação Observação
Δ
   x  (cm) F (N ) Δ
   x  (cm)
F (N )

1 220 122 11 230 133

2 220 119 12 230 133

3 220 122 13 230 132

4 220 122 14 230 133

5 220 122 15 230 135

6 225 126 16 235 135

7 225 129 17 235 136

8 225 126 18 235 137

9 225 124 19 235 137

10 225 128 20 235 137


Tabela: Dados de força versus deslocamento
Fonte: Elaborada pelo autor.

#PraCegoVer: na tabela, composta de 11 linhas e 6 colunas,


podemos ver as observações referentes aos dados de
deslocamento versus força. São 20 observações, sendo
representadas pelos seguintes pares ordenados: 220 com 122;
220 com 119. 220 com 122; 220 com 122; 220 com 122; 225 com
126; 225 com 129; 225 com 126; 225 com 124; 225 com 128; 230
com 133; 230 com 133; 230 com 132; 230 com 133; 230 com 135;
235 com 135; 235 com 136; 235 com 137; 235 com 137; e 235
com 137.

Com base nas equações desenvolvidas nessa seção, marque a alternativa que
apresenta o valor correto de α e β.

a) α = 1, 032; β = 105, 38

b) α = 227, 5; β = 129, 4

c) α = 129, 4; β = 227, 5

d) α = 105, 38; β = 1, 032

e) α = 1, 032; β = 0
Correlação

Embora tenhamos encontrado uma reta que descreve, de certa forma, esse
conjunto de dados, você deve perceber que esse método não tem nenhuma
restrição significativa, de forma que pode ser aplicado em, praticamente,
qualquer conjunto de dados numéricos. Entretanto nem todos os fenômenos se
comportam de forma linear, de maneira que o uso desse método de forma
irrestrita pode nos levar a erros sérios. Quando os dados estão fortemente
ajustados pela reta, o índice de correlação linear nos indica esse resultado
mostrando que o método está adequado para esse caso. E aí, nesse caso,
podemos seguir a instrução de Morettin (2010, p. 465), “o modelo linear,
estudado até agora, será utilizado frequentemente para fazer previsões da
variável resposta, y, para algum nível da variável de controle, x.”

No exemplo que estamos realizando, devemos determinar a relação entre as


variáveis força e deslocamento, de forma que se respeite o modelo linear dado
por:

F = α + β. Δ
   x

Como temos a suposição de que tal experimento atende à Lei de Hooke (i.e.,
F = −k. Δ
   x), caso os dados do experimento se comportem como uma reta,
poderemos afirmar que o coeficiente de elasticidade, k, será determinado por
β .

Para facilitar os cálculos necessários, utilizamos uma tabela de auxílio para os


cálculos manuais, como a generalizada na Tabela 4.3.
n1    xi    yi xi . y i   x2i

     1    x1    y1 x1 y 1   x21

     2    x2    y2 x2 y 2   x22

vdots      ⋮      ⋮      ⋮      ⋮

     n X xn    yn xn y n   x2n

n n n n 2
∑ ∑ xi ∑ yi ∑ xi y i ∑ x .
i=1 i=1 i=1 i=1 i

Tabela 4.3 — Tabela genérica de auxílio para os cálculos manuais


Fonte: Elaborada pelo autor.

#PraCegoVer: na tabela, composta de 6 linhas e 5 colunas, é apresentada


uma forma de organização dos dados, a fim de utilizar o método de forma
adequada. Na primeira linha, estão as informações organizadas em:
 número da observação; valor x da respectiva observação; valor y da
respectiva observação; produto de x e y da respectiva observação; e
quadrado de x da respectiva observação. Esses dados se repetem até a
enésima observação, cada um apresentado em uma linha. Na última linha,
é apresentado o somatório de cada coluna.

Como essa tabela é uma proposta de organização, podemos imaginar outras


formas de tratar esses dados, a fim de utilizar o método de forma adequada.
Vamos refletir um pouco sobre isso na seção a seguir.
REFLITA

O uso da tabela de auxílio para cálculos manuais


é opcional, mas facilita a resolução do problema
na hora de aplicar as equações determinadas na
seção anterior. Talvez, na resolução da atividade,
você já tenha organizado os dados, de forma a
criar uma versão similar dessa tabela; essa é uma
das propostas de organização dos dados. Em
mente, você deve lembrar de que a maior parte
dos problemas reais é resolvido com o uso de
software, como o próprio Excel e o uso das
tabelas de auxílio. Embora sejam chamadas “de
cálculos manuais”, as tabelas também orientam
na construção dos algoritmos.
Aqui, você deve se perguntar: existe outra forma
de organizar os dados desse problema? Essa
outra forma é mais efetiva que a proposta aqui?

Fonte: Elaborado pelo autor

Como precisamos determinar alguns somatórios, utilizaremos a Tabela 4.4


para auxiliar nos cálculos manuais. Nela, consideramos F como y e Δx como
x, para facilitar o reconhecimento dos termos calculados necessários.
Tabela de auxílio para cálculos manuais do problema dado.

ni xi yi x i . yi Xi2

2
ni xi yi xi . y i x
i

 1 220 122 26.840 48.400

 2 220 119 26.180 48.400

 3 220 122 26.840 48.400

 4 220 122 26.840 48.400

 5 220 122 26.840 48.400

 6 225 126 28.350 50.625

 7 225 129 29.025 50.625

 8 225 126 28.350 50.625

 9 225 124 27.900 50.625

 10 225 128 28.800 50.625


 11 230 133 30.590 52.900

 12 230 133 30.590 52.900

 13 230 132 30.360 52.900

 14 230 133 30.590 52.900

 15 230 135 31.050 52.900

 16 235 135 31.725 55.225

 17 235 136 31.960 55.225

 18 235 137 32.195 55.225

 19 235 137 32.195 55.225

 20 235 137 32.195 55.225

 Σ 4.550 2.588 589.415 1.035.750

Tabela 4.4 — Tabela com auxílio para cálculos manuais para os dados do exemplo
Fonte: Elaborada pelo autor.

#PraCegoVer: a tabela de auxílio para cálculos manuais apresenta 22


linhas e 5 colunas. Na primeira linha, estão as informações organizadas
em: número da observação; valor x da respectiva observação; valor y da
respectiva observação; produto de x e y da respectiva observação; e
quadrado de x da respectiva observação. São 20 observações, sendo
dadas por:  1, 220, 122, 26.840, 48.300; 2, 220, 119, 26.180, 48.400, 3, 220,
122, 26.480, 48.300, 4, 220, 122, 26.480, 48.300, 5, 220, 122, 26.480,
48.300, 6, 225, 126, 28.350, 50.625, 7, 225, 129, 29.025, 50.625, 8, 225, 126,
28.350, 50.625, 9, 225, 124, 27.900, 50.625, 10, 225, 128, 28.800, 50.625,
11, 230, 133, 30.590, 52.900, 12, 230, 133, 30.590, 25.900, 13, 230, 132,
30.360, 52.900, 14, 230, 133, 30.590, 52.900, 15, 230, 135, 31.050, 52.900,
16, 235, 135, 31.725, 55.225, 17, 235, 136, 31.960, 55.225, 18, 235, 137,
32.195, 55.225, 19, 235, 137, 32.195, 55.225, 235, 137, 32.195, 55.225; e os
somatórios: 4.550, 2.588, 589.415 e 1.035.750.

Substituindo os dados do problema, obtemos:


n n n
n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
β =
n 2 n 2
n. ∑ x − (∑ xi )
i=1 i i=1

20 ⋅ 589.415 − 4.550 ⋅ 2.588


β = = 1, 032
2
20 ⋅ 1.035.750 − (4.550)

Como

∑ xi 4.550
x̄ = = = 227, 5
n 20

∑y 2588
i
ȳ = = = 129, 4
n 20

Então,

ȳ = α + βx̄

α = βx̄ − ȳ = 105, 38

Dessa forma, o modelo que descreve a relação da força com o deslocamento é


dado por:
F = 105, 38 + 1, 032. 
Δ  x

Comparando com a Lei de Hooke, notamos que o coeficiente de elasticidade é


de 1,032 N/m e que a mola ficará no referencial zero de deslocamento, no caso
em que estará sujeita a uma força de 105,38 N.

 Reta passando pela origem: o modelo pode ser estudado à


parte.

Perceba que essa técnica permitirá que você determine relações lineares entre
duas variáveis, mas essa operação poderá ser realizada na maior parte dos
dados numéricos. Agora, para verificar que o método pode ser usado e que nos
dará um bom resultado, verificaremos o coeficiente de correlação. Antes disso,
discutiremos o intervalo de confiança na atividade prática.

praticar
Vamos Praticar
Sempre que tratamos de dados estatísticos, seja encontrando um certo
parâmetro, como acabamos de fazer com o coeficiente de elasticidade, ou
seja aplicando uma variedade de métodos, devemos ter em mente que o
valor real pertence a um determinado intervalo de confiança. Nunca será um
número absoluto. Podemos provar que o intervalo de confiança para esse
parâmetro é dado por:
−−−−−−−−−−−− −−−−−−−−−−−−
QM E QM E
β − t α √ ≤ β ≤ β + t α √
(1− ,n−2) n 2 (1− ,n−2) n 2
2
∑ (x i − x̄ ) 2
∑ (x i − x̄ )
i=1 i=1

Com base no problema discutido ao longo deste estudo, consulte uma tabela
de distribuição para encontrar o intervalo de confiança para o coeficiente de
elasticidade e determine o intervalo de confiança para o coeficiente de
elasticidade extraído do modelo.

Regressão Linear

A partir de agora, devemos determinar se a regressão linear que realizamos é


confiável ou não. Esse passo é essencial para garantir se o método que
utilizamos nos dará uma resposta precisa para prevermos o comportamento de
outros conjuntos de dados.

Conforme Morettin (2010, p. 467) aponta,

para verificar se um modelo é adequado, temos que investigar se as


suposições feitas para o desenvolvimento do modelo estão
satisfeitas. Para tanto, estudamos o comportamento do modelo
usando o conjunto de dados observados, notadamente as
discrepâncias entre os valores observados e os valores ajustados
pelo modelo, ou seja, fazemos uma análise dos resíduos.

Com o método de regressão linear simples, você sempre será capaz de traçar
uma reta que minimize o quadrado dos erros. Entretanto alguns dados não se
comportam como uma reta, de forma que o modelo desenvolvido não é
adequado para a descrição dela. Avaliamos a qualidade do modelo a partir da
análise do coeficiente de determinação.

Podemos obter o coeficiente de determinação, R2  , como:


n
SQR β∑ (xi − x̄)y
2 i=1 i
R = =
n 2
SQT ∑ (y − ȳ )
(i=1) i

Outra forma equivalente seria escrever:

n 2
(∑ (xi − x̄)y )
2 i=1 i
R =
n 2 n 2
∑ (xi − x̄) ∑ (y − ȳ )
i=1 i=1 i

Pode-se provar que seu valor está contido entre 0 e 1. Alguns livros chamam de
coeficiente de determinação o termo R, tal que −1 ≤ R ≤ 1; entretanto
utilizar , tal que , facilita a análise, ao evitar operar com
2 2 
R 0 ≤ R ≤ 1

números negativos. Dessa forma, podemos afirmar que, quanto mais


2
R → 1

(vide Figura 4.3), mais forte é o poder explicativo do modelo linear. Quanto
mais R

→ 0 (vide Figura 4.4), menos podemos confiar no modelo, visto que
os dados não se aproximam de uma reta.
Figura 4.3 — Dados dispersos, mas, aproximadamente, lineares
Fonte: Morettin (2010, p. 472).

#PraCegoVer: na figura, estão apresentados dados dispersos em torno de uma


reta, em um gráfico composto de eixo horizontal (de 30 a 70, com passo 10) e eixo
vertical (de 7 a 12, com passo 1). Como o nível de dispersão é baixo, todos os
pontos estão relativamente próximos da reta, que seria a melhor reta que descreve
os pontos.
Figura 4.4 — Dados dispersos de forma que R2  → 0

Fonte: Morettin (2010, p. 472).

#PraCegoVer: na figura, estão apresentados em um gráfico dados completamente


dispersos. Nenhuma figura significativa é formada, visto o grau de dispersão
dessas informações.

Perceba que essa análise anterior é essencial à análise de dados, visto a


aplicabilidade do método em quase todos os conjuntos de dados.
#PraCegoVer: o infográfico é do tipo estático, com fundo retangular em cor branca.
Do lado esquerdo, há um semicírculo com o seguinte título no interior: “Algumas
regressões não lineares”. Do lado esquerdo, há três retângulos com borda colorida
e cantos arredondados, dispostos na vertical. Cada um está conectado ao
semicírculo por uma linha. O primeiro retângulo, de cima para baixo, possui borda
azul e traz o seguinte texto: “Modelo de Mitscherlich: é largamente utilizado em
artigos científicos referentes ao estudo da produção de uma determinada cultura
em função da quantidade de nutriente fornecido. O modelo é dado por: y é igual a
alpha que multiplica um menos 10 elevado a menos gama que multiplica x mais
theta, somado com epsilon”. O segundo retângulo possui borda roxa e traz o
seguinte texto: “Modelo Logístico: costuma ser utilizado para modelar
crescimentos populacionais em que a taxa de reprodução é proporcional à
quantidade de recursos disponíveis e ao tamanho da população existente. O
modelo é dado por: y é igual à razão entre theta e 1 mais e elevado a menos alpha
mais beta vezes x, somado com epsilon.” O terceiro retângulo possui borda
vermelha e traz o seguinte texto: “Modelo de Michaelis-Menten: é utilizado,
principalmente, no estudo da taxa de variação das reações químicas catalisadas
por enzimas. Seu modelo é descrito pela equação: y é igual à razão entre o produto
de theta 1 com x e a soma de x com theta 2, somado com epsilon.”

Entre os autores que fazem um excelente trabalho no desenvolvimento do


conceito de correlação linear, podemos citar Favero (2017, p. 118) que indica
que

o coeficiente de correlação de Pearson é uma medida que varia entre


-1 e 1. Por meio do sinal, é possível verificar o tipo de relação linear
entre as duas variáveis analisadas; quanto mais próximo de valores
extremos, mais forte é a correlação entre elas.

Agora que compreendemos o conceito de dispersão e como até mesmo os


dados dispersos podem ser utilizados no método para determinar uma reta que
melhor descreve esses pontos, vamos aproveitar a atividade prática a seguir
para determinar um dos possíveis coeficientes de determinação.

praticar
Vamos Praticar
Para os dados do exemplo, representados pela tabela inicial e discutido ao
longo deste estudo, deslocamento versus força, podemos determinar o
coeficiente de determinação deles. A partir do que foi apresentado, use a
n 2

equação R para encontrar seu coeficiente de


(∑ (xi −x̄)y )
2 i=1 i
=
n 2 n 2
∑ (xi −x̄) ∑ (y −ȳ )
i=1 i=1 i

determinação.
Material
Complementar

WEB

TED: três modos de identificar uma


estatística ruim
Ano: 2021

Comentário: Na plataforma TED, disponível no YouTube,


podemos acessar o vídeo da Profa. Mona Chalabi, que nos
indica formas úteis para identificarmos uma estatística
“ruim”, por exemplo, que não nos traz uma correlação
significativa.

Para conhecer mais sobre o filme, acesse o trailer disponível


em:

ACESSAR
LIVRO

Guia mangá de estatística


Editora: Novatec Editora

Autor: Shin Takasashi

ISBN: 978-85-752-2168-6

Comentário: Se você não aprendeu estatística de nenhuma


forma, Shin Takahashi utiliza uma linguagem alternativa e o
uso de Mangás para explicar, de forma lúdica, alguns dos
conceitos principais tratados ao longo deste material. Você
notará como a estatística também pode ser aprendida de
uma forma lúdica e como existe espaço no mercado
editorial para outras formas de publicação em matemática.
Conclusão
Caro(a) estudante, neste material, aprendemos sobre a técnica de regressão linear
simples, que busca minimizar o quadrado dos erros para encontrar a melhor reta
que descreve os pontos pesquisados. Esse método é a base para todos os outros
métodos de regressão, sejam as regressões múltiplas ou as regressões não
lineares. Além disso, a técnica é usada com exaustão nos laboratórios de física e de
engenharia, a fim de determinar grandezas experimentais faltantes.  

Você deve dominar essa técnica básica com cuidado e lembrar-se, principalmente,
de que a utilização dela quase sempre traz um resultado, mas interpretação,
previamente a partir do coeficiente de correlação, é essencial para garantir a
confiabilidade do resultado.

Referências
3 ways to spot a bad statistic | Mona
Chalabi. [S. l.: s. n.], 2017. 1 vídeo (11
min). Publicado pelo canal Ted.
Disponível em:
https://www.youtube.com/watch?
v=Zwwanld4T1w. Acesso em: 19 out.
2021.

FÁVERO, L. P.; BELFIORE, P. Manual de


análise de dados. São Paulo: LTC Grupo
Gen, 2017.
MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva, 2010.

Regra da Cadeia - Parte 1 (Aula 9).  [S. l.: s. n.], 2016. 1 vídeo (32 min). Publicado
pelo canal Ferreto Matemática. Disponível em: https://www.youtube.com/watch?
v=p9xjPa1EVrw. Acesso em: 19 out. 2021.

TAKASASHI, S. Guia mangá de estatística. São Paulo: Novatec Editora, 2010.

TRIOLA, M. F. Introdução à estatística: atualização da tecnologia. 11. ed. Rio de


Janeiro: LTC, 2013.

Você também pode gostar