Unidade 4

ANÁLISE ESTATÍSTICA
REGRESSÃO LINEAR
Autor(a): Guilherme Augusto Pianezzer
Revisor: Eder Cassettari
Tempo de leitura do conteúdo estimado em 1 hora e 5 minutos.

Introdução
Caro(a) estudante, neste estudo, investigaremos os métodos de regressão
linear, que buscam determinar uma função que melhor descreve um
determinado conjunto de dados que podem se comportar, aproximadamente,
como uma reta linear, i.e. Para isso, compreenderemos um problema
contextualizado que costuma surgir em laboratórios ou em situações do
cotidiano: a forma de determinar o coeficiente linear de uma certa mola.
Para isso, analisaremos como, a partir de medidas coletadas, utilizar o método

de regressão linear, também conhecido como método dos mínimos quadrados,
para resolver esse problema. Vejamos, a seguir, o modelo estatístico por trás
dessa metodologia.
Teste de Hipótese
A Figura 4.1 apresenta o tipo de modelo investigado. Aqui, gostaríamos de
encontrar como a variável independente está associada aos possíveis valores
que a variável dependente assume.
Figura 4.1 - Visualização de uma regressão linear

Fonte: Morettin (2010, p. 450).
#PraCegoVer: na figura, observamos um gráfico em que o eixo horizontal aponta os

dados preditores de 20 até 40, com passo 5; enquanto, isso, no eixo vertical, estão
as respostas de 100 a 120, com passo 10. São apresentados vários pontos
dispersos em torno de uma reta, a qual indica a melhor reta que descreve esses
pontos, i.e., aquela que minimiza o erro.
Para analisarmos esse cenário, suponhamos que você seja um cientista

preocupado em verificar características de uma determinada mola. Como
sabemos que toda mola atende à Lei de Hooke, qual seja:
F = −k. Δ
X,
Então pretendemos coletar dados para encontrar o coeficiente de elasticidade,

k. Conforme indica Triola (2010, p. 416), “para correlações lineares, podemos
identificar uma equação que melhor se ajusta aos dados e podemos usar essa
equação para predizer o valor de uma variável, dado o valor de outra”.
Vejamos o tipo de análise que você deve realizar.
No primeiro cenário de regressão que consideraremos, analisaremos o caso

linear simples. Nesse caso, uma única variável de controle (independente), x,
altera o resultado de uma única variável de saída (dependente), y.
Para o tipo de análise que desejamos realizar, é necessário coletar um conjunto

de dados relacionando às duas variáveis. Nesse caso, consideramos n pares
de medidas e as denotamos por:
(x1 , y ) , (x2 , y ) , … , (xn , y )

1 2 n
Essas medidas podem ser descritas a partir de uma tabela. No exemplo que
discutiremos neste estudo, consideramos os dados descritos na Tabela 4.1.
Deslocamento versus força Força versus deslocamento

Observação F (N ) Observação
Δ
x (cm) Δ
x (cm) F (N )
1 220 122 11 230 133
2 220 119 12 230 133
3 220 122 13 230 132
4 220 122 14 230 133
5 220 122 15 230 135
6 225 126 16 235 135
7 225 129 17 235 136
8 225 126 18 235 137
9 225 124 19 235 137
10 225 128 20 235 137

Tabela 4.1 - Dados de forças necessárias para causar um determinado deslocamento
Fonte: Elaborada pelo autor.
#PraCegoVer: na tabela, composta de 11 linhas e 6 colunas, observamos

as observações referentes aos dados de deslocamento versus força. São
20 observações, representadas pelos seguintes pares ordenados: 220 com
122; 220 com 119. 220 com 122; 220 com 122; 220 com 122; 225 com
126; 225 com 129; 225 com 126; 225 com 124; 225 com 128; 230 com
133; 230 com 133; 230 com 132; 230 com 133; 230 com 135; 235 com
135; 235 com 136; 235 com 137; 235 com 137 e 235 com 137.
Nessa tabela, realizamos um experimento com uma determinada mola,

esticando-a por 220, 225, 230 ou 235 cm e medindo a força necessária para
realizar tal deslocamento. Como as medidas foram realizadas em momentos
diferentes, obtemos valores com uma determinada variabilidade, devido ao
comportamento de fatores que não controlamos no experimento.
Lei de Hooke Lei de Newton Lei de Ohm
Quando investigamos a Lei de Hook, podemos determinar o coeficiente de

elasticidade de uma mola a partir da regressão linear.
1. conteúdo do item 1: Lei de Hooke: quando investigamos a Lei de

Hook, podemos determinar o coeficiente de elasticidade de uma
mola a partir da regressão linear.
2. conteúdo do item 2: Lei de Newton: podemos determinar a força
em um determinado móvel medindo a aceleração e a massa e
usando a regressão linear.
3. conteúdo do item 3: Lei de Ohm: podemos determinar a resistência
de um determinado resistor medindo a corrente elétrica e a tensão
e usando a regressão linear adequadamente.
A título de exemplo, aproveitamos os dados da tabela anterior e utilizamos o

software Excel para traçar o gráfico dos dados do problema na Figura 4.2. Note
que a variável independente é o deslocamento, enquanto a variável dependente
é a força.
Figura 4.2 - Gráfico deslocamento versus força apresentado para os dados

coletados
#PraCegoVer: na figura, observamos um gráfico em que o eixo horizontal apresenta

dados de força de 220 a 235, com passo 5, enquanto o eixo vertical apresenta
dados de deslocamento de 118 a 138, com passo 2. Os pontos representam as
diversas informações. Para a força de 220, estão apresentados os deslocamentos
de 119 e 122; para a força de 225, os deslocamentos de 124, 126, 128 e 129; para a
força de 230, os deslocamentos de 132, 133 e 135; e, para a força de 235, os
deslocamentos de 135, 136 e 137. Os dados se apresentam, aproximadamente,
como uma reta.
Note, também, que o gráfico já nos permite observar que os dados se

comportam, aproximadamente, como uma reta, indicando o caso de análise da
regressão linear simples.
Para os pares de dados (xi , y )
i
, o modelo estatístico de regressão linear
simples é dado por:
y = α + β. x + ϵi , i = 1, … , n
Note que se trata de uma equação de reta, em que β representa o coeficiente

angular (i.e., a inclinação da reta), α o coeficiente linear e ϵi o erro obtido
gerado pela aleatoriedade e por não considerar outros efeitos na explicação da
variável de interesse. Aqui, Morettin (2010, p. 450) nos lembra que “alpha, o
intercepto, representa o ponto onde a reta corta o eixo das ordenadas, e beta, o
coeficiente angular, representa o quanto varia a média de y para um aumento
de uma unidade da variável x.”
No modelo considerado, supomos que a relação entre as duas variáveis yi e xi

são lineares. Entretanto nem sempre essa é uma assertiva verdadeira, de forma
que, ao final da análise, verificaremos a importância do coeficiente de
determinação para adequar a confiabilidade do modelo. Além disso, supomos
que as variáveis não são aleatórias, visto que temos um controle (i.e., um
planejamento do experimento) dos dados selecionados. Também, supomos
que as médias dos erros são nulos, de forma que
y = α + β. x.
Agora que você compreendeu o tipo de informações que estamos tratando,

vejamos se você conhece o cálculo de média que será necessário para a
metodologia de regressão linear pelo método dos mínimos quadrados.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Um recorte da tabela 4.1 analisada nos mostra que várias medidas foram
realizadas para o deslocamento da mola, resultando em diversas forças
diferentes.
Deslocamento versus força
F (N )
Observação Δ
x (cm)
1 220 122
2 220 119
3 220 122
4 220 122
5 220 122
Tabela - Medidas de força extraídas para deslocamento de 220 cm

#PraCegoVer: a tabela, composta de 6 linhas e 3 colunas,

apresenta dados numéricos de observação, deslocamento medido
em centímetros e força medida em Newton. A primeira
observação foi de um deslocamento de 220, devido a uma força
de 122. A segunda, 220 e 119. A terceira, a quarta e a quinta foram
ambas de 220 e 122.
Observando tais resultados, verificamos que, para os cinco ensaios em um
determinado momento, o deslocamento de 220 cm exigiu, somente, uma
aplicação de 119 N de força, enquanto os outros quatro ensaios exigiram 122
N. Veja que existe variabilidade devido a vários fatores não medidos, como
direção precisa de aplicação da força, características pontuais da mola, como
temperatura, variabilidade dos instrumentos de medida e do instrumentador.
Com base nos dados apresentados na tabela acima, indique a média da força
necessária para mover a mola 220 cm.
a) 119 N.
b) 120 N.
c) 120,5 N.
d) 121,4 N.
e) 122 N.
Estimação dos
Parâmetros do
Modelo
Perceba que o nosso objetivo é determinar a melhor reta para esse conjunto de
pontos. Para isso, os parâmetros dele envolvidos são o coeficiente angular e o
coeficiente linear dele. Assim, vejamos com cuidado como selecionar os
devidos valores dele dentre as infinitas possibilidades. Segundo Morettin (2010,
p. 452), encontramos os “estimadores de mínimos quadrados para os
parâmetros do modelo linear, mas o mesmo desenvolvimento pode ser
aplicado em modelos mais complexos”.
Devemos considerar uma estratégia para determinar a melhor reta que

descreve o conjunto de pontos analisados. Na regressão que desenvolveremos,
consideramos utilizar a reta que minimiza o quadrado dos erros, de forma que
costumamos denominar a regressão linear como pertencente à classe de
métodos dos mínimos quadrados.
1. conteúdo do item 1: Eu mi bibendum neque egestas congue

quisque egestas diam in.
Para compreender a minimização do erro, considere o cálculo do erro ao

escolhermos um dos possíveis valores que α e β podem assumir. Para o
conjunto de dados (xi , yi ) temos que:
ϵi = y − (α + β. xi ) .
i
Como y
i
representa o valor observado e α + β. xi representa o valor
estimado pela regressão, verificamos que ei representa o quão afastada a
estimativa está do valor observado (i.e. medido).
Considerando a soma do quadrado do erro ei dado por SQE:

n n
2 2
SQE = ∑ ϵ = ∑ [y − (α + β. xi ]
i i
i=1 i=1
e considerando que desejamos encontrar os valores de α e β que minimizam

SQE, então encontramos os pontos críticos fazendo:
∂
SQE = 0
∂α
{
∂
SQE = 0
∂β
O que nos leva a (pelo uso da regra de derivação – regra da cadeia):

n n
−2. ∑ [y − (α + β. xi )] = 0 ∑ [y − (α + β. xi )] = 0
i=1 i i=1 i
{ ∴ { ∴
n n
2. ∑ [y − (α + β. xi ]. xi = 0 ∑ [y − (α + β. xi )]. xi = 0
i=1 i i=1 i
n n
∑ y = ∑ [α + β. xi ]
i=1 i i=1
{
n n
∑ y xi = ∑ [(α + β. xi ) . xi ]
i=1 i i=1
Mesmo com tanta equação para ser analisada, você deve se atentar à
importância dela e aos pré-requisitos necessários à análise correta desse
material. Vejamos, na seção Saiba Mais, uma sugestão de estudo para essa
temática.
SAIBA MAIS
Você deve estar percebendo que essa temática

nos remete a conceitos essenciais de cálculo
diferencial e integral, especialmente os problemas
de minimização. Caso queira conhecer mais
sobre a regra da cadeia e como ela permite
encontrar a derivada de função composta, você
deve se atentar à demonstração dela.
ASSISTIR
Fonte: Elaborado pelo Autor.
Essas equações podem ser simplificadas se considerarmos as médias das

observações, i.e.
n n
1 1
x̄ = ∑ xi , ȳ = ∑y
i
n n
i=1 i=1
Assim, reescrevemos:
n n
∑ y = nα + β. ∑ xi
i=1 i i=1
{
n n n 2
∑ xi y = α. ∑ xi + β. ∑ x
i=1 i i=1 i=1 i
Isolando α na primeira equação e substituindo na segunda, obtemos:
n n
1
α = [∑ y − β. ∑ xi ]
i
n
i=1 i=1
n n n n n
1
2
∑ xi y = [∑ y − β. ∑ xi ] . ∑ xi + β. ∑ x
i i i
n
i=1 i=1 i=1 i=1 i=1
Multiplicando por n:
n n n n n
2
n. ∑ xi y = [∑ y − β. ∑ xi ] . ∑ xi + βn. ∑ x
i i i
i=1 i=1 i=1 i=1 i=1
Assim,
n n n
n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
β =
n 2 n 2
n. ∑ x − (∑ xi )
i=1 i i=1
Substituindo o termo β na expressão de α , podemos encontrar:
n n
1
α = [∑ y − β. ∑ xi ] =
i
n
i=1 i=1
n n n n n
1 n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
[∑ y − [ ] . ∑ xi ]
i 2
n n
n 2
i=1 n. ∑ x − (∑ xi ) i=1
i=1 i i=1
Entretanto é mais recomendável utilizar o próprio modelo de regressão para

encontrar o cálculo de α , visto que:
y
^ = α + βx
^
α = ȳ − βx̄
Depois de tanta álgebra, perceba que a utilização prática do método é

relativamente simples. Usamos as equações finais para encontrar o coeficiente
linear e o coeficiente angular. Acredito que você conseguirá fazer a atividade a
seguir sem maiores dificuldades.
Conhecimento
Teste seus Conhecimentos
(Atividade não pontuada)
Considere os dados coletados para o estiramento da mola, conforme a tabela

abaixo.
Deslocamento versus força Deslocamento versus força

Observação Observação
Δ
x (cm) F (N ) Δ
x (cm)
F (N )
1 220 122 11 230 133
2 220 119 12 230 133
3 220 122 13 230 132
4 220 122 14 230 133
5 220 122 15 230 135
6 225 126 16 235 135
7 225 129 17 235 136
8 225 126 18 235 137
9 225 124 19 235 137
10 225 128 20 235 137

Tabela: Dados de força versus deslocamento
#PraCegoVer: na tabela, composta de 11 linhas e 6 colunas,

podemos ver as observações referentes aos dados de
deslocamento versus força. São 20 observações, sendo
representadas pelos seguintes pares ordenados: 220 com 122;
220 com 119. 220 com 122; 220 com 122; 220 com 122; 225 com
126; 225 com 129; 225 com 126; 225 com 124; 225 com 128; 230
com 133; 230 com 133; 230 com 132; 230 com 133; 230 com 135;
235 com 135; 235 com 136; 235 com 137; 235 com 137; e 235
com 137.
Com base nas equações desenvolvidas nessa seção, marque a alternativa que
apresenta o valor correto de α e β.
a) α = 1, 032; β = 105, 38
b) α = 227, 5; β = 129, 4
c) α = 129, 4; β = 227, 5
d) α = 105, 38; β = 1, 032
e) α = 1, 032; β = 0
Correlação
Embora tenhamos encontrado uma reta que descreve, de certa forma, esse
conjunto de dados, você deve perceber que esse método não tem nenhuma
restrição significativa, de forma que pode ser aplicado em, praticamente,
qualquer conjunto de dados numéricos. Entretanto nem todos os fenômenos se
comportam de forma linear, de maneira que o uso desse método de forma
irrestrita pode nos levar a erros sérios. Quando os dados estão fortemente
ajustados pela reta, o índice de correlação linear nos indica esse resultado
mostrando que o método está adequado para esse caso. E aí, nesse caso,
podemos seguir a instrução de Morettin (2010, p. 465), “o modelo linear,
estudado até agora, será utilizado frequentemente para fazer previsões da
variável resposta, y, para algum nível da variável de controle, x.”
No exemplo que estamos realizando, devemos determinar a relação entre as

variáveis força e deslocamento, de forma que se respeite o modelo linear dado
por:
F = α + β. Δ
x
Como temos a suposição de que tal experimento atende à Lei de Hooke (i.e.,
F = −k. Δ
x), caso os dados do experimento se comportem como uma reta,
poderemos afirmar que o coeficiente de elasticidade, k, será determinado por
β .
Para facilitar os cálculos necessários, utilizamos uma tabela de auxílio para os

cálculos manuais, como a generalizada na Tabela 4.3.
n1 xi yi xi . y i x2i
1 x1 y1 x1 y 1 x21
2 x2 y2 x2 y 2 x22
vdots ⋮ ⋮ ⋮ ⋮
n X xn yn xn y n x2n
n n n n 2
∑ ∑ xi ∑ yi ∑ xi y i ∑ x .
i=1 i=1 i=1 i=1 i
Tabela 4.3 — Tabela genérica de auxílio para os cálculos manuais

#PraCegoVer: na tabela, composta de 6 linhas e 5 colunas, é apresentada

uma forma de organização dos dados, a fim de utilizar o método de forma
adequada. Na primeira linha, estão as informações organizadas em:
número da observação; valor x da respectiva observação; valor y da
respectiva observação; produto de x e y da respectiva observação; e
quadrado de x da respectiva observação. Esses dados se repetem até a
enésima observação, cada um apresentado em uma linha. Na última linha,
é apresentado o somatório de cada coluna.
Como essa tabela é uma proposta de organização, podemos imaginar outras

formas de tratar esses dados, a fim de utilizar o método de forma adequada.
Vamos refletir um pouco sobre isso na seção a seguir.
REFLITA
O uso da tabela de auxílio para cálculos manuais

é opcional, mas facilita a resolução do problema
na hora de aplicar as equações determinadas na
seção anterior. Talvez, na resolução da atividade,
você já tenha organizado os dados, de forma a
criar uma versão similar dessa tabela; essa é uma
das propostas de organização dos dados. Em
mente, você deve lembrar de que a maior parte
dos problemas reais é resolvido com o uso de
software, como o próprio Excel e o uso das
tabelas de auxílio. Embora sejam chamadas “de
cálculos manuais”, as tabelas também orientam
na construção dos algoritmos.
Aqui, você deve se perguntar: existe outra forma
de organizar os dados desse problema? Essa
outra forma é mais efetiva que a proposta aqui?
‍
Fonte: Elaborado pelo autor
Como precisamos determinar alguns somatórios, utilizaremos a Tabela 4.4

para auxiliar nos cálculos manuais. Nela, consideramos F como y e Δx como
x, para facilitar o reconhecimento dos termos calculados necessários.
Tabela de auxílio para cálculos manuais do problema dado.
ni xi yi x i . yi Xi2
2
ni xi yi xi . y i x
i
1 220 122 26.840 48.400
2 220 119 26.180 48.400
3 220 122 26.840 48.400
4 220 122 26.840 48.400
5 220 122 26.840 48.400
6 225 126 28.350 50.625
7 225 129 29.025 50.625
8 225 126 28.350 50.625
9 225 124 27.900 50.625
10 225 128 28.800 50.625

11 230 133 30.590 52.900
12 230 133 30.590 52.900
13 230 132 30.360 52.900
14 230 133 30.590 52.900
15 230 135 31.050 52.900
16 235 135 31.725 55.225
17 235 136 31.960 55.225
18 235 137 32.195 55.225
19 235 137 32.195 55.225
20 235 137 32.195 55.225
Σ 4.550 2.588 589.415 1.035.750
Tabela 4.4 — Tabela com auxílio para cálculos manuais para os dados do exemplo
#PraCegoVer: a tabela de auxílio para cálculos manuais apresenta 22

linhas e 5 colunas. Na primeira linha, estão as informações organizadas
em: número da observação; valor x da respectiva observação; valor y da
respectiva observação; produto de x e y da respectiva observação; e
quadrado de x da respectiva observação. São 20 observações, sendo
dadas por: 1, 220, 122, 26.840, 48.300; 2, 220, 119, 26.180, 48.400, 3, 220,
122, 26.480, 48.300, 4, 220, 122, 26.480, 48.300, 5, 220, 122, 26.480,
48.300, 6, 225, 126, 28.350, 50.625, 7, 225, 129, 29.025, 50.625, 8, 225, 126,
28.350, 50.625, 9, 225, 124, 27.900, 50.625, 10, 225, 128, 28.800, 50.625,
11, 230, 133, 30.590, 52.900, 12, 230, 133, 30.590, 25.900, 13, 230, 132,
30.360, 52.900, 14, 230, 133, 30.590, 52.900, 15, 230, 135, 31.050, 52.900,
16, 235, 135, 31.725, 55.225, 17, 235, 136, 31.960, 55.225, 18, 235, 137,
32.195, 55.225, 19, 235, 137, 32.195, 55.225, 235, 137, 32.195, 55.225; e os
somatórios: 4.550, 2.588, 589.415 e 1.035.750.
Substituindo os dados do problema, obtemos:

n n n
n. ∑ xi y − ∑ xi . ∑ y
i=1 i i=1 i=1 i
β =
n 2 n 2
n. ∑ x − (∑ xi )
i=1 i i=1
20 ⋅ 589.415 − 4.550 ⋅ 2.588

β = = 1, 032
2
20 ⋅ 1.035.750 − (4.550)
Como
∑ xi 4.550
x̄ = = = 227, 5
n 20
∑y 2588
i
ȳ = = = 129, 4
n 20
Então,
ȳ = α + βx̄
α = βx̄ − ȳ = 105, 38
Dessa forma, o modelo que descreve a relação da força com o deslocamento é

dado por:
F = 105, 38 + 1, 032.
Δ x
Comparando com a Lei de Hooke, notamos que o coeficiente de elasticidade é

de 1,032 N/m e que a mola ficará no referencial zero de deslocamento, no caso
em que estará sujeita a uma força de 105,38 N.
 Reta passando pela origem: o modelo pode ser estudado à

parte.

Perceba que essa técnica permitirá que você determine relações lineares entre
duas variáveis, mas essa operação poderá ser realizada na maior parte dos
dados numéricos. Agora, para verificar que o método pode ser usado e que nos
dará um bom resultado, verificaremos o coeficiente de correlação. Antes disso,
discutiremos o intervalo de confiança na atividade prática.
praticar
Vamos Praticar
Sempre que tratamos de dados estatísticos, seja encontrando um certo
parâmetro, como acabamos de fazer com o coeficiente de elasticidade, ou
seja aplicando uma variedade de métodos, devemos ter em mente que o
valor real pertence a um determinado intervalo de confiança. Nunca será um
número absoluto. Podemos provar que o intervalo de confiança para esse
parâmetro é dado por:
−−−−−−−−−−−− −−−−−−−−−−−−
QM E QM E
β − t α √ ≤ β ≤ β + t α √
(1− ,n−2) n 2 (1− ,n−2) n 2
2
∑ (x i − x̄ ) 2
∑ (x i − x̄ )
i=1 i=1
Com base no problema discutido ao longo deste estudo, consulte uma tabela
de distribuição para encontrar o intervalo de confiança para o coeficiente de
elasticidade e determine o intervalo de confiança para o coeficiente de
elasticidade extraído do modelo.
Regressão Linear
A partir de agora, devemos determinar se a regressão linear que realizamos é

confiável ou não. Esse passo é essencial para garantir se o método que
utilizamos nos dará uma resposta precisa para prevermos o comportamento de
outros conjuntos de dados.
Conforme Morettin (2010, p. 467) aponta,
para verificar se um modelo é adequado, temos que investigar se as

suposições feitas para o desenvolvimento do modelo estão
satisfeitas. Para tanto, estudamos o comportamento do modelo
usando o conjunto de dados observados, notadamente as
discrepâncias entre os valores observados e os valores ajustados
pelo modelo, ou seja, fazemos uma análise dos resíduos.
Com o método de regressão linear simples, você sempre será capaz de traçar
uma reta que minimize o quadrado dos erros. Entretanto alguns dados não se
comportam como uma reta, de forma que o modelo desenvolvido não é
adequado para a descrição dela. Avaliamos a qualidade do modelo a partir da
análise do coeficiente de determinação.
Podemos obter o coeficiente de determinação, R2 , como:

n
SQR β∑ (xi − x̄)y
2 i=1 i
R = =
n 2
SQT ∑ (y − ȳ )
(i=1) i
Outra forma equivalente seria escrever:
n 2
(∑ (xi − x̄)y )
2 i=1 i
R =
n 2 n 2
∑ (xi − x̄) ∑ (y − ȳ )
i=1 i=1 i
Pode-se provar que seu valor está contido entre 0 e 1. Alguns livros chamam de
coeficiente de determinação o termo R, tal que −1 ≤ R ≤ 1; entretanto
utilizar , tal que , facilita a análise, ao evitar operar com
2 2
R 0 ≤ R ≤ 1
números negativos. Dessa forma, podemos afirmar que, quanto mais

2
R → 1
(vide Figura 4.3), mais forte é o poder explicativo do modelo linear. Quanto
mais R
2
→ 0 (vide Figura 4.4), menos podemos confiar no modelo, visto que
os dados não se aproximam de uma reta.
Figura 4.3 — Dados dispersos, mas, aproximadamente, lineares
#PraCegoVer: na figura, estão apresentados dados dispersos em torno de uma

reta, em um gráfico composto de eixo horizontal (de 30 a 70, com passo 10) e eixo
vertical (de 7 a 12, com passo 1). Como o nível de dispersão é baixo, todos os
pontos estão relativamente próximos da reta, que seria a melhor reta que descreve
os pontos.
Figura 4.4 — Dados dispersos de forma que R2 → 0
#PraCegoVer: na figura, estão apresentados em um gráfico dados completamente

dispersos. Nenhuma figura significativa é formada, visto o grau de dispersão
dessas informações.
Perceba que essa análise anterior é essencial à análise de dados, visto a

aplicabilidade do método em quase todos os conjuntos de dados.
#PraCegoVer: o infográfico é do tipo estático, com fundo retangular em cor branca.
Do lado esquerdo, há um semicírculo com o seguinte título no interior: “Algumas
regressões não lineares”. Do lado esquerdo, há três retângulos com borda colorida
e cantos arredondados, dispostos na vertical. Cada um está conectado ao
semicírculo por uma linha. O primeiro retângulo, de cima para baixo, possui borda
azul e traz o seguinte texto: “Modelo de Mitscherlich: é largamente utilizado em
artigos científicos referentes ao estudo da produção de uma determinada cultura
em função da quantidade de nutriente fornecido. O modelo é dado por: y é igual a
alpha que multiplica um menos 10 elevado a menos gama que multiplica x mais
theta, somado com epsilon”. O segundo retângulo possui borda roxa e traz o
seguinte texto: “Modelo Logístico: costuma ser utilizado para modelar
crescimentos populacionais em que a taxa de reprodução é proporcional à
quantidade de recursos disponíveis e ao tamanho da população existente. O
modelo é dado por: y é igual à razão entre theta e 1 mais e elevado a menos alpha
mais beta vezes x, somado com epsilon.” O terceiro retângulo possui borda
vermelha e traz o seguinte texto: “Modelo de Michaelis-Menten: é utilizado,
principalmente, no estudo da taxa de variação das reações químicas catalisadas
por enzimas. Seu modelo é descrito pela equação: y é igual à razão entre o produto
de theta 1 com x e a soma de x com theta 2, somado com epsilon.”
Entre os autores que fazem um excelente trabalho no desenvolvimento do

conceito de correlação linear, podemos citar Favero (2017, p. 118) que indica
que
o coeficiente de correlação de Pearson é uma medida que varia entre

-1 e 1. Por meio do sinal, é possível verificar o tipo de relação linear
entre as duas variáveis analisadas; quanto mais próximo de valores
extremos, mais forte é a correlação entre elas.
Agora que compreendemos o conceito de dispersão e como até mesmo os

dados dispersos podem ser utilizados no método para determinar uma reta que
melhor descreve esses pontos, vamos aproveitar a atividade prática a seguir
para determinar um dos possíveis coeficientes de determinação.
praticar
Vamos Praticar
Para os dados do exemplo, representados pela tabela inicial e discutido ao
longo deste estudo, deslocamento versus força, podemos determinar o
coeficiente de determinação deles. A partir do que foi apresentado, use a
n 2
equação R para encontrar seu coeficiente de

(∑ (xi −x̄)y )
2 i=1 i
=
n 2 n 2
∑ (xi −x̄) ∑ (y −ȳ )
i=1 i=1 i
determinação.
Material
Complementar
WEB
TED: três modos de identificar uma

estatística ruim
Ano: 2021
Comentário: Na plataforma TED, disponível no YouTube,

podemos acessar o vídeo da Profa. Mona Chalabi, que nos
indica formas úteis para identificarmos uma estatística
“ruim”, por exemplo, que não nos traz uma correlação
significativa.
Para conhecer mais sobre o filme, acesse o trailer disponível

em:
ACESSAR
LIVRO
Guia mangá de estatística

Editora: Novatec Editora
Autor: Shin Takasashi
ISBN: 978-85-752-2168-6
Comentário: Se você não aprendeu estatística de nenhuma

forma, Shin Takahashi utiliza uma linguagem alternativa e o
uso de Mangás para explicar, de forma lúdica, alguns dos
conceitos principais tratados ao longo deste material. Você
notará como a estatística também pode ser aprendida de
uma forma lúdica e como existe espaço no mercado
editorial para outras formas de publicação em matemática.
Conclusão
Caro(a) estudante, neste material, aprendemos sobre a técnica de regressão linear
simples, que busca minimizar o quadrado dos erros para encontrar a melhor reta
que descreve os pontos pesquisados. Esse método é a base para todos os outros
métodos de regressão, sejam as regressões múltiplas ou as regressões não
lineares. Além disso, a técnica é usada com exaustão nos laboratórios de física e de
engenharia, a fim de determinar grandezas experimentais faltantes.
Você deve dominar essa técnica básica com cuidado e lembrar-se, principalmente,
de que a utilização dela quase sempre traz um resultado, mas interpretação,
previamente a partir do coeficiente de correlação, é essencial para garantir a
confiabilidade do resultado.
Referências
3 ways to spot a bad statistic | Mona
Chalabi. [S. l.: s. n.], 2017. 1 vídeo (11
min). Publicado pelo canal Ted.
Disponível em:
https://www.youtube.com/watch?
v=Zwwanld4T1w. Acesso em: 19 out.
2021.
FÁVERO, L. P.; BELFIORE, P. Manual de

análise de dados. São Paulo: LTC Grupo
Gen, 2017.
MORETTIN, P. A. Estatística básica. 6. ed. São Paulo: Saraiva, 2010.
Regra da Cadeia - Parte 1 (Aula 9). [S. l.: s. n.], 2016. 1 vídeo (32 min). Publicado
pelo canal Ferreto Matemática. Disponível em: https://www.youtube.com/watch?
v=p9xjPa1EVrw. Acesso em: 19 out. 2021.
TAKASASHI, S. Guia mangá de estatística. São Paulo: Novatec Editora, 2010.
TRIOLA, M. F. Introdução à estatística: atualização da tecnologia. 11. ed. Rio de

Janeiro: LTC, 2013.

Unidade 4

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Unidade 4

Enviado por

Direitos autorais:

Formatos disponíveis

ANÁLISE ESTATÍSTICA

Revisor: Eder Cassettari

Tempo de leitura do conteúdo estimado em 1 hora e 5 minutos.

Para isso, analisaremos como, a partir de medidas coletadas, utilizar o método

Figura 4.1 - Visualização de uma regressão linear

#PraCegoVer: na figura, observamos um gráfico em que o eixo horizontal aponta os

Para analisarmos esse cenário, suponhamos que você seja um cientista

Então pretendemos coletar dados para encontrar o coeficiente de elasticidade,

No primeiro cenário de regressão que consideraremos, analisaremos o caso

Para o tipo de análise que desejamos realizar, é necessário coletar um conjunto

(x1 , y ) , (x2 , y ) , … , (xn , y )

1 220 122 11 230 133

2 220 119 12 230 133

3 220 122 13 230 132

4 220 122 14 230 133

5 220 122 15 230 135

6 225 126 16 235 135

7 225 129 17 235 136

8 225 126 18 235 137

9 225 124 19 235 137

10 225 128 20 235 137

#PraCegoVer: na tabela, composta de 11 linhas e 6 colunas, observamos

Nessa tabela, realizamos um experimento com uma determinada mola,

Lei de Hooke Lei de Newton Lei de Ohm

Quando investigamos a Lei de Hook, podemos determinar o coeficiente de

1. conteúdo do item 1: Lei de Hooke: quando investigamos a Lei de

A título de exemplo, aproveitamos os dados da tabela anterior e utilizamos o

Figura 4.2 - Gráfico deslocamento versus força apresentado para os dados

#PraCegoVer: na figura, observamos um gráfico em que o eixo horizontal apresenta

Note, também, que o gráfico já nos permite observar que os dados se

Note que se trata de uma equação de reta, em que β representa o coeficiente

No modelo considerado, supomos que a relação entre as duas variáveis yi e xi

Agora que você compreendeu o tipo de informações que estamos tratando,

Tabela - Medidas de força extraídas para deslocamento de 220 cm

#PraCegoVer: a tabela, composta de 6 linhas e 3 colunas,

Devemos considerar uma estratégia para determinar a melhor reta que

1. conteúdo do item 1: Eu mi bibendum neque egestas congue

Para compreender a minimização do erro, considere o cálculo do erro ao

Considerando a soma do quadrado do erro ei dado por SQE:

e considerando que desejamos encontrar os valores de α e β que minimizam

O que nos leva a (pelo uso da regra de derivação – regra da cadeia):

Você deve estar percebendo que essa temática

Fonte: Elaborado pelo Autor.

Essas equações podem ser simplificadas se considerarmos as médias das

Isolando α na primeira equação e substituindo na segunda, obtemos:

i=1 i=1 i=1 i=1 i=1

Entretanto é mais recomendável utilizar o próprio modelo de regressão para

Depois de tanta álgebra, perceba que a utilização prática do método é

Considere os dados coletados para o estiramento da mola, conforme a tabela

1 220 122 11 230 133

2 220 119 12 230 133

3 220 122 13 230 132

4 220 122 14 230 133

5 220 122 15 230 135

6 225 126 16 235 135

7 225 129 17 235 136

8 225 126 18 235 137

9 225 124 19 235 137

10 225 128 20 235 137

#PraCegoVer: na tabela, composta de 11 linhas e 6 colunas,

d) α = 105, 38; β = 1, 032

No exemplo que estamos realizando, devemos determinar a relação entre as

Para facilitar os cálculos necessários, utilizamos uma tabela de auxílio para os