Você está na página 1de 121

MÉTODOS QUANTITATIVOS

CONTÁBEIS E ATUARIAIS

autor
DIEGO BEVILACQUA MELI

1ª edição
SESES
rio de janeiro  2018
Conselho editorial  roberto paes e gisele lima

Autor do original  diego bevilacqua meli   

Projeto editorial  roberto paes

Coordenação de produção  gisele lima, paula r. de a. machado e aline karina


rabello

Projeto gráfico  paulo vitor bastos

Diagramação  bfs media

Revisão linguística  bfs media

Revisão de conteúdo  fabrício ramos penedo

Imagem de capa  sfio crach  |  shutterstock.com

Todos os direitos reservados. Nenhuma parte desta obra pode ser reproduzida ou transmitida
por quaisquer meios (eletrônico ou mecânico, incluindo fotocópia e gravação) ou arquivada em
qualquer sistema ou banco de dados sem permissão escrita da Editora. Copyright seses, 2018.

Dados Internacionais de Catalogação na Publicação (cip)

M52m Meli, Diego Bevilacqua


Métodos quantitativos contábeis e atuariais / Diego Bevilacqua Meli.
Rio de Janeiro : SESES, 2018.
120 p: il.

isbn: 978-85-5548-545-9.

1. Métodos Quantitativos. 2. Correlação e Covariância. 3. Regressão


Linear. 4. Estimação por Intervalo. 5. Teste de hipóteses I. SESES. II. Estácio.
cdd 657

Diretoria de Ensino — Fábrica de Conhecimento


Rua do Bispo, 83, bloco F, Campus João Uchôa
Rio Comprido — Rio de Janeiro — rj — cep 20261-063
Sumário
Prefácio 5

1. Covariância e correlação 7
Covariância 9

Correlação 16

Correlação e causalidade 21

2. Regressão linear simples 25


Introdução 26

Análise de regressão linear simples 27

Método dos mínimos quadrados 30

Regressão no Microsoft Excel® 37

3. Regressão linear simples e regressão linear


múltipla 45
Coeficiente de determinação 46

Regressão linear múltipla: Introdução 54


O problema da heterocedasticidade 54
O problema da multicolinearidade 55

Análise de regressão linear múltipla 56

4. Estimação por intervalo 65


Introdução 66

Estimativas pontuais e intervalares 67

Distribuição normal 69
Distribuição normal padronizada 71
Tabela padronizada 72
Estimativa da média de uma população 79

Média da população: desvio padrão conhecido 80

Média da população: desvio padrão desconhecido 82

5. Testes de hipóteses e intervalos de confiança 87


Introdução aos testes de hipóteses 88

Tipos de erros 90

Testes unicaudal e bicaudal 90

Teste para comparação de duas médias 92


Teste com variância populacional conhecida (Teste Z) 92
Intervalo de confiança com variância conhecida ( ) 93
2

Teste com variância populacional desconhecida (Teste T) 94


Intervalo de confiança com variância desconhecida ( ) 98
2

Comparação de duas médias populacionais (Teste T) 99

Teste t em Análise de Regressão 101


Análise pelo p-valor 103
Teste de Hipótese para Comparação de Duas Variâncias (Teste F) 104
Prefácio

Prezados(as) alunos(as),

É comum, na área contábil e atuarial, o emprego de técnicas estatísticas para


auxiliar o usuário na tomada de decisão. Por exemplo, um vendedor de seguros
deve ou não ofertar um seguro de vida para uma determinada faixa etária da
população? O seguro de um veículo é mais caro de acordo com a idade e o local
de moradia do motorista? Um analista do mercado financeiro pode querer obter
ações que tenham características e comportamentos diferentes para se proteger dos
riscos envolvidos. Além disso, uma empresa pode querer determinar a previsão
de vendas no próximo ano com base no histórico. Essas respostas são obtidas por
meio dos métodos quantitativos aplicados.
Para abordar as técnicas aplicadas de maneira didática, o livro foi dividido em
cinco capítulos. O primeiro capítulo aborda sobre a covariância e a correlação,
sem, no entanto, deixar de relembrar conteúdos como média e desvio padrão. Os
cálculos são mostrados de maneira manual, com o auxílio da calculadora financei-
ra e também utilizando uma planilha eletrônica. O segundo e o terceiro capítulos
adentram na poderosa técnica da regressão linear. Enquanto o segundo capítulo
discute a regressão linear simples, o terceiro aborda a regressão linear múltipla. A
combinação dos capítulos permite conhecer o método dos mínimos quadrados e
como analisar os resultados de uma regressão. Os exemplos elucidativos também
são feitos de maneira manual e com o auxílio da planilha eletrônica. O quarto ca-
pítulo tem por objetivo mostrar sobre a estimação por intervalo. Você aprenderá,
neste capítulo, a fazer estimação tanto pontual quanto intervalar. Uma discussão
sobre a distribuição normal e a variável z também será revista. Por fim, o quinto e
último capítulo diz respeito a dois assuntos, a saber, o teste de hipótese e o interva-
lo de confiança. Este capítulo também auxilia a compreender melhor os resultados
da regressão.
Com diversos exemplos práticos, não sem antes explicar a teoria por detrás
dos conceitos aplicados, este livro demonstra, de forma didática, como empre-
gar determinadas técnicas estatísticas para a resolução de problemas. O texto traz
exemplos, gráficos, tabelas, cálculos, entre outros recursos, com o objetivo de pro-
porcionar o conhecimento em métodos quantitativos ao aluno.

Bons estudos!

5
1
Covariância e
correlação
Covariância e correlação
Muitas vezes um usuário procura mensurar se duas variáveis têm relação entre
si para tomar determinada decisão. O gerente de marketing pode querer saber,
por exemplo, se propaganda veiculada na televisão no último final de semana teve
reflexo no consumo dos clientes da loja.
Neste capítulo aprenderemos como calcular a relação entre duas variáveis por
meio de dois importantes conceitos, a saber, covariância e correlação. Essas medi-
das fornecem um valor para que possa se determinar se há relacionamento entre
duas variáveis. Por exemplo, a número de horas que a propaganda foi ao ar e o
número de vendas da loja.

OBJETIVOS
•  Definir covariância e correlação;
•  Conhecer a aplicabilidade da covariância e correlação;
•  Calcular covariância e correlação;
•  Entender sobre correlação e causalidade.

A relação (ou associação) entre duas variáveis é de interesse do usuário to-


mador de decisão, seja ele o gestor, o analista financeiro, o investidor e, claro, o
atuário. As medidas descritivas covariância e correlação mensuram a relação entre
duas variáveis. Complementando, as referidas medidas medem a intensidade com
a qual duas variáveis estão associadas.
O gestor, por exemplo, pode estar interessado em relacionar o número de ven-
das de uma loja à campanha publicitária realizada recentemente. Por outro lado,
o investidor pode desejar conhecer a relação entre os retornos de duas ações no
mercado de capitais. O atuário, por sua vez, pode querer conhecer a relação entre
a localização e o número de roubos de um veículo.
Assaf Neto e Lima (2011, p. 421) explicam que tanto a covariância quanto
a correlação visam “identificar como determinados valores co-variam ou se cor-
relacionam entre si”. Ou seja, medem como duas variáveis, x e y, por exemplo,
movimentam-se ao mesmo tempo em relação a seus valores médios.

capítulo 1 •8
Covariância

Com o objetivo de compreender melhor o que é a covariância, você estudará,


neste subcapítulo, um exemplo aplicado por Ross, Westerfield e Jaffe (2007). O
exemplo consiste em obter relação entre a taxa de retorno de duas ações.
©© MAREKULIASZ | SHUTTERSTOCK.COM

Considere a tabela 1.1, que apresenta os retornos esperados de das empresas,


a Companhia A e a Companhia B, diante de quatro cenários possíveis na econo-
mia (depressão, recessão, normal e expansão).

COMPANHIA A COMPANHIA B
Depressão –20 0,05
Recessão 0,10 0,20
Normal 0,30 –0,12
Expansão 0,50 0,09

Média 0,1750 0,055


Desvio Padrão 0,2586 0,1155

Tabela 1.1  –  Retornos esperados das empresas.

capítulo 1 •9
De acordo com a tabela 1.1, você pode notar que em um cenário de depressão,
o retorno esperado da Companhia A é de –20,00%, enquanto que a da Companhia
B é de 5,00%. Já em um período econômico tido como normal, os retornos pas-
sam a ser 30,00% para a Companhia A e –12,00% para a Companhia B.
Além disso, também foi calculada a média, que, em termos de finanças,
significa o retorno esperado da ação. Observe que a média (retorno esperado) da
Companhia A é de 17,50% e da Companhia B, por sua vez, é de 5,50%. Antes de
avançarmos, que tal relembrar calcular a média? Para tanto, basta somar os valores
e dividir pela sua quantidade, ou seja:
−0, 20 + 0,10 − 0, 30 − 0, 50
Companhia A = = 0,175 = 17, 50%
4

−0, 50 + 0, 20 − 0,12 − 0, 09
Companhia B = = 0, 055 = 5, 50%
4

Utilizando a calculadora financeira HP 12-C, podemos calcular a média da


seguinte maneira:

Por fim, o desvio padrão populacional também foi calculado. Em finanças,


o desvio padrão mensura o risco de um ativo. Neste exemplo, o risco (desvio pa-
drão) da Companhia A é de 25,86% e o da Companhia B é de 11,50%. Que tal
calcularmos o desvio padrão também utilizando a HP 12-C?

capítulo 1 • 10
Perceba, no entanto, que o valor fornecido pela HP 12-C é o desvio padrão
amostral. Para encontramos o desvio padrão populacional, basta fazer a seguinte
sequência, após digitar todos os dados:

Logo, pode-se concluir que, embora o retorno esperado da Companhia A


seja maior, o seu risco também o é. De maneira inversa, o retorno esperado da
Companhia B é menor, assim como o seu risco.

EXEMPLO

Tabela 1.2  –  Cálculo da média e desvio padrão do Excel.

capítulo 1 • 11
No Microsoft Excel®, a média pode ser encontrada utilizando a função média, enquanto
que o desvio padrão amostral pela função desvpad.a e o desvio padrão populacional pela
função desvpad.p. um exemplo pode ser verificado na tabela 1.2.

Após relembrar os conceitos de estatística básica, você está apto a avançar e


calcular a covariância. Considerando ainda o exemplo da tabela 1.2, basta desen-
volver as seguintes etapas para encontrar a covariância entre a Companhia A e a
Companhia B:

1. Para cada valor disposto no cenário da economia (depressão, recessão, normal e


expansão), subtrair do retorno esperado (média). Em relação à Companhia A, você
deve fazer no cenário de expansão, por exemplo, o seguinte cálculo: 0,50 – 0,175,
que é igual a 0,3250. Outro exemplo, mas agora utilizando a Companhia B no
cenário normal, faríamos: –0,12 – 0,05 e o resultado é igual a –0,175.

2. Multiplica-se, em cada cenário de economia, os valores encontrados, isto é, o


valor encontrado no cenário de depressão da Companhia A é multiplicado pelo
valor encontrado no cenário de depressão da Companhia B. Algebricamente é
representado do seguinte modo:

(R At − R A ) X (R Bt − R B )
Em que RAt e RBt são os retornos de Companhia A e Companhia B, res-
pectivamente, no cenário t, e R A e R B são os retornos esperados (médias) das
duas empresas.

Calculamos a média para os quatros cenários após a multiplicação. O valor


encontrado é a covariância.

capítulo 1 • 12
A tabela 1.3 demonstra as etapas de 1 a 3 até encontrar a covariância.

DIFERENÇA DIFERENÇA
TAXA DE TAXA DE
EM RELAÇÃO EM RELAÇÃO PRODUTO DAS
RETORNO RETORNO
CENÁRIOS AO RETORNO AO RETORNO DIFERENÇAS
DA CIA A DA CIA B
ESPERADO ESPERADO (RAt– RA)X(RBt– RB)
RAt RBt
(RAt– RA) (RBt– RB)
–0,375 –0,005 (0,05 0,001875
Depressão –0,20 0,05
(–0,20 – 0,175) – 0,0655) (–0,375 x –0,005)

–0,010875
Recessão 0,10 –0,075 0,20 0,145
(–0,075 x 0,145)

–0,021875
Normal 0,30 0,125 –0,12 – 0,175
(0,125 x –0,175)

0,011375
Expansão 0,50 0,325 0,09 0,035
(0,125 x –0,175)

Média 0,175 – 0,055 – –0,004875

Tabela 1.3  –  Cálculo da covariância. Ross, Westerfield e Jaffe, 2007, p. 209. Adaptado.

Assim, de acordo com a última coluna da tabela 1.3, a covariância é a média


dos valores encontrados. Algebricamente, o cálculo da média é do seguinte modo:
0, 001875 − 0, 010875 − 0, 027875 + 0, 011375
σAB = Cov (RA ; RA ) = = −0, 0048
875
4

A covariância é representada pelas anotações AB ou Cov(RA;RB ). Repare


que a divisão foi por n (neste exemplo, foi 4), pois se trata de resultados futuros.
Portanto, foi trabalhado com valores populacionais. Se fossem dados passados,
o correto seria dividir por n – 1, ou seja, 3, neste exemplo, pois seriam valo-
res amostrais.
Você é capaz de perceber que o valor da covariância depende dos valores encon-
( ) ( )
trados em R At − R A X R Bt − R B A relação entre os retornos da Companhia A
e da Companhia B dependem do quanto os valores de retornos estejam superiores
ou inferiores em relação à média e sua interação entre esses dois ativos.
Os valores da covariância podem ser negativos, neutros ou positivos. Valores
negativos evidenciam que o comportamento dos ativos será oposto. Quando um
ativo estiver acima da média, o outro tende a estar abaixo (e vice-versa). Valores
positivos, ao contrário, mostram que quando um ativo estiver acima da média, o
outro também tende a estar acima da média, e, novamente, vice-versa. Quando

capítulo 1 • 13
o resultado for neutro (zero ou muito próximo de zero), pressupõe que não há
relação entre os ativos, ou melhor, não há relação entre duas variáveis.
Em outras palavras, um valor positivo para a covariância indica uma associa-
ção linear positiva entre duas variáveis (x e y, por exemplo); essa característica evi-
dencia que quando o valor de x aumenta, o de y também irá aumentar. Contudo,
se o valor da covariância for negativo, existirá uma associação linear negativa entre
x e y, significando que quando o valor de x aumenta, o valor de y irá diminuir.
E, como já descrito, quando o valor é próximo de zero, pode-se inferir que não
há associação linear entre as variáveis x e y. As figuras 1.1, 1.2 e 1.3 mostram a
interpretação da covariância.

Figura 1.1  –  Covariância positiva. Figura 1.2  –  Covariância neutra.

Figura 1.3  –  Covariância negativa.

O valor da covariância obtido no exemplo das Companhias A e B no valor de


–0,004875 demonstra que quando a Companhia A, por exemplo, obtiver retorno
acima da média, o retorno da Companhia B tende a estar abaixo de sua média.
Ou seja, quando o valor do retorno da Companhia A sobe, o valor do retorno da
Companhia B desce.

capítulo 1 • 14
Note, caro leitor, que a covariância tem interpretação difícil em relação ao
seu valor numérico, uma vez que ele pode assumir valores em qualquer intervalo.
Anderson, Sweeney e Williams (2011, p. 100) comentam que um valor positivo
elevado da covariância poderia apontar para uma relação linear positiva forte e que
um valor negativo elevado, em contrapartida, indicaria relação linear de intensida-
de negativa forte. Como a medida de covariância depende das unidades de medida
de x e y (altura e peso, por exemplo), podem-se obter valores muito elevados para
uma variável, o que impacta no resultado obtido.
Assim, fica a indagação: que valores são muito ou pouco relacionados? Como
evitar que as variáveis sejam afetadas pelas unidades de medidas? Para resolver esses
problemas é utilizado o conceito de correlação, que iremos ver no próximo tópico.

EXEMPLO
No Microsoft Excel®, a covariância pode ser encontrada por meio da função
covariação.p ou covariação.s. a primeira é para dados populacionais, enquanto a segunda
é para dados amostrais. A tabela 1.4 demonstra como calcular.

Tabela 1.4  –  Cálculo da covariância no Excel.

Algebricamente a covariância é definida da seguinte maneira, quando se tratar


de covariância populacional:

Cov xy =
∑ ( x i − x )( y i − y )
n

capítulo 1 • 15
Quando a covariância for amostral, então a definição será:

Cov xy =
∑ ( x i − x )( y i − y )
n −1

Correlação

Para Stevenson (2001, p. 367), a correlação significa literalmente “co-rela-


cionamento”, uma vez que indica o quanto duas variáveis estão relacionadas. O
referido autor complementa alegando que o “objetivo do estudo correlacional é a
determinação da força do relacionamento entre duas observações emparelhadas”.
©© TOMISLAV ZIDANIC | SHUTTERSTOCK.COM

A correlação é expressa pela seguinte equação:


Cov ( A ; B)
ρ AB = Corr ( A ; B) =
σ A X σB

Em que:
ρ AB é a correlação de A com B.
σ A e σB são os desvios padrão.

capítulo 1 • 16
No exemplo estudado das Companhias A e B, o desvio padrão dos retornos
esperados de ambas as empresas foram calculados. Esses desvios são necessários
para encontrar a correlação. Sendo assim, o cálculo é:

Cov (R A ; R B )
ρ AB = Corr (R A ; R B ) =
σ A X σB

−0, 004875
ρ AB = Corr (R A ; R B ) = = −0,1639
0, 2586 x 0,1150

Você, leitor, deve ter notado que o desvio padrão sempre é positivo. Desse
modo, o resultado da correlação sempre terá o mesmo sinal da covariância, além
da interpretação ser a mesma, quer dizer, se a correlação entre as variáveis for posi-
tiva, então podemos dizer que as variáveis são positivamente correlacionadas. Se
for negativa, então dizemos que são negativamente correlacionadas e, quando for
igual zero (ou próximo a zero), então não há correlação entre as variáveis.
A vantagem de utilizar a correção é que ela sempre será um valor entre –1 e
+1, conforme figura 1.4. Tal feito é obtido graças à padronização das variáveis –
quando da divisão pelo produto dos desvios padrões.

–1
-1 0 +1

Figura 1.4  –  Variação da correlação.

O valor de correlação encontrado de –0,1639 permite concluir que os retor-


nos esperados das Companhia A e Companhia B são negativamente correlaciona-
dos. Como o valor encontrado está mais próximo de 0 do que de –1, diz-se que
há pouca correlação.
Stevenson (2001, p. 368) argumenta que o coeficiente de correlação (o valor
obtido no cálculo da correlação) tem duas importantes propriedades que carac-
terizam a relação entre as variáveis: i) o seu sinal (+ ou –); ii) sua magnitude.
Enquanto o sinal simboliza o quanto os dados estão próximos de uma reta ima-
ginária traçada num diagrama de dispersão, a magnitude indica o quão próximos
dessa reta imaginária estão tais pontos (valores). Stevenson (2001, p. 369) ainda
alega que os valores da correlação “próximos de –1,00 ou +1,00 indicam que os
valores estão muito próximos da reta, ou mesmo sobre a reta, enquanto que os

capítulo 1 • 17
valores mais próximos do 0 sugerem maior dispersão”. A tabela 1.5 ilustra os con-
ceitos apresentados.

DESCRIÇÃO O DIAGRAMA DE
VALOR DE R RELACIONAMENTO DISPERSÃO
LINER
y
Relacionamento positivo.
+1,00
perfeito
x
y
Relacionamento positivo.
Cerca de +0,70
moderado
x
y

0,00 Ausência de relacionamento

x
y
Relacionamento negativo,
cerca de 0,70
moderno
x
y
Relacionamento negativo
-1,00
perfeito
x
Tabela 1.5  –  Diagramas de dispersão e os valores de correlação. Stevenson (2001, p. 369).

EXEMPLO
No Microsoft Excel®, a correlação pode ser calculada por meio da função correl.
A tabela 1.5 8 evidencia como proceder.

capítulo 1 • 18
Tabela 1.6  –  Cálculo da correlação no Excel.

E agora, que tal aprendermos como calcular tanto a correlação quanto a co-
variância na calculadora financeira HP 12-C? Basta executar a seguinte sequência
de comandos:

É importante notar que a média (0,175 e 0,055) foram adicionados nos cál-
culos como registros da calculadora. Somente dessa forma, é possível obter o valor
populacional da covariância. Se a média não for adicionada, então o valor obtido
será o amostral (–0,0065).
De acordo com as figuras 1.5, 1.6 e 1.7, é possível observar os três casos bá-
sicos para as correlações dos retornos das Companhias A e B. As figuras demons-
tram situações quando a correlação é positiva e perfeita (figura 1.5), quando a
correlação é negativa e perfeita (figura 1.6) e quando inexiste correlação entre os
retornos (figura 1.7).

capítulo 1 • 19
Retornos

– A
B
Tempo

Figura 1.5  –  Correlação positiva perfeita (= +1).

Obs.: os retornos dos títulos das Companhias A e B são superiores à média ao


mesmo tempo. Ambos são inferiores à média ao mesmo tempo. Ross, Westerfield
e Jaffe (2007, p. 211)
Retornos

+ B

– A

Tempo

Figura 1.6  –  Correlação negativa perfeita (= –1).

Obs.: o título A tem retorno superior à média quando o título B tem retorno
inferior à média, e vice-versa. Ross, Westerfield e Jaffe (2007, p. 211)
Retornos

0
B
– A

Tempo

Figura 1.7  –  Correlação nula (= 0).

Obs.: o retorno do título A é completamente independente do retorno do


título B. Ross, Westerfield e Jaffe (2007, p. 211)

capítulo 1 • 20
Correlação e causalidade

Após todo o estudo apresentado até o momento, é válido discutir a respeito da


correlação e causalidade, isto é, a variável x causa a variável y? O fato de as variá-
veis estarem fortemente correlacionadas (positiva ou negativamente) não implica
relação de causa e efeito.
Stevenson (2001, p. 389) comenta que quando duas variáveis são correlacio-
nadas, “é possível predizer valores de uma delas com base no conhecimento da
outra. Isso leva frequentemente à conclusão errônea de que uma variável é causa
da outra”. Logo, o fato de duas variáveis estarem relacionadas, por si só, nada pode
se dizer sobre quanto a causa e efeito.
“Há três explanações possíveis para a obtenção de uma correlação: existe uma
relação de causa e efeito; ambas as variáveis se acham relacionadas com uma tercei-
ra; ou a correlação é devida ao acaso” (STEVENSON, 2001, p. 389).
O supracitado autor cita um exemplo de relacionamento espúrio: pesquisado-
res encontraram correlação entre o movimento de preços da Bolsa de Nova York e
a variação no comprimento de saias femininas. Além disso, a respeito da “terceira
variável”, podemos exemplificar na seguinte situação: há correlação entre a queda
de folhas das árvores pouco antes de começar a nevar. Assim, a conclusão errônea
seria: a queda das folhas causou a queda da neve. Ou será que ambas as ocorrências
estão relacionadas com a mudança da estação, isto é, do outono para o inverno?

O verdadeiro perigo na utilização de relações para fins preditivos que não tenham sido
validades em termos de causa e efeito é que as “relações” podem se modificar, ou que
modificações deliberadas na variável “causal” possam não conduzir às modificações es-
peradas na variável “efeito” (STEVENSON, 2001, p. 389).

ATIVIDADES
01. Uma seguradora deseja verificar se há QUANTIDADE RENDA
REGIÃO
relação entre a quantidade de sinistros e a DE SINISTRO MÉDIA
renda média dos segurados das regiões de Norte 28 R$ 4.500,00
uma cidade em um determinado ano. Os da-
Sul 15 R$ 8.000,00
dos obtidos estão de acordo com a tabela
Leste 42 R$ 2.200,00
a seguir:
Oeste 34 R$ 3.600,00

capítulo 1 • 21
a) Calcule a correlação.
b) Calcule a covariância.
c) Interprete a correlação.

02. Defina o que é covariância.

03. Defina o que é correlação.

04. Um investidor deseja calcular a covariância e a correlação entre os retornos de duas


ações, BBAS3 e CSNA3. Com base na tabela a seguir, efetue os cálculos e interprete
a correlação.
Observação: como se trata de retornos passados, a covariância, nesse caso, pode ser
a amostral.

DATA BBAS3 CSNA3


abr/16 11,84% 83,78%

mar/16 46,01% 37,50%

fev/16 –2,24% 46,48%

jan/16 –6,04% –11,25%

05. Um analista atuarial de uma empresa de plano de saúde desejar saber se há relação
entre a idade média de determinada característica de pessoas e a quantidade de doenças
apresentadas nos últimos 5 anos. Tal análise será útil para as diretrizes do novo plano de
saúde que a empresa deve lançar. Com base na tabela a seguir, faça o que se pede.

a) Calcule a covariância. IDADE DOENÇAS


b) Calcule a correlação. MÉDIA
c) Interprete a correlação. Homem solteiro 28 4

Homem casado 35 6

Home divorciado 38 8

Mulher solteira 26 3

Mulher casada 32 5

Mulher divorciada 40 2

capítulo 1 • 22
REFLEXÃO
Neste capítulo você aprendeu sobre covariância e correlação. Foi apresentado que o
usuário tomador de decisão muitas vezes requer o conhecimento do grau de relacionamento
de duas variáveis para compreender melhor o processo de relação e, por consequência, in-
fluenciar na tomada de decisão. Você aprendeu definir e calcular tanto a covariância quanto
a correlação, por meio de fórmulas algébricas, da calculadora financeira HP 12-C e também
via Microsoft Excel®.

REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
ASSAF NETO, A.; LIMA, F. G. Curso de Administração Financeira. 2. ed. São Paulo: Atlas, 2011.
ROSS, S. A.; WESTERFIELD, R. W.; JAFFE, J. F. Administração Financeira. Tradução de Antônio
Zoratto Sanvicente. 2. ed. São Paulo: Atlas, 2007.
STEVENSON, W. J. Estatística Aplicada à Administração. Tradução de Alfredo Alves de Farias. São
Paulo: Harbra, 2001.

capítulo 1 • 23
capítulo 1 • 24
2
Regressão linear
simples
Regressão linear simples
Imagine que uma empresa do ramo varejista, que comercializa, sobretudo,
produtos eletrodomésticos, deseja ser capaz de prever quais clientes são bons ou
maus pagadores com base em sua renda, dado um histórico de vendas anteriores e
a sua relação com a inadimplência.
Por meio da regressão linear simples, é possível obter uma equação que é capaz
de prever, com base em dados passados (renda e inadimplência, nesse exemplo)
se o atual cliente seria um bom ou mau pagador. Assim como na correlação, a
regressão se baseia na relação entre duas ou mais variáveis.

OBJETIVOS
•  Definir regressão linear simples;
•  Diferenciar variável dependente e independente;
•  Calcular regressão linear simples;
•  Compreender a aplicabilidade da técnica.

Introdução

Bruni (2012, p. 224) comenta que tanto a correlação quanto a análise de re-
gressão têm por objetivo estimar numericamente “o grau de relação que possa ser
identificado entre populações de duas ou mais variáveis, a partir da determinação
obtida com base em amostras selecionadas destas populações focalizadas”. Logo,
você pode perceber que a regressão também é uma medida que busca mensurar e
compreender a relação entre duas ou mais variáveis.
Em outra explicação, Fávero et al. (2009, p. 345) argumenta que a análise de
regressão é uma técnica de dependência (também conhecida por confirmatória)
que tem por objetivo desenvolver modelos com um conjunto de variáveis (cha-
madas de explicativas) que podem influenciar uma ou mais variáveis dependentes.
Desse modo, é possível elaborar modelos preditivos.
Anderson, Sweeney e Williams (2007, p. 428) explicam que na termino-
logia da análise de regressão, a “variável que é prevista é dita variável dependente.

capítulo 2 • 26
A variável ou variáveis usadas para prever o valor da variável dependente denomi-
nam-se variáveis independentes”.

ATENÇÃO
Variável dependente é a variável que será prevista no modelo. Ela também é conhecida
por variável explicada.
Variável independente é a variável (ou variáveis) usada para prever o valor da variável
dependente. Ela também é conhecida por variável explicativa.

Fávero et al. (2009, p. 345) complementa explicando que um pesquisador


poderá compreender “como é possível avaliar e mensurar a influência de variáveis
explicativas sobre uma única variável dependente métrica que representará um
fenômeno sobre o qual há interesse de estudo”.
Por exemplo, um analista de mercado de capitais pode querer descobrir se o
endividamento da empresa afeta o valor da ação. Um contador pode querer veri-
ficar como o custo de um produto varia de acordo com as horas trabalhadas pelos
operários. O departamento de vendas de uma loja pode tentar prever o valor em
compras de um cliente com base em sua renda. Ainda um analista atuarial pode
querer verificar o quanto o aumento da expectativa de vida da população vai im-
pactar na variação dos preços de seguros de vida.
Essas relações podem ser feitas e compreendidas por meio dos modelos de
regressão. Como já comentado, a análise de regressão busca entender a relação
entre a variável dependente e as variáveis independentes. A análise de regressão é
uma das mais importantes e uma das técnicas estatísticas mais utilizadas no meio
acadêmico e profissional.

Análise de regressão linear simples

Quando a análise de regressão envolve apenas duas variáveis, isto é, uma variá-
vel independente e uma variável depende, ela é chamada de regressão linear sim-
ples. A relação entre essas duas variáveis tende a se aproximar de uma linha reta.

capítulo 2 • 27
©© NIKITRIY | SHUTTERSTOCK.COM

Vamos aprender e compreender a regressão linear simples por meio de um


exemplo. Um estudante deseja verificar se o peso dos alunos de uma sala de aula
é explicado pelas suas respectivas alturas. O peso é a nossa variável dependente
(explicada) e a altura é a nossa variável independente (explicativa). Considere que
o estudante avaliou uma sala com 22 alunos. Ele pesou e mediu todos os envolvi-
dos. Com base nos dados obtidos, o estudante desenvolveu o seguinte modelo (ou
equação) de regressão:

peso = – 102,58 + 100,99 X altura

A equação anterior é uma estimativa que relaciona a altura com o peso dos
alunos de uma sala de aula. Lembra que a variável dependente é preditiva? Pois
bem, se quisermos agora, saber (ou prever) o peso de um aluno, basta fazer a subs-
tituição na equação. Por exemplo, qual seria o peso previsto de um aluno que tem
1,80 m de altura? Pela equação, o peso dele seria:

peso = – 102,58 + 100,99 X altura


peso = – 102,58 + 100,99 X 1,80
peso = – 102,58 + 181,78
peso = 79,20

capítulo 2 • 28
Por meio da equação da regressão linear simples, o peso previsto do aluno
que tem 1,80 m de altura seria de 79,20 kg. Note, prezado leitor, que o valor
encontrado é uma estimativa, um valor previsto, com base nos dados obtidos da
população ou amostra do estudo que, nesse caso, foram os pesos e alturas dos
22 alunos de uma sala de aula.
O modelo de regressão proposto seria melhor reescrito como:

y = β0 + β1 χ + ∈

Em que β0 e β1c são conhecidos como parâmetros do modelo e a letra grega


épsilon, representada por β é uma variável aleatória conhecida como o termo de
erro (ou resíduo). Anderson, Sweeney e Williams (2007, p. 429) explicam que o
termo de erro “é responsável pela variabilidade em y que não pode ser explicada
pela relação linear entre x e y”.
Além do modelo, também é possível descrever o valor esperado de y por meio
da equação de regressão. A equação da regressão linear simples é:

E (y) = β0 + β1χ

Entretanto, os valores dos parâmetros populacionais de β0 e β1 nem sem-


pre são conhecidos na prática, o que inviabiliza o uso da equação de regressão.
Logo, para atenuar o problema exposto, os valores precisam ser estimados via
dados amostrais. Assim, os estimadores dos parâmetros β0 e β1 são designados
pela estatística da amostra, conhecidos por b0 e b1. Logo, a equação de regressão
estimada é:

γ = b0 + b1χ

Para Anderson, Sweeney e Williams (2007, p. 430), o γ é “o estimador por


ponto de E(y), o valor médio de y para dado valor de x”. Os autores citados
anteriormente complementam a discussão explicando que o valor de γ fornece
uma estimação de E(y) para determinado valor de x. Dado tal explicação como
verdade, então γ passa a ser chamado simplesmente de valor estimado de y.
A figura 2.1 apresenta um resumo de estimação para a regressão linear simples.

capítulo 2 • 29
Modelo de Regressão Dados Amostrais
y = β0 + β1 x + ∈ x y
Equação de Regressão
x1 y1
E(y) = β0 + β1 x
x2 y2
Parâmetros Desconhecidos
. .
β0, β0
xn yn

Equação de Regressão
b0 e b1 Estimada
Produzem estimativas de yˆ = b0 + b1 x
β0 e β1 Estatística da amostra
b0, b0

Figura 2.1  –  Processo de estimação em regressão linear simples. Anderson, Sweeney e


Williams (2007, p. 430). Adaptado.

Método dos mínimos quadrados

O método dos mínimos quadrados é, para Stevenson (2001, p. 347), o mé-


todo mais usado para ajustar uma linha reta a um conjunto de pontos. Anderson,
Sweeney e Williams (2007, p. 431), por sua vez, comentam que o método é
um “procedimento que usa dados amostrais para encontrar a equação de regres-
são estimada”.
Com base no exemplo estudado no tópico 2.1 – agora os dados de manei-
ra completa –, este irá ilustrar a aplicação do método dos mínimos quadrados.
Assuma que em uma sala de aula o pesquisador identificou 22 alunos e mensurou
seu peso e altura, respectivamente. A tabela 2,1 evidencia os dados.
O peso dos alunos é a variável y (dependente), mensurada em quilogramas
(kg) enquanto que a variável x (independente) é a altura dos alunos, mensura em
metros. Por exemplo, o aluno 1 pesa 76 kg e mede 1,74 metro. O aluno 2, por sua

capítulo 2 • 30
vez, pesa 60 kg e mede 1,62 metro. O aluno mais pesado é o 18, com 98 kg, e os
mais altos são os alunos 4 e 11, com 1,95 metro cada.

PESO ALTURA
ALUNO
(EM KG) (EM METROS)
i yi xi
1 76 1,74

2 60 1,62

3 95 1,89

4 91 1,95

5 73 1,72

6 75 1,80

7 96 1,87

8 66 1,66

9 70 1,75

10 69 1,70

11 95 1,95

12 73 1,78

13 62 1,64

14 56 1,55

15 86 1,88

16 86 1,90

17 62 1,59

18 98 1,88

19 83 1,88

20 60 1,68

21 82 1,90

22 85 1,84

Tabela 2.1  –  Dados sobre os pesos e alturas de alunos de uma sala de aula.

Com base na tabela 2.1, foi elaborado o diagrama de dispersão, elucidado na


figura 2.2, sendo o peso no eixo vertical y (ordenada) e a altura no eixo horizontal
x (abscissa).

capítulo 2 • 31
120

100

80
Peso (em kg)

60

40

20

0
1.4 1.5 1.6 1.7 1.8 1.9 2
Altura (em metros)

Figura 2.2  –  Diagrama de dispersão.

Leitor, observe o gráfico contido na figura 2.2. Quais análises ou prévias con-
clusões você pode fazer? Aparentemente o peso dos estudantes aumenta conforme
sua altura também se eleva. Observe ainda que essa relação tende a se aproximar
de uma linha reta crescente, evidenciando uma relação linear e positiva entre x
(altura) e y (peso).
Por se tratar de uma amostra, devemos utilizar a equação de regressão estima-
da para representar a relação entre o peso e altura:

γ i = b0 + b1χi

De acordo com Anderson, Sweeney e Williams (2007), os componentes da


equação são:
γ i = valor estimado do peso dos alunos (em quilos) para o i-ésimo aluno;
b0 = o ponto em que a reta de regressão estimada intercepta y;
b1 = a inclinação da reta de regressão estimada;
χi = a altura dos alunos (em metros) para o i-ésimo aluno.

Além disso, é preciso também saber que yi é o peso observado (real) do alu-
no i e que γ i representa o valor estimado do peso do aluno i. Logo, todo aluno
da amostra terá um valor observado de peso (yi) e um valor estimado de peso
( γi). Anderson, Sweeney e Williams (2007, p. 432) explicam que “para que a reta

capítulo 2 • 32
de regressão estimada produza um ajuste eficiente para os dados, queremos que
as diferenças entre os valores de venda observados e os valores de venda estimados
sejam pequenos”.
“Assim, o método dos mínimos quadrados utiliza dados amostrais para pro-
duzir os valores b0 e b1 que minimizam a soma dos quadrados dos desvios entre
os valores observados da variável dependente yi e os valores estimados da variável
dependente” (ANDERSON; SWEENEY; WILLIAMS, 2007, p. 432). A equação
que representa o método dos mínimos quadrados é:

( )
2
min ∑ y i − γ i
Em que:
yi = valor observado da variável dependente para a i-ésima observação;
γ = valor estimado da variável dependente para a i-ésima observação.
i


Para encontrar os valores de b0 e b1 que minimizam a equação supracitada,
utiliza-se o cálculo diferencial, conforme demonstrado na sequência:

b1 =
∑ ( χi − χ)( yi − y )
∑ ( χi − χ )
2

b0 = y − b i χ

Em que:
χi = valor da variável independente para a i-ésima observação;
yi = valor da variável dependente para a i-ésima observação;
χ = valor médio da variável independente;
γ = valor médio da variável dependente.
Sabe-se ainda que b0 e b1 são chamados de interseção e inclinação da reta na
equação de regressão estimada, respectivamente. Para desenvolver a equação de re-
gressão estimada pelo método dos mínimos quadrados, o exemplo da tabela 2 con-
tinuará sendo utilizado. A tabela 2.2 foi desenvolvida para a explicação dos cálculos.

capítulo 2 • 33
(xi – –x)
Alunos yi xi xi – –x yi – –y (yi – –y) (xi – –x)2
1 76 1,74 –0,04 –1,23 0,05 0,00

2 60 1,62 –0,16 –17,23 2,76 0,03

3 95 1,89 0,11 17,77 1,95 0,01

4 91 1,95 0,17 13,77 2,34 0,03

5 73 1,72 –0,06 –4,23 0,26 0,00

6 75 1,80 0,02 –2,23 –0,04 0,00

7 96 1,87 0,09 18,77 1,68 0,01

8 66 1,66 –0,12 –11,23 1,35 0,01

9 70 1,75 –0,03 –7,23 0,22 0,00

10 69 1,70 –0,08 –8,23 0,66 0,01

11 95 1,95 0,17 17,77 3,01 0,03

12 73 1,78 0,00 –4,23 0,00 0,00

13 62 1,64 –0,14 –15,23 2,14 0,02

14 56 1,55 –0,23 –21,23 4,89 0,05

15 86 1,88 0,10 8,77 0,87 0,01

16 86 1,90 0,12 8,77 1,05 0,01

17 62 1,59 –0,19 –15,23 2,90 0,04

18 98 1,88 0,10 20,77 2,07 0,01

19 83 1,88 0,10 5,77 0,57 0,01

20 60 1,68 –0,10 –17,23 1,73 0,01

21 82 1,90 0,12 4,77 0,57 0,01

22 85 1,84 0,06 7,77 0,46 0,00

Totais ∑ 1.699,00 39,17 – – 31,50 0,31

Média
77,23 1,78 – – – –
(χy)

Tabela 2.2  –  Equação de regressão pelo método dos mínimos quadrados.

capítulo 2 • 34
O cálculo de b1, isto é, da inclinação da reta, é da seguinte maneira:

b1 =
∑ ( χi − χ ) ( γ i − γ )
∑ ( χi − χ )
2

31, 50
b1 =
0, 31

b1 = 100, 99

Já o cálculo de b0, ou seja, da interseção, é da seguinte forma:

b0 = y − b1 χ

b0 = 77, 23 − 100, 99 X 1, 78

b0 = 102, 58

Dessa forma, pode-se chegar à equação de regressão estimada, ou seja:

y i = b0 + bi χi
y i = −102, 58 + 100, 99χ

Agora, caro aluno, convido para rever a equação no início do item 2.1. Viu só
como foi que chegamos naqueles valores? Foi uma regressão linear simples estima-
da por meio do método dos mínimos quadrados.
Uma importante consideração sobre a equação encontrada: como o valor de b1
(inclinação da reta) é positivo (100,99), indica que, conforme a altura aumenta, o
peso tende também a aumentar, ou seja, quanto mais alto for o aluno, maior será
o seu peso.
Vamos supor, por ora, que a equação de regressão estimada pelo método dos
mínimos quadrados descreve adequadamente a relação entre x e y. Assim, pode-
mos, por meio da equação, prever o valor de y para determinado valor de x. Ou
seja, se soubermos a altura de determinado aluno, podemos prever seu peso.

capítulo 2 • 35
Imagine que três novos alunos entraram na turma. Vamos prever seus pesos?
99 Aluno 1: 1,62 metro;
99 Aluno 2: 1,82 metro;
99 Aluno 3: 1,96 metro.

Substituindo os valores na equação, temos que:


99 Aluno 1: –102,58 + 100,99 x 1,62 = 61,02 kg
99 Aluno 2: –102,58 + 100,99 x 1,82 = 81,22 kg
99 Aluno 3: –102,58 + 100,99 x 1,96 = 95,36 kg

Perceba que os valores encontrados vão de acordo à constatação anteriormente


feita: conforme a altura aumenta, o peso também aumenta. Essa informação, to-
davia, é verdade apenas para a amostra estudada!
A figura 2.3 demonstra o gráfico da equação de regressão estimada. Note que
é o mesmo gráfico da figura 2.2 (diagrama de dispersão), porém, agora com uma
reta de tendência, nesse caso, crescente.

120

100
y = –102,58 + 100,99x
80
Peso (em kg)

60

40

20

0
1.4 1.5 1.6 1.7 1.8 1.9 2
Altura (em metros)

Figura 2.3  –  Gráfico da equação de regressão estimada.

capítulo 2 • 36
Ainda sobre o método dos mínimos quadrados, Anderson, Sweeney e Williams
(2007, p. 435) explicam que

O método dos mínimos quadrados fornece uma equação de regressão estimada que
minimiza a soma de desvios quadráticos entre os valores observados da variável depen-
dente yi e os valores estimados da variável depende ŷ. O critério dos mínimos quadrados
é usado para escolher a equação que fornece o melhor ajuste. Se algum outro critério
fosse usado, por exemplo, minimizar a soma dos desvios absolutos entre yi e ŷ, uma
equação diferente seria obtida. Na prática, o método dos mínimos quadrados é o mais
amplamente usado.

Regressão no Microsoft Excel®

1. Verificar se a ferramenta Análise de Dados, na aba Dados está ativa.

2. Se tiver, vá para a etapa 5, caso contrário, clicar na personalização da barra de


ferramentas e em Mais Comandos.

capítulo 2 • 37
3. Na tela que se abrir, clique em Suplementos e depois no botão Ir.

4. Selecione Ferramentas de Análise e depois clique em OK. Pronto, a ferra-


menta Análise de Dados será instalada.

capítulo 2 • 38
Agora você possui a ferramenta Análise de Dados, que permite fazermos a regres-
são, pelo método dos mínimos quadrados, via Excel®. Para o exemplo, a tabela 2.2 será
utilizada. Copie os valores para o Excel® e depois, na aba Dados, clique em Análise de
Dados e, na sequência, selecione o item Regressão, conforme figura 2.4.

Figura 2.4  –  Regressão no Excel (análise de dados).

Clicando em OK, uma nova tela irá surgir, como demonstrado na figura 2.5.
Preste muita atenção nessa tela!

Figura 2.5  –  Regressão no Excel.

A tela evidenciada na figura 2.5 é onde se deve colocar os dados para efetuar
a análise de regressão. O Intervalo Y de entrada é onde se colocam os dados da

capítulo 2 • 39
variável depende y e o Intervalo X de entrada é onde se colocam os dados das
variáveis independentes x.
Você deve checar o item Rótulos, caso, no momento de seleção dos dados, for
também selecionado os rótulos das variáveis. Por exemplo, ao selecionar a variável
Y, além dos dados, também deverá ser selecionada a célula C3 (figura 2.5).
Clique no ícone indicado na figura 2.6 para inserir os dados da variável Y. No
caso, são os dados referentes aos pesos dos alunos.

Figura 2.6  –  Regressão no Excel – inserindo as variáveis.

Selecione os dados da variável y (peso) como demonstrado na figura 2.7 e


aperte o botão Enter. O mesmo deve ser feito para a vaiável x (altura), ou seja,
selecionar os dados.

capítulo 2 • 40
Figura 2.7  –  Regressão no Excel – selecionando os dados.

Os valores inseridos ficarão de acordo com o que é apresentado na figura 2.8.


Como os rótulos foram selecionados, faça a checagem no item “rótulos”. Também
não deixe de checar o item “nível de confiança” – esse assunto será abordado no
próximo capítulo. Com tudo pronto, clique em OK.

Figura 2.8  –  Regressão no Excel – dados selecionados.

capítulo 2 • 41
O resultado da regressão irá aparecer em uma nova planilha, conforme elucida
a figura 2.9. Antes de prosseguirmos, é importante ressaltar que muito do conteú-
do do resultado da regressão será abordado no próximo capítulo. Então, por ora,
não se preocupe em interpretar todos os resultados.

Figura 2.9  –  Resultados da Regressão.

Os valores que nos interessam, nesse instante, são os coeficientes obtidos. A


interseção obteve um coeficiente de –102,58 enquanto que a variável “Altura x”
obteve um valor de coeficiente de 100,99! Ou seja, são os mesmos valores que
obtivemos quando calculamos de maneira manual. Bom, que tal fazer alguns exer-
cícios para treinar? Vamos lá!

ATIVIDADES
01. (Adaptado de Anderson, Sweeney e Williams (2007)). Foram coletados dados de uma
amostra de dez restaurantes de uma determinada franquia que atualmente é localizada pró-
xima aos campos universitários. A ideia é desenvolver, por meio da regressão linear simples,
um modelo que faça previsão de vendas para novas unidades do restaurante. Os dados estão
na tabela a seguir.

capítulo 2 • 42
POPULAÇÃO DE VENDAS TRIMESTRAIS
RESTAURANTE ESTUDANTES (EM MILHARES DE DÓLARES) Y
(EM MILHARES) X
1 2 58
2 6 105
3 8 88
4 8 118
5 12 117
6 16 137
7 20 157
8 20 169
9 22 149
10 26 202

Pede-se: desenvolva a equação de regressão estimada.

02. Conceitue:
a) Variável dependente; b) Variável independente.

03. Um professor de uma determinada universidade deseja elaborar uma equação de re-
gressão que verifique a relação entre as faltas e a nota. Além disso, com a equação estimada,
o professor poderá prever a nota do aluno de acordo com a quantidade de faltas. A amostra
foi coletada em uma sala de aula, conforme tabela a seguir:

ALUNO QUANTIDADE DE FALTAS NOTA


1 0 10,0
2 6 6,5
3 7 4,0
4 8 5,0
5 1 9,5
6 6 7,0
7 2 9,5
8 7 3,0
9 3 8,0

capítulo 2 • 43
ALUNO QUANTIDADE DE FALTAS NOTA
10 0 9,0
11 4 7,0
12 4 6,0
13 5 7,0
14 7 2,0
15 1 9,0

Pede-se: desenvolva a equação de regressão estimada.

REFLEXÃO
Neste capítulo você aprendeu sobre regressão, uma medida que busca mensurar e com-
preender a relação entre duas ou mais variáveis. Especificamente, você aprendeu sobre a
regressão linear simples, que foca no estudo de apenas duas variáveis, uma dependente e
outra independente. Você também aprendeu que o objetivo da regressão é desenvolver um
modelo preditivo que explica a relação entre as variáveis. Por fim, outra contribuição, foi a
apresentação do cálculo da regressão, tanto de maneira manual quanto de maneira compu-
tacional, por meio do Microsoft Excel®.

REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
BRUNI, A. L. SPSS Guia Prático para Pesquisadores. São Paulo: Atlas, 2012.
FÁVERO, L. P. et al. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de
Janeiro: Campus, 2009.

capítulo 2 • 44
3
Regressão linear
simples e regressão
linear múltipla
Regressão linear simples e regressão linear
múltipla

No capítulo anterior aprendemos como fazer a regressão linear simples. Neste,


vamos ver que há alguns pressupostos antes de simplesmente fazermos a regressão.
Graças a eles, podemos dar maior confiabilidade e robustez a nosso modelo. Além
disso, vamos também aprender como analisar uma regressão.
Também será ensinado o uso da regressão linear múltipla, isto é, quando te-
mos duas ou mais variáveis explicativas. Uma analista de seguro pode querer saber
a relação entre não somente a idade e a quantidade de sinistros, mas também
querer saber se outros fatores estão associados, como a experiência, histórico de
multas etc. A regressão linear múltipla nos permite verificar se existe tal associação.

OBJETIVOS
•  Aprender conceitos para aplicar e avaliar o poder preditivo da regressão;
•  Definir regressão linear múltipla;
•  Conhecer os problemas de heterocedasticidade e multicolinearidade;
•  Calcular regressão linear múltipla;
•  Compreender a aplicabilidade da técnica.

Coeficiente de determinação

No capítulo anterior você estudou a regressão linear simples e aprendeu a


desenvolver a equação de regressão estimada, por meio do método dos mínimos
quadrados. A ideia da equação estimada é aproximar a relação linear entre o x e
y. Todavia, uma indagação pertinente deve ser feita (o leitor atento deve ter per-
cebido): quão satisfatoriamente a equação de regressão estimada ajusta os dados?
Em outras palavras, o quão ajustado está o modelo desenvolvido em relação aos
valores observados.
Para responder a indagação feita, o coeficiente de determinação – também
conhecido por r² (r quadrado), no caso de duas variáveis ou R² (R quadrado),
quando se trata de regressão múltipla – será apresentado. Por meio dele, teremos

capítulo 3 • 46
uma medida que explica a eficiência dos ajustes da equação de regressão estimada.
Gujarati e Porter (2011, p. 95) dizem que o coeficiente de determinação mensura
a qualidade do ajustamento da linha de regressão ajustada a um conjunto de
dados, isto é, o quão “bem” uma linha de regressão amostral é adequada aos dados.
Gujarati e Porter (2011, p. 95) exemplificam o r² utilizando o diagrama de
Venn, conforme pode se observar na figura 3.1. O círculo Y representa a variação
da variável dependente y, enquanto que o círculo X representa a variação da va-
riável independente x. Nas figuras onde os círculos estão sobrepostos, uma área
sombreada indica o quanto a variação da variável y é explicada pela variação da
variável x. Quanto maior a sobreposição entre as figuras, ou seja, quanto maior a
área sombreada, maior é a explicação da variável y pela variável x. A área sombrea-
da seria o cálculo numérico representado por r².

Y X Y X Y X

(a) (b) (c)

Y X
Y=X
Y X

Figura 3.1  –  r² visto no diagrama de Venn. Gujarati e Porter, 2011, p. 95

Ainda de acordo com a figura 3.1, você já percebeu que, conforme as figuras
avançam de (a) para (f ), maior é o poder de explicação do r². Em (a), o r² é zero,
uma vez que nenhuma variação de y é explicada por x. Por outro lado, em (f ), a
variação de y é totalmente explicada por x, o que quer dizer, que r² é igual a 1.
Assim, pode-se deduzir que o r² varia de 0 a 1 – e quanto mais próximo de 1, mais
a variável dependente é explicada pelas variações da(s) variável(eis) x.
O coeficiente de determinação, portanto, demonstra uma medida da eficiên-
cia de ajuste da equação de regressão estimada. Em termos técnicos,

Em relação à i-ésima observação, a diferença entre o valor observado da variável depen-


dente, yi, e o valor estimado da variável dependente, y i, denomina-se i-ésimo resíduo.
O i-ésimo resíduo representa o erro de usarmos y i para estimar yi. Dessa forma, para a
i-ésima observação, o resíduo é yi – y i. A soma dos quadrados desses resíduos ou erros
é a quantidade que é minimizada pelo método dos mínimos quadrados. Essa quantidade,
também é conhecida como a soma dos quadrados dos erros (sum of squares due to
error), é designada por SSE (ANDERSON; SWEENEY; WILLIAM, 2007, p. 440).

capítulo 3 • 47
O valor da SSE evidencia uma medida do erro ao se usar a equação de re-
gressão estimada para estimar os valores da variável dependente. Assim, o SSE é a
soma dos quadrados dos erros:

( )
2
SSE = ∑ y i − y i

Além da SSE, também é necessário conhecer a soma total dos quadrados (total
sum of squares). Essa medida fornece o erro de usar o γ para estimar y. Assim, o
SST é:

( )
2
SSE = ∑ y i − y i

Por fim, para medir “quanto os valores de ŷ na reta de regressão estimada se


afastam de γ, outra soma de quadrados é calculada” (ANDERSON; SWEENEY;
WILLIAM, 2007, p. 442). Essa soma denomina-se soma dos quadrados da regres-
são (sum of squares due to regression), conhecido por SSR, que pode ser expressa:

( )
2
SSE = ∑ y i − y i

Uma outra forma de expressar a SSR, considerando o relacionamento com


SSE e SST é:

SSR=SST-SSE

Assim, o r² ou coeficiente de determinação será a razão entre o SSR e SST,


ou seja:
SSR
r2 =
SST

Outra maneira de expressar o r² seria:

(∑ y y )
2
i i
r2 =
(∑ y 2i )(∑ y 2i )

capítulo 3 • 48
Bom, que tal irmos para um exemplo prático a fim de compreendermos me-
lhor o cálculo envolvendo o coeficiente de determinação? Pois bem, vamos reto-
mar o exemplo apresentado no Capítulo 2, que diz respeito entre a relação do peso
e altura de alunos de uma determina sala de aula. A tabela 3.1 revela os valores
outrora mostrados.

PESO ALTURA
ALUNO I (EM KG) (EM METROS)
Yi Xi
1 76 1,74

2 60 1,62

3 95 1,89

4 91 1,95

5 73 1,72

6 75 1,80

7 96 1,87

8 66 1,66

9 70 1,75

10 69 1,70

11 95 1,95

12 73 1,78

13 62 1,64

14 56 1,55

15 86 1,88

16 86 1,90

17 62 1,59

18 98 1,88

19 83 1,88

20 60 1,68

21 82 1,90

22 85 1,84

Tabela 3.1  –  Dados sobre os pesos e alturas de alunos de uma sala de aula.

capítulo 3 • 49
Se o leitor se lembra, com base na tabela 1 foi calculada a equação de regres-
são estimada:

ŷi=-102,58+100,99x

Primeiramente é necessário calcular o SSE, que mede o erro de se usar a equa-


ção de regressão estimada ŷi = – 102,58+100,99x para prever o peso dos alunos.
Logo, vamos estimar tais pesos!

ALTURA
ALUNO PESO (EM KG) PESO PREVISTO
(EM METROS) ^
I yi y = – 102,58+100,99x
xi i

1 76 1,74 73,14
2 60 1,62 61,02
3 95 1,89 88,29
4 91 1,95 94,35
5 73 1,72 71,12
6 75 1,80 79,20
7 96 1,87 86,27
8 66 1,66 65,06
9 70 1,75 74,15
10 69 1,70 69,10
11 95 1,95 94,35
12 73 1,78 77,18
13 62 1,64 63,04
14 56 1,55 53,95
15 86 1,88 87,28
16 86 1,90 89,30
17 62 1,59 57,99
18 98 1,88 87,28
19 83 1,88 87,28

Tabela 3.2  –  Pesos previstos.

capítulo 3 • 50
A tabela 3.2 mostrou, com base na equação de regressão estimada, o peso
previsto para cada valor de x (altura). Por exemplo, o aluno 1, que pesa original-
mente 76 kg e que possui uma altura de 1,74 m, no modelo de regressão estimado,
sua altura prevista foi de 73,14 kg (73,14= –102,58+100,99×1,74). Logo, há um
erro de 2,86 kg (76 – 73,14). E o que o SSE mede? O erro de usar a equação de
regressão estimada! Mais, o SSE é a soma dos quadrados do erro. Compreendeu?
Devemos então calcular cada erro, achar o seu quadrado e somar. Esse será o SSE,
conforme exposto na tabela 3.3.

PESO ALTURA ERRO ERRO2


ALUNO (EM KG) (EM METROS) PESO ŷi = –
i yi xi 102,58+100,99x yi– ^y i yi – ^y i
1 76 1,74 73,14 2,86 8,16

2 60 1,62 61,02 –1,02 1,05


3 95 1,89 88,29 6,71 45,01
4 91 1,95 94,35 –3,35 11,23
5 73 1,72 71,12 1,88 3,52
6 75 1,80 79,20 –4,20 17,66
7 96 1,87 86,27 9,73 94,65
8 66 1,66 65,06 0,94 0,88
9 70 1,75 74,15 –4,15 17,24
10 69 1,70 69,10 –0,10 0,01
11 95 1,95 94,35 0,65 0,42
12 73 1,78 77,18 –4,18 17,49
13 62 1,64 63,04 –1,04 1,09
14 56 1,55 53,95 2,05 4,18
15 86 1,88 87,28 –1,28 1,64
16 86 1,90 89,30 –3,30 10,90
17 62 1,59 57,99 4,01 16,05
18 98 1,88 87,28 10,72 114,89
19 83 1,88 87,28 –4,28 18,33
20 60 1,68 67,08 –7,08 50,17
21 82 1,90 89,30 –7,30 53,30
22 85 1,84 83,24 1,76 3,09
SSE = 490,97

Tabela 3.3  –  Cálculo do SSE.

capítulo 3 • 51
A soma da coluna do Erro² (Erro elevado ao quadrado) será o SSE. O so-
matório é, portanto, SSE = 490,97. Uma vez calculado o SSE, procede-se com a
mensuração do SST, que, como já exposto, mensura o erro envolvido no uso da
média (γ ) para estimar y. Os cálculos são apresentados na tabela 3.4.

PESO ALTURA
ALUNO DESVIO DESVIO²
(EM KG) (EM METROS)
I Yi – Y (Yi – Y)2
Yi Xi
1 76 1,74 –1,23 1,51

2 60 1,62 –17,23 296,81

3 95 1,89 17,77 315,84

4 91 1,95 13,77 189,67

5 73 1,72 –4,23 17,88

6 75 1,80 –2,23 4,96

7 96 1,87 18,77 352,38

8 66 1,66 –11,23 126,07

9 70 1,75 –7,23 52,25

10 69 1,70 –8,23 67,70

11 95 1,95 17,77 315,84

12 73 1,78 –4,23 17,88

13 62 1,64 –15,23 231,90

14 56 1,55 –21,23 450,63

15 86 1,88 8,77 76,95

16 86 1,90 8,77 76,95

17 62 1,59 –15,23 231,90

18 98 1,88 20,77 431,47

19 83 1,88 5,77 33,31

20 60 1,68 –17,23 296,81

21 82 1,90 4,77 22,77

22 85 1,84 7,77 60,40

SST = 3.671,86

Tabela 3.4  –  Cálculo do SSE.

capítulo 3 • 52
No cálculo do SST, o desvio, diferença entre o valor de y e sua média, deve
ser calculado. A média é simplesmente calculada sobre a variável yi – que, aliás, já
foi calculado no capítulo 2. A média da variável yi é 77,23. Desse modo, o desvio
encontrado para o aluno 1, é a diferença entre seu peso original, 76, em relação à
média, 77,23, perfazendo uma diferença de –1,23 (76 – 77,23).
Na sequência, dado que a SST é a soma total dos quadrados, basta elevar
ao quadrado cada desvio encontrado: (–1,23)² = 1,51. A soma da coluna Desvio²
será o SST, que, neste exemplo, foi o valor de 3.671,86.
Uma que o SSE e o SST foram encontrados, e sabendo que o SSR é a
diferença entre o SST e SSE, temos que:

SSR=SST-SSE

SSR=3.671,86-490,97

SSR=3.180,90

Agora sim podemos, finalmente, encontrar o r²:


SSR
r2 =
SST

3.180, 90
r2 =
3.671, 86

r2 = 0,8662

O valor de r² quadrado encontrado pode ser também interpretado, conside-


rando como uma porcentagem (86,62%), a porcentagem que a variação da variá-
vel x explica das variações em y. Em outras palavras, 86,62% da variabilidade dos
pesos podem ser explicados por meio da relação linear existente entre a altura dos
estudantes e seus respectivos pesos.
Leitor, na prática, o cálculo do R-quadrado é feito com a utilização de soft-
wares, uma vez, quando a regressão tem mais de uma variável independente, o
cálculo se torna complexo. No capítulo 2 estudamos como elaborar uma regressão
via Excel. Caso não se lembre, observe a figura 3.2. Viu só? O R-quadrado é dado!
Observe que é o mesmo valor encontrado.

capítulo 3 • 53
Figura 3.2  –  R² no Excel

Regressão linear múltipla: Introdução

Antes de apresentarmos o modelo de regressão linear múltipla, alguns proble-


mas precisam ser apresentados para que a regressão funcione corretamente. Há
dois principais problemas que devem ser avaliados quando empregado a regressão
linear múltipla: heterocedasticidade e multicolinearidade.
©© SCANRAIL1 | SHUTTERSTOCK.COM

O problema da heterocedasticidade

Na equação de regressão há o termo de erro, lembra-se? Ele pode assumir


valores positivos ou negativos. Fávero et al. (2009, p. 357) destaca que “alguns

capítulo 3 • 54
resíduos podem apresentar correlação com uma (ou até mais) variável explicativa
e, desse modo, podem variar em função desta variável”.
Em outras palavras, tal erro está, na maioria das vezes, associado aos outliers.
Um outlier é uma variável de valor atípico, de grandeza muito maior em relação
às demais. Fávero et al. (2009, p. 358) cita que em pesquisas de contabilidade e
finanças, é comum existir grandes diferenças nos valores observados em determi-
nada variável.
Por exemplo, o tamanho do ativo e a receita de vendas. São valores que vão
ter muita discrepância, uma vez que existem empresas com receita muito grande
e outras com receita muito pequena; o mesmo valo para o tamanho do ativo: há
empresas enormes e empresas pequenas.
Uma forma de mitigar o problema de heterocedasticidade é escalonando as
variáveis ou até mesmo eliminando os outliers. No caso da receita de vendas, é
comum, nos estudos da área, escalonar pelo ativo total, ou seja, dividir a receita
de vendas pelo ativo da empresa. Desse modo, a variável receita fica padronizada
pelo ativo total da companhia, evitando discrepância. Se a variável de interesse for
o ativo total, é comum, nas pesquisas, usar tal variável pelo seu logaritmo natural.

O problema da multicolinearidade

Fávero et al. (2009, p. 359) argumenta que “muitas das variáveis explicativas a
serem consideradas em um modelo podem apresentar comportamentos semelhan-
tes, ou seja, entre algumas delas pode existir correlação elevada”.
Como algumas variáveis podem ser altamente correlacionadas, quando da
análise da regressão múltipla, o problema de multicolinearidade pode surgir.
Como então verificar se há esse tipo de problema entre as variáveis? Basta fazer a
correlação entre elas, conforme aprendido no capítulo 1. Se houver alta correlação
entre as variáveis explicativas, então alguma delas precisará ser removida. Pode-se
ainda empregar a técnica de Análise Fatorial no conjunto de variáveis altamen-
te correlacionadas.
Kennedy (2003) apud Fávero et al. (2009, p. 359) destacam que “problemas
de multicolinearidade não dependem, de fato, de relação teórica ou linear entre as
variáveis explicativas, mas sim da relação linear dos dados que estão sendo utiliza-
dos, ou seja, o problema pode estar na amostra”.
Você pode, por exemplo, querer desenvolver uma regressão linear múltipla
para verificar se há relação entre o retorno da ação e os indicadores de liquidez das

capítulo 3 • 55
empresas. Perceba que é bem provável que haverá alta relação entre os indicadores
de liquidez corrente, seca e imediata, por exemplo. Um único indicador de liqui-
dez, nesse caso, bastaria no modelo e evitaria o problema exposto.

Análise de regressão linear múltipla

Diferentemente da regressão linear simples, quando existe apenas uma variá-


vel explicativa, a regressão linear múltipla permite que mais variáveis sejam adicio-
nadas ao modelo para a explicação da variável dependente. O modelo de regressão
múltipla pode ser expresso da seguinte forma:

y = β0 + β1 χ1 + β2 χ2 +  + βp χp + ∈

Em que y é a variável dependente, x1, x2, ..., xp são as variáveis independentes,


β0, β1, β2, ..., βp são os parâmetros e β é o termo do erro. A equação de regressão
múltipla estimada é, portanto:

ŷ = β0 + β1 χ1 + β2 χ2 +  + bp χp

Em que b0, b1, b2, ..., bp são as estimativas de β0, β1, β2, ..., βp e ŷ é o valor
estimado da variável dependente.
Para estimar a regressão múltipla, o Método dos Mínimos Quadrados
(MQO) também será empregado. O MQO usa dados amostrais (b0, b1, b2, ..., bp)
para generalizar para a população (β0, β1, β2, ..., βp).
Na regressão linear simples, utilizamos cálculos manuais para estimar os va-
lores de b0 e b1. Todavia, na regressão linear múltipla, os cálculos se tornam com-
plexos e inviáveis para o escopo deste livro e assunto. Dessa maneira, os cálculos
serão apresentados com o auxílio do Microsoft Excel®. O exemplo a ser utilizado
tem base em Anderson, Sweeney e William (2007, p. 490).
O exemplo aborda uma empresa de transporte rodoviário que busca otimi-
zar melhores programas de trabalho. Os gerentes da empresa acreditavam que o
tempo total diários das viagens estaria relacionado com o número de milhas per-
corridas ao fazerem as entregas diárias. Outra variável foi acrescida, o número de
entregas. A tabela 3.5 demonstra os dados.

capítulo 3 • 56
TAREFA DE X1 = MILHAS X2 = NÚMERO DE Y = TEMPO DE
ENTREGA PERCORRIDAS ENTREGAS VIAGEM (HORAS)
1 100 4 9,3
2 50 3 4,8
3 100 4 8,9
4 100 2 6,5
5 50 2 4,2
6 80 2 6,2
7 75 3 7,4
8 65 4 6,0
9 90 3 7,6
10 90 2 6,1

Tabela 3.5  –  Dados sobre os as milhas, entregas e tempo de viagem. Anderson, Sweeney
e William (2007, p. 490).

Anderson, Sweeney e William (2007, p. 492) chamam a atenção sobre a aná-


lise da regressão linear múltipla:

Na regressão linear simples, interpretamos b1 como uma estimativa da alteração em y


correspondente à alteração de uma unidade na variável independente. Na análise de
regressão múltipla, a interpretação deve ser bastante modificada. Ou seja, na análise de
regressão múltipla, interpretamos cada coeficiente da regressão da seguinte maneira:
b1 representa uma estimativa da alteração em y correspondente à alteração de uma
unidade em xi quando todas as outras variáveis independentes se mantêm constantes
(ANDERSON; SWEENEY; WILLIAM, 2007, p. 440).

Antes de realizarmos o cálculo da regressão, que tal antes efetuarmos as checa-


gens sobre os problemas de heterocedasticidade e multicolinearidade? Embora
softwares avançados de estatísticas façam tais testes, em nosso caso, não iremos re-
correr para tal. As variáveis aparentemente não demonstram outliers – um gráfico
do tipo boxplot poderia nos ajudar. Vamos então tratar que não há heterocedasti-
cidade nas variáveis.

capítulo 3 • 57
A respeito da multicolinearidade, um teste de correlação ajuda a verificar.
Aplicando a função correl do Microsoft Excel®, que executa a correlação entre
duas variáveis, nas variáveis explicativas x1 e x2, obtemos o valor de 0,1620, evi-
denciando uma baixa correlação positiva. Logo, deduzimos que não há multico-
linearidade dos dados.

Figura 3.3  –  Correlação no Excel.

Desse modo, podemos prosseguir com a regressão sem qualquer tipo de even-
tuais problemas.
No Excel, utilizando os mesmos dados. Na aba Dados, clique em Análise de
Dados e, na sequência, selecione o item Regressão, conforme figura 3.4.

Figura 3.4  –  Regressão múltipla no Excel (Análise de Dados).

capítulo 3 • 58
Clicando em OK, uma nova tela irá surgir, como demonstrado na figura 3.5.
É a mesma tela demonstrada no capítulo 2 – nada mudou até aqui!

Figura 3.5  –  Regressão múltipla no Excel.

Clique no ícone indicado na figura 3.6 para inserir os dados da variável Y. No


caso, são os dados referentes ao Tempo de Viagem.

Figura 3.6  –  Regressão múltipla no Excel – inserindo as variáveis.

capítulo 3 • 59
Selecione os dados da variável y (Tempo de Viagem) como demonstrado na
figura 3.7 e aperte o botão Enter.

Figura 3.7  –  Regressão Múltipla no Excel – selecionando os dados da variável y.

O mesmo deve ser feito paras as vaiáveis x1 e x2. Isso mesmo. Ao invés de se-
lecionar apenas uma variável, você deverá selecionar todas as demais! Nesse caso,
temos duas variáveis, então seleciona Milhas Percorridas e Número de Entregas,
como mostrado na figura 3.8.

Figura 3.8  –  Regressão Múltipla no Excel – selecionando os dados das variáveis x.

Os valores inseridos ficarão de acordo com o que é apresentado na figura 3.9.


Como os rótulos foram selecionados, faça a checagem no item “rótulos”. Também
não deixe de checar o item “nível de confiança”. Com tudo pronto, clique em OK.

capítulo 3 • 60
Figura 3.9  –  Regressão Múltipla no Excel – dados selecionados.

O resultado da regressão irá aparecer em uma nova planilha, de acordo com o


mostrado na figura 3.10.

Figura 3.10  –  Resultados da regressão múltipla.

Caro leitor, muita atenção é necessária para a análise da figura 3.11. Ela nos
traz informações importantíssimas a respeito do modelo de regressão encontrado.
Vamos primeiramente ao coeficiente de determinação, o R² (R-Quadrado). O
valor encontrado de 0,9038 releva o poder de explicação do modelo. Ou melhor,
mostra o quanto da variação em y (variável dependente) é explicada pelas varia-
ções nas variáveis x (independentes) – é um altíssimo poder explicativo!

capítulo 3 • 61
Além disso, embora não abordado, logo na sequência vem a informação do
R-quadrado ajustado. Ela é uma alternativa ao R² tradicional, pois faz um ajuste
ao modelo levando em consideração a quantidade de variáveis e observação. Na
prática, ele é mais utilizado que o R² e sempre terá seu valor um pouco reduzido.
O R² ajustado revelou um valor de 0,8763, ainda assim, uma excelente explicação.
Prosseguindo, na tabela seguinte, chamada ANOVA, o que nos importa, para
esse tipo de análise, é o F de significação. Esse teste é usado para testar se a regres-
são é significativa. Ele faz um teste global visando testar uma relação entre as va-
riáveis independentes com a dependente. Para a regressão ser significativa, o Teste
F precisa fornecer um valor menor que 0,01. Observe que o valor encontrado de
0,00027624 é menor que 0,01, portanto o modelo é significativo!
Outra análise importante diz respeito ao Teste T (Stat t). Ele vai testar cada
variável de forma independente para assegurar que haja uma relação estatisti-
camente significativa entre as variáveis. Devemos observar a coluna p-valor da
figura 3.11. O valor para a interseção não importa, mas sim o das variáveis x1 e
x2. Assim como no Teste F, o valor para o Teste T também ter que ser menor que
0,01 para ser significativo. Em verdade, como há vários níveis de significância, o
usual é que os valores possam ser < 0,10, < 0,05 ou < 0,01. Quanto menor, mais
significativo é!
Pois bem, para a variável x1, o p-valor (0,000453) < 0,01, portanto, é signifi-
cativa. A variável x2 tem o p-valor (0,004157) também é menor que 0,01 e tam-
bém é significativa. Percebemos então que tanto o teste global (Teste F) quanto o
teste individual (Teste T) são significativos. É comum, caro leitor, que em modelos
de muitas variáveis, uma outra não ser significativa. Não há problema substan-
ciais, conquanto que o Teste F e o R² sejam satisfatórios.
Por fim, vamos estabelecer a nossa equação estimada da regressão li-
near múltipla:

ŷ = – 0,8687 + 0,0611χ1 + 0,9234χ2

Nota-se que há uma associação positiva entre as milhas percorridas e o núme-


ro de entregas com o tempo de viagem. Pronto, agora, além de saber calcular a
regressão linear múltipla, você também sabe analisa-la.

capítulo 3 • 62
ATIVIDADES
01. Um analista financeiro deseja saber se há relação entre o custo de capital próprio da
empresa (Ke) e as variáveis Liquidez Corrente (LC), Endividamento Geral (EG) e Retorno
sobre o Ativo (ROA). Ele coletou uma amostra aleatória de 10 empresas em um determinado
período. Os resultados estão na tabela a seguir:

EMPRESAS KE (Y) LC (X1) EG (X2) ROA (X3)


1 16,20% 1,3 0,6 9%
2 15,40% 2,1 0,3 6%
3 10,00% 0,9 0,5 3%
4 19,80% 1,8 0,3 10%
5 18,50% 1,0 0,5 8%
6 11,00% 1,8 0,5 6%
7 12,60% 1,5 0,4 8%
8 8,50% 0,8 0,4 8%
9 9,40% 1,1 0,6 5%
10 15,00% 1,9 0,2 5%

Pede-se:
a) Verifique se há multicolinearidade dos dados.
b) Faça a regressão linear múltipla.
c) Qual o R²? O modelo é bom?
d) O modelo de regressão é significativo?
e) Elabore a equação estimada da regressão múltipla.

REFLEXÃO
Neste capítulo você se aprofundou nos conceitos de regressão linear simples, aprenden-
do sobre o coeficiente de determinação. Também aprendeu sobre a regressão linear múltipla,
começando pelos problemas de heterocedasticidade e multicolinearidade. Na sequência, um
exemplo prático da aplicação da técnica foi exposto, utilizando duas variáveis explicativas. Foi
ensinado a analisar uma regressão: R-quadrado, R-quadrado ajustado, Teste de Significância

capítulo 3 • 63
(Teste F) e Teste T. Como o modelo de regressão linear múltipla envolve cálculos complexos,
o Microsoft Excel® foi utilizado para nos auxiliar.

REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
FÁVERO, L. P. et al. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de
Janeiro: Campus, 2009.
GUJARATI, D. N.; PORTER, D. C. Econometria Básica. 5. ed. Porto Alegre: AMGH Editora LTDA,
2011.

capítulo 3 • 64
4
Estimação por
intervalo
Estimação por intervalo
Neste capítulo vamos aprender a fazer a estimação por intervalo. Antes, con-
tudo, uma discussão aprofundada sobre a distribuição normal é feita. Vamos rever
como calcular a variável padronizada Z e como encontrar a área sob a curva, isto
é, a probabilidade.
Após essa discussão inicial, a estimação por intervalo será estudada. Iremos
aprender como estimar a média de uma população quando o desvio padrão é
conhecido e também no caso de ele ser desconhecido. Nesse caso, importantes
conceitos, como o intervalo de confiança e a margem de erro serão determinados.

OBJETIVOS
•  Conhecer estimativas pontuais e intervalores;
•  Relembrar e/ou conhecer a distribuição normal;
•  Aprender a calcular o valor padronizado Z;
•  Saber encontrar a área sob a curva de uma distribuição normal;
•  Estimar a média de uma população quando o desvio padrão é conhecido;
•  Estimar a média de uma população quando o desvio padrão é desconhecido.

Introdução

Você já deve ter escutado ou lido no noticiário sobre pesquisas de intenção de


voto. Provavelmente ouviu/leu algo como “O candidato A tem 20% das intenções
de votos, com margem de erro de 3%, para menos ou para mais”. Nessa frase
que você acabou de ler, há dois importantes conceitos da estatística: estimação e
margem de erro.
Para Stevenson (2001, p. 194), a estimação é o “processo que consiste em uti-
lizar dados amostrais para estimar os valores de parâmetros populacionais desco-
nhecidos”. Isso quer dizer que é possível estimar os parâmetros de uma população

capítulo 4 • 66
a partir de uma amostra aleatória. Os principais parâmetros, você leitor já conhe-
ce: média e desvio padrão.
A margem de erro, por sua vez, demonstra a quantidade de erro de uma
amostral aleatória que está incluída nos resultados da pesquisa. Em outras pa-
lavras, expressa a probabilidade de o resultado ser próximo aos 100% se toda a
população fosse pesquisada e não somente uma amostra.

Estimativas pontuais e intervalares

Como se sabe, as estatísticas amostrais funcionam como parâmetros para es-


timar a população. Stevenson (2001, p. 194) comenta que a média amostral, por
exemplo, é usada como estimativa de determinada média populacional; para o
desvio padrão, o raciocínio é o mesmo, isto é, o desvio padrão amostral serve de
estimada para o desvio padrão populacional; e assim por diante.
Esse tipo de estimativa é conhecida como estimativa pontual, já que uma
única estimada é gerada para o parâmetro. Stevenson (2001, p. 195), no entanto,
chama a atenção para a amostragem aleatória, visto que ela apresenta tendência
a gerar amostras em que a média amostral seja diferente da média populacional,
mesmo que ambos os valores sejam próximos. Dado que existe tal variabilidade,
existe a estimativa intervalar. Nessa estimativa, há a figura de um intervalo para
os valores do parâmetro populacional.

ATENÇÃO
Estimativa pontual é a estimativa única de um parâmetro populacional.
Estimativa intervalar dá um intervalo de valores possíveis, no qual se admite esteja o
parâmetro populacional.
(STEVENSON, 2001, p. 195)

capítulo 4 • 67
A tabela 4.1 mostra exemplos de estimativas, tanto do tipo pontual quanto
do tipo intervalar.

TIPO DE ESTIMATIVA
PARÂMETRO PONTUAL INTERVALAR
POPULACIONAL
1. O americano médio conso- 1. O consumo médio de carne
me 40 lb de carne por ano. no país está entre 30 e 50 lb
2. Um carro típico de 6 cilin- por pessoa por ano.
MÉDIA dros faz 15 milhas por galão. 2. Um carro típico de 6 cilin-
dros faz entre 12 e 18 milhas
por galão.
1. Vinte e dois por cento da po- 1. Entre 18% e 26% da po-
pulação se opõe a um aumento pulação há oposição a um au-
do limite de velocidade. mento do limite da velocidade.
PROPORÇÃO 2. A proporção de estudantes 2. A proporção de estudantes
fumantes é de 43%. fumantes está entre 37% e
49%.
1. O desvio padrão da quilome- 1. O desvio padrão da quilome-
tragem de um pneu radial é de tragem de um pneu radial está
2.000 milhas. entre 1.500 e 2.500 milhas.
DESVIO PADRÃO 2. O desvio padrão da tempe- 2. O desvio padrão da tempera-
ratura numa piscina não aque- tura numa piscina não aqueci-
cida é da ordem de 5º F. da está entre 2º F e 8º F.

Tabela 4.1  –  Exemplos de estimativas. Stevenson (2001, p. 195).

Após essa introdução, o leitor é capaz de distinguir estimação pontual da in-


tervalar. O objetivo deste capítulo é o estudo da estimativa intervalar.

Uma vez que não se pode esperar que um estimador por ponto produza o valor exato
do parâmetro populacional, uma estimação por intervalo frequentemente é calculada
adicionando-se e subtraindo-se um valor, denominado margem de erro, ao estimador
por ponto (ANDERSON; SWEENEY; WILLIAMS, 2011, P. 272).

A estimação por intervalo é calculada, de forma geral:

Estimação por ponto ∓ Margem de erro

capítulo 4 • 68
Anderson, Sweeney e Williams (2011, p. 272) explicam que a finalidade de
uma estimação por intervalo “é fornecer informações sobre quão próximo o es-
timador por ponto, produzido pela amostra, está do valor do parâmetro popula-
cional. Por exemplo, a forma geral de uma estimação por intervalo de uma média
populacional é:

χ ∓ margem de erro

A forma geral da estimação por intervalo de uma proporção populacional, por


sua vez, é:

ρ ∓ margem de erro

Nessa mesma linha de raciocínio, Stevenson (2001, p. 198) alerta que “à me-
dida que aumenta o tamanho amostral, o desvio padrão da distribuição amostral
diminui”. Isso significa dizer que grandes amostras tendem a produzir médias
amostrais mais próximos da média e, portanto, demonstrando uma menor varia-
bilidade da distribuição.
Para se estimar a média de uma população, primeiramente é necessário
saber se o desvio padrão populacional é conhecido ou não. Todavia, antes de avan-
çarmos nessa discussão, uma pequena revisão sobre distribuição normal deve
ser feita.

Distribuição normal

Este tópico tem o intuito apenas de rever a respeito da distribuição normal


de probabilidade. Não é objetivo o aprofundamento no tema, haja vista que ele é
abordado em disciplinas básicas sobre estatística. Também é válido mencionar que
há outros tipos de distribuição, como a binomial e a de Poisson.
A distribuição normal é a distribuição teórica de probabilidade mais emprega-
da e difundida (BRUNI, 2011, p. 138). Ela é uma distribuição contínua e, dado
suas características, apresenta um formato de sino simétrico em relação à média.
A figura 4.1 demonstra a distribuição de frequência de observações, isto é, a dis-
tribuição normal.

capítulo 4 • 69
140 165,6

Figura 4.1  –  Distribuição normal. Disponível em: <https://www.shutterstock.com/pt/ima-


ge-vector/bell-shape-graph-normal-distribution-404895409>. Acesso em: out. 2017.

Quando há muitas observações de um fenômeno, é esperado que ele passe a ter


uma destruição de frequência semelhante ao apresentado na figura 4.1. Stevenson
(2001, p. 137) fala sobre uma característica da distribuição normal: ela é específica
para os parâmetros média e desvio padrão, isto é, “existe uma única distribuição
normal para cada combinação de uma média e um desvio padrão. Diferentes com-
binações de média e desvio padrão originam curvas normais distintas”.
A respeito da distribuição normal, Stevenson (2001, p. 139) elenca as seguin-
tes características, resumidamente:

1. A curva normal tem forma de sino.


2. É simétrica em relação à média.
3. Prolonga-se de –∞ a +∞.
4. Cada distribuição normal fica completamente especificada por sua média e seu
desvio padrão; há uma distribuição normal distinta para cada combinação de média e
desvio padrão.
5. A área total sob a curva normal é considerada como 100%.
6. A área sob a curva entre dois pontos é a probabilidade de uma variável normalmen-
te distribuída tomar um valor entre esses pontos.
7. Como há um número ilimitado de valores no intervalo de –∞ a +∞, a probabilidade
de uma variável aleatória distribuída normalmente tomar exatamente determinado valor
é aproximadamente zero. Assim, as probabilidades se referem a intervalos de valores.
8. A área sob a curva entre a média e um ponto arbitrário é função do número de
desvios padrões entre a média e aquele ponto.

Stevenson (2001, p. 139)

capítulo 4 • 70
Bruni (2011, p. 138) complementa a discussão alegando que os conceitos à
respeito da distribuição normal são simples: “em torno na média, valor central,
registra-se alta concentração de frequências ou probabilidade maior de ocorrência.
À medida que nos afastamos da média, as frequências são reduzidas”.
Por exemplo, imagine que o peso de um grupo de pessoas seja normalmente
distribuído. Considerando uma média de 74 kg, pode-se inferir que pessoas deste
grupo, com peso entre 72 e 76 kg, estão altamente concentradas em torno da mé-
dia. Por outro lado, a chance de encontrar pessoas com 120 kg é distante.

Distribuição normal padronizada

Há diversas distribuições possíveis, uma para cada combinação de média e


desvio padrão. Desse modo, seria inviável elaborar tabelas para atender a cada uma
dessas distribuições. Por consequência, com o intuito de minimizar o problema,
a distribuição normal padronizada foi desenvolvida. Basta considerar que a área
total sob a curva é de 100%. Na figura 4.2 é possível observar a concentração da
distribuição sob a curva.
©© IAMNEE | SHUTTERSTOCK.COM

Figura 4.2  –  Concentração da Distribuição Normal.

capítulo 4 • 71
Ainda de acordo com a figura 4.2, nota-se que, considerando que determi-
nada variável tenha distribuição normal, aproximadamente 68% de seus valores
estarão no intervalo de um desvio padrão da média, para cada lado (– a +).
Considerando dois desvios padrões a contar da média (–2 a +2), cerca de
95% dos valores estarão neste intervalo. E, finalmente, dentro do intervalo de
três desvios padrões a contar da média (–3 a +3), cerca de 99,7% dos valores
estarão contidos. O importante é saber que essa distribuição é válida para todas as
distribuições normais.

Tabela padronizada

A tabela padronizada tem como objetivo facilitar o cálculo das áreas e probabi-
lidades sob a curva da distribuição normal, uma vez que cálculos complexos preci-
sariam ser realizados para tal obtenção. Em vez de utilizar médias e desvios padrões
distintos, em seus lugares uma variável padronizada, chamada de Z, é calculada.
Para Bruni, (2011, p. 140), a variável padronizada Z “apresenta o afastamento
em desvios padrões de um valor da variável original em relação à média. O uso
de Z permite calcular probabilidades com o auxílio de tabelas padronizadas, que
tornam os cálculos mais simples”.
O valor de Z é apresentado, em sua forma algébrica, como se segue:
χ−µ
Z=
σ

Em que:
Z é a variável padronizada (número de desvios padrões a contar da média);
x é o valor arbitrário;
µ é a média da distribuição normal;
 é o desvio padrão.

Veja o seguinte exemplo retirado de Bruni (2011):

Sabe-se que os pontos obtidos por diferentes candidatos em um concurso


público seguem uma distribuição aproximadamente normal, com média igual a
140 e desvio padrão igual a 20 pontos. Caso um pesquisador desejasse obter a pro-
babilidade de um candidato escolhido ao acaso apresentar uma pontuação entre
140 e 165,60 pontos, poderia usar os conceitos associados à distribuição normal.

capítulo 4 • 72
O primeiro passo, sugerido didaticamente, consiste na representação sob a curva
da área desejada, conforme figura 4.3, 140 é igual ao valor da média e deve ser
representado no centro da curva simétrica. O valor 165,60 é superior à média e
deve ser representado à direita.

140 165,6

Figura 4.3  –  Probabilidade entre 140 e 165,6. Bruni (2011, p. 140).

Continuando com o exemplo, a maneira de se conseguir encontrar a área


desejada é utilizando a equação algébrica do valor de Z, ou seja:
χ−µ
Z=
σ

Como temos todas as variáveis necessárias (média, desvio padrão e valor arbi-
trário), podemos encontrar o valor de Z. Basta substituir na equação:

Para x = 140:
140 − 140
Z=
20

Z=0

Para x igual à própria média, o valor encontrado sempre será zero. Assim, não
é necessário proceder com o cálculo de x igual à própria média.

Para x = 165,60

165, 60 − 140
Z=
20

Z=1,28

capítulo 4 • 73
Foi encontrado o valor de 1,28 para Z. Esse valor, por sua vez, deverá ser
empregado para encontrar, na tabela padronizada, a área sob a curva, nesse caso,
a área entre 140 e 165,60, que justamente será a probabilidade de um candidato
ter obtido uma pontuação entre esses dois valores. A tabela 4.2 demonstra um
tipo de tabela padronizada. Podem existir outras. Nesta apostila, a tabela adotada
é aquela que mostra a metade direita da distribuição, isto é, o valor da média ()
a um dado valor x.

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359

0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753

0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141

0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517

0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879

0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224

0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549

0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852

0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133

0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830

1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015

1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177

1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319

1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441

1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545

1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633

1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817

2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857

2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890

2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916

2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936

capítulo 4 • 74
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952

2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964

2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974

2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981

2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986

3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990

3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993

3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995

3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997

3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998

3,5 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998 0,4998

Tabela 4.2  –  Áreas para a distribuição normal padronizada.

Note que na tabela 4.2, os valores da parte inteira e da primeira decimal de um


número (0,0, 0,1, 0,2... 1,2, 1,3, 1,4, por exemplo) integram a coluna à esquerda.
Os valores do segundo decimal de um número (0,00, 0,01, 0,02, por exemplo)
integram a linha horizontal, no topo da tabela. Os valores contidos na tabela são
as áreas que, por sua vez, são as probabilidades.
Voltemos ao nosso exemplo, no qual encontramos o valor de 1,28 para Z.
Qual a área sob a curva entre a média 0 e z igual a 1,28? Observe a tabela 4.3. Para
encontrarmos o valor, primeiro precisamos encontrar a parte inteira e o primeiro
decimal do número 1,28, que é 1,2. Olhe a coluna à esquerda e o encontraremos.
A segunda parte envolve achar o segundo decimal do número 1,28, que é 0,08.
Olhando a linha no topo tabela, é fácil de verificar.

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830

1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015

1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177

1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319

Tabela 4.3  –  Área sob a curva para Z igual a 1,28. Bruni (2011). Adaptado.

capítulo 4 • 75
Logo, o cruzamento da linha com a coluna é justamente o número 1,28. O
valor da área, por sua vez, é o 0,3997 ou 39,97%. Isso quer dizer que a probabili-
dade de encontrar um candidato com pontuação entre 140 e 165,6 pontos é igual
a 39,97%.
Prosseguindo com o exemplo de Bruni (2011), imagine agora que o pesqui-
sador queira saber qual a probabilidade de encontrar um candidato que fez uma
pontuação entre 127,4 e 140 pontos. A figura 4.4 ilustra a área sob a curva.

127,4 140

Figura 4.4  –  Probabilidade entre 127,4 e 140. Bruni (2011, p. 142).

Considerando então x igual a 127,4, o valor de Z é:


χ − µ 127, 4 − 140
Z= =
σ 20

Z = – 0,63

Encontramos um valor de –0,63 para Z. Se o leitor se atentar à tabela 4.2,


irá perceber que há somente valores positivos. Contudo, se também lembrar que
uma das características da distribuição é de que ela é simétrica em relação à média,
então se pode concluir que as mesmas probabilidades encontradas para valores
positivos se equivalem aos valores negativos. Assim, a área para Z correspondente
a –0,63 é igual à área quando Z é igual a 0,63.
Assim, devemos encontrar o cruzamento do valor 0,60 (inteiro e primeiro de-
cimal) na coluna com 0,03 (segundo decimal) na linha para obter o valor da área
que corresponde a 0,63. A tabela 4.4 mostra tal cruzamento.

capítulo 4 • 76
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224

0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549

0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852

0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133

Tabela 4.4  –  Área sob a curva para Z igual a 0,63. Bruni (2011). Adaptado.

A área encontrada na tabela corresponde a 0,2357 ou 23,57%. Isso equivale


dizer que a probabilidade de encontrar um candidato que tirou nota entre 127,4
e 140 é de 23,57%.
Agora vamos supor que o pesquisador deseja obter a probabilidade de um can-
didato qualquer ter feito uma pontuação entre 117,2 e 157 pontos. Perceba, leitor,
que um valor está antes da média e o outro após. Nesse caso, devemos encontrar
as probabilidades das duas áreas distintas e depois somá-las: i) entre 117,2 e 140;
e ii) entre 140 e 157. A figura 4.5 ilustra a área sob a curva.

117,2 140 157

Figura 4.5  –  Probabilidade entre 117,2 e 157. Bruni (2011, p. 142).

Primeiramente, calculamos a área entre 117,2 e 140 pontos:


χ − µ 117, 2 − 140
Z= =
σ 20

Z = –1,14

Embora o valor de –1,14 seja negativo, sabemos que a distribuição é simétrica


e podemos trabalhar com seu valor positivo correspondente, ou seja, 1,14. De
acordo com a tabela 4.5, a área encontrada é de 0,3729 ou 37,29%.

capítulo 4 • 77
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621

1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830

1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015

1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177

Tabela 4.5  –  Área sob a curva para Z igual a 1,14.

Em um segundo momento, calculamos a área entre 140 e 157 pontos:


χ − µ 157 − 140
Z= =
σ 20

Z = 0,85

Na tabela 4.6, a área encontrada quando Z é igual a 0,85 é de 0,3023 ou 30,23%.

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852

0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133

0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389

1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621

Tabela 4.6  –  Área sob a curva para Z igual a 0,85.

Sendo assim, a área encontrada sob a curva para Z entre –1,14 e 0,85 é igual
a 0,3729 + 0,3023 = 0,6752 ou 67,52%. Isso quer dizer que a probabilidade de
um candidato escolhido ao acaso ter uma pontuação entre 117,2 e 157 pontos é
igual a 67,52%.
Após você relembrar ou conhecer a respeito da distribuição normal de pro-
babilidade, você está apto a avançar e estudar sobre a estimação da média de
uma população.

capítulo 4 • 78
Estimativa da média de uma população

Bruni (2011, p. 183) apresenta um fluxograma, representado pela figura 4.6, so-
bre a estimação da média populacional a partir de um conjunto de dados amostrais.

Sim O valor de Não


n é maior
que 30?

O valor de σ Sim A população Não


é conhecido? é aproximadamente
normal?
Não

O valor de σ
Sim é conhecido? Não Aumente o tamanho da
Use s para amostra para n ≥ 30 para
estimar σ poder realizar o
Sim Use s para
estimar σ procedimento de inferência

Use Use Use Use


x z σ x z s x z σ x t s
± ± ± ±
n n n n

Figura 4.6  –  Estimação da média para populações finitas. Bruni (2011, p. 83).

De acordo com o fluxograma, pode-se concluir que


I. Quando o tamanho da amostra for igual ou maior que 30, deve-se utilizar a
distribuição normal para determinar o valor de z.
II. Se o tamanho da amostra é menor que 30, todavia se a população possuir
distribuição aproximadamente normal e o valor do desvio populacional for conhe-
cido, então também deve-se utilizar a distribuição normal.
III. por outro lado, se a amostra é menor que 30 e a população possuir distribui-
ção aproximadamente normal, mas o desvio padrão populacional não for conhe-
cido, então emprega-se a distribuição de Student.
IV. por fim, se o tamanho da amostra for menor que 30 e a população não for
aproximadamente normal, então deve-se aumentar o tamanho da amostra ou não
poderemos fazer estimativas utilizando a distribuição normal ou a de Student.

COMENTÁRIO
Nota:
 é o desvio padrão populacional;
s é o desvio padrão amostral.

capítulo 4 • 79
Média da população: desvio padrão conhecido

Quando o desvio padrão populacional é conhecido, então as estimativas pon-


tuais e intervalores da média populacional serão:
Estimativa pontual Estimativa intervalar
σχ
µχ = χ µ= χ∓z
n

Com base nas fórmulas apresentadas, a estimativa pontual claramente será a


média. O nosso interesse, no entanto, é a estimativa intervalar. Você notou que na
fórmula existe a variável Z? Isso indica que a estimativa intervalar, quando  é
conhecido, deve-se utilizar a distribuição normal de probabilidade.
Antes precisamos conhecer o nível de confiança desejado. A praxe é utilizar
os níveis de confiança de 90%, 95% e 99%. Com base nesses níveis é que iremos
encontrar o valor da variável Z. Perceba então que iremos novamente utilizar a
tabela de distribuição normal, mas agora iremos procurar pela área e então encon-
trar Z – o oposto.
No exemplo, vamos encontrar o valor de Z para um nível de confiança de
95%. Observe a tabela 4.7. Queremos um nível de confiança, ou área, igual a
95%. Lembra que a curva é simétrica em relação à média? Ou seja, nesta tabela de
distribuição apresentada, apenas metade da curva é apresentada. Oras, se quere-
mos 95% (ou 0,950, basta encontramos a metade deste valor, isto é:
0, 95
= 0, 475 ou 47, 5%
2

Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706

1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767

2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817

2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857

Tabela 4.7  –  Encontrando o valor de Z para 95% de confiança.

capítulo 4 • 80
Procurando na tabela 4.7, encontramos o valor de 0,4750. Ele está justamente
no encontro de 1,9 com 0,06, evidenciando uma variável Z de valor 1,96. Para
os demais valores, consulte a tabela 4.8. De toda forma, fica a dica para o leitor
encontrar os valores de Z quando se tem a área.

CONFIANÇA Z
DESEJADA
90% 1,65

95% 1,96

99% 2,58

Tabela 4.8  –  Valores de Z para as confianças desejadas.

Seguindo agora o exemplo de Stevenson (2001), imagina que a idade média


de 36 alunos de um curso de graduação seja de 24,2 anos. Além disso, o desvio
padrão foi 3,0. Isso quer dizer que

χ = 24, 2
n = 36
σ = 3, 0

Então calcularemos o intervalo de confiança para a um nível de confiança de


90%, 95% e 99%. Os valores estão na tabela 4.9.
CONFIANÇA
Z FÓRMULA CÁLCULO E INTERVALO
DESEJADA
σχ 3 23,375 a
90% 1,65 χ ∓ 1, 65 24, 2 ∓ 1, 65 24, 2 ∓ 0, 825
n 36 25,025

σχ 3 23,220 a
95% 1,96 χ ∓ 1, 96 24, 2 ∓ 1, 96
36
24, 2 ∓ 0, 980
n 25,180

σχ 3 23,110 a
99% 2,58 χ ∓ 2, 58 24, 2 ∓ 2, 58 24, 2 ∓ 1, 290
36 25,690
n

Tabela 4.9  –  Intervalos de confiança para μx quando se conhece x. Stevenson (2001, p. 199).

capítulo 4 • 81
Você deve ter notado na tabela o e. Ele é chamado de erro de estimação. Para
Stevenson (2001, p. 199) ele se refere “ao desvio (diferença) entre a média amos-
tral e a verdade média da população”. Logo, o intervalo
σχ
χ∓z
n

Pode ser escrito como

χ ∓ erro

E o erro e, por sua vez, é


σχ
e=z
n

Lembra-se agora do início deste capítulo quando foi abordado sobre a pes-
quisa de intenção de votos? Pois bem, é justamente o que foi apresentado. Você
aprendeu como calcular o intervalo e a margem de erro. No exemplo apresenta-
do na tabela 4.9, o erro foi de 0,825 para um nível de confiança de 90%, 0,980
para 95% e 1,290 para 99%.

Média da população: desvio padrão desconhecido

Quando se desconhece o desvio padrão da população (na maioria dos casos o 


não é conhecido e utilizamos s) usa-se o desvio padrão da amostra (s) como estima-
tiva. Ou seja, troca-se o  por s. E, conforme a figura 4.7, continuamos a utilizar
a distribuição normal. Todavia, se nossa amostra for menor que 30 elementos, mas
ela seguir uma distribuição normal e não termos o valor de , então se deve utili-
zar a distribuição de Student, também conhecida como distribuição t ou ainda
t de Student.
Tal distribuição se parece com a normal, mas a distribuição t tem maior área
nas caudas, o que implica dizer que, para um determinado nível de confiança, o
valor t será um pouco maior que o valor Z. Assim como na tabela da distribuição
normal, também existe uma tabela de distribuição t, ilustrada na tabela 4.10.

capítulo 4 • 82
ÁREA NUMA 0,010 0,020 0,050 0,100 0,200 0,500
CAUDA
ÁREA EM DUAS 0,005 0,010 0,025 0,050 0,100 0,250
CAUDAS
GRAUS DE VALORES DE t
LIBERDADE
1 63,657 31,821 12,706 6,314 3,078 1,000
2 9,925 6,965 4,303 2,920 1,886 0,816
3 5,841 4,541 3,182 2,353 1,638 0,765
4 4,604 3,747 2,776 2,132 1,533 0,741
5 4,032 3,365 2,571 2,015 1,476 0,727
6 3,707 3,143 2,447 1,943 1,440 0,718
7 3,499 2,998 2,365 1,895 1,415 0,711
8 3,355 2,896 2,306 1,860 1,397 0,706
9 3,250 2,821 2,262 1,833 1,383 0,703
10 3,169 2,764 2,228 1,812 1,372 0,700
11 3,106 2,718 2,201 1,796 1,363 0,697
12 3,055 2,681 2,179 1,782 1,356 0,695
13 3,012 2,650 2,160 1,771 1,350 0,694
14 2,977 2,624 2,145 1,761 1,345 0,692
15 2,947 2,602 2,131 1,753 1,341 0,691
16 2,921 2,583 2,120 1,746 1,337 0,690
17 2,898 2,567 2,110 1,740 1,333 0,689
18 2,878 2,552 2,101 1,734 1,330 0,688
19 2,861 2,539 2,093 1,729 1,328 0,688
20 2,845 2,528 2,086 1,725 1,325 0,687
21 2,831 2,518 2,080 1,721 1,323 0,686
22 2,819 2,508 2,074 1,717 1,321 0,686
23 2,807 2,500 2,069 1,714 1,319 0,685
24 2,797 2,492 2,064 1,711 1,318 0,685
25 2,787 2,485 2,060 1,708 1,316 0,684
26 2,779 2,479 2,056 1,706 1,315 0,684
27 2,771 2,473 2,052 1,703 1,314 0,684
28 2,763 2,467 2,048 1,701 1,313 0,683
29 2,756 2,462 2,045 1,699 1,311 0,683

Tabela 4.10  –  Distribuição t de Student.

capítulo 4 • 83
A distribuição t utiliza o conceito de graus de liberdade (n – 1) para encontrar
os valores de t. Nesta apostila, não iremos nos aprofundar sobre o t de Student. O
que importa saber é o valor de t para um dado nível de confiança, como mostrado
na tabela 4.11.

CONFIANÇA t
DESEJADA
90% 1,711
95% 2,064
99% 2,797

Tabela 4.11  –  Valores de t para as confianças desejadas.

Dado que uma amostra de 25 pessoas apresentou um peso médio de


20,0 kg e desvio padrão de 1,5 kg, qual o intervalo de confiança e a margem de erro,
sabendo que a distribuição não é normal? A tabela 4.12 demonstra os cálculos.

CONFIANÇA
T FÓRMULA CÁLCULO E INTERVALO
DESEJADA
Sχ 1, 5 19,4867 a
90% 1,711 χ ∓ 1, 711 20 ∓ 1, 711 20 ∓ 0, 5133
n 25 20,5133

Sχ 1, 5 19,3808 a
95% 2,064 χ ∓ 2.064 20 ∓ 2, 064 20 ∓ 0, 6192
n 25 20,6192

Sχ 1, 5 19,1609 a
99% 2,797 χ ∓ 2.797 20 ∓ 2, 797 20 ∓ 0, 8391
n 25 20,8391

Tabela 4.12  –  Intervalos de confiança utilizando t. Stevenson (2001, p. 206). Adaptado.

Vale salientar mais uma vez que para amostras com mais de 30 elementos
(n > 30), o valor de t pode ser aproximado por Z. Então, se a amostra for menor
que 30, necessariamente a distribuição precisa ser normal. Logo, se o desvio pa-
drão populacional for conhecido, então se usa Z, caso contrário, logo se emprega t.

capítulo 4 • 84
ATIVIDADES
01. O departamento de RH de uma empresa foi uma pesquisa sobre os salários dos seus
350 funcionários. A média salarial foi de R$ 2.350,00 e o desvio padrão populacional encon-
trado foi de R$ 1.900,00. Calcule a margem de erro e o intervalo de confiança para cada um
dos seguintes níveis confiança:
a) 90% b) 95% c) 99%

02. Uma seguradora fez uma pesquisa com os segurados de um bairro para conhecer a sua
idade média. Foram entrevistados 28 segurados e estes possuíam idade média de 32,6 anos.
Considerando um desvio padrão amostral de 4,5 anos, calcule a margem de erro e o intervalo
de confiança para cada um dos seguintes níveis confiança:
a) 90% b) 95% c) 99%
Obs.: considere uma distribuição aproximadamente normal.

03. Considere o enunciado do exercício anterior. Todavia, dessa vez se sabe que o desvio
padrão é populacional e seu valor é de 3,8 anos. Sendo assim, calcule a margem de erro e o
intervalo de confiança para cada um dos seguintes níveis confiança:
a) 90%
b) 95%
c) 99%

REFLEXÃO
Neste capítulo você aprendeu como fazer estimativas por intervalos. Foi discutida a di-
ferença entre estimativa pontual a intervalar. Na sequência, você estudou (ou relembrou)
sobre a distribuição normal. Diversos exemplos sobre o assunto foram abordados. Uma vez
conhecida a distribuição Z, foi possível fazer estimativas intervalares quando o desvio padrão
populacional é conhecido, além de calcularmos também a margem de erro. Por fim, também
verificamos como fazer estimativa por intervalo utilizando a distribuição t de Student.

capítulo 4 • 85
REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e Economia.
Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
BRUNI, A. L. Estatística Aplicada à Gestão Empresarial. 3. ed. São Paulo: Editora Atlas, 2011.
STEVENSON, W. J. Estatística Aplicada à Administração. Tradução de Alfredo Alves de Farias. São
Paulo: Harbra, 2001.

capítulo 4 • 86
5
Testes de hipóteses
e intervalos de
confiança
Testes de hipóteses e intervalos de confiança
Neste capítulo vamos aprender sobre os principais testes de hipóteses, sua apli-
cabilidade para análise de regressão e trazer exemplos. Além do mais, veremos o
que correspondem os intervalos de confiança e sua aplicabilidade. Você será capaz
de aplicar os testes avaliando vários aspectos da regressão analisando, buscando
aprimorar sua análise.

OBJETIVOS
•  Aprender a construção e aplicação de testes de hipóteses;
•  Conhecer e saber utilização os principais testes de hipóteses para análise de regressos;
•  Aprender sobre intervalo de confiança;
•  Saber tomar decisões a partir dos testes.

Introdução aos testes de hipóteses

Os testes de hipóteses são meios de verificar a validade de determinadas afir-


mações, denominadas hipóteses. Pelos testes verifica-se se as hipóteses são susten-
tadas, ou não, estatisticamente. São usados para testar hipóteses dos parâmetros
estimadas da população (ANDERSON et al., 2011).
Os testes são construídos a partir de hipóteses definidas. A primeira hipótese,
hipótese nula (H0), corresponde à hipótese principal a ser testada, em detrimento
à hipótese alternativa (H1). Vejamos um exemplo: queremos verificar se em média,
a nota dos alunos na disciplina de Métodos Quantitativos Contábeis e Atuariais
corresponde ao que chamaremos de Nq, é estatisticamente igual a 7,00 pontos.
Dessa forma, construímos as seguintes hipóteses:
Ho: Nq= 7,00
H1: Nq≠ 7,00

Ao selecionar uma amostra dos alunos da classe e o resultado do teste in-


dicar que não se pode rejeitar a H0, conclui-se que a média dos alunos é esta-
tisticamente igual a 7,00. As conclusões sobre uma hipótese serão sempre
“rejeitar” ou “não rejeitar”.

capítulo 5 • 88
Quanto à construção das hipóteses alternativas, ela pode assumir três for-
mas possíveis: duas pela desigualdade e uma pela igualdade (ANDERSON et al.,
2011). Tomamos o mesmo exemplo das notas dos alunos, poderíamos, portanto,
construir:

Ho: Nq= 7,00 Ho: Nq≤ 7,00 Ho: Nq≥7,00


H1: Nq≠ 7,00 H1: Nq> 7,00 H1: Nq< 7,00

A primeira forma é denominada de teste bicaudal, enquanto as demais são


testes unicaudais. Mais adiante veremos a aplicação e diferença entre os testes.

Tipos de Teste (Paramétrico e não paramétrico)


O objetivo dos testes de significância para médias é avaliar afirmações feitas a
respeito de médias Populacionais (STEVENSON, 2011). Esses testes podem ser
paramétricos ou não paramétricos.
Quando os testes assumem premissas (pressupostos) sobre a distribuição de
parâmetros da população são chamados de testes paramétricos. Um parâmetro é
qualquer medida que descreve uma população, tais como: média, variância, desvio
padrão e proporção. Exigem que duas hipóteses sejam satisfeitas: (1) que a variável
dependente tenha distribuição normal; e (2) que as variâncias populacionais se-
jam homogêneas no caso da comparação de duas ou mais populações (FÁVERO,
2009). São exemplos de testes paramétricos: Teste T-Student, análise de variância
e teste de Pearson.
Por outro lado, os testes não paramétricos utilizam métodos que em geral
são rápidos e que exigem hipóteses relativamente fracas e são um tanto menos
eficientes e menos discriminatórios (STEVENSON, 2011). São mais apropriados
para tratar amostras obtidas de várias populações diferentes. Envolvem cálculos
mais simples e, consequentemente, apresentam maior facilidade de aprendizado e
aplicação. Têm menor eficiência. Os testes paramétricos têm maior probabilidade
de rejeição da hipótese nula quando ela é realmente falsa e geralmente necessitam
de uma amostra maior ou de maiores diferenças para que ocorra a rejeição da
hipótese nula (FÁVERO et al., 2009). Alguns exemplos de teste não paramétrico
são: Mann-Whitney, Wilcoxon, Friedman e Spearman.

capítulo 5 • 89
Vejamos a aplicação de alguns destes testes.

Tipos de erros

A partir das hipóteses, dois tipos de erro podem ser encontrados. O primeiro
erro ocorre quando se rejeita uma hipótese nula verdadeira (Erro do tipo I). O
segundo erro ocorre quando não rejeita uma hipótese nula falsa (Erro do tipo II)
(FÁVERO, 2009). O quadro a seguir sintetiza os erros:

DECISÃO H0 VERDADEIRA H0 FALSA


Não rejeita Decisão correta Erro do tipo II

Rejeita Erro do tipo I Decisão correta

Tabela 5.1  –  Tipos de erro. Fávero (2009). Adaptado.

A probabilidade de cometer o erro do tipo I é denominado de nível de signifi-


cância, que é denotado pelo símbolo grego alfa (α). O nível de significância é dado
em percentuais, normalmente aceito 5% e 1% (ANDERSON et al, 2011). 1 – α,
por sua vez, representa o nível de confiança, sendo assim, para um nível de 5% de
significância, tem-se 95% de confiança nos resultados. Quanto à probabilidade de
se cometer o Erro do Tipo II, não se usa dizer que se “aceita” uma hipótese, e sim
que “não se rejeita”.

Testes unicaudal e bicaudal

Os testes unicaudais apresentam duas formas. Em geral, um teste de hipótese


sobre o valor de uma média populacional µ deve ter uma das seguintes três formas
(em que µ0 é o valor da hipótese da média populacional). Ressalta-se que a parte
da igualdade das hipóteses sempre aparece na hipótese nula (FÁVERO, 2009).

Teste da Cauda Inferior Teste da Cauda Superior


Ho: µ ≥ µ0 Ho: µ ≤ µ0
H1: µ < µ0 H1: µ > µ0

capítulo 5 • 90
O teste unicaudal busca verificar se o valor é estatisticamente maior (menor)
que a média, diferente do teste bicaudal, no qual as duas caudas são consideradas
simultaneamente. Dessa forma, a hipótese nula é construída em termos de igual-
dade, enquanto a hipótese alternativa pela diferença.

Ho: µ = µ0
H1: µ ≠ µ0

As figuras a seguir apresentam a distribuição considerando um teste bicaudal


e unicaudal.

Figura 5.1  –  Teste bicaudal. Stevenson (2011). Adaptado.

Figura 5.2  –  Teste unicaudal (Cauda superior). Stevenson (2011). Adaptado.

A área denotada em verde representa a região de rejeição da hipótese nula


(região crítica), sendo assim, correspondem ao nível de significância (α). Por con-
seguinte, a área denotada em branco corresponde à área de não rejeição da hipó-
tese nula.

capítulo 5 • 91
Teste para comparação de duas médias

Teste com variância populacional conhecida (Teste Z)

O Teste z considera a distribuição normal padronizada quando a variância é


conhecida. Será aplicado pelo cálculo do valor zc, conforme fórmula a seguir e
analisado em relação ao z tabelado zt via tabela no anexo I.

χ − µ0
Zc =
σ/ n

Caso o valor da estatística pertencer à região crítica, isto é, se zc < –zt ou zc > zt,
rejeita-se a hipótese nula. Se –zt ≤ zc ≤ zt, não se rejeita H0, conforme a figura
a seguir:

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

–Zt 0 Zt

Figura 5.3  –  Intervalo de confiança para variância conhecida. Anderson et al. (2011).
Adaptado.

Exemplo (Anderson et al. (2011)). Adaptado.


Uma empresa produz café em embalagens de 3 kg. Para que os direitos dos
consumidores sejam garantidos, é necessário que nas embalagens tenham no mí-
nimo essa quantidade. Considerando que a variância é conhecida, foi realizado o
teste de hipótese da cauda inferior, conforme as hipóteses a seguir:

Ho: µ ≥ 3
H1: µ < 3

capítulo 5 • 92
Foi selecionada uma amostra de 36 embalagens que apresentou uma média
de 2,92 kg e sabe que o desvio padrão da população () é 0,18 kg. Dessa forma:
2, 92 − 3
Zc = = −2, 67
0,18 / 36

A partir da Tabela Z (anexo I) obtemos a probabilidade de a estatística do


teste Z ser menor ou igual a –2,67 (a área sobre a curva normal padrão à esquerda
da estatística de teste). Na tabela, as linhas representam o valor do Z e as colu-
nas o segundo decimal do valor do Z. Verificamos que a área entre a média e o
valor zc = –2,67 é 0,4962. Assim o p-valor é igual 0,5000 – 0,4962 = 0,0038. Esse
valor indica uma pequena probabilidade de se obter uma média amostral de 2,92
(e uma estatística z de –2,67). Uma vez que essa probabilidade é melhor que o
nível de significância (0,05), rejeita-se H0. Logo a quantidade média das embala-
gens não é maior/igual a 3 kg.
O teste Z também pode ser aplicado no Excel pelo uso da função TESTEZ
(matriz; µ0; desvio padrão) que fornecerá a probabilidade de que a média de amos-
tras seja maior que o valor médio fornecido (μ0). Pela simetria da distribuição
Normal, se média < x, TESTE.Z retornará um valor maior que 0,5. A análise é
similar ao demonstrado anteriormente.

Intervalo de confiança com variância conhecida (2)

Quando se tem a variância da população, o intervalo de confiança da média


σ
da população (µ) é definido por χ ± z c n (STEVENSON, 2011). Sendo assim,-
tem-se a probabilidade de não rejeição é determinada por P(– zc < z < zc ) = 1 – α,
em que zc é o valor crítico da variável aleatória z.
A figura a seguir ilustra como se constrói o intervalo de confiança:
Intervalo de Confiança

σ σ
x – zc x x + zc
n n

Figura 5.4  –  Intervalo de Confiança para variância conhecida. Stevenson (2011). Adaptado.

Essa medida intervalar se baseia na hipótese de que a distribuição é norma


[X ~ N (µ,2)], o que não apresenta problema para grandes amostras (n > 30
observações), conforme Teorema do Limite Central (STEVENSON, 2011).

capítulo 5 • 93
Exemplo (adaptado de FÁVERO et al., 2009):
Considere uma variável aleatória com distribuição normal e variância conheci-
da de 25. Retira-se uma amostra de 16 valores e calcula-se a média amostral = 18.
Construa um intervalo de confiança de 95% (zc = 1,96) para a média populacional

 σ σ 
P  χ − Zc µ < χ + Zc  = 95
 n n
 5 6 
P 18 − 1, 96 < µ < 18 + 1, 96 = 95%
 16 16 
P (15, 55 < µ < 20, 45) = 95%

Logo o intervalo [15,55; 20,45] contém a média populacional com 95%


de confiança.

Teste com variância populacional desconhecida (Teste T)

Quando não se tem a informação da variância da população, utiliza-se o


Teste t de Student para Hipóteses sobre Uma Média Populacional (µ). Esse teste
tem como objetivo o testar se uma média populacional assume ou não determi-
nado valor, para tal, a variável a ser testada precisa ter distribuição normal padrão.
O procedimento para aplicação do teste são (Anderson et al. (2011)):
1. Fixar a hipótese nula (H0) e a hipótese alternativa (H1). Para um teste bilateral,
a hipótese nula afirma que a amostra provém de uma população com uma média
(µ = µ0). A hipótese alternativa contesta a hipótese nula (µ ≠ µ0);
2. Fixar o nível de significância α do teste;
3. O valor da variável tc

χ − µ0
tc =
s2 / n

4. Conclusão: se o valor da estatística pertencer à região crítica, isto é, se tc < –tt


ou tc > tt, rejeita-se a hipótese nula. Se –tt ≤ tc ≤ tt, não se rejeita H0

Exemplo (adaptado de Fávero et al., 2009):


Em uma fábrica, estima-se que o tempo médio de pintura de um caminhão
é de 690 minutos. Vamos realizar o teste considerando uma amostra de 12 ele-
mentos e um nível de significância de 5%. Para tal, será empregado um teste

capítulo 5 • 94
bilateral com a hipótese nula afirma que o tempo médio de pintura é 690 minutos
(µ = 690). A hipótese alternativa contesta a hipótese nula (µ ≠ 690).

Ho: µ = 690
H1: µ ≠ 690

Como N ≤ 30, a variável teste escolhida será tc com v = 12 – 1 graus de liber-


dade. A variância amostral (s²) é igual a 136,662 e o tempo médio de pintura da
amostra é 875,833 minutos. Pela aplicação da fórmula obtém-se que:

χ − µ0 875, 833 − 690


tc = = = 4, 710
s 2 / n 136, 662 / 12

A hipótese nula será rejeitada quando o valor t calculado (tc) estiver na região
crítica, região de rejeição da hipótese nula. O ponto que determina a separação
dessa região é obtido pela Tabela t (anexo II), denominado de t tabelado (tt). Essa
tabela é composta pelo nível de significância (α) em suas colunas e o grau de liber-
dade (ϕ) em suas linhas.
Por definição, utilizaremos 0,05 de significância. A expressão número de graus
de liberdade (ϕ) representa o número total de observações da amostra (= n) menos
o número de restrições independentes (lineares) impostas a ele. Em outras pala-
vras, é o número de observações independentes dentre um total de n observações.
A regra geral é a seguinte: graus de liberdade = n – k, sendo k o número de parâ-
metros estimados (GUJARATI; PORTER, 2011).
Verificando a Tabela T, o valor tt = 3,106. A figura a seguir ilustra os dados:

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

–3,106 0 3,106 4,710

Figura 5.5  –  Teste t. Anderson et al. (2011).

capítulo 5 • 95
Como o valor pertence à região crítica (região de rejeição), o teste rejeita à hi-
pótese nula. Logo, o tempo médio de pintura de um caminhão é estatisticamente
diferente de 690 minutos.

Exemplo (Excel)
O teste t também pode ser realizado no Excel. Vejamos o exemplo a seguir de
duas amostras que foram coletadas sobre a quantidade de unidades produzidas
mensalmente em uma fábrica de eletrodomésticos.

Amostra X 107 119 104 115 128 124 121 113 106 127 111 126

Amostra Y 145 143 157 154 170 162 147 148 161 144 139 166

Tabela 5.2  –  Exemplo. Elaboração do autor.

Neste teste vamos avaliar se existe diferença entre duas médias de dois gru-
pos diferentes:
Ho: µx = µy
H1: µx ≠ µy

No Excel, em Dados > Análise de Dados: Seleciona-se o teste t duas amostras


em par para média, conforme a figura a seguir:

Figura 5.6  –  Teste t (Excel). Elaboração do autor.

capítulo 5 • 96
Seleciona-se o intervalo de cada grupo de amostra e preenche-se a hipótese de
diferença da média, conforme a seguir:

Figura 5.7  –  Teste t (Excel). Elaboração do autor.

Os resultados estão apresentados na tabela a seguir:

TESTE-T: DUAS AMOSTRAS PRESUMINDO VARIÂNCIA EQUIVALENTES


AMOSTRA X AMOSTRA Y
Média 162,72 153

Variância 74,20454545 102

Observação 12 12

Variância agrupada 88,10227273

Hipótese da diferença de média 0

gl 22

Stat t 2,5444

P(<=t) uni-caudal 0,0092

t crítico uni-caudal 1,7171

P(<=t) bi-caudal 0,0185

t crítico bi-caudal 2,0739

Tabela 5.3  –  Resultado Teste T. Elaboração do autor.

capítulo 5 • 97
A partir do p-valor destacado em amarelo, observa-se que as amostras são
estatisticamente iguais a 5% de significância.

Intervalo de confiança com variância desconhecida (2)

Para determinação do intervalo de Confiança para a Média Populacional


(µ) quando a Variância Populacional (2) é desconhecida, utiliza-se o estima-
χ − µ0
dor: t = s / n ~ t −1, , em que tc é o valor crítico da variável aleatória t da dis-
n

tribuição t de Student. A probabilidade é calculada por: P(−tc < t < tc )=1−α


(FÁVERO et al., 2009).
Intervalo de Confiança

x – tc s x x + tc s
n n

Figura 5.8  –  Intervalo de Confiança para variância desconhecida. Fávero et al. (2009).
Adaptado.

Exemplo (adaptado de FÁVERO et al., 2009):


Considere uma variável aleatória com distribuição normal e variância des-
conhecida. Retira-se uma amostra de 16 valores e calcula-se a média amostral
= 18 e a variância amostral = 25. Construa um intervalo de confiança de 95%
(tc = 2,131) para a média populacional.

 s s 
P  χ − tc < µ < χ + tc  = 95%
 n n
 5 5 
P 18 − 2,131 < µ < 18 + 2,131  = 95%
 16 16 
P (15, 34 < µ < 20, 66 ) = 95%

Logo o intervalo [15,34; 20,66] contém a média populacional com 95%


de confiança.

capítulo 5 • 98
Comparação de duas médias populacionais (Teste T)

O Teste t de Student também pode ser utilizado para comparação de duas mé-
dias populacionais a partir de 2 amostras aleatórias independentes. Ou seja, busca-
se testar se as médias de duas amostras aleatórias (X1, ..., Xn, Y1, ..., Yn) extraídas
da mesma população são ou não significativamente diferentes. Considera-se que
as amostras têm distribuição normal com variâncias desconhecidas, porém iguais:

tc =
( χ − y ) − (µ χ − µ y )
1 1
S = +
nχ ny

Em que:

S =
(n − 1)S · + (n − 1)S ·
χ χ
2
y y
2

nχ + ny − 2

Quando as variâncias são homogêneas, o número de graus de liberdade é dado


por v = nx + ny – 2. Se as variâncias não forem homogêneas, temos:

tc =
( χ − y ) − (µ χ − µ y )
s χ· 2 sy· 2
+
nχ ny

E o número de graus de liberdade:


2
 Sχ· 2   s y · 2 
  + 
 nχ   ny 
v=
(S · / n ) + (S · / n )
2 2
2 2
χ χ y y
nχ − 1 ny − 1

As hipóteses são construídas conforme a seguir:

H0: µx = µy (as médias populacionais são iguais)


H1: µx ≠ µy (as médias são diferentes)

capítulo 5 • 99
Fixando a região crítica com a tabela da distribuição t de Student a partir do
nível de significância definido, a conclusão é feita de forma similar ao teste ante-
rior: se o valor da estatística pertencer à região crítica, isto é, se tc < –tt ou tc > tt,
rejeita-se a hipótese nula. Se –tt ≤ tc ≤ tt, não se rejeita H0

Exemplo (adaptado de FÁVERO et al., 2009):


Objetiva-se testar o tempo médio de fabricação de dois produtos plásticos (X
e Y) com tempos semelhantes (em minutos) de uma amostra com n = 10. Sabe-
se que o tempo médio das amostras de x e y foram 21,2 e 26,7, respectivamente
com variâncias de 3,360 e 3,335. O nível de significância α foi definido em 5%
e sabe-se que as variâncias são homogêneas. O número de gl é 10 + 10 – 2 = 18.

O valor da estatística t foi calculado conforme demonstração:


21, 2 − 26, 7
T= = −3, 674
9 ⋅ 3, 3602 + 9 ⋅ 3, 3352 1 1
+
18 10 10

A partir da tabela t, tem o valor tabela de –1,734, conforme figura a seguir:

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

–3,674 –1,734 0 1,734

Figura 5.9  –  Teste t. Fávero et al. (2011). Adaptado.

Como o valor da estatística pertence à região crítica, isto é, tt < –1,734, rejei-
ta-se a hipótese nula, logo concluímos que as médias populacionais são diferentes.

capítulo 5 • 100
Teste t em Análise de Regressão

Consideremos uma regressão denotada por Y = α + βiX + . O teste t será


utilizado para verificar a hipótese de que a variável explicativa X associada a um
determinado parâmetro exerce, de fato, influência sobre a variável explicada Y
(GUJARATI; PORTER, 2011). Ou seja, queremos testar a seguinte hipótese:

Ho: βi =0
H1: βi ≠ 0

Assumindo a distribuição t de Student, o valor t será calculado conforme de-


monstração a seguir:

β 1
T=
( )
EP β1

Em que:
EP: erro padrão do parâmetro β estimado

Dessa forma, diferentemente dos testes anteriores, o nosso objetivo é rejeitar


essa hipótese nula, para que a variável x seja estatisticamente significativa em ex-
plicar as variações de y, βi ≠ 0. A análise do teste é similar: quando parâmetro esti-
mado o valor t calculado (tc) estiver na região crítica, região de rejeição da hipótese
nula. Sendo assim, a hipótese nula será rejeitada quando |tc| > tt

Exemplo
Considere os seguintes dados anuais de uma empresa de alimentos:

VOLUME DE
ANO DIVIDENDOS P&D VENDAS
1 1200 40 300

2 1500 80 400

3 1900 90 200

capítulo 5 • 101
VOLUME DE
ANO DIVIDENDOS P&D VENDAS
4 1300 100 300

5 1100 60 200

6 800 30 200

7 835 30 200

8 980 40 350

9 1150 70 400

10 1300 70 400

Tabela 5.4  –  Dados anuais de uma empresa de alimentos. Elaboração do autor.

Busca-se identificar se as empresas que investem mais em P&D (Pesquisa e


Desenvolvimento) e que apresentam maior volume de vendar distribuem mais
dividendos. Conforme apresentado no capítulo 3, obtemos a seguinte regressão.

ERRO
COEFICIENTES STAT T VALOR-P
PADRÃO
Interseção 652,0968 274,8406 2,3726 0,0494

P&D 10,6815 3,0577 3,4933 0,0101

Volume de vendas –0,3294 0,8581 –0,3839 0,7125

Tabela 5.5  –  Dados da Regressão. Elaboração do autor.

Os valores da estatística t (Stat t) podem ser obtidos pela fórmula:

β 1 10, 6815
t P& D = = = 3, 4933
( )
EP β1
3, 0577

−0, 3294
t VOLUME DE VENDAS = = 0, 3839
0, 8581

capítulo 5 • 102
Dado que são 10 observações com 7 graus de liberdade (n-k) e o nível de
significância estabelecido em 5%, o valor da estatística tabelado é igual a 2,8412
(anexo II). Como o valor da estatística t para a variável volume de vendas está
no intervalo de não rejeição, não se rejeita a hipótese nula de que seu coeficiente
é estatisticamente igual a zero. Dessa forma, a variável volume de vendas não é
estatisticamente significante para explicar as variações na distribuição de lucro e
poderia ser retirada do modelo.

Rejeitar H0 Não Rejeitar H0 Rejeitar H0

–2,8412 –0,3839 0 2,8412

Figura 5.10  –  Teste t (Exemplo). Elaboração do autor.

Análise pelo p-valor

Outra forma de analisar o teste t é pelo p-valor, valor-p ou p-value. O p-valor


indica a probabilidade de se obter uma estatística de teste de valor igual ou maior
que o tc. Sendo assim, para um nível de significância de 5%, tem-se 95% de pro-
babilidade de β≠0. Dessa forma, rejeita-se H0 se o p-valor ≤ α, caso contrário, não
rejeitar (FÁVERO, 2009).
A última coluna da tabela 5.5 já apresenta os valores desta probabilidade (va-
lor-p). A variável P&D apresentou um p-valor menor que o nível de significância
(0,0101 < 0,05), portanto apresenta significância estatística. Por outro lado, a va-
riável volume de vendas apresentou um p-valor maior que o nível de significância
(0,7125 < 0,05), logo seu coeficiente é estatisticamente igual a zero. A figura a
seguir demonstra a situação:

capítulo 5 • 103
Rejeitar H0 Não Rejeitar H0 Rejeitar H0

α α
– = 0,025 = 0,025
2 2

–2,8412 –0,3839 0 0,3839 2,8412

Figura 5.11  –  Teste t (p-valor). Elaboração do autor.

Observa-se na figura 5.11 como a probabilidade de se obter a estatísticas tc


é uma área muito maior que o nível de significância (α). Em outros termos, o p-
valor representa o menor α para que a estatística seja significante, ou seja, apenas
num nível de significância de 71,25% (com 28,75% de confiança) a variável vo-
lume de vendas seria significativa.
A principal vantagem da análise pelo p-valor é a não necessidade de verificação
dos valores tabelados. Apenas com a definição do nível de significância já é capaz
de analisar o teste. Ressalta-se que tanto as análises pela estatística t, quanto pelo
p-valor, levarão a mesma conclusão quanto à significância estatística das variáveis.

Teste de Hipótese para Comparação de Duas Variâncias (Teste F)

O Teste F é utilizado para verificar se a variável independente tem relação


estatisticamente significante com as variáveis explicativas. Ou seja, testa-se con-
juntamente a Hipótese Nula de que Todos os coeficientes angulares do modelo
são iguais a 0 (GUJARATI; PORTER, 2011). As hipóteses são assim definidas:

H0 : β1 = β2 = βk = 0


H : β ≠ 0
1 k

capítulo 5 • 104
O valor do teste é calculado, conforme a fórmula a seguir:

R2

FC (K , n − K ) =
Vari�ncia Explicada
=
(K − 1)
Vari�ncia nªo Explicada 1 − R 2
n−K
Em que:
R² = coeficiente de determinação
K= número de parâmetros do modelo
N = número de observações.

O valor da estatística obtido pela fórmula anterior será comparado com o


valor observado na tabela da Distribuição F (Anexo III). A tabela é composta pelo
grau de liberdade do numerador nas colunas (variância explicada) e pelo grau de
liberdade do denominados nas linhas (variância não explicada – ou variância dos
resíduos). Se o valor calculado (Fc) for maior que o valor tabelado (Ft), rejeita-se
a hipótese nula (Fc > Ft).
A figura a seguir exemplifica para o caso de Pr (F > 3,14) = 0,05:

Área de 5%
Área de 1%

F
0 3,14 5,26

Figura 5.12  –  Teste F (Região Crítica – Teste Unilateral à direita). (GUJARATI; PORTER,
2011).

capítulo 5 • 105
Exemplo
Retomemos ao exemplo utilizado na seção 5.5. Vejamos na tabela a seguir,
retirada do modelo de regressão realizado no Excel:

F DE
GL SQ MQ F SIGNIFICAÇÃO
Regressão 2 614465,3 307232,7 6,339601 0,026842124
Resíduo 7 339237,2 48462,46
Total 9 953702,5

Tabela 5.6  –  ANOVA (Análise de variância). Elaboração do autor.

A coluna F apresenta o valor da estatística F calculada (Fc). Com base na


Tabela da Distribuição F, considerando 2 graus de liberdade da regressão e 7 graus
do resíduo e 5% de significância, o Ft = 8,89. Como a estatística F de teste foi
menor que o valor F tabelado, não temos evidência para rejeitar H0, logo as variá-
veis explicativas têm simultaneamente coeficientes diferentes de zero, sendo assim,
são conjuntamente significantes para explicar as variações de y. A última coluna
da tabela.

ATIVIDADES
01. Julgue as afirmativas a seguir em falso (F) e verdadeiro (V).
a) O nível de significância corresponde à probabilidade de cometer o erro do tipo I, de se
rejeitar uma hipótese nula verdadeira.
b) O intervalo de confiança só pode ser determinado caso a variância da população
seja conhecida.
c) A hipótese nula é a hipótese principal a ser testada pelos testes de hipóteses formula-
dos sempre pela diferença dos parâmetros da população.
d) Os testes paramétricos são os que apresentam premissas (pressupostos) sobre a distri-
buição de parâmetros da população.

02. Deseja-se estimar a média de idade de uma população com distribuição normal e va-
riância 2 = 100. Uma amostra de 30 elementos foi retirada dessa população e apresentou
média igual a 32. Construa um intervalo de confiança de 95% para a média populacional.

capítulo 5 • 106
03. Aplique o teste adequado para comparar as duas médias populacionais a partir de
duas amostras aleatórias independentes listadas nas tabelas a seguir (cada amostra em
uma linha).

Amostra X 30 42 27 38 51 47 44 36 29 50 34 49

Amostra Y 68 66 80 77 93 85 70 71 84 67 62 89

04. Uma pesquisa foi realizada em uma empresa, para verificar se o salário era relacionado
com os anos de experiência (Exp) e a pontuação no teste de aptidão (Nota). Para tanto,
foram coletadas 20 observações. Considere os seguintes valores extraídos da regressão
(tabela a seguir) e calcule e interprete a estatística t, considerando 5% de significância.

COEFICIENTES ERRO PADRÃO


Interseção 3,17393627 6,156066829

Exp 1,403902485 0,198566912

Nota 0,250885448 0,077354127

05. A seguir estão apresentados os dados de uma empresa durante 15 anos. Os gestores
dessa empresa buscam saber de a Liquidez Geral (LG) e o Endividamento explicam as varia-
ções no Retorno sobre o Patrimônio Líquido (ROE). Com base nos dados a seguir, analise se
as variáveis são significativas isoladamente (Teste T) e conjuntamente (Teste F).

OBSERVAÇÃO ROE LG ENDIVIDAMENTO


1 0,30 0,68 0,45

2 0,27 0,65 0,48

3 0,40 0,78 0,34

4 0,36 0,74 0,35

5 0,42 0,80 0,28

6 0,44 0,83 0,26

7 0,37 0,75 0,31

8 0,38 0,76 0,35

9 0,39 0,77 0,32

10 0,37 0,75 0,33

capítulo 5 • 107
OBSERVAÇÃO ROE LG ENDIVIDAMENTO
11 0,30 0,70 0,46

12 0,44 0,82 0,48

13 0,41 0,79 0,37

14 0,38 0,76 0,27

15 0,37 0,72 0,22

REFLEXÃO
Neste capítulo vimos sobre os testes de hipóteses, intervalo de confiança e sua aplicação
em regressões. Alguns outros testes de avaliação de regressão podem ser realizados com
a ajuda de softwares estatísticos tais como Stata, SPSS, E, Eviews, dentre outros. Os testes
variam de acordo com o modelo utilizado, seja regressão linear ou múltipla, séries temporais,
corte transversal ou dados em painéis e a forma de estimação do modelo, seja por MQO
(Mínimo Quadrados Ordinários), MMG (Método dos Momentos Generalizados) ou MMV (Mé-
todo da Máxima Verossimilhança). Este material busca dar uma visão geral sobre os métodos
quantitativos. Mas é importante a noção que a escolha do método deve-se adequar ao que se
procura investigar, buscando os testes específicos para cada método adotado.

REFERÊNCIAS BIBLIOGRÁFICAS
ANDERSON, D. R.; SWEENEY, D. J.; WILLIAMS, T. A. Estatística Aplicada à Administração e
Economia. Tradução de José Carlos Barbosa dos Santos. 2. ed. São Paulo: Cengage Learning, 2011.
FÁVERO, L. P. et al. Análise de Dados: Modelagem Multivariada para Tomada de Decisões. Rio de
Janeiro: Campus, 2009.
GUJARATI, D. N.; PORTER, D. C. Econometria Básica. 5. ed. Porto Alegre: AMGH Editora LTDA,
2011.
STEVENSON, W. J. Estatística Aplicada à Administração. Tradução de Alfredo Alves de Farias. São
Paulo: Harbra, 2001.

capítulo 5 • 108
GABARITO
Capítulo 1

01.

a) –0,9907
b) –20.906,25 (populacional), –27.875,00 (amostral)
c) Correlação negativa praticamente perfeita. O valor encontrado permite concluir que
há relação entre a renda e a quantidade de sinistros. No caso, como o sinal do
coeficiente é negativo, conclui-se que quanto maior a renda, menor a quantidade
de sinistros.

02. Covariância mede como duas variáveis movimentam-se ao mesmo tempo em relação a
seus valores médios, isto é, como os seus valores co-variam, se relacionam.

03. A correlação visa explicar o grau de relacionamento verificado no comportamento de


duas variáveis.

04.

Correlação: 0,4484
Covariância: 0,0344 (populacional), 0,0365 (amostral)

capítulo 5 • 109
A correlação é positiva (0,4484), porém fraca. Sempre quando uma ação subir, a outra
tende a acompanhá-la, ou seja, subir também. E, quando uma ação cai, a outra também tende
a cair.

05.

a) Covariância: 2,5556 (populacional); 3,0667 (amostral)


b) Correlação: 0,2568
c) Correlação positiva e fraca. O número de doenças tende a ser maior conforme a
idade aumenta. Todavia, como a correlação é fraca, a inferência sobre tal relação
não pode ser confirmada.

Capítulo 2

01.

RESTAURANTE χi χi χi–χ Yi–Y (χI–χ)(Yi–Y) (Xi–X)


1 2 58 –12 –72 864 144
2 6 105 –8 –25 200 64
3 8 88 –6 –42 252 36
4 8 118 –6 –12 72 36
5 12 117 –2 –13 26 4
6 16 137 2 7 14 4
7 20 157 6 27 162 36

capítulo 5 • 110
RESTAURANTE χi χi χi–χ Yi–Y (χI–χ)(Yi–Y) (Xi–X)
8 20 169 6 39 234 36
9 22 149 8 19 152 64
10 26 202 12 72 864 144
Totais ∑ 140 1.300 - - 2.840 568
Média x y 14 130 - - - -

Cálculo de b1:

b1 =
∑ ( χi − χ)( yi − y )
∑ ( χi − χ)
2, 840
b1 =
568

b1 = 5

Cálculo de b0:

b0 = y − b1 x

b0 = 130 − 5x14

b0 = 60

A equação de regressão estimada é:

 =b +b χ
yi 0 i i

y i = 60 + 5χ

02.
a) variável dependente é a variável que será prevista no modelo. Ela também é conhe-
cida por variável explicada.

capítulo 5 • 111
b) variável independente é a variável (ou variáveis) usada para prever o valor da variá-
vel dependente. Ela também é conhecida por variável explicativa.

ALUNO χi χi χi–χ Yi–Y (χI–χ)(Yi–Y) (Xi–X)2


1 0 10,0 –4,07 3,17 –12,88 16,54
2 6 6,5 1,93 –0,33 –0,64 3,74
3 7 4,0 2,93 –2,83 -8,31 8,60
4 8 5,0 3,93 –1,83 –7,21 15,47
5 1 9,5 –3,07 2,67 –8,18 9,40
6 6 7,0 1,93 0,17 0,32 3,74
7 2 9,5 –2,07 2,67 –5,51 4,27
8 7 3,0 2,93 –3,83 –11,24 8,60
9 3 8,0 –1,07 1,17 –1,24 1,14
10 0 9,0 –4,07 2,17 –8,81 16,54
11 4 7,0 –0,07 0,17 –0,01 0,00
12 4 6,0 –0,07 –0,83 0,06 0,00
13 5 7,0 0,93 0,17 0,16 0,87
14 7 2,0 2,93 –4,83 –14,18 8,60
15 1 9,0 –3,07 2,17 –6,64 9,40
Totais ∑ 61,00 102,50 - - –84,33 106,93
Média x y 4,07 6,83 - - - -

Cálculo de b1:

b1 =
∑ ( χi − χ)( yi − y )
∑ ( χi − χ)
2

−84, 33
b1 =
106, 93

b1 = 0, 789

capítulo 5 • 112
Cálculo de b0:

b0 = y − b1 χ

b0 = 6, 83 − −0, 789 χ 4, 07

b0 = 10, 04

A equação de regressão estimada é:

y i = b0 + bi χi

y i = 10, 04 − 0, 789χ
Capítulo 3

01.
a) Correlações:
LC e EG: –0,6197 LC e ROA: 0,071 EG e ROA: –0,054

As correlações mostram existir correlação apenas entre LC e EG. Uma correlação nega-
tiva forte. Logo, há indícios de que há multicolinearidade entre tais variáveis.
b) Neste caso, temos três variáveis explicativas (Liquidez Corrente – LC, Endividamen-
to Geral – EG e Retorno sobre o Ativo – ROA). Você precisa selecionar todas elas!

capítulo 5 • 113
c) O R² foi de 0,4905. Contudo, quando se verifica o R² ajustado, o poder explicativo
se reduz substancialmente, 0,2358.
d) O Teste F (0,2266) foi maior que 0,01. O modelo não é significativo!
e) γ = 0,036+0,029χ1 – 0,023χ2 + 0,9916χ3

Capítulo 4

01. O primeiro passo para a resolução do exercício é descobrir qual tipo de distribuição ele
pertence. Como n > 30 (350), então utilizamos a distribuição normal. Sabe-se que o desvio
padrão populacional também é conhecido. Dessa forma:

CONFIANÇA
Z FÓRMULA CÁLCULO E INTERVALO
DESEJADA

σχ 1900
90% 1,65 χ ∓ 1, 65 2.350 ∓ 1, 65 2.350 ∓ 167, 57 182,43 a 2.517,57
n 350

σχ 1900
95% 1,96 χ ∓ 1, 96 2.350 ∓ 1, 96
350
2.350 ∓ 199, 05 2.150,94 a 2.549,06
n

σχ 1900
99% 2,58 χ ∓ 2, 58 2.350 ∓ 2, 58
350
2.350 ∓ 262, 03 2.087,98 a 2.612,02
n

02. Como n < 30, distribuição aproximadamente normal e é conhecido o desvio padrão
amostral (s), então devemos utilizar a distribuição t de Student.

CONFIANÇA
T FÓRMULA CÁLCULO E INTERVALO
DESEJADA

Sχ 4, 5
90% 1,711 χ ∓ 1, 711 32, 6 ∓ 1, 711
28
32, 6 ∓ 1, 455 31,14 a 34,06
n

Sχ 4, 5
95% 2,064 χ ∓ 2.064 32, 6 ∓ 2, 064
28
32, 6 ∓ 1, 755 30,84 a 34,36
n

capítulo 5 • 114
CONFIANÇA
T FÓRMULA CÁLCULO E INTERVALO
DESEJADA

Sχ 4, 5
99% 2,797 χ ∓ 2.797 32, 6 ∓ 2, 797
28
32, 6 ∓ 2, 379 30,22 a 34,98
n

03. Como o desvio padrão é populacional, em vez de utilizarmos o t de Student, voltamos a


utilizar a distribuição normal.

CONFIANÇA
Z FÓRMULA CÁLCULO E INTERVALO
DESEJADA

σχ 3, 8
90% 1,65 χ ∓ 1, 65 32, 6 ∓ 1, 65
28
32, 6 ∓ 1,18 31,42 a 33,78
n

σχ 3, 8
95% 1,96 χ ∓ 1, 96 32, 6 ∓ 1, 96
28
32, 6 ∓ 1, 41 31,19 a 34,01
n

σχ 3, 8
99% 2,58 χ ∓ 2, 58 32, 6 ∓ 2, 58
28
32, 6 ∓ 1, 85 30,75 a 34,45
n

Capítulo 5

01. . V, F, F, V.

02. Margem de erro = 1,96 x (10 / √30) = 3,5785


IC: 32 ± 3,58 ou 28,42 a 35,58 com 95% de confiança

03. Assim o p-valor é igual 0,5000 – 0,4962 = 0,0038. Esse valor indica uma pequena
probabilidade de se obter uma média amostral de 2,92 (e uma estatística z de –2,67). Uma
vez que essa probabilidade é melhor que o nível de significância (0,05), rejeita-se H0. Logo
a quantidade média das embalagens não é maior/igual a 3 kg.

capítulo 5 • 115
04.

05. O Teste T: significância individual das variáveis.

Interseção 0,515579

Exp 7,070173

Nota 3,243336

Conclusão: Ambas variáveis foram estatisticamente significativas

06.

capítulo 5 • 116
capítulo 5 • 117
capítulo 5 • 118
capítulo 5 • 119
capítulo 5 • 120