Você está na página 1de 13

Estatística Aplicada aos Negócios - ADM240

Texto de revisão

Este material de revisão abordará os seguintes tópicos como uma preparação para a prova final:
cálculo dos quartis, cálculo da média, cálculo do desvio-padrão, cálculo de probabilidades usando
a distribuição normal, conceitos básicos de testes de hipóteses (ou testes de significância), análise
de variância (ANOVA) de fator único e regressão.
É importante destacar que a prova requererá alguns cálculos simples para os quais será permitida
a utilização de calculadora científica. Fórmulas e tabelas da distribuição normal necessárias à
resolução dos exercícios serão fornecidas nas próprias questões de prova. Adicionalmente, não
será necessário utilizar nenhum software para resolução das questões, as saídas de resultados dos
softwares serão fornecidas na questão quando for o caso. Tampouco será exigido que você realize
os testes de hipóteses manualmente, para as perguntas sobre esse conteúdo, você deverá saber
interpretar as saídas do software.

A disciplina ADM240 – Estatística Aplicada aos Negócios contemplou os principais elementos da


estatística, que se divide em duas áreas de estudo, a estatística descritiva (Semana 1) e a inferência
estatística (Semanas 2 a 7). As estatísticas descritivas têm como objetivo descrever o
comportamento de uma variável em termos de sua posição (média, mediana e moda) e dispersão
(variância, desvio-padrão e quartis). Por sua vez, a inferência tem como objetivo, a partir de dados
de uma amostra, estudar características de uma população, por exemplo, será que os níveis de
sustentabilidade de empresas farmacêuticas e siderúrgicas são iguais? Iniciaremos a revisão com
as dúvidas sobre estatísticas descritivas e, em seguida, veremos os tópicos relacionados à
inferência estatística.

Semana 1 Estatísticas Descritivas

1) Cálculo da média
A média, junto à mediana e à moda, é uma medida de posição ou medida de tendência central, que
retorna o centro da distribuição da variável estudada. A média aritmética (denotada como x ̅) é uma
das medidas mais conhecidas e amplamente utilizadas da estatística. Para calculá-la, deve-se
realizar a soma de todos os valores da série de dados (denominamos cada valor como x) e dividir
essa soma pelo número de casos na série de dados (denominamos o tamanho da série como n).
Vejamos o seguinte exemplo:

13 18 7 22 34

Qual a média para a série de dados acima?


Inicialmente, devemos realizar a soma de todos os valores e, então, dividir a soma pela quantidade
de valores na série, neste caso, n = 5.

∑ 𝑥𝑖 13 + 18 + 7 + 22 + 34
𝑥̅ = = = 18,8
𝑛 5

1
2) Cálculo do desvio-padrão
O desvio-padrão é uma medida de variabilidade ou dispersão, junto de variância (desvio-padrão
elevado ao quadrado), quartis e amplitude. O desvio-padrão oferece uma medida de quanto os
dados estão dispersos (acima ou abaixo) da média. Ele pode ser obtido pela seguinte fórmula:

∑(𝑥𝑖 − 𝑥̅ )2
𝑠=√
𝑛−1

Majoritariamente, trabalhamos com dados amostrais, por isso o desvio-padrão é denominado “s” e
o denominador da fórmula subtrai 1 de n (n-1). Para a série de dados a seguir, qual seria o desvio-
padrão?

13 18 7 22 34

Temos:

(13 − 18,8)2 + (18 − 18,8)2 + (7 − 18,8)2 + (22 − 18,8)2 + (34 − 18,8)2


𝑠=√ = 10,18
5−1

A relação entre média e desvio-padrão é fundamental para se realizar análises sobre a


homogeneidade dos dados. A medida apropriada a esse propósito é o coeficiente de variação dado
por:

𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜
𝑐𝑣 = × 100
𝑚é𝑑𝑖𝑎

No caso dos dados anteriores, temos:

10,18
𝑐𝑣 = × 100 = 54,15%
18,8
Uma regra de interpretação dos valores de cv é: se cv < = 30% dados são considerados
homogêneos, valores de cv acima de 30% representam alta heterogeneidade, sendo que quanto
maior o cv, mais heterogêneos os dados. Neste caso, temos uma série com alta heterogeneidade
(54,15%).

3) Cálculo dos quartis


Uma medida muito importante nas estatísticas descritivas são os quartis, que implicam organizar
os dados do menor para o maior valor e dividi-los em quatro partes iguais. Considere a série de
dados a seguir.

13 18 7 22 34

Inicialmente, devemos organizar os dados em ordem crescente:

7
13

2
18
22
34

Para encontrar a posição dos quartis:

n é o tamanho da amostra, neste caso, n = 5, k aponta o caso da amostra que se refere ao quartil
desejado. Para o quartil 1, aplicamos:
𝑛+1 5+1
𝐾𝑄1 = = = 1,5 → 𝑝𝑜𝑠𝑖çã𝑜 𝑑𝑜 𝑞𝑢𝑎𝑟𝑡𝑖𝑙 1 é 𝑜 𝑐𝑎𝑠𝑜 1,5
4 4
Como não há caso 1,5, fazemos a média dos casos 1 e 2, então:

7 + 13
𝑄1 = = 10
2
Para o quartil 2, temos:

𝑛+1 5+1
𝐾𝑄2 = = =3
2 2
Neste caso, o terceiro caso da amostra é o valor 18, representando o quartil 2 ou a mediana.
Para o quartil 3, temos:

3(𝑛 + 1) 3(5 + 1)
𝐾𝑄3 = = = 4,5
4 4
Como não há um caso 4,5, devemos fazer a média entre o caso 4 e o caso 5, logo, o quartil 3 tem
o valor de 28 (média entre 22 e 34).
O quartil 4 é obtido por:
𝐾𝑄4 = n = 5
Logo, o quartil 4 tem o valor do caso 5 da amostra, neste caso, 34.

Semana 2 Inferência Estatística

4) Probabilidade – Distribuição Normal


A estimativa de probabilidade de ocorrência de um evento requer o conhecimento da distribuição
de probabilidade que o evento apresenta. Muitos fenômenos naturais e sociais se comportam
segundo o formato a seguir:

3
Fonte:
https://www.researchgate.net/publication/315950996_Controle_de_qualidade_aplicado_a_dados_gravimetricos/figures?l
o=1

Esse padrão de comportamento é conhecido como “distribuição normal”, e a curva teórica


apresentada acima pode ser usada para o cálculo de probabilidades de eventos que se comportem
dessa forma. Vejamos o seguinte exemplo: o ticket médio de uma loja de cookies artesanais é de
R$ 22,00, com desvio-padrão de R$ 7,00. Qual a probabilidade de se ter uma venda com valor
superior a R$ 40,00 nessa loja?
Assumindo que as vendas tenham uma distribuição normal, devemos padronizar os dados
calculando a estatística z para ser possível calcular a probabilidade.
𝑥 − 𝑚é𝑑𝑖𝑎 40 − 22
𝑧= = = 2,57
𝑑𝑒𝑠𝑣𝑖𝑜 − 𝑝𝑎𝑑𝑟ã𝑜 7

Para encontrar a área abaixo da curva normal equivalente ao valor z = 2,57, devemos identificar a
linha 2,5 e a coluna 0,07. A interseção das duas apresenta a área de -∞ até o valor z = 2,57. Neste
caso, a área é de 0,9949.

Observando a figura a seguir, temos que, até z = 2,57, pela tabela, a área é de 0,9949, mas
queremos saber qual é a área à esquerda de z, que representa P(x>40).

4
Área = 0,9949

Z = 2,57

Neste caso, temos:

P(x>40) = 1 - 0,9949 = 0,0051 ou 0,51%. Subtrai-se a área da tabela de 1, pois a área total da curva
vale 1. Neste caso, a probabilidade de se fazer uma venda com valor superior a R$ 40,00 é muito
baixa, de apenas 0,51%.
Caso nos interessasse a probabilidade de se fazer uma venda com valor inferior a R$ 40,00, a
probabilidade desejada seria exatamente a da tabela ou P(x<40)=0,9949 ou 99,49%.

Semana 3

5) Intervalos de confiança
Os intervalos de confiança são uma técnica para estimar um intervalo de variação para os valores
da média considerando um determinado nível de confiança. Em inferência sempre trabalhamos com
amostras com intuito de obter informações sobre a população. Por exemplo, se temos uma loja de
cookies artesanais, com ticket médio de R$ 22,00 calculado a partir de uma amostra de n = 300
clientes e desvio-padrão populacional de R$ 7,00. Qual o intervalo de confiança para o ticket médio
considerando confiança de 95%?
Primeiramente, é necessário reconhecer que, ao se trabalhar com inferência, sempre estaremos
sujeitos a um nível de erro. Neste caso, estamos considerando um erro de 5% (confiança de 95%),
o que quer dizer que se eu estimar 100 intervalos, 95 deles conterão o valor real da média e em 5
deles o valor real da média não estará contido (5 intervalos estarão errados). Como um intervalo
tem limite inferior e superior, dividimos o erro em duas partes, deixando, neste exemplo, 2,5% de
erro no lado inferior do intervalo e 2,5% de erro no lado superior do intervalo.
Tem-se as seguintes fórmulas para o intervalo:

𝑥 ± 𝑚 arg 𝑒 𝑚_𝑒𝑟𝑟𝑜

𝜎
𝑚 arg 𝑒 𝑚_𝑒𝑟𝑟𝑜 = 𝑧𝛼/2
√𝑛

5
O valor de z para alfa dividido por 2 (erro) deve ser obtido na tabela da distribuição normal. Como
se observa na figura da tabela a seguir, a área que representa 2,5% de erro é igual a 0,975 (1-
0,025), e o valor de z correspondente a essa área é de z=1,96.

Agora que z = 1,96 foi encontrado, podemos substituir os valores na fórmula.

7 7
22 − 1,96 < 𝜇 < 22 + 1,96
√300 √300

Com isso, temos um intervalo de [21,21; 22,79], ou seja, o ticket médio na população de clientes
está entre 21,21 e 22,79.

Semana 4

6) Conceitos dos testes de hipóteses


Em muitas situações, utilizamos os valores de uma amostra para comparar grupos, por exemplo,
se desejamos saber se a venda média da loja de cookies artesanais é mais elevada aos finais de
semana, comparado aos dias de semana, a partir de uma amostra de 150 vendas, precisaremos
utilizar um teste de hipóteses para ajudar a resolver o problema.
Um teste de hipóteses sempre apresenta um par de hipóteses a serem testadas, H0 (hipótese nula)
e H1 (hipótese alternativa). A H0 sempre conterá uma igualdade e H1 representa uma possível
diferença entre as vendas em dias de semana e aos finais de semana. Então teríamos:

6
H0: o ticket médio em dias de semana >= ticket médio aos finais de semana
H1: ticket médio em dias de semana < ticket médio aos finais de semana

Repare que a diferença está em H1 (ticket em final de semana é maior do que em dia de semana)
e H0 contém o complementar da H1, ou seja, a igualdade, a inexistência de diferença de ticket
médio entre dia de semana e finais de semana.
Os dados da amostra são as evidências empíricas que serão usadas para podermos, a um
determinado nível de erro alfa, rejeitar ou não H0. Ao se rejeitar H0, significa que conseguimos
provar H1.
Qualquer teste de hipóteses segue os seguintes passos básicos:
- Definir H0 e H1, respeitando a regra de que H1 contém a possível diferença a ser provada e H0 a
igualdade, complementando H1.
- Escolha do teste adequado. Em nossa disciplina vimos o teste t para duas amostras independentes
(compara dois grupos independentes, por exemplo, dia de semana e finais de semana), teste t para
duas amostras relacionadas (testes do tipo antes de depois, mede-se resultados antes de um
estímulo e após o estímulo para verificar se houve efeito) e ANOVA (teste para 3 ou mais amostras
independentes).
- Escolha do valor do erro alfa, este é o erro máximo que se aceita cometer no teste. Os valores
padrão são 1%, 5%, 10%, sendo que o analista deve optar por algum deles.
- Cálculo das estatísticas de teste. Utilizamos na disciplina um software para nos auxiliar nos
cálculos (análise de dados do Excel ou PSPP), porém as contas podem ser feitas aplicando-se as
fórmulas que constam no texto-base (ANDERSON, D R. et al. Estatística Aplicada a
Administração e Economia. 8 ed. São Paulo: Cengage Learning Brasil, 2020. Link:
https://integrada.minhabiblioteca.com.br/#/books/9786555583991 - Capítulo 9).
- Tomada de decisão do teste: comparar o valor-p obtido pelo passo anterior com o valor de alfa
fixado pelo analista, se valor-p < alfa, H0 deve ser rejeitado, se valor p >= alfa, H0 pode ser aceito.

7) Teste-t
O teste-t é apropriado em dois tipos de problemas: 1) comparações das médias entre dois grupos
independentes, por exemplo homens e mulheres, estudantes e profissionais já formados, setor de
serviços e indústrias, dentre outros; 2) estudos sobre a diferença de médias antes e depois de um
estímulo, por exemplo comparar se houve aumento de vendas após a implantação de um programa
de fidelidade.
Vejamos um exemplo para o teste-t de duas amostras independentes. Considere que a loja de
cookies deseja saber se as vendas aos finais de semana são maiores do que durante dias de
semana. Coletou uma amostra de 150 vendas.
As hipóteses seriam:
H0: ticket médio em dias de semana > = ticket médio aos finais de semana
H1: ticket médio em dias de semana < ticket médio aos finais de semana

O teste adequado é o teste-t para duas amostras independentes, pois as vendas em final de semana
são independentes das vendas em dia de semana. Vamos considerar alfa = 5%.
Os cálculos realizados no Excel indicam os resultados da tabela a seguir. Os valores coloridos em
vermelho indicam as médias de venda em dia de semana e aos finais de semana, sendo que nos
finais de semana, as vendas médias (média = 30,87) são ligeiramente maiores do que aos dias de
semana (média = 29,69). Como definimos um teste unicaudal (ou unilateral), devemos olhar o valor-
p destacado em roxo na tabela.

7
Fim de Dia de
semana semana
Média 30,86667 29,69333
Variância 134,982 181,9993
Observações 75 75
Hipótese da diferença de
média 0
gl 145
Stat t 0,570736
P(T<=t) unicaudal 0,284531
t crítico unicaudal 1,65543
P(T<=t) bicaudal 0,569062
t crítico bicaudal 1,97646

Neste caso, como o valor-p = 0,2845 > alfa = 0,05, não podemos rejeitar H0, ou seja, a diferença
de vendas nos dias de semana e aos finais de semana é muito pequena e não pode ser considerada
significativamente diferente.

Agora imagine que a loja de cookies tenha criado um programa de fidelidade para tentar aumentar
a recorrência das vendas e o ticket médio. O programa consiste de um cartão fidelidade em que, a
cada compra de 4 ou mais cookies se recebe um selo. Ao se juntarem 10 selos, o cliente recebe
um cookie gratuitamente. A loja extraiu uma amostra de 30 clientes e verificou quantos cookies
compravam em cada transação antes do programa e fez a mesma mensuração com os mesmos
clientes 60 dias após a implantação do programa. Será que os clientes passaram a comprar mais
cookies com a implantação do cartão fidelidade?
As hipóteses para esse teste são:
H0: média de cookies comprados antes do programa > = média cookies comprados após o
programa (programa não aumentou a quantidade de cookies comprados)
H1: média de cookies comprados antes do programa < média cookies comprados após o programa
(programa não aumentou a quantidade de cookies comprados)

O teste adequado é o teste-t para duas amostras relacionadas, pois trata-se de um estudo antes e
depois com os mesmos sujeitos. O valor de alfa adotado é igual a 5%. Os cálculos foram obtidos
com a ajuda do Microsoft Excel, como apresenta a tabela a seguir. Os valores em vermelho
representam a média, observa-se que a média de cookies comprados antes do programa era de
4,03 e depois passou a 4,47, ou seja, houve um aumento, mas esse aumento é estatisticamente
significante? Para isso, precisamos olhar o valor-p (em roxo) para o teste unilateral.

8
antes depois
Média 4,033333 4,466667
Variância 4,929885 6,257471
Observações 30 30
Correlação de Pearson -0,11465
Hipótese da diferença de
média 0
gl 29
Stat t -0,67237
P(T<=t) unicaudal 0,253336
t crítico unicaudal 1,699127
P(T<=t) bicaudal 0,506671
t crítico bicaudal 2,04523

Como o valor-p do teste unilateral é igual a 0,2533, não podemos rejeitar H0, ou seja, o programa
de fidelidade não teve efeito em aumentar significativamente o número médio de cookies comprados
pelos clientes.

Semana 5

8) ANOVA
A ANOVA é o terceiro tipo de teste visto na disciplina e é utilizado para comparar as médias de três
ou mais grupos simultaneamente. Os grupos devem ser independentes, por exemplo, setores da
economia, cursos de uma universidade, regiões de um país etc. Para a ANOVA, todos os passos
vistos de desenvolvimento de um teste devem ser seguidos. As hipóteses são padrão e sempre
serão postuladas da seguinte maneira:
H0: as médias dos grupos são iguais
H1: pelo menos um dos grupos apresenta média diferente dos demais

Vejamos um exemplo: a loja de cookies deseja identificar se os diferentes sabores do cardápio


apresentam nível de venda diferente, para isso, coletou uma amostra do valor médio vendido para
três sabores de cookie: crispy, nozes, red velvet. Como as vendas de cada tipo de sabor não
dependem umas das outras, temos um problema com três grupos independentes, por isso a ANOVA
é adequada.
As hipóteses para o teste são:
H0: a média de vendas para os sabores crispy, nozes e red velvet são iguais
H1: pelo menos um dos sabores tem média de vendas diferente dos demais
Consideramos alfa = 5%. Os resultados do teste realizado com apoio do Microsoft Excel são:
Em vermelho estão os valores das médias de vendas para os três sabores, sendo que velvet tem a
menor média e crispy a maior. Mas essas diferenças de média são significantes?

Grupo Contagem Soma Média Variância


crispy 11 180 16,36364 94,25455
nozes 11 153 13,90909 86,89091
velvet 11 135 12,27273 36,81818

9
O valor-p em roxo tem valor 0,534, que é maior que alfa = 0,05, logo, neste caso não há diferença
entre as vendas médias dos sabores.
ANOVA
Fonte da
variação SQ gl MQ F valor-P F crítico
Entre grupos 93,27273 2 46,63636 0,641892 0,533371 3,31583
Dentro dos
grupos 2179,636 30 72,65455

Total 2272,909 32

Agora, vamos imaginar que vamos testar um quarto sabor, triple chocolate. Rodamos novamente a
ANOVA incluindo o quarto sabor e temos os resultados:
As médias dos grupos representadas em vermelho indicam que a média do sabor triple é a mais
alta (média = 29,4), mas será a diferença de valores significante?

Grupo Contagem Soma Média Variância


crispy 11 180 16,36364 94,25455
nozes 11 153 13,90909 86,89091
velvet 11 135 12,27273 36,81818
triple 15 441 29,4 40,11429

O valor-p = 0,00 (destacado em roxo) indica rejeição de H0, pois é menor que 5%, logo, pelo menos
um sabor tem média de vendas diferente dos demais. Mas quais sabores são diferentes?
ANOVA
Fonte da
variação SQ gl MQ F valor-P F crítico

Entre grupos 2481,576 3 827,192 13,27738 0,00 2,816466


Dentro dos
grupos 2741,236 44 62,30083

Total 5222,813 47

É importante destacar que a ANOVA não aponta em qual par de sabores está a diferença, se H0 é
rejeitada, para identificar quais pares são diferentes, é necessário realizar um teste entre os pares.
Pode-se realizar um teste post hoc de Bonferoni no PSPP ou testar os pares pelo teste-t para
amostras independentes no próprio Excel. Na prova, os resultados das comparações para os pares
são apresentados da seguinte forma:

Comparação Valor-p
Crispy x nozes 0,089
Crispy x velvet 0,123
Crispy x triple 0,000
Nozes x velvet 0,589
Nozes x triple 0,000
Velvet x triple 0,000

10
As hipóteses são:
H0: média do sabor 1 = média sabor 2
H1: média sabor 1 é diferente da média do sabor 2

Dentre os valores-p apresentados acima, são menores de 5% apenas os destacados em amarelo,


ou seja, o sabor triple é diferente dos demais.

9) Diferenciando os testes-t e ANOVA


Para a escolha do teste apropriado, devemos responder à pergunta:
Quantos grupos serão comparados? Se houver dois grupos, escolheremos o teste-t, se houver 3
ou mais grupos, escolheremos a ANOVA.
Se nossa resposta for 2 grupos, devemos perguntar: nosso problema é do tipo antes e depois? Ou
os resultados de um grupo não influencia ou se relaciona com os resultados do outro grupo? Caso
tenhamos um estudo do tipo antes e depois, devemos escolher o teste-t para 2 amostras
relacionadas. Se o problema apresenta dois grupos que não são relacionados, usaremos o teste -t
para 2 amostras independentes.

Semana 6

10) Correlação
A correlação (r) é uma medida da associação linear entre duas variáveis. Avaliamos uma correlação
pelo sinal e por seu valor.
Sinal positivo: relação direta. Exemplo: a correlação entre velocidade e quantidade de acidentes
fatais em SP é r= 0,87, ou seja, quanto maior a velocidade permitida na via, maior a quantidade de
acidentes fatais.
Sinal negativo: relação inversa. Exemplo: a correlação entre inflação e consumo é r= - 0,62, ou seja,
quanto maior a inflação, menor o consumo das famílias.
Depois de olhar o sinal, devemos checar o valor da correlação em módulo, sendo:

Fraca: r<=|0,5|
Moderada: |0,5| < r <= |0,7|
Forte: r>|0,7|
Nos exemplos acima temos uma relação direta e forte entre velocidade e acidentes fatais e uma
relação inversa e moderada entre inflação e consumo.
Vale destacar que esses valores foram adotados como referência para a disciplina, porém outros
autores e outras áreas de conhecimento podem utilizar valores de referência diferentes dos
apresentados.

Semana 7

11) Regressão linear


A regressão linear é um modelo de previsão que se baseia na premissa de que uma variável y (a
ser prevista ou dependente ou resposta) tem relação linear com uma ou mais variável x (usada na
previsão, independente ou preditora). Podemos ter apenas uma variável y e ela deve ser métrica.
As variáveis x podem ser uma ou mais e podem tanto ser métricas quanto categóricas. Abaixo, um
exemplo de regressão em que se deseja prever o valor do empréstimo (y) concedido ao cliente com
11
base em (variáveis x) contratos anteriores de empréstimo, número de cartões de crédito do cliente
e renda.
A tabela abaixo apresenta a qualidade do modelo. Como se trata de uma regressão com 3 variáveis
x (contratos, cartões e renda), devemos olhar o R-quadrado ajustado (em amarelo), que indica que
58,79% do comportamento do valor do empréstimo é explicado pelas variáveis x do modelo.
Consideramos que modelos com explicação a partir de 50% apresentam ajuste razoável e, quanto
mais perto de 100%, melhor o poder preditivo do modelo.

Estatística de regressão
R múltiplo 0,767577
R-Quadrado 0,589174
R-quadrado
ajustado 0,587937
Erro padrão 140,2271
Observações 1000

A tabela ANOVA a seguir não deve ser confundida com o teste ANOVA para amostras
independentes. No caso da regressão, a ANOVA testa se pelo menos um coeficiente Beta de
regressão (ou uma variável x colocada no modelo) consegue influenciar y a ponto de ser possível
criar um modelo de regressão.

H0: os betas são iguais a zero (não tem regressão)


H1: pelo menos um beta é diferente de zero (tem regressão)

Neste caso, o valor-p (nomeado como F de significação) é igual a 0,00, como é menor que alfa =
5%, rejeitamos H0 e podemos concluir que é possível fazer uma regressão, pois pelo menos uma
variável x consegue influenciar y.

ANOVA
F de
gl SQ MQ F significação
Regressão 3 28087279 9362426 476,1288 0,00
Resíduo 996 19584988 19663,64
Total 999 47672267

Na tabela a seguir temos os resultados do modelo em si. Primeiro olhamos os valores-p de cada
variável x do modelo. Todas devem ter valor-p menor do que 0,05 para podermos dizer que são
significantes. Caso alguma tenha valor-p maior que 5%, ela não é significante e deve ser removida
do modelo e devemos rodá-lo novamente. No exemplo temos todos os valores-p das variáveis x
(amarelo) menores do que 5%, logo, todas as variáveis são significantes, ou seja, influenciam y.

H0: beta é igual a zero (variável não significante, não influencia y)


H1: beta é diferente de zero (variável significante, influencia y)

Como todas as variáveis são significantes, podemos olhar a stat t (vermelho) que nos dá uma ordem
de importância das variáveis. Quanto maior o valor de stat t, mais importante a variável. Neste
caso, temos que a variável mais importante é contratos, seguida de cartões e renda.

12
Os coeficientes (verde) são usados para criar a equação de regressão que de fato será usada para
fazer previsões. Neste caso, a equação será:

Y= -30,66 – 2,3*renda + 38,09 cartões + 122,12 contratos

Vale destacar que a interseção (intercepto vertical) tem o valor-p maior do que 5%, portanto não é
considerado significante. Porém, para se evitar mudar a forma da reta, mantemos seu valor na
equação.

Erro 95% 95%


Coeficientes padrão Stat t valor-P inferiores superiores

Interseção -30,6578 25,89439 -1,18396 0,24 -81,4717 20,15598

renda -2,3 0,000385 -0,05852 0,02 -0,00078 -0,000732

cartoes 38,08672 13,67246 2,785653 0,01 11,25659 64,91684

contratos 122,1178 3,232432 37,7789 0,00 115,7746 128,4609

Fechamento: A revisão aqui apresentada buscou esclarecer os pontos de dúvidas trazidos pela
turma ao longo do bimestre. Além disso, cobre de forma fidedigna o conteúdo abordado pela
disciplina e que será cobrado como checagem de aprendizado na prova final.

Desejo ótimos estudos e boa sorte na prova.

13

Você também pode gostar