Você está na página 1de 47

Relacionamento entre

duas variáveis
Aula IV
Relacionamento entre Variáveis

Por vezes nos deparamos em situação onde


queremos saber a relação existente entre duas
variáveis.

Por exemplo:

• Será que a avaliação do meu atendimento por parte


do cliente está relacionada a quantidade que este
consome do meu produto?
• O tempo de relacionamento do meu cliente com a
minha empresa possui conexão com o nível de
satisfação deste?
Aula IV
Relacionamento entre Variáveis

Uma medida que permite avaliar o


relacionamento entre variáveis chama-se Índice
de Correlação.

Existem diversos índices de correlação. O mais


utilizado entre estes é o Índice de Correlação
Linear de Pearson
Aula IV
Representação Gráfica da Correlação Linear

yy yy y

x x x
(a) Positiva (b) Fortemente (c) Perfeitamente
positiva Positiva
Aula IV
Representação Gráfica da Correlação Linear

y y y

x x x
(d) Negativa (e) Fortemente (f) Perfeitamente
Negativa Negativa
Aula IV
Representação Gráfica da Correlação Linear

y y

x x
(g) Ausência de (h) Exemplo de Correlação
Correlação Não Linear
Aula IV
Representação Numérica da Correlação Linear

É uma medida que varia de –1 a 1. O sinal da correlação


indica o sentido do relacionamento:

•Negativo (quando x cresce y decresce)


•Positivo (quando x cresce y também cresce)
•O valor da correlação não se altera se cada valor da
variável for convertido para uma escala diferente
•O valor da correlação não é afetado pela escolha de qual
variável é “y” ou qual é “x”
•É errado dizer que correlação implica em causalidade
Aula IV
Representação Numérica da Correlação Linear

• Além do sinal, o número indica a força do


relacionamento entre as duas variáveis. Quanto maior
o número em termos absolutos, maior o
relacionamento.

• Como regra prática:


• de 0 a 0.3 -> baixa correlação
• mais de 0.3 até 0.7 -> média correlação
• mais de 0.7 -> correlação alto
Aula IV
ATENÇÃO !!!

• As duas variáveis envolvidas devem necessariamente


ser contínuas. Caso isso não ocorra, outras medidas
deverão ser utilizadas para expressar o relacionamento
entre as duas variáveis
Aula IV
Um questionamento !!

 Suponha que se deseja avaliar o impacto da diferença


de preço de um produto com o seu concorrente no
Market Share. Qual técnica poderá ser utilizada?

Análise de Regressão
Aula IV
O que a Regressão Linear ?
 Constitui uma tentativa de estabelecer uma equação
matemática linear (equação da reta) que descreva o
relacionamento entre duas variáveis.

 Uma diferença entre a correlação e a regressão é que


com base na equação de regressão, é possível estimar
valores da variável “y” com base na variável x.
Aula IV
Algumas situações onde utiliza-se a Regressão

 Quando uma variável é dispendiosa ou difícil de lidar e a


outra não.

 Deseja-se a qualidade dos serviços com base em


diversos indicadores que são mais objetivos para
medição.

 Predizer valores futuros de uma variável

 Obs: a regressão NÃO é capaz de estabelecer relações


de causa e efeito. As relações de causa e efeito devem
ser definidas não só com base numérica mas com
conhecimento técnico do profissional.
Aula IV
Utilizando os modelos de regressão

Como utilizar os
modelos de
regressão?
Aula IV

Modelos de Regressão

 Principal objetivo do modelo de regressão

 Quantificar o relacionamento existente


entre as diversas variáveis de um
processo.
Aula IV

Exemplo 4.1

 Empresa: Nutrivida.

 Produto: Leite integral em caixa.

 Como quantificar a relação existente entre o market


share e a diferença entre o preço do leite integral
Nutrivida e o preço do principal concorrente?
Aula IV
Aula IV

 Por meio do modelo de regressão é possível


quantificar esta relação.

 No exemplo, este modelo é:


Aula IV

 Interpretação do modelo de regressão:

 Se a diferença entre os preços do leite da


Nutrivida e do leite do concorrente aumentar em
1,00 real, o market share da Nutrivida sofrerá
uma queda de 1,86.

 A relação existente entre a diferença de preço e o


market share é quantificada por meio deste valor,
que denominamos coeficiente da regressão.

 Quanto maior, em valor absoluto, é o coeficiente,


maior será o impacto do fator no market share.
Aula IV

 Genericamente o modelo de regressão linear é


representado por:

ŷ  ˆ o  ˆ 1X1
sendo:

ŷ : a variável resposta. No exemplo, esta variável


é o Market Share;

X1: o fator que explica a variável resposta. No


exemplo, este fator é a Diferença entre os
preços do leite da Nutivida e o preço do leite do
concorrente.
Aula IV

ˆ 1 : um coeficiente da regressão que quantifica a relação


entre o fator e a variável resposta. No exemplo,
quantifica a relação entre a Diferença e o Market
Share.

̂0 : outro coeficiente da regressão. Este valor é onde a


reta de regressão corta o eixo y, caso o coeficiente
seja igual a zero. No exemplo, este coeficiente assume
o valor 0,37. Isto indica que, se a diferença entre os
preços do leite da Nutrivida e do leite do concorrente
for zero, ou seja, as duas empresas praticam o mesmo
preço, o market share será de 0,37.
Aula IV

 No exemplo acima, estávamos interessados em


quantificar a relação existente entre um fator
(Diferença) e uma variável resposta (Market
Share).

 Sabendo que vários fatores podem alterar a


variável resposta, como quantificar a relação
existente entre estes vários fatores e a variável
resposta?

 Esta quantificação também poderá ser realizada


por meio da Análise de Regressão.
Aula IV
Exemplo 4.2

 Empresa: Voe Bem Airlines, empresa de


transporte aéreo.

 Problema: elevado número de reclamações feitas


ao Departamento de Aviação em relação a seus
serviços.

 Meta estabelecida: reduzir de 58 reclamações /


mês (janeiro a julho de 2016) para 10 reclamações
/ mês até dezembro de 2016.
Aula IV

 Após as estratificações, constatou-se que 70%


das reclamações eram referentes ao elevado
tempo de espera para atendimento de check-in
/ despacho de bagagens, no aeroporto de
Congonhas. Todas as reclamações eram de
passageiros de vôos com saídas previstas para
7:00 h a 9:00 h e 19:00 h a 21:00 h (horário de
pico).
Aula IV

 Uma análise preliminar no processo indicou que:

 O número de guichês para check-in por


passageiro era superior a todas as companhias
aéreas do aeroporto, entretanto o tempo médio
de fila era aproximadamente o dobro.

 Havia um elevado tempo no atendimento de


cada passageiro: 67% dos atendimentos tinham
um tempo superior a 5 minutos. Tempo máximo
observado na companhia com os melhores
indicadores (média = 2,5 minutos - Benchmark).
Aula IV

 Um modelo de regressão foi ajustado, para


determinar o impacto das seguintes variáveis de
processo, considerados como causas potenciais,
no tempo de atendimento:

1 Treinamento: número de horas de treinamento


realizado pelo atendente do check-in;

2 Senioridade: tempo de trabalho (meses) como


atendente no check-in;
Aula IV

3 Sistema: tempo total de sistema fora do ar


(segundos);

4 Bagagem: número médio de bagagens por


passageiro;

5 Frágil: número médio de bagagens consideradas


frágeis;

6 Peso: peso médio da bagagem por passageiro;

7 Balanceiro: número de vezes que o balanceiro


estava ausente no momento da pesagem da
bagagem;
Aula IV

8 Assento: número de passageiros com assento


reservado antecipadamente e confirmado no
momento do check-in;

9 Reserva: número de bilhetes sem reserva


atendidos;

10 Documentação: número de passageiros com


toda a documentação necessária para realizar o
check-in em mão;

 Os dados foram coletados nos horários de pico nos


dias úteis, em um período de 35 dias, e estão
apresentados na tabela a seguir:
Aula IV
Aula IV
Aula IV

 Genericamente, o modelo de regressão linear do


exemplo pode ser representado por:

ŷ  ˆ 0  ˆ1x1  ˆ 2x2  ˆ 3x3  ˆ 4x4  ˆ 5x5  ˆ 6x6  ˆ 7x7  ˆ 8x8  ˆ 9x9  ˆ10x10

yˆ : variável resposta. No exemplo, a variável resposta


é o tempo de atendimento;
X1,..., X10: são os fatores que afetam a variável
resposta escolhidos na análise qualitativa
do processo. Desejamos quantificar a
relação existente entre estes fatores e a
variável resposta tempo de atendimento.
Aula IV

 ˆ 1 , . ,  ˆ 10 : coeficientes de regressão que quantificam a


relação de cada fator e a variável resposta.
Quanto maior (em valor absoluto) um
coeficiente ˆ i
, maior o impacto do fator na
variável resposta.

0 : coeficiente que representa a média da


variável resposta quando todos os fatores
assumem um valor igual a zero (xi = 0).
Aula IV

 Sabendo que vários fatores podem alterar a


variável resposta tempo de atendimento, como
quantificar a relação existente entre estes vários
fatores e a variável resposta?

 Esta quantificação será feita por meio de


uma análise de regressão.
Aula IV

1º Passo - Avaliar a multicolinearidade

 Avaliar a multicolinearidade é avaliar o grau


de associação entre os fatores, isto é,
avaliar a correlação linear entre os fatores.

 Se fatores altamente correlacionadas são


incluídos no modelo de regressão, a
qualidade do ajuste fica comprometida.
Aula IV

 Considera-se que dois fatores são fortemente


correlacionados quando o coeficiente de
correlação linear de Pearson é maior do que 0,9
em valor absoluto.

 Se dois fatores são altamente correlacionados,


deve-se:
Aula IV

 Para o exemplo:
Aula IV

 As únicas variáveis que apresentam um


coeficiente de correlação linear acima de 0,9
são Bagagem e Peso.

 Como a empresa possui mais controle sobre o


peso da bagagem do que sobre o número de
bagagens por passageiro, escolheu-se incluir
no modelo de regressão a variável peso da
bagagem.
Aula IV

2º Passo - Ajustar o modelo de regressão com todos


os fatores selecionados
 Com o ajuste do modelo de regressão iremos testar
se a influência de cada fator na variável resposta
Volume de vendas pode ser considerada
significativa.
Aula IV

 A regra de decisão para este teste é baseada no


valor p (p - value).

 Para a = 0,05, tem-se a seguinte regra:

 P  0,05  o fator influencia


significativamente.

 P > 0,05  o fator não influencia


significativamente.
Aula IV

 No exemplo:

 O maior valor - p é da variável Frágil.


Como este é maior que 0,05, indicando
que não exerce influência no tempo de
atendimento, iremos retirar a variável
do modelo de regressão.
Aula IV

3º Passo - Ajustar o modelo de regressão retirando


os fatores não significativos

 Ajuste do modelo sem a variável Frágil.


Aula IV

 O maior valor-p é da variável Reserva. Como

este é maior que 0,05, indicando que não exerce

influência no tempo de atendimento, iremos

retirar esta variável do modelo de regressão


Aula IV

 Ajuste do modelo sem a variável Reserva.


Aula IV

 O maior valor-p é da variável Treinamento.


Como este é menor que 0,05, indicando que
exerce influência no tempo de atendimento,
iremos mantê-la no modelo de regressão.

 Como todas as variáveis possuem um valor-p


menor que 0,05, podemos concluir que exercem
influência significativa no tempo de
atendimento e o modelo de regressão deve
permanecer com todas estas variáveis.
Aula IV

 A equação de regressão para o tempo de


atendimento é:
Aula IV

 Aumentando o tempo de treinamento do atendente


em uma hora reduziremos o tempo de atendimento
em 0,08 segundos.

 Aumentando o tempo de trabalho como atendente


no check-in de um mês, reduziremos o tempo de
atendimento em 0,17 segundos.

 Reduzindo o tempo total do sistema fora do ar de


um segundo, reduziremos o tempo de atendimento
em 0,13 segundos.
Aula IV

 Reduzindo o peso médio da bagagem por


passageiro de um quilo, reduziremos o tempo
de atendimento em 0,60 segundos.

 Aumentando de 1 o número de passageiros


com toda a documentação necessária para
realizar o check-in em mão, reduziremos o
tempo de atendimento em 0,25 segundos.
Aula IV

 Neste exemplo 97,4% da variabilidade do tempo de


atendimento são explicados pelo modelo de
regressão:

Importante:

 Um R2adj muito baixo significa que o modelo


obtido não conseguiu explicar grande parte
da variabilidade dos dados. Quanto mais
próximo de 1 melhor o ajuste.

Você também pode gostar