Você está na página 1de 78

EXCEL AVANÇADO

Parte 3
Info@conexaoacademica.com
CONEXÃO ACADÊMICA
Índice
10. FERRAMENTAS DE ANÁLISE ........................................................................................ 3
10.1. Teste t: duas amostras emparelhadas para médias ............................................ 3
10.2. Teste t: duas amostras com variâncias iguais .................................................... 10
10.3. Teste t: duas amostras com variâncias desiguais .............................................. 13
10.4. Teste Z: duas amostras para médias ................................................................. 17
10.5. ANOVA (Analysis of Variance)............................................................................ 20
10.5.1. A Distribuição F........................................................................................ 21
10.5.2. ANOVA: Fator Único ................................................................................ 27
10.5.3. ANOVA: Fator Duplo Sem Repetição ....................................................... 34
10.5.4. ANOVA: Fator Duplo Com Repetição ...................................................... 38
10.6. Covariância e Correlação ................................................................................... 41
10.7. Média Móvel ...................................................................................................... 47
10.8. Ajuste Exponencial ............................................................................................. 51
10.9. Regressão ........................................................................................................... 56

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
10. FERRAMENTAS DE ANÁLISE

As ferramentas de análise do Excel constituem-se em instrumentos úteis para a


análise de dados e tomada de decisão. Algumas destas ferramentas já foram
apresentadas nas partes anteriores, tais como:

 Ordem e Percentil;

 Histograma;

 Estatística Descritiva;

 Amostragem; e

 Geração de Número Aleatório.

Agora, veremos outras úteis à área financeira. Juntamente com estas


ferramentas, veremos as funções do Excel que podem ser utilizadas
alternativamente, quando tais funções existirem.

10.1. Teste t: duas amostras emparelhadas para médias

Exemplo 80

Um sindicato de trabalhadores de certa região está discutindo com a indústria


local defendendo a idéia de que os trabalhadores têm seus salários estagnados
desde há quatro anos. A indústria refuta o argumento dizendo que, na verdade,
há ganhos no salário real médio, em função dos aumentos que esta vem
concedendo aos trabalhadores devido a ganhos de produtividade.

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Para resolver a questão, são selecionados aleatoriamente dez trabalhadores e
seus salários registrados como na Figura 223:

Figura 223.

A questão que se discute aqui é que se a média salarial aumentou ou não


nesse período de 4 anos. Como a amostra é pequena (n = 10) utilizamos a
estatística t. É necessário primeiro, definirmos duas hipóteses: uma hipótese
nula (H0) , que será testada, de que a média salarial de 2006 (que chamaremos
de 1) é igual à média salarial de 2010 (que chamaremos de 2) e uma
hipótese alternativa (Ha) de que a média salarial de 2010 é maior do que a
média salarial de 2006. Assim:

H0: 1 = 2 ou 1 - 2 = 0

Ha: 2 > 1 ou 2 - 1 > 0

Depois, é preciso definir um nível de confiança dentro do qual H0 será aceita ou


rejeitada. Por exemplo, 95%. Se 95% é o nível de confiança, então o erro
tolerado, ou nível de significância () será de 5%, isto é,  = 5%.

A seguir, com os valores das duas variáveis, formamos a série D das


̅ e o desvio-padrão sD. Isto é
diferenças entre os valores, calculamos a média 𝐷
mostrado na Figura 224:

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 224.

O próximo passo é calcular o t observado (t0) ou estatística-t cuja fórmula é a


seguinte:

̅−0
𝐷
𝑡0 = 𝑠𝐷
√𝑁
ou seja,

219 − 0
𝑡0 = = 6,58682
105,14
√10
Em quarto, é necessário definir o chamado t crítico (tc), valor que delimitará a
área de aceitação ou rejeição de H0. Graficamente, isto é mostrado como:

Região de Aceitação Região Crítica

95%

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
tc

Aceita-se H0 Rejeita-se H0

Como a hipótese alternativa Ha é a de que 2 > 1, a região crítica localiza-se


na cauda direita da distribuição t. O t crítico pode ser encontrado utilizando-se a
função INVT (já apresentada na Parte 1, Exemplo 28, página 85) informando-
se no argumento Probabilidade o percentual de 10% (pois o teste será
realizado numa única cauda e a função devolve o valor crítico para as duas
caudas) e graus de liberdade igual a n -1 = 10 – 1 = 9. No caso deste exemplo
o t crítico é 1,8331.

Uma abordagem para resolver o problema é definir um intervalo de confiança


(IC) para a média das diferenças salariais, ou seja

𝑠𝐷 105,14
̅ ± 𝑡𝑐
𝐼𝐶 𝑝𝑎𝑟𝑎 𝜇𝐷 = 𝐷 = 219 ± (1,8331)
√𝑛 √10

e 158,05 ≤ D ≤ 279,95

Dado que os salários de 2006 têm média menor, este intervalo nos diz que
podemos estar 95% confiantes de que a média dos salários de 2010 excederá
a média de 2006 de $158,05 a $279,95. Ou equivalentemente, a média salarial
de 2006 apresentará uma média inferior à de 2010 entre $158,05 e $279,95.

Outra abordagem é comparar o t0 com o tc. Como o t0 é de 6,586 e o tc é de


1,8331, t0 > tc, estando pois na região crítica da figura acima.

Para realizar este teste de hipótese podemos usar a ferramenta Teste t: duas
amostras emparelhadas para a média. No separador Dados, no bloco
Análise, clique em Análise de Dados e depois selecione a ferramenta
mencionada, preenchendo seus argumentos conforme mostrado na Figura 224:

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 224.

 No bloco Entrada, são copiados para Intervalo da variável 1 e Intervalo da


variável 2 os intervalos de células B1:B11 e C1:C11 que se referem aos
salários de 2010 e 2006, respectivamente. Em Hipótese de diferença de
média digitamos 0 (zero) pois a hipótese a ser testada é que não há diferença
entre as médias salariais dos dois anos. Em Rótulos, selecionamos essa
opção pois os intervalos B1:B11 e C1:C11 incluem seus respectivos títulos.
Em Alfa, digitamos 0,05, o nível de significância adotado;

 No bloco Opções de Saída selecionamos Intervalo de saída pois queremos


que os dados estejam na própria folha que está sendo utilizada, e depois
copiamos uma célula a partir da qual os dados serão apresentados. Esta
célula, no caso, foi a F2.

 Depois de tudo preenchido clique no botão OK. O resultado é o mostrado na


Figura 225.

Veja, na Figura 225, que a média salarial é maior em 2010 do que em 2006.
Mas é preciso saber se esta diferença entre as médias é estatisticamente
significante. Veja que o t observado (Stat t na Figura 225) é 6,5868, que é
maior do que o t crítico de 1,8331. Logo, o t observado está na região de
rejeição de H0. Uma outra maneira de ver isso é comparar o valor  = 5% com

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
o p-value, que no caso da Figura 225 tem a expressão P(T<=t) uni-caudal.
Como o p-value é inferior a , rejeitamos a hipótese nula pois a diferença de
médias é significativa.

Figura 225.

Alternativamente à esta ferramenta pode-se usar também a função estatística


TESTET, cujo preenchimento dos argumentos está mostrado na Figura 226:

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 226.

 Nos argumentos Matriz1 e Matriz2 são copiados os intervalos numéricos dos


salários de 2010 e 2006, respectivamente.

 No argumento Caudas digitamos 1, pois o teste está sendo realizado em


apenas 1 cauda;

 No argumento Tipo digitamos 1, pois o tipo de teste é o de amostras


emparelhadas.

Veja que o resultado gerado pela função é o p-value já referido.

Este teste possui algumas premissas:

 As populações das quais as amostras são retiradas estão relacionadas, isto


é, não são populações independentes. Neste exemplo, a população era a
mesma, a dos trabalhadores da indústria. Neste caso, a variável de interesse
é a diferença entre os pares das duas amostras, e não as próprias amostras;

 As amostras devem ter o mesmo tamanho;

 A(s) população(ões) da(s) qual(is) as amostras foram retiradas devem ter


distribuição aproximadamente normal.

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
10.2. Teste t: duas amostras com variâncias iguais

As premissas nas quais este teste pode ser realizado são as seguintes:

 As populações das quais as amostras foram retiradas são independentes e


devem ter distribuição aproximadamente normal.

 As variâncias das populações são desconhecidas, mas são supostas iguais.


Esta premissa não é tão absurda assim. Por exemplo, sabe-se que em
determinados processos industriais ou em linhas de montagem de certos
bens, alterações nos processos de fabricação podem modificar a média de
produção mas mantêm a variância inalterada.

 As amostras não precisam ser do mesmo tamanho.

 Se as variâncias das populações são desconhecidas, a variância da


distribuição da diferença das duas médias será obtida pela expressão:

(𝑛1 − 1)𝑠12 + (𝑛2 − 1)𝑠22


𝑠𝑝2 =
𝑛1 + 𝑛2 − 2

em que

𝑠𝑝2 é a variância agrupada (do inglês pooled variance, daí porque o p no


subscrito)

𝑠12 e 𝑠22 são as variâncias das duas amostras

𝑛1 e 𝑛2 são os tamanhos das amostras das populações 1 e 2, respectivamente

𝑛1 + 𝑛2 − 2 são os graus de liberdade

O t observado é obtido com a expressão:

(𝑋̅1 − 𝑋̅2 ) − (𝜇1 − 𝜇2 )


𝑡0 =
1 1
√𝑠𝑝2 (
𝑛1 𝑛2 )
+

10

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
 Se as duas amostras tiverem o mesmo tamanho, n1 = n2, a variância
agrupada é igual a:

𝑠12 + 𝑠22
𝑠𝑝2 =
2
Exemplo 81

Duas máquinas realizam o mesmo trabalho. Entretanto, a máquina B custa


30% a mais do que a máquina A. O fabricante da máquina B justifica esse
custo maior com o argumento de que a produção média de B é maior do que a
de A. O Diretor Financeiro de uma empresa interessada na compra de uma das
máquinas, quer saber se essa justificativa é verdadeira ou não para tomar a
decisão de comprar a máquina B ou a mais barata, A. Assim, o teste de
hipótese é o seguinte:

H0 : A = B ou A - B = 0

Ha : B > A ou B - A> 0

ou seja, H0 = não há diferença na produtividade média das máquinas; H 1 = a


produtividade média de B é maior do que a de A.

Amostragens diárias de produção das duas máquinas foram feitas e os


resultados são mostrados na Figura 227. Assume-se que a produção das
máquinas é normalmente distribuída com variâncias iguais

Figura 227.

11

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Para verificar se a afirmação do fabricante da máquina B deve ser aceita ou
não, utilizamos a ferramenta de análise Teste T: duas amostras com variâncias
iguais. O preenchimento desta ferramenta é mostrado na Figura 228 e os
resultados na Figura 229:

Figura 228.

Figura 229.

12

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Veja, na Figura 229 que, embora a média da máquina B seja superior à da
máquina A, esta diferença não é estatisticamente significante, considerando-
se um  = 5% . Isto pode ser observado comparando-se o t crítico uni-caudal
(1,8331) com o t observado (Stat t) de 0,51527. Como t0 < tc, a hipótese nula H0
deve ser aceita. O mesmo resultado pode ser obtido comparando-se o  com o
p-value (P(T<=t) uni-caudal). Como o p-value é maior do que o , H0 não deve
ser rejeitado. Portanto, a afirmação do fabricante da máquina B não se justifica
e concluímos, a um nível de confiança de 95%, que ambas as máquinas tem a
mesma produtividade média.

O mesmo resultado pode ser obtido com a função estatística TESTET, já


apresentado na seção anterior, que devolve o p-value do teste. A Figura 230
mostra o preenchimento dessa função:

Figura 230.

10.3. Teste t: duas amostras com variâncias desiguais

As premissas do teste de hipótese da diferença das médias de duas


populações, presumindo-se variâncias desconhecidas e desiguais, são as
mesmas da seção anterior, porém com as seguintes alterações nos cálculos:

13

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
 A estatística a ser utilizada é o teste t´, definida pela seguinte expressão:
´
̅̅̅1 − 𝑋
𝑋 ̅̅̅2
𝑡´ =
𝑠12 𝑠22

𝑛1 + 𝑛2

 os graus de liberdade são obtidos de acordo com a expressão:


2
𝑠2 𝑠2
(𝑛1 + 𝑛2 )
1 2
𝑔𝑙 = 2 2
𝑠12 𝑠22
(𝑛 ) (𝑛 )
1 2
+
𝑛1 − 1 𝑛2 − 1

Exemplo 82

Certa empresa resolveu fazer um estudo para determinar se existe diferença


nas despesas médias por consumidor de seu produto na cidade A e na cidade
B. Dez consumidores de cada cidade foram selecionados aleatoriamente e
suas despesas mensais com o produto foram registradas tal como mostrado na
Figura 231. Assume-se que a população de consumidores seja normalmente
distribuída e com variância desconhecida e desigual devido, possivelmente, às
diferenças de renda entre os consumidores.

14

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 231.

O teste de hipótese a ser considerado é o seguinte:

H0 : A = B ou A - B = 0

Ha : B  A

ou seja, agora, o que se quer saber é se a média de despesas é igual ou


diferente, seja para mais ou para menos. Portanto, temos um teste bi-caudal.

Este problema pode ser resolvido com a ferramenta Teste T: duas amostras
com variâncias desiguais. O preenchimento desta ferramenta é mostrado na
Figura 232 e os resultados apresentados na Figura 233. Veja, naquela figura,
que, aparentemente, a média de gastos na cidade A é superior à média da
cidade B. Entretanto, esta diferença não é estatisticamente significante,
considerando-se um  = 5%, já que a Stat t ( = 0,4344) é inferior ao t crítico bi-
caudal de 2,1098. Além disso, o p-value bi-caudal (= 0,6694) é superior ao  de
0,05. Assim, diante das evidências, H0 não deve ser rejeitada.

15

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 232.

Figura 233.

Este exemplo também pode ser resolvido com a função estatística TESTET,
cujo preenchimento é mostrado na Figura 234, e que devolve o p-value bi-
caudal.

16

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 234.

10.4. Teste Z: duas amostras para médias

Se duas populações são independentes e as suas variâncias desconhecidas, e


dessas populações são extraídas amostras aleatórias de tamanho grande
(n≥30), pode-se utilizar a ferramenta Teste Z: duas amostras para médias, para
testar hipóteses sobre as diferenças de médias das populações.

 O Z observado, Z0, é obtido com a seguinte expressão:

̅̅̅1 − 𝑋
𝑋 ̅̅̅2
𝑍𝑜 =
𝑠12 𝑠22

𝑛1 + 𝑛2

 As amostras não precisam ser de mesmo tamanho.

Exemplo 83

Uma indústria química iniciou um teste para comparar a efetividade de dois


tipos de fertilizantes químicos, Fertilizante 1 e Fertilizante 2. Quarenta acres de
milho foram plantados com cada tipo de fertilizante. Os incrementos nos

17

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
rendimentos de milho por acre estão mostrados na Figura 235 (parcialmente.
Para ver toda a série, vá ao Livro 3 do Excel), onde também foram calculadas
as variâncias para cada um dos fertilizantes. A indústria quer saber se há ou
não diferença na produtividade média dos fertilizantes, com o objetivo de
discriminar preços, isto é, se a produtividade de ambos for a mesma, os preços
serão os mesmos; se as produtividades forem diferentes, então os preços
também serão diferentes.

Figura 235.

O teste de hipótese a ser considerado é o seguinte:

H0 : 1 = 2 ou 1 - 2 = 0

Ha : 1  2

Tratando-se, novamente, de um teste bi-caudal.

Como a amostra é grande, 40 acres, podemos utilizar a ferramenta Teste Z:


duas amostras para médias, para tomar a decisão. O preenchimento desta
ferramenta está mostrado na Figura 236 (uma observação importante quanto

18

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
ao preenchimento dos argumentos, é que as variâncias das amostras devem
ser digitadas, e não copiadas das células), e os resultados apresentados na
Figura 237. Podemos ver nesta figura que, embora a média do Fertilizante 2
seja maior do que a do Fertilizante 1, isto não é estatisticamente significante ao
nível de 5%. O z observado (z) é inferior ao z crítico bi-caudal, além do que o p-
value bi-caudal (P(Z<=z) bi-caudal) é maior do que o  de 5%. Portanto, não há
evidências de que as produtividades médias dos dois fertilizantes sejam
diferentes, não se rejeitando H0. Logo, não se recomenda discriminação de
preços.

Figura 236.

19

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 237.

10.5. ANOVA (Analysis of Variance)

Até a seção anterior, tratamos de testes de hipóteses para a comparação de


diferenças entre médias de duas populações, considerando ainda as variâncias
dessas populações. Nesta seção, estenderemos os testes de hipóteses para a
comparação de médias de mais de duas populações. A Análise da Variância ou
ANOVA é um procedimento extremamente útil quando se quer testar, por
exemplo, a eficiência de diversas marcas de remédios que combatem uma
mesma doença, a produtividade de vários grupos de empregados após várias
seções de treinamento, etc.

O objetivo da análise da variância é verificar se as amostras foram retiradas de


populações com o mesmo valor de média. Se as médias das amostras forem
diferentes entre si, cabe a pergunta: por quê as médias das amostras são
diferentes? A variabilidade total pode ser dividida em dois grupos ou fontes de
variabilidade:

 O primeiro grupo de variabilidade pode ser porque as populações são


realmente diferentes. Isto é denominado variabilidade entre. Quanto maior for

20

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
a variabilidade entre maior a evidência de que existam diferenças entre as
populações das quais as amostras foram retiradas.

 O segundo grupo de variabilidade é causado pelas diferenças dentro de cada


amostra. Isto é denominado variabilidade dentro. Quanto maior for a
variabilidade dentro maior será a dificuldade para concluir que as populações
são diferentes.

As premissas da Análise da Variância são as seguintes:

 As populações têm a mesma variância.

 As amostras são retiradas de populações com distribuição normal.

 As amostras são aleatórias e independentes.

O teste de hipótese a ser realizado é o seguinte:

 A hipótese nula H0 afirma que as k populações têm a mesma média.

 A hipótese alternativa Ha afirna que nem todas as médias das k populações


são iguais, pelo menos duas médias são diferentes.

Antes porém, de avançarmos com a ANOVA, precisamos aprender alguma


coisa sobre a Distribuição F e o Teste F.

10.5.1. A Distribuição F

Para verificar se duas populações independentes têm a mesma variância, é


utilizada uma estatística da relação das variâncias amostrais
2 2
F0 = s 1/s 2 (denominada de F observado) retiradas das populações. Se as
distribuições das duas populações forem normais, então a relação s 21/s22 tem
distribuição F, desenvolvida por Sir Ronald Fisher em 1924. Sempre que as
distribuições das populações forem normais, a distribuição F será utilizada
também para comparar duas ou mais médias simultaneamente.

As principais características da distribuição F são as seguintes:

 É contínua e positiva com valores no intervalo (0, + ∞).

21

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
 Há uma família de distribuições F identificadas por dois parâmetros: graus de
liberdade do numerador (v1) e graus de liberdade do denominador (v2).

Uma curva típica da Distribuição F tem a seguinte configuração:

Exemplo 84

Uma associação de pais de alunos de escolas públicas tem reclamado junto ao


Ministério da Educação de que o ensino privado tem melhor qualidade do que o
público, e que o governo nada tem feito para mudar esta situação. O Ministério
refuta esta acusação dizendo que vem desenvolvendo práticas de ensino
semelhantes aos das escolas privadas, e que, atualmente, não há diversidade
nenhuma no desempenho escolar dos alunos matriculados em escolas
públicas em relação aos matriculados em escolas privadas. A associação de
pais então resolve fazer um teste de Matemática em 6 alunos aleatoriamente
escolhidos de escolas públicas e privadas. Os resultados dos testes estão
apresentados na Figura 238, admitindo-se que as populações sejam normais.

Figura 238.

22

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
O que se quer provar aqui é se as variâncias no ensino são iguais ou não.
Assim, o teste de hipótese a ser feito é:

H0 : 2PRI = 2PU

Ha : 2PRI  2PU

Primeiro, calculamos as variâncias de ambas as séries de notas. Estas


variâncias são: s2PRI = 9,0666667 e s2PU = 5,86667. A seguir, achamos F0
dividindo a primeira variância pela segunda. Logo, F0 = 1,545. Agora,
precisamos determinar se F0 excede algum valor crítico o qual indicaria que a
diferença entre as variâncias amostrais é grande demais para ser explicada
simplesmente por erro amostral. Este valor crítico, Fc, pode ser encontrado com
a função estatística INVF. Antes de usá-la é preciso alguns esclarecimentos
sobre o seu preenchimento:

a) No argumento Probabilidade é inserido o valor  (nível de significância)


desejado. Entretanto, como a área da distribuição varia de (0, + ∞), é
necessário dividir esse  por 2 e posicionar a área de rejeição na cauda
direita igual a /2. Assim, para um  = 5%, digitaremos 2,5%.

b) A Distribuição F carrega 2 graus de liberdade que devem ser


identificados: um para o numerador, o qual é v1 = n1 – 1, e um para o
denominador, o qual é v2 = n2 – 1. No exemplo presente, os graus de
liberdade são: v1 = 6 – 1 = 5 e v2 = 6-1 = 5.

A função INVF está apresentada na Figura 239:

23

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 239.

Portanto, o F crítico é 7,14. Na figura a seguir, mostramos a distribuição F


comparando o F crítico com o F observado:

f(F)

Área de Rejeição de

Área de H0

Aceitação de H0

0,025

0 1,545 7,14 F

Regra de Decisão: Não rejeitar H0 se F0 < Fc. Rejeitar H0 se F0 > Fc.

24

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Assim, diante das evidências apresentadas, devemos dar razão ao Ministério
da Educação.

Uma outra maneira de resolver o problema é comparar o p-value da


distribuição com o valor  definido. Para obter o p-value, pode ser usada a
função estatística DISTF, mostrada na Figura 240:

Figura 240.

Veja que no argumento X é digitado o valor de F0. Como o p-value de 0,322 é


maior do que o  de 0,05, não rejeitamos H0.

Uma terceira maneira de resolver o problema é utilizar a ferramenta de análise


Teste F: duas amostras para variâncias. O preenchimento dos argumentos
desta ferramenta e os resultados da análise estão apresentados nas Figuras
241 e 242, respectivamente.

25

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 241.

Figura 242.

Veja, na Figura 242, que os resultados são os mesmos daqueles já


encontrados.

Finalmente, podemos também resolver este problema usando a função


estatística TESTF, que dá o p-value da distribuição. Entretanto, é preciso notar
que o resultado gerado por esta função é o dobro do p-value correto. Portanto,
após introduzir os dados nos argumentos e obter o resultado, este deve ser
dividido por 2. A Figura 243 mostra a função TESTF:

26

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 243.

Com esta abordagem à Distribuição F, passamos à análise ANOVA.

10.5.2. ANOVA: Fator Único

Esta ferramenta realiza uma análise simples de variância referente aos dados
de uma ou mais amostras, quando apenas um fator é considerado a influenciar
as unidades experimentais.

Exemplo 85

O Diretor de Administração de uma empresa quer determinar se três


programas diferentes de treinamento têm efeitos diferentes sobre os níveis de
produtividade de seus empregados. Quatorze empregados são selecionados
aleatoriamente e indicados para um dos três programas. Quatro empregados
são designados para o Programa 1, e cinco para cada um dos outros dois.
Cada um desses grupos serão tratados como amostras separadas e usados
para fazer inferências sobre a população de empregados que deve entrar nos
próximos programas. Os scores dos testes após o treinamento estão
mostrados na Figura 244:

27

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 244.

Portanto, o que se quer determinar é o efeito dos programas sobre a


produtividade média dos empregados. Assim, o teste de hipótese é:

H0 : 1 = 2 = 3

Ha : nem todas as médias são iguais

A seguir, na Figura 245, apresentamos o preenchimento da ferramenta Anova:


factor único, e os resultados na Figura 246.

Figura 245.

28

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
. Figura 246.

 No primeiro bloco da ferramenta Anova: fator único é apresentado um


sumário estatístico dos grupos (contagem, soma, média e variância);

 A ANOVA é baseada na comparação do montante de variação em cada um


dos tratamentos (amostras). Se a variação de um tratamento para o outro é
significativamente alta, pode-se concluir que os tratamentos estão tendo
efeitos diferentes sobre a população. Na Figura 246 podemos identificar três
tipos, ou fontes, de variação:

 Existe variação entre o número total de todas as 14 observações. Nem


todos os 14 empregados obtiveram o mesmo score no teste. Isto é chamado
de variação total (251,71429). Como se verá, esta variação é a soma das
duas seguintes;

 Existe variação entre os diferentes tratamentos. Os empregados no


Programa 1 não obtiveram os mesmos scores daqueles nos Programas 2 ou
3. Isto é chamado de variação entre grupos (65,714286);

 Existe variação dentro de qualquer um dos tratamentos. Nem todos os


empregados na primeira amostra, por exemplo, obtiveram o mesmo score.
Isto é chamado variação dentro de grupos (186).

29

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
É comparando estas diferentes fontes de variação que a ANOVA pode ser
usada para testar a igualdade em médias de diferentes populações. Qualquer
diferença que os tratamentos possam ter na produtividade dos empregados
será detectada por uma comparação destas formas de variação.

Para determinar se os diferentes tratamentos têm diferentes efeitos nas suas


respectivas populações, uma comparação é feita entre a variação dentro de
grupos (D/G) e a variação entre grupos (E/G). A variação nos scores dentro
de qualquer grupo pode ser causada por várias fontes: habilidade natural dos
empregados na amostra, motivação pessoal, esforços individuais, sorte, etc.
O tratamento em si não produzirá qualquer variação nas observações dentro
de qualquer amostra porque todas as observações naquela amostra recebem
o mesmo tratamento.

Assunto diferente é com a variação entre amostras. A variação nos scores


entre amostras (de uma amostra para outra) pode ser causada pelos mesmos
fatores aleatórios que influenciam a variação dentro de uma amostra
(habilidade, motivação, sorte, etc.) mais qualquer influência adicional que os
diferentes tratamentos possam ter. Portanto, pode existir um efeito-tratamento
entre amostras porque cada amostra tem um tratamento diferente.

Se um efeito-tratamento existe, ele pode ser detectado pela comparação das


variações entre amostra e dentro da amostra. Se a variação entre amostras é
significativamente maior do que a variação dentro de amostras, existe um
forte efeito-tratamento. Esta diferença entre variações entre e dentro de
amostras é precisamente o que a ANOVA mede. ANOVA é um rácio da
variação entre amostras e dentro de amostras. Se os diferentes tratamentos
estão tendo diferentes efeitos, a variação entre eles subirá, causando
aumento no rácio. Este rácio é baseado no F observado (Fo) introduzido
anteriormente:

𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑒𝑛𝑡𝑟𝑒
𝐹0 =
𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑑𝑒𝑛𝑡𝑟𝑜

Na Figura 246 o Fo = 1,943164, obtido pela divisão da Média dos Quadrados


(MQ) da variação entre grupos (32,85714) e da variação dentro de grupos

30

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
(16,90909). Para obter a MQ das variações entre e dentro os seguintes
cálculos são necessários:

a) Cálculo da Grande Média (𝑿 ̿ ). A Grande Média é a média das médias


das 14 observações ponderadas pelo respectivo número de elementos
em cada grupo.
Como pode ser visto na Figura 246, as médias de cada amostra são:

𝑋̅1 = 80; 𝑋̅2 = 81; 𝑋̅3 = 85

e na primeira amostra temos n1 = 4 elementos; na segunda amostra n2 =


5 elementos = n3 na terceira amostra. Assim a Grande Média é:

4 ∗ 80 + 5 ∗ 81 + 5 ∗ 85
̿=
𝑿 = 82,1429
14
ou mais genericamente:

∑𝑐𝑗=1 𝑟𝑗 𝑋̅𝑗
̿=
𝑿
𝑛
em que

rj é o número de observações na j-ésima amostra

c é o número de amostras ou tratamentos

b) Cálculo da Soma dos Quadrados (SQ) da variação entre. Para


encontrar este resultado somamos a variância das médias de cada
amostra em relação à Grande Média, ponderada pelo número de
elementos de cada amostra, ou seja:

𝑆𝑄 𝑒𝑛𝑡𝑟𝑒 = 4(80 − 82,14)2 + 5(81 − 82,14)2 + 5(85 − 82,14)2 = 65,71

ou mais genericamente:

2
𝑆𝑄 𝑒𝑛𝑡𝑟𝑒 = ∑ 𝑟𝑗 (𝑋̅𝑗 − 𝑿
̿)

31

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
c) Cálculo da Soma dos Quadrados (SQ) da variação dentro. Para
encontrar este resultado somamos as somas das variâncias de cada
grupo em relação à média do grupo, ou seja:

𝑆𝑄 𝑑𝑒𝑛𝑡𝑟𝑜 = (85 − 80)2 + (72 − 80)2 + (83 − 80)2 + (80 − 80)2 +


(80 − 81)2 + (84 − 81)2 + ⋯ + (82 − 85)2 + ⋯ + (88 − 85)2 = 186

ou mais genericamente:

2
𝑆𝑄 𝑑𝑒𝑛𝑡𝑟𝑜 = ∑ ∑(𝑋𝑖𝑗 − 𝑋̅𝑗 )

d) Cálculo do Total da Soma dos Quadrados (TSQ). Este resultado é,


simplesmente, a soma de SQ entre com SQ dentro, ou seja:

TSQ = SQ entre + SQ dentro = 65,71 + 186 = 251,71

e) Cálculo dos Graus de Liberdade (gl) e da Média da Soma dos


Quadrados. Após obter as somas dos quadrados, cada uma é dividida
pelo seu grau de liberdade. Uma soma de quadrados dividida pelo seu
grau de liberdade, resulta numa média da soma dos quadrados (MQ).

Grau de liberdade pode ser definido como o número total de


observações no conjunto de dados menos quaisquer restrições que
possam ocorrer. Uma restrição é qualquer valor que foi calculado do
conjunto de dados.

O cálculo da soma dos quadrados da variação entre envolveu o uso de c


= 3 médias amostrais. As médias amostrais são, portanto, vistas como
restrições. Assim, a SQ da variação entre tem c -1 gl. Logo, a MQ da
variação entre é:
𝑆𝑄𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑒𝑛𝑡𝑟𝑒 65,71
𝑀𝑄𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑒𝑛𝑡𝑟𝑒 = = = 32,86
𝑐−1 2

O cálculo da soma dos quadrados da variação dentro foi feito


considerando os desvios das n = 14 observações em relação às c = 3

32

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
médias amostrais. Assim, a SQ da variação dentro tem n – c gl. Logo, a
MQ da variação dentro (também chamada de MQ dos erros) é:

𝑆𝑄𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑑𝑒𝑛𝑡𝑟𝑜 186


𝑀𝑄𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑑𝑒𝑛𝑡𝑟𝑜 = = = 16,91
𝑛−𝑐 11

Note que os graus de liberdade do Total da Soma dos Quadrados é,


simplesmente, a soma dos graus de liberdade de cada uma das
variações.

Obtidas as médias dos quadrados das variações entre e dentro, dividimos


uma pela outra para encontrar o F observado, como já mencionado:

𝑀𝑄𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑒𝑛𝑡𝑟𝑒 32,86


𝐹𝑂 = = = 1,9432
𝑀𝑄𝑣𝑎𝑟𝑖𝑎çã𝑜 𝑑𝑒𝑛𝑡𝑟𝑜 16,91

Esse valor é usado como a base da ANOVA para testar hipóteses relativas à
igualdade de médias.

O F crítico (Fc) = 3,982298 com o qual o Fo será comparado é obtido com a


função estatística INF (já apresentada) considerando como Probabilidade o
valor  estabelecido, que, no caso é de 5%, e graus de liberdade 2 e 11,
respectivamente.

A regra de decisão é mostrada no desenho abaixo:

f(F)

Área de Rejeição de

Área de H0

Aceitação de H0

0,05

33

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
0 1,94 3,98 F

Regra de Decisão. Não rejeitar H0 se F0 < Fc. Rejeitar H0 se F0 > Fc.

Como 1,94 < 3,98, não rejeitamos H0. Portanto, não há evidências, ao nível
de confiança de 95%, que os scores médios dos testes são diferentes para
todos os três programas de treinamento. Ou seja, não há efeito significante de
tratamento associado com qualquer um dos programas.

A mesma conclusão pode ser obtida comparando-se o p-value de 0,1893 com


o  = 0,05. O p-value pode ser obtido com a função estatística DISTF,
introduzindo-se no argumento X o Fo de 1,9432 e os graus de liberdade 2 e
11, respectivamente.
Como p-value > , não rejeitamos H0.

10.5.3. ANOVA: Fator Duplo Sem Repetição

Na análise anterior com a ANOVA consideramos apenas a influência de um


único fator como determinante dos resultados. Entretanto, em várias ocasiões,
um segundo fator pode também influenciar os resultados da experiência. Por
exemplo, podemos estar interessados em comparar a produtividade média de
três diferentes tipos de máquinas (tratamentos). Porém, notamos que, ao testar
essas máquinas, a habilidade e a experiência dos operadores ou a própria
localização das máquinas podem afetar o resultado, causando confusão sobre
que máquina é realmente melhor. De maneira a obter uma medida decisiva da
capacidade da máquina, temos que “bloquear” o fator “estranho” posicionando
as observações em blocos homogéneos baseados em anos de experiência.
Assim, as observações são classificadas em blocos e tratamentos. O propósito
de bloquear é diminuir a variação dentro de um tratamento (tipo de máquina).

Exemplo 86

Uma empresa está tentando selecionar um sistema integrado de software


dentre três modelos em consideração. A escolha final dependerá da
produtividade do sistema. Cinco operadores são selecionados aleatoriamente
para operar cada sistema. É importante notar que o nível de experiência que os
operadores têm em operar computadores pode afetar o resultado do teste.

34

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Existe, portanto, a necessidade de considerar o impacto da experiência na
determinação dos méritos relativos dos sistemas. Os níveis de produto
resultantes, medidos em unidades por hora, estão registrados na Figura 247:

Figura 247.

A empresa deve primeiro testar a hipótese de que o nível médio de produto


para cada nível de experiência do operador é o mesmo. Se for, então a
experiência do operador não é fator determinante no produto gerado. Se não
for, então a empresa deve bloquear a experiência do operador de maneira a
corrigir seu impacto e assim obter uma medida mais acurada das diferenças na
qualidade dos sistemas. A hipótese a testar é:

H0 : 1 = 2 = 3 = 4 = 5

Ha : nem todas as linhas são iguais

onde i são os níveis médios de produto para cada nível de experiência do


operador (linhas).

A ferramenta ANOVA: fator duplo sem repetição é apresentada na Figura 248 e


seus resultados, na Figura 249:

35

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 248.

Figura 249.

 Na parte de cima da Figura 249 são mostrados os níveis de experiência de


cada operador e os sistemas de software. As estatísticas relativas aos níveis
de experiência são calculadas em linha, enquanto para os sistemas são
calculadas em coluna.

36

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
 Na parte de baixo, no bloco ANOVA, cabe notar o seguinte:

 Linhas corresponde à variação entre blocos;

 Colunas corresponde à variação entre amostras

 Erro corresponde à variação dentro de amostras

 São calculados dois F observados – um para Linhas e o outro para


Colunas. O F observado para Linhas é calculado de maneira a determinar se
o “bloqueamento” foi feito corretamente. Se o “bloqueamento” for baseado
num fator que não afeta a produtividade do operador, os resultados são
incoerentes. A empresa deve, portanto, testar se existe uma diferença
significativa entre as médias das linhas. Se não existir diferença significante
entre os níveis médios de produto baseados na experiência dos operadores,
então a experiência não é um fator crítico. Admitindo um  = 5%, o Fc para
Linhas com 4 e 8 gl é 3,838. Os gl´s de 4 e 8 são usados porque a MQ para
blocos usa l – 1 = 4 gl e a MQ do Erro usa (l – 1) (c – 1) = 8 gl. Assim, a
regra de decisão é a seguinte:

Regra de Decisão. Não rejeitar H0 se F0 <3,838. Rejeitar H0 se F0 > 3,838.

Na Figura 249 vemos que Fo = 37,25 > Fc = 3,838 e, assim, H0 deve ser
rejeitado, e a empresa deve concluir que os níveis de experiência tem um
efeito no produto gerado. Isto então deve ser corrigido.

A empresa está agora pronta para testar a hipótese na qual estava


originalmente interessada. Existe alguma diferença no produto médio dos
sistemas? O conjunto de hipóteses é:

H0 : 1 = 2 = 3

Ha : nem todas as colunas são iguais

onde i são os níveis médios de produto para os três sistemas de


computador.

Mantendo  = 5%, para c – 1 = 3 – 1 = 2 gl e (l – 1) (c – 1) = 8 gl, o Fc =


4,459.

Regra de Decisão. Não rejeitar H0 se F0 <4,459. Rejeitar H0 se F0 > 4,459.

37

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Na Figura 249 vemos que Fo = 0,091 < Fc = 4,459 e, assim, H0 não deve ser
rejeitado, e a empresa deve concluir que os níveis médios de produtos dos
três sistemas não diferem uma vez que a correção pela experiência dos
operadores tenha sido feita.

10.5.4. ANOVA: Fator Duplo Com Repetição

Na seção anterior reconhecemos a presença de um segundo fator que poderia


influenciar as unidades experimentais. Uma vez que não tínhamos interesse
em analisar este segundo efeito, eliminamos seu impacto. No exemplo sobre a
produtividade dos sistemas de software, nos preocupamos que a experiência
dos operadores contaminasse o resultado e, assim, bloqueamos os níveis de
experiência.

Assuma agora que queiramos testar três sistemas de computador, e também


comparar o efeito de dois softwares diferentes no resultado. Assim, desejamos
testar simultaneamente o efeito sobre o produto gerado a partir de dois fatores:
o sistema de computador e o software utilizado. O instrumental próprio a ser
empregado é chamado análise fatorial com repetição.

Na análise fatorial com repetição conduzimos um teste de efeitos principais


para cada fator. Cada teste é muito parecido com os realizados anteriormente:
são especificados para determinar se diferentes níveis de cada fator impactam
nas unidades experimentais de maneiras diferentes. Se não houver efeitos
importantes para um fator, H0 não será rejeitada.

Na análise fatorial com repetição existem dois fatores a considerar. Cada fator
tem mais de um nível. Dizemos que o Fator A tem a níveis e o Fator B tem b
níveis. No nosso caso particular, queremos comparar três sistemas de
computador e dois pacotes de softwares. Portanto, o Fator A tem 3 níveis e o
Fator B 2 níveis. Existem a*b, ou seis combinações sistema/pacote. Cada
combinação é chamada de tratamento. Existem então, seis diferentes
tratamentos sob consideração. Cada tratamento, ou combinação
sistema/software, é mostrada numa das seis células numa matriz de
combinações conforme pode ser visto no Exemplo 87.

Nas discussões acima sobre a ANOVA cada célula da tabela dos exemplos
continha uma única observação. Entretanto, neste novo tipo de análise, mais

38

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
de uma observação deve aparecer na célula apropriada. O número de
observações dentro de uma célula é chamado de repetição, r. A Figura 250 do
Exemplo 87 ilustra isto. Em cada uma das 6 células (o software 1 opera em 3
sistemas, assim como o software 2) o produto das unidades experimentais
aparece. O software 1 opera no sistema 1 e produz 27 unidades de produto,
mas também produz 26 e 25, etc. O teste deve ser esquematizado de maneira
que cada célula tenha o mesmo número de observações. Com três
observações em cada uma das 6 células, existem 18 unidades experimentais.

Exemplo 87

Uma empresa deseja testar a interação entre três sistemas de computador e


dois pacotes de softwares. A Figura 250 mostra os resultados obtidos:

Figura 250.

Há três hipóteses H0 a serem testadas:

H0: as médias das colunas são todas iguais (efeitos-principais para o fator
sistema de computadores)

H0: as médias das linhas são todas iguais (efeitos-principais para o fator
software)

H0: não há interação presente

39

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
As hipóteses alternativas para cada teste são exatamente o contrário, como é o
caso usual.

A ferramenta Anova: factor duplo com repetição é apresentada na Figura 251 e


os resultados na Figura 252.

Figura 251.

No argumento Linhas por amostra foi digitado o valor 3 porque são três linhas
para cada combinação computador/software.

40

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 252.

 Na parte SUMÁRIO são apresentadas as medidas estatísticas da


combinação sistema de computador/software. As somas, médias e variâncias
são obtidas por colunas.

 No bloco ANOVA vemos as análises geradas:

 Amostra são as Linhas e Dentro é o Erro.

 Ao nível de 5%, a hipótese H0: não há interação presente, não é rejeitada.


Entretanto, para as demais hipóteses nulas, rejeitamos H0.

10.6. Covariância e Correlação

As ferramentas Covariância e Correlação medem a direção e a força da


relação linear entre de duas variáveis.

A Covariância entre duas variáveis X = x1, x2, …, xn e Y = y1, y2, …, yn é dada


pelas seguintes fórmulas:

 Se X e Y forem populações:

∑𝑁
𝑖=1(𝑋𝑖 − 𝜇𝑋 )(𝑌𝑖 − 𝜇𝑌 )
𝜎𝑋𝑌 =
𝑁

41

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
em que i, i = X; Y é a média de X e de Y e N é o tamanho da população.

 Se X e Y forem amostras:

∑𝑁 ̅ ̅
𝑖=1(𝑋𝑖 − 𝑋 )(𝑌𝑖 − 𝑌 )
𝑆𝑋𝑌 =
𝑛−1
em que 𝑋̅ e 𝑌̅ são as médias de X e Y, respectivamente, e n é o tamanho da
amostra.

A covariância pode assumir qualquer valor no campo dos reais, pois pode ser
positiva, negativa, nula, inteira ou fracionária.

Uma propriedade importante da Covariância é que se duas variáveis X e Y


forem estatisticamente independentes, então sua Covariância será zero, mas o
contrário não é necessariamente verdadeiro, isto é, o fato de Cov (X, Y) = 0
não implica que X e Y sejam independentes, a não ser que seja verificada a
seguinte condição: P (X e Y) = P (X)*P (Y).

O problema com o uso da Covariância é que a unidade de medida resultante é


o produto das unidades de medida das variáveis X e Y, o que pode não vir a
fazer sentido algum. Por exemplo, se X = receita mensal e Y = taxa de retorno
mensal, então o resultado da Covariância será expresso como $-%, que não
tem nenhum significado prático. Por isso, prefere-se o uso da Correlação.

A Correlação entre duas variáveis X = x1, x2, …, xn e Y = y1, y2, …, yn é dada


pelas seguintes fórmulas:

 Se X e Y forem populações:
𝜎𝑋𝑌
𝜌𝑋𝑌 =
𝜎𝑋 𝜎𝑌

em que i, i = X; Y é o desvio-padrão de X e de Y.

 Se X e Y forem amostras:

𝑆𝑋𝑌
𝑟𝑋𝑌 =
𝑆𝑋 𝑆𝑌

em que Si, i =X; Y é o desvio-padrão de X e Y, respectivamente.

42

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Portanto, no caso da Correlação, não há diferença entre Correlação da
população e da amostra.

A correlação é um coeficiente que varia entre -1 e +1. Isto é, -1 ≤ rXY ≤ +1.


Quanto mais próximo de -1 estiver rxy mais perfeitamente relacionadas de
forma negativa estarão as variáveis. Contrariamente, quanto mais próximo de
+1 estiver rXY mais perfeitamente relacionadas de forma positiva estarão as
variáveis. Se rXY = 0, não há correlação linear entre as variáveis (embora possa
haver outro tipo de relação).

O coeficiente de correlação, como já mencionado, mede a direção e a força da


relação linear entre duas variáveis. Mas não é uma medida de causa e efeito.
O fato, por exemplo, de X e Y terem um rXY positivo alto, digamos, 0,9, não
implica que a variação de Y seja causada pela variação de X, ou vice-versa.

Exemplo 88

Um investidor está interessado em comprar duas ações, A e B. Entretanto, ele


só o fará se estas tiverem uma relação negativa entre si. Uma relação negativa
entre duas variáveis significa que estas caminham em direções opostas, isto é,
enquanto uma sobe a outra desce. Em termos de ações, isto significa que
enquanto uma ação é cíclica (acompanha a evolução da economia) a outra é
anti-cíclica (caminha em direção oposta à evolução da economia), e assim, na
média, o investidor espera estar sempre ganhando. Este investidor então
recolhe os retornos anuais dessas duas ações nos últimos seis anos,
mostrados na Figura 253.

Figura 253.

43

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
A Figura 254 mostra a ferramenta COVARIÂNCIA e seu preenchimento. Os
resultados são mostrados na Figura 255:

Figura 254.

Figura 255.

A ferramenta COVARIÂNCIA apresenta os resultados em forma de matriz (isto


é muito útil quando há mais de duas variáveis a serem relacionadas). Este
resultado também pode ser obtido com a função estatística COVAR, mostrada
na Figura 256.

Embora a covariância entre as duas ações seja negativa, ela não dá uma idéia
precisa da força dessa relação negativa. Uma medida melhor é a Correlação.
Na Figura 257 apresentamos a ferramenta CORRELAÇÃO e seu

44

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
preenchimento, e os resultados são apresentados na Figura 258. A correlação
de -0,92 mostra uma forte relação linear negativa entre as duas ações, o que
deverá motivar o investidor a adquiri-las (Veja o Gráfico 1). Este mesmo
resultado pode ser obtido com as funções estatísticas CORREL e PEARSON.
Como o preenchimento destas duas funções é o mesmo, apresentamos
apenas, na Figura 259, a função CORREL.

Figura 256.

Figura 257.

45

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 258.

Figura 259.

46

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Gráfico 1.

Veja pelo Gráfico 1 que o comportamento das ações são quase que
perfeitamente opostos. Enquanto uma está subindo, a outra está descendo.

10.7. Média Móvel

A Média Móvel (MM) é uma das técnicas de “alisamento” de séries temporais.


Um dos objetivos da análise de séries temporais é prever valores futuros. O
comportamento de uma variável pode ser melhor entendido pelo exame de sua
tendência de longo prazo. Entretanto, se a série temporal contém muitas
variações aleatórias ou mudanças sazonais de curto prazo, a tendência pode
ser, de alguma forma, obscurecida e tornar-se difícil a sua observação. É
possível, no entanto, eliminar muitos destes fatores tomando a média dos
dados durante vários períodos. Isto é conseguido pelo uso de certas técnicas
de alisamento que removem flutuações aleatórias na série, fornecendo, dessa
forma, uma visão menos obscurecida do verdadeiro comportamento da
variável.

A MM tem o efeito de “alisar” os dados, produzindo um movimento com poucos


“picos” e “vales”. A MM é computada tomando a média dos valores da série
durante um certo número de períodos, sendo uma estimativa da média de
longo prazo da série.

47

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Exemplo 89

Certa empresa está interessada em prever suas vendas para o mês de Janeiro
do ano seguinte. Os dados sobre as vendas do ano em curso estão mostrados
na Figura 260.

Figura 260.

Veja, na Figura 260, que as vendas flutuam consideravelmente ao longo do


ano, apresentando frequentes “picos” e “vales”, ficando difícil enxergar a
“verdadeira” tendência das vendas. De forma a “suavizar” estas flutuações,
podemos utilizar a Média Móvel.

A Figura 261 apresenta o preenchimento da ferramenta Média Móvel, utilizando


como período de média móvel, 3 meses, e a Figura 262, os resultados.

48

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 261.

Na opção Intervalo, digitamos 3, o período escolhido para a MM. Não foi


selecionada a opção Resultado do gráfico.

Figura 262.

49

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
 A primeira previsão, 60, posicionada no mês de Abril, corresponde à média
aritmética dos valores de Janeiro, Fevereiro e Março, ou seja, (52 + 81 + 47)
/3. A segunda previsão, 64,333, é a média aritmética dos meses de Fevereiro,
Março e Abril, isto é, (81 + 47 + 65) / 3, e assim sucessivamente. Assim, a
previsão de vendas para o mês de Janeiro do ano seguinte é 62 ($6.200). Na
coluna ao lado são mostrados os erros-padrão, os desvios das projeções
baseadas na média dos k erros ao quadrado, aplicando a fórmula:

∑𝑡𝑖=𝑡−𝑘+1(𝑥𝑖 − 𝑥̂𝑖 )2
𝑆=√
𝑘

onde k é o número de períodos da MM.

 A apresentação das projeções na Figura 262 pode ser melhorada eliminando-


se os #N/D e reduzindo-se as casas decimais para duas, por exemplo.

Agora, para o mesmo exemplo, juntamente com a MM para 3 meses, vamos


utilizar uma MM para 5 meses. Isto é mostrado na Figura 263.

No Gráfico 2, juntamos as três séries: os dados originais de vendas e as


projeções com as MM para 3 e 5 meses.

Repare, na Figura 263 e Gráfico 2 que, se os dados forem bastante voláteis,


um número menor de períodos deve ser usado na previsão para evitar
posicioná-la próxima demais da média de longo prazo. Se os dados não têm
grandes variações da média de longo prazo, um número maior de períodos
deve ser usado na formação da Média Móvel.

50

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 263.

Gráfico 2.

10.8. Ajuste Exponencial

51

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Ajuste Exponencial (AE) é outra técnica de “suavização” de séries temporais.
Ajuste Exponencial de primeira ordem é usado quando os dados não exibem
qualquer padrão de tendência. O modelo contém um mecanismo de auto
correção que ajusta as previsões na direção oposta dos erros passados. A
equação do Ajuste Exponencial é:

𝐹𝑡+1 =∝ 𝐴𝑡 + (1−∝)𝐹𝑡

onde

Ft+1 é a previsão para o periodo seguinte

At é o valor real observado para o período corrente

Ft é a previsão feita para o período corrente

O termo  é uma “constante de alisamento” que varia ente 0 e 1. Uma vez que
os dados não tem tendência para cima ou para baixo, mas flutuam ao redor de
uma média de longo prazo, toma-se o valor Ft+1 como a previsão para qualquer
período futuro.

Exemplo 90

Suponha que hoje seja o último dia útil de Fevereiro. As vendas de certa
empresa para o mês foram de $110.000. A empresa decidiu prever as suas
vendas para o mês de Março. De acordo com a fórmula do AE, a previsão para
Março, Ft+1 , requer:

1. As vendas verificadas em Fevereiro, At.


2. A previsão para Fevereiro, Ft.

Entretanto, como Março é o primeiro mês de previsão, não há nenhuma


previsão para Fevereiro, e Ft é desconhecido. Seguindo a prática geral,
simplesmente usamos o valor observado em Janeiro como o primeiro valor
para previsão. Em Janeiro, as vendas foram de $105.000. Assumindo um  =
0,3, a previsão para Março é:

𝐹𝑀𝐴𝑅Ç𝑂 = 0,3𝐴𝐹𝐸𝑉 + (1 − 0,3)𝐹𝐹𝐸𝑉 = 0,3 ∗ 110 + 0,7 ∗ 105 = 106,5

52

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Portanto, as vendas previstas para Março são de $106.500. Admita que as
vendas efetivamente ocorridas em Março tenham sido de $107.000. A previsão
para Abril agora seria:

𝐹𝐴𝐵𝑅𝐼𝐿 = 0,3𝐴𝑀𝐴𝑅 + (1 − 0,3)𝐹𝑀𝐴𝑅 = 0,3 ∗ 107 + 0,7 ∗ 106,5 = 106,65

Assumindo que as vendas de Abril tenham sido de $112.000, a previsão para


Maio seria:

𝐹𝑀𝐴𝐼 = 0,3𝐴𝐴𝐵𝑅 + (1 − 0,3)𝐹𝐴𝐵𝑅 = 0,3 ∗ 112 + 0,7 ∗ 106,5 = 108,26

O valor escolhido para  é crucial. Quanto maior for o valor de , maior é o


peso atribuído às observações mais recentes da série.

Exemplo 91

Continuando com o Exemplo 90, suponha que tenhamos as vendas da


empresa registradas até Julho e desejamos fazer a previsão das vendas para
Agosto. Na Figura 264 estão registradas estas vendas.

Figura 264.

Vamos utilizar agora a ferramenta Ajuste Exponencial para prever as vendas


de Agosto, com dois ´s – o primeiro  = 0,3 e o segundo igual a 0,8. A Figura
265 mostra a ferramenta Ajuste Exponencial e seu preenchimento:

53

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 265.

Na opção Factor de amortecimento digitamos 0,7, pois o Fator de


Amortecimento = 1 - . Portanto, se queremos  = 0,3, digitamos 0,7. Se  =
0,8, digitamos 0,2.

Para a primeira previsão ( = 0,3), o intervalo de saída é a célula C2. Para a


segunda previsão ( = 0,8), o intervalo de saída é a célula D2. Os resultados
estão mostrados na Figura 266:

Figura 266.

Um  = 0,8 produz melhor previsão uma vez que gera um menor erro quadrado
médio (EQM). O erro quadrado médio é dado pela seguinte expressão:

54

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
∑(𝐹𝑡 − 𝐴𝑡 )2
𝐸𝑄𝑀 =
𝑛−1
O numerador da expressão acima pode ser facilmente obtido com a função
matemática SOMAXMY2, que soma os quadrados das diferenças de valores
correspondentes em dois intervalos ou matrizes (Veja Figuras 267 e 268).
Assim:

Para  = 0,3

Figura 267.

Dividimos 139,25 por 6 (dado que n = 7), obtendo um EQM = 23,21

Para  = 0,8

55

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 268.

EQM = 139 / 6 = 22,87

10.9. Regressão

Na seção sobre Covariância e Correlação quisemos identificar a direção e a


força da relação linear entre variáveis. Nesta seção, além de continuarmos
interessados nestas relações, desejamos também saber se é possível
representar as variáveis em análise por uma função estatística que exprima o
comportamento de uma variável em função da outra, de maneira a se prever o
comportamento de uma das variáveis quando a outra for alterada. Na análise
de regressão, estimamos uma função com base numa amostra de certa
população, e inferimos o comportamento dessa população com base no
comportamento da amostra.

Como exemplo de trabalho, utilizaremos a famosa função consumo


keynesiana, conceito desenvolvido pelo economista britânico J.M. Keynes em
sua revolucionária obra de 1936 “A Teoria Geral do Emprego, do Juro e da
Moeda”. Naquela obra, Keynes declarou que “a lei psicológica fundamental…é
que os homens, como regra e na média, se dispõem a aumentar seu consumo

56

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
quando sua renda aumenta, mas não na mesma proporção desta”. Desde
então, esta relação foi testada inúmeras vezes. Faremos isto também,
utilizando dados do PNB – Produto Nacional Bruto (uma medida da renda
nacional) e das Despesas de Consumo para a economia dos EUA no periodo
1990 – 2009. A Figura 269 mostra esses dados, expressos em bilhões de
dólares em termos reais (descontada a inflação). Iniciaremos com as funções
estatísticas voltadas para este tipo de análise e depois, apresentaremos a
ferramenta Regressão.

1) Especificação das variáveis

Precisamos especificar inicialmente, qual é a variável dependente e qual é a


variável independente. No caso, como o nível de consumo (C) deve
depender, supostamente, do nível de renda (R), fica claro que consumo é a
variável dependente e renda a variável independente. Assim:

C = f (R)

2) Especificação do tipo de relação

Keynes afirmou que Consumo e Renda relacionam-se de forma positiva


(quando a Renda sobe o Consumo sobe; quando a Renda cai, também cai o
Consumo) mas não especificou o tipo de relação entre as duas variáveis.
Assim, precisamos testar se as variáveis em questão têm realmente uma
relação positiva, se esta relação pode ser representada por uma relação
linear (como hipótese inicial) e qual a força dessa relação. Usamos então a
função estatística CORREL (Figura 270).

57

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 269.

58

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 270.

Veja que o coeficiente de correlação é 0,995, uma correlação quase que


perfeita entre as variáveis. Portanto, até aqui, podemos afirmar, com base nos
dados, que existe uma forte relação linear positiva entre Consumo e Renda. O
passo seguinte é encontrar os coeficientes dessa relação.

3) Especificação dos coeficientes angular e linear

As funções estatísticas DECLIVE e INTERCEPTAR fornecem os


coeficientes angular e linear, respectivamente, de uma função de regressão
linear (veja as Figuras 271 e 272):

59

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 271.

Figura 272.

Portanto, nosso modelo econométrico para a Função Consumo pode ser


expresso como:

𝐶̂ = 0,771𝑅 − 934,01

Nesta função, verificamos que, no periodo 1990 – 2009, o coeficiente de


declividade ou angular (também chamado, no caso da função consumo, de

60

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Propensão Marginal a Consumir [PMGC]) foi de aproximadamente 0,771,
sugerindo que um aumento de um dólar na renda real provoca, em média,
um aumento de cerca de 77 centavos de dólar na despesa real de consumo.
Dissemos “em média” porque a relação entre renda e consumo (como
muitas outras relações económicas, financeiras e sociais) é inexata. Isto
quer dizer que nem todos os indivíduos se comportarão conforme prediz a
teoria, mas que, na média, a teoria se verifica.

Sem querer aprofundar o assunto, mas valendo a pena ser mencionado, o


método de obtenção dos coeficientes da reta de regressão é o chamado
método dos mínimos quadrados ordinários (MMQO), e as expressões
matemáticas dos coeficientes são as seguintes:

Coeficiente angular (𝛽̂2):

∑(𝑷𝑵𝑩𝒊 − ̅̅̅̅̅̅̅
𝑷𝑵𝑩)(𝑪𝒊 − 𝑪 ̅)
̂𝟐 =
𝜷
̅̅̅̅̅̅̅)𝟐
∑(𝑷𝑵𝑩𝒊 − 𝑷𝑵𝑩

Coeficiente linear (𝛽̂1):

̂𝟏 = 𝑪
𝜷 ̂ 𝟐 ̅̅̅̅̅̅̅
̅−𝜷 𝑷𝑵𝑩

em que, por convenção, os acentos circunflexos nos  indicam que os


valores são estimativas dos verdadeiros  da reta de regressão da
população.

4) Testes de Hipóteses

Supondo que o modelo encontrado seja uma aproximação razoavelmente


boa da realidade, temos de desenvolver critérios adequados para descobrir
se as estimativas que serão obtidas com o uso da equação 𝐶̂ = 0,771𝑅 −
934,01 satisfazem as expectativas da teoria que está sendo testada. Como
já foi destacado, Keynes supunha que a PMGC fosse positiva mas menor do
que 1. Neste exemplo, obtivemos, realmente, uma PMGC de

61

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
aproximadamente 0,771. Mas antes de aceitarmos este resultado como uma
confirmação da teoria keynesiana do consumo, devemos testar se esta
estimativa está suficientemente abaixo de 1para nos convencermos de que
não se trata de uma ocorrência casual ou uma peculiaridade da amostra
específica que utilizamos. Em outras palavras, 0,771 é estatisticamente
menor do que 1? Se for, pode sustentar a teoria de Keynes.

Veremos isso mais adiante com a ferramenta REGRESSÃO.

5) Previsão

Se o modelo acima confirmar a hipótese ou teoria em consideração,


podemos usá-lo para prever os valores futuros da variável dependente, o
consumo, no caso, com base nos valores futuros conhecidos ou esperados
da variável independente, a renda (ou PNB), no caso.

A título de ilustração, suponha uma expectativa de um PNB real para 2010


de USD 13.378,36 (bilhões). Qual a previsão de consumo para 2010?
Podemos utilizar a Função Consumo para dar a resposta, ou seja:

𝐶̂ = 0,770848 ∗ 13.378,36 − 934,01 = 9.378,67

ou a função estatística PREVISÃO, mostrada na Figura 273:

62

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 273.

No argumento X foi digitado o valor do PNB estimado para 2010, $13.378,36


(bilhões). Nos argumentos Val_conhecidos _y e Val_conhecidos_x foram
copiados os intervalos C2:C21 e B2:B21 da Figura 269, referentes,
respectivamente, aos valores do Consumo e do PNB. Portanto, o consumo
previsto para 2010 é de USD 9.378,67 (bilhões).

Se acreditarmos que temos um bom modelo e que este é estável, ou seja, que
se mantenha durante um periodo razoável de tempo, e se tivermos boas
previsões sobre o desempenho futuro da variável independente, podemos fazer
previsões para mais de um ano, utilizando a função estatística TENDÊNCIA.

Admita, por exemplo, que se prevê que o PNB terá os seguintes valores para
os anos de 2011 a 2013:

63

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Queremos agora estimar as despesas de consumo relativas àqueles valores de
PNB.
 Selecione o intervalo de células J3:J5;
 Abra a função estatística TENDÊNCIA, preenchendo seus argumentos
conforme mostrado na Figura 274:

Figura 274.

Nos dois primeiros argumentos da função, copiamos os intervalos do


Consumo e PNB da Figura 269. No argumento Novos valores_x copiamos o
intervalo I3:I5 referente aos valores estimados para o PNB nos anos de 2011
a 2013 apresentados acima. O argumento Constante não é preenchido.

 Depois de preenchidos os argumentos necessários, prima, ao mesmo tempo,


Ctrl + Shift e depois, Enter. Os resultados são mostrados na Figura 275:

64

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 275.

6) Uso do modelo para fins de controle ou elaboração de política


econômica

O modelo Renda-Consumo desenvolvido acima, se válido, não serve apenas


para prever o consumo em função da renda. Ele é muito mais útil do que
apenas isso. Por exemplo:

 Suponha que o governo resolva aumentar impostos e, como tal, o


investimento decline. Que efeitos isso poderia trazer na renda, no
consumo, e no emprego? Segundo ainda Keynes, a variação na renda
decorrente da variação no investimento no valor de, digamos, USD 1, é
dada pelo multiplicador da renda (MR), definido como:

1
𝑀𝑅 =
1 − 𝑃𝑀𝐺𝐶

Utilizando a PMGC de 0,771, o valor do multiplicador é de


aproximadamente 4,37. Ou seja, o decréscimo (acréscimo) de USD 1 no
investimento provocará, ao final do processo (já que se trata de um
multiplicador), uma queda (subida) na renda de mais de quatro vezes.
Portanto, conhecida a PMGC pode-se prever o futuro comportamento da
renda e do consumo após mudanças na política fiscal.

 A taxa de desemprego nos EUA estava em 11% em Dezembro de 2009.


Uma taxa alta. Suponha que o governo desejasse recuar esta taxa para,
digamos, 6% até 2014. O governo acha que, para alcançar esta taxa, o
nível de despesas de consumo tem que estar por volta de USD 10.200

65

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
(bilhões). Qual então deveria ser a renda nacional (PNB), para que este
objetivo seja alcançado?

Se a função Renda-Consumo for aceitável, um cálculo aritmético simples


mostra que:

USD 10.200 = 0,770845*R – 934,01  R = USD 14.166,24 (bilhões, aprox.)

Agora, apresentamos a ferramenta Regressão, que dentre outras informações,


nos dirá se o modelo Renda-Consumo encontrado constitui-se num
instrumento útil de análise. A Figura 276 mostra o preenchimento da
ferramenta e a Figura 277 os resultados.

Figura 276.

Nos argumentos Intervalo Y e Intervalo X foram copiados os intervalos


correspondentes às variáveis Consumo e Renda da Figura 269. A opção
Rótulos foi selecionada porque nos intervalos da variáveis inclui-se as suas
respectivas designações. Não foi selecionada a opção Constante é zero

66

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
porque se fosse, o modelo só incluiria o coeficiente angular e não o linear.
Também não foi selecionada a opção Desenho da linha ajustada – faremos
isso depois utilizando o gráfico Dispersão do conjunto de gráficos do Excel. As
demais opções foram selecionadas.

Os resultados desta ferramenta são apresentados a seguir:

67

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
68

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
69

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 277.

 Na parte SUMÁRIO DOS RESULTADOS são apresentados:

 R múltiplo (r) que corresponde à Correlação, já encontrada anteriormente,


de 0,998493261;

 Quadrado de R (r2) também chamado de Coeficiente de Determinação.


Este coeficiente mede o poder explicativo do modelo de regressão, isto é,
quanto das variações no Consumo são devidas às variações da Renda. É
encontrado com a seguinte fórmula:
𝑆𝑜𝑚𝑎 𝑑𝑜𝑠 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠 𝑑𝑎 𝑅𝑒𝑔𝑟𝑒𝑠𝑠ã𝑜
𝑟2 =
𝑇𝑜𝑡𝑎𝑙 𝑑𝑎 𝑆𝑜𝑚𝑎 𝑑𝑜𝑠 𝑄𝑢𝑎𝑑𝑟𝑎𝑑𝑜𝑠

Na tabela ANOVA vemos que a Soma dos Quadrados da Regressão é igual a


39204501,6 enquanto que o Total da Soma dos Quadrados é igual a
39322911,07. Dividindo um pelo outro, obtemos um r2 = 39204501,6 /
39322911,07 = 0,996988792, ou seja, 99,70% das variações no Consumo são
devidas às variações na Renda.

A raiz quadrada de r2 é o coeficiente de correlação ou R múltiplo. Ou seja 𝑟 =


√𝑟 2.

 Quadrado de R ajustado (𝒓̅𝟐 ). É o coeficiente de determinação para


regressões múltiplas, isto é, regressões com mais de uma variável
independente.

70

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
 Erro Padrão (Se). É uma medida da variação média dos valores observados
do Consumo ao redor da reta de regressão, ou por outras palavras, é uma
medida do erro médio em nossas previsões. Por exemplo, na Figura 269
vemos que para um PNB de USD 13.312,12 em 2008, o consumo é de USD
9.290,9. Entretanto, se usarmos esse valor do PNB em nosso modelo de
regressão, obteríamos um consumo de USD 9.327,66. O Erro Padrão é obtido
com a seguinte fórmula:

̅ )𝟐
∑(𝑪𝒊 − 𝑪
𝑺𝒆 = √
𝒏−𝟐

Portanto, ao invés de dizermos que nossa previsão para o consumo no ano


de 2008 é de USD 9.327,66, diríamos, mais corretamente, que o verdadeiro
valor do consumo deverá estar entre:

USD 9.327,66 - Se e USD 9.327,66 + Se

ou USD 9.327,66 - 81,11 = USD 9.246,55 e USD 9.327,66 + 81,11 = USD


9.408,77.

verdadeiro valor do consumo

9.246,55 9.408,77

Veja na Figura 269 que, de fato, o consumo situou-se nesse intervalo.

O Erro Padrão também pode ser obtido com a função estatística EPADYX
apresentada a seguir, na Figura 278:

71

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 278.

 Observações. É contado o número de observações realizadas, 20 anos, no


caso.

 Na tabela ANOVA que se segue, o seu conteúdo já foi analisado


anteriormente na seção 10.5 desta parte. O que vale notar aqui é o seguinte:

 Como vimos, a hipótese nula H0 especifica um valor para um parâmetro da


população. Neste exemplo, uma hipótese nula importante é que o coeficiente
angular da verdadeira Função Consumo seja zero, isto é, H0; 2 = 0. Aliás,
esta hipótese explica a génese do termo hipótese nula, pois, se ela é
verdadeira, a renda (PNB) não tem qualquer efeito sobre o consumo.
Alternativamente, teríamos três hipóteses a considerar à H0:

Ha: 2  0. Rejeitando H0, a conclusão seria de que 2 assume um outro valor


diferente de zero, que pode ser negativo ou positivo.

Ha:2>0. Rejeitando H0, a conclusão seria de que 2 assume um valor


positivo, anulando a hipótese deste assumir um valor negativo.

Ha:2<0. Rejeitando H0, a conclusão seria de que 2 assume um valor


negativo, anulando a hipótese deste assumir um valor positivo.

72

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Do ponto de vista da teoria económica, a hipótese alternativa mais importante
é a de que 2>0, já que queremos comprovar a hipótese keynesiana de que a
renda influencia positivamente o consumo (embora a ferramenta Regressão
utilize Ha: 2  0) . Graficamente então temos a seguinte configuração do teste
de hipótese:

Região de Aceitação Região Crítica

95%

tc

Aceita-se H0 Rejeita-se H0

Como já visto, precisamos definir o t crítico (tc) e compará-lo com o t


observado (to).

O t observado é dado na tabela ANOVA da Figura 277 com o valor de


77,19888189, obtido pela divisão do coeficiente angular 0,770847721 com o
seu erro padrão de 0,009985219. O t crítico é obtido com a função INVT,
tendo o cuidado de digitar no argumento Probabilidade o percentual de 10%
(lembre-se de que, embora o  = 5%, o teste está sendo realizado numa
única cauda), e graus de liberdade de n -2 = 20 – 2 = 18. O t crítico tem assim
o valor de 1,734. A seguir, adotamos a seguinte regra de decisão:

Regra de Decisão. Aceitar H0 se to < tc. Rejeitar H0 se to > tc.

Como, claramente, t0 = 77,20 > tc = 1,734, rejeitamos H0 e concluímos que há


uma relação positiva entre renda e consumo.

Alternativamente, podemos utilizar o p-value do teste t para o coeficiente


angular, que na Figura 277 é 3,78034E-24 (este número está apresentado em
notação científica, significando que existem 24 zeros antes do primeiro dígito
significativo, 3). Este p-value, como já comentado, é obtido com a função
estatística DISTF com X = 77,19888189, Graus_liberdade = 18 e Caudas =
2. O p-value é então comparado com o  especificado e a seguinte regra de
decisão é adotada:

73

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Regra de Decisão. Aceitar H0 se  < p-value. Rejeitar H0 se  > p-value.

Como  = 0,05 é superior ao p-value = 3,78034E-24, também por aqui


rejeitamos a hipótese nula.

 O teste F (F observado e F de significância, veja Figura 277) é mais usado


em modelos de regressão múltipla, entretanto, em modelos de regressão
simples, como é este o caso, o F de significância (obtido com a função DISTF,
com X = F observado = 5959,667365 e Graus de liberdade 1 e 2
respectivamente iguais a 1 e 18) sempre coincidirá com o p-value do teste t
para o coeficiente angular.

 Os 95% inferiores e 95% superiores correspondem, respectivamente, ao


intervalo mínimo e máximo onde deverão estar contidos os verdadeiros
coeficientes da reta de regressão da população. Para o caso do coeficiente
angular temos o seguinte:

95% inferior

0,770847721 – INVT(0,05;18)*Erro Padrão = 0,770847721 –


2,100922037*0,009985219 = 0,749869555

95% superior

0,770847721 + INVT(0,05;18)*Erro Padrão = 0,770847721 +


2,100922037*0,009985219 = 0,791825887

Raciocínio semelhante se aplica ao coeficiente linear.

 Na tabela RESULTADO RESIDUAL são mostradas as previsões de


Consumo para cada valor de PNB da Figura 277 e os Residuais, isto é, a
diferença entre o que efetivamente ocorreu e o que foi previsto. Estes
residuais são então padronizados com a seguinte fórmula:

𝑅𝑒𝑠𝑖𝑑𝑢𝑎𝑙𝑖
𝑅𝑃 =
1 (𝑃𝑁𝐵𝑖 − ̅̅̅̅̅̅
𝑃𝑁𝐵)2
𝐸𝑟𝑟𝑜 𝑃𝑎𝑑𝑟ã𝑜 ∗ √1 − 𝑛 +
∑(𝑃𝑁𝐵𝑖 − ̅̅̅̅̅̅
𝑃𝑁𝐵)2

74

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
O gráfico dos residuais foi selecionado na ferramenta.

 Na tabela RESULTADOS DE PROBABILIDADE são apresentados cada


valor do Consumo em função do correspondente percentil. O percentil de
cada valor do Consumo é ordenado de forma crescente com a expressão: 𝑝 =
𝑑−1
∗ 95% + 5% . Nesta equação, n é o tamanho da amostra, d é a ordem de
𝑛−1
uma determinada observação e p é o percentil dessa observação numa
escala de 5 a 95%. O gráfico dos percentis também foi selecionado.

Terminada a parte analítica da relação Renda-Consumo, nos resta agora


desenhar o gráfico. No separador Inserir, no bloco Gráficos, selecione
Dispersão, escolhendo o primeiro tipo à esquerda. Depois, no bloco Dados,
escolha Selecionar Dados. Na caixa de diálogo Selecionar Origem de
Dados, faça o seguinte:

 Em Intervalo de Dados do Gráfico, selecione o intervalo B2:C21, relativos


ao PNB e Consumo;

 Depois clique no botão OK. O Seu gráfico deverá parecer com o da Figura
279:

75

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 279.

 A seguir, clique com o botão direito do rato sobre os pontos do gráfico. Abrir-
se-á uma caixa onde deve ser selecionada Adicionar Linha de Tendência.
Será aberta outra caixa denominada Formatar Linha de Tendência. Na parte
inferior desta caixa, clique em Mostrar Equação no gráfico e Mostrar o
valor de R ao quadrado no gráfico. Depois clique no botão Fechar. O seu
gráfico deverá ser agora como o apresentado na Figura 280:

76

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
Figura 280.

77

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com
78

TREINAMENTO E CAPACITAÇÃO EMPRESARIAL


info@Conexaoacademica.com
www.conexaoacademica.com

Você também pode gostar