Escolar Documentos
Profissional Documentos
Cultura Documentos
Variáveis
A Inferência Estatística é definida como o ramo da Estatística que estuda como
podemos interpretar dados de que dispomos e considerarmos se eles são
representativos da população de que foram extraídos.
Objetivo
Ao final desta unidade, você deverá ser capaz de:
Conteúdo Programático
Esta unidade está organizada de acordo com os seguintes temas:
Isso significa dizer que, considerando o mesmo modelo amostral, se 100 amostras
forem tiradas da população, em pelo menos 95 delas o índice deste candidato deverá
variar entre 32% e 36%, mas em 5 os resultados serão diferentes deste intervalo.
Argumentos que se referem à Inferência estatística estão presentes no nosso
quotidiano, como por exemplo em períodos eleitorais. Institutos de pesquisa de opinião
costumam usar técnicas da Inferência estatística para estimar os percentuais de
intenção de voto e a margem de erro associada a esses percentuais.
Estimativa pontual
Uma estimativa é pontual quando temos uma única e melhor estimativa para o
parâmetro populacional.
Intervalo de
Exemplo confiança
para saber qual o valor de , que utilizaremos, você deverá cruzar o título da linha
(1,9) com o título da coluna (0,06) somando ambos para chegar até 1,96.
Resolução
A leitura do exemplo fornece os seguintes dados:
• Estimativa Pontual: =171.
• =1,96
Calculando o desvio-padrão amostral:
Então, podemos dizer, com 95% de confiança, que a média populacional μ das
estaturas está entre 168 cm e 174 cm. Isso não significa que a probabilidade de o
parâmetro μ cair nesse intervalo seja de 95%, mas que, se extrairmos diversas
amostras independentes e de mesmo tamanho dessa população, espera-se que, em
95% delas, o verdadeiro valor do parâmetro estimado (nesse caso, a média
populacional) esteja dentro desse intervalo.
Onde:
Estimativa pontual = média amostral.
z = coeficiente de confiança desejado para um
determinado nível de confiança (Distribuição Normal
I.C=Estimativa Pontual ±z∙ Padrão).
σ = desvio-padrão
N = número de dados na amostra, isto é, tamanho
amostral.
Vamos praticar? Resolva a questão e depois clique em Conferir para ver se acertou.
Atividade 1:
Uma amostra de 50 observações de uma população com média desconhecida e
desvio padrão σ=6, tem a média amostral igual a 20,5. Construa um intervalo de 98%
de confiança para a média populacional.
Resolução
• =2,33
O gráfico da distribuição Normal padrão será:
Lembre-se que para descobrir a abscissa 2,33, utilizamos a tabela da
em sua quarta coluna. Por fim, para saber qual o valor de que
utilizaremos você deverá cruzar o título da linha (2,3) com o título da
coluna (3) somando ambos para chegar até 2,33.
Atividade 2:
Um engenheiro eletrônico verificou que a vida útil de um equipamento eletrônico
apresenta um desvio-padrão de 5 horas. Com o objetivo de definir um intervalo de
confiança para a média da vida útil desse equipamento, o engenheiro selecionou uma
amostra de 100 unidades do equipamento, obtendo uma média amostral de 500 horas
de vida útil. Encontre o intervalo de confiança para a média populacional com um nível
de confiança de 95%.
Resolução
• =1,96
O gráfico da distribuição Normal padrão será:
Lembre-se que para descobrir a abscissa 1,96, utilizamos a tabela da
Linha da tabela: n-1=10-1=9 graus de liberdade (ou seja, linha 9 da tabela t-Student)
O intervalo de confiança
Agora que conhecemos melhor a utilização da distribuição t-Student, vamos definir o
intervalo de confiança da média populacional, com σ desconhecido e amostras
pequenas.
Onde:
S= desvio-padrão amostral.
•
• Desvio-padrão amostral: S=9,842 (obtido a partir dos dados amostrais do
exemplo)
• Tamanho da amostra (n): 10 medidas. Logo, teremos n - 1 = 9 graus de
liberdade
• Nível de confiança: 90%
• t9 ; 5% = 1,833
Substituindo essas informações na definição do intervalo de confiança, teremos:
Atividade 3:
Os resultados de um teste de resistência material, realizados por um engenheiro civil,
utilizando 24 corpos de prova apresentaram os seguintes valores:
Calcule qual é o intervalo de confiança para a média populacional, com 95% de nível
de confiança.
Resolução
•
• Desvio-padrão amostral: S = 3,61 (obtido a partir dos dados
amostrais do exemplo)
• Tamanho da amostra (n): 24 medidas. Logo, teremos n - 1 = 23
graus de liberdade
• Nível de Confiança: 95%
• t24 ; 5%=2,0687
Atividade 4:
Um engenheiro eletricista de uma fábrica de lâmpadas automotivas selecionou uma
amostra aleatória de 10 lâmpadas do total produzido em um dia. Seus testes
apresentaram vida útil média de 1100 horas, com desvio-padrão de 120 horas.
Determine a verdadeira vida útil média dessas lâmpadas para um intervalo de
confiança de 98%.
Resolução
Então, podemos dizer que, com 98% de confiança, a média populacional μ (vida útil
média das lâmpadas produzidas) está entre os valores mínimo de 992,94 horas e
máximo de 1.207,06 horas.
Tema 2
Correlação
Por exemplo, você acha que existe alguma relação entre a idade de uma pessoa e o
valor de seguro de vida, no cálculo do preço do seguro?
Saiba Mais
Fonte: IBGE
Portanto, quanto maior a idade, maior é o risco de morte, ou seja, maior é o risco
assumido pela seguradora, que terá que pagar indenização ao beneficiário do
contratante do plano de seguro na ocorrência de sua morte.
Outro exemplo: você acha que existe relação entre a renda mensal (salário) de uma
pessoa e sua altura (em metros)?
A resposta a essa questão é bem provável que seja não. Não é muito comum
relacionar duas variáveis desse tipo. Seria mais plausível relacionar a variável renda
mensal com outra variável, como o nível de escolaridade.
Correlação
Correlação é definida como uma associação ou relação entre duas variáveis
estatísticas.
A “correlação” é um dos métodos paramétricos utilizados na Estatística para o estudo
de muitos fenômenos, sendo que, na maioria dos casos, utilizam-se amostras com
grande número de valores.
Outras diversas variáveis estatísticas possuem relação, mas precisamos tomar alguns
cuidados e não relacionar quaisquer variáveis.
Por exemplo, ao analisar dois mercados de consumo na economia, não faz sentido
relacionar o aumento de vendas de celulares com a redução do consumo de carne
bovina.
Relações funcionais
Exemplo de relações funcionais:
Diagrama de dispersão
Uma primeira análise das variáveis pode ser obtida por meio de um dispositivo
bastante útil para se verificar a associação entre duas variáveis quantitativas, ou entre
dois conjuntos de dados, que é o gráfico de dispersão, que iremos apresentar por
meio de exemplos.
Exemplo 1
Um administrador de empresas deseja verificar se existe uma relação entre o tempo
de existência da seguradora onde trabalha e o número de clientes que a seguradora
possui. Desse modo, ele coletou a seguinte tabela de dados:
2 45
3 52
4 58
5 56
6 53
7 60
8 63
9 58
10 64
Exemplo 2
Consideremos agora que, numa pesquisa feita com dez famílias com renda bruta
mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis:
X Y
10 6,2
14 6,4
16 6
18 5,5
26 5,6
28 5,7
38 5
46 4,6
48 5
52 4,5
Vamos representar o diagrama de dispersão para as duas variáveis apresentadas.
Observando o gráfico de dispersão, vemos que existe uma associação inversa, isto é,
aumentando a renda bruta mensal, diminui a porcentagem sobre ela gasta em
assistência médica.
Exemplo 3
Agora, vamos supor que um conjunto de duas variáveis, apresentado na tabela
abaixo, apresente o seguinte diagrama de dispersão:
Tabela de dados:
Variável X Variável Y
45 340
50 368
60 350
70 330
75 335
77 360
80 340
90 362
Nesse caso, percebemos que parece não haver associação entre as variáveis.
Exemplo 4
Suponha que você tenha interesse em investir no mercado financeiro. No mercado de
ações, por exemplo, na Bolsa de Valores de São Paulo, os ativos financeiros
apresentam variações em seus valores e, além disso, é muito comum que o preço das
ações de uma empresa influencie o preço das ações de outra empresa. Por exemplo,
as ações do Banco do Brasil (BBAS3) e ações do Banco Itaú (ITUB4) apresentam
forte correlação positiva. Neste sentido, quando a ação do Banco do Brasil sobe/cai, é
muito provável que as ações do Itaú subam/caiam.
Agora, vamos supor que você tenha a interesse em investir em três ações diferentes:
A, B e C.
A tabela a seguir apresenta as séries históricas dos retornos diários dessas três
ações.
Tabela – Séries históricas dos retornos diários de três ações: A, B e C.
Dia A B C
1 4% 1% 2%
2 0% 1% 1%
3 2% 0% -1%
4 1% 1% 0%
5 -1% 1% 1%
6 3% 1% 0%
7 0% 0% 1%
8 6% 2% 3%
9 0% 2% 2%
10 -5% 1% 0%
(a) Diagrama de dispersão das ações B e C. (b) Diagrama de dispersão das ações A e B.
Por meio da observação da disposição dos pontos, concluímos que parece haver uma
dependência linear entre os retornos da ação B e da ação C, pois, à medida que o
retorno de B aumenta, aumenta também o de C. Observe que os pontos estão bem
próximos da linha de tendência.
Já entre A e B não se figura nenhum tipo de associação. Observe que, ao aproximar o
diagrama de dispersão por uma linha de tendência, a qualidade do ajustamento é
ruim, dizemos assim que A e B são não correlacionadas.
Nível da correlação
Verificamos que a representação gráfica, por meio do gráfico de dispersão, ajuda
muito a compreender o comportamento conjunto das duas variáveis quanto à
existência ou não de associação entre elas.
Correlação linear
Correlação linear é uma correlação entre duas variáveis, cujo gráfico é uma reta. É
uma linha de tendência, porque procura acompanhar a tendência da distribuição de
pontos, que pode ser uma reta.
Desse modo, iremos definir uma medida que avalia o quanto o conjunto dos dados no
gráfico de dispersão aproxima-se de uma reta. Essa medida será definida de modo a
variar em um intervalo finito, especificamente, de – 1 a + 1.
Correlação positiva
Vamos praticar? Resolva cada um dos exercícios e depois clique em “Conferir” para
ver se acertou. Você pode utilizar o Microsoft Excel para ajudá-lo. Veja o Tutorial.
Exercício 1:
Um nutricionista, com o objetivo de avaliar índices de massa corpórea – IMC de seus
pacientes, selecionou uma amostra de 10 pessoas, que forneceu uma tabela com
duas medidas: peso (em kg) e altura (em metros).
80 1,8
50 1,65
85 1,83
83 1,85
55 1,6
85 1,78
77 1,8
93 1,86
60 1,65
65 1,7
Acabamos de ler o título de uma notícia muito comum no mercado financeiro, que
mostra a relação entre duas variáveis: o índice Ibovespa e o valor do dólar.
Resolução
Variável X Variável Y
45 340
50 368
60 350
70 330
75 335
77 360
80 340
90 362
Resolução
Karl Pearson estabeleceu uma equação que permite calcular o grau de correlação
entre as variáveis, denominada coeficiente de correlação linear ou coeficiente de
correlação de Pearson (r).
Nos casos em que o coeficiente de correlação linear for igual a zero, isso não
implica em ausência de correlação.
Regressão polinomial
Regressão exponencial
Agora, vamos voltar aos exemplos vistos e analisados por meio de seus gráficos e
calcular seus coeficientes de correlação.
Exemplo 1
Um administrador de empresas deseja verificar se existe uma relação entre o tempo
de existência da seguradora onde trabalha e o número de clientes que a seguradora
possui. Desse modo, ele coletou a seguinte tabela de dados:
2 45
3 52
4 58
5 56
6 53
7 60
8 63
9 58
10 64
Anos de Número de
existência (xi) clientes (yi) xi ∙ yi xi2 yi2
Há uma dependência linear entre as variáveis, pois, à medida que os anos de serviço
aumentam, aumenta também o número de clientes. Além disso, temos um coeficiente
de correlação positivo e próximo de +1. Descrevendo, assim, uma forte correlação
entre as variáveis.
Exemplo 2
Consideremos agora que, numa pesquisa feita com dez famílias com renda bruta
mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis:
X Y
10 6,2
14 6,4
16 6
18 5,5
26 5,6
28 5,7
38 5
46 4,6
48 5
52 4,5
Para calcular o coeficiente de correlação, utilizaremos a seguinte tabela:
16 6 96 256 36
38 5 190 1444 25
48 5 240 2304 25
∑xi = 296 ∑yi = 54,5 ∑xi ∙ yi = 1527,4 ∑xi2 = 10904 ∑yi2 = 300,91
Exemplo 3:
Agora, vamos determinar o coeficiente de correlação do conjunto de duas variáveis.
Variável X Variável Y
45 340
50 368
60 350
70 330
75 335
77 360
80 340
90 362
∑xi = 547 ∑yi = 2.785 ∑xi ∙ yi = 190.425 ∑xi2 = 39.079 ∑yi2 = 970.893
Exemplo 4:
Suponha que você tenha interesse em investir no mercado financeiro. No mercado de
ações, por exemplo na Bolsa de Valores de São Paulo, os ativos financeiros
apresentam variações em seus valores e, além disso, é muito comum que o preço das
ações de uma empresa influencie o preço das ações de outra empresa. Por exemplo,
as ações do Banco do Brasil (BBAS3) e ações do Banco Itaú (ITUB4) apresentam
forte correlação positiva. Neste sentido, quando a ação do Banco do Brasil sobe/cai é
muito provável que as ações do Itaú subam/caiam.
Agora, vamos supor que você tenha interesse em investir em três ações diferentes: A,
B e C.
Dia A B C
1 4% 1% 2%
2 0% 1% 1%
3 2% 0% -1%
4 1% 1% 0%
5 -1% 1% 1%
6 3% 1% 0%
7 0% 0% 1%
8 6% 2% 3%
9 0% 2% 2%
10 -5% 1% 0%
• Correlação A x C = 0,430453511
• Correlação A x B = 0,220863052
Conclusões:
Exercício
Encontre o coeficiente de correlação entre os dados dos retornos diários da Ibovespa
e do câmbio do dólar. Faça os cálculos (utilizando a fórmula ou o Excel) e depois
clique em “Conferir” para ver se acertou.
A tabela a seguir apresenta as séries históricas dos retornos diários do Ibovespa e do
câmbio do dólar, no período de 01/03/2017 a 24/03/2017.
Dólar Ibovespa
Data
Var.Dia (%) Var.Dia (%)
∑xi = 0,26 ∑yi = –4,13 ∑xi ∙ yi = –12,023 ∑xi2 = 14,231 ∑yi2 = 34,777
Então, ainda que duas variáveis tenham grande correlação entre si, é necessário ter
cautela ao afirmar que existe uma relação de causalidade entre elas. Veja algumas
situações que ilustram a necessidade de tomar cuidado para não estabelecer uma
relação de causalidade.
Fonte: economiadependrive.wordpress.com
Fonte: tylervigen.com
Apesar de apresentarem forte correlação numérica (0,958648), essas variáveis não têm
causalidade nenhuma entre elas.
Terceira variável interferindo
Pode ser que haja uma terceira variável interferindo decisivamente.
Suponha, por exemplo, que queiramos medir a relação entre vendas e lucro de
uma empresa. Podemos relacionar as duas variáveis e verificar que o aumento
de uma leva ao aumento da outra, mas podemos estar esquecendo que uma
outra variável (custos de produção, por exemplo) tenha também grande
influência no lucro da empresa.
Desse modo, percebemos que existe estreita relação entre correlação e regressão,
que são duas técnicas estatísticas relacionadas.
Correlação Regressão
Quantifica a intensidade (força) da
relação e resulta em um número que
exprime o grau de relacionamento
entre duas variáveis.
Explicita a forma da relação por meio
de uma equação matemática.
Vimos que, para apurar a correlação
linear entre duas variáveis, devemos
A equação de regressão linear será
construir um gráfico de dispersão (ou
definida para relações em que forem
diagrama de dispersão) em que a
comprovadas correlação significativa
linha de tendência é definida por uma
entre as variáveis e, também,
reta, denominada reta de regressão.
causalidade. Caso contrário, não há
motivo para o cálculo da equação de
Desse modo, a regressão linear é o
regressão linear.
passo seguinte após determinar que
duas variáveis têm correlação entre
si.
Vamos conhecer mais detalhes sobre a equação de regressão.
2 45
3 52
4 58
5 56
6 53
7 60
8 63
9 58
10 64
r = 0,8329
Há uma dependência linear entre as variáveis, pois, à medida que os anos de serviço
aumentam, aumenta também o número de clientes. Além disso, temos um coeficiente
de correlação positivo e próximo de +1, descrevendo, assim, uma forte correlação
entre as variáveis.
Desse modo, podemos equacionar uma reta de regressão linear entre as variáveis
envolvidas.
1 4% 1% 2%
2 0% 1% 1%
3 2% 0% -1%
4 1% 1% 0%
5 -1% 1% 1%
6 3% 1% 0%
7 0% 0% 1%
8 6% 2% 3%
9 0% 2% 2%
10 -5% 1% 0%
Exemplo 3 da Aula 2.
Variável X Variável Y
45 340
50 368
60 350
70 330
75 335
77 360
80 340
90 362
A determinação do coeficiente de correlação do conjunto das variáveis X e Y trouxe o
seguinte coeficiente de correlação:
r = 0,00041
Esse é um valor muito próximo de zero, não havendo associação entre as variáveis.
Portanto, não há motivo para a determinação de uma equação de regressão linear
entre as variáveis X e Y.
A regressão linear é a função da reta que melhor se ajusta aos pontos das variáveis
plotadas no gráfico.
80 1,8
50 1,65
85 1,83
83 1,85
55 1,6
85 1,78
77 1,8
93 1,86
Peso (kg) Altura (metros)
60 1,65
65 1,7
Ŷ = a ∙ Xi + b + εi
Ŷ: variável dependente.
X: variável independente.
a: coeficiente angular da reta de regressão.
b: coeficiente linear da reta de regressão.
εi: erro aleatório de Ŷ para a observação i.
Do Exemplo 1 da Aula 2.
Um administrador de empresas deseja verificar se existe uma relação entre o tempo
de existência da seguradora em que trabalha e o número de clientes que a seguradora
possui. Desse modo, ele coletou a seguinte tabela de dados:
Anos de existência Número de clientes
2 45
3 52
4 58
5 56
6 53
7 60
8 63
9 58
10 64
Resolução:
Para calcularmos os parâmetros a e b da reta de regressão, iremos utilizar a seguinte
tabela:
2 45 2 * 45 = 90 22 = 4
3 52 3 * 52 = 156 32 = 9
4 58 4 * 58 = 232 42 = 16
5 56 5 * 56 = 280 52 = 25
6 53 6 * 53 = 318 62 = 36
7 60 7 * 60 = 420 72 = 49
8 63 8 * 63 = 504 82 = 64
9 58 9 * 58 = 522 92 = 81
O gráfico será:
Do Exemplo 2 da Aula 2.
Consideremos agora que, em uma pesquisa feita com 10 famílias com renda bruta
mensal entre 10 e 60 salários mínimos, mediram-se as seguintes variáveis:
X Y
10 6,2
14 6,4
16 6
18 5,5
26 5,6
28 5,7
38 5
46 4,6
48 5
52 4,5
Resolução:
(xi2) (yi2) xi ∙ yi xi 2
10 6,2 62 100
16 6 96 256
18 5,5 99 324
38 5 190 1.444
48 5 240 2.304
O gráfico será:
Vamos praticar! Responda aos exercícios e depois vá em “Resolução” para ver se
acertou.
Exercício 1:
Retornando ao Exercício 1 do tema 2.
Um nutricionista, com o objetivo de avaliar o IMC de seus pacientes, selecionou uma
amostra de 10 pessoas, a qual forneceu uma tabela com duas medidas: peso (em kg)
e altura (em metros).
Peso(kg) Altura(metros)
80 1,8
50 1,65
85 1,83
83 1,85
55 1,6
85 1,78
77 1,8
93 1,86
60 1,65
65 1,7
Encontre a reta de regressão linear entre essas duas variáveis, relacionando altura e
peso.
Resolução
1,8 80
1,65 50
1,83 85
1,85 83
1,6 55
1,78 85
1,8 77
1,86 93
1,65 60
1,7 65
(xi2) (yi2) xi ∙ yi xi 2
y = 148,24 ∙ x – 186,41
O gráfico será:
Exercício 2:
Encontre a reta de regressão linear entre os dados da tabela a seguir:
X Y
2 2
3 5
4 8
5 10
6 13
X: variável independente.
Y: varável dependente.
(xi2) (yi2) xi ∙ yi xi 2
2 2 4 4
3 5 15 9
4 8 32 16
5 10 50 25
6 13 78 36
y = 2,7 ∙ x – 3,2
O gráfico será:
Encerramento
Resumo da Unidade