Escolar Documentos
Profissional Documentos
Cultura Documentos
Aluno: .......................................................................................................................................................................
Cursos: ......................................................................................................................................................................
. Turma: .................................................................
Distribuição de aulas
Evento Capítulo
Aula 01 1
Aula 02 2
Avaliação On‐Line 01 3
Aula 03 5
Aula 04 6
Avaliação On‐Line 02 4
1
Métodos Quantitativos
Núcleo Comum
1 Sumário
1. Estatística Descritiva.............................................................................................................................
3.6 Exercícios.....................................................................................................................................
4 Teste de Hipóteses...............................................................................................................................
2
4.2 Passos para o Teste de Hipóteses................................................................................................
5.5 Exercícios.....................................................................................................................................
7 Referências Bibliográficas.....................................................................................................................
3
1. Estatística Descritiva
Há várias informações não numéricas e numéricas importantes que são essenciais para as melhorias
de processo. A tratativa dos dados nos direciona para fatos e não suposições. Com isso, pode‐se dizer
que a estatística tem um papel cada vez mais importante em praticamente todos os aspectos da
Sociedade. Mas ao mesmo tempo, temos que ter cuidado em como usar os dados estatísticos e quais
são os conceitos e ferramentas mais adequadas.
As ciências de uma maneira geral nos ensinam conceitos, ferramentas que se utilizam de modelos ou
conceitos “perfeitos”, “exatos”. No entanto, na vida real nos mostra que o comportamento dos
processos, fenômenos não seguem padrões exatos ainda que possam ser agrupados, classificados e
etc. em padrões que não são exatamente exatos. Mas o homem, no sentido humano da palavra,
busca o “encaixe” em padrões que possam ser usados para tomadas de decisões mesmo em coisas
simples do cotidiano. Como exemplo, “sigo por aqui ou por ali, em função do transito?”, “com base
nessas informações dos meus colegas, qual decisão tomar sobre minhas prioridades?”.
A importância da estatística como ferramenta para analisar dados, identificar seu comportamento e
ser elemento essencial na melhoria de processo já foi exaltado por vários mestres da qualidade ao
longo dos anos:
4
resultados, entendendo o passado, observando tendência, estimando ou prevendo fenômenos
futuros, conforme o caso.
Hoje, há estatísticas sendo aplicadas em diversas situações: pesquisas de marketing para lançamento
de Produtos, comportamento de Mercado e etc., avaliações psicológica de um grupo de pessoas ou
sociedade, pesquisas médicas e biológicas, nos esporte, na indústria como um todo. O conhecimento
estatístico nos leva a algo que chamamos de “Gerenciamento baseado em conhecimento”.
Um estudo estatístico do IBGE, conforme pode ser observado no gráfico abaixo, demonstra que
saímos em 70 anos de um cenário em que 56% da população brasileira era composta por analfabetos
para um índice de 9,6% em 2010. Apesar de ainda demonstrar um índice elevado de analfabetismo, o
cenário é completamente diferente e as necessidades também mudam. Se antes, precisavam de uma
política voltada para elementos básicos do conhecimento, hoje, temos necessidade que o sistema
educacional volte‐se para outras formas de habilidade, alinhada com tecnologias, informações e
elementos da atualidade.
Conceitos de estatística remetem a elementos básicos como medidas de posição (média, mediana,
moda) e medidas de dispersão, variação dos dados (amplitude, variância, desvio padrão) e a
ferramentas mais complexas e menos elementares usadas para análises multivariadas (cluster, DOE,
Análise de Regressão Múltipla).
5
Figura 1-2 - Diagrama de Dados a Conhecimento
O “Seis Sigma” em seu conceito básico e nos diversos programas já implantados ao longo de diversos
segmentos pelo mundo usa a estatística como elemento básico para análise dos processos e seus
problemas, para tomada de decisão e para a implantação de melhorias consistentes. O Seis Sigma é
um programa que visa transformações de processo, melhoria de gerenciamento e de tomada de
decisão baseado em conhecimento. A estatística é a base para a coleta e transformação de dados em
informação por meio de conceitos, cálculos e ferramentas que permitirão as mudanças para
transformação dos processos.
Símbolo
Média da População:
Média da Amostra:
6
Obtenção da Média
Média da População:
Média da Amostra:
∑
̅
, sendo n, tamanho da amostra.
Exemplo
Coletou‐se uma série de dados, referente à quantidade de reparos diários de um produto, conforme
tabela e gráfico abaixo. E em seguida calculou‐se a média.
Tabela 1-1 - Dados de exemplo para Estatística Descritiva
1 2 2 3 3 3 3 3 3 3
4 4 4 4 4 4 4 4 4 4
5 5 5 5 5 5 5 5 5 6
6 6 6 6 6 6 7 7 7 7
7 7 8 8 8 8 8 9 9 9
10 10 11 11 12 13 13
. . . . . . . . . . .
7
6
Símbolo
Obtenção da Média
Média:
∑ ∙
Exemplo
∑
Se uma das avaliações do curso tem peso 2 e as outras duas tem peso 1. Nas duas primeiras provas, o
aluno tirou nota 8 e 10 e na última prova, de peso 2, o aluno tirou 5.
. .
. 7
1.2.3 Mediana
Valor do meio de uma série de dados quando todos os dados estão arranjados em ordem de
magnitude.
Exemplo
Como são 57 dados, tem que o item ordenado correspondente à mediana é o elemento 29, ou seja,
há 28 elementos anterior a mediana e 28 elementos superior ao valor da mediana. O elemento
ordenado de número 29 é: 5.
8
Gráfico 1-2 - Distribuição de Dados - Estatística Descritiva
1.2.4 Moda
É o valor que mais se repete em uma série de dados.
Exemplo
Para o mesmo exemplo anterior, temos com o valor que mais se repete: 4. Como pode ser observado
no gráfico abaixo.
As medidas de posição são muito importantes, mas sozinhas não conseguem dar uma visão clara do
comportamento dos dados. Em muitas situações a variabilidade é algo
indesejado. Traz perdas, situações de risco e etc.
Veja o cômico exemplo ao lado a seguir em que a média não é suficiente para
dar garantia sobre o diâmetro de uma corda e para dá a segurança a quem a
usa.
Visualizando as três séries de dados abaixo, temos valores iguais nas respectivas séries para a soma e
média, mas veja que os valores de amplitude mudam.
Isso nos dá uma noção clara que ainda que os valores de posição sejam os mesmo, a variabilidade,
nesse caso representado pela amplitude pode ser diferente.
Soma Média Amplitude
15 3 4
15 3 4
15 3 2
1.3.2 Amplitude
É a diferença entre o maior e o menor valor da série de dados.
8 5 9 10 7 8 7 5 4 7
1.3.3 Desvio
Eu uma série de dados o Desvio é a diferença de um determinado valor pela média da série. Para
a série de dados abaixo, a média é 7.
8 5 9 10 7 8 7 5 4 7
10
Os desvios são respectivamente:
8-7= 5-7= 9-7= 10-7= 7-7= 8-7= 7-7= 5-7= 4-7= 7-7=
+1 -2 +2 +3 0 +1 0 -2 -3 0
Bem, mas se quisermos ter uma ideia de variabilidade geral, seria razoável pensarmos em uma soma
de desvios. No entanto, como estamos falando de desvios em torno da média, isso significa que o
desvio para cima e para baixo em relação da média é o mesmo, ou seja, a soma dos desvios sempre
será zero.
Observe como isso é verdade ao fazer a soma dos desvios do exemplo acima.
A soma do quadrado dos desvios elimina o efeito do sinal ao elevar a uma potência par.
N 2
x μ i
i1
8-7= 5-7= 9-7= 10-7= 7-7= 8-7= 7-7= 5-7= 4-7= 7-7=
Desvio +1 -2 +2 +3 0 +1 0 -2 -3 0
Quadrado
dos
Desvios 1 4 4 9 0 1 0 4 9 0
1.3.5 Variância
A variância é uma das métricas de variabilidade mais comuns. A ideia é de dividir a soma dos
quadrados dos desvios.
11
Símbolo
2
Obtenção da Variância
N 2
x μ i
2 i1
Para tal, o conceito é o mesmo e a formulação parecida. No entanto, a um elemento de correção para
o tamanho da amostra.
2
Símbolo s
Obtenção
da
Variância
para
Amostra
n 2
x x i
s2 i1 n -1
O desvio padrão é a métrica mais conhecida e usada como medida de variabilidade. Ela nada mais é
que a raiz quadra da variância, eliminando assim a potencialização do desvio que acontece no cálculo
da soma dos quadrados dos desvios.
Símbolo
12
Obtenção do Desvio Padrão
N 2
x
i1
i μ
N
A fórmula acima vale para a população.
s x
i 1
i x
n -1
Como principais medidas de posição e dispersão, tem‐se a média, a variância e o desvio padrão.
Outras medidas como moda, mediana, para posição, e amplitude e soma dos quadrados dos desvios
para a dispersão também podem ser utilizadas.
Algo que chama atenção na estatística é o fato de permitir um julgamento da população com base em
análise descritiva a partir de amostras. Essa propriedade denomina‐se “Estocástica”.
Segue o diagrama e tabela abaixo com as principais medidas descritivas de posição e dispersão da
população e média.
13
1.5 Exercícios – Estatística Descritiva
(1) Em uma Tabela anote a altura de todos os alunos da sala de aula. Em seguida faça uma
Estatística Descritiva desses dados (média, moda, amplitude, variância e desvio padrão).
(2) Em uma companhia que tem 80 funcionários, 60 recebem R$ 4,55 e 20 recebem R$ 6,35.
Qual é o salário médio‐hora dessa empresa?
(3) Quatro grupos de estudante constituídos de 15, 20 ,10 e 18 indivíduos têm pesos médios
respectivos 81, 74, 77 e 70 kg. Determinar o peso médio de todos os estudantes.
(4) Em uma pesquisa do órgão regulador de medidas, foram tomados 50 unidades de um
determinado produto para verificar a sua espessura, cujas medidas são mostradas abaixo em
(mm). Calcule a média, amplitude e desvio padrão.
A história da teoria das probabilidades se deu juntamente com o inicio dos jogos de cartas, dados e
de roleta. Por essa razão, muitos exemplos de probabilidade são relacionados e esses tipos de jogos.
Os estudos de probabilidade possibilitam o calculo da chance de ocorrência de certo resultado
específico de um “espaço amostral” em um evento chamado “experimento aleatório”.
Experimento Aleatório – É aquele experimento que, quando repetido em iguais condições, podem
fornecer resultados diferentes (dentro de um espaço amostral), ou seja, são resultados explicados ao
acaso.
A “tipo” de probabilidade que estudamos está relacionado ao que chamamos de frequência relativa,
quando a probabilidade se dá em função de eventos esperados em relação a uma quantidade de
eventos avaliados.
14
2.1 O Problema de Monty Hall e a resposta de Marilyn Vos Savant
Marilyn Vos Savant, escritora e colunista da revista Parade estadunidense, nos Estados Unidos,
responde a perguntas de seus leitores sobre matemática e ciência avançada. Por apresentar um alto
quociente de inteligência de 228 pontos, Marilyn Vos Savant já foi citada no Livro Guinness dos
Recordes.
A questão a seguir, proposta originalmente por ela, em 9 de setembro de 1990, talvez tenha se
tornado o caso mais conhecido envolvendo sua coluna.
“Suponha que você esteja em um game show, e é dada a você a escolha de três portas. Atrás de uma porta
está um carro, atrás das outros, cabras. Você escolhe uma porta, por exemplo, a No. 3. O anfitrião, que
sabe o que está por trás das portas, abre a porta No. 1, que tem uma cabra. E ele pergunta: Você quer
escolher a porta No. 2? É vantajoso mudar a sua escolha de porta?”
Esta questão, chamada de "O Problema de Monty Hall" por causa de sua semelhança com cenários do
game show Let's Make a Deal, já existia muito antes de ser colocada por Marilyn Vos Savant, mas foi
trazida à atenção nacional dos Estados Unidos pela sua coluna.
Marilyn Vos Savant respondeu argumentando que a seleção deve ser trocar para a porta No. 2 porque
ela tem 2/3 de chance de sucesso, enquanto a porta No. 1 tem apenas 1/3. Esse cálculo utiliza uma
forma elementar do cômputo de probabilidade:
Entre as fileiras dos argumentos contrários quase mil Ph.Ds escreveram cartas, e muitos deles eram
professores de matemática e pareciam especialmente irados. Um desses, que trabalhava no Instituto
de Pesquisa do Exército dos Estados Unidos afirmou:
“Se todos esses Ph.Ds estiverem errados, o país está passando por graves problemas.”
Mas o fato é que Marilyn estava certa, como pode ser visto no quadro a seguir. Considere que o
participante sempre escolhe inicialmente a porta 2 e o apresentador abre uma das outras 2 portas,
eliminando‐a. A probabilidade de ganhar é maior se for adotada a estratégia de mudar de opinião.
15
Nesta “simulação”, o participante sempre escolhe a porta 2. Entretanto, o mesmo resultado pode ser
obtido se qualquer uma das portas for escolhida e estratégia de mudar for mantida. Esse
acontecimento ilustra muito bem a nossa falta de capacidade de julgar apropriadamente sobre
probabilidades se não houver um entendimento claro do espaço amostral, bem como a estratégia do
experimento realizado.
Result Probabilid
ado ade
1 1/6
2 1/6
3 1/6 Distribuição
Espaço
de
Amostral 4 1/6 Probabilidades
5 1/6
6 1/6
Soma 21 1
Média 3,5
Tabela 2.1 – Espaço Amostral e Distribuição de Probabilidades do Experimento de
Lançamento do Dado
16
Considerando que o dado não está “viciado”, é de se esperar que o resultado dos lançamentos
resulte na seguinte distribuição de probabilidades. Ou seja, para cada um dos valores dos dados a
probabilidade é de 1/6.
Os dados de forma original podem ser qualitativos ou quantitativos. Os dados qualitativos são dados
de atribuição, associados a dados nominais ou ordinais. Os dados quantitativos, por sua vez,
descrevem valores de quantidades associados a alguma grandeza, podem ser classificados em:
Contínuos ou Discretos.
Os dados contínuos referem‐se a dados que podem assumir quaisquer valores e apresentam valores
cujas mudanças se dão de forma linear. Os principais exemplos de dados contínuos são grandezas
físicas que são medidas, como exemplo: temperatura, pressão, comprimento, preso, viscosidade,
densidade e outros.
17
Os dados discretos por sua vez estão relacionados à contagem, por exemplo, quantidade de alunos
em sala de aula, quantidade de maças no cesto, quantidade de pessoas que trabalham em
determinado departamento.
Veja abaixo, alguns exemplos dos dados discretos e contínuos na figura 2.1‐2.
18
Vale a pena relatar que, quando a distribuição normal foi criada em 1773, ela era conhecida como a
lei dos erros por causa da sua utilização na representação de erros em observações astronômicas e de
outras ciências naturais. Tempos depois se foi encontrando outras aplicações para os conceitos
relacionados com a distribuição normal, onde podemos visualizar exemplos em todas as áreas,
inclusive em situações do nosso cotidiano, conforme exemplos citados acima.
Parâmetros:
Formato
xμ2
1
2σ
2
e
f x 2 π σ <x<
19
A função de distribuição acumulativa, que determina a área que corresponde à probabilidade é:
xμ2
1 2
e
2π σ
P F x x 2σ dx ‐ <x<
Vamos seguir o exemplo abaixo para avaliar a probabilidade de defeitos de um determinado processo.
Exemplo
Com a distribuição normal abaixo, qual é a probabilidade de produtos não constarem dentro dos
limites de especificação (de 48 a 55), em outras palavras qual é a probabilidade de defeitos?
Considera‐se defeito tudo que está fora do especificado, ou seja, tudo que está abaixo de 58 e tudo
que está acima de 55. Portanto, faz‐se necessário calcular a probabilidade (P1) do produto apresentar
valor superior a 55 e probabilidade (P2) da medida ser menor que 48.
xμ2
55 1
2
2π σ
P F x 48 e 2σ dx
Ou
xμ2 xμ2
1 2 48 1 2
e e
P1 2π σ 2σ
dx P2 55 2π σ 2σ
dx
20
Usando um software estatístico como o Statistica, podemos obter P1 e P2, conforme abaixo.
[P1] [P2]
A distribuição Normal Padronizada representa uma distribuição normal genérica, com médio no
ponto zero e desvio padrão unitário. Essa distribuição é utilizada para que se façam estimativas
relacionadas às distribuições de dados coletados, bem como comparações entre distribuições
diferentes.
A Distribuição Normal Padronizada é dividida em faixas, onde cada faixa tem o tamanho do desvio
padrão. Os estudos da distribuição normal estabeleceram a probabilidade de concentração de
resultados em cada faixa da distribuição. Essas probabilidades podem ser aplicadas a quaisquer
distribuições de dados contínuos, desde que se verifique que eles obedecem às características da
distribuição normal.
x μ
Z
σ
Vejamos um exemplo.
Exemplo:
Um determinado aluno de um curso obteve em dois testes o mesmo valor de pontuação, 70. A média
da turma foi de 60 pontos em ambos os testes, no entanto, os desvios padrões foram,
respectivamente, 10 e 5.
Apesar dos pontos do aluno ter sido o mesmo nos dois testes e a média da turma ter sido a mesma,
será que em relação ao todo, o aluno foi melhor em alguma das avaliações?
21
Vamos usar a transformação Z e verificar em termos de distribuição normal padronizada Z.
Observando os valores padronizados, tem‐se que na 2ª. avaliação, a nota do aluno A corresponde a 2
desvios padrões de distância (superior) em relação à média da turma e na avaliação 1, a nota de A
equivale a 1 desvio padrão de distância em relação à média da turma. Ou seja, em relação a
distribuição de notas da turma, o aluno A foi melhor na 2ª. avaliação em relação a 1ª. avaliação.
A partir da distribuição normal, tem‐se a distribuição dividida em faixas que correspondem a 1 desvio
padrão. A Faixa 3, equivalente a faixa dos valores compreendidos entre a média e mais ou menos 3
desvios padrão é chamada de região de tolerância natural, pode‐se dizer isso porque os valores
obtidos por processos normalmente distribuídos se acomodam naturalmente dentro dessa faixa e
isso dá um padrão de previsibilidade (ou estimativa de probabilidades) para dados normalmente
distribuídos. Nessa faixa de ± 3, temos 99,73% dos dados. E é nessa faixa que se determina os
limites de controle, tanto usados em cartas de controle.
22
Em outras palavras, se os limites de especificação coincidem com os limites de controle, o índice de
defeito deve ser 1‐0,9973 = 0,27%.
Um processo se torna melhor quando a sua variabilidade reduz e dessa maneira os limites de controle
estão mais internos que os limites de especificação.
O termo “Seis Sigma”, aliás, vem da condição em que em uma distribuição, os limites de especificação
correspondem a ± 6 desvios padrões em relação à média, conforme pode ser observado na figura 2.1‐
8.
23
2.7 Medidas de Capacidade do Processo (Cp e Cpk)
Cp e Cpk são medidas utilizadas para avaliar a capacidade dos processos. Levam em consideração as
especificações e o desvio padrão.
2.7.1 CP
Cp é o Índice de capacidade (potencial) do processo ideal para valores de especificação nos dois lados.
2.7.2 CPK
Cpk é o Índice de capacidade (atual) do processo que aprova pela diferença entre a média do
processo e o valor médio da especificação. Em outras palavras, o deslocamento é levado em
consideração e acaba sendo mais rígido que o CP.
24
Cp, Cpk 1.0: Capacidade insuficiente do processo
25
3 Distribuição de Probabilidade – Dados Discretos, Outras Distribuições
e Teorema de Limite Central
Dados discretos podem ser representados por quantidades, bem como taxas, índices ou
probabilidades, que podem ser representadas através de determinadas distribuições. As distribuições
comumente utilizadas para representar dados discretos são a distribuição Binomial e a distribuição de
Poisson.
2. Igualdade dos Experimentos ‐ Uma série de experimentos é feita sob as mesmas condições.
experimento individualmente
26
A função de densidade de probabilidade é definida conforme abaixo.
p = 0,5 ‐ simétrico
27
Exemplo
Suponha que um hospital possui um índice de absenteísmo (faltas dos funcionários) de 5%. Qual é a
probabilidade de que, em uma visita surpresa, o responsável pelo hospital encontre presente todos
os funcionários de um grupo de 10, escolhidos aleatoriamente? Têm‐se os parâmetros específicos:
n: Tamanho da amostra (n = 10) x: Número de funcionários ausentes
Calculando P(X=0):
Para esse mesmo exemplo, tem‐se a seguinte distribuição de probabilidade para que nenhum, 1, 2,
3,4 e 5 funcionários terem faltado.
Tabela 3-1 - Distribuição Binomial
x 0 1 2 3 4 5
28
Gráfico 3-1 - Distribuição Binomial
Alguns Exemplos:
Sendo x = 0, 1,..., ∞
Exemplo
Baseado em um levantamento anterior, dois técnicos podem atender a esses três chamados. Se mais
de três chamados acontecerem em um dia, temos que considerar a opção de aumentar o número de
técnicos.
= 3 chamados/dia
-3 0
P(X=0) = (2,17828) . 3 = 0,0498
0!
-3 1
P(X=1) = (2,17828) . 3 = 0,1494
1!
-3
. 32 = 0,2244
P(X=2) = (2,17828)
2!
-
3 3
A distribuição de probabilidade de Poisson desse exemplo pode ser representada conforme abaixo.
30
Gráfico 3-2 - Distribuição de Probabilidade de Poisson
Além das distribuições que vimos, que são as mais comuns e elementares, existem outras
distribuições, que podemos chamar de sintéticas, porque não são distribuições encontradas no
campo mas foram criadas e são usadas em vários estudos estatísticos, como teste de hipóteses,
intervalo de confiança e outros.
Para muitos estatísticos como o conceito mais importante de toda a teoria estatística é o teorema do
limite central, ligação entre a distribuição normal e as distribuições de amostragem, considerado
como a chave da estocástica.
31
Figura 3-1 - Teorema do Limite Central
3.6 Exercícios
(5) A pontuação média de um teste promocional do qual 300 pessoas participaram foi de
65 pontos, com as pontuações normalmente distribuídas com desvio padrão de 12
pontos.
Pergunta:
(8) O seu fornecedor de materiais alega que está cumprindo com as exigências
contratuais de fornecimento com uma taxa de defeito não maior que 1%. Suponha
que durante uma auditoria no seu estoque, você colha uma amostra de 20 itens,
aleatoriamente. Considerando que a taxa de defeito é 0,01 qual é a probabilidade de
que você não encontre nenhum defeito nessa amostra de 20 itens?
(9) Suponha que tenha uma peça cujo índice de defeito é de 15%. Quando 5 peças são
selecionadas aleatoriamente para testes:
a. Qual a probabilidade de que nenhuma delas seja encontrada com
defeitos?
b. Qual é a probabilidade de uma das peças apresentar defeito?
c. Faça um gráfico demonstrando a distribuição de probabilidade.
(10) Na média histórica, somente 40% de todos os medicamentos são lucrativos para a
indústria farmacêutica. Uma determinada companhia líder do mercado desenvolveu
15 medicamentos no ano passado. Pergunta-se:
a. Quantos desses 15 medicamentos espera-se que tenham lucros com base no
histórico do segmento?
b. Qual é a probabilidade que mais da metade dos medicamentos desenvolvidos
nos anos passado sejam lucrativos?
33
(11) Em um determinado hospital, os enfermeiros trabalham em turnos de 8 horas na
enfermaria. Se há em média, 6 situações de emergência por dia, nos pacientes
internados nessa enfermaria, e caso aconteça, o enfermeiro fica em torno de 1 hora
atendendo a emergência. Quantos enfermeiros são necessários, em qualquer turno,
para que se tenha não mais que 1% de chance de uma situação de emergência não
ser atendida?
(13) O número médio de aeronaves que pousam em uma determinada base aérea é de
24 por hora durante um dia normal de tráfico. As pistas dessa base são capazes de
suportar até 20 aeronaves por meia-hora. Encontre a probabilidade de operações de
pouso serem superiores ao limite de capacidade da base.
34
4 Teste de Hipóteses
“O tempo de execução de um processo quando realizado por um software é mais rápido que quando
é realizado por outro”;
“O índice de defeito de uma peça fornecida pelo Fornecedor A é menor que do fornecedor B”.
Uma hipótese estatística é uma afirmação sobre algum estado real da natureza que não é
completamente compreendido
O objeto dos testes de hipóteses é fazer julgamento mais acurados, comparativos entre médias,
variações ou proporções de uma amostra com uma referência, que pode ser a população ou mesmo
outra amostra.
35
Figura 4-1 - Teste de Hipóteses
Uma hipótese a ser testada consiste de duas afirmações complementares sobre um estado real da
natureza. As duas afirmações referem‐se a uma hipótese de que não há diferença (não há mudança) e
a outra é de que há diferença ou mudança.
H1: O tempo médio de resposta dos alunos não é igual ao tempo de referência.
Essas duas afirmações complementares são definidas como hipótese nula (H0) e hipótese
alternativa (H1). Como o estado real da natureza é raramente conhecido com 100% de certeza, essas
duas afirmações podem ser argumentadas e testadas. Probabilidade e estatística são combinadas
com dados amostrados para se fazer inferências sobre uma população inteira (o estado real da
natureza) com certa quantidade de incerteza mensurada.
4.1 Erros e
Uma analogia ao teste de hipóteses pode ser feita com o sistema legal onde um acusado em
julgamento é pressuposto inocente até que os acusadores apresentem evidencias irrefutáveis que
convençam o contrário. Nesse exemplo, as hipóteses a serem testadas são:
Independente da conclusão do júri, eles nunca realmente tem certeza sobre o estado real da
natureza. Concluir “H0: O réu é inocente” não significa que o réu é de fato inocente. Uma conclusão H0
simplesmente significa que não se tem evidencias suficientes para justificar sua condenação. Por
outro lado, concluir H1 não prova que ele é culpado, ao invés disso, implica somente que as evidencias
são irrefutáveis e dá ao júri certo nível de confiança em declarar o réu como culpado.
36
Considerando que os vereditos são dados com menos de 100% de certeza, há uma probabilidade
de erro em qualquer uma das duas conclusões. Considere a tabela a seguir, a probabilidade de
cometer um erro Tipo I é definida como (0 < < 1) e a probabilidade de cometer um erro Tipo II é
definida como (0 < < 1).
H0 H1
Conclusão resultando
H0 Conclusão Correta
em um erro Tipo II
Conclusão
Tomada Conclusão
H1 resultando em um erro Conclusão Correta
Tipo I
ii. é ajustado em um nível mínimo, usualmente 5%, 1%, ou 0,1% dependendo do quão critica
é a decisão associada ao erro (por exemplo, em áreas acadêmicas ou sociais normalmente se
utiliza 5%, enquanto que em hospitais ou áreas mais críticas, utiliza‐se 1% ou 0,1%);
iii. Baseado nos itens acima, a afirmação a ser testada fica com um nível de confiança mínimo
de
v. Minimizar enquanto se mantêm constante requer aumento nos tamanhos das amostras.
37
4.2 Passos para o Teste de Hipóteses
Os testes de hipóteses podem ser variados: para avaliar diferença de médias, de variabilidade, de
proporção, de encaixe e outros.
- Teste de Wilcoxon
- Teste de Kruscal‐Wallis
- Teste de Ansari‐Bradley
- Teste de Lepage
38
4.4 Teste de Hipóteses – Dados Contínuos - Média (1 amostra)
Nesse tipo de teste de hipóteses vamos avaliar se a média de uma amostra (série de dados) é
diferente da média de referência (média da população). Em outras palavras verifica‐se se a média da
amostra pertence a outra distribuição ou a mesma distribuição da população.
Vamos tomar um exemplo para elaborar as hipóteses, entender os passos e fazer o julgamento
correto.
Exemplo
O tempo de conclusão de uma determinada atividade era de 16 horas no passado (desvio padrão:
0.5). Como preparativo para a introdução de um novo sistema, uma revisão completa foi feita nos
procedimentos dessa atividade. Por fim, nós fizemos um teste piloto durante algumas semanas após
essa revisão. O resultado pode ser visto abaixo. Você pode ver se houve melhorias?
Dados 1 2 3 4 5 6 7 8
Horas 15,3 15,8 15,0 16,5 15,3 15,5 15,8 14,8
Antes é necessário calcular o valor padronizado Z0, que pode ser obtido conforme abaixo.
̅ ,
2,83
√
P(-2,83) = 0,002
40
Passo 5 – Comparar o Valor P com R (Rejeitar ou Aceitar)
Se P < R H1 é aceito.
Se P > R Não há evidências suficientes para aceitar H1
No caso deste exemplo, P < R, pode‐se dizer que a média após a revisão dos procedimentos é
menor que a média histórica.
Nesse tipo de teste tem‐se por objetivo comparar médias de série de dados entre amostras. Em
termos de metodologia e passos não há significativas diferenças. A única diferença é no passo 4
anteriormente descrito, referente ao cálculo do valor Z0.
41
Exemplo
= 0,05 (5%)
O valor Z correspondente é: Z = 1,96.
Antes é necessário calcular o valor padronizado Z0, que pode ser obtido conforme
abaixo.
̅ ̅ , ,
42
4,89
P(4,89) = 0,000001
No caso deste exemplo, P < R, pode-se dizer que a média após a revisão dos
procedimentos é menor que a média histórica.
43
O Passo 6 refere‐se à conclusão relacionada ao problema original. Nesse caso, como P < R, assume‐se
H1, ou seja, as médias são diferentes.
Os testes de hipóteses para variabilidade têm como objetivo comparar o desvio padrão de uma
amostra com uma referência da população. Em outras palavras, a ideia é verificar diferença de
variabilidade.
Exemplo
Uma série de atividades foram realizadas para implementar melhorias à linha de produção a fim de
reduzir a variação no peso de um certo produto. O desvio padrão antes da implementação das
melhorias era de 30g. Foram selecionados 40 produtos como amostra e o desvio padrão dessa
amostragem s foi de 22g. É seguro dizer que as atividades contribuíram para reduzir a variação no
peso?
44
Passo 3 – Região Crítica
P(Z) = 0,0081
O Passo 6 refere‐se à conclusão relacionada ao problema original. Nesse caso, como P < R, assume‐se
H1.
45
Para o teste de variabilidade de 2 amostras, compara‐se os desvios padrões entre duas amostras. Os
passos são os mesmos observados anteriormente.
Exemplo
Para implementar melhorias visando satisfação do cliente, o Centro de Informação aos Clientes
lançou um projeto para reduzir a variação no tempo necessário para preparar uma resposta a uma
pergunta feita por e‐mail. Como resultado de uma amostragem de 30 e‐mails antes e depois da
melhoria, o desvio padrão antes da melhoria era de 1,6 min e depois da melhoria 1,1 min. É seguro
dizer que a atividade implementada contribuiu para reduzir a variação no tempo de preparação da
resposta?
(15)O valor médio nacional do óleo lubrificante é R$ 6,00 (com desvio padrão de 50 centavos).
Você suspeitou que o preço do óleo lubrificante em sua região é maior que a média de preços
nacional. Então, você coletou amostras de 20 lojas em sua região e encontrou uma média de
R$ 6,20 (com desvio padrão de cinquenta e cinco centavos). Decida se pode afirmar que o
preço do óleo lubrificante em sua região é mais caro que a média nacional.
46
foram amostrados para coleta de dados, como mostram os resultados da tabela ao lado.
Baseado nesses dados verifique se houve uma mudança no número de funcionários que
usam a cantina.
(considere o desvio padrão da amostra como uma estimativa do desvio padrão da
população).
Dias 1 2 3 4 5 6 7 8 9 10 Média Desvio
Amostrados Padrão
No. 728 697 724 733 712 734 698 682 757 705 717 22,286
Funcionários
(17)Os laboratórios A e B foram examinados e suas condições de análise foram remodeladas para
evitar problemas ocasionados por variações em seus resultados de análise.
Após isso, você conduziu uma análise nos dois laboratórios utilizando 10 amostras padrão,
com o resultado mostrado na tabela abaixo.
Se não houver uma diferença significativa na média dos valores analisados você pode
considerar como padrão essas condições de análise. Considere que os dados possuem a
dimensão de mg/100 ml.
(18)Pesquisas anteriores apontaram que 30% dos colaboradores estavam satisfeitos. Uma
campanha foi feita para aumentar esse índice de satisfação, seguida por uma nova pesquisa
feita em 50 colaboradores escolhidos aleatoriamente. Esta pesquisa revelou que 20 desses
colaboradores estavam satisfeitos. Comente sobre o resultado da campanha.
(20)Para verificar a precisão do processo das peças dos fornecedores A e B, examinamos uma
amostragem de 10 peças processadas por cada um dos fornecedores. Os resultados são
apresentados na tabela abaixo (unid: mm).
47
4.9 Teste de Hipóteses – Dados Discretos Proporção da
População
Até então, estávamos estudando Teste de Hipóteses para dados contínuos. Nesta seção vamos
estudar teste de hipóteses de proporção da população, como exemplo, taxas, índices de defeito e etc.
48
Para calcular o valor de P ou tenta-se verificar uma tabela de probabilidade que
normalmente está disponível em livros estatísticos ou usar um software estatístico, com o
Statística.
Exemplo
Seguindo os passos:
49
No passo 5, tem‐se:
Passo 6
(21)O índice de defeito atual de chips IC é de 15%. Como ação corretiva, foi decidido usar um novo tipo de
material. Ao testar 100 Chips IC que usam este novo material foram encontrados 7 produtos com
defeito. Determine se o índice de defeito diminuiu.
50
5.1 Estimativa do Intervalo de Confiança da Média
“O gerente regional de uma rede de lojas necessita saber qual é o tempo médio de
permanência dos clientes nas filas dos caixas após ter instalado um novo sistema de código
de barras nos produtos”.
“Uma empresa aérea gostaria de saber qual é o tempo médio de vida dos trens de pouso das
aeronaves de sua frota”.
“Uma empresa preocupada com o nível de estresse dos seus funcionários quer estimar qual é
a pressão sanguínea média deles”.
51
Figura 5-1 - Estocástica e Estimativa do Intervalo da Média
A estimativa de intervalo de média, como o próprio nome sugere, não determina o valor exato da
média da população, mas com base em amostras pode determinar um intervalo de confiança em que
a média da população se encontra. Baseia‐se, portanto, no conceito de distribuição da média das
amostras do teorema do limite central, e na possibilidade de quantificar o erro associado com a essa
estimativa.
A média da amostra serve como referência, mas não como resultado final. Ela é o que se chama de
“média pontual”.
O teorema do limite central postula que a distribuição de onde foi obtida a média ẋ é um cenário de
uma distribuição normal. Então, a média da população está no centro dessa distribuição, apesar de
não sabermos o seu valor.
= ẋ± erro
Onde esse erro, depende de algumas considerações estatísticas. Após algum desenvolvimento
matemático com base na distribuição normal padronizada, também chamada de distribuição Z, esse
erro foi estabelecido como sendo: erro = ± Z . ( / √n)
Estimativas de intervalo normalmente utilizam um desses 2 níveis de confiança para . Caso seja
necessário um nível de confiança diferente desses valores apresentados, deve ser consultada uma
tabela detalhada dos valores e Z.
A figura abaixo demonstra em forma de diagrama como a estimativa é determinada e o que a mesma
representa.
Figura 5-2 - Intervalo de Confiança para a média com Desvio Padrão da População Conhecido
Essa estimativa de erro considera que o desvio padrão s da população é conhecido, entretanto, se
o tamanho da amostra n é maior ou igual a 30, pode‐se utilizar o desvio padrão da amostra como
estimativa do desvio padrão da população.
Para desconhecido e com amostra inferior a 30, utiliza‐se a distribuição t para a obtenção do
erro.
53
Figura 5-3 - Intervalo de Confiança para a média com Desvio Padrão da População Desconhecido
Exemplo
Para estimar a média do tempo de ciclo da montagem da peça em um certo processo, foram feitos
cálculos usando uma amostragem de 100 peças. A média e o desvio padrão obtidos com a
amostragem foram 140 segundos e 14 segundos, respectivamente. As investigações passadas
mostram que o desvio padrão da população original é de 12 segundos. Vamos determinar a
estimativa do intervalo das médias da população em relação ao tempo de ciclo.
Nesse caso o desvio padrão da população é conhecido. Então, vamos estimar o erro com base na
distribuição normal padronizada Z.
=̅+Z.(/√)
54
5.2 Estimativa de Intervalo da Proporção da População
Vimos na seção anterior como fazer a estimativa de intervalo para a média da população. Nesse
momento vamos ver como fazer a estimativa do intervalo de proporção da população.
O conceito que dá base à estimativa de proporção da população é a mesma que foi vista há pouco
para o intervalo de confiança da média. Tem‐se o teorema do limite central como base e a
distribuição normal padronizada para a determinação do erro.
55
Vejamos o exemplo abaixo.
Exemplo
Tem‐se:
Quem trabalha com auditorias, inspeções de qualidade, pesquisas de campo, pesquisas eleitorais e
etc. deparam‐se sempre com uma questão importante: qual deve ser o tamanho da amostra. Para
algumas situações, como acontece com inspeções de produtos e peças por amostragem, há várias
normas e regulamentos referências pelo mundo, com base em tabelas originalmente militares, para
determinação do tamanho das amostras.
No entanto, em muitas situações, não se tem essas tabelas de referência. E então, questiona‐se, como
estimar o tamanho da amostra.
Como pode ser visto abaixo, o tamanho de amostra para dado contínuos é determinado também
considerando erro que é determinado pelo valor obtido a partir da distribuição normal padronizada
em decorrência do nível de confiança. Além disso, há a precisão h, também chamado erro máximo.
56
Figura 5-5 - Estimativa do Tamanho da Amostra - Dados Contínuos
Para os casos em que o dado é uma proporção, por exemplo, índice de defeito, índice de intenção de
votos e etc., também é possível determinar o tamanho da amostra. Vejamos abaixo.
5.5 Exercícios
(24)O gerente regional de uma rede de lojas necessita saber qual é o tempo médio de
permanência dos clientes nas filas dos caixas após ter instalado um novo sistema de código
de barras nos produtos.
Uma amostra aleatória de 36 clientes e do registro do tempo que permaneceram no caixa do
supermercado. Determine o intervalo da média.
(26)Em uma pesquisa eleitoral, 300 pessoas foram entrevistadas e, dessas, 164 declaram voto no
candidato A. Considerando um intervalo de confiança de 95% estime o intervalo de confiança
da população votante no candidato A.
(27)Foi feita uma verificação preliminar para saber o comprimento de uma certa peça, e o desvio
padrão do comprimento acabou sendo 7 mm. Assumindo‐se um coeficiente de confiança de
95%, quantas peças devem ser amostradas para fazer a verificação real com uma precisão de
± 1 mm? Considere que o número total de peças é conhecido.
(28)Na condução de uma inspeção no recebimento, a precisão deve ser mantida abaixo de 1%.
Dado um nível de confiança de 95% e que o índice de defeito era de 2% ou menor, conforme
dados históricos, qual deveria ser o tamanho da amostra?
58
(29)Estamos próximos da mais uma eleição municipal majoritária. Em recente pesquisa, o
candidato líder apareceu com 23%. Considerando uma margem de erro de 3% e um intervalo
de confiança de 95%, qual deve ser o tamanho de amostragem da próxima pesquisa?
Não há nada mais poderoso do que poder estimar o valor de uma variável conhecendo
outra(s). Isso significa a possibilidade de agilidade e economia para tomar algumas decisões. Para
tanto é necessário verificar se há uma relação física e natural entre as variáveis.
Nesse capítulo, vamos estudar correlação e regressão linear simples e regressão linear
múltiplas.
Há várias ferramentas que permitem mostrar a relação de entre variáveis, mas é somente
com regressão que é possível determinar um modelo matemático.
Vamos ver algumas sentenças que demonstram a busca pela determinação da relação entre
duas variáveis.
É verdade que:
“Sempre que um pão cai, o lado com a manteiga estará virado para o chão?”
“Quanto mais velho, maior é a renda?”
“Quanto mais velho, maior é o tempo para percorrer um percurso correndo?”
“Então, quanto maior o salário, maior é o tempo para percorrer um trecho?"
“Há uma relação entre o tamanho do pé... e o tamanho do antebraço?”
“Existe uma relação entre temperatura e latitude?”
“Há uma relação entre pressão e altura?”
“Existe relação entre tempo de estudo e renda?”
Ainda motivando o estudo de relacionamento entre variáveis, vejamos um estudo com base
em pesquisa sobre a qualidade do ensino (com base na avaliação do Ideb) com o nível sócio
econômico.
59
6.2 A relação entre desempenho escolar e nível socioeconômico
60
Figura 6-2 - Escolas que se destacam nas 25 cidades mais pobres do país.
O estudo, acima, comprova de uma maneira geral, oque é de expectativa geral, quanto maior
o nível socioeconômico, mais é o nível educacional em uma região. A pesquisa em si possui dois
méritos. Um da comprovação entre as duas variáveis citadas acima, deixando de ser algo meramente
empírico para algo cientificamente comprovado. Mas ao mesmo tempo, apesar de demonstrar a
relação entre a as duas variáveis, ainda se aprofundando na análise dos pontos que aparentemente
não seguem ao padrão geral, ou seja, apesar do nível socioeconômico ser baixo, apresenta bom nível
educacional.
E é nessa avaliação que se destacam escolas em Sobral‐CE, que é a cidade que mais
apresentou escolas com nível de qualidade bom (acima de 6). Destaca‐se uma escola no interior do
Amazonas, Eirunepé. A Escola Dom Bosco apresentou uma pontuação de 8,7, mesmo sendo de uma
cidade cujo nível socioeconômico foi baixo.
Observe os 16 pontos no gráfico mostrado a seguir e desenhe uma linha reta que corresponda
ao que você acredita ser a linha que melhor representa esses dados (isto é, desenhe uma linha de
regressão através desses pontos). A equação que representa esta linha de regressão tem o formato
de = b0 + b1x. O valor de b0 pode ser obtido se a linha for entendida até o ponto que intercepta o eixo
y, onde b0 corresponde ao valor resultante nessa interseção. Já o valor de b1 é a inclinação da curva.
Para encontrar b1, obtenha os valores de y quando x for igual a 0 e 10, respectivamente. Subtraia o
61
segundo valor de y do primeiro. A diferença é chamada de y. O cálculo de x será 10 – 0
= 10. Agora encontre y/x. Quando terminar, você terá encontrado os valores de b0 e b1. Substitua
os valores nos quadrados a seguir, e você terá a equação de regressão de y.
b0 b1
y = + x.
Você pode querer comparar a sua solução com as dos outros colegas de classe. Se você fizer
isso, é muito provável que encontre diferentes soluções provenientes das outras pessoas. Essas
comparações mostram a diversidade de opiniões a respeito de como essa linha deve ser desenhada e,
portanto, a diversidade de combinações de b0 e b1.
É natural perguntar, “qual é a melhor linha?” Ou talvez, “há uma melhor linha?”. Enquanto
opiniões são permitidas, devemos ter algum critério para definir uma “melhor linha”. Há um método
chamado de “método dos mínimos quadrados” é o mais aceito como padrão para encontrar a melhor
equação que encaixa esses dados.
62
Este método também é capaz de ser aplicado em dados que possuam mais de uma variável
independente (por exemplo, = b0 + b1x1 + b2x2). Ele fornece formas de julgar o qual bem foram
estimados os coeficientes do modelo real, além de fornecer características de previsão.
Matematicamente, a obtenção dos valores de b0 e b1 através do método dos mínimos quadrados
resulta nas seguintes equações.
e ̅
̅
143
̅= 7,3 =
63
̅
Assumindo que foram coletados três valores de resposta, ou observações, para cada um dos quatro
ajustes de temperaturas, conforme os dados mostrados na tabela a seguir, um gráfico representado a
relação da temperatura com o rendimento pode ser construído.
Neste gráfico, o segmento de reta construída “a olho” ou “a mão livre” representa a linha de
regressão. A proximidade de todas as observações com a linha indica a precisão da previsão dos
valores de y para uma dada temperatura.
O ponto chave da localização da linha é que ela fique num lugar que minimize a sua distância das
observações. Utilizando a fórmula de uma função linear [f(x) =b0 + b1x], onde b0 representa o ponto
de interseção com o eixo y e b1 representa a inclinação da reta, podemos estimar o valor de b0
graficamente como “zero”, simplesmente observando o gráfico. O valor da inclinação pode ser
estimado através da medição da mudança de y (y) para alguma mudança especifica de x (x), isto é,
64
Figura 6-4 - Desenho “a mão livre” da Linha de Regressão através dos Dados
Então, a linha de regressão construída a mão pode tomar a seguinte forma, y = 0,035x.
Considerando que todas as observações não ficam nessa linha, obviamente há certo erro em nossa
linha estimada. Para incorporar esse erro na formula de previsão de y, para um valor qualquer de x,
pode‐se utilizar a equação y = b0 + b1x + , onde representa o erro, que é tipicamente considerado
como normalmente distribuído em torno de zero. Considera‐se também que tem igual
variabilidade para todos os valores de x, dessa forma pode‐se dizer que o erro é independente.
O modelo matemático y = b0 + b1x + é aplicável aos dados da população, isto é, todos os possíveis
valores de x e y.
A real equação de regressão desse modelo pode ser representada por E(y) = 0 + 1x. Entretanto, 0 e
1 são parâmetros desconhecidos da população. Então, a real equação de regressão é desconhecida.
Dados coletados através de experimentação e de processos controlados são dados amostrados (um
subconjunto da população), e desta forma, utiliza‐se de = b0 + b1x como aproximação da equação
real. Isto é, , b0 e b1 são estimativas de E(y), 0 e 1 , respectivamente.
Pela figura apresentada a seguir, pode ser visto que a diferença entre cada observação e a média dos
dados pode ser dividida da seguinte forma:
65
Figura 6-5 - Gráfico mostrando a decomposição de (Yi-Ȳ)
Agora vamos exercitar um pouco nossos conhecimentos algébricos. Elevando ao quadrado cada um
dos lados dessa equação e somando todas as observações, após algumas manipulações, resulta na
seguinte equação.
Onde ∑ representa a Soma Quadrática dos Totais (Sum of Squares Total), um termo comum no
cálculo de variâncias. Os outros dois termos que representam as porções do SST são chamados de
Soma Quadrática dos erros (Sum of Squares Erros), SSE e Soma Quadrática da Regressão (Sum of
Squares due to Regression), SSR.
∑ e ∑
Uma forma de medir a força da relação linear entre y e x é o coeficiente de correlação, cuja
representação matemática se dá por:
Uma forma de medir a força da relação linear entre y e x é o coeficiente de correlação, cuja
representação matemática se dá por:
66
∑ ̅∑
Para o exemplo apresentado na primeira sessão desse capítulo (Tabela 6.2), temos:
16.843,20
0,64
899,68 16 7,3 328.210,5 16 143 48.286,56
O valor de R é limitado ao intervalo [‐1,+1], onde ‐1 indica uma coleção negativa perfeita e +1 indica
uma correlação positiva perfeita. “Zero” indica que não há correlação linear entre y e x. Para a
Regressão Linear Simples, o sinal de R será o mesmo do valor b1 (que representa a inclinação da reta).
A fórmula para R mostrada acima é chamada de fórmula do coeficiente de correlação da amostra.
Quando |R| > 0,7 pode‐se dizer que há uma correlação relativamente forte entre x e y. Para o
exemplo apresentado na primeira sessão desse capítulo (Tabela 6.2), temos:
16.843,20
0,64
899,68 16 7,3 328.210,5 16 143 48.286,56
O valor de R é limitado ao intervalo [‐1,+1], onde ‐1 indica uma coleção negativa perfeita e +1 indica
uma correlação positiva perfeita. “Zero” indica que não há correlação linear entre y e x. Para a
Regressão Linear Simples, o sinal de R será o mesmo do valor b1 (que representa a inclinação da
reta). A fórmula para R mostrada acima é chamada de fórmula do coeficiente de correlação da
amostra. Quando |R| > 0,7 pode‐se dizer que há uma correlação relativamente forte entre x e y.
67
Figura 6-6 - Exemplo de Correlações
Por outro lado, uma forma mais apropriada de medir a relação entre x e y pode ser através de uma
interpretação com base na variabilidade entre eles e do cálculo do coeficiente de determinação,
denominado R2.
Como SST representa a soma quadrática total, o termo SSE/SST representa a proporção da
variabilidade total dada pelos pontos ao longo da linha de regressão, e SSR/SST representa a
proporção da variabilidade total que pode ser explicada utilizando a linha de regressão, ao invés da
linha horizontal , para prever os valores de y. Utilizando um pouco de álgebra, pode ser mostrado
que:
∑
Então,
68
Se não houver relação linear entre x e y, então SSE = SST e R2=0. Se todas as observações coincidirem
com a linha de regressão (ou ), SSE = 0, o que implica que R2=1.
No exemplo da Tabela 6.2 o valor de R2 é igual a 0,64. Isso indica que 64% da variabilidade de y
podem ser explicada através da relação linear de y com x. A força dessa relação linear entre essas
duas variáveis está diretamente relacionada com a porção de variabilidade em y que pode ser
computada como em função de x. Neste exemplo, a forca da relação linear entre essas duas variáveis
pode ser considerada um pouco fraca, pois está abaixo de 0,70. Pode‐se dizer, por outro lado, que
36% da variabilidade em y permanece não explicada. Algumas vezes essa variabilidade não explicada
é chamada de variabilidade do ruído ou resíduo.
Testando R2
Considerando que R2 é computado de dados amostrados, ele é apenas uma estimativa de R2, a
verdadeira (mas desconhecida) força da relação linear entre x e y ao longo de todas as suas
populações. Nesse sentido, nós pretendemos testar o valor de R2 para garantir que ele é
significativamente diferente de zero. Para tal, vamos formular as seguintes hipóteses:
Não basta que o coeficiente de correlação apresente uma valor acima de 0,7 para que estabeleça uma
relação sólida entre duas variáveis. É preciso observar 3 itens:
‐ Deve‐se observar o gráfico de dispersão (verificar se o gráfico sugere uma relação linear) ‐
70
6.8 Correlação Espúria
Em algumas situações, podemos julgar a existência de correlação entre duas variáveis que na prática
não apresentam nenhuma relação natural. Normalmente, essa “correlação” é determinada pela
existência de uma outra variável que de fato apresenta uma correlação e uma relação natural com as
duas variáveis originais.
Na figura 6.10, há um exemplo de correlação espúria entre as variáveis Tempo de Deslocamento (X) e
Faturamento Anual (Y). Sugere‐se que com mais tempo uma pessoa leva para percorre um percurso
qualquer, maior é sua renda ou faturamento anual.
De fato as variáveis X e Y apresentam correlação com uma terceira variável: idade (Z). Com o passar
dos anos, é normal que possamos crescer em nossas carreiras e, portanto, temos nossos rendimentos
aumentados. É também natural que quanto mais velhos, mais tempo levamos para percorrer
correndo um determinado percurso, sem levar em consideração treinamentos e etc.
(30)Dadas as seguintes alturas (x) e pesos (y) de 12 homens, de acordo com a seguinte tabela,
construa um gráfico de correlação dos dados relacionando x e y. Encontre os valores de b0, b1
e construa a equação de regressão linear representando x e y.
71
(31)Para estudar a poluição de um rio, um cientista mediu a concentração de um determinado
composto orgânico (Y) e a precipitação pluviométrica na semana anterior (X), resumindo sua
amostra de acordo com a tabela a seguir:
a. Construa o gráfico de correlação entre essas duas variáveis.
b. Determine a equação de regressão linear.
c. Calcule o coeficiente de determinação.
d. Calcule o Coeficiente de Correlação
e. Existe alguma relação entre o nível de poluição e a precipitação pluviométrica?
“O preço de uma casa é determinado por vários fatores: área total, área construída, localização...”
“A altura do filete de solda de uma placa é determinado por fatores como: temperatura da solda,
ângulo da esteira, velocidade.”
Nas situações descritas acima temos exemplos de processos, fenômenos ou cenários em que uma
variável (de saída) é afeta não por uma única variável, mas muitas. A esse tipo de relação, chamamos
de relação multivariável.
Exemplo
Observe o exemplo mostrado na tabela a seguir. Sendo y (Salário Anual) a variável dependente e
relacionando o par de variáveis x1 (Anos de Educação) e x2 (Anos de Experiência) como as variáveis
explanatórias (ou variáveis independentes), pode‐se pensar em estabelecer uma relação entre essas
variáveis, utilizando a técnica de regressão linear. Neste caso, quando há mais de uma variável
explanatória, denomina‐se regressão linear múltipla.
72
Y x1 x2
15 5 7
17 10 5
26 9 14
24 13 8
27 15 6
O mesmo método dos mínimos quadrados é capaz de ser aplicado em dados que possuam mais de
uma variável independente (por exemplo, = b0 + b1x1 + b2x2). Ele fornece formas de julgar o quão bem
foram estimados os coeficientes do modelo real, além de fornecer características de previsão.
Matematicamente, a obtenção dos valores de b0, b1 e b2 através do método dos mínimos quadrados
resulta na seguinte equação.
No caso da regressão linear simples visto anteriormente, a utilização do método dos mínimos
quadrados possibilita encontrar os coeficientes de uma equação de reta representando a relação
entre as variáveis x e y, como pode ser visto na figura a seguir. Os valores de b0 e b1 são obtidos de
forma a minimizar ei2, por esse motivo esta técnica é chamada de método dos mínimos quadrados.
Entretanto, quando se tem 2 variáveis independentes e se busca a relação com uma variável
dependente das duas primeiras, através deste mesmo método dos mínimos quadrados, a equação
Figura 6-11 - A equação de regressão linear e o método dos mínimos quadrados
de relacionamento = b0 + b1x1 + b2x2 representa um plano, como pode ser visualizado na
exemplificação da figura a seguir.
73
Figura 6-12 - Representação da regressão múltipla com duas variáveis e o método dos mínimos
quadrados
A figura a seguir mostra o resultado obtido pelo STATISTICA da regressão múltipla do exemplo de
salário anual.
Ao avaliar o resultado de uma regressão linear múltipla, especial atenção deve ser dada ao coeficiente
de correlação R2, aos valores dos coeficientes (B) e ao valor p (p‐level) do teste de hipótese realizado
para cada variável explanatória. O valor‐p está associado ao risco a do teste de hipóteses. Caso seja
menor ou igual a 0,05, considera‐se como relevante a inclusão da variável no modelo matemático da
regressão linear múltipla. Se o valor p estiver entre 0,05 e 0,10, a inclusão da variável pode ser
considerada. Caso o valor p seja maior que 0,10, não é recomendada a inclusão da variável no
modelo da regressão linear múltipla.
Tabela 6-4 - Resumo do valor p na análise da regressão linear múltipla
valor p Recomendação
Valor p < 0,05 Incluir a variável no modelo de regressão
0,05 < valor p < 0,10 Decidir se inclui ou não a variável no modelo de regressão
Valor p > 0,1 Não incluir a variável no modelo de regressão
74
6.12 Regressão Linear Simples e Múltipla
(32)Um fazendeiro quer saber o custo de manutenção de seu caminhão durante o corrente
ano, para tanto foram coletadas informações de quilometragem e tempo do caminhão. A
tabela abaixo nos mostra esses valores. Há uma relação entre o tempo do caminhão, a
quilometragem e o custo de manutenção? É possível estabelecer um modelo matemático?
75
(33)Um avalista coletou alguns dados referentes a características da casas e os valores
respectivos com os quais as mesmas foram comercializadas, conforme tabela abaixo.
a. Podemos afirmar entre as variáveis e o valor da casa?
b. Quais são as variáveis que apresentam relação com o valor da casa e que pertencem
ao modelo?
c. Demonstre o modelo encontrado.
7 Referências Bibliográficas
KIEMELE, Mark J., SCHMIDT, Stephen R., BERDINE, Ronald J., Basic Statistics – Tools for Continuous
Improvement. 4 ed. Colorado Springs, Air Academy Press, 1997.
SCHMIDT, Stephen R., LAUNSBY, Robert G., Understanding Industrial Designed Experiments. 4 ed.
Colorado Springs, Air Academy Press, 1998.
JURAN, J. M., Juran’s Quality Control Hand Book. 4 ed. New York, McGraw‐Hill, 1988.
DEMING, W. E., Qualidade: A Revolução da Administração. Rio de Janeiro, Marques Saraiva, 1990.
GEORGE, Michael, ROWLANDS, David, PRICE, Mark, MAXEY, John, The Lean Six Sigma Pocket Tool
Book. New York, Mc Graw Hill, 2005.
SPIEGEL, Murray R. Estatística. Coleção Shaum. São Paulo, Mc Graw Hill, 1977.
76