Você está na página 1de 187

SUMÁRIO

Introdução ................................................................................................. 002


1. Conceitos Básicos de Estatística .......................................................... 003
1.1.Tabelas de frequência ........................................................................ 007
2. Medidas Estatísticas ............................................................................. 015
2.1. Medidas de Tendência Central ................................................. 016
2.1.1. Média ..................................................................................... 016
2.1.2. Mediana ................................................................................. 019
2.1.3. Moda ...................................................................................... 022
2.2. Medidas de Variabilidade ......................................................... 023
2.2.1. Variância ................................................................................ 025
2.2.2. Desvio-padrão ....................................................................... 027
2.2.3. Coeficiente de Variação ........................................................ 031
3. Gráficos de Controle ............................................................................. 042
4. Probabilidade ........................................................................................ 059
5. Distribuições de probabilidade .............................................................. 074
5.1. Distribuição Binomial ................................................................ 075
5.2. Distribuição Poisson ................................................................. 078
5.3. Distribuição Normal .................................................................. 081
6. Intervalos de Confiança ........................................................................ 101
6.1. Intervalo de Confiança para média ........................................... 102
6.2. Intervalo de Confiança para proporção .................................... 109
7. Testes de hipóteses .............................................................................. 114
7.1. Teste t-student para uma média ............................................... 120
7.2. Teste t-student para comparação de duas médias .................. 130
7.3. Teste para proporção ............................................................... 139
8. Análise de Variância ............................................................................. 145
8.1. Teste de comparações múltiplas de Tukey .............................. 154
9. Análise de Correlação .......................................................................... 159
10. Análise de regressão linear simples ................................................... 175

1
INTRODUÇÃO

O grande avanço tecnológico das últimas décadas gerou a necessidade


de formação de profissionais capazes de acompanhar este desenvolvimento
com habilidades para gerar e analisar dados, produzindo informação útil a ser
utilizada na resolução de problema. Neste contexto as ferramentas estatísticas
são imprescindíveis e o conhecimento das mesmas torna-se necessário para
qualquer profissional.

. A Estatística hoje se configura como uma das ciências que mais vem
crescendo em termos de utilização e importância na Engenharia: estudos de
qualidade, confiabilidade, desenvolvimentos de novos produtos, avaliação de
metodologias de produção, novos materiais, etc. são alguns exemplos da
ampla utilização das ferramentas estatísticas para resolução de problemas e
tomada de decisões nesta área.

A disciplina de Tratamento de Dados tem por objetivos: propiciar ao


aluno o estudo da estatística com vistas a análise de dados experimentais,
cálculo e interpretação das medidas descritivas, uso de probabilidades e
raciocínio lógico na resolução de problemas, utilização de testes estatísticos
como ferramenta de análise de comparação e relação de dados no contexto
das organizações industriais.

Os conteúdos serão apresentados em 10 capítulos contendo a


explicação teórica dos mesmos, bem como a apresentação de exemplos e
aplicações em problemas na área da Engenharia. Em cada capítulo será
destacado o objetivo de cada ferramenta estatística bem como a interpretação
dos resultados obtidos.

2
1. CONCEITOS BÁSICOS DE ESTATÍSTICA

Simone Echeveste

Neste capítulo será apresentado o contexto da pesquisa em que a


estatística está inserida, bem como serão destacados os principais conceitos
básicos de estatística. O objetivo aqui é que o aluno compreenda o vocabulário
pertinente à análise estatística e que seja capaz de identificar as variáveis de
um estudo, organizando-as em tabelas de frequencia.

Ao final deste capítulo espera-se que o aluno, dada uma situação


problema, identifique corretamente a amostra de estudo e as variáveis
envolvidas, bem como construa tabelas de frequência como forma de resumo e
apresentação de dados.

CONCEITOS DE ESTATÍSTICA E O SEU PAPEL NA CIÊNCIA

A necessidade de analisar um conjunto de dados estatisticamente está


sempre inserida no contexto de uma pesquisa, ou seja, temos inicialmente uma
situação problema a ser resolvida, ou ainda uma hipótese a ser testada e para
isso uma pesquisa deve ser realizada.

Com isso, em uma pesquisa destaca-se a importância da utilização da


estatística de acordo com os seguintes fatores:

a) Em uma pesquisa, muitas vezes são realizados estudos experimentais


ou observacionais que culminam em uma coleção de dados numéricos
que devem ser organizados e resumidos.

b) O padrão de variação nos dados faz com que a resposta não seja óbvia,
ou seja, somente tratando os dados adequadamente é que poderemos
verificar o comportamento das variáveis de estudo.

3
c) Uma análise estatística é composta por métodos para coleta e descrição
dos dados, viabilizando a verificação da força da evidência nos dados
pró ou contra as hipóteses de pesquisa. A presença de uma variação
não previsível nos dados faz disso, muitas vezes, uma tarefa pouco
trivial.

Figura 1. O papel da Estatística na pesquisa

Problema

Solução através de Experiências Solução através da ciência -


passadas, "palpites" Estatística

Tomada de Decisão

Em toda a pesquisa realizada almeja-se a resposta a um problema ou


ainda uma situação- problema que está vinculada a uma tomada de decisão a
ser realizada. Podemos considerar que nossa decisão pode ser tomada
através de dois tipos de soluções: a primeira que pode ser considerada uma
solução empírica que se fundamenta na observação e na experiência, livre de
um método científico – é uma forma de solução muitas vezes subjetiva que
pode levar a tomada de decisão errada.

O outro tipo de solução seria através do método científico, à luz de


dados provenientes de uma pesquisa que segue uma metodologia pré-
determinada para garantir a imparcialidade das informações obtidas. Neste
caso as ferramentas estatísticas são indispensáveis para a viabilização de uma
tomada de decisão com menores riscos e incertezas.

4
Rao (1999) define estatística como:

"A estatística é uma ciência que estuda e pesquisa sobre: o


levantamento de dados com a máxima quantidade de informação
possível para um dado custo; o processamento de dados para a
quantificação da quantidade de incerteza existente na resposta para um
determinado problema; a tomada de decisões sob condições de
incerteza, sob o menor risco possível. Finalmente, a estatística tem sido
utilizada na pesquisa científica, para a otimização de recursos
econômicos, para o aumento da qualidade e produtividade, na
otimização em análise de decisões”

Dentre os conceitos importantes frequentemente utilizados na Estatística


estão as definições de População e Amostra:

Uma população (N) é conjunto de elementos de interesse em um determinado


estudo, que podem ser pessoas ou resultados experimentais, com uma ou mais
características comuns, que se pretendem estudar.

Uma amostra (n) é um subconjunto da população usado para obter informação


acerca do todo. Obtemos uma amostra para fazer inferências de uma população.
Nossas inferências são válidas somente se a amostra é representativa da
população.

A Estatística pode ser dividida em duas áreas: Descritiva e Inferencial.


A área descritiva é mais simples, contemplando ferramentas de organização
de dados e síntese de informação. A área Inferencial, por sua vez, permite ao
pesquisador projetar resultados amostrais para populações, bem como testar
hipóteses concernentes a parâmetros populacionais. Inferência estatística é o
processo pelo qual estatísticos tiram conclusões acerca da população usando
informação de uma amostra. A Estatística Inferencial está baseada em dois
pilares fundamentais: a Amostragem e a Probabilidade.

5
Outro conceito importante é o conceito da Variável, que vem a ser a
matéria prima de qualquer pesquisa, ou seja, quando se termina uma coleta de
dados em um primeiro momento dispomos de um conjunto de valores ou ainda
respostas pertinentes as nossas variáveis de pesquisa.

Uma variável (x) é uma característica dos elementos investigados que difere
de um elemento para outro e do qual temos interesse em estudar. Cada
unidade (elemento) da população que é escolhido como parte de uma
amostra fornece uma medida de uma ou mais variáveis, também chamadas
observações.

As variáveis podem ser classificadas em:

a) Variáveis Quantitativas: são as características que podem ser medidas


em uma escala quantitativa, ou seja, apresentam valores
numéricos/quantidades. Podem ser contínuas ou discretas.

 Discretas: características mensuráveis que podem assumir


apenas um número finito ou infinito contável de valores e, assim,
somente fazem sentido valores inteiros. Exemplos: número de
falhas, número de itens perfeitos números de carros vendidos,
etc.

 Contínuas: características mensuráveis que assumem valores


em uma escala para as quais valores fracionais fazem sentido.
Exemplos: comprimento da peça , temperatura, tempo de vida de
um componente eletrônico, etc.

b) Variáveis Qualitativas (ou categóricas): são as características que não


possuem valores quantitativos, mas, ao contrário, são definidas por
várias categorias, ou seja, representam uma classificação dos elementos.
Podem ser nominais ou ordinais.

6
 Variáveis Qualitativas nominais: não existe ordenação dentre
as categorias. Exemplos: marca do carro, tipo de fornecedor,
região de produção, etc.

 Variáveis Qualitativas ordinais: existe uma ordenação entre as


categorias. Exemplos: escolaridade (Fundamental, Médio ou
Superior), grau de importância (nenhuma, pouca, razoável,
muito), etc.

1.1. ANÁLISE DESCRITIVA: TABELAS DE FREQUENCIA

O primeiro contato do pesquisador com os seus dados é feito através da


construção das tabelas de frequência, podemos dizer que neste momento os
dados recebem o seu primeiro tratamento. Nesta etapa de análise o
pesquisador identificará as possíveis respostas a uma determinada variável e o
comportamento das mesmas no que se refere a sua frequência.

A tabela de frequência tem por objetivo apresentar os resultados de


cada variável de uma forma organizada e resumida. Nesta tabela encontramos
o número de repetições de cada categoria de resposta de uma variável bem
como o seu percentual no grupo investigado.

De acordo com as normas da ABNT (Associação Brasileira de Normas


Técnicas) e do IBGE (Instituto Brasileiro de Geografia e Estatística) as tabelas
de frequência devem considerar os seguintes elementos:

a) Título: deve conter as informações necessárias para que se


compreenda “o que” está sendo apresentado na tabela, “onde” os
dados foram obtidos e “quando” esses dados foram coletados.

b) Cabeçalho: indica a natureza do conteúdo de cada coluna da tabela.

7
c) Corpo da Tabela: é a parte composta por linhas e colunas com as
informações observadas.

d) Rodapé: espaço logo abaixo da tabela que pode ser utilizado para a
apresentação de notas ou observações de natureza informativa.

e) Fonte: refere-se à entidade que organizou ou forneceu os dados


apresentados na tabela.

Exemplo de construção de uma tabela de frequência:

Considere uma pesquisa realizada com uma amostra de 20 lotes de


parafusos com o objetivo de investigar o número de parafusos fora da
conformidade. Os dados observados foram:

0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Verifique que temos 20 números apresentados – cada número desses


corresponde a um lote. Por exemplo, o primeiro lote possui o parafusos fora da
conformidade, o segundo 1 parafuso e assim sucessivamente até o vigésimo
lote que possui 0 parafusos não conformes.

Para este problema podemos destacar as seguintes informações:

a) Variável de pesquisa: Número de parafusos fora da conformidade

b) Amostra investigada: 20 lotes

Para a construção da tabela precisamos das seguintes informações:

8
c) Valores da variável que surgiram: corresponde às quantidades
observadas de parafusos fora da conformidade. Neste caso
encontramos 0, 1, 2, 3 e 4 parafusos.
d) Frequência (f) de cada valor da variável: corresponde ao número de
vezes que cada valor se repetiu.

Para o exemplo, podemos observar que 0 parafusos fora da


conformidade se repetiu em 7 lotes:
0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Na sequência, 1 parafuso fora da conformidade se repetiu em 5 lotes:


0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Já 2 parafusos fora da conformidade se repetiu em 3 lotes:


0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Para 3 parafusos fora da conformidade observamos uma ocorrência


em 3 lotes:
0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

Por fim, para 4 parafusos fora da conformidade observamos uma


ocorrência em 2 lotes:
0 1 0 2 3 3 2 1 0 4
3 1 0 0 4 2 1 0 1 0

9
Agora organizamos essa informação através da estrutura de uma tabela
de frequência, considerando todos os seus elementos:

Número de parafusos fora da conformidade


Fábrica A – Junho 2013
Nº Parafusos Frequência %
0 7 35
1 5 25
2 3 15
3 3 15
4 2 10
Total 20 100
Fonte: Pesquisa Interna

Cálculo da Porcentagem:

Expressão Geral:

IMPORTANTE!!!
De acordo com as normas, as tabelas de frequência não podem ser fechadas dos
lados e nem ter linhas dividindo as categorias da variável. As únicas linhas permitidas
são as que delimitam o cabeçalho e as que delimitam o total e no centro da tabela é
opcional colocar ou não o traço divisório das colunas.

10
Recapitulando

As ferramentas estatísticas são indispensáveis no tratamento de dados


provenientes de uma pesquisa. É através da análise e tratamento de dados
que o pesquisador obtém todas as informações pertinentes ao objeto de
estudo, propiciando uma tomada de decisão com menores riscos e incertezas.

Algumas definições importantes:

 População (N):: é o conjunto de elementos de interesse em um


determinado estudo.

 Amostra (n):: parte da população selecionada é a quantidade de


elementos investigada
 Variável (x): é a característica da amostra a ser investigada, ou seja,
o que desejamos saber com a pergunta realizada.
 Categorias: representam as possíveis respostas para a variável
investigada.
 Frequência (f): é o número de vezes que cada categoria da variável
se repetiu, ou ainda, quantos elementos investigados optaram por
determinada resposta da questão.

As tabelas de frequência correspondem a uma forma de apresentação


de dados, seus elementos são: Título, Cabeçalho, Corpo, Rodapé e Fonte. Sua
estrutura é composta por linhas e colunas. As colunas são determinadas de
forma que a variável a ser apresentada e suas respectivas categorias
localizam-se na primeira coluna, já na segunda coluna é apresentado a
frequência (número de repetições) de cada categoria, e por fim, a terceira
coluna representa a porcentagem de cada categoria de resposta.

11
Atividades: Conceitos Básicos de Estatística

Considere a seguinte situação de pesquisa:

“Um engenheiro realizou uma pesquisa com os pneus radiais de um novo


veículo produzido por sua montadora com o objetivo de verificar o desgaste.
Para este estudo ele selecionou um grupo de 50 pneus e observou a
quilometragem em que estes rodavam até a ocorrência do desgaste dos
pneus.”

Questão 1. A população desta pesquisa pode ser considerada como sendo:


a) Os carros produzidos pela montadora
b) Pneus radiais do novo veículo
c) Desgaste dos pneus radiais
d) Um grupo de 50 pneus investigados
e) Quilometragem rodada pelos pneus radiais até ocorrer o desgaste

Questão 2. A amostra desta pesquisa pode ser considerada como sendo:


a) Os carros produzidos pela montadora
b) Pneus radiais do novo veículo
c) Desgaste dos pneus radiais
d) Um grupo de 50 pneus investigados
e) Quilometragem rodada pelos pneus radiais até ocorrer o desgaste

Questão 3. A variável desta pesquisa pode ser considerada como sendo:


a) Os carros produzidos pela montadora
b) Pneus radiais do novo veículo
c) Desgaste dos pneus radiais
d) Um grupo de 50 pneus investigados
e) Quilometragem rodada pelos pneus radiais até ocorrer o desgaste

12
Questão 4. Marque V para verdadeiro e F para falso nas seguintes
afirmativas:

a) ( ) Em uma pesquisa o padrão de variação nos dados faz com que os


resultados não sejam óbvios, por este motivo, os resultados obtidos devem
receber um tratamento estatístico que permitirá a verificação do
comportamento das variáveis de estudo.

b) ( ) As variáveis quantitativas são características que não possuem valores,


mas, ao contrário, são definidas por categorias, ou seja, representam uma
classificação dos elementos.

c) ( ) No título de uma tabela de frequências deve-se colocar todas as


informações necessárias para que se compreenda “o que” está sendo
apresentado na tabela, “onde” os dados foram obtidos e “quando” esses
dados foram coletados.

d) ( ) O número de repetições de cada categoria de uma variável é chamado


de frequência e é representado pela letra “x”.

Questão 5. Os dados a seguir referem-se ao tempo que determinada marca de


transformador levou para apresentar a primeira falha grave, em anos, obtidos
em um grupo de 15 transformadores. Os resultados do tempo de falhas em
anos são dados por:

6 5 6 7 8
8 8 8 5 7
8 7 6 8 6

Construa uma tabela de frequência para representar estes dados.

13
Gabarito das atividades propostas

Questão 1. b) Pneus radiais do novo veículo


Questão 2. d) Um grupo de 50 pneus investigados
Questão 3. e) Quilometragem rodada pelos pneus radiais até ocorrer o
desgaste
Questão 4. a) V, b) F, c) V, d) F
Questão 5.

Tempo que determinada marca de transformador levou para apresentar a primeira


falha grave, em anos
Tempo Frequência %
5 2 13,3
6 4 26,7
7 3 20,0
8 6 40,0
Total 15 100
Fonte: Pesquisa Interna

14
2. MEDIDAS ESTATÍSTICAS

Simone Echeveste

Neste capítulo iremos abordar as principais medidas estatísticas


utilizadas na área da Engenharia. Elas são divididas em dois grupos: Medidas
de Tendência Central e Medidas de Variabilidade. Nosso objetivo aqui é a
apresentação de cada uma destas medidas no que se refere à aplicabilidade,
ao cálculo e à interpretação dos resultados obtidos.

O aluno ao final deste capítulo deverá ser capaz de calcular e interpretar


as medidas estatísticas apresentadas.

Podemos ainda aprofundar um pouco mais a nossa análise estatística


para o caso em que as variáveis analisadas sejam QUANTITATIVAS através
das medidas estatísticas. Estas medidas dividem-se em dois grupos de
medidas: as Medidas de tendência central e as Medidas de variabilidade.

Figura 2. Medidas Estatísticas

Média

Medidas de
tendência Mediana
Central

Moda
Medidas
Estatísticas
Variância

Medidas de Desvio-
Variabilidade padrão

Coeficiente
de variação

15
2.1. MEDIDAS DE TENDÊNCIA CENTRAL

Estas medidas têm por objetivo encontrar a “tendência central” de um


conjunto de dados, ou seja, encontrar o valor do meio ou ainda os valores
típicos de uma distribuição. São medidas úteis para caracterizar e representar
um conjunto de dados através de um único valor utilizando critérios distintos
para isso. As medidas de tendência central são: média, mediana e moda.

2.1.1. MÉDIA

A média é a medida de tendência central mais conhecida e mais


utilizada de todas. Existem vários tipos de médias, a que utilizamos em
pesquisas é a Média aritmética, obtida através da soma de todos os valores da
variável investigada (valores de x) dividida pelo número total de valores no
conjunto de dados (total da amostra – n). É representada pelos símbolos na
amostra e por  na população.

Notação:
 - média populacional
- média amostral
Fórmula:

onde:
 = somatório
x – variável (valores obtidos para a variável investigada)
n – tamanho da amostra

16
Exemplo

Os dados abaixo representam o tempo de vida útil (em mil horas) de um


conjunto de 7 lâmpadas fluorescentes:

15 18 18 20 17 18 16

Elementos importantes:

Amostra (n): 7 lâmpadas fluorescentes


Variável (x): tempo de vida útil (em mil horas)

Média:

= 17,4 mil horas

Interpretação: “Em média o tempo de vida útil destas lâmpadas fluorescentes


é de 17,4 mil horas”

17
MÉDIA PARA DADOS AGRUPADOS EM TABELAS DE FREQUENCIA

Quando os dados estão organizados na forma de uma tabela de


frequências devemos multiplicar os diferentes valores “x” pelas respectivas
frequências “f”. A fórmula utilizada deverá ser neste caso:

onde:
 = somatório
x – variável
f – frequência de cada valor da variável
n – tamanho da amostra

Exemplo

Considere a seguinte tabela referente ao Número de peças defeituosas


encontradas em uma amostra de 62 lotes produzidos:

Número de peças defeituosas


Nº peças (x) Frequência (f) % x.f
0 5 8,0 0x5=0
2 25 40,3 2 x 25= 50
4 30 48,4 4 x 30= 120
6 2 3,2 6 x 2= 12
Total 62 (n) 100 182

18
= 2,9 peças

Interpretação: “Em média cada lote possui 2,9 peças defeituosas”

2.1.2. MEDIANA

Ordenados os elementos da amostra em ordem crescente a mediana é o


valor considerado o ponto do meio, que a divide ao meio, isto é, metade dos
elementos da amostra é menor ou igual à mediana e a outra metade é maior ou
igual à mediana.

Notação:
Md ou Me

Como obter a Mediana:

1º) todos os valores do conjunto de dados devem ser colocados em ordem


crescente, se houver algum valor que se repita mais de uma vez ele deve
repetido na ordenação também.

2º) devemos encontrar a posição da mediana considerando a seguinte regra:


se o tamanho da amostra (n) é ímpar, a mediana é o valor central; se o
tamanho da amostra (n) for par a mediana será a média dos dois valores
centrais.

19
Exemplo 1: Quando o tamanho da amostra “n” for ímpar

“Uma pesquisa foi realizada com o objetivo de verificar o pH de 5 amostras de


tintas acrílicas de diferentes marcas. Os dados coletados estão apresentados
abaixo”

8,0 9,1 8,5 9,7 9,2

Amostra (n): 5 amostras de tintas de diferentes marcas


Variável (x): valor do pH

Mediana (Md)

1º) Colocar os valores em ordem crescente

8,0 8,5 9,1 9,2 9,7

2º) Encontrar o valor central no conjunto de dados

8,0 8,5 9,1 9,2 9,7

Mediana

Interpretação: “Metade das amostras de tinta possuem pH de 9,1 ou menos e


metade das amostras de tinta possuem pH de 9,1 ou mais.”

20
Exemplo 2: Quando o tamanho da amostra “n” for par

Vamos observar o mesmo exemplo anterior, porém agora vamos


considerar um grupo de 6 amostras de tintas acrílicas.

“Uma pesquisa foi realizada com o objetivo de verificar o pH de 6 amostras de


tintas acrílicas de diferentes marcas. Os dados coletados estão apresentados
abaixo”

8,0 8,8 8,5 9,7 9,5 9,2

Amostra (n): 6 amostras de tintas de diferentes marcas


Variável (x): valor do pH

1º) Colocar os valores em ordem crescente

8,0 8,5 8,8 9,2 9,5 9,7

2º) Encontrar os dois valores centrais no conjunto de dados

8,0 8,5 8,8 9,2 9,5 9,7

Mediana
3º) Calcular o ponto médio entre estes dois valores central (somando os dois
valores e dividindo por dois)

Md = 9,0

Interpretação: “Metade das amostras de tinta possuem pH inferior a 9 e


metade das amostras de tinta possuem pH superior a 9.”

21
2.1.3. MODA

A moda de um conjunto de dados é simplesmente o valor do conjunto de


dados que ocorreu com maior frequência, ou seja, que mais se repetiu.

Notação:
Mo

Exemplo

Os dados apresentados a seguir são provenientes de experimentos


realizados com uma marca de concreto para determinar a resistência (kg/cm2)
em uma amostra de 8 unidades:

200 kg/cm2 210 kg/cm2 200 kg/cm2 210 kg/cm2

210 kg/cm2 250 kg/cm2 230 kg/cm2 210 kg/cm2

Amostra (n): 8 unidades


Variável (x): resistência do concreto (kg/cm2)

Moda

Mo = 210 kg/cm2
(este valor se repete quatro vezes na amostra, foi o valor de resistência que
mais se repetiu).

200 kg/cm2 210 kg/cm2 220 kg/cm2 210 kg/cm2

210 kg/cm2 250 kg/cm2 230 kg/cm2 210 kg/cm2

Interpretação: “O valor da resistência do concreto que ocorreu com maior


frequência foi de 210 kg/cm2”.

22
Algumas situações podem ocorrer em relação à moda:

1ª) Um conjunto de dados pode não ter moda, ou seja, nenhum valor se repetir

Exemplo: Tempo de produção de 5 peças (em minutos)


34, 56, 23, 42, 38
Nenhum valor se repete – não tem moda!

2ª) Um conjunto de dados pode ter mais que uma moda, ou seja, poderemos ter
mais que um valor da variável se repetindo com frequências iguais.

Exemplo: Número de peças produzidas em 8 dias:


35, 23, 35, 40, 51, 40, 32, 55
Duas modas: 35 e 40 peças!

23
2.2. MEDIDAS DE VARIABILIDADE

Tão importante quanto representarmos todos os valores de um conjunto


de dados através das medidas de tendência central é ter o conhecimento da
variação que ocorre em torno desta medida. As medidas de variabilidade são
extremamente úteis no tratamento de dados, pois estas indicam a variação
existente em torno da média.

Vamos considerar o seguinte exemplo apresentado abaixo:

Exemplo:
Considere uma linha de produção que possui três máquinas em
operação: Máquina A, Máquina B e Máquina C. Está sendo investigado o
número de unidades com falhas produzidas em três dias de produção. Os
dados coletados foram:

MÁQUINA A MÁQUINA B MÁQUINA C

Unidades com falhas: Unidades com falhas: Unidades com falhas:

1º Dia: 5 unidades 1º Dia: 5 unidades 1º Dia: 5 unidades


2º Dia: 0 unidades 2º Dia: 5 unidades 2º Dia: 4 unidades
3º Dia: 10 unidades 3º Dia: 5 unidades 3º Dia: 6 unidades

Média de vendas: Média de vendas: Média de vendas:

Em média a Máquina A Em média a Máquina B Em média a Máquina C


produz 5 unidades com produz 5 unidades com produz 5 unidades com
falhas por dia. falhas por dia. falhas por dia.

24
Observando apenas a média de unidades com falhas das três máquinas
investigadas chegaremos à conclusão de que elas são iguais, ou seja,
possuem o mesmo comportamento no que se refere à produção de unidades
com falhas. Porém ao analisar os dados brutos (unidades com falhas para cada
um dos dias investigados) observamos que, embora a média seja a mesma
entre as três máquinas, a variação de um dia para o outro possui um
comportamento bem distinto.

Enquanto que a Máquina A varia de 0 unidades com falha em um dia a


10 unidades com falha em outro, a Máquina B mantém uma produção de
unidades com falha constante de 5 unidades em todos os três dias do estudo.
Para este caso a análise realizada utilizando somente a média como
ferramenta estatística pode induzir o investigador a uma interpretação errônea
a respeito dos dados.

Por este motivo, além das medidas de tendência central devemos obter
as medidas de variabilidade que contribuem para uma melhor interpretação
do comportamento de uma variável quantitativa. Estas medidas representam a
variação de um conjunto de dados em torno da média.

Figura 3. Medidas de Variabilidade

Medias de Variabilidade

Coeficiente de
Variância Desvio-padrão
Variação

25
2.2.1. VARIÂNCIA

A variância de uma amostra corresponde à média dos quadrados dos


desvios dos valores em relação à média, Quanto maior for a variação dos
valores do conjunto de dados, maior será a variância.

Notação:
 2 - variância populacional
s2 - variância amostral

Fórmula:

onde:
x – valores da variável investigada
- média da amostra
n – tamanho da amostra
Σ - somatório

Propriedades da Variância
1. Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores
uma constante, a variância não se altera;
2. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores
por um valor constante, a variância fica multiplicada (ou dividida) pelo quadrado
da constante.

No cálculo da variância pode-se observar que a unidade da variável


estudada é levada ao quadrado, dificultando assim, a interpretação de seu
resultado final. A solução para este problema é extrair a raiz quadrada da
variância, permitindo assim que se volte à unidade original da variável. Essa
nova medida (a raiz quadrada da variância) é chamada de desvio-padrão.

26
2.2.2. DESVIO-PADRÃO

O desvio-padrão corresponde à raiz quadrada da variância. Esta medida


expressa a variação média do conjunto de dados em torno da média, para mais
ou para menos na mesma unidade de medida da média.

Notação:
 - desvio-padrão populacional
s- desvio-padrão amostral

Fórmula:

Propriedades do Desvio-padrão
1. Somando-se (ou subtraindo-se) a cada elemento de um conjunto de valores uma
constante, o desvio-padrão não se altera;
2. Multiplicando-se (ou dividindo-se) cada elemento de um conjunto de valores por
um valor constante, o desvio-padrão fica multiplicado (ou dividido) pela constante.

O desvio-padrão de uma amostra pode ser calculado considerando as


seguintes etapas:

27
Figura 12. Etapas para o cálculo do Desvio-padrão

1ª) Calcular a média

2ª) Subtrair a média de cada valor do conjunto (desvio)

3ª) Elevar ao quadrado cada desvio

4ª) Somar os quadrados dos desvios

5ª) Dividir esta soma por (n-1)

6ª) Extrair a raiz quadrada

Vamos considerar o exemplo inicial da comparação do número de


unidades com falhas entre as máquinas A, B e C em uma amostra de 3 dias:

MÁQUINA A MÁQUINA B MÁQUINA C


Unidades com falhas: Unidades com falhas: Unidades com falhas:
1º Dia: 5 unidades 1º Dia: 5 unidades 1º Dia: 5 unidades
2º Dia: 0 unidades 2º Dia: 5 unidades 2º Dia: 4 unidades
3º Dia: 10 unidades 3º Dia: 5 unidades 3º Dia: 6 unidades

Importante:

Amostra (n): 3 dias


Variável (x): Número de unidades produzidas com falhas

28
MÁQUINA A

Média de vendas: MÁQUINA A

Unidades com falhas:

1º Dia: 5 unidades
2º Dia: 0 unidades
3º Dia: 10 unidades

Interpretação: “Para a Máquina A observa-se que, em média, são produzidas


ao dia 5 unidades com falhas com uma variação em torno desta média de 5
unidades.”

[ 5 unidades com falha/dia ± 5 unidades com falha/dia ]

MÁQUINA B

MÁQUINA B
Média de vendas –
Unidades com falhas:

1º Dia: 5 unidades
2º Dia: 5 unidades
3º Dia: 5 unidades

29
Interpretação: “Para a Máquina B observa-se que, em média, são produzidas
ao dia 5 unidades com falhas com uma variação em torno desta média de 0
unidades.”

[ 5 unidades com falha/dia ± 0 unidades com falha/dia ]

MÁQUINA C

Média de vendas – MÁQUINA C

Unidades com falhas:

1º Dia: 5 unidades
2º Dia: 4 unidades
3º Dia: 6 unidades

Interpretação: “Para a Máquina C observa-se que, em média, são produzidas


ao dia 5 unidades com falhas com uma variação em torno desta média de 1
unidade.”

[ 5 unidades com falha/dia ± 1 unidades com falha/dia ]

30
Podemos agora comparar as três máquinas utilizando as medidas
estatísticas média e desvio-padrão da seguinte forma:

MÁQUINA A MÁQUINA B MÁQUINA C

Nesta máquina em Nesta máquina em Nesta máquina em


média são produzidas 5 média são produzidas 5 média são produzidas 5
unidades com falhas ao unidades com falhas ao unidades com falhas ao
dia com uma variação dia com uma variação dia com uma variação
de 5 unidades. de 0 unidades. de 1 unidade.

[5 ± 5] [5 ± 0] [5 ± 1]

2.2.3. COEFICIENTE DE VARIAÇÃO

Neste momento poderemos questionar: quando um desvio-padrão é


grande e quando ele é pequeno? Na verdade, um desvio padrão pode ser
considerado grande ou pequeno dependendo da ordem de grandeza da
variável. Por este motivo quando desejamos comparar a variabilidade entre
métodos, ou ainda entre grupos de valores é indicada a utilização do
Coeficiente de Variação que representa o desvio-padrão expresso como uma
porcentagem da média.:

Notação:
C.V. - Coeficiente de variação

Fórmula:

onde:
- média da amostra
s – desvio-padrão

31
No exemplo da comparação das filiais:

MÁQUINA A MÁQUINA B MÁQUINA C

Analisando as medidas de variabilidade podemos observar que, embora


o número médio de unidades com falhas produzidas pelas três máquinas seja o
mesmo, não podemos considerar a qualidade da produção destas máquinas a
mesma, já que a variabilidade apresenta resultados bem distintos entre as
máquinas.

Uma informação importante que podemos obter através do Coeficiente


de variação diz respeito à homogeneidade de um conjunto de dados
comparado a outro, por exemplo, podemos observar que destas filiais a que
possui uma produção de unidades com falhas mais homogênea é a máquina B
pois possui menor coeficiente de variação (C.V. = 0%), seguida pela máquina
C (C.V. = 20%) e, por fim, com maior coeficiente de variação e maior
heterogeneidade está a máquina C (C.V. = 100).

Figura 4. Interpretação Coeficiente de Variação

Maior coeficiente de variação - Dados


mais HETEROGÊNEOS

Menor coeficiente de variação - Dados


mais HOMOGÊNEOS

32
Exemplo

Vamos considerar agora um exemplo em que não tenhamos que


comparar conjunto de valores:

Os dados apresentados a seguir são provenientes de experimentos


realizados com uma marca de concreto para determinar a resistência (kg/cm2)
em uma amostra de 6 unidades:

200 kg/cm2 210 kg/cm2 200 kg/cm2

210 kg/cm2 250 kg/cm2 230 kg/cm2

Amostra (n): 6 unidades


Variável (x): resistência do concreto (kg/cm2)

Para estes dados vamos calcular e interpretar a Média e o Desvio-


padrão:

Média

Variância

33
Desvio-Padrão

Interpretação: “Em média a resistência desta marca de concreto é de 16,


kg/cm2 com uma variação de 19,7 kg/cm2”. [216,7 ± 19,7 kg/cm2]

Exemplo para dados agrupados em tabelas de frequência

Considere a seguinte tabela anteriormente citado referente ao Número


de peças defeituosas encontradas em uma amostra de 62 lotes produzidos:

Número de peças defeituosas


Nº peças (x) Frequência (f) % x.f
0 5 8,0 0x5=0
2 25 40,3 2 x 25= 50
4 30 48,4 4 x 30= 120
6 2 3,2 6 x 2= 12
Total 62 (n) 100 182

Para este exemplo já havíamos calculado a média:

34
Agora vamos calcular a variância e o desvio-padrão. Neste caso
devemos considerar a frequência de cada valor da variável.

Variância

Número de peças defeituosas


Nº peças (x) Frequência (f) %
0 5 8,0 (0 – 2,9)2. 5 = 42,05
2 25 40,3 (2 – 2,9)2. 25 = 20,25
4 30 48,4 (4 – 2,9)2. 30 = 36,3
6 2 3,2 (6 – 2,9)2. 2 = 19,22
Total 62 (n) 100 117,82

Desvio-padrão

s = 1,4 peças defeituosas

Interpretação: “Em média são produzidas ,9 peças defeituosas com uma


variação de 1,4 peças”. [ ,9 ± 1,4 peças defeituosas]

35
Recapitulando

Para o caso em que a variável analisada é QUANTITATIVA podemos


aprofundar nossa análise através das medidas estatística. Estas medidas
dividem-se em dois grupos de medidas: as Medidas de tendência central e as
Medidas de variabilidade.

As Medidas de Tendência Central (média, mediana e moda) são


medidas úteis para caracterizar e representar um conjunto de dados através de
um único valor utilizando critérios distintos para isso.

Já as Medidas de Variabilidade (Variância, Desvio-padrão e Coeficiente


de Variação) são extremamente úteis no tratamento de dados, pois estas
indicam a variação existente em torno da média.

Quando realizamos o tratamento estatístico de dados provenientes de


variáveis quantitativas o cálculo e interpretação destas medidas fornece
informação detalhada e de extrema importância na tomada de decisão do
pesquisador.

36
Atividades Medidas de Tendência Central e Medidas de Variabilidade

Questão 1. Os dados abaixo são referentes às taxas de desemprego (em %)


em alguns países selecionados:

Grupo 1: Países da América do Sul e América do Norte


Brasil Uruguai Chile Argentina Canadá EUA Venezuela
11.4 12.1 5.6 7.3 4.8 5.3 7.3

Grupo 2: Países da Europa


Espanha Portugal Itália Alemanha Suécia Inglaterra França
4.8 5.2 4.3 3.8 2.5 5.8 3.6

2a) Complete a tabela abaixo com as medidas estatísticas solicitadas:


Comparação das taxas de desemprego (em %)
Grupo n Taxa Média Desvio-padrão Coef. Variação
Américas do Sul e Norte
Europa

2b) Qual dos grupos apresentou resultados mais homogêneos?


a) ( ) Países da América do Sul e América do Norte
b) ( ) Países da Europa
c) ( ) Nenhum dos grupos foi mais homogêneo

Questão 2. A companhia GE Esmaltec usa um processo para pintar geladeiras


com uma camada de esmalte. Durante cada turno uma amostra de 5
geladeiras é selecionada e a espessura da pintura (mm) é determinada.
Considere os seguintes dados coletados:

Manhã: 2,7 2,3 2,6 2,4 2,7


Tarde: 2,6 2,3 2,0 2,5 2,4
Noite: 1,8 2,8 2,3 1,6 2,9
a) Calcule as medidas descritivas: média e desvio-padrão da espessura
da pintura para cada turno

37
b) Qual turno apresentou resultados mais homogêneos?

Questão 3. Um fabricante de molas está interessado em implementar um


sistema de controle de qualidade para monitorar seu processo de produção.
Para isto, foi registrado o número de molas fora da conformidade em cada lote
de produção. Os dados apresentados na tabela de frequência abaixo referem-
se a 20 lotes selecionados, observando-se o número de molas fora da
conformidade.

Tabela 1. Número de molas fora de conformidade


Número de molas f %
6 3 15,0
7 6 30,0
8 4 20,0
9 3 15,0
12 4 20,0
Total 20 100,0

a) Calcule e interprete as medidas descritivas: média e desvio-padrão


para estes dados.

Questão 4. A capacidade em litros dos porta-malas dos carros populares


produzidos no Brasil foi investigada obtendo-se os seguintes dados:

Corsa: 240 litros Uno: 224 litros Hobby: 325 litros Gol: 146 litros

a) Calcule e interprete a Mediana para estes dados.


b) Calcule e interprete a média e o desvio-padrão para estes dados.

38
Gabarito das atividades propostas

Questão 1.
a) Comparação das taxas de desemprego (em %)

Grupo n Taxa Média Desvio-padrão Coef. Variação


Américas do Sul e Norte 7 7,7% 2,9% 37,7%
Europa 7 4,3% 1,1% 25,6%

b) O mais homogêneo foi o grupo dos países da Europa, pois possui menor
Coeficiente de variação.

Questão 2:
a) Manhã:
Média = 2,5 mm
Desvio-padrão = 0,19 mm
CV = 7,6 %

Tarde:
Média = 2,4 mm
Desvio-padrão = 0,23 mm
CV = 9,6 %

Noite:
Média = 2,3 mm
Desvio-padrão = 0,58 mm
CV = 25,2 %

b) O turno da manhã, pois o seu coeficiente de variação (CV) foi o menor,


comparado com os dos demais turnos.

Questão 3.
Tabela 1. Número de molas fora de conformidade
Número de molas f %
6 3 15,0 6 x 3 = 18 (6 – 8,4)2 . 3 = 17,28
7 6 30,0 7 x 6 = 42 (7 – 8,4)2 . 6 = 17,34
8 4 20,0 8 x 4 = 32 (8 – 8,4)2 . 4 = 0,64
9 3 15,0 9 x 3 = 27 (9 – 8,4)2 . 3 = 1,08
12 4 20,0 12 x 4 = 48 (12 – 8,4)2 . 4 = 51,84
Total 20 100,0 167 88,18

39
Média

Variância

Desvio-padrão

s = 2,2 molas fora da conformidade

Interpretação: “Em média são produzidas por lote 8,4 molas fora da
conformidade com uma variação de 2,2 molas”. [8,4 ± 2,2 molas fora da
conformidade]

Questão 4.

a) Calcule e interprete a Mediana para estes dados.

146 224 240 325

Interpretação: “Em metade dos carros a capacidade do porta malas é inferior a


232 litros e em metade dos carros a capacidade do porta malas é superiora
232 litros”.

40
b) Calcule e interprete a média e o desvio-padrão para estes dados.

Média

Variância

Desvio-padrão

Interpretação: “Em média, a capacidade do porta malas destes carros é de


,8 litros com uma variação de ,4 litros”.

41
3. GRÁFICOS DE CONTROLE

Simone Echeveste

Neste capítulo iremos abordar a utilização das medidas estatísticas


anteriormente vistas em uma aplicação prática extremamente importante na
área da Engenharia: Controle de qualidade. Aqui, será demonstrada a
construção de gráficos de controle e a interpretação das informações que estes
nos fornecem.

O aluno deverá ser capaz de construir gráficos de controle utilizando


para isso medidas estatísticas de tendência central e variabilidade, bem como
deverá realizar a correta interpretação dos mesmos.

Os gráficos de controle estão inseridos no Controle Estatístico de


Qualidade – é um sistema amplo e complexo que tem por finalidade a
inspeção, a análise e a ação corretiva aplicados a um processo produtivo. O
processo estará sob controle quando a variação da qualidade estiver dentro
dos limites de especificação do produto.

Alguns dos princípios fundamentais dos gráficos de controle:

 Pensar e decidir baseado em dados e fatos;


 Pensar separando a causa do efeito, buscar sempre conhecer a causa
fundamental dos problemas;
 Reconhecer a existência da variabilidade na produção e administrá-la;
 Identificar instantaneamente focos e locais de disfunção e corrigir os
problemas a tempo.

42
A variação que ocorre num processo de produção pode ser
desmembrada em duas componentes: uma de difícil controle, chamada
variação aleatória; e outra chamada variação controlável. Assim a equação
da variação total de um processo pode ser escrita como sendo:

Variação Variação Variação


Aleatória Controlável Total

Se as variações forem conhecidas, controladas e reduzidas, os índices


de produtos defeituosos certamente se reduzirão. Os gráficos de controle são
utilizados para avaliar se o processo está sob controle. A partir de sua análise é
possível evitar, reduzir ou eliminar não conformidades em tempo real (durante
o processo de produção)

Os gráficos de controle são úteis para:

Monitorar variabilidade do processo

Detectar variabilidade do processo

Auxiliar na eliminação de causas especiais, trazendo o processo para o


estado de controle

Dar indicações de como mudanças podem afetar um processo sob controle

43
Benefícios dos gráficos de controle

 Podem ser aplicados pelos próprios operários, que poderão discutir com
os supervisores, engenheiros e técnicos através da linguagem dos
dados fornecidos pelos gráficos de controle;

 Os gráficos de controle servem para monitoramento do processo,


mostrando a ocorrência de um descontrole (presença de causas
especiais) e/ou a tendência dessa ocorrência;

 Ao melhorar o processo os gráficos de controle permitem: aumentar a


porcentagem de produtos que satisfaçam exigências dos clientes;
diminuir os índices de retrabalho dos itens produzidos e,
conseqüentemente, dos custos de produção aumentando a
produtividade.

Gráficos de controle para medições

O uso dos gráficos de controle para medições deve ocorrer sempre que
uma característica da qualidade observada é expressa em unidades reais
como peso em quilogramas, comprimento em centímetros, temperatura em
graus celsius

Fornecem informações sobre um processo através dos resultados de


pequenas amostras coletadas periodicamente onde a cada intervalo h, retira-se
uma amostra de tamanho n para análise. Cada grupo fornece uma ideia do que
o processo está produzindo naquele momento

Para a construção de um gráfico controle de variáveis, são coletados


dados de subgrupos de pequenas amostras de n= 4 ou 5 itens extraídos a
intervalos regulares (de hora em hora, dia a dia, etc.). O intervalo adequado
para extração das amostras depende de cada processo de fabricação.

44
Símbolos Importantes:

n = tamanho da amostra
k = número (quantidade) de amostras
= média das médias das amostras (média global)
R = amplitude amostral média
= média das amplitudes
d2, A3, D3, D4 = fatores de correção tabelados

Passo a passo: Gráfico de Controle para Média e Amplitude

1º) Determinar o tamanho das amostras n (usualmente 4 ou 5) e a quantidade


K das amostras (no mínimo 25, ou 20, respectivamente).

2º) Calcular para cada amostra a média e a amplitude R:

3º) Calcular para todas as k amostras obtidas a Média das Médias e a Média
das amplitudes :

5º) Calcular o desvio-padrão das médias

45
Figura 1. Fator de Correção para gráfico de controle das Médias
Fator de Correção
Tamanho das amostras (n) D3 D4 D c4 d2
2 0 3,267 0,709 0,798 1,128
3 0 2,574 0,524 0,886 1,693
4 0 2,282 0,446 0,921 2,059
5 0 2,114 0,403 0,94 2,326
6 0 2,004 0,375 0,952 2,534
7 0,076 1,924 0,353 0,959 2,704
8 0,136 1,864 0,338 0,965 2,847
9 0,184 1,816 0,325 0,969 2,970
10 0,223 1,777 0,314 0,973 3,078

6º) Calcular os Limites

 Limite Superior de Controle (LSC)

 Linha Média (LM)

 Limite Inferior de Controle (LIC)

46
7º) Plotar o gráfico no Excel

90
85
80
Média
75
LSC
70
LM
65
LIC
60
55
50
1 2 3 4 5 6 7 8 9 10

Amostra

8º) O gráfico obtido constitui a norma de controle de fabricação; permitirá


acompanhar o processo.

9º) Por fim, construir o gráfico de controle para R - amplitude

 Limite Superior de Controle (LSC)

 Linha Média (LM)

 Limite Inferior de Controle (LIC)

47
Exemplo 1

A cada 2 horas de atividade, uma amostra de 5 peças são medidas e


dentre as características de qualidade monitoradas está o peso de um dos
componentes plásticos que são fabricados por sopro. Foram extraídas 10
amostras (cada uma com as respectivas 5 peças) foram pesadas e indicaram
os resultados descritos abaixo:

Amostra Pesos Observados (n = 5)

1 65 70 75 60 80
2 75 70 80 90 70
3 80 70 70 80 80
4 65 65 65 80 65
5 80 60 80 80 75
6 75 70 60 85 75
7 80 75 65 75 70
8 70 65 75 65 85
9 85 85 75 65 80
10 65 65 65 80 60

Atenção:
K = 10 amostras extraídas
n = 5 peças em cada amostra

- Calcular para cada amostra a média e a amplitude R:

48
Amostra Pesos Observados (n = 5) Soma Média ( ) Amplitude ( R )

1 65 70 75 60 80 350 70 20
2 75 70 80 90 70 385 77 20
3 80 70 70 80 80 380 76 10
4 65 65 65 80 65 340 68 15
5 80 60 80 80 75 375 75 20
6 75 70 60 85 75 365 73 25
7 80 75 65 75 70 365 73 15
8 70 65 75 65 85 360 72 20
9 85 85 75 65 80 390 78 20
10 65 65 65 80 60 335 67 20

- Calcular para todas as k amostras obtidas a Média das Médias e a


Média das amplitudes

- Calcular o desvio-padrão das médias

Como obter o valor para d2


Fator de Correção para gráfico de controle das Médias
Fator de Correção
Tamanho das amostras D3 D4 D c4 d2
(n)
4 0 2,282 0,446 0,921 2,059
5 0 2,114 0,403 0,94 2,326
6 0 2,004 0,375 0,952 2,534
7 0,076 1,924 0,353 0,959 2,704

49
- Calcular os Limites

Limite Superior de Controle (LSC)

Linha Média (LM)

Limite Inferior de Controle (LIC)

Amostra Média LCS LM LCI


1 70 83,57 72,9 62,23
2 77 83,57 72,9 62,23
3 76 83,57 72,9 62,23
4 68 83,57 72,9 62,23
5 75 83,57 72,9 62,23
6 73 83,57 72,9 62,23
7 73 83,57 72,9 62,23
8 72 83,57 72,9 62,23
9 78 83,57 72,9 62,23
10 67 83,57 72,9 62,23

50
- Construir o gráfico de controle para a Média
100

95

90

85

80
LSC
75 Média
LM
70
LIC
65

60

55

50
1 2 3 4 5 6 7 8 9 10

- Gráfico de controle para R – Amplitude

 Limite Superior de Controle (LSC)

Como obter o valor para D4


Fator de Correção para gráfico de controle das Médias
Fator de Correção
Tamanho das amostras D3 D4 D c4 d2
(n)
4 0 2,282 0,446 0,921 2,059
5 0 2,114 0,403 0,94 2,326
6 0 2,004 0,375 0,952 2,534
7 0,076 1,924 0,353 0,959 2,704

51
 Linha Média (LM)

 Limite Inferior de Controle (LIC)

Como obter o valor para D3


Fator de Correção para gráfico de controle das Médias
Fator de Correção
Tamanho das amostras D3 D4 D c4 d2
(n)
4 0 2,282 0,446 0,921 2,059
5 0 2,114 0,403 0,94 2,326
6 0 2,004 0,375 0,952 2,534
7 0,076 1,924 0,353 0,959 2,704

Amostra Amplitude R LSC LM LIC


1 20 39,11 18,5 0
2 20 39,11 18,5 0
3 10 39,11 18,5 0
4 15 39,11 18,5 0
5 20 39,11 18,5 0
6 25 39,11 18,5 0
7 15 39,11 18,5 0
8 20 39,11 18,5 0
9 20 39,11 18,5 0
10 20 39,11 18,5 0

52
- Construir o Gráfico de controle para R – Amplitude

Gráfico de Controle para Amplitude


55

50

45

40

35

30
LSC
25
Amplitude R
20 LM
15 LIC

10

0
1 2 3 4 5 6 7 8 9 10
-5

-10

Avaliação dos gráficos de controle

Processo sob controle: é aquele cujos resultados de medição apresentam


variação dentro dos limites de controle.

 Se os pontos estão dentro dos limites não é necessário intervir no


processo
 A variação é decorrente de causas aleatórias
 Se um ponto cai fora desses limites: Deve-se intervir no processo, pois o
afastamento excessivo desse ponto em relação à linha média
provavelmente é devido a uma causa especial.

53
Exemplo de um processo que está FORA de controle

Este ponto está


FORA

90
85
80
75 Média
70 LCI
65 LM
60 LCS
55
50
1 2 3 4 5 6 7 8 9 10
Amostra

Este ponto está


FORA

Recapitulando

Os gráficos de controle correspondem a uma das ferramentas mais úteis


no controle de um processo, pois permitem a identificação de causas que não
são naturais ao processo de produção e que podem prejudicar a qualidade de
um produto.

Após a identificação de um processo fora de controle poderemos agir


nas causas e melhorar continuamente o processo de produção garantindo a
qualidade desejada no produto final.

54
Atividades Gráficos de Controle

Questão 1. Considere os dados apresentados a seguir de 12 amostras de


tamanho 5, para os quais foi medido o volume em saquinhos de 1 litro de leite.
Construa o gráfico de controle para a Média e para a Amplitude com estes
dados e verifique se o processo está sob controle.

Amostra Medidas (litros de leite)


1 1003,2 1004,4 993,5 994,6 997,6
2 1002,3 999,0 1000,8 1000,7 998,0
3 998,3 998,1 1004,2 1002,1 991,3
4 1002,2 996,6 1002,7 1004,2 1001,8
5 998,3 997,5 1006,1 996,5 998,1
6 995,8 1000,8 999,1 1002,5 1001,0
7 1004,1 1003,0 1004,8 997,9 999,9
8 1000,1 994,9 1000,1 1004,9 997,3
9 1000,2 996,1 998,0 1006,1 999,4
10 996,2 1017,3 993,6 996,5 1003,7
11 1014,0 1008,9 1004,1 1007,9 1000,7
12 997,1 1000,7 999,8 1000,6 1001,7

Questão 2. Responda: Quais são os princípios fundamentais dos gráficos de


controle?

Questão 3. Os gráficos de controle são utilizados para:


a.( ) Identificar exatamente o que está causando algum tipo de problema no
processo
b.( ) Identificar o tipo de defeito nas unidades produzidas.
c.( ) Auxiliar na eliminação de causas especiais, trazendo o processo para o
estado de controle.
d.( ) Analisar a melhor forma de efetuar o controle estatístico do processo.

Questão 4. A variação que ocorre num processo de produção pode ser


desmembrada em duas componentes, quais são elas?

55
Questão 5. Um processo está sob controle quando:
a.( ) Os resultados de medição apresentam variação dentro dos limites de
controle.
b.( ) O desvio-padrão encontrado é menor que a média da variável.
c.( ) A variação aleatória é conhecida durante todo o processo.
d.( ) Não há ocorrência registrada de danos nas unidades produzidas.

Gabarito Atividades Propostas

Questão 1.
Amostra Medidas (litros de leite) Amplitude ( R ) Média (
1 1003,2 1004,4 993,5 994,6 997,6 10,9 998,7
2 1002,3 999,0 1000,8 1000,7 998,0 4,3 1000,2
3 998,3 998,1 1004,2 1002,1 991,3 12,9 998,8
4 1002,2 996,6 1002,7 1004,2 1001,8 7,6 1001,5
5 998,3 997,5 1006,1 996,5 998,1 9,6 999,3
6 995,8 1000,8 999,1 1002,5 1001,0 6,7 999,8
7 1004,1 1003,0 1004,8 997,9 999,9 6,9 1001,9
8 1000,1 994,9 1000,1 1004,9 997,3 10,0 999,5
9 1000,2 996,1 998,0 1006,1 999,4 10,0 1000,0
10 996,2 1017,3 993,6 996,5 1003,7 23,7 1001,5
11 1014,0 1008,9 1004,1 1007,9 1000,7 13,3 1007,1
12 997,1 1000,7 999,8 1000,6 1001,7 4,6 1000,0

Resultados para o Gráfico de Controle para a Média


Média LIC LM LSC
998,7 994,9 1000,7 1006,5
1000,2 994,9 1000,7 1006,5
998,8 994,9 1000,7 1006,5
1001,5 994,9 1000,7 1006,5
999,3 994,9 1000,7 1006,5
999,8 994,9 1000,7 1006,5
1001,9 994,9 1000,7 1006,5
999,5 994,9 1000,7 1006,5
1000,0 994,9 1000,7 1006,5
1001,5 994,9 1000,7 1006,5
1007,1 994,9 1000,7 1006,5
1000,0 994,9 1000,7 1006,5

56
Resultados para o Gráfico de Controle para a Amplitude

LSC Amplitude ( R ) LM LIC


21,2 10,9 10,04 0
21,2 4,3 10,04 0
21,2 12,9 10,04 0
21,2 7,6 10,04 0
21,2 9,6 10,04 0
21,2 6,7 10,04 0
21,2 6,9 10,04 0
21,2 10 10,04 0
21,2 10 10,04 0
21,2 23,7 10,04 0
21,2 13,3 10,04 0
4,6
21,2 10,04 0

Gráfico de Controle para Média


1015

1010

1005

LSC
1000 Média
LM
LIC
995

990

985
1 2 3 4 5 6 7 8 9 10 11 12

O processo está fora do controle!!

57
Gráfico de Controle para Amplitude
30

25

20

15
LSC
Amplitude ( R )
10
LM
LIC
5

0
1 2 3 4 5 6 7 8 9 10 11 12

-5

-10

O processo está fora do controle!!

Questão 2.
Resposta: Pensar e decidir baseado em dados e fatos; Pensar separando a
causa do efeito, buscar sempre conhecer a causa fundamental dos problemas;
Reconhecer a existência da variabilidade na produção e administrá-la e
Identificar instantaneamente focos e locais de disfunção e corrigir os problemas
a tempo.

Questão 3.
c.( x ) Auxiliar na eliminação de causas especiais, trazendo o processo para o
estado de controle.

Questão 4. Uma de difícil controle que é a variação aleatória e outra chamada


variação controlável.

58
Questão 5. Um processo está sob controle quando:
a.( x ) Os resultados de medição apresentam variação dentro dos limites de
controle.

Como construir gráficos de controle no Excel

Após a realização dos cálculos para determinar os limites para o gráfico, em


uma planilha do Excel coloque as informações obtidas da seguinte forma:

Vá até a barra de ferramentas na opção Inserir – gráfico de linhas -

59
4. PROBABILIDADE
Simone Echeveste

Este capítulo tem por objetivo apresentar os conceitos básicos de


probabilidade, viabilizando ao aluno o raciocínio lógico e probabilístico na
resolução de problemas. Ao final deste estudo espera-se que o aluno resolva
problemas aplicando para isso os conhecimentos básicos de probabilidade
aprendidos.

CONCEITOS BÁSICOS DE PROBABILIDADE

A Teoria das Probabilidades se apresenta como um estudo teórico de


fenômenos envolvendo a incerteza utilizando ferramentas básicas do Cálculo
Matemático. Esses fenômenos, conhecidos como aleatórios estocásticos ou
não-determinísticos, são aqueles que a sua repetição, em condições idênticas,
produz resultados diferenciados, isto é, não é possível determinar, com
exatidão, qual o seu resultado.

A Probabilidade é o ramo da matemática que trata de fenômenos


aleatórios. A observação de um fenômeno aleatório por parte do homem é
chamada de experimento aleatório.

Características de um experimento aleatório:

1ª) Não se conhece um particular valor do experimento antes dele ser


executado, porém podemos descrever todos os possíveis resultados - as
possibilidades – o conjunto das possibilidades de um experimento aleatório é
denominado de Espaço Amostral (S);

60
2ª) Quando o experimento é repetido algumas vezes, os resultados ocorrem de
uma forma aparentemente acidental. Mas quando o número de repetições
aumenta, uma regularidade aparecerá. E esta regularidade que torna possível
construir um modelo matemático preciso para analisar o experimento.

Definição de probabilidade

Na definição clássica de probabilidade, considerando que todos os


resultados possíveis são equiprováveis, podemos definir probabilidade de um
evento qualquer A como sendo:

Exemplo

Considere uma caixa contendo 10 brindes: 4 livros, 2 celulares, 1 rádio e


3 perfumes. Você tem direito a um destes brindes que serão sorteados. Qual a
probabilidade de você:

a) Ganhar um livro
b) Ganhar um celular
c) Ganhar um rádio ou um celular
d) Não ganhar perfume

Resolução:

Vamos considerar então que ao todo nessa caixa temos 10 brindes dos
quais apenas 1 deles será seu. Então o Espaço amostral (conjunto de todos os
possíveis resultados de um experimento) pode assim ser definido:

S= { livro, celular, rádio, perfume}

61
a) Ganhar um livro
Como temos na caixa 4 livros em um total de 10 brindes, a probabilidade de
ganhar um livro é:

b) Ganhar um celular

c) Ganhar um rádio ou um celular

d) Não ganhar perfume

Não esqueça!!!
A probabilidade de um evento A deve ser sempre:
0  P(A)  1
ou ainda
0%  P(A)  100%

62
Propriedades da probabilidade

Propriedade 1: Probabilidade Complementar

A probabilidade complementar de A É o evento formado por todos os


resultados do espaço amostral que não pertencem à A. A probabilidade de não
ocorrência de A é descrita como P(A ) e é expressa da forma:

P( A )  1  P( A)

Propriedade 2: Regra da Adição

 Se A e B são dois eventos independentes então:

A B

P(A ou B) = P(A) + P(B)

Exemplo
Ao retirar uma carta do baralho considere os eventos: A – retirar um Ás
e R – retirar um Rei. Qual a probabilidade de selecionar aleatoriamente uma
carta deste baralho e ela ser um Ás ou um Rei?

P(A ou R) = P(A) + P(R) = 4/52 + 4/52 = 8/52 = 0,1538

 Se A e B são dois eventos dependentes então:

A B

P(A ou B) = P(A) + P(B) – P(A e B)

63
Exemplo

Ao retirar uma carta do baralho considere os eventos: A – retirar um Ás


e E – retirar uma carta no naipe Espadas. Qual a probabilidade de selecionar
aleatoriamente uma carta deste baralho e ela ser um Ás ou uma carta do naipe
de espadas?

P(A ou E) = P(A) + P(E) – P(A e E)


4/52 + 13/52 – 1/52 =
16/52 = 0,3077

Atenção!

Dois eventos são independentes quando a ocorrência ou não de um evento


não tem efeito algum na probabilidade de ocorrência do outro evento. Dois
eventos são dependentes quando a ocorrência ou não-ocorrência de um
evento afeta a probabilidade de ocorrência do outro.

Mais exemplos de aplicação das propriedades

Questão 1
De 300 estudantes do curso de Engenharia, 100 são matriculados em
Geometria Analítica e 80 em Estatística. Estes dados incluem 30 estudantes
que estão matriculados em ambas as disciplinas. Qual a probabilidade de um
estudante de engenharia selecionado ao acaso esteja matriculado em
Geometria Analítica ou Estatística?

Vamos considerar os eventos:


GA – estar matriculado em Geometria Analítica
E- estar matriculado em Estatística

64
Qual a probabilidade de um estudante de engenharia selecionado ao
acaso esteja matriculado em Geometria Analítica ou Estatística?

Questão 2
De 100 pessoas que solicitaram emprego de engenheiro de produção,
durante o ano passado, 65 possuíam experiência anterior e 30 possuíam um
certificado profissional. Vinte dos candidatos possuíam tanto experiência
anterior como certificado profissional. Qual a probabilidade de um candidato
selecionado ao acaso deste grupo tenha experiência anterior ou certificado
profissional?

Vamos considerar os eventos:


EA – possuir experiência anterior
CP- possuir certificado profissional

65
Qual a probabilidade de um candidato selecionado ao acaso deste grupo
tenha experiência anterior ou certificado profissional?

Propriedade 3: Regra da Multiplicação

 Se A e B são dois eventos independentes então:

P(A e B) = P(A) x P(B)

Exemplo

Em uma linha de produção a probabilidade de uma peça fabricada estar


fora das especificações em relação a sua largura é 2%, em relação ao seu
comprimento é 5%. Considere que a ocorrência de defeito na largura ou
comprimento acontece de forma independente. Uma peça foi aleatoriamente
selecionada desta linha de produção e seu comprimento e largura verificados
pelo controle de qualidade, qual a probabilidade desta peça:

a) Apresentar defeito na largura e no comprimento


P(DL e Dc) = 0,02 x 0,05 = 0,001

b) Apresentar defeito apenas na largura


P(DL e Pc) = 0,02 x 0,95 = 0,019

66
c) A peça ser perfeita na largura e no comprimento
P(PL e Pc) = 0,98 x 0,95 = 0,931

d) A peça apresentar pelo menos um destes defeitos

P(DL e Pc) ou P(PL e Dc) ou P(DL e Dc)=

(0,02 x 0,95) + (0,98 x 0,05) + (0,02 x 0,05) =

0,019 + 0,049 + 0,001 = 0,069

Propriedade 4: Probabilidade Condicional

 Se A e B são dois eventos dependentes então:

Quando dois eventos são dependentes, o conceito de probabilidade


condicional é empregado para indicar a probabilidade de ocorrência de um
evento relacionado. A expressão P(B/A) indica a probabilidade de ocorrer o
evento B, dado que tenha ocorrido o evento A .

P(A e B) = P(A) x P(B/A)

P(A e B)
Onde: P(B/A) 
P(A)

Exemplo

Um lote de 10 peças produzidas por uma fábrica contém 8 peças boas e


2 defeituosas. Duas peças são retiradas aleatoriamente sem reposição pelo
comprador do lote. Qual é a probabilidade de:

a) As duas peças serem boas


P(B1 e B2) = P(B1) x P(B2/B1) = 8/10 x 7/9 = 56/90 = 0,6222

67
b) A primeira peça ser boa e a segunda defeituosa
P(B1 e D2) = P(B1) x P(D2/B1) = 8/10 x 2/9 = 16/90 = 0,1777

c) As duas peças serem defeituosas


P(D1 e D2) = P(D1) x P(D2/D1) = 2/10 x 1/9 = 2/90 = 0, 0222

ÁRVORE DE PROBABILIDADES

2ª Peça

Boa
1ª Peça 7/9

Boa Defeituosa
8/10 2/9
8 Boas
2 defeituosas
__________ Boa
10 peças Defeituosa 8/9
2/10
Defeituosa
1/9

Mais exemplos de aplicação das propriedades

Questão 1

Um sistema tem dois componentes A e B que operam


independentemente. Suponha que a probabilidade de falha do componente A
seja 10% e do componente B 20%. Qual é a probabilidade de:

a) A falha do sistema ocorrer em ambos componentes

68
b) A falha do sistema ocorrer apenas no componente A

Utilizando a propriedade 1 da probabilidade complementar:

Então

A falha do sistema ocorrer apenas no componente A:

c) Não ocorrer falha no sistema

Então
Não ocorrer falha no sistema

69
Questão 2

Dos eleitores de certa comunidade 33% são homens e 10% dos


eleitores votaram em branco na última eleição. Supondo que estes eventos
sejam independentes, determine a probabilidade de escolher aleatoriamente
um homem e este ter votado em branco na última eleição.

Considere os eventos:
H – ser homem
B- votar em branco

70
Recapitulando

O estudo da probabilidade viabiliza o entendimento das chances


associadas aos fenômenos aleatórios presentes em várias atividades do nosso
dia-a-dia.

A definição clássica de uma probabilidade é

Para a resolução dos problemas podemos considerar algumas


propriedades importantes do cálculo das probabilidades:

Probabilidade Complementar:

P( A )  1  P( A)

Regra da Adição:
Se A e B são dois eventos independentes: P(A ou B) = P(A) + P(B)
Se A e B são dois eventos dependentes: P(A ou B) = P(A) + P(B) – P(A e B)

Regra da Multiplicação:
Se A e B são dois eventos independentes: P(A e B) = P(A) x P(B)
Se A e B são dois eventos dependentes: P(A e B) = P(A) x P(B/A)
P(A e B)
Onde: P(B/A) 
P(A)

71
Atividades

Questão 1. Um pacote de sementes de flores contém 4 sementes de flores


vermelhas, 3 amarelas, 3 roxas e 1 flor laranja. Escolhida ao acaso, uma
semente deste pacote, qual a probabilidade de:

a) ser de flor vermelha ou laranja


b) não ser de flor amarela
c) ser roxa

Questão 2. A probabilidade de um homem estar vivo daqui a 30 anos é de


40% e de sua mulher é de 65%. Qual a probabilidade de que daqui a 30 anos:

a) Ambos estejam vivos


b) Somente a mulher esteja viva

Questão 3. Marcelo tem dois velhos automóveis. Nas manhãs frias, há 20% de
probabilidade de um deles não pegar e 30% do outro não pegar. Em uma
manhã fria qual a probabilidade de nenhum dos carros pegar:

Questão 4. Uma urna contém 7 moedas de 50 centavos e 5 moedas de 10


centavos. Duas moedas são retiradas ao acaso, sem reposição. Qual a
probabilidade de se retirar desta urna 1 real.

Questão 5. Verificou-se que na exportação de um artigo de higiene problemas


relacionados à embalagem ocorrem com probabilidade de 0,02, e que
problemas relacionados à consistência deste produto ocorrem com uma
probabilidade de 0,05. Considerando que estes problemas ocorrem de forma
independente do outro, qual é a probabilidade de ao selecionar ao acaso um
destes artigos de higiene este apresentar pelo menos um destes problemas?

72
Gabarito

Questão 1
a) P(V ou L) = 5/11 = 0,4545
b) P(não Amarela) = 8/11 = 0,7272
c) P(R) = 3/11 = 0,2727

Questão 2.
a) P(Ambos estejam vivos) = 0,26
b) P(Somente a mulher esteja viva) = 0,39

Questão 3.
P(Nenhum pegar) = 0,60

Questão 4.

P(50 centavos) = 7/12 = 0,5833 P(10 centavos) = 5/12 = 0,4167


P(1 real) = P(50 e 50) = 0,5833 x 0,5833 = 0,3403

Questão 5.
P(Embalagem) = 0,02 P(Consistência) = 0,05

P(E e C) = P(E) X P(C) = 0,02 X 0,05 = 0,001

73
5. DISTRIBUIÇÕES DE PROBABILIDADE

Simone Echeveste

Este capítulo tem por objetivo apresentar as principais distribuições de


probabilidades aplicadas à área da Engenharia, trazendo exemplos da área. O
aluno deverá ser capaz de identificar para cada situação a distribuição de
probabilidade indicada para resolvê-la, bem como aplicar corretamente os
modelos na resolução dos problemas.

Uma distribuição de probabilidades é caracterizada pela construção de


um modelo matemático que representa para uma variável aleatória “X” as
probabilidades associadas aos possíveis valores que esta variável pode
assumir. Seu objetivo é determinar a probabilidade de ocorrência de cada valor
que uma variável aleatória pode assumir, ou seja, é uma correspondência que
associa probabilidades aos valores de uma variável aleatória, ou ainda, é uma
Função que relaciona a probabilidade de ocorrência de um valor da variável
aleatória:

P(X=x) = f(x)

74
5.1. DISTRIBUIÇÃO BINOMIAL

A distribuição Binomial é útil para avaliar experimentos em que somente


dois resultados são possíveis: sucesso ou fracasso que são mutuamente
excludentes. As características desta distribuição são:

Características:

 O experimento pode ser repetido “n” vezes em condições


essencialmente inalteradas;
 Há apenas dois resultados possíveis em cada repetição, denominados
sucesso ( p ) e fracasso ( 1- p )
 As probabilidades “p” (sucesso) e “1-p” (fracasso) permanecem
constantes em todas as repetições.
 As repetições são independentes, ou seja, o resultado de uma repetição
não é influenciado por outros resultados.

O Modelo Binomial

n  nº de repetições do evento 
x  valor que se deseja determinar 
n!  
P( X  x)  . p x .(1  p) n x , onde  
x!.(n  x)! p  probabilidade de sucesso 

(1- p)  probabilidade de fracasso 

75
Exemplo 1

A probabilidade da ocorrência de peças defeituosas em um lote


produzido por uma fábrica é de 5%. Cinco lotes são investigados, qual é a
probabilidade de:

a) Somente um lote contenha uma peça defeituosa

n= 5 lotes
x = nº lotes com peças defeituosas
p = 0,05 (5%)
(1-p) = 1- 0,05 = 0,95 (95%)

Pede-se: Somente um lote contenha peças defeituosas - P(x = 1)

b) Nenhum lote contenha peças defeituosas

n= 5 lotes
x = nº lotes com peças defeituosas
p = 0,05 (5%)
(1-p) = 1- 0,05 = 0,95 (95%)

Pede-se: Nenhum lote contenha peças defeituosas - P(x = 0)

76
Exemplo 2

A probabilidade de ocorrer problemas na direção hidráulica de um


caminhão de uma determinada marca é de 0,10. Considerando uma frota de 8
caminhões desta marca, qual é a probabilidade de que metade deles venha a
ter problemas na direção hidráulica?

X = Nº de caminhões com problemas na direção hidráulica


p = 0,10 (a probabilidade de um caminhão ter problemas na direção hidráulica)
(1-p) = 0,90
n = 8 caminhões

Pede-se:
P(metade da frota de 8 caminhões apresentar problemas na direção hidráulica)
P(x=4)

Resolução:
8!
P(x= 4) = .0,10 4.0,90 4  70 . 0,0001 . 0,6561  0,0046
4!.4!

P(x= 4) = 0,0046

Média ou Valor Esperado da Distribuição Binomial

Se a variável aleatória X possui distribuição Binomial então sua média e


seu desvio-padrão podem ser definidos como:

Média Desvio-padrão

  E( x)  n. p   n. p.(1  p)

77
Exemplo

Vamos considerar o exemplo anteriormente visto: A probabilidade de


ocorrer problemas na direção hidráulica de um caminhão de uma determinada
marca é de 0,10. Considerando uma frota de 8 caminhões desta marca, qual é
a probabilidade de que metade deles venha a ter problemas na direção
hidráulica?

A média de caminhões com problemas na direção hidráulica, ou ainda o


valor esperado de caminhões com problemas na direção hidráulica seria de:

E o desvio-padrão:

5.2. DISTRIBUIÇÃO POISSON

Depois da Binomial, a distribuição de Poisson é a distribuição de


probabilidade discreta mais utilizada, pois pode ser aplicada a muitos casos
práticos nos quais interessa o número de vezes que um determinado evento
pode ocorrer durante um intervalo de tempo ou num determinado ambiente
físico, por exemplo:

 O número de acidentes de carros por dia numa grande cidade.


 O número de garrafas mal fechadas por trinta minutos na máquina de
enchimento de cerveja.
 O número de defeitos de soldagem em seis metros de tubo;

78
Num processo de Poisson podem ser observados eventos discretos
numa área de oportunidade de tal forma que, reduzindo suficientemente essa
área de oportunidade que pode ser um intervalo de tempo, espaço, ou área na
qual mais de uma ocorrência de um evento pode ocorrer:

Características da Distribuição Poisson

 A probabilidade de observar apenas um sucesso no intervalo é


estável.
 A probabilidade de observar mais de um sucesso no intervalo é zero.
 A ocorrência de um sucesso em qualquer intervalo é estatisticamente
independente da ocorrência em qualquer outro intervalo.

A distribuição de Poisson é caracterizada apenas pelo parâmetro .

Enquanto a variável aleatória do processo de Poisson “X” se refere ao


número de sucessos por área de oportunidade, o parâmetro  se refere ao
valor esperado, ou média, do número de sucessos por área de oportunidade.

O Modelo Poisson

A probabilidade de ocorrerem exatamente “x” eventos é dada por:

onde:

P(x) = a probabilidade de x ocorrências em um intervalo


p = número de ocorrências por unidade (tempo ou espaço)
 = valor esperado ou número médio de ocorrências em um intervalo
e  2,71828 (número de Euler)

79
Exemplo 1

Em uma linha de produção, uma peça é finalizada a uma taxa λ=


peças por minuto. Qual a probabilidade de que, nesta mesma linha, sejam
finalizadas 8 peças no próximo 1 minuto?

x= Nº peças finalizadas
n= 1 minuto

p=

λ= n . p =

Pede-se:
P(x = 8 peças finalizadas)

Exemplo 2

Os defeitos na produção de espumas para revestimentos ocorrem a uma


taxa de 2 defeitos a cada 10 metros. Determine a probabilidade de que, em três
metros ocorram: a) Nenhum defeito b) 3 defeitos

Informações Importante:
x = nº de defeitos

p= = 0,2

80
n = 3 metros
λ= n . p =

a) Nenhum defeito
Pede-se: P(x=0)

b) Ocorram 3 defeitos

Pede-se: P(x=3)

5.3. DISTRIBUIÇÃO NORMAL

A distribuição Normal é o modelo probabilístico mais utilizado no


tratamento estatístico de dados, pois diversas ferramentas estatísticas
necessitam da suposição de que os dados se distribuam normalmente para
serem utilizadas.

A sua função densidade de probabilidade f(x) é dada por:

( x  ) 2

f ( x) 
1
e 2 2 ; para - < x <  , - <  <  e 2 > 0
2 

Os parâmetros da Normal são a média ( µ ) e o desvio-padrão (  ), que


permitem infinitas curvas normais com diferentes formatos (mas sempre
simétricas). O gráfico da função densidade de probabilidade é apresentado a
seguir:

81
Figura 5. Gráfico da Curva Normal

Características da Distribuição Normal

 Sua curva de probabilidades tem forma de sino;


 A área total sob a curva é igual a 1;
 No ponto mais alto na curva encontra-se a média da distribuição;
 A curva é simétrica em relação à média;
 O desvio padrão determina a largura da curva. Quanto maior o desvio
padrão mais larga e mais plana tende a ser a curva, mostrando a
variabilidade nos dados.
 As probabilidades para a variável aleatória normal são dadas por áreas
sob a curva.

A distribuição Normal, independentemente dos valores dos parâmetros,


apresenta sempre a seguinte relação:

82
Figura 6. Áreas importantes da Curva Normal

Distribuição Normal-padrão ou Normal reduzida - Z

A função densidade de probabilidade f(x) da distribuição normal depende


dos valores de μ e σ, por essa razão teremos várias equações para vários
diferentes valores de μ e σ. Todas as curvas normais representativas de
distribuições de frequências podem ser transformadas em uma curva normal
padrão, usando-se a média µ e o desvio padrão  da variável em estudo.

Para evitar cálculos com a integração, uma tabela única foi desenvolvida
para uma variável aleatória agora chamada de “Z” com μ=0 e σ=1, e sua
distribuição de probabilidades é definida como normal padronizada, ou ainda
normal padrão.

83
Seja X uma variável aleatória normalmente distribuída com quaisquer
parâmetros média  e desvio-padrão . Para realizar o processo de
padronização devemos realizar a seguinte transformação:

x
Z

onde:

x = valor de interesse da variável


 = média da variável
 = desvio-padrão da variável

Após a padronização poderemos obter as probabilidades associadas a


cada área através da Tabela Normal padrão apresentada a seguir:

84
Tabela da Distribuição Normal Padrão P(Z<z) – VALORES POSITIVOS
z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7704 0,7734 0,7764 0,7794 0,7823 0,7852
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
1,1 0,8643 0,8665 0,8686 0,8708 0,8729 0,8749 0,8770 0,8790 0,8810 0,8830
1,2 0,8849 0,8869 0,8888 0,8907 0,8925 0,8944 0,8962 0,8980 0,8997 0,9015
1,3 0,9032 0,9049 0,9066 0,9082 0,9099 0,9115 0,9131 0,9147 0,9162 0,9177
1,4 0,9192 0,9207 0,9222 0,9236 0,9251 0,9265 0,9279 0,9292 0,9306 0,9319
1,5 0,9332 0,9345 0,9357 0,9370 0,9382 0,9394 0,9406 0,9418 0,9429 0,9441
1,6 0,9452 0,9463 0,9474 0,9484 0,9495 0,9505 0,9515 0,9525 0,9535 0,9545
1,7 0,9554 0,9564 0,9573 0,9582 0,9591 0,9599 0,9608 0,9616 0,9625 0,9633
1,8 0,9641 0,9649 0,9656 0,9664 0,9671 0,9678 0,9686 0,9693 0,9699 0,9706
1,9 0,9713 0,9719 0,9726 0,9732 0,9738 0,9744 0,9750 0,9756 0,9761 0,9767
2,0 0,9772 0,9778 0,9783 0,9788 0,9793 0,9798 0,9803 0,9808 0,9812 0,9817
2,1 0,9821 0,9826 0,9830 0,9834 0,9838 0,9842 0,9846 0,9850 0,9854 0,9857
2,2 0,9861 0,9864 0,9868 0,9871 0,9875 0,9878 0,9881 0,9884 0,9887 0,9890
2,3 0,9893 0,9896 0,9898 0,9901 0,9904 0,9906 0,9909 0,9911 0,9913 0,9916
2,4 0,9918 0,9920 0,9922 0,9925 0,9927 0,9929 0,9931 0,9932 0,9934 0,9936
2,5 0,9938 0,9940 0,9941 0,9943 0,9945 0,9946 0,9948 0,9949 0,9951 0,9952
2,6 0,9953 0,9955 0,9956 0,9957 0,9959 0,9960 0,9961 0,9962 0,9963 0,9964
2,7 0,9965 0,9966 0,9967 0,9968 0,9969 0,9970 0,9971 0,9972 0,9973 0,9974
2,8 0,9974 0,9975 0,9976 0,9977 0,9977 0,9978 0,9979 0,9979 0,9980 0,9981
2,9 0,9981 0,9982 0,9982 0,9983 0,9984 0,9984 0,9985 0,9985 0,9986 0,9986
3,0 0,9987 0,9987 0,9987 0,9988 0,9988 0,9989 0,9989 0,9989 0,9990 0,9990
3,1 0,9990 0,9991 0,9991 0,9991 0,9992 0,9992 0,9992 0,9992 0,9993 0,9993
3,2 0,9993 0,9993 0,9994 0,9994 0,9994 0,9994 0,9994 0,9995 0,9995 0,9995
3,3 0,9995 0,9995 0,9995 0,9996 0,9996 0,9996 0,9996 0,9996 0,9996 0,9997
3,4 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9997 0,9998
3,5 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998 0,9998
3,6 0,9998 0,9998 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,7 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,8 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999 0,9999
3,9 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

85
Tabela da Distribuição Normal Padrão P(Z<z) – VALORES NEGATIVOS
z 0,0 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,7 0,2420 0,2389 0,2358 0,2327 0,2296 0,2266 0,2236 0,2206 0,2177 0,2148
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0721 0,0708 0,0694 0,0681
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0571 0,0559
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,8 0,0359 0,0351 0,0344 0,0336 0,0329 0,0322 0,0314 0,0307 0,0301 0,0294
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0239 0,0233
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,2 0,0139 0,0136 0,0132 0,0129 0,0125 0,0122 0,0119 0,0116 0,0113 0,0110
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0021 0,0020 0,0019
-2,9 0,0019 0,0018 0,0018 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-3,0 0,0013 0,0013 0,0013 0,0012 0,0012 0,0011 0,0011 0,0011 0,0010 0,0010
-3,1 0,0010 0,0009 0,0009 0,0009 0,0008 0,0008 0,0008 0,0008 0,0007 0,0007
-3,2 0,0007 0,0007 0,0006 0,0006 0,0006 0,0006 0,0006 0,0005 0,0005 0,0005
-3,3 0,0005 0,0005 0,0005 0,0004 0,0004 0,0004 0,0004 0,0004 0,0004 0,0003
-3,4 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0003 0,0002
-3,5 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002 0,0002
-3,6 0,0002 0,0002 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,7 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,8 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001 0,0001
-3,9 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

86
Como utilizar a Tabela Normal Padrão

Na tabela desejamos saber a área correspondente a um determinado


valor de “z”, devemos considerar duas informações importantes obtidas a partir
do valor de “z” que são: a linha e a coluna em que devemos procurar o valor.

Por exemplo, para P(z<1,35) lê-se “probabilidade de z ser inferior a


1, ”:

1,35

Devemos dividir esse número em duas partes: a primeira composta pela


parte inteira do número e a primeira casa após a vírgula que representa os
décimos; a segunda parte é composta pela segunda casa após a vírgula que
representa o centésimo.

Linha

1,35 Coluna

Para o nosso exemplo P(z<1,35) deveremos buscar na tabela dos


valores de “z” positivos a linha 1,3 e a coluna 0,05:

Então P(z<1,35) = 0,9115 ou ainda 91,15%

87
Outro exemplo: P(z<-0,27)

Linha

-0,27 Coluna

Deveremos buscar na tabela dos valores de “z” negativos a linha -0,2 e


a coluna 0,07:

Então P(z<-0,27) = 0,3936 ou ainda 39,36%

Exemplo 1

A vida média de uma marca e de um tipo de bateria (para determinado


equipamento em uso contínuo) é 20 horas, com desvio-padrão de 0,5 horas,
Qual a probabilidade de que essa bateria dure menos de 21 horas?

Passo 1: Dados do Problema

x= tempo de vida da bateria


= 20 horas
 = 0,5 horas
Pede-se: P(x < 21 horas)

88
Passo 2: Padronizar para obter o cálculo da área pela tabela Normal Padrão

Passo 3: Buscar o valor da probabilidade P(z<2,00) na tabela normal

Linha

2,00
Coluna

Deveremos buscar na tabela dos valores de “z” positivos a linha 2,0 e a


coluna 0,00:

89
Então a P(x < 21 horas)= 0,9772 ou 97,72%

97,72%

90
Exemplo 2

A vida útil de um semicondutor a laser, a uma potência constante, é


normalmente distribuída com média de 7000 horas e desvio-padrão de 600
horas. Selecionada ao acaso uma unidade deste semicondutor, qual é a
probabilidade deste falhar:

Passo 1: Dados do Problema

x= vida útil de um semicondutor a laser


= 7000 horas
 = 600 horas

a) antes de 6400 horas


Pede-se:
P(x < 6400 horas)

Passo 2: Padronizar para obter o cálculo da área pela tabela Normal Padrão

91
Passo 3: Buscar o valor da probabilidade P(z<-1,00) na tabela normal

Linha

-1,00
Coluna

Deveremos buscar na tabela dos valores de “z” negativos a linha -1,0 e


a coluna 0,00:

Então a P(x < 6400 horas)= 0,1587 ou 15,87%

15,87%

92
Nos exemplos anteriores observe que as áreas/probabilidades
solicitadas foram sempre áreas INFERIORES a um valor “x” de interesse,
observe que na tabela normal padrão utilizada as probabilidade que ali se
encontram referem-se sempre a áreas inferiores:

Quando a probabilidade desejada for uma área SUPERIOR a algum


valor de “x” ou ainda ENTRE dois valores de “x” devemos utilizar a mesma
tabela, porém observando as seguintes regras:

b) Probabilidade de falhar após 7500 horas


Pede-se:
P(x > 7500 horas)

Observe que aqui desejamos a área localizada a DIREITA no gráfico


(área escura), ou seja, uma área SUPERIOR, porém a tabela apresenta
apenas o cálculo das áreas INFERIORES, ou ainda a ESQUERDA do gráfico
(área clara). Neste caso utilizaremos a informação que a curva ao todo possui
100% de área, então calcularemos a área INFERIOR e do resultado obtido na
tabela subtrairemos 100%.

Então poderemos estabelecer a seguinte regra:

P( x ≥ a ) = 100% - P( x ≤ a )

93
Voltando ao exemplo:

b) Probabilidade de falhar após 7500 horas


Pede-se:
P(x > 7500 horas)

Vamos então aplicar a regra:

P(x > 7500 horas) = 100% - P(x < 7500 horas)

Padronizando para obter o cálculo da área pela tabela Normal Padrão

Buscando o valor da probabilidade P(z<0,83) na tabela normal

Linha

0,83
Coluna

Deveremos buscar na tabela dos valores de “z” positivos a linha 0,8 e a


coluna 0,03:

94
Então a P(x < 7500 horas)= 0,7967 ou 79,67%

79,67%

Não esqueça que a probabilidade desejada é SUPERIOR a 7500 horas


então:

P(x > 7500 horas) = 100% - P(x < 7500 horas)


P(x > 7500 horas) = 100% - 79,67%
P(x > 7500 horas) = 20,33%

79,67%
20,33%

95
Agora vejamos o terceiro e último tipo de área/probabilidade a ser
calculada: ENTRE dois valores.

c) Entre 6300 horas e 7400 horas

Pede-se:

P( 6 00 ≤ x ≤ 400 )

Neste caso, teremos dois valores de “x” que deverão ser padronizados
resultando em dois valores de probabilidade, uma referente á área inferior a
7400 e outra inferior a 6300.

P (x < 7400)

P (x < 6300)

Para obter a área de interesse devemos subtrair uma área da outra.


Então poderemos estabelecer a seguinte regra:

P( a ≤ x ≤ b ) = P( x ≤ b ) – P( x ≤ a )

96
Voltando ao exemplo:

c) Entre 6300 horas e 7400 horas


Pede-se:
P( 6 00 ≤ x ≤ 400 )

Vamos então aplicar a regra:

P( 6 00 ≤ x ≤ 400 ) = P( x ≤ 400) – P( x≤ 6 00)

Padronizando para obter o cálculo da área pela tabela Normal Padrão

Na tabela: linha 0,6 e coluna 0,07  0,7486 ou 74,86%

Na tabela: linha -1,1 e coluna 0,07  0,1210 ou 12,10%

Então:
P( 6 00 ≤ x ≤ 400 ) = 74,86% – 12,10%

P( 6300 ≤ x ≤ 7400 ) = 62,76%

62,76%

97
Recapitulando

A distribuição de probabilidades para uma variável aleatória “X” é


expressa através de um modelo matemático que representa as probabilidades
associadas aos possíveis valores que esta variável pode assumir.

Dentre as distribuições de probabilidade mais importantes podemos


destacar:

 Distribuição Binomial

Utilizada para avaliar experimentos onde a variável aleatória “x” é dada


pelo número de ocorrências de um determinado resultado de interesse.
Nesta distribuição somente dois resultados são possíveis: sucesso ou
fracasso que são mutuamente excludentes.

 Distribuição Poisson

Utilizada para verificar a ocorrência de um determinado evento discreto


num um intervalo de interesse que pode ser de tempo, espaço, ou área
na qual mais de uma ocorrência deste um evento pode ocorrer:

 Distribuição Normal
É o modelo probabilístico mais conhecido, onde várias técnicas
estatísticas necessitam da suposição de que os dados se distribuam
normalmente para serem utilizadas. Seus parâmetros são a média e o
desvio-padrão.

98
Atividades

Questão 1. Um lote de aparelhos de TV é recebido por uma firma. Seis


aparelhos são inspecionados. O lote só é aceito se todos os itens forem
perfeitos. Sabendo-se que a probabilidade de um aparelho ser defeituoso é de
1%, qual a probabilidade da firma aceitar todo o lote?

Questão 2. Num rolo de fita, há um defeito em cada 200 pés. Qual é a


probabilidade de que, num trecho de 500 pés, ocorra um defeito.

Questão 3. Uma máquina produz 2 lâmpadas defeituosas a cada hora de


produção. Qual a probabilidade desta máquina produzir 2 lâmpadas
defeituosas no período de 3 horas?

Questão 4. Uma máquina mede e corta fios usados em instalações elétricas


automaticamente. O comprimento dos fios por ela cortados segue uma
distribuição normal com média de 50 metros e desvio-padrão de 0,3 metros.
Qual é a probabilidade de um fio selecionado aleatoriamente desta máquina
apresentar comprimento inferior a 50,5 metros?

Questão 5. A duração de certo componente eletrônico pode ser considerada


normalmente distribuída com média de 850 dias e desvio-padrão de 45 dias.
Calcular a probabilidade de um componente durar:

a) Entre 700 e 1000 dias


b) Mais de 800 dias
c) Menos de 750 dias

99
Gabarito

Questão 1. R: 0,9415 ou 94,15%

Questão 2. R: 0,2052 ou 20,52%

Questão 3. R: 0,0446 ou 4,46%

Questão 4. R: 0,9525 ou 95,25%

Questão 5.
a) R: 0,9992 ou 99,92%
b) R: 0,08665 ou 86,65%
c) R: 0,0132 ou 1,32%

100
6. ESTIMAÇÃO E INTERVALOS DE CONFIANÇA

Simone Echeveste

Neste capítulo serão trabalhados alguns conceitos importantes a


respeito de estimação pontual e intervalar. Será apresentado ao aluno a
construção e a interpretação de um Intervalo de Confiança, bem como a
importância da informação fornecida pelo mesmo.

O aluno, ao final deste capítulo deverá realizar estimações intervalares


para parâmetros como a média e a proporção através da construção de
intervalos de confiança, bem como realizar a correta interpretação dos
mesmos.

Ao realizar uma pesquisa na grande maioria das vezes necessitamos


conhecer algumas características da população através de informações
amostrais, ou seja, uma amostra é extraída da população e, a partir da sua
análise, as informações obtidas são inferidas para toda a população de
interesse.

A estimação é o processo que consiste no uso de dados da amostra


(dados amostrais) para estimar valores de parâmetros populacionais
desconhecidos, tais como média, desvio padrão, proporções etc
.

Estimação é o processo pelo qual utilizamos um valor amostral (estimador)


com o objetivo de inferir o seu respectivo valor populacional (parâmetro).

101
Importante:
A média populacional  é estimada por
O desvio-padrão populacional  é estimado por s
A proporção populacional  é estimada por p

Estimação por ponto e por intervalos de confiança

A estimação pontual, ou por ponto de um parâmetro ocorre sempre que


calculamos alguma estatística utilizando apenas a aplicação da fórmula de seu
estimador. Neste tipo de estimativas a informação fornecida é composta por um
único valor.

Quando calculamos, por exemplo, o comprimento médio de uma peça e


chegamos ao resultado estamos estimando que em média essa
peça tem 25,3 mm de comprimento. Observe que nossa estimativa é pontual,
ou seja, feita utilizando apenas um único valor.

Já a estimação intervalar consiste na determinação de um intervalo de


valores do qual, com certa confiança (probabilidade), esteja contido o
parâmetro desconhecido, utilizando para isso a informação obtida com o seu
estimador. A utilização de intervalos de confiança é uma alternativa sempre
muito interessante no processo de estimação, pois permite determinar o erro
máximo de estimação cometido com certa confiança pré-estabelecida.

6.1. INTERVALO DE CONFIANÇA PARA MÉDIA 

Ao construir um intervalo de confiança para uma média desejamos


estabelecer um intervalo de valores com uma probabilidade pré-estabelecida
considerando a estimativa da média ( ) corrigida pelo erro de estimação ().
Destaca-se aqui que a variável analisada (x) deve apresentar distribuição
aproximadamente normal para que se possa realizar esse procedimento de
estimação intervalar.

102
Figura 7. Representação do Intervalo de Confiança 95% para a média

95%

Duas situações são consideradas quando desejamos estabelecer um


intervalo de confiança para a média populacional µ:

1ª) Quando o desvio-padrão  é conhecido


2ª) Quando o desvio-padrão  é desconhecido

Seja “X” uma variável aleatória que apresenta distribuição normal com
desvio-padrão  conhecido, o intervalo de confiança para a média µ pode ser
assim determinado:

Atenção!

x = média amostral
 = erro de estimação
z= valor tabelado da Normal Padrão
Onde:  = desvio-padrão
 n = tamanho da amostra

103
Os valores de Z (normal-padrão) podem ser obtidos na tabela t com
infinitos graus de liberdade. Valores típicos:

z 0,05 =1,645 (IC 90%)

z 0,025  1,96 (IC 95%)

z 0,005  2,576 (IC 99%)

Seja “X” uma variável aleatória que apresenta distribuição normal com
desvio-padrão  desconhecido, o intervalo de confiança para a média µ pode
ser assim determinado:

Atenção!

x = média amostral
 = erro de estimação
t= valor tabelado tabela t-student
Onde: s = desvio-padrão amostral
n = tamanho da amostra

Observe que neste intervalo utilizaremos a distribuição t-student que é


uma distribuição muito semelhante à distribuição normal e é utilizada em casos
de pequenas amostras ou ainda quando  é desconhecido. A tabela t-student
apresentada abaixo possui ( n - 1) graus de liberdade:

104
Tabela de valores críticos da distribuição t de Student.
Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
1 12,706 31,821 63,656
2 4,303 6,965 9,925
3 3,182 4,541 5,841
4 2,776 3,747 4,604
5 2,571 3,365 4,032
6 2,447 3,143 3,707
7 2,365 2,998 3,499
8 2,306 2,896 3,355
9 2,262 2,821 3,250
10 2,228 2,764 3,169
11 2,201 2,718 3,106
12 2,179 2,681 3,055
13 2,160 2,650 3,012
14 2,145 2,624 2,977
15 2,131 2,602 2,947
16 2,120 2,583 2,921
17 2,110 2,567 2,898
18 2,101 2,552 2,878
19 2,093 2,539 2,861
20 2,086 2,528 2,845
21 2,080 2,518 2,831
22 2,074 2,508 2,819
23 2,069 2,500 2,807
24 2,064 2,492 2,797
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

105
Exemplo 1

A voltagem de quebra da Corrente Alternada (CA) de um líquido isolante


indica sua resistência dielétrica. Em um estudo realizado com 25 amostras a
voltagem de quebra (kV) de um circuito específico sob certas condições
apresentou média de 54,7 kV com um desvio-padrão de 5,2 kV. Construa o
Intervalo de Confiança (IC) 95% para a verdadeira voltagem de quebra média.

Dados do Problema:
Variável (x) - voltagem de quebra em kV
Amostra (n)= 25
= 54,7 kV
s = 5,2 kV
t = 2,064 (veja na página a seguir como encontrar esse valor)

Intervalo de Confiança 95%

 = 2,1466

[54,7 ± 2,15]

[54,7 – 2,15 a 54,7+ 2,15]

[52,55 a 56,85]

Interpretação: Estima-se com 95% de confiança que a verdadeira voltagem de


quebra média seja um valor entre 52,55 kV e 56,85 kV .

106
Como encontrar o valor de “t” na tabela t-student

Na tabela “t” devemos considerar duas informações importantes: a linha


e a coluna onde o valor se encontra. Na linha temos os graus de liberdade (gl)
que correspondem sempre ao tamanho da amostra menos 1 (n-1) e a coluna
devemos observar o nível de confiança do intervalo desejado.

No exemplo acima, o tamanho da amostra é 25 e o intervalo de


confiança solicitado é 95%, então devemos olhar na tabela a linha 25 – 1 = 24
e a coluna que corresponde ao IC 95%:

O valor de “t” então para este exemplo é de 2,064


t= 2,064

107
Exemplo 2

Certo tipo de massa na produção de cerâmica foi investigada em relação


a sua resistência mecânica após a queima. Um estudo realizado com 15
amostras desta cerâmica apresentou uma resistência média de 53 MPa com
um desvio-padrão de 4 MPa. Obtenha o intervalo de confiança 95% para a
verdadeira resistência média desta massa.

Dados do Problema:
Variável (x) – resistência mecânica em MPa
Amostra (n)= 15
= 53 MPa
s = 4 MPa
t = 2,145 (procurar na tabela - linha 14 e coluna IC95%)

Intervalo de Confiança 95%

 = 2,22

108
[53 ± 2,22]

[53 – 2,22 a 53 + 2,22]

[50,78 a 55,22]

Interpretação: Estima-se com 95% de confiança que a verdadeira resistência


mecânica média após a queima seja um valor entre 50,78 MPa e 55,22 MPa.

6.2. INTERVALO DE CONFIANÇA PARA PROPORÇÃO 

Seja “p” a proporção de ocorrência de algum evento de interesse em


uma população, o Intervalo de Confiança para uma proporção da população 
pode ser definido como:

Figura 8. Representação do Intervalo de Confiança 95% para a proporção

95%

Atenção!

p= proporção observada na amostra


 = erro de estimação
z= valor tabelado tabela normal
n = tamanho da amostra

109
Os valores de Z (normal-padrão) podem ser obtidos na tabela t com
infinitos graus de liberdade. Valores típicos:

z 0,05 =1,645 (IC 90%)

z 0,025  1,96 (IC 95%)

z 0,005  2,576 (IC 99%)

Exemplo

Num depósito uma amostra de 230 latas de certo produto alimentar


armazenadas para serem distribuídas foram verificadas constatando-se que 12
ultrapassaram já o prazo de validade. Construa e interprete o Intervalo de
confiança 95% para a proporção verdadeira de latas que já ultrapassaram o
prazo de validade.

Dados do Problema:
Proporção investigada – proporção de latas com prazo de validade vencido

Amostra (n)= 230 latas


Verifique que, de acordo com o enunciado do problema das 230 latas, 12
ultrapassaram o prazo de validade.

= 0,0522

z = 1,96 (valor obtido a partir da normal padrão de acordo com os valores de z


apresentada na página anterior)

110
Intervalo de Confiança 95%

Após o intervalo construído,


multiplique os valores obtidos
por 100 para apresentar o
intervalo em percentual.

Interpretação: Estima-se com 95% de confiança que a verdadeira proporção


de latas que já ultrapassaram o prazo de validade seja um valor entre 2,35% a
8,09%.

111
Recapitulando

A Estimação é o processo pelo qual utilizamos um valor amostral


(estimador) com o objetivo de inferir o seu respectivo valor populacional
(parâmetro), podendo ser realizada de duas formas: estimativa pontual ou
estimativa intervalar.

A estimação intervalar é construída a partir do cálculo do estimador de


interesse ajustado a um erro de estimação, corresponde a uma alternativa
sempre muito interessante no processo de estimação, pois permite ao
pesquisador considerar em uma estimativa pontual o erro de estimação que
pode ocorrer neste valor.

Atividades sobre Estimação

Questão 1. O tempo entre a carga e o final do processo (minutos) de um aço


carbono em um tipo de fornalha aberta foi determinado para cada aquecimento
em uma amostra de tamanho 40, resultando em um tempo médio de 382,1
minutos com um desvio-padrão de 31,5 minutos. Calcule e interprete o
Intervalo de Confiança 95% para a média.

Questão 2. Um determinado Instituto de Pesquisa investigou uma amostra de


400 Engenheiros sobre o tempo que levaram para obter seus diplomas. A
média obtida foi de 4,5 anos com um desvio-padrão de 0,5 anos. Com base
nesses dados amostrais, construa um intervalo de 95% de confiança para o
verdadeiro tempo médio gasto por todos os Engenheiros para obter seus
diplomas.

Questão 3. Uma amostra de 539 lares de certa cidade foi selecionada e


determinou-se que em 133 deles havia pelo menos uma arma de fogo. Usando
um nível de confiança de 95% calcule e interprete o Intervalo de Confiança
para a verdadeira proporção de lares com pelo menos uma arma de fogo.

112
Questão 4. Uma amostra de 150 componentes de um equipamento eletrônico
foi testada e 93 deles funcionaram mais de 500 horas. Determinar um intervalo
de confiança 95% para a verdadeira proporção de componentes que funcionam
mais de 500 horas.

Gabarito

Questão 1. R: [372,02 minutos a 392,18 minutos]

Questão 2. R: [4,45 anos a 4,51 anos]

Questão 3. R: [21,03% ≤  ≤ 8,31%]

Questão 4. R: [54,23% ≤  ≤ 69,77%]

113
7. TESTES DE HIPÓTESES

Simone Echeveste

Neste capítulo será apresentada uma importante ferramenta de análise


estatística que é o Teste de Hipóteses. Amplamente utilizado para diversos
estudos em diferentes áreas da engenharia esta ferramenta configura-se como
uma das mais utilizadas no processo de tomada de decisão em vários
problemas de pesquisa.

Ao final deste capítulo o aluno deverá identificar os tipos de problemas


que podem ser analisados através de um teste de hipóteses, bem como
compreender todos os passos que compõem a realização deste.

Em algumas situações de pesquisa existe um particular interesse em


decidir sobre a verdade ou não de uma hipótese específica (se dois grupos têm
a mesma média ou não, ou se o parâmetro populacional tem um valor em
particular ou não). Na Estatística quando falamos em hipóteses nos referimos a
uma afirmação a respeito de um parâmetro, como a média ou o desvio-padrão,
por exemplo.

Neste caso precisamos ferramentas que permitam testar se uma


afirmação é aceita ou rejeitada tendo como base as informações obtidas em
uma amostra. O Teste de hipóteses viabiliza uma estrutura para que façamos
isto, ele é útil quando desejamos verificar a alegação (afirmação) feita sobre
um parâmetro (média ou proporção).

114
Exemplos:

-O tempo médio de fabricação é de 15 minutos


-A quantidade média de peças defeituosas do fabricante A é superior a
do fabricante B
- A proporção de itens defeituosos é de 3%

Um teste de hipóteses deve considerar alguns passos importantes na


sua realização. Iniciamos com a determinação da hipótese a ser investigada,
ou ainda o efeito que desejamos comprovar, este deve se referir a algum
parâmetro populacional como a média ou a proporção, por exemplo.

Ao estabelecermos as hipóteses devemos considerar a hipótese nula


(H0) como aquela em que o efeito NÃO está presente, ou ainda, aquela em que
o efeito não é significativo.

A hipótese estabelecida é comparada aos resultados obtidos


considerando uma pesquisa realizada com uma amostra de “n” elementos. As
informações obtidas com os estimadores dos parâmetros de interesse
adicionadas a alguns elementos de probabilidade permitirão ao pesquisador
decidir se a hipótese é verdadeira ou não.

115
Figura 8. Elementos de um Teste de Hipóteses

1º) Descreva o efeito em que está interessado em comprovar em termos de


um parâmetro populacional como, por exemplo, uma média (  ) ou uma
proporção ( );

2º) A Hipótese Nula (H0) é a afirmação de que tal efeito não está presente
na população;

3º) Com base nos dados obtidos na amostra verifique se os valores obtidos
estão muito distantes do valor do parâmetro pela hipótese nula; caso
afirmativo, os dados evidenciam que a hipótese nula é falsa e que o efeito
que está procurando está realmente presente;

Em geral, estipula-se um nível de 5%. O valor da probabilidade de se


obter o efeito observado, dado que a hipótese nula é verdadeira, é chamado de
p-valor. Se o valor do p-valor for menor que o nível de significância estipulado
(normalmente de 5%), assume-se o erro tipo I e rejeita-se a hipótese nula. Ao
contrário, se o p-valor for maior, não é assumido o erro tipo I e se aceita a
hipótese nula.

Os testes podem rejeitar ou aceitar a hipótese nula e nesta decisão


podem ocorrer dois possíveis tipos de erros conforme demonstra a Figura 9:

116
Figura 9. Tipos de Erros em um Teste de Hipóteses

Erro • É o erro ao rejeitar H0 quando, na realidade, H0 é


Tipo I verdadeira. A probabilidade de cometer este erro do tipo I é
designada por α (nível de significância).

Erro • É o erro ao aceitar H0 quando, na realidade, H0 é falsa. A


Tipo II probabilidade de cometer este erro do tipo II é designada
por β .

Em um teste de hipóteses é obviamente desejável que se reduza ao


mínimo as probabilidades α e β dos dois tipos de erros. A redução simultânea
dos erros ocorre sempre quando aumentamos o tamanho da amostra.

Componentes de um teste de hipóteses

Hipóteses de pesquisa

O primeiro passo consiste em formular hipóteses sobre a afirmação de


estudo. As hipóteses estatísticas sempre comparam dois ou mais parâmetros e
podem ser classificadas em dois tipos:

 Hipótese Nula (H0) estabelece a ausência de diferença entre os


parâmetros. É sempre representada por uma igualdade.

 Hipótese Alternativa (H1) é a hipótese contrária à H0 geralmente é a


hipótese que o pesquisador quer ver confirmada. Pode representar
simplesmente uma desigualdade, ou ainda a ideia de
superioridade/inferioridade.
Nos exemplos anteriormente citados podemos destacar:

117
-O tempo médio de fabricação é de 15 minutos

H0 :  = 15 minutos
H1 :   15 minutos

-A quantidade média de peças defeituosas do fabricante A é superior a


do fabricante B

H0 :  A =  B
H1 :  A >  B

- A proporção de itens defeituosos é de 3%

H0 :  = 3%
H1 :   3%

Estatística do teste

A estatística do teste é um valor calculado com as informações


provenientes da amostra e posteriormente utilizado para se tomar a decisão
sobre a aceitação ou rejeição da hipótese nula (H0).

Regra de decisão

Se o valor da estatística do teste localiza-se na região crítica,


rejeitamos a hipótese (nula) H0, pois existe uma forte evidência amostral de sua
falsidade. Ao contrário, aceitamos H0, concluindo que não existe evidência
amostral significativa para sua rejeição.

118
Conclusão experimental

Após a regra de decisão o teste deve ter uma conclusão experimental


onde o pesquisador de acordo com o contexto do problema finalizará a sua
análise descrevendo os resultados obtidos.

Figura 10. Etapas de um teste de hipóteses

Formulação das hipóteses de pesquisa H0 e H1

Calcular a Estatística do Teste

Estabelecer a Regra de Decisão e o nível de significância do teste

Concluir

119
7.1. TESTE DE HIPÓTESES PARA UMA MÉDIA (TESTE T – STUDENT)

O objetivo deste teste é comparar os valores obtidos em uma amostra


com uma média estabelecida como referência.

Hipóteses

Ho :   o (referência )

Ha :   o (referência )

Estatística do teste

Onde: x = média da amostra

X  o 0 = valor de referência
tcal  s = desvio-padrão da amostra
S n
n = tamanho da amostra

Regra de decisão

Na regra de decisão devemos considerar que a variável analisada tenha


distribuição aproximadamente normal. Neste caso, a partir dos valores da
tabela t-student iremos definir os pontos de corte na regra de decisão, ou seja,
a partir de que ponto inicia e termina a região crítica (região de rejeição).

A regra estabelece que se o valor calculado na estatística do teste for


um valor localizado na região de aceitação deveremos então aceitar a hipótese
nula H0 que representa a decisão de que a diferença encontrada nos dados
amostrais com os parâmetros populacionais NÃO é significativa.

120
Para o caso do valor calculado na estatística estar localizado na região
crítica deveremos então rejeitar a hipótese nula H0 que representa a decisão
de que SIM, existe diferença significativa dos dados amostrais com os
parâmetros populacionais.

Figura 11. Regra de decisão

Região crítica Região de Região crítica


Aceitação

0
(-) Valor tabelado (+) Valor tabelado

121
Como obter o valor tabelado da Regra de Decisão

Utilizaremos aqui o valor da tabela t-student, da mesma forma como já


utilizamos para a construção dos Intervalos de Confiança, utilizando a mesma
tabela. A linha a ser utilizada corresponde aos graus de liberdade, obtidos a
partir do tamanho da amostra investigada menos 1(n – 1). Já a coluna
corresponderá ao nível de significância desejado do teste (p-value) que
corresponde ao erro do teste – normalmente esse nível de significância é
estabelecido em no máximo 5%.
Nível de significância do teste
Graus de liberdade
(n – 1)

122
Exemplo 1

Uma empresa acredita que os seus televisores têm um tempo de vida


médio de 18 meses (funcionando de uma forma contínua). Esta empresa,
através do departamento de controle de qualidade, efetuou testes em 30
televisores, tendo registrado um tempo de vida médio de 17,8 meses com um
desvio-padrão de 5,6 meses. Analise os dados e conclua ao nível de
significância de 5%.

Passo 1 – Dados do Problema

Variável (x)= Tempo de vida dos televisores


µ0= 18 meses (valor de referência)
n= 30 televisores (tamanho da amostra)
x = 17,8 meses(médiadaamostra)
s= 5,6 meses (desvio-padrão da amostra)
α = 0,0 (nível de significância do teste: p=5%)

Passo 2 – Hipóteses de Pesquisa

H0 : µ = 18 meses
H1 : µ ≠ 18 meses

Passo 3 – Cálculo da Estatística do Teste

x - μ0 17,8 - 18 - 0,20 - 0,20


t calc = = = =  - 0,196
s 5,6 5,6 1,02
n 30 5,48

t calc  - 0,196

123
Passo 4 – Regra de Decisão

Vamos agora identificar o valor tabelado a ser utilizado na Regra de


Decisão: A amostra desta pesquisa foi de 30 televisores, então o grau de
liberdade (n-1) é 30 – 1 = 29 (linha 29 da tabela t). O nível de significância
estabelecido no problema é de 5% - então a coluna a ser utilizada da tabela é a
que corresponde 0,05.

Tabela de valores críticos da distribuição t de Student.


Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
18 2,101 2,552 2,878
19 2,093 2,539 2,861
20 2,086 2,528 2,845
21 2,080 2,518 2,831
22 2,074 2,508 2,819
23 2,069 2,500 2,807
24 2,064 2,492 2,797
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

O valor de “t” tabelado é então ,04 – esse valor determinará na regra


de decisão os limites da região crítica.

124
Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-2,045 +2,045

A regra estabelecida é: se o valor da estatística do teste for SUPERIOR


a +2,045 ou INFERIOR a -2,045 nossa decisão será REJEITAR H0, ou seja, há
diferença significativa entre os valores observados na amostra com o valor
estabelecido como referência.

Já se o valor da estatística do teste estiver ENTRE -2,045 e +2,045


nossa decisão será de ACEITAR H0 o que implica na existência de uma
diferença NÃO significativa entre os valores da amostra com a referência.

Para o nosso exemplo o valor da estatística do teste foi de t= -0,196

Região de Região crítica


Região crítica Aceitação

0
-2,045 -0,196 +2,045

Este valor (t=-0,196) está localizado, na nossa regra de decisão, dentro


da região de aceitação – então nossa decisão será ACEITAR H0.

125
Ao aceitar a hipótese nula H0 estaremos aceitando a seguinte afirmação:

H0 : µ = 18 meses

No contexto do problema, estaremos então aceitando que os televisores


fabricados por esta empresa têm um tempo de vida médio (funcionando de
uma forma contínua) igual a 18 meses, ou seja, a diferença encontrada em
relação a esse tempo médio na amostra NÃO FOI SIGNIFICATIVA.

Passo 5 – Conclusão

Na conclusão escreveremos um parágrafo referente ao resultado final do


teste de hipóteses:

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que o tempo de vida médio (funcionando de uma forma
contínua) destes televisores é igual a 18 meses.”

Exemplo 2

Uma indústria alimentícia produz determinado tipo de pão, cujo peso


médio deve ser de 190 gramas. Devido a mudanças na política cambial, que
ocasionou aumento no preço do trigo, alguns ingredientes da receita foram
substituídos. Uma equipe do controle de qualidade desta indústria resolveu
verificar se o peso do produto aumentou e escolheu, aleatoriamente, 200
unidades, medindo o peso de cada uma. O peso médio obtido da amostra foi
de 182 gramas com um desvio e padrão de 12 gramas. Analise os dados e
conclua ao nível de significância de 5%.

Passo 1 – Dados do Problema

Variável (x)= Peso do pão (gramas)


µ0= 190 gramas (valor de referência)
n= 200 pães (tamanho da amostra)

126
= 5,6
182meses (desvio-padrão
gramas da amostra)
(média da amostra)
s = 12 gramas (desvio-padrão da amostra)
α = 0,0 (nível de significância do teste: p= %)

Passo 2 – Hipóteses de Pesquisa

H0 : µ = 190 gramas
H1 : µ ≠ 190 gramas

Passo 3 – Cálculo da Estatística do Teste

x - μ0 182 - 190 -8 -8
t calc = = = =  - 9,41
s 12 12 0,85
n 200 14,14

t calc  - 9,41

Passo 4 – Regra de Decisão

A amostra desta pesquisa foi de 200 pães televisores, então o grau de


liberdade (n-1) é 200 – 1 = 199 (não temos na tabela a linha 199, então
usaremos a mais próxima – neste caso a linha 200). O nível de significância
estabelecido no problema é de 5% - então a coluna a ser utilizada da tabela é a
que corresponde 0,05.

127
Tabela de valores críticos da distribuição t de Student.
Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
18 2,101 2,552 2,878
19 2,093 2,539 2,861
20 2,086 2,528 2,845
21 2,080 2,518 2,831
22 2,074 2,508 2,819
23 2,069 2,500 2,807
24 2,064 2,492 2,797
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

O valor de “t” tabelado é então 1,972 – esse valor determinará na regra


de decisão os limites da região crítica.

Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-9,41 -1,972 +1,972

Para o nosso exemplo o valor da estatística do teste foi: t= -9,41

128
Este valor (t=-9,41) está localizado, na nossa regra de decisão, FORA
da região de aceitação, ou ainda, ele localiza-se na REGIÃO CRÍTICA – então
nossa decisão será REJEITAR H0.

H0 : µ = 190 gramas
H1 : µ ≠ 190 gramas

Ao rejeitar a hipótese nula H0 estaremos concordando com a afirmação


feita em H1:

H1 : µ ≠ 190 gramas

No contexto do problema, estaremos então concluindo que os pães têm


um peso médio DIFERENTE de 190 gramas, ou seja, a diferença encontrada
em relação a esse peso médio na amostra FOI SIGNIFICATIVA. Como esta
diferença foi significativa, poderemos observar na amostra que o peso
encontrado de 182 gramas é INFERIOR ao peso de referência 190 gramas.

Passo 5 – Conclusão

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que o peso médio dos pães após a substituição de alguns
ingredientes é significativamente DIFERENTE de 190 gramas. Observa-se ao
analisar os resultados da amostra que este peso é significativamente
INFERIOR a 190 gramas.”

129
7.2. TESTE DE HIPÓTESES PARA COMPARAÇÃO ENTRE DUAS
MÉDIAS (T-STUDENT PARA DUAS AMOSTRAS)

Este teste é muito semelhante ao anteriormente visto, porém aqui não


teremos um valor de referência a ser comparados, mas sim duas amostras
provenientes de dois grupos distintos e o objetivo aqui é comparar as médias
destas duas amostras independentes verificando se existe ou não diferença
significativa entre elas.

Cada um dos grupos investigados (ou amostras investigadas) gera suas


estatísticas descritivas que deverão ser utilizadas no cálculo da estatística do
teste: tamanho da amostra (n), média amostral ( ) e desvio-padrão amostral
(s).

 n1  n2
 
Grupo 1  x1 Grupo 2  x2
s s
 1  2

Hipóteses:

H o : 1   2

H1 : 1   2

As hipóteses são estabelecidas a partir da comparação da média dos


grupos, na hipótese nula H0 novamente teremos a ausência de diferença
significativa, ou seja, a média do grupo 1 é igual a média do grupo 2. Já a
hipótese alternativa H1 indica que EXISTE diferença significativa entre as
médias dos grupos 1 e 2.

130
Estatística do teste

Onde:

(desvio-padrão ao quadrado)
(desvio-padrão ao quadrado)

Regra de decisão

A regra de decisão para este teste é praticamente a mesma do teste


anterior, porém a única diferença refere-se aos graus de liberdade que agora,
como teremos dois grupos, será: (n1 + n2 – 2), ou seja deve-se somar os
tamanhos de amostra dos dois grupos e subtrair dois.

Região crítica
Região de Região crítica
Aceitação

(-) Valor tabelado (+) Valor tabelado

131
Exemplo 1

Uma empresa fabricante de telefones celulares afirma que a duração


média em horas (em stand by) da sua bateria é superior à duração das
concorrentes. Duas amostras formadas por 40 baterias do fabricante e 40 do
concorrente apresentaram médias iguais a 65 e 60 horas, com um desvio-
padrão de 2 e 3 horas, respectivamente. Seria possível supor que a bateria da
empresa do fabricante tenha significativamente maior duração? Considere um
nível de significância de 5%.

Passo 1 – Dados do Problema

Variável (x)= Tempo de duração da bateria (horas)


Grupo 1 – Fabricante Grupo 2 - Concorrente

α = 0,0 (nível de significância do teste: p= %)

Passo 2 – Hipóteses de Pesquisa

H o : 1   2

H1 : 1   2

132
Passo 3 – Cálculo da Estatística do Teste

Passo 4 – Regra de Decisão

A tabela a ser utilizada é a mesma tabela do teste anterior. Na linha


vamos obter os graus de liberdade (gl) considerando a soma dos dois
tamanhos de amostra dos grupos menos 2:

Gl: (n1+n2 – 2) = (40+40 - 2) = .78 (Na tabela não temos linha 78, então
iremos para a mais próxima que é a linha 60)

Tabela de valores críticos da distribuição t de Student.


Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

133
O valor de “t” tabelado é então 2,000 – esse valor determinará na regra
de decisão os limites da região crítica.

Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-2,000 +2,000
8,77

Para o nosso exemplo o valor da estatística do teste foi: t= 8,77

Este valor (t=8,77) está localizado, na nossa regra de decisão, FORA da


região de aceitação, ou ainda, ele localiza-se na REGIÃO CRÍTICA – então
nossa decisão será REJEITAR H0.

H o : 1   2

H1 : 1   2

Ao rejeitar a hipótese nula H0 estaremos concordando com a afirmação


feita em H1:

H1 : µ1 ≠ µ2

No contexto do problema, estaremos então concluindo que os grupos de


celulares (fabricante e concorrente) têm um tempo médio de duração da bateria
DIFERENTE um do outro, ou seja, a diferença encontrada em relação a esse
tempo médio de duração na amostra investigada FOI SIGNIFICATIVA. Como
esta diferença foi significativa, poderemos observar na amostra que o tempo

134
médio de duração do fabricante (65 horas) é SUPERIOR ao tempo médio de
duração do concorrente (60 horas).

Passo 5 – Conclusão

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que o tempo médio de duração da bateria é
significativamente DIFERENTE entre os dois grupos de estudo (fabricante e
concorrente). Observa-se ao analisar os resultados da amostra que este tempo
médio é significativamente SUPERIOR para o fabricante.”

Exemplo 2

Os fabricantes de refrigerantes costumam testar a perda do sabor doce


durante a armazenagem. Degustadores treinados classificam a qualidade do
sabor através de uma nota de 0 a 10. Existe uma suspeita de que refrigerantes
sabores cola perderiam mais o saber doce do que os outros. Para testar esta
hipótese uma amostra de refrigerantes sabor cola e laranja foram armazenados
por um período de tempo e posteriormente receberam notas de qualidade de
sabor. Os dados obtidos foram:

Tabela 1. Estatísticas Descritivas - Comparação da nota de qualidade do sabor


Sabor n Nota Média Desvio-padrão
Cola 15 9,3 0,5
Laranja 18 9,8 0,2

Conclua sobre o caso ao nível de significância 5%.

135
Passo 1 – Dados do Problema

Variável (x)= Nota de qualidade de sabor (pontos)


Grupo 1 – Sabor cola Grupo 2 – Sabor laranja

α = 0,0 (nível de significância do teste: p= %)

Passo 2 – Hipóteses de Pesquisa

H o : 1   2

H1 : 1   2

Passo 3 – Cálculo da Estatística do Teste

136
Passo 4 – Regra de Decisão

Gl: (n1+n2 – 2) = (15+18 - 2) = 31 (Na tabela não temos linha 31, então
iremos para a mais próxima que é a linha 30)

Tabela de valores críticos da distribuição t de Student.


Gl (n-1) IC 95% IC 98% IC 99%
0,050 0,020 0,010
25 2,060 2,485 2,787
26 2,056 2,479 2,779
27 2,052 2,473 2,771
28 2,048 2,467 2,763
29 2,045 2,462 2,756
30 2,042 2,457 2,750
39 2,023 2,426 2,708
40 2,021 2,423 2,704
49 2,010 2,405 2,680
50 2,009 2,403 2,678
59 2,001 2,391 2,662
60 2,000 2,390 2,660
99 1,984 2,365 2,626
100 1,984 2,364 2,626
120 1,980 2,358 2,617
200 1,972 2,345 2,601
infinito 1,960 2,326 2,576

O valor de “t” tabelado é então ,042 – esse valor determinará na regra


de decisão os limites da região crítica.

Regra de Decisão

Região de Região crítica


Região crítica Aceitação

0
-3,64 -2,042 +2,042

Para o nosso exemplo o valor da estatística do teste foi: t= -3,64

137
Este valor (t=-3,64) está localizado, na nossa regra de decisão, FORA
da região de aceitação, ou ainda, ele localiza-se na REGIÃO CRÍTICA – então
nossa decisão será REJEITAR H0.

H o : 1   2

H1 : 1   2

Ao rejeitar a hipótese nula H0 estaremos concordando com a afirmação


feita em H1:

H1: µ1 ≠ µ2

No contexto do problema, estaremos então concluindo que os grupos de


refrigerante (cola e laranja) têm uma nota média de sabor DIFERENTE um do
outro, ou seja, a diferença encontrada em relação a essa nota média de sabor
na amostra investigada FOI SIGNIFICATIVA. Como esta diferença foi
significativa, poderemos observar na amostra que a nota média de sabor do
refrigerante Cola (9,3 pontos) é INFERIOR à nota de sabor do refrigerante
Laranja (9,8 pontos).

Passo 5 – Conclusão

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que a nota média de sabor é significativamente
DIFERENTE entre os dois grupos de refrigerantes (cola e laranja). Observa-se
ao analisar os resultados da amostra que esta nota média é significativamente
INFERIOR para o refrigerante Cola.”

138
7.3. TESTE DE HIPÓTESES PARA UMA PROPORÇÃO

Neste teste desejamos analisar a hipótese feita a respeito de uma


proporção (0) através dos resultados provenientes de uma amostra (n) que
produz uma estimativa desta proporção (p).

Hipóteses

H0 :  = 0 (proporção de referência)
H1 :   0 (proporção de referência)

Estatística do teste:

A estatística do teste, em testes de hipótese para uma proporção, é


dada por:
p 0
z calc 
 0 (1   0 )
n

Regra de decisão

Novamente nossa regra de decisão terá a mesma estrutura, a diferença


aqui é a distribuição a ser utilizada. Quando realizamos testes com proporções
existe uma exigência de grandes amostras, por isso a distribuição utilizada é a
Normal e não a t-student. Os valores que utilizaremos irão considerar o nível de
significância do teste, para o nível de significância de 5% - é o valor máximo
assumido para este tipo de análise o valor de z tabulado será sempre de
1,96.

Região crítica Região crítica


Região de
Aceitação

0
-1,96 +1,96
139
Exemplo 1

O fabricante de leitores de códigos de barra afirma nas especificações de seu


produto que a leitura dos códigos apresenta uma confiabilidade de 98%. Em
um estudo com leitores de códigos de barra deste fabricante em um grande
supermercado, 1234 itens foram verificados, constando-se que 1214 deles não
apresentaram erros de leitura. Teste ao nível de significância de 5% a
afirmação do fabricante e conclua sobre o caso.

Passo 1 – Dados do Problema

Proporção de itens que não apresentaram erros de leitura no código de barras


n = 1234 itens

α = 0,0 (nível de significância do teste: p= %)

Passo 2 – Hipóteses de Pesquisa

H0 :  = 0,98 (98%)
H1 :   0,98 (98%)

Passo 3 – Cálculo da Estatística do Teste

p 0
z calc 
 0 (1   0 )
n

140
Passo 4 – Regra de Decisão

Região crítica Região crítica


Região de
Aceitação

0
-1,96 +1,96
+0,95

Para o nosso exemplo o valor da estatística do teste foi: z= 0,95

Este valor (z=0,95) está localizado, na nossa regra de decisão, DENTRO


da região de aceitação– então nossa decisão será ACEITAR H0.

Ao aceitar a hipótese nula H0 estaremos concordando com a afirmação:

H0 :  = 0,98 (98%)

No contexto do problema, estaremos então concluindo que a proporção


de itens que tiveram uma correta leitura do código de barras é de 98%, estando
corretas as especificações do produto.

Passo 5 – Conclusão

“Verifica-se através do teste estatístico realizado, ao nível de


significância de 5%, que a proporção de leituras corretas dos códigos de
barras é 98% conforme especificações deste produto”

141
Recapitulando

Os Testes de hipóteses fornecem ao pesquisador uma ferramenta útil


na comprovação ou não de hipóteses feitas sobre um parâmetro (média ou
proporção). Trata-se de uma comprovação científica da existência de
diferenças significativas a partir da análise de resultados provenientes de
amostras com parâmetros populacionais.

Atividades

Questão 1. A industrial ABC S.A. fabricante de determinado equipamento


eletrônico, procedeu a substituição de certo componente importado pelo similar
nacional. Um grande comprador da referida indústria supõe que tal substituição
tenha diminuído a duração do produto que antes era anunciada como sendo,
em média, de 210 horas. Para julgar a aceitabilidade de sua suposição, o
comprador testou uma amostra de 100 unidades, verificando um tempo médio
de duração de 197 horas com um desvio-padrão de 16 horas. Fixado o nível de
significância de 5% conclua sobre o caso.

Questão 2. A resistência à tração do aço inoxidável produzido em certa usina


permanecia estável, com média de 72,0 kg / mm2 . Recentemente, a máquina foi
ajustada. A fim de determinar o efeito do ajuste, 40 amostras foram testadas. A
resistência média obtida foi de 76,5 kg / mm2 com um desvio-padrão de 17,0

kg / mm2 . Analise os dados e conclua a um nível de significância de 5%.

142
Questão 3. Dois fabricantes de automóveis possuíam o intuito de verificar qual
dos dois veículos seria o mais econômico. Após analisar uma amostra de 22
automóveis das duas marcas, obteve-se o resultado apresentado a seguir.
Seria possível afirmar que o carro Andaluz é menos econômico, isto é, que
apresenta uma média populacional inferior que a do Reluzente? Assuma nível
de significância de 5%.

Automóvel n Média de consumo Desvio-padrão


Andaluz 12 unidades 14 km/l 2 km/l
Reluzente 10 unidades 15 km/l 4 km/l

Questão 4. Uma fábrica de embalagens para produtos químicos precisa


escolher entre suas técnicas de combate à corrosão de suas latas especiais.
Uma amostra de 15 latas tratadas com a Técnica A resultou em corrosão
média de 48 com desvio padrão 10. Outra amostra de 12 latas submetidas à
Técnica B produziu corrosão média 52 com desvio-padrão 15. Há diferença
significativa entre as duas técnicas ao nível de significância de 5%?

Questão 5. Um comprador, ao receber um grande lote de peças de um


fornecedor, decidiu inspecionar 200 delas. Decidiu também que aceitaria o lote
se ficasse convencido, ao nível de significância 5%, que sua proporção de
peças defeituosas não superasse 4%. O comprador encontra 11 peças
defeituosas na amostra. Qual é sua decisão (aceita ou rejeita o lote)?

143
Gabarito

Questão 1. t= -8,125
Conclusão: Rejeita-se H0, logo a substituição do componente importado pelo
similar nacional diminuiu significativamente a duração do produto.

Questão 2. t= -1,67
Conclusão: Rejeita-se H0, logo após o reajuste da máquina a resistência à
tração teve uma redução significativa.

Questão 3. t= -0,77
Conclusão: Aceita-se H0, logo não existe diferença significativa na média de
consumo entre os dois tipos de automóveis, sendo assim, não podemos afirmar
que o carro Andaluz é menos econômico.

Questão 4. t= -0,91
Conclusão: Aceita-se H0, logo não existe diferença significativa entre as duas
técnicas.

Questão 5. z= 1,08
Conclusão: Aceita-se H0, logo a proporção peças defeituosas é igual a 4%,
sendo assim o lote pode ser aceito.

144
8. ANÁLISE DE VARIÂNCIA – ANOVA

Simone Echeveste

Neste capítulo iremos abordar uma técnica estatística muito importante


em diversos estudos na área da Engenharia. A Análise de Variância é
amplamente utilizada em estudos de comparação de diversos grupos buscando
identificar as fontes de variação em uma variável resposta (também chamada
de variável dependente).

Após o estudo deste capítulo caberá ao aluno a compreensão da


aplicação desta ferramenta em estudos na área da Engenharia, apropriando-se
dos termos e conceitos teórico pertinentes à análise.

A ANOVA é também uma ferramenta de teste de hipóteses usada para


comparar médias de três ou mais grupos (tratamentos) independentes. Existem
muitas variações da ANOVA devido aos diferentes tipos de experimentos que
podem ser realizados. Neste capítulo será estudada apenas a análise de
variância com um fator, onde existe o interesse em testar se há diferenças
significativas entre as médias dos grupos (tratamentos).

Hipóteses

H0 : μ1 = μ = μ · · · (não há diferença significativa entre as médias)


H1: pelo menos uma das médias é diferente

Quando rejeitamos H0 podemos concluir que, no mínimo, uma das


médias dos grupos é diferente das demais.

145
Condições necessárias

a) Cada amostra deve ser selecionada de uma população normal, ou


aproximadamente normal;
b) As amostras de cada grupo a ser comparado devem ser independentes
entre si;
c) Cada população deve ter a mesma variância.

Elementos para o cálculo da estatística do teste

A estatística do teste é determinada pela razão (divisão) entre duas


variâncias: a variância entre os grupos e a variância dentro dos grupos.

A variância entre os grupos mede as diferenças relacionadas ao


tratamento;
A variância dentro dos grupos mede as diferenças relacionadas dentro
da mesma amostra, ou seja, entre os dados (valores) de um mesmo
grupo.

Os dados originais para este tipo de análise devem conter as


informações de acordo com a tabela abaixo

Tabela da Análise de Variância – Dados de origem


Tratamento
1 2 3 ... k Total
Y11 Y21 Y31 Yk1
Y12 Y22 Y32 Yk2
Y13 Y23 Y33 Yk3
... ... ... ...
Y1r Y2r Y3r Ykr
Total T1 T2 T3 ... TK ΣT = Σy
Nº repetições r1 r2 r3 .... rk Σr = n
Média ...

146
Notações (símbolos) importantes:

k – grupos ou tratamentos
r – nº de repetições em cada grupo, ou seja, o tamanho da amostra para
cada grupo a ser comparado.
n – tamanho total da amostra ( )
y – valores da variável de cada unidade amostral

Para realizarmos a análise de variância é preciso obter as seguintes


quantidades:

I) Graus de Liberdade:

Grupo (tratamentos) = k - 1
Erro (resíduo) = n – k
Total= n -1

II) O valor de correção - C

 y  2

C
n

III) A soma de quadrados Total - SQT

IV) A soma de quadrados de tratamentos – SQTr

-C

147
V) A soma de quadrados de resíduo – SQR

VI) O quadrado médio de tratamentos – QMTr

VII) O quadrado médio de resíduo – QMR

VIII) O valor de F

Note que os quadrados médios são obtidos dividindo as somas de


quadrados pelos respectivos graus de liberdade estabelecidos no item I.

Apresentação dos resultados da ANOVA:

Os resultados obtidos do cálculo das quantidades acima devem ser


apresentados em uma tabela com a seguinte formatação:

Resultados da Análise de Variância - ANOVA


Causas de Variação GL SQ QM F
Grupos (Tratamentos) k-1 SQTr QMTr F
Resíduo n-k SQR QMR
Total n-1 SQT

148
Regra de decisão: a tabela F

Após o cálculo da estatística do teste F precisamos comparar o valor


calculado com o valor da tabela F – considerando um nível de significância de
5%.

Para isso precisamos de dois elementos:


1º) graus de liberdade do numerador – tratamento: k-1
2º) graus de liberdade do denominador – resíduo: n- k

ATENÇÃO!!!!!

Se FCALC > FTAB – Rejeita-se H0; logo existe diferença significativa


Se FCALC < FTAB – Aceita-se H0; logo NÃO existe diferença significativa

V1 - Graus de Liberdade do numerador


V2 - Graus de Liberdade do
denominador

149
Exemplo 1

Um estudo foi realizado com o objetivo de comparar o número de peças


defeituosas entre três máquinas no período de 5 dias:

Comparação do número de itens defeituosos


MÁQUINA
Dia A B C Total
Dia 1 2 8 2 12
Dia 2 2 5 3 10
Dia 3 0 4 1 5
Dia 4 1 5 3 9
Dia 5 2 7 2 11
Total T1 = 7 T2 =29 T3 =11 = 47

Nº repetições r1 = 5 r2 =5 r3 =5 n = 15

Média 1,4 5,8 2,2

Hipóteses a serem testadas:

H0 : μA = μB = μC (não há diferença significativa entre as médias)


H1: pelo menos uma das médias é diferente

k – 3 máquinas
r – 5 repetições para cada máquina
n – 15 unidades (tamanho total da amostra)
y – número de peças defeituosas

I) Graus de Liberdade

Grupo (tratamentos)  ( k – 1) = (3 – 1) = 2

Erro (resíduo)  n – k = 15 – 3 = 12

Total= n -1  15 – 1 = 14

150
II) O valor de correção - C

III) A soma de quadrados Total - SQT

Devemos nesse momento elevar cada uma das 15 observações ao


quadrado e somar estes resultados:

IV) A soma de quadrados de tratamentos – SQTr

-C

V) A soma de quadrados de resíduo – SQR

151
VI) O quadrado médio de tratamentos – QMTr

VII) O quadrado médio de resíduo – QMR

VIII) O valor de F

152
Resultados da Análise de Variância - ANOVA
Causas de Variação GL SQ QM F
Grupos (Tratamentos) 2 54,93 27,47 19,62
Resíduo 12 16,80 1,40
Total 14 71,73

Como usar a Tabela F (5% de significância)

1º) graus de liberdade do numerador – tratamento: k-1: 3 – 1 = 2


2º) graus de liberdade do denominador – resíduo: n- k: 15 – 3= 12

Regra de decisão:
FCALC = Valor da estatística F calculada
FTAB = Valor encontrado na tabela F

Se FCALC > FTAB – Rejeita-se H0; logo existe diferença significativa


Se FCALC < FTAB – Aceita-se H0; logo NÃO existe diferença significativa

Para nosso exemplo FCALC = 19,62 e FTAB = 3,89, então Se FCALC > FTAB
– Rejeita-se H0; logo existe diferença significativa entre as máquinas!

153
Conclusão:

Rejeita-se H0, logo existe diferença significativa para o número de peças


defeituosas produzidas entre as três máquinas investigadas.

8.1. TESTE DE COMPARAÇÕES MÚLTIPLAS DE TUKEY

Quando utilizamos a ferramenta Análise de Variância para a


comparação entre as médias, como resultado identificamos que existe
diferença significativa em pelo menos um dos grupos comparados, porém não
sabemos quais os grupos diferem entre si.

Por esse motivo, quando o resultado da Análise de Variância é


significativo, ou seja, existe diferença significativa, devemos complementá-lo
com um teste de comparações múltiplas para que nos indique os grupos que
diferem entre si.

Existem vários testes de comparações múltiplas, porém aqui em nossa


disciplina utilizaremos o Teste de Tukey. Este teste comparar as médias dos
grupos envolvidos par a par verificando se a diferença entre esses grupos é
significativa. Como procedimento de cálculo utiliza-se aqui a Diferença Mínima
significante (d.m.s)

Onde:
q = é o valor encontrado na tabela F (FTAB)
QMR = quadrado médio do resíduo
r = número de repetições realizadas em cada grupo (tamanho da amostra para
cada grupo)

154
ATENÇÃO!

Se o valor absoluto da diferença das médias entre os grupos for igual ou maior
que a d.m.s, então a diferença é significativa!!

No exemplo:
Máquina n Média Desvio-padrão
A 5 1,4 0,9
B 5 5,8 1,6
C 5 2,2 0,8

Comparações Múltiplas:

Comparação Diferença das Médias d.m.s


AXB 5, 8 – 1,4 = 4,4 4,4 > 2,058 – é significativo**
AXC 2,2 – 1,4 = 0,8 0,8 < 2,048 – não é significativo
BXC 5,8 – 2,2 = 3,6 3,6 > 2,058 – é significativo**

Verificamos através do Teste de Tukey que a máquina B apresenta


diferença significativa com a máquina A e com a máquina C. Já as máquinas A
e C não diferem entre si.

Conclusão Final

A máquina B apresenta um número de peças defeituosas produzidas


significativamente superior às máquinas A e C.

155
Recapitulando

A Análise de Variância é uma ferramenta estatística bastante utilizada na


Engenharia em experimentos onde se deseja comparar três ou mais médias
provenientes de três ou mais grupos independentes/distintos. Existem muitas
variações para este tipo de teste, porém em nossa disciplina abordamos
apenas a análise de variância com um fator, ou ainda, uma única variável a ser
comparada.

A estatística do teste é determinada pela razão (divisão) entre duas


variâncias: a variância entre os grupos (mede as diferenças relacionadas ao
tratamento/grupos investigados), e a variância dentro dos grupos (mede as
diferenças relacionadas dentro da mesma amostra, ou seja, entre os valores de
um mesmo grupo).
.
Atividades

Questão 1. Um experimento foi realizado para determinar o efeito da taxa de


escoamento de C2F 6 sobre a uniformidade do ataque químico em uma
pastilha de silicone usada na fabricação de um circuito integrado. Três taxas de
escoamento são usadas (Taxa 125, Taxa 150 e Taxa 200) no experimento e a
uniformidade (%) resultante, para 5 amostras, é mostrada a seguir.

Comparação da Uniformidade (%) entre as taxas de escoamento


Taxa de Escoamento de C2F6
Dia Taxa 125 Taxa 150 Taxa 200
Amostra 1 2,7 2,5 4,6
Amostra 2 4,6 3,0 4,8
Amostra 3 2,6 3,0 5,5
Amostra 4 3,0 3,3 6,5
Amostra 5 3,8 3,5 5,3

Faça uma análise de variância para comparar a uniformidade (%) entre as três
taxas de escoamento. Use nível de significância de 5%

156
Questão 2. Um experimento foi realizado para determinar se três específicas
temperaturas de queima afetam a densidade de certo tipo de tijolo. O
experimento levou aos seguintes dados:

Comparação da Uniformidade (%) entre as taxas de escoamento


Temperatura
Dia 100°C 125°C 150°C
Amostra 1 21,8 21,7 22,0
Amostra 2 21,9 21,4 24,5
Amostra 3 21,7 21,5 23,0
Amostra 4 21,6 21,4 21,4

Faça uma análise de variância para comparar a uniformidade (%) entre as três
taxas de escoamento. Use nível de significância de 5%

Questão 3. Em um experimento para avaliar o percentual de calcário de três


tipos de cimento apresentou os seguintes resultados em 5 medições
realizadas:

Comparação da Quantidade de Calcário (%)


Cimento
Dia Cimento 1 Cimento 2 Cimento 3
Medição 1 4,80 4,30 4,10
Medição 2 4,50 4,20 4,60
Medição 3 4,20 4,80 4,80
Medição 4 4,10 4,50 5,00
Medição 5 4,30 4,20 4,90

Complete a tabela: Resultados da Análise de Variância – ANOVA abaixo e conclua


sobre os resultados
Causas de Variação GL SQ QM F
Grupos (Tratamentos) 0,281
Resíduo 1,076
Total 1,357

157
Gabarito

Questão 1.
Resultados da Análise de Variância - ANOVA
Causas de Variação GL SQ QM F
Grupos (Tratamentos) 2 15,46 7,73 16,40
Resíduo 12 5,66 0,47
Total 14 21,12

Conclusão Final: Rejeita-se H0, logo existe diferença significativa para a


Uniformidade entre as taxas de escoamento. Observa-se que a taxa de
escoamento 200 apresenta média de uniformidade significativamente superior
às outras taxas investigadas.

Questão 2.
Resultados da Análise de Variância - ANOVA
Causas de Variação GL SQ QM F
Grupos (Tratamentos) 2 3,35 1,68 2,69
Resíduo 9 5,62 0,62
Total 11 8,97

Conclusão Final: Aceita-se H0 , logo não há diferença significativa para a


densidade dos tijolos entre as temperaturas.

Questão 3.

Resultados da Análise de Variância - ANOVA


Causas de Variação GL SQ QM F
Grupos (Tratamentos) 2 0,281 0,1405 1,57
Resíduo 12 1,076 0,0897
Total 14 1,357

Conclusão Final: Aceita-se H0 , logo não há diferença significativa para a


densidade dos tijolos entre as temperaturas.

158
9. ANÁLISE DE CORRELAÇÃO

Simone Echeveste

Neste capítulo será abordada uma ferramenta estatística com grande


aplicabilidade em estudos da área de Engenharia dos quais é necessário
investigar o grau de relacionamento entre duas variáveis quantitativas. Será
apresentado o cálculo do Coeficiente de Correlação de Pearson e a sua
interpretação no contexto do problema.

Espera-se que o aluno, após o término de estudo deste capítulo possa


identificar em quais situações aplica-se esta ferramenta, bem como realize os
cálculos necessários para a mensuração da correlação entre duas variáveis
interpretando corretamente os resultados obtidos.

Muitas vezes, na prática, necessitamos estudar o relacionamento de


duas variáveis, coletadas como pares de valores, para resolver questões, como
por exemplo:

- Quanto maior for a absorção de água, maior será a resistência


mecânica?
- Existe relação entre textura e aparência?
- A temperatura usada num processo de desodorização de um produto
está relacionada com a cor do produto final?

A existência de relação entre as variáveis e grau de relação é o que


caracteriza o objeto da Análise de Correlação. Esta ferramenta estatística
indica a existência ou não de relacionamento entre duas variáveis e se este
relacionamento é forte ou fraco.

159
Os dados para a análise de correlação são provenientes de observações
de variáveis aos pares, isto significa que cada observação da amostra é
composta por dois valores (x e y), e com estes valores pode construir o
digrama de dispersão que é uma forma de verificar o tipo de correlação
existente entre duas variáveis.

Diagrama de Dispersão

Um dos métodos mais usados para a investigação de pares de dados é


a utilização de diagramas de dispersão. Geometricamente, um diagrama de
dispersão é considerado uma coleção de pontos num plano cujas duas
coordenadas cartesianas são os valores de cada membro do par de dados. É
um gráfico no qual cada ponto representa um par de valores observados, onde
podemos visualizar a relação entre as variáveis, bem como através da
disposição dos pontos podemos observar a existência ou não de um possível
relacionamento entre as variáveis.

Gráfico 1. Diagrama de Dispersão para as variáveis: Velocidade X Impurezas


em um processo de produção de tintas

20

18

16

14
Impurezas

12

10

4
15 20 25 30 35 40 45
Velocidade (RPM)

160
Tipos de Correlações

Correlação Positiva ou Direta

Ocorre quando as duas variáveis crescem no mesmo sentido, estão


diretamente correlacionadas. À medida que a variável X aumenta, Y aumenta
também (ou vice-versa).

Exemplo: Vendas X Gastos em propaganda

330

280
Vendas (mil reais)

230

180

130

80
1 1,5 2 2,5 3 3,5
Gastos em propaganda (m il reais)

Correlação Negativa ou Inversa

Ocorre quando as duas variáveis crescem em sentido opostos, estão


inversamente correlacionadas. À medida que uma variável aumenta, a outra
diminui.

Exemplo: Número de faltas X Desempenho do aluno

10
Desempenho do aluno

8
6
4
2
0
0 2 4 6 8 10 12 14 16
Número de faltas

161
Ausência de Correlação

Ocorre quando as duas variáveis não estão correlacionadas.

Exemplo: Altura X Quociente de Inteligência

200
190
180
170
Altura

160
150
140
130
120
110
85 95 105 115 125
Quociente de Inteligência

Coeficiente de Correlação de Pearson (r )

O Coeficiente de correlação é uma medida do grau e da direção de uma


relação linear entre duas variáveis. O símbolo  representa o coeficiente de
correlação populacional e o símbolo r representa o coeficiente de correlação
amostral.

Condições Importantes:

 O relacionamento entre as duas variáveis deve ser linear;


 As variáveis envolvidas devem ser aleatórias e medidas no mínimo em
escala intervalar.
 As duas variáveis investigadas (x e y) devem ter uma distribuição
normal, onde para cada X dado, a variável Y é normalmente distribuída.

162
Sua fórmula é:

n. x. y  ( x).( y)
r
[n. x 2  ( x) 2 ]  [n. y 2  ( y ) 2 ]

Como Calcular:
1º) Obtenha a soma dos valores de x : x
2º) Obtenha a soma dos valores de y: y
3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a sua soma: x.y
4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: x2
5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: y2
6º) Use essas cinco somas para calcular o coeficiente de correlação.

Interpretação do Coeficiente de Correlação de Pearson (r )

O Coeficiente de Correlação de Pearson foi desenvolvido de forma que


seu resultado final será sempre um valor entre -1 e +1, ou seja: -1  r  1. A
partir dos valores de r, podemos verificar o tipo da correlação existente entre as
variáveis estudadas:

-1 0
+1
Correlação Inversa
Correlação Direta
Ausência
de
Correlação
100
80 150
60
40 150 100
20
100 50
0
0 50 100 150 50 0
0 50 100 150
0
0 50 100 150

163
 Se r > 0 indica uma correlação positiva ou direta entre as variáveis, um
aumento na variável X provocará um aumento na variável Y.

 Se r < 0 indica uma correlação negativa ou inversa entre as variáveis,


um aumento na variável X provocará uma redução na variável Y.

 Se r = 0 indica a inexistência de qualquer relação ou tendência linear


entre as variáveis X e Y.

Exemplo 1

Uma amostra de 6 residências selecionadas aleatoriamente foi


observada quanto à idade do imóvel, em anos, e quanto ao preço de venda,
em unidades monetárias. Os dados observados foram:

Residência Idade do Imóvel(x) Preço de venda (y)


1 1 100
2 2 80
3 3 90
4 4 15
5 5 50
6 6 20

Para este exemplo temos as seguintes informações:

n = 6 residências
x = Idade do Imóvel
y = Preço de venda dos imóveis

Para calcular o Coeficiente de Correlação de Pearson precisaremos dos


seguintes somatórios:

1º) Obtenha a soma dos valores de x : x


2º) Obtenha a soma dos valores de y: y

164
3º) Multiplique cada valor de x por seu valor y correspondente e obtenha a sua
soma: x.y
4º) Eleve ao quadrado cada valor de x e obtenha a sua soma: x2
5º) Eleve ao quadrado cada valor de y e obtenha a sua soma: y2

Tabela de cálculos:

Residência Idade (x) Preço de venda (y) x.y x2 y2


1 1 100 100 1 10000
2 2 80 160 4 6400
3 3 90 270 9 8100
4 4 15 60 16 225
5 5 50 250 25 2500
6 6 20 120 36 400
Totais 21 355 960 91 27.625

Cálculo do Coeficiente de correlação de Pearson

n. x. y  ( x).( y)
r
[n. x 2  ( x) 2 ]  [n. y 2  ( y ) 2 ]

6  960 - (21)x(355)
r 
[6 x 91 - (21)2 ] x [6 x 27.625 - (355)2 ]

5.760 - 7.455  1.695  1.695


r    0,8299
[546 - 441]  [165.750 - 126.025] 105  39.725 2.042,33

r  0,8299

Interpretação:
Como r apresenta um valor negativo, indica correlação negativa/inversa entre a
idade do imóvel e o seu preço de venda, ou seja, quanto maior a idade do
imóvel (mais antigo for) menor tende a ser o preço de venda.

165
Interpretação da intensidade da correlação

Podemos além de identificar a existência de correlação e o seu tipo


(direta, inversa) analisar a sua intensidade da seguinte forma: (Callegari-
Jacques, 2003)

 Se 0,00 < r < ±0,30 – existe correlação fraca


 Se ±0, 0 ≤ r < ±0,60 – existe correlação moderada
 Se ±0,60 ≤ r < ±0,90 – existe correlação forte
 Se ±0,90 ≤ r < ±1,00 – existe correlação muito forte

Considere o símbolo “±” relacionado ao sinal da correlação – se negativo


(-) inversa e se positivo direta (+).

Exemplo 2

Um estudo foi realizado com o objetivo de investigar a existência de


relação entre a velocidade de um misturador (RPM) e a taxa de impurezas
obtidas em um processo de fabricação de tintas acrílicas. Os dados
observados em uma amostra de 11 ensaios foram:

Ensaio Velocidade (RPM) Impurezas


1 21 9,0
2 23 9,5
3 25 11,8
4 27 10,4
5 29 13,5
6 31 14,8
7 33 13,8
8 35 14,7
9 37 16,5
10 39 16,8
11 41 18,9

166
Para este exemplo temos as seguintes informações:

n = 11 ensaios
x = Velocidade
y = Taxa de Impureza

Tabela de cálculos:

Ensaio Velocidade (x) Impurezas (y) x.y x2 y2


1 21 9,0 189 441 81,0
2 23 9,5 218,5 529 90,3
3 25 11,8 295 625 139,2
4 27 10,4 280,8 729 108,2
5 29 13,5 391,5 841 182,3
6 31 14,8 458,8 961 219,0
7 33 13,8 455,4 1089 190,4
8 35 14,7 514,5 1225 216,1
9 37 16,5 610,5 1369 272,3
10 39 16,8 655,2 1521 282,2
11 41 18,9 774,9 1681 357,2
Totais 341 149,7 4844,1 11011 2138,2

Cálculo do Coeficiente de correlação de Pearson

n. x. y  ( x).( y)
r
[n. x  ( x) 2 ]  [n. y 2  ( y ) 2 ]
2

11  4844,1 - (341) .(149,7)


r 
[11 x 11011 - (341) 2 ] x [11 x 2138,2 - (149,7) 2 ]

53.285,1 - 51.047,7 2.237,4 2.237,4


r    0,9652
[121.121 - 116.281]  [23.520,2 - 22.410,1] 4.840  1.110,1 2.317,95

r  0,9652

167
Interpretação:
Como r apresenta um valor positivo, indica correlação positiva/direta entre a
velocidade e a quantidade de impurezas, ou seja, quanto maior a velocidade
utilizada maior tende a ser a taxa de impureza encontrada. Podemos ainda
destacar se esta correlação é muito forte.

Teste de hipóteses para a significância do coeficiente de correlação linear

Ao estabelecer a correlação entre duas variáveis através de uma


amostra, muitas vezes devemos também verificar se a mesma é significativa
para toda a população de interesse. Para isso é interessante que façamos um
teste de hipóteses com o objetivo de comprovar que a correlação encontrada é
significativa, ou ainda, que o coeficiente de correlação encontrado é
significativamente diferente de zero.

De modo geral, a hipótese nula de interesse é que o coeficiente de


correlação populacional () seja igual a zero, pois se essa hipótese for rejeitada
ao nível de significância “p” estipulado, podemos concluir que efetivamente
existe uma relação entre as variáveis estudadas.

Hipóteses:

H0:  = 0 (não existe correlação significativa entre as variáveis)


H1:  ≠ 0 (existe correlação significativa entre as variáveis)

Estatística do Teste:

r
tt 
1 r 2
n2

168
Regra de Decisão:

Região crítica
Região de Região crítica
Aceitação

(-) Valor tabelado (+) Valor tabelado

Utilizaremos a distribuição de student, com gl = n – 2 (tabela t-student),


para identificar o valor tabelado na regra de decisão.

Para o exemplo 2, do processo de produção de tintas acrílicas teremos o


seguinte teste para o coeficiente de correlação de Pearson:

Dados do Problema:
n = 11 ensaios
x = Velocidade
y = Taxa de Impureza
r  0,9652

Hipóteses:
H0:  = 0 (não existe correlação significativa entre as variáveis)
H1:  ≠ 0 (existe correlação significativa entre as variáveis)

Estatística do Teste:

r 0,9652 0,9652 0,9652


tt      11,07
1 r 2
1  0,9652 2
0,0684 0,0872
n2 11  2 9

169
Regra de Decisão:

Utilizaremos a distribuição de student, com gl = n – 2 (tabela t-student),


para identificar o valor tabelado na regra de decisão.

Gl = n – 2 = 11 – 2 = 9

Região crítica
Região de Região crítica
Aceitação

-2,262 +2,262
11,07
tt  11,07

Rejeita-se H0, logo a correlação entre as variáveis investigadas é significativa!

170
Coeficiente de determinação linear – r2

O Coeficiente de determinação é outro coeficiente que tem por objetivo


mensurar a proporção de variações de Y que são explicadas direta ou
indiretamente pelas correspondentes variações de X. É expresso em
porcentagem e é obtido elevando o valor do Coeficiente de Correlação de
Pearson ao quadrado.

Notação: r² (amostra) ou ² (população).

r² = ( r )²

Para os dados do exemplo da tinta acrílica:

n = 11 ensaios
x = Velocidade
y = Taxa de Impureza
r  0,9652

r2 = (0,9652)2 = 0,9316 x 100 = 93,16%

Interpretação:

93,16% das variações nas taxas de impureza encontradas na produção das


tintas acrílicas são explicadas pelas variações na velocidade do processo.

171
Recapitulando

Na Análise de Correlação estamos interessados em mensurar o grau de


associação entre duas variáveis através do cálculo do Coeficiente de
Correlação de Pearson. Quando duas variáveis estão correlacionadas essa
relação pode ser direta (a medida que uma variável aumenta a outra aumenta
também ou vice-versa) ou inversa (a medida que uma variável aumenta a outra
diminui).
A partir do cálculo do Coeficiente de Correlação de Pearson podemos
também determinar o Coeficiente de Determinação r2 que mensura a proporção
de variações de Y que são explicadas direta ou indiretamente pelas
correspondentes variações de X.

.
Atividades

Questão 1. A tabela a seguir apresenta o desempenho de uma amostra de


carros (milhas percorridas/galão de gasolina) e a capacidade de seu
carburador
Automóvel Carburador (cilindros) (x) Milhas/galão (y)
A 4 18,9
B 2 20,0
C 2 18,3
D 1 20,1
E 4 11,2
F 2 22,1
G 2 34,7
H 2 30,4
I 4 16,5
J 1 36,5

Calcule e interprete o Coeficiente de Correlação de Pearson para estes dados.

172
Questão 2. Há suspeitas de que a qualidade (medida em uma escala de 0 a 50
pontos – maior pontuação representa melhor qualidade) do remédio depende
do tempo de maturação despendido em sua produção. Para verificar isso, um
laboratório farmacêutico coletou os seguintes dados:

Amostra Tempo de maturação (x)- Qualidade (Y) escala de 0 a 50


horas pontos
1 1 23
2 2 31
3 3 40
4 4 46
5 5 52
6 6 63

Foi calculado o coeficiente de correlação linear de Pearson e seu


resultado foi 0,996 (r=0,996). Ao fazer o teste de significância para este
coeficiente o valor de t foi igual a 22,3 (t=22,3). Sobre esses resultados você
pode concluir que:

a. ( ) Existe uma correlação direta significativa entre o tempo de maturação e a


qualidade, ou seja, quanto maior o tempo de maturação pior tende a
qualidade.

b. ( ) Pode-se concluir que não existe diferença significativa entre o tempo de


maturação e a qualidade do remédio ou seja, a qualidade não é superior ao
tempo de maturação.

c. ( ) Existe uma correlação inversa significativa entre o tempo de maturação e


a qualidade, ou seja, quanto maior o tempo de maturação pior tende a
qualidade.

d. ( ) Existe uma correlação direta significativa entre o tempo de maturação e a


qualidade, ou seja, quanto maior o tempo de maturação melhor tende a
qualidade.

e. ( ) Pode-se concluir que não existe correlação significativa entre o tempo de


maturação e a qualidade do remédio ou seja, estas variáveis não estão
correlacionadas.

173
Questão 3. Para estudar a poluição de um rio, um engenheiro ambiental mediu
a concentração de um determinado composto orgânico em % (Y) e a
precipitação pluviométrica na semana anterior (X):

Concentração (X) Precipitação pluviométrica (Y)


0,91 0,1
1,33 1,1
4,19 3,4
2,68 2,1
1,86 2,6
1,17 1,0

Considere:

a) Calcule e interprete o coeficiente de Correlação de Pearson para estes


dados.
b) Calcule e interprete o coeficiente de Determinação para estes dados.

Questão 4. Um engenheiro químico está estudando o efeito da temperatura de


operação do processo sobre o resultado da produção. Os dados obtidos foram:

Temperatura °C (x) Resultado % (y)


100 45
110 51
120 54
130 61
140 66
150 70
160 74
170 78
180 85
190 89

Considere:

Calcule e interprete o coeficiente de Correlação de Pearson para estes dados.

174
Gabarito

Questão 1. r = -0,630
“Existe uma correlação forte inversa entre as milhas percorridas/galão de
gasolina e a capacidade do carburador (cilindros), ou seja, quanto maior a
quantidade de cilindros menor tende a ser a quantidade de milhas
percorridas/galão de gasolina”

Questão 2.
d. ( x ) Existe uma correlação direta significativa entre o tempo de maturação e a
qualidade, ou seja, quanto maior o tempo de maturação melhor tende a qualidade.

Questão 3.
a) r = 0,887
“Existe uma correlação forte direta entre a concentração de um determinado
composto orgânico em % e a precipitação pluviométrica na semana anterior,
ou seja, quanto maior a concentração do composto orgânico, maior tende a ser
a precipitação pluviométrica”

b) r2 = 78,68%
“ 8,68% das variações da concentração do composto orgânico são explicadas
pelas variações na precipitação pluviométrica”

Questão 4. r = 0,998
“Existe uma correlação muito forte direta inversa entre a temperatura de
operação do processo e o resultado da produção, ou seja, quanto maior a
temperatura de operação, maior tende a ser o resultado da produção”

175
10. ANÁLISE DE REGRESSÃO LINEAR SIMPLES

Simone Echeveste

Neste capítulo será apresentada uma ferramenta de análise estatística


aplicada em estudos em que se deseja estabelecer um modelo matemático que
represente a relação entre duas variáveis X e Y. Este modelo é extremamente
útil ao pesquisador, pois permitirá ao mesmo a realização de previsões e
estimativas.

Ao final deste estudo o aluno deverá ser capaz de identificar as


situações em que a Análise de Regressão pode ser utilizada na resolução de
problemas na Engenharia, bem como interpretar corretamente os resultados
obtidos.

Uma das grandes necessidades de pesquisa na área da Engenharia é


estabelecer modelos que expliquem as estruturas de um fenômeno de
interesse. O modelo de regressão é um dos métodos estatísticos mais usados
para investigar a relação entre variáveis.

A relação linear entre duas variáveis X e Y pode ser investigada de duas


formas: através da Análise de Correlação onde quantificamos a intensidade
dessa relação e a outra através da Análise de Regressão onde a forma dessa
relação é explicitada.

Usamos Análise de Regressão quando acreditamos que há relações


entre as variáveis e desejamos expressar matematicamente (alguns aspectos
de) tais relações. A Regressão Linear nos fornece equações do primeiro grau
para determinarmos estimativas dos valores médios de algumas variáveis em
função dos valores das outras.

176
Modelo de Regressão Linear

Na Análise de regressão as variáveis estudadas X e Y são


denominadas:

X, denominada de variável independente, e


Y, denominada de variável dependente.

Os Modelos de regressão simples são modelos matemáticos que


relacionam o comportamento de uma variável Y com uma variável X através de
uma função:

F(X) = Y = a + bX

Neste modelo a variável X é a variável independente da equação


enquanto Y = f(X) é a variável dependente das variações de X. Poderemos
utilizar seus resultados para os seguintes objetivos:

 Realizar previsões sobre o comportamento futuro de algum fenômeno


através de uma coleta de dados.
 Simular os efeitos sobre uma variável Y em decorrência de alterações
introduzidas nos valores de uma variável X.

Estimadores para o modelo de regressão linear

Os estimadores dos coeficientes angular () e linear () serão


designados respectivamente por b e a. Então a estimativa do modelo adotado,
será dada por:

Y = a + bX

177
Os valores de a e b serão determinados, através do Método dos
Mínimos Quadrados (MMQ), aplicado na amostra selecionada, utilizando-se
as seguintes fórmulas:

onde e são as médias dos valores de Y e X.

A inclinação (b) da regressão mede a direção e a magnitude da relação. Quando as duas


variáveis estão correlacionadas positivamente, a inclinação (valor de b) também será positiva,
enquanto quando as duas variáveis estão correlacionadas negativamente, a inclinação (valor
de b) será negativa.

A magnitude da inclinação da regressão pode ser lida como segue: para cada acréscimo
unitário na variável (X), a variável dependente aumentará/diminuirá b unidades de y .

178
Exemplo 1

Um engenheiro químico está estudando o efeito da temperatura de


operação do processo sobre o resultado da produção. Os dados obtidos foram:

Ensaio Temperatura °C (x) Resultado % (y)


1 100 45
2 110 51
3 120 54
4 130 61
5 140 66
6 150 70
7 160 74
8 170 78
9 180 85
10 190 89

Para este exemplo temos as seguintes informações:

n = 10 ensaios
x = Temperatura (°C)
y = Resultado da Produção (%)

Tabela de cálculos:
Ensaio Temperatura °C (x) Resultado % (y) x.y x2
1 100 45 4500 10000
2 110 51 5610 12100
3 120 54 6480 14400
4 130 61 7930 16900
5 140 66 9240 19600
6 150 70 10500 22500
7 160 74 11840 25600
8 170 78 13260 28900
9 180 85 15300 32400
10 190 89 16910 36100
Totais 1450 673 101570 218500

179
Cálculos para a construção da Equação da Reta

Cálculo das Médias

Cálculo do Coeficiente b

Cálculo do Coeficiente a

Equação da Reta: Equação da Reta para as variáveis:


x: temperatura e y: resultado

180
Após a determinação da Equação da Reta poderemos utilizá-la agora
com o objetivo de fazer previsões. Por exemplo, poderemos estimar qual será o
resultado esperado para uma temperatura de 200°C.

Neste caso, estamos determinando o valor de x= 200°C e desejamos


estimar qual será valor de y = resultado (%), para isso basta substituirmos os
dados na Equação da Reta obtida:

Para x = 200°C

Conclusão: Para uma temperatura de 200°C o resultado obtido estimado é de


93,87%.

Exemplo 2

A resistência do papel usado na manufatura de caixas de papelão (y)


está relacionada com a porcentagem de concentração de madeira de lei na
polpa original (x). Sob condições de controle uma fábrica-piloto manufatura 16
amostras, cada uma de um lote diferente de polpa e mede a resistência. Os
dados observados foram:

Amostra Concentração % (x) Resistência (mpa) (y)


1 1,0 101
2 1,5 117
3 1,5 107
4 1,5 117
5 2,0 132
6 2,0 147
7 2,2 147
8 2,4 134
9 2,8 145
10 3,0 134
Total 19,9 1282

181
Para este exemplo temos as seguintes informações:

n = 10 amostras
x = Concentração de madeira de lei (%)
y = Resistência do papel (mpa)

Tabela de cálculos:
Amostra Concentração % (x) Resistência (mpa) (y) x.y x2
1 1,0 101 101,0 1,0
2 1,5 117 175,5 2,3
3 1,5 107 160,5 2,3
4 1,5 117 175,5 2,3
5 2,0 132 264,0 4,0
6 2,0 147 294,0 4,0
7 2,2 147 323,4 4,8
8 2,4 134 321,6 5,8
9 2,8 145 406,0 7,8
10 3,0 134 402,0 9,0
Total 19,9 1281 2623,5 43,2

Cálculos para a construção da Equação da Reta

Cálculo das Médias

Cálculo do Coeficiente b

182
Cálculo do Coeficiente a

Equação da Reta: Equação da Reta para as variáveis:


x: Concentração de madeira de lei e y: Resistência

Após a determinação da Equação da Reta poderemos utilizá-la agora


com o objetivo de fazer previsões. Por exemplo, poderemos estimar qual será o
resultado esperado para a Resistência considerando uma Concentração de
madeira de lei de 2,5%.

Neste caso, estamos determinando o valor de x= 2,5% e desejamos


estimar qual será valor de y = Resistência (mpa), para isso basta substituirmos
os dados na Equação da Reta obtida:

Para x = 2,5

Conclusão: Para uma Concentração de 2,5% de madeira de lei a resistência


estimada é de 138,631 mpa.

183
Recapitulando

A Análise de Regressão linear simples estuda o relacionamento entre


uma variável dependente (y) e outra variável independente (x). Este
relacionamento é representado por um modelo matemático, através de uma
equação que associa a variável dependente com a variável independente.

Após a determinação da Reta de Regressão, ou ainda Equação de


Regressão poderemos utilizá-la com o objetivo de realizar projeções ou
simulações com as variáveis utilizadas no modelo.
.
Atividades sobre Análise de Regressão

Questão 1. Na fabricação de um antibiótico, a produção depende do tempo. Os


dados indicados na tabela mostram que um processo resultou na seguinte
produção (em Kg) de antibióticos por período de tempo (dias) indicado:

Tempo (X) em dias Produção (Y) em Kg


1 23
2 31
3 40
4 46
5 52
6 63

a) Estime a reta de regressão y = a + bx

Questão 2. Suponhamos que uma cadeia de supermercados tenha financiado


um estudo dos gastos com mercadoria para famílias de quatro pessoas.
Obteve-se a seguinte equação de regressão linear: y = −200 + 0,10 x, onde y
representa a despesa anual estimada com mercadorias e x a renda líquida
anual. Através da Equação da Reta estabelecida, estime a despesa de uma
família de quatro com renda anual de R$ 15.000.

184
Questão 3. Certa empresa, estudando a variação da demanda de seu produto
em relação à variação de preço de venda, obteve os dados que estão na tabela
abaixo:
Mês Preço (X) Demanda (Y)
1 35 350
2 40 325
3 50 290
4 55 270
5 60 250
6 65 240
7 70 235
8 80 220
9 95 215

a) Determine a equação da reta


b) Determine a demanda deste produto considerando um preço de 48
reais:

Questão 4. A tabela abaixo apresenta valores que mostram como o


comprimento de uma barra de aço varia conforme a temperatura:

Temperatura (oC) Comprimento (m)


10 1,5
15 2,6
20 3,0
25 4,2
30 5,1

a) A equação da reta ajustada.


b) O valor estimado do comprimento da barra para a temperatura de 22 oC.

185
Questão 5. A tabela a seguir relaciona os pesos (em centenas de Kg) e as
taxas de rendimento de combustível em rodovia (Km/ litro), numa amostra de 7
carros de passeio novos:
Peso Rendimento
12 16
13 14
14 14
14 13
16 11
18 12
19 9

Estabeleça a equação de regressão linear

Gabarito

Questão 1.
R: Y = 15,6 + 7,686 X

Questão 2.
R: R$ 1.300,00

Questão 3.
R: Y = 407,55 – 2,314 X
A demanda deste produto considerando um preço de 48 reais: 296,48
unidades.

Questão 4.
R: Y = -0,24 + 0,176 X
O valor estimado do comprimento da barra para a temperatura de 22 oC é de
3,63 metros
.
Questão 5.
R: Y = 24,839 - 0,801 X

186
Referências Bibliográficas

CALLEGARI-JACQUES, S.M. Bioestatística: Princípios e Aplicações. ArtMed,


Porto Alegre, 3a reimpressão, 2006.

CLARK, J. DOWNING, D. Estatística aplicada. São Paulo : Saraiva, 1998.

MOORE, D. A Estatística Básica e sua prática. Rio de Janeiro: Ed. LTC, 2000.

RAO, C.R. Statistics: A technology for the millennium Internal. J. Math. &
Statist. Sci, Vol. 8, No.1,Junho 1999.

187

Você também pode gostar