Escolar Documentos
Profissional Documentos
Cultura Documentos
1ª Edição
Os autores
A ciência que se preocupa com a coleta, organização, apresentação, análise e interpretação de dados.
Didaticamente podemos dividir a estatística em duas partes: a estatística descritiva e a inferência estatística.
A estatística descritiva se refere à maneira de apresentar um conjunto de dados em tabelas e gráficos, e ao
modo de resumir as informações contidas nestes dados a algumas medidas. Já a inferência estatística baseia-
se na teoria das probabilidades para estabelecer conclusões sobre todo um grupo (população), quando se
observou apenas uma parte (amostra) desta população.
Estatística é a ciência que estuda as técnicas necessárias para coletar, organizar, apresentar, analisar e
interpretar os dados, a fim de extrair informações a respeito de uma população.
População é o conjunto de todos os elementos (pessoas ou objetos) que interessam ao estudo de um
fenômeno coletivo segundo alguma característica.
Amostra é qualquer subconjunto não vazio de uma população.
Parâmetro é uma característica numérica estabelecida para toda uma população.
Estimativa é uma característica numérica estabelecida para uma amostra.
Exemplo: Fenômeno coletivo: eleição para governador do Estado de Ceará. População: conjunto de todos os
eleitores do estado. Parâmetro: proporção de votos de um candidato X. Amostra: grupo de 10 eleitores
selecionados em todo o estado. Estimativa proporção de votos do candidato X, obtida na amostra. Dentre os
modelos estatísticos podemos destacar os seguintes:
Censo é um levantamento estatístico (pesquisa) que abrange todos os elementos de uma população.
Principais propriedades do Censo:
Confiabilidade 100%;
Custo elevado;
Lento;
Nem sempre é viável.
Variável é uma característica dos elementos de uma população ou de uma amostra, que pode assumir
diferentes valores, sejam numéricos ou não, e que interessa ao estudo. Classificação das Variáveis:
Variável Qualitativa: tipo de variável que não pode ser medida numericamente. Exemplos: cor dos
cabelos, marca de refrigerantes, cor dos olhos, etc.
- Variável Qualitativa Ordinal: quando seus elementos têm relação de ordem. Exemplos: colocação –
primeiro lugar, segundo lugar, etc. conceito – ótimo, bom, regular, péssimo.
- Variável Qualitativa Nominal: quando seus elementos são identificados por um nome. Exemplos: cor
dos olhos, marcas de carro, etc.
Variável Quantitativa: tipo de variável que pode ser medida numericamente. Exemplos: peso, altura,
número de faltas, número de gols, etc.
- Variável Quantitativa Discreta: tipo de variável que só pode assumir valores pertencentes a um
conjunto enumerável. Normalmente seus valores estão associados a característica de contagem.
Exemplos: número de carros vendidos, número de filhos, etc.
- Variável Quantitativa Contínua: tipo de variável que pode assumir qualquer valor num intervalo de
valores. Normalmente seus valores estão associados a característica de medidas. Exemplos: altura das
pessoas, peso dos recém-nascidos, etc. Em resumo:
,
{
Observação: a variável idade, apesar de ser representada, geralmente, por números inteiros, é uma variável
contínua, pois está relacionada com o tempo, que é uma variável contínua.
Dado estatístico é toda informação devidamente coletada e registrada. Todo dado se refere a uma
variável.
Secundária ou Indireta – quando os dados são obtidos por consulta a documentos existentes, como
relatórios, anuários, teses. São dados que já passaram por um tratamento estatístico e por esse
motivo são chamados de dados secundários.
Exemplo: Dado: as receitas cresceram 5%; Informação: Resultado ruim, a meta era crescer 20%.
Importante: Dado ≠ Informação, dado é o registro da variável enquanto informação é o significado do dado.
Toda pesquisa tem por objetivo gerar conhecimento sobre algo. Com a pesquisa estatística acontece o mesmo,
porém com a peculiaridade do conhecimento pretendido ser obtido através da análise de dados. O processo
de organização da pesquisa estatística é chamado de Fases do Método Estatístico.
As fases principais são: Definição do problema, planejamento, coleta dos dados, apresentação dos dados,
análise e interpretação dos dados.
Coletados os dados, não é conveniente apresentá-los para análise sob a forma a que se chegou pela
simples apuração. Na maioria das vezes, o conjunto de valores é extenso e desorganizado, e seu exame requer
maior atenção. Uma fase importante da análise destes dados é condensação em formatos mais simples e
objetivos. Essa condensação pode ser realizada através do emprego de tabelas e gráficos. Para entender como
se constrói uma tabela ou gráfico faz-se necessário analisar as séries estatísticas.
Fenômeno: é o fato que foi investigado e cujos valores numéricos estão sendo apresentados na tabela
ou gráfico.
Local: É o espaço geográfico onde o fenômeno ocorreu.
Época: Tempo em que o fenômeno foi analisado.
- Exemplo: Casos registrados de intoxicação humana, segundo a causa determinante. Brasil, 1993.
(Causas determinantes: Acidente, suicídio, Ignorado e Outros).
- Exemplo: Faturamento líquido da Indústria Química Brasileira (em bilhões US$), por produtos químicos,
no ano de 2006.
- Exemplo: Faturamento líquido da Indústria Química Brasileira, em US$, por regiões do Brasil, no ano de
2006.
Neste modulo serão analisadas as principais estruturas para apresentação de dados estatísticos, as
tabelas e gráficos. Estas estruturas são amplamente utilizadas para apresentação de resultados de uma
pesquisa, trataremos aqui dos principais tipos, elementos e aplicações.
Tabela estatística:
É uma representação matricial, isto é, em linhas e colunas, das séries Estatísticas. A finalidade da tabela é
poder apresentar os dados de modo organizado, simples e de fácil percepção. Dessa forma, a tabela deve ser
construída de modo a fornecer o máximo de esclarecimento.
As Tabelas não possuem linhas verticais externas traçadas e as verticais internas são facultativas, enquanto os
quadros podem apresentar laterais fechadas.
Título
Zona Designativa ou cabeçalho
Fonte
Rodapé Notas
Chamadas
Sinais Convencionais
0; 0,0 ou 0,00: O dado é nulo ou muito pequeno para a unidade adotada. Resultado de
arredondamento;
__: O dado não existe;
... : O dado existe, porém sua apresentação não está disponível;
?: Quando ha dúvida sobre a veracidade do dado.
Tabelas Simples ou Unidimensional: Apresentam dados ou informações relativas a uma única Variável.
Tabela de Dupla Entrada, Cruzada (bidimensional) ou de Contingência: Apresentam dados ou
informações de mais de uma Variável.
Exemplo:
Faturamento líquido da Indústria Química Brasileira (em bilhões US$), por produtos químicos, no ano de
2006.
Produtos Químicos Faturamento (US$ bilhões)
Farmacêutico 9,2
Adubos e fertilizantes 5,3
Sabões e Detergentes 2,5
Tintas 1,9
1
Outros 2,0
Total 20,9
Fonte: ABIQUIM – Associação Brasileira de Indústria Química
1
Produtos químicos com pouca aceitação
Exemplo:
Estabelecimentos de saúde públicos e particulares, por espécie, Brasil, 1985.
População (milhões)
Estabelecimento
Públicos Particulares
Hospital 1.002 5.132
Pronto - socorro 150 156
Policlínicas* 1.531 6.136
Outros 14.393 472
Total 17.076 11.896
Fonte: IBGE (1988) (*) Incluem postos de saúde, centros de saúde e unidades mistas.
Banco de dados:
É um local onde ficam organizados conjuntos de dados de forma bem estruturada e lógica a respeito de algo.
O objetivo do banco de dados é apenas de repositório de dados permitindo acesso rápido, e não de apresentar
resultados de forma simplificada.
Exemplo:
na secretaria de uma faculdade tem-se uma determinada quantidade de alunos cadastrados, cada qual com
sua pasta de documentos e informações, imagine precisar de alguma informação a respeito de um destes
alunos, para evitar ter que ir até um arquivo e pegar a pasta para ter acesso a esta informação, existe um
programa interno para cadastro de todos os alunos e assim através do banco de dados onde se tem
cadastrados todos os alunos pode-se verificar qualquer informação cadastrada tudo organizado de tal forma
O gráfico constitui um recurso importante para apresentação de dados estatísticos, pois consegue resumir as
informações através de recursos visuais, sua aplicação é quase sempre preferível a tabela estatística. No entanto,
quando o agrupamento dos dados é complexo, melhor utilizar a tabela, pois um importante atributo de um bom
gráfico é ser simples, autoexplicativo. A percepção visual é muito eficiente, mas é preciso atenção em alguns
pontos, vejamos as situações indicadas abaixo:
Situação A Situação B
50 50
40 48
30 46
20 44
10 42
0 40
T1 T2 T1 T2
De acordo com os gráficos, os tratamentos T1 e T2 apresentam desempenhos bem distintos nas duas
situações. Na situação A os tratamentos apresentam desempenhos muito próximos, já no B os desempenho
de T1 é bem superior ao de T2 (mais que o dobro).
Sendo sim a resposta, então um dos gráficos está errado. É o que está de fato ocorrendo, os dois gráficos
correspondem a mesma situação, a diferença está no ponto de corte dos dados, no caso A o ponto de corte é
0 (zero) enquanto no B é 45,4. Este erro pode ser intencional ou não, o que importa é revela resultados bem
distorcidos, como a eficiência dos gráficos é visual, sua valia ficou comprometida. Por isso atenção para o
campo de variação dos dados.
Tipos de gráficos:
Exemplo:
Barra Vertical e horizontal: São utilizados para representar séries específicas ou mistas de variáveis
qualitativas.
Exemplo:
Faturamento líquido da Indústria Química Brasileira (bilhões US$), por produtos químicos, 2005
Produtos farmacêuticos
Higiene pessoal, perfumes e cosméticos
Produtos Químicos
Adubo e fertlizantes
Sabão e detergentes
Defensivos agrícolas
Tintas, esmaltes e vernizes
Outros
Fonte: Adaptado de ABIQUIM – Associação Brasileira da Indústria Química Faturamento (US$ Bilhões)
Exemplo:
100%
80%
60%
40%
20%
0%
A B C D
Diretos Indiretos Despesa
Linha: Gráfico muito utilizado para avaliar o comportamento de um fenômeno ao logo do tempo, por
isso, muito utilizado para séries temporais.
Exemplo:
150
100
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Fonte: DIEESE
Ponto: Gráfico utilizado para avaliar o perfil da relação entre variáveis quantitativas. Um tipo
específico deste gráfico é o diagrama de dispersão.
14
3
2
4,0 |---- 6,0 6,0 |---- 8,0 8,0 |---- 10,0 10,0 |---- 12,0 12,0 |----|14,0
14
13
11
Box Plot: Assim como o histograma, este gráfico possibilita avaliar a forma da distribuição dos dados, a
tendência ou concentração e variabilidade, além disso, identifica a presença de outliers1. Sua construção
utiliza o conceito de medidas separatrizes que serão estudas a seguir no capítulo 4.
Exemplo:
Distribuição do Custo Unitário Básico (CUB) – Incorporadora Construir - 2016
Gráfico polar ou Radar: É o tipo de gráfico ideal para representar séries temporais cíclicas, ou seja, toda a
série que apresenta uma determinada periodicidade. Pode também ser empregado para avaliar o
atendimento de várias categorias a seus respectivos padrões ou metas.
1
Outlier são valores discrepantes do conjunto ou valores cujas ocorrências são consideradas anômalas.
Presidência
Conselho
Conselho Fiscal
Administrativo
Diretoria de
Diretoria Financeira Diretoria de Projetos Diretoria de RH
Marketing
Exemplo:
Métodos Quantitativos para Engenharia | Apresentação Gráfica. 20
Fluxo do processo de tratamento de peças defeituosas pela engenharia da qualidade.
Muitas vezes, ao coletar dados, o pesquisador se depara com uma grande massa de valores
numéricos, que se repetem algumas vezes, dificultando sua análise e interpretação. Surge então a necessidade
de organizar esses dados em uma tabela onde os valores observados se apresentam associados
individualmente ou em classes com os números de suas repetições, isto é, com suas respectivas frequências.
Esta tabela recebe o nome de Distribuição de Frequências. Outra forma de conceituar a distribuição de
frequências é: a série estatística que organiza os resultados numéricos de uma variável quantitativa com suas
respectivas frequências. Temos então que a distribuição de frequências é um tipo particular de série
estatística, e é representada graficamente por um gráfico de colunas chamado Histograma. Quais as
informações podem ser obtidas com a distribuição de frequências?
Vejamos os exemplos:
Efetuando-se 50 medições do ponto de fusão de uma substância, foram anotados os resultados, que seguem
abaixo:
TOTAL 50 49,50 |---- 50,00 50,00 |---- 50,50 50,50 |---- 51,00 51,00 |---- 51,5051,50 |----|52,00
Pela leitura da tabela, o pesquisador pode observar que faixas de temperaturas apresentam maior frequência,
que faixas apresentam menores frequências. Pela análise do histograma, o pesquisador também pode analisar
a forma da distribuição.
Dependendo do tipo da variável contínua, a distribuição pode agrupar dados discretos ou contínuos, que
também caracterizará o histograma, de forma que: para dados discretos, o histograma terá colunas separadas,
já para dados contínuos o histograma terá colunas juntas.
Adotaremos as seguintes nomenclaturas para os tipos de frequências:
Frequência absoluta simples – fi: corresponde a frequência ou contagem efetiva de cada valor da variável
no conjunto de dados;
Frequência relativa simples – fi%: corresponde à frequência absoluta em termos percentuais ou relativos.
Algumas bibliografias trazem as notações fr (decimal) e fr% (percentual);
Frequência acumulada crescente - faci: Para um valor considerado, corresponde ao acumulado das
frequências de todos os valores anteriores ao valor considerado até ele, seria o “teto”. Algumas
bibliografias trazem a notação Fi
Métodos Quantitativos para Engenharia | Distribuição de Frequências 22
Frequência acumulada decrescente - fadi: Para um valor considerado, corresponde ao acumulado das
frequências de todos os valores posteriores ao valor considerado a partir dele, seria o “piso”.
Importante: As frequências acumuladas faci e fadi apresentadas na forma absoluta mas também podem ser expressas
em termos relativos, o cálculo é semelhante ao da frequência fi%
0 0 1 4 5 3 2 4 1 4
2 2 4 5 2 1 1 1 5 3
Resolução:
Variável: Nº de apartamentos vendidos – quantitativa discreta
Nº de apartamentos
fi fi% faci fadi
vendidos
fi =5: existem 5 0 2 10% 2 20 fadi =18: é soma
valores iguais a 1 5 25% 7 18 de 5+4+2+4+3.
1 no conjunto 2 4 20% 11 13 (fis de 1,2,3,4 e5)
3 2 10% 13 9
4 4 20% 17 7
fi% =25%: é faci =7: é soma de
(5/20)*100 5 3 15% 20 3 2 +5 (fis de 0 e 1)
Total 20 100% - -
5
4 4
3
2 2
1 2 3 4 5 6
Vejamos:
Semiaberto à direita
Semiaberto à esquerda
Fechado
Aberto
Além da definição do tipo de intervalo, existem outras definições a serem tomadas:
O nº de intervalos (K) e
O tamanho dos intervalos (h).
O pesquisador tem autonomia para tomar estas decisões, utilizando-se do seu conhecimento empírico sobre a
variável estudada. Porém, existem alguns critérios para a definição do número de classes, vejamos:
Roteiro para elaboração da distribuição de frequências:
Nos dois casos deve-se arredondar para o inteiro mais próximo. A regra da raiz quadrada é normalmente mais
utilizada, mas independente da regra, o bom senso deve ser considerado, não é interessante utilizar muitas
classes.
Caso seja necessário arredondar, o arredondamento deve ser realizado sempre para “mais”. Cada classe
apresentará dois limites: inferior – Linf (esquerda) e superior – Lsup (direita), sendo que Lsup = Linf +h
Exemplo:
Para estudo da melhoria do conforto de automóveis, uma montadora realizou uma pesquisa quantitativa com
40 pessoas. Uma das variáveis estudada foi à altura (m) das pessoas. Os dados seguem abaixo:
Dados brutos
Resolução:
Passos:
I. Amplitude total: At =2,00 – 1,40 = 0,60 m (“maior menos o menor”)
II. Número de classes: como n= 40 (n>25), temos: √ (“inteiro mais próximo”)
III. Amplitude de Classe: h = 0,60 / 6 =0,10 m;
Neste caso serão 6 classes de comprimento 0,10 m. Tomando como limite inferior da 1ª classe o menor
conjunto, temos:
Linf =1,40 m
Lsup= Linf+h=1,40+0,10 = 1,50 m
1ª Classe: 1,40 I--- 1,50, siga com o processo até completar o total de classes. Segue abaixo resultado:
.
Polígono de Frequência.
Pode-se dizer que o Polígono de frequências é o “embrião” da curva de Gauss. À medida que o n tende ao
infinito o polígono de frequência suaviza como na figura abaixo:
Para a maioria das pessoas, estatística significa descrever números da forma mais entendível
possível, como por exemplo, as taxas mensais de desemprego no Brasil após a alta do dólar no mercado atual,
o índice de falências empresariais ocorridas no Brasil de 2010 para cá, a proporção de eleitores que votarão
em um determinado candidato nas próximas eleições, o nível de satisfação de clientes de uma determinada
loja de conveniência de um determinado Shopping Center, dentre outros.
Todos esses exemplos representam descrições estatísticas de um conjunto de dados coletados sobre
algum fenômeno e para isso não é preciso usar a inferência estatística ainda, pois o objetivo aqui é apenas
descrever estatisticamente essas informações.
A descrição estatística dos dados verifica a localização central e a variabilidade destes dados através
de médias, medianas, modas, variâncias, desvios-padrão e coeficientes de variação.
A descrição dos dados se dá em duas formas, tanto para dados agrupados em classes como para
dados não agrupados.
Importante: Adotaremos como definições de Pequenos Conjuntos de Dados e Grandes Conjuntos de Dados:
Pequenos conjuntos de dados: conjunto de dados cuja análise não requer uma organização prévia.
Grandes conjuntos de dados: conjunto de dados cuja análise requer uma organização prévia. Algumas
literaturas consideram a partir de 30 unidades,
Média aritmética ( ):
É o ponto de equilíbrio do conjunto de dados, de forma simples é definido como sendo o quociente da soma
de todos os valores de um conjunto de dados pelo total de valores deste conjunto.
xi x i
X i 1
i 1
, Onde
n N
xi: Valores da variável
n: Número de valores da amostra
N: Número de valores da população
Moda (Mo ou ̂ ):
Na linguagem coloquial, moda é algo que está em evidência, ou seja, algo que se vê bastante. Na Estatística,
como o próprio nome sugere, a Moda é aquele elemento que mais vezes aparece no conjunto de dados. Não é
muito sensato dizer que a moda é uma medida de tendência central, pois nem sempre ela representa o centro
do conjunto de dados, visto que ela identifica o(s) valor(es) que ocorre(m) com maior frequência, podendo ser
único, se existir, como pode também não existir. Nesse caso, é mais correto chamá-la de medida de posição.
Métodos Quantitativos para Engenharia | Medidas de Posição 27
Quando dois valores ocorrem com a mesma frequência máxima, cada um deles é uma moda. Das diferentes
medidas de tendência central, a moda é a única medida que pode ser usada com dados em nível nominal de
mensuração.
Exemplo: Um estudo sobre os tipos de falhas em estruturas metálicas indicou: 30 casos de corrosão, 50 casos
de deformação e 20 assimetria. Embora não possamos tomar a média numérica dessas características,
podemos afirmar que a moda é deformação, que é o tipo de falha com maior frequência.
Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima, chama-se este
conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de forma máxima e na
mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto de dados não tiver
nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é amodal.
Mediana (Md ou ̃ ):
A mediana é uma medida de tendência central que ocupa a posição central dos dados observados, quando
estes estão ordenados em ordem crescente ou decrescente (rol), tendo uma mudança na sua realização se a
quantidade de dados é par ou ímpar.
I. n ímpar: neste caso a série apresenta um único elemento central, a mediana é este valor.
( )
II. n par: neste caso a série apresenta dois elementos centrais, a mediana é dada pela média destes
valores.
( ) ( )
n = 5 (ímpar)
Rol: 3, 4, 7, 8, 8
X3
Com n ímpar, a mediana é igual ao elemento central, Md = 7
Com uso da fórmula:
( ) ( )
n = 6 (par)
Rol: 3, 4, 7, 8, 8, 9
X3 X4
Com n par, a mediana é igual à média dos centrais, assim:
Depois de verificado as três medidas de tendência central que são utilizadas com maior frequência,
dentre as três, a média aritmética é a medida mais usada na tomada de decisão, pois a mesma é encontrada
com uso de todos os valores do conjunto de dados, ao passo que a mediana e a moda não utiliza todos eles, e
sim alguns ou nenhum dos valores (amodal), apresentado resultados “distorcidos” da realidade dos dados
apresentados.
Quando se descreve os dados, além das medidas de tendência central, é necessário analisar a
variabilidade dos dados, pois através destas pode-se tirar algumas conclusões mais consistentes na tomada de
decisão. Assim, o próximo item mostrar as medidas de variabilidades mais utilizadas no campo estatístico.
Sejam xi cada valor do conjunto e c uma constante não nula, temos que:
III. A soma algébrica dos desvios tomados em relação à média é sempre nula (ponto de equilíbrio):
∑
∑ ∑ ∑ ∑
IV. A soma algébrica das distâncias quadráticas de cada valor em relação à média é mínima:
∑ ∑ ∑ ∑
∑
∑ ∑ ∑
V. O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n”
valores da variável;
VI. Somando-se ou subtraindo-se uma constante c (valor invariável) a todos os valores de uma variável, a
média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma
análoga, se multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente.
∑
∑
∑ ( )
Propriedades da Moda
I. A moda nem sempre é única e nem sempre existe (amodal, bimodal e multimodal);
II. A moda é a única medida de posição que pode ser definida para dados qualitativos;
III. A moda não é influenciada por valores extremos;
IV. Pode estar afastada do centro dos dados;
V. Não utiliza todos os dados da amostra;
VI. Difícil de incluir em funções matemáticas.
Propriedades da Mediana
Referem-se a conjuntos de dados em que sua análise requer o agrupamento em tabelas de frequências. Tem-
se como referencia 30 valores. Os conceitos e propriedades já apresentados anteriormente continuam válidos.
Média aritmética ( ):
É o ponto de equilíbrio do conjunto de dados, simplificadamente é definida como sendo o quociente da soma
de todos os valores de um conjunto de dados pelo total de valores deste conjunto. A diferença na fórmula
corresponde à inclusão da frequência absoluta simples, assim:
Moda (Mo ou ̂ ):
Continua sendo o valor mais frequente do conjunto, este valor pode agora ser visualizado pela maior, ou
maiores frequências na distribuição de frequências.
Continua sendo o valor que o divide o conjunto ordenado em duas partes de igual frequência. A organização
em rol também pode ser vizualizado através da distribuição de fraequências. A identificação do valor central
ainda depende da quantidade de valores do conjunto ser par ou impar.
Exemplo:
Os dados abaixo correspondem ao número de apartamentos vendidos pela construtora GM Branco nos
últimos vinte meses.
Nº de apartamentos vendidos fi (meses)
0 2
1 5
2 4 Maior fi =5:
3 2 corresponde
4 4 ao valor 1
5 3
Total 20
Resolução:
∑
Média: : Somatório de cada valor vezes sua respectiva frequência dividido pelo número de
valores, assim:
Observação: embora a leitura de 2,5 apartamentos vendidos por mês não pareça coerente, o valor deve ser
utilizado assim mesmo. Uma leitura alternativa seria: 25 apartamentos vendidos a cada 10 meses.
Moda: basta identificar na tabela o valor de maior frequência, este será a moda, vejamos:
( ) ( )
Mediana: . Como n é par, devemos buscar os dois elementos centrais, que são os de
posição e , assim:
Podemos notar pela distribuição de frequências que os valores procurados são 2 e 2. Verificando pelo rol:
0 0 1 1 1 1 1 2 2 2 2
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10 X11
Logo:
Média aritmética ( ):
É o ponto de equilíbrio do conjunto de dados, simplificadamente é definida como sendo o quociente da soma
de todos os valores de um conjunto de dados pelo total de valores deste conjunto. Porém, no caso dos
intervalos de dados, parte-se da suposição que a distribuição dos dados é uniforme dentro dos intervalos,
assim a fórmula sofre a seguinte alteração:
Moda (Mo ou ̂ ):
Continua sendo o valor mais frequente do conjunto, porém nesta fase o valor é calculado por interpolação,
segue fórmula de Czuber:
( )
Primeiro passo: Identificar a classe MODAL, esta classe será a classe de maior frequência.
Em seguida, identificar os seguintes elementos:
Importante:
1. Sendo a classe modal a primeira, adota-se como classe anterior uma classe de frequência nula. Analogamente,
se a classe modal for a última, adota-se como classe posterior uma classe de frequência nula;
2. Caso existam duas ou mais classes modais, o processo deve ser repetido para estas classes.
Mediana (Md ou ̃ ):
Continua sendo o valor que o divide o conjunto ordenado em duas partes de igual frequência. Porém nesta
fase o valor é calculado por interpolação, segue fórmula:
( )
Exemplo:
Uma amostra de 80 corpos de prova de concreto forneceu a seguinte distribuição de resistências de ruptura:
Resolução:
Média: é necessário calcular o ponto médio para cada classe e aplicar na fórmula abaixo, assim:
Moda: o primeiro passo é identificar a classe moda, esta será a classe de maior frequência, a partir dela
indicam-se as demais informações:
( ) ( )
Mediana: o primeiro passo é identificar a classe mediana esta será a classe que contém o elemento
mediano, a partir dela indicam-se as demais informações:
Vejamos:
Resistência (psi*) Nº de medições faci
fac↑ = 17 (anterior) e
50 |---- 60 2 2
fmd =50 (mediana)
60 |---- 70 15 17
70 |---- 80 50 67
80 |---- 90 10 77
90 |----|100 3 80
TOTAL 80 -
Classe Mediana:
contém o 40º valor
Como o experimento examinou 80 corpos de prova, ou seja, n=80 (par),
O elemento mediano será dado: ( ) ( ) (classe que contém o 40º valor).
Observe que até a primeira classe acumula 2, até a segunda acumula 17 e até a terceira acumula 67, ou seja, a
classe 70 |---- 80 contém do 17º ao 67º valor, consequentemente o 40º.
Da classe mediana, identificamos:
Mediana: Valor que divide o conjunto ordenado em duas partes de igual frequência. Ou seja, o conjunto está
divido em dois intervalos de frequência 50%.
As medidas separatrizes proporcionam uma alternativa quando a média não for a medida adequada, calma! A
moda é uma alternativa, porém não analítica, por exemplo: a moda de notas de uma classe é 5,0. Quantos
alunos tiraram 5,0? Outro cenário para aplicação: quando um grupo de valores com baixa frequência
apresentarem alta magnitude.
Exemplo: A maioria dos açudes de uma região é pequena, existindo alguns poucos de médio porte e apenas um
de grande porte.
( ) ( )
( )
Agrupados em intervalos:
Métodos Quantitativos para Engenharia | Medidas Separatrizes 35
( )
Graficamente, temos:
Resolução:
Ordenando o conjunto, temos:
Rol: 1, 2, 2, 3, 3, 3, 4.
X4
Como n = 7 (ímpar), temos:
( ) ( )
As medidas separatrizes são: Quartil, Decil e Percentil. Seus valores são obtidos de forma análoga ao da
mediana. Assim como na mediana, será mantida a divisão dos casos em:
Quartil (Qj):
Q1: valor que determina o limite superior para os 25% primeiros valores;
Q2: valor que determina o limite superior para os 50% primeiros valores. Este valor corresponde à
mediana;
Q3: valor que determina o limite superior para os 75% primeiros valores;
Graficamente:
A partir dos dados ordenados o quartil de posição j será dado genericamente por:
O quartil procurado é valor do conjunto de posição Este pode ser inteiro ou não, caso não seja inteiro,
o valor do quartil será obtido a partir da interpolação:
Onde:
são os valores que delimitam o quartil procurado (posição antes e depois)
: parte fracionária entre as posições que delimitam o quartil;
Exemplo:
Uma opção mais simples é tomar a média aritmética entre os valores que estão nas posições que delimitam a
posição (posições inteiras antes e depois).
Exemplo: considere um conjunto de dez valores, o primeiro quartil (n=10 e j=1) é obtido da seguinte forma:
Dados: 5 8 7 7 9 8 10 7 8 6
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Resolução:
X1 X2 X3 X4 X5 X6 X7 X8 X9 X10
Rol: 5 6 7 7 7 8 8 8 9 10
Este critério será utilizado para o cálculo das demais medidas separatrizes do caso não agrupado em
intervalos.
Assim como na mediana, para dados agrupados em intervalos, o quartil é calculado a partir de uma
interpolação dada por:
( )
Onde:
Limite inferior da classe que contém o quartil ;
Frequência acumulada crescente da classe anterior à classe que contém o quartil
Frequência absoluta simples da classe que contém o quartil
Métodos Quantitativos para Engenharia | Medidas Separatrizes 37
Amplitude da classe que contém o quartil
Resolução:
Primeiro quartil: Q1
D1: valor que determina o limite superior para os 10% primeiros valores;
D2: valor que determina o limite superior para os 20% primeiros valores;
Segue-se de forma sucessiva até D9. O valor D5 corresponde à mediana.
Graficamente:
Analogamente, a partir dos dados ordenados o decil de posição j será dado genericamente por:
O decil procurado é valor do conjunto de posição Este pode ser inteiro ou não, caso não seja inteiro, o
valor do decil será obtido a partir da interpolação:
.
Onde:
são os valores que delimitam o quartil procurado (posição antes e depois)
: parte fracionária entre as posições que delimitam o quartil;
Exemplo:
Analogamente, para dados agrupados em intervalos, o decil é calculado a partir de uma interpolação dada por:
( )
Onde:
Limite inferior da classe que contém o decil ;
Frequência acumulada crescente da classe anterior à classe que contém o decil
Frequência absoluta simples da classe que contém o decil
Amplitude da classe que contém o decil
P1: valor que determina o limite superior para os 10% primeiros valores;
P2: valor que determina o limite superior para os 20% primeiros valores;
Segue-se de forma sucessiva até P99. O valor P50 corresponde à mediana.
Graficamente:
O percentil procurado é valor do conjunto de posição Este pode ser inteiro ou não, caso não seja
inteiro, o valor do percentil será obtido a partir da interpolação:
.
Onde:
são os valores que delimitam o quartil procurado (posição antes e depois)
: parte fracionária entre as posições que delimitam o quartil;
Exemplo:
Analogamente, para dados agrupados em intervalos, o percentil é calculado a partir de uma interpolação dada
por:
( )
Onde:
Limite inferior da classe que contém o percentil ;
Frequência acumulada crescente da classe anterior à classe que contém o percentil
Frequência absoluta simples da classe que contém o percentil
Amplitude da classe que contém o percentil
A partir da análise das medidas separatrizes pode-se definir uma categoria de gráficos amplamente utilizados
em métodos quantitativos, os Box Plots. Este gráfico apresenta grande aplicação na análise de processos de
gestão.
O Box Plot
O Box Plot ou diagrama de caixa é um recurso gráfico utilizado para analisar a variação de dados quantitativos.
Este gráfico proporciona uma análise similar ao histograma, porém com a informação dos quartis e da
identificação de valores discrepantes ou ouliers.
Estrutura do Box Plot:
Limite inferior: { }
Limite superior: { }
Outliers: são todos os pontos abaixo ou acima dos limites inferior ou superior respectivamente.
Trata-se de valores atípicos cuja ocorrência é considerada anômala ao comportamento dos dados.
A identificação é de suma importância uma vez que pode distorcer as análises ou pode chamar a
atenção para uma característica dos dados ainda não estudada. Exemplo: Suponha que uma pessoa
tenha conseguido viver até 150 anos, certamente trata-se de um outlier, porém abre o seguinte
precedente: como ela conseguiu? No entanto, a maioria dos casos apenas indicam anomalias
(“raridades”) ou erros de medição.
Whisker ou fio de bigode: segmentos que ligam a caixa aos limites. Indicam a variabilidade dos
dados.
Uma aplicação interessante é a comparação entre vários grupos através do Box Plot.
Exemplo:
Os dados abaixo são as medidas da altura de 20 hastes de um processo de usinagem. Determine o Box Plot.
Para facilitar a construção os dados já estão ordenados.
860,41 903,88 915,38 934,52 936,78 941,83 950,38 993,45 1.011,26 1.014,53
1.020,70 1.036,92 1.039,19 1.066,12 1.086,98 1.097,79 1.098,04 1.120,19 1.144,94 1.214,08
Resolução:
Determinação dos Quartis: com interpolação linear
Limite inferior:
Menor valor do conjunto: 860,41 mm
{ }
Limite Superior:
Maior valor do conjunto: 1.214,08 mm
{ }
O conjunto é aproximadamente simétrico, 50% dos valores se distribuem de forma homogênea na caixa, ou
seja, a mediana encontra-se aproximadamente no centro da caixa. O Whisker superior é levemente mais
alongado que o inferior o que indica uma “leve” assimetria superior. O conjunto não apresenta outliers.
O cálculo das medidas de posição e medidas separatrizes para distribuições de frequências em intervalos de
classes utiliza o critério da interpolação linear. Com efeito, podemos concluir que estas medidas apresentam
valores aproximados. No caso das medidas separatrizes, busca-se um valor tal que se conheça a frequência
acumulada até ele, por exemplo: Qual valor da distribuição é o teto para 75% dos valores? Este valor é o 3º
quartil (Q3). Apresentaremos aqui a interpolação como recurso que possibilita este cálculo e para a obtenção
da frequência acumulada até um valor especificado, algumas literaturas se referem a este caso com
interpolação da ogiva de Galton. Este problema é muito comum em concursos, em especial os federais. Em
engenharia, na interpolação de indicadores de desempenho quando há atribuição de escores.
A estruturação geral consiste em inserir um valor entre dois outros. Neste caso é ignorada a linearidade ou
não da função entre os pontos considerados.
𝑥 𝑦
𝑥 𝑦
𝑥 𝑦
O objetivo é Interpolar um ponto entre dois pontos dados e conhecendo-se uma das
coordenadas do ponto . Assim:
Dependendo de qual coordenado do ponto a inserir seja conhecida, a expressão pode assumir as seguintes
formas:
Y conhecido:
Este recurso é utilizado em algumas fórmulas já estudadas. Vamos considerar mais uma vez os seguintes
dados:
Altura (m) fi fi% faci fadi
1,40 I---1,50 6 15% 6 40
1,50 I---1,60 10 25% 16 34
1,60 I---1,70 6 15% 22 24
1,70 I---1,80 8 20% 30 18
1,80 I---1,90 6 15% 36 10
1,90 I---I2,00 4 10% 40 4
Total 40 100% - -
Resolução:
a) O valor procurado acumula até ele 25%, ou seja, 25% de 40. A frequência procurada é 10. Este valor
corresponde ao quartil Q1. Pela fórmula, este valor é Q1= 1,54 m. Agora utilizaremos a interpolação
linear para obter o mesmo valor. Vejamos o histograma da distribuição:
10
6 6 6
1,40 I---1,50 1,50 I---1,60 1,60 I---1,70 1,70 I---1,80 1,80 I---1,90 1,90 I---I2,00
} Alturas
b) A frequência relativa acumulada crescente até 1,75 m é dada pela soma das frequências das classes
anteriores e mais a frequência de 1,70 a 1,75, ou seja:
Analogamente:
} Frequências
} Alturas
Média Harmônica ( ):
Ou ainda:
∑
A média aritmética é muitas vezes utilizada erroneamente em locais que exigem a média
harmônica. Um exemplo é o cálculo da velocidade média em um percurso de ida e volta em uma mesma via,
em que a ida é percorrida a 60 km/h e a volta a 40 km/h a média aritmética de 50 está incorreta. A
velocidade média no percurso total é a média harmônica de 40 e 60, ou seja, 48 km/h. Isto se deve ao fato de
que, como os dois trechos têm o mesmo comprimento, quanto menor for a velocidade, mais do tempo total é
despendido àquela velocidade e, então, ela tem um peso maior na composição da velocidade média.
Vejamos:
Importante: A média harmônica é utilizada para determinar a média de proporções como preços por quantidade e
Exemplo:
velocidade.
Exemplo: Suponhamos que o leitor compra uma dúzia de laranjas ao preço de R$ 1,00 cada, uma semana
depois, compra outra dúzia R$ 2,00 cada. É comum afirmar, erroneamente, que o preço médio foi R$ 1,50.
Este é o preço médio por reais gastos, mas o preço médio por dúzia de laranja comprada é dado pela média
harmônica, assim:
Resolução
Semana 1: R$ 1,00 /dúzia;
Semana 1: R$ 2,00 /dúzia;
Média Geométrica ( ):
Além das médias de proporções e preços, há também os casos de crescimentos onde uma medida
subsequente depende uma medida prévia, por exemplo, crescimento populacional aumenta
proporcionalmente ao número de habitantes; aumentando-se o número de nascimentos, aumenta a
população, o que por sua vez leva a mais nascimentos. Foi esse o problema que preocupou Malthus, que
visualizou a população mundial excedendo as fontes de alimentos e morrendo de fome.
A média geométrica de um conjunto de números positivos é definida como o produto de todos os membros
do conjunto elevado ao inverso do número de membros. Indica a tendência central ou o valor típico de um
conjunto de números usando o produto dos seus valores (diferente da média aritmética, que usa a soma dos
valores). A média geométrica é definida como n-ésima raiz (onde n é a quantidade de termos)
da multiplicação dos termos. Assim:
√∏
A média geométrica é usada, por exemplo, para calcular a variação percentual média após variações
percentuais sucessivas de determinado valor.
Exemplo: O valor de uma ação no trimestre teve aumentos mensais consecutivos de 5%, 4% e 2%. A variação
mensal média no trimestre pode ser calculada por meio da média geométrica dos fatores multiplicativos de
cada variação mensal, assim:
Resolução:
Mês 1: x + 5% de x = 1,05x
Mês 2: x + 4% de x = 1,04x
Mês 3: x + 2% de x = 1,02x
A média geométrica é muito utilizada na composição de índices, por exemplo, os índices de Fisher de preço e
quantidade. Vejamos:
√
Importante: A média Geométrica é utilizada para determinar a média de uma série com comportamento próximo ao
A média
de uma harmônica
progressão é uma
geométrica, comodas três médias
aumentos de Pitágoras.
sucessivos Para depende
em que um valor todos osdoconjuntos deantecessor
valor do seu dados e
na composição de índices preços.
Propriedade:
A média geométrica é menor ou igual a média aritmética, que por sua vez a maior ou igual a média harmônica.
Assim:
Demonstração:
√
√ √
∑ ∑
√∏ √∏
√∏ ∑
Logo:
A propriedade acima pode também ser verificada da seguinte Figura 02- Médias de Pitágoras
forma: A média harmônica é uma das três médias de
Pitágoras. Para todos os conjuntos de dados positivos que
contêm, pelo menos um par de valores distintos, a média
harmônica é sempre a mínima das três médias, enquanto que
a média aritmética é sempre a maior das três e a média
geométrica está sempre no meio. A figura acima é uma
construção geométrica das três médias de Pitágoras de dois
números a e b. A média harmônica é denotada por H na cor
roxa. O Q denota a quarta média, a média quadrática. Fonte: https://pt.wikipedia.org/wiki/Media_harmonica
Média Ponderada ( ):
Na média aritmética simples, os valores são somados e divididos pela quantidade de termos adicionados. A
média ponderada é calculada por meio do somatório das multiplicações entre valores e pesos divididos pelo
somatório dos pesos. Os pesos indicam que cada valor do conjunto apresenta um nível de importância
diferente dentro da composição da média. Na média simples os valores apresentam o mesmo nível de
importância. Assim:
Onde:
Ou ainda:
∑
∑
Exemplo: Considere que a nota final dos alunos da Universidade de Fortaleza (Unifor) é dada pela
composição das avaliações AV1, AV2 e AV3 calculada da seguinte forma:
Qual a nota final de um aluno que tirou AV1 = 8,0; AV2 = 8,0 e AV3 = 6,0?
Resolução:
A expressão acima equivale a:
Com:
AV1: Peso 1;
O índice Geral de Preços é considerado como medida padrão (ou oficial) da inflação do país. Trata-se de um
índice híbrido publicado pela revista Conjuntura Econômica da FGV. Este índice é a composição da média
ponderada de outros índices, vejamos:
Ou ainda:
Onde:
Ao se fazer a descrição dos dados, além de verificar o centro da distribuição deles através das
medidas de tendência central é prescindível verificar também se os dados se comportam de forma homogênea
ou heterogênea, e isso será possível através das medidas de dispersão.
Essa verificação é importante, pois através delas podem-se tomar decisões mais consistentes e
eficazes. Um exemplo disso eram que os bancos, há a alguns anos atrás, costumavam exigir que os clientes
formassem filas separados para os diversos guinches, mas atualmente passaram adotar a fila única. O motivo
dessa modificação foi que o tempo médio de espera era o mesmo para ambos os formatos de filas, não
afetando a eficiência dos caixas, mas a adoção de fila única ocorreu ao fato de os clientes preferirem tempos
de espera com menor variação. Assim, é que milhares de bancos efetuaram essa modificação que resultou em
uma variação menor (e clientes mais satisfeitos), mesmo que a média de tempo de atendimento não tenha
sido afetada.
Com isso, pode-se concluir que as medidas de dispersão avaliam a variabilidade dos dados com
relação à sua média. As medidas de dispersão mais usadas são a amplitude total, variância, desvio padrão e
coeficiente de variação.
A primeira medida de dispersão a ser analisada nesta nota de aula será amplitude total, como segue
no tópico seguinte:
Amplitude Total ( ):
A amplitude total é a medida mais simples de variação que existe, e é obtida através da diferença entre o
maior e o menor dos valores da série. A ressalva para esta medida simples de dispersão é que por não levar
em consideração os valores intermediários, essa medida não possibilitará analisar como os dados estão
distribuídos e/ou concentrados, visto que só é feita uma análise dos extremos deste.
At = Xmáx – Xmin
Pelo exemplo abaixo é possível verificar que se não for levado em consideração os valores em si,
pode-se tomar conclusões bastante equivocadas, pois amplitude total é a mesma para ambas as turmas, mas
os valores de cada uma delas são visivelmente diferentes.
a) Turma 1: 1, 1, 1, 2, 2, 2, 3, 3, 3
At = 3 - 1 = 2
At = 10 - 8 = 2
Observação: A amplitude total é uma medida simples, porém limitada uma vez que analisa somente a
amplitude de dois valores do conjunto de dados. Quanto maior for a quantidade de dados, menos
recomendado será sua utilização.
Variância (S²):
A variância é uma medida de dispersão que mensura a variabilidade dos dados, através da soma do quadrado
dos desvios pela quantidade de valores da variável menos um (n-1) no caso amostral, e por N se for
populacional. Uma justificativa desta diferenciação nas expressões está no APENDICE 6.
Pela propriedade da média aritmética, verifica-se que a soma dos desvios será sempre zero, não
sendo possível analisar a variabilidade. Para que esse problema seja contornando, os desvios são elevados ao
quadrado. Com isso, a notação matemática da variância é:
x X
n n
x
2 2
i i
S2 i 1
2 i 1
, onde
n 1 N
xi : Valores da variável xi :Valores da variável
X : Média aritmética simples µ: Média populacional
n :Número de valores da amostra N: Número de valores da população
Fórmula reduzida:
∑
Partindo de , podemos utilizar a fórmula reduzida, obtida da seguinte forma:
∑ ∑ ∑ ∑ ∑
Uma medida alternativa à variância é o desvio médio, dados pela média dos desvios absolutos em torno da
média:
∑ | |
Apesar de ser uma medida interessante, o desvio médio é um estimador viciado ou tendencioso da
variabilidade populacional.
Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos desvios por “n-
1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação de Parâmetros, a
variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²) se for dividido apenas
por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ² deve-se dividir por “n-1”.
Pode-se demostrar que E(S²) = ², ou seja, a esperança da variância amostral é igual a variância populacional,
ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa de forma eficaz e inferencial a
variância populacional, sem ter analisado a população em si (Apêndice).
Importante: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n superior a 30)
Métodos
não há praticamente diferença Quantitativos
entre S² e ² para Engenharia | Pequenos Conjuntos de dados 50
Após, as observações anteriores, faz-se necessário verificar a medida de dispersão realmente utilizada na
tomada de decisão, o desvio padrão.
O desvio padrão é uma medida de variabilidade dos valores com relação à média deles, mas ao contrário da
variância, esta medida utiliza-se à mesma unidade de medida dos dados originais, por isso esta é utilizada com
maior frequência que a variância (S²). A notação matemática do desvio padrão, que é a raiz quadrada da
variância é como segue:
∑
√ √
A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no próximo tópico.
O coeficiente de variação é uma medida de dispersão relativa que avalia o quanto o desvio padrão representa
com relação à média aritmética de um conjunto de dados. Assim, quanto menor for o CV, mais homogêneo
será o conjunto de dados, ou seja, com menor variabilidade entre eles, caso contrário haverá uma grande
variabilidade. Assim, a notação do coeficiente de variação é a seguinte:
No caso, não é correto comparar a dispersão relativa utilizando medidas diferentes, ou seja, deve-se compara
grupos de dados com o uso da mesma medida. Mas para afirmar se os dados são ou não passíveis de grandes
ou pequenas variabilidades, adota-se o ponto de corte percentual como segue:
Importante: Se CV ≤ 30% (Há baixa dispersão entre os dados, ou seja, eles são considerados homogêneos)
Apesar destes pontos de cortes poderem ser utilizados como referências, é bem verdade que a
homogeneidade depende muito da variável, por exemplo: em mecânica de precisão 30% de desvio é uma
exorbitância. De qualquer forma à medida que o CV aumenta, a homogeneidade diminui. Alguns autores
consideram outros valores para este ponto de corte, os mais comuns são 10% e 50%.
Sejam xi cada valor do conjunto e c uma constante não nula, temos que:
Propriedades da Variância:
∑
II. Ao somar ou subtrair uma mesma constante c a todos os valores do conjunto de dados, o valor da
variância não altera;
∑ ( ( )) ∑ ( )
III. Se multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante c, a variância
ficará multiplicada ou dividida, respectivamente, pela constante ao quadrado (c²).
∑ ( ) ∑ ( ) ∑ ( )
∑ ( ) ∑ ( ) ∑ ( ) ∑ ( )
√
II. Ao somar ou subtrair uma mesma constante c a todos os valores do conjunto de dados, o valor
do desvio padrão não altera;
√
III. Ao multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante c, o desvio
padrão ficará multiplicada ou dividida, respectivamente, pela constante c.
√
√
Uma propriedade do coeficiente de variação de Pearson pode ser verificada a partir das propriedades I, II e
III da média e desvio padrão, assim:
III. Ao multiplicar ou dividir cada valor do conjunto de dados por uma mesma constante c, o coeficiente
de variação fica inalterado.
Amplitude Total ( ):
At = Xmáx – Xmin
Variância (S²):
x X . fi
k k
x . fi
2 2
i i
S2 i 1
2 i 1
, onde
n 1 N
xi : Valores da variável xi :Valores da variável
X : Média aritmética simples µ: Média populacional
n: Número de valores da amostra N: Número de valores da população
fi: frequência absoluta do valor i fi: frequência absoluta do valor i
Fórmula reduzida:
∑
Partindo de , podemos utilizar a fórmula reduzida, obtida da seguinte forma:
∑ ∑ ( ) ∑ ∑ ∑
∑
√ √
Não há alteração nas formas de cálculo do coeficiente de variação de Pearson. Todas as propriedades também
continuam válidas, assim:
Exemplo:
Os dados abaixo correspondem ao número de apartamentos vendidos pela construtora GM Branco em vinte
meses.
Nº de apartamentos vendidos fi (meses)
0 2
1 5
2 4
3 2
4 4
5 3
Total 20
Resolução:
Amplitude Total: At = Ximá - Ximin = 5 - 0 =5 apartamentos vendidos At = 5 apartamentos vendidos
Variância:
∑
Para o cálculo da variância, é necessário antes calcular a média. Incluindo na Distribuição de Frequências as
colunas com os cálculos, temos:
∑
Variância:
Desvio Padrão: √ √
Amplitude Total ( ):
At = Xmáx – Xmin
Variância (S²):
x X . fi x . fi
k k
2 2
im im
S2 i 1
2 i 1
, onde
n 1 N
xi m: Ponto Médio da Classe i xi m: Ponto Médio da Classe i
X : Média aritmética simples µ: Média populacional
n: Número de valores da amostra N: Número de valores da população
fi: frequência absoluta do valor i fi: frequência absoluta do valor i
Fórmula reduzida:
∑
Partindo de , podemos utilizar a fórmula reduzida, obtida da seguinte forma:
∑ ∑ ( ) ∑ ∑ ∑
∑
√ √
Não há alteração nas formas de cálculo do coeficiente de variação de Pearson. Todas as propriedades também
continuam válidas, assim:
Exemplo:
Uma amostra de 80 corpos de prova de concreto forneceu a seguinte distribuição de resistências de ruptura:
Calcular: Amplitude Total, Variância, Desvio Padrão e Coeficiente de Variação para distribuição acima:
Resolução:
Amplitude Total: At = Ximáx.-Ximin = 100 - 50=50 psi At = 50 psi
Observação: quando o limite superior da última classe está incluso (fechado), o At será dado pela diferença
entre o limite superior da classe e o limite da primeira classe.
Para o cálculo da variância, é necessário antes calcular a média, assim:
∑
Variância:
Desvio Padrão: √ √
Exemplos:
A distribuição das rendas de uma região apresenta maior concentração em valores baixos, em torno de
um salário mínimo;
Os diâmetros de peças de uma linha de produção.
A distribuição dos dados pode apresentar formas diversas, no entanto apenas três formas serão usadas como
referencia: Simétrica, Assimétrica à direita e Assimétrica à esquerda.
Figura 03 – Classificação da assimetria
Simétrica Assimétrica à Direita Assimétrica à Esquerda
A referência nestas três formas não é por acaso, além do aspecto descritivo dos dados, as formas também
darão suporte ao emprego de modelos probabilísticos na fase de inferência, tais como o modelo gaussiano, t-
Student e F Snedocor e Qui-quadrado. Em especial o modelo gaussiano.
Com base nas seguintes informações: A média é valor de equilíbrio, a moda é o valor de maio frequência e a
mediana é o valor que divide o conjunto em duas partes de igual frequência, temos que:
𝑀 𝑀𝑑 𝑋
𝑋 𝑀𝑑 𝑀
Claro que esta análise só faz sentido para conjuntos de dados com tamanhos significativos, para tanto são
empregadas algumas medidas. Person propôs duas medidas:
Medida que avalia o nível de assimetria considerando a relação entre média, moda desvios padrões. Esta medida
informa o nível de deformação (assimetria) em número de desvios padrões.
Na segunda mediada a alternativa é usar a relação entre média, mediana e desvio padrão.
( )
CA = 0: distribuição simétrica
CA > 0: distribuição assimétrica à direita ou positiva
CA < 0: distribuição assimétrica à esquerda ou negativa
Importante: na prática é difícil identificar uma distribuição perfeitamente simétrica, ao invés é comum falar-se em
distribuições aproximadamente simétricas. Segue um critério utilizando para classificar a assimetria em níveis:
Assimetria Fraca: ⃒ CA⃒ < 0,15
Assimetria Moderada: 0,15 < ⃒ CA⃒ < 1,00
Atualizar!
Assimetria Forte: ⃒ CA⃒ > 1,00
Curtose ou grau de “achatamento” de uma distribuição de frequências, em geral unimodal, trata-se da relação
dos dados à distribuição normal (de Gauss ou gaussiana), que é tomada como padrão. O grau de achatamento
da distribuição é também uma análise do grau de concentração de valores da distribuição em torno do centro
Assim como as medidas de assimetria, há na literatura algumas medidas. Apresentaremos aqui o Coeficiente
Percentílico de Curtose.
( )
Assim sendo, ao calcularmos o coeficiente percentílico de curtose de uma distribuição qualquer teremos:
Mesocúrtica: Cp 0,263;
Platicúrtica: Cp < 0,263;
Leptocúrtica: Cp > 0,263.
Exemplo: As leituras das correntes de fuga (µA) em dado período do ensaio para 36 cabos testados estão
apresentados abaixo. Caracterize a distribuição abaixo quanto a assimetria e a curtose. Para facilitar os dados
já estão ordenados.
Assimetria:
Usaremos o primeiro coeficiente de assimetria de Pearson, assim:
Curtose:
Usaremos Coeficiente Percentílico de Curtose, assim:
( ) ( )
Uma grande dificuldade na aplicação de medidas trata da forma de analisar o valor obtido. Vamos considera
os seguintes exemplos:
Figura 06 -Barra de Platina Protótipo do metro de 1889 a 1960
Você é mais alto que seu irmão? Essa pergunta seria facilmente
respondida apenas comparando as medidas das alturas. Existe
uma questão que passa quase despercebida nesta análise: o
comportamento das alturas não apresenta condições e
determinantes para a comparação direta, maior medida significa
maior desempenho;
Um produto A apresenta aumento de preço de R$ 2,00 em dado
período, enquanto um produto B também apresenta aumento
de R$ 2,00 no mesmo período. Podemos dizer que os aumentos
são iguais? Diferente do caso anterior, a comparação direta não
seria suficiente, uma vez que a resposta à comparação dos aumentos está condicionada aos preços iniciais,
precisamos então lançar mão de medidas que expressem a análise nesse nível. Uma escala normalmente
utilizada é o percentual ou porcentagem. Vejamos:
Coeficientes são grandezas utilizadas para comparar a quantidade de ocorrências de uma determinada
categoria com o total de ocorrências possíveis (ocorridos mais não ocorridos).
Exemplos:
Observe que as taxas representam a relação entre o número de elementos de uma categoria sobre o número
total de elementos. Uma forma comum de expressar essa relação é a escala percentual, que consiste na
multiplicação 100 ou 100%.
Exemplo:
Uma pesquisa levada a 250 clientes da Startup Easy Buy indicou 150 clientes satisfeito. Determine taxa de
insatisfação:
Resolução:
Satisfeitos: 150
Insatisfeitos: 100
7.3 Índices
Os índices são comparações entre duas grandezas, uma das quais não está incluída na outra. Esta medida é
muito útil na identificação do desempenho de processo produtivo, métodos, crescimento de populações,
epidemias, entre outros, possibilitando a mensuração e a comparação para tempos diferentes, unidades de
produção diferentes, locais diferentes, pessoas diferentes, entre outros. Figura 07 – Bolsa de Valores
Neste caso a medida avalia quantas unidades de uma grandeza estão contidas em cada unidade da outra ou a
relação entre essas grandezas.
Exemplos:
Resolução:
Observação:
Taxas são escalas de índices e Coeficientes: Em muitos casos, costuma-se multiplicar os índices por 100, 1.000, 10.000
etc, determinando-se a quantidade de ocorrências de uma grandeza em 100, 1.000, etc. unidades da outra grandeza. Este
ajuste visa simplificar a visualização e análise.
Exemplo:
Determine o índice de criminalidade de uma cidade que apresentou 2.830 homicídios em um período, sendo a
população de 300.000 habitantes.
Resolução:
Veja que não é prática a utilização do valor 0,00943, neste caso aplica-se um fator multiplicativo de base 10
(10, 100, 1000, 10.000, etc). Utilizando o fator 10.000, temos:
Neste caso, os índices correspondem à análise da variação de uma mesma grandeza em momentos ou
situações diferentes. Por exemplo: índices de preço, índices de quantidade, índice de valor, entre outros.
Devido a sua ampla utilização na economia e importância, os números-índices configuram um ramo de estudo.
Os índices dessa natureza são classificados como simples e compostos:
1. Simples: Analisa a variação de uma grandeza (um único item ou variável). O valor do índice pode ser
obtido por uma regre de três simples, resultado na fórmula abaixo:
Vejamos:
Medida 0 100%
Medida t I 0, t
Obtemos:
Onde:
Observação: A situação inicial ou zero corresponde a referencia da análise, desta forma, a medida da situação zero é o
100%.
Variação Percentual
( ) ( )
Exemplo:
Determine o índice e a variação de crescimento da população de 2005 a 2010.
Resolução:
0=2005 (época inicial);
t=2010 (época atual).
Índices simples:
De acordo com sua natureza e utilização, os principais índices simples são: Preço, quantidade e valor.
Propriedades:
Os relativos ou índices satisfazem uma série de propriedades, que são propriedades desejadas e buscadas
na construção de índices, as principais são: Decomposição das causas, Identidade, reversão no tempo,
homogeneidade, circularidade e circularidade.
Decomposição das Causas: Possibilitar decompor um índice em índices como fatores das variáveis que
os compõem. Para o índice de valor, temos que:
Identidade: Considerando que a época base é igual à época atual, temos que:
No exemplo:
Km: quilometro e m: metro
Circularidade: Se o intervalo de análise é decomposto em vários subintervalos, o índice pode ser obtido
como o produto dos índices nos subintervalos ou índices intermediários.
Exemplo: Os dados abaixo referem aos preços de um produto de 2013 a 2018. Determine os índices de preços
de cada ano nos seguintes casos:
a) Com base em 2013;
b) Com base no ano anterior.
Mudança de Base
Em muitos casos faz-se necessário rescrever uma série de índice de uma base em outra base. O
procedimento consiste em dividir os índices gerados pelo valor da base pretendida.
Exemplo: Retornando ao exemplo anterior, apresente os índices agora com base em 2015. Temos então:
Observação: Caso a mudança de base seja construída a partir de uma série de base móvel, basta utilizar a
circularidade e a reversão no tempo, vejamos:
Analisa a variação de um conjunto de variáveis (produtos, serviços, etc). Neste caso é necessário o uso
medidas de consolidação de dados, tais como: Média aritmética simples, média ponderada, média
geométrica, média harmônica, entre outras.
Bradstreet
Uma foi de abordar o problema de agregação de produtos diferentes foi proposta Bradstreet, trata-se
da razão entre o preço, quantidade ou valor total na época atual com relação à época base.
∑
∑
∑ ∑
∑
∑
∑ ∑
∑
∑
∑ ∑
Sauerbeck
Uma alternativa utilizando a média aritmética dos relativos foi proposta por Sauerbeck. As indicações
abaixo correspondem às aplicações para o índice de preço, de forma análoga, podem ser aplicados aos
índices e quantidade e valor.
Média Aritmética
∑
Média Harmônica
∑
Média Geométrica
√ √∏
Exemplo: Supondo que a sexta básica fosse constituída de apenas três produtos: Carne, feijão e arroz.
Determine os índices agregativos simples de preço utilizando os métodos: média aritmética, média harmônica
e média Geométrica. Utilize como época base o ano de 2010.
Média aritmética:
Média Harmônica
Média Geométrica
√
√
√
Quanto aos objetivos os indicadores podem ser classificados com operacionais, táticos e estratégicos:
Táticos: Tem a função de avaliar o desempenho das ações de coordenação e atividades de suporte ao
desempenho do processo. Estes indicadores medem a contribuição das áreas para o atingimento dos
objetivos estratégicos.
Eficácia é a relação entre os resultados obtidos e os resultados pretendidos: fazer da melhor maneira,
isto é: atingir os resultados esperados.
Exemplo: Nível de aprendizado, percentual de itens defeituosos, etc.
Eficiência é relação entre os resultados obtidos e os recursos empregados: fazer da melhor maneira
utilizando a menor quantidade possível de recursos.
Exemplos: produtividade, redução de custos, etc.
Além da classificação eficiência e eficácia, os indicadores também são podem ser classificados como
indicadores de esforço e resultados, vejamos:
Esforço: mensura apenas o esforço empregado na realização da atividade, avalia o grau de aplicação do
esforço para obtenção de determinado objetivo.
Exemplos: Nº de prospecções (visitas);
Realizado ou atual: número que retrata o desempenho do indicador para um período especificado.
Exemplo: vendas no mês abril: R$ 180.000,00
GAP: Diferença entre os valores da meta e valor real. Isso pode acontecer devido a fatores externos
(mercado, planos de governo, alta do dólar, períodos de estiagem, etc), lacunas no planejamento ou na
execução.
Exemplo: Real = 90%, Meta = 100%, GAP = 100% - 90% = 10%
Periodicidade: De quanto em quanto tempo o indicador será coletado e disponibilizado para análise. A
periodicidade está muito relacionada com própria disponibilidade da coleta do indicador e com a
periodicidade da análise e/ou necessidades da sua utilização. Neste caso também é determinante para
a periodicidade do indicador a classificação como Estratégico, Tático e Operacional.
Exemplo: Mensal, trimestral, bianual, etc.
Tipo (acumulado / não acumulado): Utilização do valor acumulado até o período ou apenas o valor
coletado dentro do período.
Exemplos:
Acumulado: despesa realizada até o mês de abril (janeiro à abril);
Não acumulado: receita do mês de abril.
Fórmula de cálculo: descrição da fórmula utilizada e das medidas que compõem a mesma para
determinação do valor do indicador. A importância é a rastreabilidade por parte de pessoas de dentro
ou fora empresa, facilita a análise, auditorias e permite fazer compatibilizações caso seja necessário
comparar com desempenho de outros processos ou mesmo de outras instituições.
Exemplo:
( )
Observação: caso o conceito dos termos sejam conceitos usuais ou de acesso geral, a descrição destes pode ser
omitida. No exemplo acima, os conceitos de receita de serviços e despesas correntes são conceitos comuns de
orçamento.
Exemplo:
Indicador: Vendas; Real = R$ 180.000,00; Meta = R$ 200.000,00; % Realizado = 90%, GAP =
10%.
Análise: O resultado é satisfatório para o período, considerando que o mercado está
desfavorável. Além disso, o indicador apresentou significativa melhoria em relação ao período
anterior (20%). Com a implantação do novo sistema de relações com o mercado e com a
implantação do setor especializado em vendas, o indicador apresenta-se posicionado de forma
adequada.
A definição das metas é etapa de grande importância para a utilização dos indicadores, pois são as metas que
determinam do desafio ou o padrão ideal para o indicador. Esta definição deve considerar as condições do
processo sobre capacidade instala, disponibilidade da dos dados e o desfio proposto. Para auxiliar a
determinação das metas pode-se utilizar a metodologia AMART. Vejamos:
Indicador / Meta
Iniciativa
Respostas às Estratégica:
Indicador Reclamações Implantar
Plano de
Capacitação
90% das dos Atendentes
Meta reclamações
atendidas
Experimento Aleatório:
São aqueles que não são previsíveis, mesmo que repetido em idênticas condições, ou seja, ocorrem ao acaso.
As situações mais simples correspondem a lançamentos de moedas, lançamentos de dados, retiradas de bolas
de urnas entre outros.
Evento (E):
Exemplo: Lançam-se uma moeda e um dado. Enumere o seguinte evento: E1: Sair cara na moeda e E2: face par
no dado.
Moeda:
1 = {C, K}, onde C: Cara e K: Coroa.
E1 = {C}
Dado:
2 = {1, 2, 3, 4, 5, 6}
E2 = {2, 4, 6}
Evento certo: É o evento que ocorre com certeza. O espaço amostral pode ser considerado como evento
certo, já que fatalmente sempre ocorre um elemento do espaço amostral. Do ponto de vista prático, os
eventos categorizados como “certos” não são foco de estudo da Probabilidade.
Evento impossível: É o evento que nunca ocorre (). Analogamente, eventos categorizados como impossíveis
também não são foco do estudo de probabilidade.
Exemplo: Investigam-se famílias com 4 crianças, anotando-se a configuração segundo o sexo. Determine o
espaço.
Resolução:
Sejam os eventos:
M: Masculino e F: Feminino
={(M;M;M;M); (F;M;M;M); (M; F;M;M); (M;M; F;M); (M;M;M;F); (F; F;M;M); (F;M; F;M); (F;M;M; F); (M;
F;M; F); (M;M; F; F); (M; F; F;M); (F; F; F;M); (F; F; M; F); (F; M; F; F); (M; M; F; F; F);( F; F; F; F)}
Evento que ocorre se, e somente se, pelo menos um dos eventos ocorre.
Sejam eventos A e B:
Exemplo: Seja o experimento: “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
Observe que: Quando ocorrer 2, 4 ou 6, ocorre o evento A; quando ocorre 1 e 2, ocorre o evento B; quando
ocorre 2 ocorrem A e B.
4
2 1
6
Evento Interseção ( ):
Sejam eventos A e B:
A B: “ocorre A e ocorre B”
Caso geral: ⋂
Exemplo: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
Observação: O conceito de número primo utilizado aqui é: todo número com exatamente dois divisores
positivos, ele mesmo e a unidade. Desta forma, o 1 não é primo.
O evento interseção é formado pelos elementos que pertencem simultaneamente aos eventos A e B. Observe
que: quando ocorre o 2, ocorre o evento A e ocorre o evento B.
São eventos que não ocorrem simultaneamente, ou seja, a ocorrência de um deles anula a ocorrência do(s)
outro(s). Assim:
Exemplo: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
São eventos mutuamente exclusivos e que geram o espaço amostral. São também chamados de partições.
Assim:
⋃
Exemplo: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
A={1, 2}
B={3, 4}
C={5, 6}
Temos que: A B = , B C = , A C = e A B C =
Eventos complementares :
O complemento de um evento “A”, denotado por , consiste em todos os resultados em que o evento “A”
não ocorre, ou seja, é o acontecimento complementar de A. Eventos complementares é um caso particular de
eventos coletivamente exaustivos.
A B
As operações de união e interseção definidas acima podem ser estendidas para qualquer quantidade de
eventos. Desta forma definem-se as seguintes propriedades:
De acordo a Lei de Laplace: Seja um espaço amostral equiprovável (quando todos tem a mesma
probabilidade de ocorrer), de um experimento aleatório e A um evento desse espaço amostral finito, a medida
da probabilidade de do evento A será definida por:
Pode-se considerar que a probabilidade de um evento equivale à frequência relativa deste evento se o mesmo
fosse repetido infinitas vezes. Considere o seguinte experimento hipotético: Lançar repetidas vezes uma
moeda e registrar o número de resultados cara. Qual a tendência para o número de caras e coros á medida
que o número de lançamento aumenta? Sendo uma moeda honesta, o número de caras tende a ser igual ao
número de coroas. Desta forma, em modelos equiprováveis, a probabilidade de um evento A pode ser
expresso como:
Métodos Quantitativos para Engenharia | Medida de Probabilidade: 78
Exemplo:
Segue abaixo uma simulação para o nº de caras em n lançamentos de uma moeda não viciada. O objetivo é
analisar a convergência da probabilidade para 0,5 á medida que n aumenta.
𝑛
Assim:
Propriedades:
I. Dois eventos: A e B:
Se os eventos forem mutuamente exclusivos, ou seja, não ocorrem simultaneamente, isto é, A B = então:
P (A B) = 0, assim:
Quando as probabilidades de eventos mutuamente exclusivos somam 1, diz-se que os eventos são
coletivamente exaustivos, nesse caso não existem outros resultados possíveis.
Pode-se perceber que quando se contabiliza os elementos de A, B e C, as interseções dois a dois são
duplicadas, por exemplo: AB é contabilizada uma vez com A e outra vez com B. A ideia é subtrair todas as
interseções dois a dois para correção do excesso. Por outro lado, as interseções três a três também são
contabilizadas três vezes, uma com A, outra com B e outra com C, entretanto são subtraídas três vezes, uma
com AB, outra com AC e outra com BC, ou seja, ficou vazio, por isso corrige-se somando a interseção três
a três (ABC). De forma geral, Adicionam-se as interseções impares e subtraem-se as interseções pares. O
teorema da soma pode ser generalizado pelo princípio da Inclusão – Exclusão (PIE).
II. O número de elementos que pertencem a pelos menos um dos conjuntos é dado por:
Resolução:
O número procurado é . Pelo PIE significa para n=3 e p=1, isto é:
Assim:
∑ ∑ ∑
Como:
Então:
Dois eventos A e B associados a um espaço amostral são ditos dependentes quando a ocorrência de um
influencia ou está vinculada a ocorrência do outro.
Exemplo: Considere um grupo de pessoas categorizadas pelo sexo e pelo uso ou não de certo produto.
Usa o produto
Sexo Total
Sim Não
Masculino 20 10 30
Feminino 15 5 20
Total 35 15 50
Qual seria a probabilidade de uma pessoa usar o produto considerando apenas as pessoas do sexo masculino?
Podemos perceber que foi imposta uma condição, e que esta condição alterou o total de casos possíveis. Esta
situação será definida como probabilidade condicional.
Onde:
n(A B) = 20: (pessoas que usam o produto dentre as pessoas do sexo masculino)
n(B) = 30: (pessoas do sexo masculino)
A regra produto corresponde à relação que permite encontrar a probabilidade de ocorrência do evento (A
B). Partindo-se da Probabilidade Condicional, temos que:
Assim:
Dois eventos A e B associados a um espaço amostral são ditos dependentes quando a ocorrência NÃO
influencia da ou não está vinculada a ocorrência do outro.
Exemplo: Em dois lançamentos consecutivos de uma moeda, qual a probabilidade do segundo lançamento
resultar em cara, sabendo-se que foi cara no primeiro lançamento? Pode-se notar que o conhecimento imposto
pela condicional (primeiro lançamento) não altera a probabilidade do evento.
Importante: “Se A e B são eventos independentes, a probabilidade de A e B ocorrerem é dado pelo produto das
probabilidades de A e B”.
Onde: ∏ é “produtório” ou produto das probabilidades dos eventos de A1, A2, ..., An
A regra da multiplicação é extremamente importante em virtude de suas inúmeras aplicações, vejamos alguns
exemplos:
1) Os resultados do lançamento de uma moeda e de um dado são exemplos de eventos independentes,
porque o resultado da moeda não afeta a probabilidade do resultado do dado. Por outro lado, os
eventos “conseguir dar partida no carro” e “chegar à aula no horário” são dependentes, por que o
resultado da operação de dar partida no carro influi na probabilidade de chegar à aula no horário.
2) A confiabilidade de um sistema aéreo: Os aviões têm dois sistemas elétricos independentes e dois
rádios. Um avião deve levar dois transceptores de radar, porque se um único falhar o avião se torna
invisível na tela do radar. Se a probabilidade de um desses componentes falhar é de 0,001, ou seja,
1/1000 (um para cada mil), a probabilidade de dois falharem simultaneamente é de apenas 0,001², ou
seja, 1/1.000.000 (um para cada um milhão).
3) Em uma caixa existem 5 bolas brancas e 8 bolas azuis. Duas bolas são retiradas uma após a outra da
caixa, aleatoriamente. Determine a probabilidade de saírem duas bolas brancas nos seguintes casos:
a) Sem reposição
b) Com reposição
a) Sem reposição: significa que a primeira bola sorteada não volta para a caixa, ou seja, a retirada da
primeira bola interfere na probabilidade da segunda, caracterizando B1 e B2 com eventos dependentes.
Além disso, correrem duas bolas brancas em duas retiradas corresponde a probabilidade :
b) Com reposição: significa que a primeira bola sorteada volta para a caixa, ou seja, a retirada da primeira
bola não interfere na probabilidade da segunda, caracterizando B1 e B2 como eventos independentes.
Analogamente, correrem duas bolas brancas em duas retiradas, corresponde a probabilidade :
Resolução:
a)
( )
b) Analogamente
( ) ( )
Exercício: Determine a confiabilidade do sistema representado pelo diagrama abaixo, assuma que cada
componente funciona independentemente.
0,85
0,90
0,90
Resolução:
Para que o sistema continue operando é necessário que seja possível fluxo do primeiro terminal até o segundo,
chamaremos de I e II, para tanto a primeira componente e pelo menos uma das duas em paralelo estejam
operando. Chamaremos nessa ordem de componentes A, B e C, assim: [ ] Aplicado às regras do
produto e soma:
[ ] [ ] [ ]
Exemplo: Quantas vezes, no mínimo, se deve lançar um dado não tendencioso para que a probabilidade de
obter algum 6 seja superior a 0,9?
Seja A o evento ocorrer pelo menos um 6 (dado), desta forma ̅ corresponde ao evento ocorrer nenhum 6:
̅ ̅
Assim:
Para cada um dos n lançamentos, a probabilidade de ocorrer 6 é 1/6 e a de não ocorrer é 5/6, temos:
( ) ( )
( ) ( )
Esquematicamente, seria:
A2
A1
A4
A3
...Aj
Vejamos um exemplo:
Considere a disposição das urnas U1, U2 e U3, cada uma delas contendo 10 bolas de mesmo tamanho, porém
nas cores , Azul e Vermelha cujas quantidades totais são respectivamente iguais a 8, 13 e 9, conforme
indicado na tabela abaixo:
Urnas
Cores das bolas Total
U1 U2 U3
Branca 4 2 2 8
Azul 2 6 5 13
Vermelha 4 2 3 9
Total 10 10 10 30
O procedimento consiste em sortear uma urna e desta urna sortear uma bola. Sorteando-se uma urna e em
seguida uma bola-se, verifica-se que esta bola é branca. Qual a probabilidade dela ter vindo da urna 2?
Resolução:
Sejam os eventos:
O sorteio das urnas pode ser considerado equiprovável, ou seja, qualquer urna tem 1/3 de probabilidade de ser
sorteada, assim:
A1 A
A2 A
A3 A
Podemos Perceber que o cálculo se restringe a identificar o total de bolas brancas oriundas da urna 2 sobre o
total de bolas brancas.
Exemplo: Uma companhia multinacional tem três fábricas que produzem o mesmo tipo de produto. A fábrica
I é responsável por 30% do total produzido, a fábrica II produz 45% do total, e o restante vem da fábrica III.
Cada uma das fábricas, no entanto, produz uma proporção de produtos que não atendem aos padrões
estabelecidos pelas normas internacionais. Tais produtos são considerados “defeituosos” e correspondem a
1%, 2% e 1,5%, respectivamente, dos totais produzidos por fábrica. No centro de distribuição, é feito o controle
de qualidade da produção combinada das fábricas.
Nas análises anteriores, enquadradas na fase descritiva de um conjunto de dados, foram realizados
estudos sobre o comportamento de variáveis tais como: Peso, Altura, Tensão de Ruptura de Blocos de
Concreto, Número de Filhos, Número de quedas em uma rede de transmissão, entre outras. A característica
desta fase era trabalhar com dados de uma amostra já realizada, ou seja, de valores cujas ocorrências já foram
verificadas. O estudo das variáveis aleatórias consiste em analisar a probabilidade de ocorrências destas
variáveis, ou seja, a probabilidade de ocorrência dos seus valores. Assim, de uma maneira simplificada,
podemos definir variável aleatória como sendo:
Uma variável quantitativa cujo valor depende de fatores aleatórios. Matematicamente, variável aleatória é
uma função que associa elementos de um espaço amostral a valores numéricos, ou seja, .
R
X
)
Variável Aleatória
De maneira simplificada, pode-se também entender como Regra que atribui um valor numérico a cada
possível resultado de um experimento aleatório. Com esta visão, pode-se verificar que o espaço amostral pode
ser quantitativo ou não, a Variável aleatória sempre atribuirá quantidades, por isso definida como variável
quantitativa. As variáveis aleatórias são classificadas de acordo com a caracterização do conjunto de valores
que ela pode assumir, assim:
X(Ω): Assume finitos valores em um intervalo finito ou ainda, é um conjunto finito ou infinito enumerável.
Exemplos:
X1: Número de caras em dois lançamentos de uma moeda não viciada X1(Ω) = {0, 1, 2}
X2: Número de navios que chegam em um porto em um dado dia X2(Ω) = {0, 1, 2, 3, ..., ∞}
Distribuição de Probabilidade
Para uma V.A. discreta a distribuição de probabilidade é uma tabela contendo os pares ordenados [x, P(X=x)],
onde X é variável aleatória e x corresponde a cada valor particular da variável.
Exemplo:
Seja X a v. a. discreta número de caras em dois lançamentos de uma moeda não viciada. Determine:
a) Ω (espaço amostra)
b) X(Ω) (conjuntos de valores da variável)
c) A distribuição de Probabilidade.
P(X=x)
Como os resultados das moedas são independentes, podemos aplicar a regra do produto, assim:
Função de Probabilidade:
Função de probabilidade corresponde ao modelo matemático que permite atribuir probabilidade aos valores
da variável aleatória discreta.
I. P(X=x) ≥ 0
II. ∑
Como valores x correspondem ao antigo espaço amostral, a soma das probabilidades de todos os valores deve
ser igual a 1. A condição informa que a probabilidade de para qualquer x é sempre não negativa. Com estas
condições temos que 0 ≤ P(X=x) ≤ 1
Exemplo:
Uma V.A discreta possui Função de Probabilidade dada pela expressão abaixo:
Pode-se perceber que a série corresponde a soma dos termos de uma PG infinita de razão 1/4:
Lembrete:
| |
Logo:
( )
Define-se como Esperança Matemática de uma varável aleatória discreta o número dado por:
[ ] ∑
Variância:
[ ] [ ] [ ]
Onde:
[ ] ∑
Exemplo:
Calcular Esperança e Variância para a variável X: nº de caras em dois lançamentos de uma moeda não viciada.
Resolução:
Esperança: [ ] [ ]
Variância: [ ] [ ] [ ]
[ ] [ ] [ ]
X(Ω): Assume infinitos valores em um intervalo finito ou ainda, é um conjunto infinito não enumerável.
Exemplo:
Para uma V.A. contínua a Função Densidade de Probabilidade é função que atribui probabilidades à intervalos
da variável. Uma vez que a probabilidade neste caso é numericamente igual sob à curva no intervalo
considerado. Assim:
Figura 11 – A probabilidade como a área sob a curva
I. f(x) ≥0
II. ∫
III. Se a função satisfaz as propriedades acima, então f(x) representa uma variável aleatória contínua X,
de modo que:
∫
Exemplo:
O tempo de vida de um componente eletrônico tem distribuição exponencial com tempo médio de vida de 2
anos e cuja Função Densidade de Probabilidade (FDP) é dada por:
Resolução:
∫ ( ) 0,5276
Define-se como Esperança Matemática para uma variável aleatória contínua o número dado por:
[ ] ∫
Variância:
[ ] [ ] [ ]
Onde:
[ ] ∫
Analogamente ao caso discreto, as caracterizações da Esperança e da variância são as mesmas da média
aritmética e da variância da análise descritiva, a diferença reside no fato da esperança matemática usar
probabilidades como frequências. Desta forma, a leitura de média vai para “valor médio esperado”.
Exemplo:
Seja X a v.a. contínua que modela a concentração de uma substância no leito de um esgoto.
A f.d.p de x é dada por f(x) = 2x, 0< x < 1. Determine Esperança, Variância e Desvio Padrão. Resolução:
[ ] ∫ ∫ | [ ]
[ ] [ ] [ ]
[ ] ∫ ∫
[ ] ( ) [ ]
[ ] √ [ ] √ [ ]
Propriedades da Esperança
Propriedades da Variância
Exemplo: O salário de um vendedor é dado por um salário fixo S0=R$ 1200,00 de acordo com a fórmula:
a) A média do salário
b) O desvio padrão do salário
Resolução:
a) E[S] = E[S0 + 0,15.V ]=E[S0]+ E[0,15.V ]=E[S0]+ 0,15.E[V ]=1200 + 0,15.1000 E[S]=R$ 1350,00
b) V[S] = V[S0 + 0,15.V ]=V[S0 ]+ V[0,15.V ]= V[S0 ]+ 0,152.V[V ]= 0+0,0225.8100 V[S]= (R$)2 182,25. Logo
DP[S] = √ [ ] √ DP[S]=R$ 13,50
São variáveis cujo conjunto de valores que a ela pode assumir é finito de ou infinito enumerável, ou seja,
que se pode atribuir uma contagem. Estas distribuições modelam diversas situações práticas, como por exemplo:
Nº de peças defeituosas em uma linha de montagem, nº acidentes por hora em uma empresa, nº clientes
satisfeitos em uma carteira de clientes. Esta nota de aula abordará somente as distribuições: Binomial, Poisson e
Hipergeométrica.
P (Sucesso) = p e
P (Fracasso) = 1-p
Para uma V.A discreta X, a função de probabilidade e função que associa probabilidade a cada valor x da
variável aleatória X. Para a distribuição Binomial temos:
S F F S .... F S
p 1-p 1-p p .... 1-p p
Considerando que em n repetições do experimento tem-se x sucessos e n-x fracassos. Cada sucesso com
probabilidade p e cada fracasso com probabilidade 1-p, temos então:
( )
Onde:
n: Número de repetições do experimento;
x: número de sucessos;
Métodos Quantitativos para Engenharia | Distribuições Discretas de Probabilidade 96
p: Probabilidade de sucesso em cada repetição;
1-p: Probabilidade de fracasso em cada repetição;
( ) é o coeficiente binomial,e que conta a quantidade de filas com x sucessos e n-x fracassos, e seu
valor é dado por:
( )
Importante lembrar que: 0! =1 e 1! =1
Importante: A maioria das calculadoras científicas apresenta a função que calcula o valo do coeficiente binomial: (𝑛𝑥)
A função é nCr, onde n corresponde ao número de tentativas e r ao número de sucessos na amostra (x)
[ ]
Exemplo:
Seja X a V.A. nº de sucessos em 5 lançamentos de uma moeda não - viciada. Determinar:
Resolução:
Inicialmente, vamos verificar se este exemplo se enquadra em um modelo binomial verificado as três condições
que caracterizam o modelo:
Desta forma, a X: nº de caras é uma autentica variável aleatória com distribuição binomial e seus parâmetros
são: n=5 e p=0,5. Assim:
X: nº de caras
X ~ B (5;0,5)
( )
( )
( )
Como as probabilidades estão em pontos, a probabilidade procurada pode ser calculada da seguinte forma:
Outra forma seria raciocinar da seguinte forma: Qual o complementar de pelo menos um? A resposta é
nenhum! Vejamos;
P(X=0) = 0,03125
P(X=1) = 0,15625
P(X=2) = 0,31250
[ ]
As probabilidades do modelo Binomial podem ser calculadas no Excel de acordo com a sintaxe abaixo:
Então:
X: nº de sucessos
[ ]
Exemplo:
Sabe-se que a cada dia chegam, em média, 2 navios em um porto. Considerando a chegada de um navio em
qualquer dia é independente. Determine a probabilidade de chegarem a este porto em dia qualquer:
Resolução:
Inicialmente, vamos verificar as condições do modelo;
Então a v.a X: nº de navios que chegam ao porto é uma autentica distribuição de Poisson, logo;
Aplicando o complementar P(X≥1) =1- P(X<1) = 1-P(X=0), logo P(X≥1) =1-0,1353=0,8647 ou 86,47%
Como são inteiros não-negativos, P(X<3)= P(X≤2), logo: P (X<3) = P(X=0) + P(X=1) + P(X=2)
Observação: os valores parciais foram arredondados para quatro casas pelo método tradicional.
Em muitas situações nos deparamos com a situação em que o número de repetições n é grande epé
pequeno , no cálculo da função binomial, o que nos leva a algumas dificuldades, pois, como podemos
analisar, para n muito grande e p pequeno, fica relativamente difícil calcularmos a probabilidade de sucessos
a partir do modelo binomial, isto é, utilizando a função de probabilidade.
( )
Observamos que podemos reescrever a expressão acima da seguinte forma:
( )
e, tomando , segue que:
( ) ( )( )
Se tomarmos o limite quando , obtemos que:
( ) ( )= 1 e
( ) ( )
Assim temos que:
Esta é apenas uma das proposições, importante destacar que quanto maior o n e quanto menor o p, melhor
será a aproximação.
Ao utilizarmos Poisson como aproximação da Binomial, de acordo com o exposto acima, o valor de λ é obtido
pela fórmula: λ= np.
Significa que, dentro destas condições, uma probabilidade dada pelo modelo Binomial de parâmetros n e p se
aproxima do valor dado pela Poisson de parâmetro λ= np.
Exemplo:
Considere a v.a
Com a Binomial:
( )
Métodos Quantitativos para Engenharia | Distribuição de Poisson como Aproximação da Binomial 101
Como n =200 ( ≥ 100) e n.p=2 (≤5), podemos aproximar o cálculo da Binomial pela Poisson parâmetro 2,
logo:
Considere a v.a
Com a Poisson
Seja X a v.a. nº de sucessos obtidos em uma amostra de n retirada sem reposição de população de N, dos quais
r elementos apresentam a característica de interesse (sucesso). Então:
X: nº de sucessos
Este modelo difere do modelo binomial pela não reposição das peças, veja que se as retiradas forem com
reposição, a probabilidade de sucesso torna-se constante, e temos então um modelo binomial.
A probabilidade de x sucessos consiste em calcular quantos grupos de tamanho n podemos montar com x
sucessos obtidos entre r sucessos disponíveis e n-x fracassos obtidos entre N-r fracassos disponíveis e dividir
este quantitativo pelo total de grupos possíveis de tamanho n entre N elementos disponíveis.
( )( )
( )
[ ] ( ) ( ) ( )
Exemplo:
Seja X a v.a. nº de peças defeituosas entre 5 peças retiradas sem reposição de um grupo contando 20 peças,
das quais a 8 são defeituosas. Qual a probabilidade de apenas uma das peças ser defeituosa?
Resolução:
Neste caso, basta identificar os parâmetros da distribuição e a não reposição dos elementos, assim:
X: nº de peças defeituosas
Devemos escolher 1 defeituosa entre as 8 defeituosas (r) e 4 entre as 12 não defeituosas (N-r), isso pode ser
feito da seguinte forma:
( )( ) ( )( ) ( )( )
Calculando:
( ) (formas de escolher 1 entre 8)
( ) (formas de escolher 4 entre 12)
Esta contagem corresponde ao número de casos favoráveis, para o cálculo da probabilidade precisamos do
número de casos possíveis, qual seria este número?
O total de grupos possíveis de se formar de 5 (n) peças escolhidas entre 20(N), assim:
( ) ( )
Calculando:
( )
( )( ) ( )( ) ( )( )
( ) ( ) ( )
As probabilidades do modelo Hipergeométrico podem ser calculadas no Excel de acordo com a sintaxe
abaixo:
Já identificamos que a diferença básica entre a distribuição Hipergeométrica e Binomial é a não reposição dos
elementos selecionados, ou seja, na Hipergeométrica a probabilidade de sucesso muda a cada retirada. Mas o
que aconteceria com esta variação quando ? Por exemplo: de um grupo com 10.000, das quais 2.000
são defeituosas, seleciona-se ao caso e sem reposição 5 peças. A probabilidade de se encontrar peças
defeituosas seria muito afetada pela não reposição? Não, e a medida que N é grande com relação a n esta
aproximação é melhor. Vejamos:
e ( )
Onde:
r: nº de sucessos na população
p: probabilidade de sucessos (Binomial)
N: tamanho da população
n: tamanho da amostra
Logo:
[ ]
[ ] ( ) ( ) ( )
Quando uma variável aleatória X segue uma distribuição binomial, fica restrita a
Johann Carl Friedrich Gauss
assumir somente valores inteiros. Em diferentes circunstâncias, no entanto, os
resultados de uma v.a. podem não estar limitados a inteiros ou a contagens.
Suponha que X represente a altura de um indivíduo. Raramente um indivíduo
tem exatamente 1,67 cm ou 1,68 cm de altura. Teoricamente X, pode assumir
um número infinito de valores intermediários, como 1,6704 cm ou 1,6832 cm.
Trata-se de uma v.a contínua em que se os números de valores possíveis de X se
aproximam do infinito, a largura do intervalo se aproxima de zero, o gráfico
paulatinamente se parecerá com uma curva suave, que é usada para
representar a distribuição de probabilidade de uma v.a. contínua, chamada de
função densidade de probabilidade. A distribuição contínua mais comum é a
distribuição normal. O conhecimento desta distribuição de probabilidade se deve a Abraham de Moivre (1667-
1754) que, em 1733, apresentou a função que a representa. Tratava-se até então de um exercício teórico, sem
aplicação prática. J. Bernoulli (1654-1705) acreditava que poderia haver aplicação na área da economia, no
entanto, o uso desses conhecimentos na prática se deve a Pierre-Simon Laplace (1749-1827) na França e a
Johan K.F. Gauss (1777-1855) na Alemanha. A distribuição normal é também conhecida como “distribuição
Gaussiana” pela suposição de que Gauss foi a primeira pessoa a reafirmar o papel fundamental proposta por
Moivre. Sua aplicação na análise de dados na área da biomedicina é grande, pois muitas variáveis numéricas
contínuas de estudos anteriores comprovaram que têm distribuição normal ou aproximadamente normal.
Como por exemplo, podemos citar a altura, o peso, o índice de massa corporal (IMC), dentre outras. Alguns
dos principais métodos empregados na análise estatística (Teste t de Student, Análise de Variância, Análise
de Regressão, dentre outros) exigem que os dados tenham distribuição normal para sua realização.
A distribuição normal é uma das mais importantes distribuições contínuas de probabilidade, pois muitos
fenômenos aleatórios comportam-se de forma próxima a essa distribuição, ou seja, apresentam um
comportamento que adere a curva de Gauss. Diz-se que a variável “segue” modelo normal ou
“aproximadamente” Normal. Exemplos:
1. altura;
2. pressão sanguínea;
3. peso;
Então, a distribuição normal é uma distribuição de probabilidade usada para variáveis aleatórias contínuas
(obtidas por mensuração), com a seguinte notação:
.
Características da distribuição normal
( )
√
Onde:
Temos que:
I.
II. ∫ (a área sob curva é igual a 1)
Esperança e variância
[ ]
[ ]
Como colocado anteriormente, as probabilidades em modelos contínuos correspondem à área sob a curva da
Função Densidade de Probabilidade (fdp). Contudo, uma característica importante da distribuição Normal é
que a área sob a curva é a mesma para o mesmo número de desvios padrões.
Uma regra que auxilia a interpretação de um desvio padrão é a regra chamada de Regra Empírica, aplicável
somente a conjunto de dados com distribuição normal ou aproximadamente em forma de sino, pois mostra
como a média e o desvio padrão estão relacionadas com a proporção dos dados que se enquadram em
determinados limites. A regra é a seguinte:
De forma resumida, a distribuição Normal padrão é uma distribuição de média 0 (zero) e variância (um), obtida
a parir de qualquer distribuição normal através da transformação indicada acima. Segue abaixo a função
densidade de probabilidade da distribuição Normal Padrão:
Com a transformação indicada (z), a média é igual a zero e variância igual a um, desta a função densidade de
probabilidade assume a seguinte forma.
Desta forma, qualquer que sejam os valores de a distribuição pode ser convertida em outra distribuição
normal. Esta distribuição é chamada de Distribuição Normal Padrão cuja média é 0 (zero) e a variância 1(um).
A transformação é realizada da seguinte forma:
Onde Z corresponde ao número de desvios padrões a partir da média, por exemplo, se Z=2 significa de a
distância de X até é duas vezes o .
→
Tabela normal padrão
A partir da densidade da Normal Padrão foram calculadas probabilidades para diversos valores de Z, cuja
precisão é de duas casas decimais para Z e quatro casas decimais para a área (probabilidade), todos estes
valores foram organizados em uma tabela chamada Tabela Normal Padrão.
Existem outras versões para estas tabelas, as alterações consistem basicamente na forma de apresentação dos
valores, as principais variações consideram:
Assim como a tabelas Normal Padrão, existem outras tabelas estatísticas para outras distribuições e que
também apresentam versões diferentes. Uma sugestão é que sejam conhecidas as principais versões de cada
tabela, desde que não haja confusão em sua aplicação. Segue abaixo duas versões da tabela Normal:
z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
0,0 0,0000 0,0040 0,0080 0,0120 0,0160 0,0199 0,0239 0,0279 0,0319 0,0359
0,1 0,0398 0,0438 0,0478 0,0517 0,0557 0,0596 0,0636 0,0675 0,0714 0,0753
0,2 0,0793 0,0832 0,0871 0,0910 0,0948 0,0987 0,1026 0,1064 0,1103 0,1141
0,3 0,1179 0,1217 0,1255 0,1293 0,1331 0,1368 0,1406 0,1443 0,1480 0,1517
0,4 0,1554 0,1591 0,1628 0,1664 0,1700 0,1736 0,1772 0,1808 0,1844 0,1879
0,5 0,1915 0,1950 0,1985 0,2019 0,2054 0,2088 0,2123 0,2157 0,2190 0,2224
0,6 0,2257 0,2291 0,2324 0,2357 0,2389 0,2422 0,2454 0,2486 0,2517 0,2549
0,7 0,2580 0,2611 0,2642 0,2673 0,2704 0,2734 0,2764 0,2794 0,2823 0,2852
0,8 0,2881 0,2910 0,2939 0,2967 0,2995 0,3023 0,3051 0,3078 0,3106 0,3133
0,9 0,3159 0,3186 0,3212 0,3238 0,3264 0,3289 0,3315 0,3340 0,3365 0,3389
1,0 0,3413 0,3438 0,3461 0,3485 0,3508 0,3531 0,3554 0,3577 0,3599 0,3621
1,1 0,3643 0,3665 0,3686 0,3708 0,3729 0,3749 0,3770 0,3790 0,3810 0,3830
1,2 0,3849 0,3869 0,3888 0,3907 0,3925 0,3944 0,3962 0,3980 0,3997 0,4015
1,3 0,4032 0,4049 0,4066 0,4082 0,4099 0,4115 0,4131 0,4147 0,4162 0,4177
1,4 0,4192 0,4207 0,4222 0,4236 0,4251 0,4265 0,4279 0,4292 0,4306 0,4319
1,5 0,4332 0,4345 0,4357 0,4370 0,4382 0,4394 0,4406 0,4418 0,4429 0,4441
1,6 0,4452 0,4463 0,4474 0,4484 0,4495 0,4505 0,4515 0,4525 0,4535 0,4545
1,7 0,4554 0,4564 0,4573 0,4582 0,4591 0,4599 0,4608 0,4616 0,4625 0,4633
1,8 0,4641 0,4649 0,4656 0,4664 0,4671 0,4678 0,4686 0,4693 0,4699 0,4706
1,9 0,4713 0,4719 0,4726 0,4732 0,4738 0,4744 0,4750 0,4756 0,4761 0,4767
2,0 0,4772 0,4778 0,4783 0,4788 0,4793 0,4798 0,4803 0,4808 0,4812 0,4817
2,1 0,4821 0,4826 0,4830 0,4834 0,4838 0,4842 0,4846 0,4850 0,4854 0,4857
2,2 0,4861 0,4864 0,4868 0,4871 0,4875 0,4878 0,4881 0,4884 0,4887 0,4890
2,3 0,4893 0,4896 0,4898 0,4901 0,4904 0,4906 0,4909 0,4911 0,4913 0,4916
2,4 0,4918 0,4920 0,4922 0,4925 0,4927 0,4929 0,4931 0,4932 0,4934 0,4936
2,5 0,4938 0,4940 0,4941 0,4943 0,4945 0,4946 0,4948 0,4949 0,4951 0,4952
2,6 0,4953 0,4955 0,4956 0,4957 0,4959 0,4960 0,4961 0,4962 0,4963 0,4964
2,7 0,4965 0,4966 0,4967 0,4968 0,4969 0,4970 0,4971 0,4972 0,4973 0,4974
2,8 0,4974 0,4975 0,4976 0,4977 0,4977 0,4978 0,4979 0,4979 0,4980 0,4981
2,9 0,4981 0,4982 0,4982 0,4983 0,4984 0,4984 0,4985 0,4985 0,4986 0,4986
3,0 0,4987 0,4987 0,4987 0,4988 0,4988 0,4989 0,4989 0,4989 0,4990 0,4990
3,1 0,4990 0,4991 0,4991 0,4991 0,4992 0,4992 0,4992 0,4992 0,4993 0,4993
3,2 0,4993 0,4993 0,4994 0,4994 0,4994 0,4994 0,4994 0,4995 0,4995 0,4995
3,3 0,4995 0,4995 0,4995 0,4996 0,4996 0,4996 0,4996 0,4996 0,4996 0,4997
3,4 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4997 0,4998
A tabela apresenta precisão para duas casas decimais para Z, sendo a primeira casa indicada na coluna (em
azul) e a segunda na linha (em azul). As probabilidades estão indicadas nos cruzamentos das primeiras e
segundas casas decimais. Por exemplos:
Exemplo:
As medidas da corrente elétrica em pedaço de fio seguem um modelo a distribuição Normal, com uma média
de 10 mA e uma variância de 4 mA2. (mA: miliamperes)
Resolução:
Inicialmente, vamos identificar os parâmetros do modelo:
e
X: Corrente elétrica em miliamperes.
P(10<X<12) =?
O processo consiste em aplicar a padronização e verificar o valor padronizado na tabela normal
padrão:
( )
b) P(X<13), significa a probabilidade da medida da corrente ser menor que 13 mA, assim:
P(X<13) =?
Aplicando a padronização:
( )
Metade da Curva:0,5
Para Z=1,5: 0,4332
Padronização
P(9<X<13) =?
Aplicando a padronização:
( )
Observação: A tabela não fornece probabilidade para valores negativos de Z, para tanto, usa-se a simetria
da distribuição. Ex: P(-0,5<Z<0) = P(0<Z<0,5).
P(12<X<15) =?
( )
Padronização
Para Z=2,5: 0,4939
Como a tabela fornece a probabilidade entre 0 e Z, basta fazer a diferença entre a maior área e a maior,
assim:
e) P (X< a) = 0,9772, qual o valor da medida da corrente tal que a probabilidade abaixo dele é de 0,9772
? assim:
Aplicando a padronização:
( ) ( )
A probabilidade abaixo de a é igual a 0,4772, sendo que 0,5 está abaixo da média e o restante (0,4772)
entre a média e o valor a. Desta forma, qual o valor de Z tal que a área entre ele e a média é de 0,4772?
Z 0,00 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09
-3,0 0,0013 0,0010 0,0007 0,0005 0,0003 0,0002 0,0002 0,0001 0,0001 0,0000
-2,9 0,0019 0,0018 0,0017 0,0017 0,0016 0,0016 0,0015 0,0015 0,0014 0,0014
-2,8 0,0026 0,0025 0,0024 0,0023 0,0023 0,0022 0,0021 0,0020 0,0020 0,0019
-2,7 0,0035 0,0034 0,0033 0,0032 0,0031 0,0030 0,0029 0,0028 0,0027 0,0026
-2,6 0,0047 0,0045 0,0044 0,0043 0,0041 0,0040 0,0039 0,0038 0,0037 0,0036
-2,5 0,0062 0,0060 0,0059 0,0057 0,0055 0,0054 0,0052 0,0051 0,0049 0,0048
-2,4 0,0082 0,0080 0,0078 0,0075 0,0073 0,0071 0,0069 0,0068 0,0066 0,0064
-2,3 0,0107 0,0104 0,0102 0,0099 0,0096 0,0094 0,0091 0,0089 0,0087 0,0084
-2,2 0,0139 0,0136 0,0132 0,0129 0,0126 0,0122 0,0119 0,0116 0,0113 0,0110
-2,1 0,0179 0,0174 0,0170 0,0166 0,0162 0,0158 0,0154 0,0150 0,0146 0,0143
-2,0 0,0228 0,0222 0,0217 0,0212 0,0207 0,0202 0,0197 0,0192 0,0188 0,0183
-1,9 0,0287 0,0281 0,0274 0,0268 0,0262 0,0256 0,0250 0,0244 0,0238 0,0233
-1,8 0,0359 0,0352 0,0344 0,0336 0,0329 0,0322 0,0314 0.0307 0,0300 0,0294
-1,7 0,0446 0,0436 0,0427 0,0418 0,0409 0,0401 0,0392 0,0384 0,0375 0,0367
-1,6 0,0548 0,0537 0,0526 0,0516 0,0505 0,0495 0,0485 0,0475 0,0465 0,0455
-1,5 0,0668 0,0655 0,0643 0,0630 0,0618 0,0606 0,0594 0,0582 0,0570 0,0559
-1,4 0,0808 0,0793 0,0778 0,0764 0,0749 0,0735 0,0722 0,0708 0,0694 0,0681
-1,3 0,0968 0,0951 0,0934 0,0918 0,0901 0,0885 0,0869 0,0853 0,0838 0,0823
-1,2 0,1151 0,1131 0,1112 0,1093 0,1075 0,1056 0,1038 0,1020 0,1003 0,0985
-1,1 0,1357 0,1335 0,1314 0,1292 0,1271 0,1251 0,1230 0,1210 0,1190 0,1170
-1,0 0,1587 0,1562 0,1539 0,1515 0,1492 0,1469 0,1446 0,1423 0,1401 0,1379
-0,9 0,1841 0,1814 0,1788 0,1762 0,1736 0,1711 0,1685 0,1660 0,1635 0,1611
-0,8 0,2119 0,2090 0,2061 0,2033 0,2005 0,1977 0,1949 0,1922 0,1894 0,1867
-0,7 0,2420 0,2389 0,2358 0,2327 0,2297 0,2266 0,2236 0,2206 0,2177 0,2148
-0,6 0,2743 0,2709 0,2676 0,2643 0,2611 0,2578 0,2546 0,2514 0,2483 0,2451
-0,5 0,3085 0,3050 0,3015 0,2981 0,2946 0,2912 0,2877 0,2843 0,2810 0,2776
-0,4 0,3446 0,3409 0,3372 0,3336 0,3300 0,3264 0,3228 0,3192 0,3156 0,3121
-0,3 0,3821 0,3783 0,3745 0,3707 0,3669 0,3632 0,3594 0,3557 0,3520 0,3483
-0,2 0,4207 0,4168 0,4129 0,4090 0,4052 0,4013 0,3974 0,3936 0,3897 0,3859
-0,1 0,4602 0,4562 0,4522 0,4483 0,4443 0,4404 0,4364 0,4325 0,4286 0,4247
0,0 0,5000 0,4960 0,4920 0,4880 0,4840 0,4801 0,4761 0,4721 0,4681 0,4641
0,0 0,5000 0,5040 0,5080 0,5120 0,5160 0,5199 0,5239 0,5279 0,5319 0,5359
0,1 0,5398 0,5438 0,5478 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753
0,2 0,5793 0,5832 0,5871 0,5910 0,5948 0,5987 0,6026 0,6064 0,6103 0,6141
0,3 0,6179 0,6217 0,6255 0,6293 0,6331 0,6368 0,6406 0,6443 0,6480 0,6517
0,4 0,6554 0,6591 0,6628 0,6664 0,6700 0,6736 0,6772 0,6808 0,6844 0,6879
0,5 0,6915 0,6950 0,6985 0,7019 0,7054 0,7088 0,7123 0,7157 0,7190 0,7224
0,6 0,7257 0,7291 0,7324 0,7357 0,7389 0,7422 0,7454 0,7486 0,7517 0,7549
0,7 0,7580 0,7611 0,7642 0,7673 0,7703 0,7734 0,7764 0,7794 0,7823 0,7853
0,8 0,7881 0,7910 0,7939 0,7967 0,7995 0,8023 0,8051 0,8078 0,8106 0,8133
0,9 0,8159 0,8186 0,8212 0,8238 0,8264 0,8289 0,8315 0,8340 0,8365 0,8389
1,0 0,8413 0,8438 0,8461 0,8485 0,8508 0,8531 0,8554 0,8577 0,8599 0,8621
Exemplo:
e
X: Corrente elétrica em miliamperes.
Assim:
P(X<13) =?
Aplicando a padronização:
( )
As probabilidades do modelo Normal podem ser calculadas no Excel de acordo com a sintaxe abaixo. Assim
como nas demais distribuições, o Excel fornece a probabilidade acumulada de ou seja, P(X<x). O
critério de cálculo de probabilidades para o modelo normal está de acordo com o critério da tabela II.
Probabilidades:
x: valor da variável
Média: média da distribuição ( );
Desv-padrão: Desvio padrão da distribuição ( );
Cumulante: corresponde a opção de calcular a probabilidade acumulada (VERDADEIRO) ou apenas
probabilidade do ponto (FALSO). No caso das distribuições contínuas, não faz sentido a
probabilidade pontual, desta deve-se marcar sempre a opção acumulada.
Função Inversa
Para se determinar um valor, digamos a, tal que a probabilidade abaixo deste valor seja definida, existe
a função INV.NORM.N, segue:
Para efeitos práticos esta aproximação é satisfeita sempre que np > 5 e p 0,5.
Observação: Alguns autores sugerem como critério: np > 10 e n(1-p) 10, ou ainda np > 15 e n(1-p) 15
Correção de Continuidade:
Distribuição Binomial Distribuição Normal
A combinação linear de distribuições normais considera cada um dos vetores da combinação linear como uma
variável aleatória com modelo normal.
Sejam:
Então
Observação: Este resultado pode ser demostrado através da definição das funções geradoras de momentos de
cada distribuição.
Média: [ ] [ ]
Variância: [ ] [ ]
Exemplo:
O custo unitário de um produto segue modelo aproximadamente normal com média R$ 10,00 e variância (R$) 2
1,50. O preço de venda é também normalmente distribuído com média R$ 25,00 e variância (R$)2 2,50.
Determine:
Resolução:
Sejam L, V e C respectivamente Lucro, preço de Venda e Custo relativos a uma unidade do produto (unitários).
Temos que:
a) Distribuição do lucro L:
Logo:
( )
O pesquisador, na grande maioria das vezes, trabalha com limitações de tempo e escassez de recursos
humanos, materiais e financeiros, fatores estes que acabam impedindo o estudo de um universo de grande
dimensão.
Por outro lado, na maioria das vezes não é preciso estudar toda uma população, bastando analisar uma
parcela da mesma para atender às necessidades da pesquisa.
Assim, quando se deseja estudar o comportamento de determinada população, o pesquisador tem duas
formas possíveis: realizar um censo, o que exige a observação de todos os elementos que formam essa
população, ou observar apenas uma amostra que a represente.
A finalidade da amostragem é permitir fazer inferências e generalizações acerca de características de
uma população com base na análise de apenas alguns de seus elementos.
A técnica de amostragem é amplamente utilizada em diversas situações do dia-a-dia das empresas. Por
exemplo, no caso das empresas industriais, na verificação da qualidade de seus produtos, é impossível analisar
todos os produtos fabricados, pois isto implica em prejuízo para a empresa, portanto recorrer a um estudo de
amostragem é o indicado neste caso.
Outro exemplo é no trabalho de auditoria onde não se faz a verificação de todos os lançamentos
contábeis, mas de parte deles, pelo processo de amostragem. Na área financeira, a avaliação do tempo médio de
recebimento de duplicatas faz-se por amostragem. Também em pesquisas científicas, o pesquisador muitas vezes
não precisa estudar toda a população, pois estatisticamente há procedimentos de amostragem que garante uma
análise da população sem tem que analisá-la literalmente.
Esta nota de aula trata dos procedimentos básicos aplicáveis à realização de estudos estatísticos por
amostragem. São apresentados os diversos tipos de amostras e seus processos, os cálculos para seu
dimensionamento, bem como os tratamentos estatísticos necessários à minimização dos erros amostrais no
resultado de uma pesquisa. Para se inteirar do assunto, alguns conceitos iniciais são necessários:
Parâmetro: É a medida usada para descrever uma característica numérica da população. Como é
baseado em observações na população, seu valor é quase sempre desconhecido.
Quanto ao tamanho, a população pode ser classificada em finita ou infinita. São finitas as que
possuem um tamanho limitado em que é possível identificar do primeiro até o último elemento, e
considerada infinita aquelas cujo número de elementos é ilimitado, ou seja, impossível de identificar o
último elemento populacional. Em outras palavras, a população, nesse caso é tão grande que é
dificultoso a sua identificação com precisão.
A conveniência da realização de um censo (análise de 100% da população) depende do tipo de
pesquisa e das condições ambientais com as quais o pesquisador se deparar. Quando a população é
considerada pequena, o censo é o ideal, pois a utilização de fatores humanos, materiais e econômicos
serão mínimos. Apesar de que, o tamanho e o custo, são relativos, pois, depende de pesquisador para
pesquisador.
Por incluir todos os elementos de uma população na pesquisa, o censo parece proporcionar
precisão incontestável. No entanto, essa precisão pode ser afetada por diversos fatores dentre eles, as
mudanças comportamentais dos elementos da população (nos casos em que a pesquisa demanda
período longo) ou por erros de coleta de dados. Então, para se abster desses fatores que o censo pode
causar de forma implícita e, muitas das vezes, explícita, a utilização da amostragem é uma solução. Para
isso, é necessário entender estatisticamente o que é uma parcela amostral.
Amostra (n): É um subconjunto de uma população que possa representá-la de forma significativa.
Exemplo: Idade média de uma parte dos alunos de uma sala de aula.
A amostra deve ser tão representativa quanto possível da população que se pretende estudar,
uma vez que vai ser a partir dela que serão obtidas conclusões para esta população.
Geralmente, a população-alvo é definida por características demográficas. Por exemplo: Todos
os adolescentes com asma.
A população acessível é um subconjunto geográfico e temporalmente bem definido da
população-alvo disponível para estudo. Por exemplo: Adolescentes com asma que atualmente moram
na cidade do investigador.
A amostra do estudo é o subconjunto da população acessível que de fato participa do estudo.
A expressão “pesquisa por amostragem” é usada em conjunto com a amostragem de
populações.
Pesquisas por amostragem custam tempo e dinheiro e algumas vezes são quase impossíveis de
realizar. Por exemplo, suponha que deseja-se obter uma estimativa da proporção de residências no
Brasil que planejam comprar novos aparelhos de televisão LCD no próximo ano. Por questões óbvias, é
impossível realizar um censo, portanto, a saída mais plausível é fazer uma amostragem. Assim, uma vez
decidido o que e quem pesquisar e que delineamento será usado, é preciso decidir quantos sujeitos
deverão compor a amostra, mas o tamanho amostral deve ser significativo também, pois até mesmo o
estudo mais rigorosamente executado poderá não responder a questão de pesquisa se o tamanho de
amostra for insuficiente. Por outro lado, um estudo com amostra muito grande traz mais dificuldades e
custos que o necessário.
Margem de Erro (e): Uma pesquisa não é feita encima de valores absolutos e sim em estimativas
(estatísticas), sendo assim, sempre apresentará erro embutido nas suas análises. Esse erro é
conhecido no meio estatístico como “margem de erro” ou erro amostral.
A margem de erro irá depender do tamanho da amostra e dos resultados que foram obtidos
com a pesquisa. E isso acontece porque não é possível analisar toda a população, somente uma fração
dela (amostra). Um exemplo disso é a pesquisa eleitoral, onde a margem de erro varia dependendo do
candidato a ser eleito, pois tudo pode variar mediante a distribuição geográfica do seu eleitorado, o
sexo, a idade, dentre outras. Assim, é preciso que esse tipo de pesquisa seja realizado dentro de um
intervalo com uma determinada confiabilidade definida de forma arbitrária entre o pesquisador que
encomenda a pesquisa e o instituto que executará o estudo.
Por causa dessa margem de erro, ao anunciar a queda ou a subida de um candidato, é
aconselhável que sejam feitas sucessivas pesquisas, pois além da inevitável margem de erro, existe
também a não confiabilidade da pesquisa, quem tem uma forte relevância nos resultados.
Estatisticamente falando, margem de erro é a diferença entre um resultado amostral
(estimativa) e o verdadeiro resultado populacional (parâmetro), baseado na seguinte relação oposta:
Probabilístico: quando há um processo aleatório para obtenção dos elementos da amostra, ou seja,
cada elemento tem uma probabilidade de pertencer a amostra;
Não Probabilísticas: quando não há um processo aleatório para obtenção dos elementos da amostra.
Por não ser possível realizar inferências, este tipo de amostragem não será estudado neste material.
Sistemática (AS)
Amostragem Probabilística
(Aleatória)
Estratificada (AAE)
Tipos de Amostragem
A Esmo
Intencional (Por
Julgamento)
Amostragem Não
Probabilística (Não Aleatória)
Por Cotas
Bola de Neve
n = n1+n2+...+nk
Resolução:
Pequenas: 30 (30%)
Médias: 60 (60%)
Grandes: 10 (10%)
Total (n): 100.
Quando a lista de respondentes for muito grande a utilização de amostragem aleatória simples pode
ser um processo moroso. Utiliza-se então uma variação, a amostragem sistemática, que também supõe que a
população é homogênea em relação à variável de interesse, mas que consistem em retirar elementos da
população a intervalos regulares, até compor o total da amostra. A amostragem sistemática somente pode ser
retirada se a ordenação da lista não tiver relação com a variável de interesse: imagine que queremos obter
uma amostra de idades de uma listagem justamente ordenada desta forma, neste caso a amostragem
sistemática não seria apropriada (a não ser que reordenássemos a lista).
Procedimento:
Resolução:
Considerando os passos:
Quando são selecionados todos os elementos dos Conglomerados sorteados para a pesquisa, o procedimento é
em estágio único.
Amostragem por Conglomerado de um estágio (AC1) versus Amostragem Aleatória Estratificada (AAE)
Em geral, AAE produz estimativas mais eficientes que AAS, principalmente se:
AC1 produz estimativas menos eficientes que AAS, mas o plano fica melhor se:
O Excel apresenta função para obtenção de amostras aleatórias Simples e Sistemáticas a partir de uma lista de
valores que corresponde a POPULAÇÃO.
Caminho: Dados, Análise de Dados, Amostragem, seleciona-se os dados e em seguida o tipo de amostragem,
como mostram as figuras abaixo:
Importante: Uma distribuição amostral é uma distribuição de probabilidade que indica até que ponto uma estatística
amostral tende a variar devido a variações casuais na amostragem aleatória.
Seja X uma variável aleatória de média µ e variância σ2, da qual se extrai uma amostra aleatória de n
elementos: (X1, X2, X3, ..., Xn). Sabe-se que:
n
x i
X i 1
n
Representa a média amostral, se a amostra é aleatória Xi tem a mesma distribuição que a população, isto é:
E [Xi] = µ e V[Xi+ = σ2
Tem-se também que X1, X2, X3, ..., Xn são independentes, pois a amostra foi escolhida ao acaso. Aplicando
propriedades da média e variância, temos:
∑
[ ] [ ] ∑ [ ] ∑
∑
[ ] [ ] ∑ [ ] ∑
A capacidade de usar amostras para fazer inferências sobre parâmetros populacionais depende do
conhecimento da distribuição amostral. Acabamos de como se determinam as média e o desvio padrão, mas é
necessária outra informação: Qual a forma da distribuição? No caso da distribuição amostral da média, pode-
se demonstrar matematicamente que se a população sob amostragem for normal, a distribuição amostral da
média das amostras extraídas também é normal. Além disso, mesmo que a população não seja normal, a
distribuição das médias amostrais será aproximadamente normal, desde que a amostra seja grande, n ≥ 30.
1. Se a população sob amostragem for normal, a distribuição das médias amostrais também será normal
para todos os tamanhos de amostra;
𝟐
𝝈𝟐
𝑿 𝑵(𝝁 𝝈 ) 𝑿 𝑵 𝝁
𝒏
2. Se a população sob amostragem é não normal, a distribuição de médias amostrais será
aproximadamente normal para grandes amostras.
𝝈𝟐
𝑿 𝑵 (𝝁 𝒏
), para n ≥ 30.
Como extensão deste resultado, é que tanto no caso 1 quanto no caso 2, a padronização fica:
⁄
√
Figura 16 – Simulações da convergência para alguns tamanhos de amostras em populações não normais
Exemplo:
Os diâmetros de cabos feitos por um processo de manufatura são conhecidos ser normalmente distribuídos
com média 2,5 cm e desvio padrão 0,009 cm. Para amostras de 9 deste cabos selecionados aleatoriamente,
determine:
( )
( ) ( )
√
Verificando este valor na tabela normal obtemos P(Z>1,67) = 0,5- 0,4525 = 0,0475 ou 4,75%
Quando o tamanho da amostra é maior ou iguala 20, a aproximação da Binomial à Normal apresenta
resultados bastante satisfatórios, possibilitando a utilização do Teorema do Limite Central, que no sentido
mais restrito, só se aplica a médias amostrais.
Temos então:
[ ] [ ]
[ ] [ ]
Exemplo:
Um lojista compra lâmpadas diretamente da fábrica em grandes lotes, que vêm embaladas individualmente.
Periodicamente, o lojista inspeciona os lotes para determina a proporção de lâmpadas quebradas. Se um
grande lote contêm 10% de quebradas. Para amostras de tamanho 100, determine:
Solução:
X: nº de lâmpadas queimadas
P= 10%
n = 100
[ ]
[ ]
Como:
Temos:
( )
b) A probabilidade de menos que 17% de lâmpadas quebradas na amostra corresponde a P(f <17%) ou P
(f < 0,17) = ?
P (f < 0,17) =?
Aplicando a padronização:
( )
√ √
Exemplos:
Na fabricação de determinada peça, o diâmetro é uma característica conhecida e que deve ser mantido
para garantir a qualidade desta peça, porém o processo pode sofrer algum tipo de problema (falta de
manutenção, alto aquecimento da broca, etc) que alteram o diâmetro das peças. Para verificar se o
processo está atuando com algum tipo de descontrole, são verificadas periodicamente amostras;
Com a onda de calor que acomete todo o Brasil, o consumo de energia aumentou sensivelmente, em
contrapartida as reservas hídricas estão operando abaixo do limite mínimo. Para uma projeção do
colapso energético em uma região verifica-se o consumo médio por residência a partir de uma amostra.
Estimação
O processo de indução que se pretende fazer sobre uma população pode ser feito, a partir de uma amostra, de
duas maneiras:
I. Estimação de Parâmetros,
Já foi dito, anteriormente que para se fazer Inferência Estatística há necessidade de que o processo seja
probabilístico, pois neste caso poderemos avaliar a probabilidade de erro. E ao utilizarmos o processo de
amostragem aleatória simples ou ao acaso, as informações obtidas serão uteis para produzir inferências sobre
a população original.
I. Estimação de Parâmetros: É o processo que usa os resultados da amostra produzir para produzir
inferências sobre a população da qual foi extraída, aleatoriamente, a amostra. Existem dois tipos de
estimação:
Exemplo: ̅ (média amostral) é uma estatística usada para fazer uma estimativa por ponto de µ (média
populacional);
Exemplo: Obter um intervalo que contenha P (proporção populacional), com 90% de probabilidade a partir
de f (proporção amostral).
Observações:
Estimador e Estimativa
II. Estimativa: é o valor numérico obtido pelo estimador para uma dada amostra.
I. Não tendenciosidade: Um estimador é dito não tendencioso (imparcial, justo, não viciador ou não
viezado) se a média do estimador é o parâmetro.
[ ̂]
II. Coerência ou consistência: Um estimador é dito consistente se é não tendencioso e sua variância
diminui à mediada que n aumenta, assim:
[ ̂] [ ̂]
III. Eficiência ou Precisão: Sejam dois estimadores ̂ ̂ do mesmo parâmetro, dizemos que ̂ é mais
eficiente que ̂ se:
[̂ ] [̂ ]
Exemplo: A média aritmética amostral é um importante estimador da média populacional. Já foi visto
anteriormente que:
[ ]
[ ] [ ̂]
A estimativa pontual trata-se do valor numérico de um estimador para dada amostra de tamanho n, X1, X2,
... ,Xn. Por exemplo, a média para uma amostra aleatória. Apesar de prático este método não possibilita a
mensuração do erro de estimativa.
Exemplos:
x i
X i 1
n
2) O parâmetro populacional pode ser estimado pelo estimador S2, onde:
x X
n
2
i
S2 i 1
n 1
Principais estimadores e estimativas:
𝜇
𝑋
𝜎
𝑆
𝜎 𝑆
𝑃 𝑝 𝑜𝑢 𝑓
⁄
√
Usando-se a tabela da distribuição N(0,1), pode-se determinar um valor ⁄ , tal que:
( ⁄ ⁄ )
( ⁄ ⁄ )
⁄
√
( ⁄ ⁄ )
⁄
√
( ⁄ ⁄ )
√ √
( ⁄ ⁄ )
√ √
Finalmente: ( ⁄ ⁄ )
√ √
Onde:
⁄ ⁄
√ √
√
Denomina-se: {
⁄ √
Erro de estimativa: Pela estrutura da expressão do Intervalo de confiança pode-se notar que trata de uma
região determinada a partir da estimativa pontual + ou – o erro, ou seja, X e , onde:
⁄
√
Tamanho da amostra: Consiste em encontrar o tamanho de amostra dimensionado pelo limite do erro e
(erro) com a significância α(significância). Partindo da expressão do erro de estimativa, obtemos:
⁄
⁄
√
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para uma 133
Amostra
Exemplo: Sabe-se que resistência mecânica de um material segue um modelo normal com variância 4 Kgf /
cm2. Uma mostra de tamanho n=25 indicou resistência média de 16 Kgf / cm2. Usando um α = 5%,
determine:
a) O erro de estimativa para esta amostra;
b) O I.C. para a verdadeira resistência média (µ)
c) Qual deveria ser o tamanho da amostra suficiente para um erro de apenas 0,4 Kgf / cm2 ?
Solução:
Variância (população): σ2 = 16 Kgf / cm2.
Média:
n = 25 corpos de prova.
⁄
√
Já temos n e σ, falta somente o ⁄ :
⁄
Busca na tabela Normal Padrão:
0,4750
⁄
√ √
( ⁄ ⁄ )
√ √
Como já temos o valor do erro de estimativa, basta subtrair e somar à estimativa pontual, assim:
Tomando as especificações:
⁄
( )
Observação: no caso do tamanho da amostra, o arredondamento deve ser realizado sempre para “mais”.
Quando é desconhecido, como é tipicamente o caso, uma aproximação intuitiva é substituir por s, seja,
utilizar a estimativa pontual do desvio padrão. A distribuição de probabilidade utilizada para este caso trata-se
da distribuição t, segue abaixo:
⁄
√
Essa substituição, embora, não altere consideravelmente a distribuição em amostras grandes, ela causa uma
considerável diferença se a amostra for pequena. A notação t é requerida porque a variável aleatória no
denominador (s) aumenta a variância de t para um valor maior do que um (1,0), de modo que a razão não é
padronizada. A distribuição da razão t, quando é razoável assumir que a distribuição da população é normal, é
conhecida como distribuição t de Student com r = n – 1 graus de liberdade. A qualificação “n “– 1 graus de
liberdade” é necessária porque para cada diferente tamanho de amostra (n) ou valor n – 1, há uma diferente
distribuição t.
Grau de liberdade (gl) é conceituado como o número de valores independentes de uma estatística. Tomando
como exemplo o estimador s2 de 2, foi visto anteriormente que a quantidade (n – 1) é o divisor que aparece
na fórmula de s2. Isto significa que para um tamanho amostral n:
∑ ( )
( ⁄ ⁄ )
⁄
√
Em que t/2 é obtido na tabela da distribuição t com r = n – 1 graus de liberdade, a qual fornece valores t/2, tais
que P (-t/2< t < t/2) = 1 - , para alguns valores de . Rearranjando os termos dentro dos parênteses da
expressão, obtemos:
( ⁄ ⁄ )
√ √
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para uma 135
Amostra
Erro de estimativa: Analogamente, a estrutura da expressão do Intervalo de confiança também
corresponde a uma região determinada a partir da estimativa pontual + ou – o erro, ou seja, X e , onde:
⁄√
Tamanho da amostra: Consiste em encontrar o tamanho de amostra dimensionado pelo limite do erro e
(erro) com a significância α (significância). No caso do desvio padrão desconhecido pressupõe-se a
convergência de t para Z. Partindo da expressão do erro de estimativa, obtemos:
⁄
⁄ √
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para uma 136
Amostra
27 0,684 0,855 1,057 1,314 1,703 2,052 2,473 2,771 3,057 3,421 3,690
28 0,683 0,855 1,056 1,313 1,701 2,048 2,467 2,763 3,047 3,408 3,674
29 0,683 0,854 1,055 1,311 1,699 2,045 2,462 2,756 3,038 3,396 3,659
30 0,683 0,854 1,055 1,310 1,697 2,042 2,457 2,750 3,030 3,385 3,646
40 0,681 0,851 1,050 1,303 1,684 2,021 2,423 2,704 2,971 3,307 3,551
50 0,679 0,849 1,047 1,299 1,676 2,009 2,403 2,678 2,937 3,261 3,496
60 0,679 0,848 1,045 1,296 1,671 2,000 2,390 2,660 2,915 3,232 3,460
80 0,678 0,846 1,043 1,292 1,664 1,990 2,374 2,639 2,887 3,195 3,416
100 0,677 0,845 1,042 1,290 1,660 1,984 2,364 2,626 2,871 3,174 3,390
120 0,677 0,845 1,041 1,289 1,658 1,980 2,358 2,617 2,860 3,160 3,373
{Infinito} 0,674 0,842 1,036 1,282 1,645 1,960 2,326 2,576 2,807 3,090 3,291
6 2,447
Exemplo:
n=7
α = 5%
t=?
Solução:
g.l. = n -1 = 7-1= 6
α/2 = 0,05/2 = 0,025
Basta cruzar g.l. com α/2, logo t = 2,447
Exemplo: O peso de pacotes de café produzidos por uma empresa apresenta-se normalmente distribuído. Uma
amostra de 25 pacotes apresentou peso médio de 248 g, com desvio padrão de 8 g.
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para uma 137
Amostra
A estimativa pontual corresponde ao valor amostral utilizado para substituir o parâmetro populacional,
neste caso a média amostral, ou seja,
⁄ √ √
d) Quantos pacotes deveriam ser amostrados, para que, com uma confiança de 95% o erro máximo
admitido seja de apenas 5 g?
Tomando as especificações:
e=5g
para α = 5% já obtemos pela aproximação, Z = 1,96, assim:
⁄
( )
Lembramos que:
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para uma 138
Amostra
√
Façamos a seguinte construção:
( ⁄ ⁄ )
⁄ ⁄
√
( )
Finalmente:
( ⁄
√ ⁄
√ )
( ⁄
√ ⁄
√ )
I. Erro de estimativa
⁄
√
Consiste em encontrar o tamanho de amostra dimensionado pelo limite do erro e (erro) com a
significância α (significância). Partindo da expressão do erro de estimativa, obtemos:
⁄
⁄
√ ̂
⁄
√ ⁄ ( )
Para encontrar que minimize o erro (e), aplique Ln (logaritmo natural) nos dois membros, aplique a
derivada de do erro em relação e iguale a zero, assim:
⁄ ⁄
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para uma 139
Amostra
Assim:
Importante: Em muitas situações práticas quando não se tem uma estimativa prévia (amostra piloto ou outra
estimativa) usa-se 𝒑 𝟎 𝟓. Esta simplificação despreza a utilização da estimativa inicial proveniente de amostra
piloto, porém maximiza o tamanho da amostra, ou seja, de todas as amostras possíveis, toma-se a de maior tamanho.
Exemplo: Em uma pesquisa levada a 200 cientes de uma prestadora de serviços, 40 se mostraram insatisfeitos
coma qualidade do serviço. Para um α = 5%, determine:
Solução:
n = 200 clientes
x = 40 insatisfeitos, logo ̂ =
Para α = 5%, temo que ⁄
⁄
√ √
c) Qual deveria ser o tamanho da amostra para que se estivesse confiante que o erro de estimativa não
excedesse 4%?
Tomando as especificações:
e = 4% ou 0,04
Para α = 5% obtemos Z = 1,96, assim:
⁄
( )
Enquanto o tamanho da amostra for pequeno em relação ao tamanho da população, a amostragem sem
reposição dará entre as amostras essencialmente a mesma variabilidade da amostragem com reposição.
Entretanto, se o tamanho da amostra representa percentagem apreciável da população ( ≥ 5%), os resultados
dos dois tipos de amostragem começa a diferir, pelo fato de na amostragem sem reposição, a probabilidade de
Com esta correção o desvio padrão amostral para fins de inferência assumem as seguintes formas:
√
√
√
√
̂ ̂
̂ √ √
Fórmula para determinação do tamanho da amostra (n) om base na estimativa da média populacional: A
partir do erro de estimativa com desvio padrão corrigido, dado por:
⁄
√
√
Isolando-se n na equação do erro de estimativa com desvio padrão corrigido, obtém-se:
⁄
Onde:
N: Tamanho da população;
2: Variância populacional;
Z: Valor padronizado (Normal padrão);
e: Limite do erro de estimativa.
Exemplo:
O processo produtivo de uma peça para montagem de ventiladores apresenta desvio padrão de 4,12 mm.
Os lotes avaliados apresentam 2.600 peças cada. Determine o tamanho da amostra suficiente para uma
oscilação máxima em torno do valor alvo seja de 1,05 mm ao nível de significância de 5%.
Resolução:
N =2.600
σ = 4,12 mm
⁄
e = 1,05 mm
n=?
⁄
⁄
Fórmula para determinação do tamanho da amostra (n) com base na estimativa da proporção populacional:
Analogamente,
⁄
Onde:
N: Tamanho da população;
: Estimativa piloto para a proporção amostral de sucessos. Algumas literaturas utilizam ̂ ;
Análogo ao caso anterior, também pode ser utilizado ;
Z: Valor padronizado (Normal padrão);
e: Limite do erro de estimativa.
Exemplo:
Uma empresa que trabalha com manutenção ar condicionado apresenta uma carteira de 500 clientes
empresas. Qual deveria ser o tamanho da amostra suficiente para um erro máximo de 5% e com significância
de α = 5%?
Solução:
n=?
N = 500
e = 2% = 0,02
Para α = 5%, temo que ⁄
Aplicando na fórmula, temos:
⁄
Observação: O valor do n ficou elevado devido à utilização . Caso fosse utilizada um valor prévio para
(amostra piloto ou outra estimativa) o tamanho da amostra seria menor.
Fórmula simplificada para determinação do tamanho da amostra (n) com base na estimativa da
proporção populacional:
Partindo da fórmula acima, adotando ̂ e fixando o nível de confiança em 95%, o que leva a
um ⁄ , que arredondado para o inteiro mais próximo fica 1,96 2,0, temos:
Tomando no = 1/e2 e considerando que para tamanhos de amostras “razoáveis” resultados obtidos com
N - 1 se aproxima dos resultados obtidos com N, a fórmula fica:
Importante:
Métodos
1. no é a Primeira Quantitativos
Estimativa para
do tamanho Engenharia
de amostra | Amostragem
que deve ser corrigidapara
pelo População
tamanho daFinita 142
população;
2. Se o tamanho da população N é muito grande, a estimativa do tamanho da amostra é dada diretamente por no
2
= 1/e .
Exemplos:
1) Numa empresa com 1000 funcionários, deseja-se estimar a percentagem dos favoráveis a certa
proposta de horário de trabalho. Qual deve ser o tamanho da amostra aleatória simples que garanta
um erro amostral não superior a 5%?
Resolução:
Como o tamanho da população (1000) não é “muito” grande, temos que:
N = 1000 empregados
e = erro amostral tolerável = 5% (e = 0,05)
n0= 1/(0,05)2= 400 empregados
n= 1000x400/(1000+400) = 286 n = 286 empregados
2) Numa pesquisa para uma eleição presidencial, qual deve ser o tamanho de uma amostra aleatória
simples, se se deseja garantir um erro amostral não superior a 2%?
Resolução:
Como o tamanho da população é “muito” grande, temos:
Na análise anterior o objetivo era estimar através de um intervalo de confiança a média ou a proporção de
uma população a partir de uma amostra de tamanho n. Nesta fase o objetivo é estimar a diferença entre as
médias ou proporções de sucessos a partir duas amostras n1 e n2.
Sejam 1 e 2 duas população em que se pretende analisar uma característica comum através da média, para
tanto são selecionadas aleatoriamente amostras n1 e n2. Temos que as médias das amostras seguem os
seguintes modelos:
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para 143
Duas Amostras
Já sabemos que uma combinação linear de normais independentes é uma normal, assim:
Da combinação linear acima focaremos na diferença. Desta forma, o intervalo de confiança para a diferença de
média com desvio padrões conhecido é dado por:
* ⁄
√ ⁄
√ +
Análogo a caso de uma amostra, o valor subtraído e adicionado à média é o erro de estimativa.
Exemplo:
Em ensaio de blocos de concreto, duas misturas foram analisadas. As distribuições da característica do
concreto seguem modelos aproximadamente normais com desvios padrões σ2=5 e σ2=2 respectivamente. Uma
amostra de tamanho 12 da mistura 1 apresentou média 34, enquanto 8 blocos da mistura 2 apresentou média
9,4. Determine o intervalo de confiança de 95% para a diferença .
Resolução:
Mistura 1:
Mistura 2:
σ2=5 e σ2=2 conhecidos.
* √ √ +
Finalmente:
* ( ⁄ )
√ ( ⁄ )
√ +
Segundo Aspin-Welch, a distribuição para este caso apresenta os graus de liberdade v dados por:
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para 144
Duas Amostras
( )
( )
Exemplo:
Uma amostra de 15 operadores que não passaram por um processo de capacitação apresentou média de
execução de 25 mim e desvio padrão 4 mim. Enquanto uma amostra de 10 operadores selecionados ao acaso
dos que passaram pela capacitação apresentou média 18 mim com desvio padrão 3 mim. Determine o
intervalo de confiança para a diferença nas médias dos tempos dos capacitados e não capacitados. Use
confiança de 95% e considere que as características de variabilidade são diferentes entre os operadores
capacitados e não capacitados.
Resolução:
Não Capacitados:
Capacitados:
Desvios padrões supostamente distintos.
( ) ( )
( )
( ⁄ )
Aplicando na fórmula:
* √ √ +
Neste caso os desvios padrões são desconhecidos e supostamente iguais. O valor das variâncias das amostras
será considerado igual a variância conjugada das amostras, Assim:
Assim como no caso anterior, a distribuição utilizada é a t-Student. Os graus de liberdade são dados por
.
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para 145
Duas Amostras
* ( ⁄ )√ ( ) ( ⁄ )√ ( )+
Exemplo:
Um estudo sobre a duração de pilhas elétricas de duas marcas (A e B). Uma amostra com 20 pilhas da marca A
e examinadas a duração. Para a marca B foi realizado o mesmo procedimento. Determine o intervalo de
confiança para a diferença das médias das marcas A e B. Use α=5%.Da amostragem resultou os seguintes
resultados:
Marca A:
Marca B:
Resolução:
Inicialmente precisamos verificar em qual dos casos se enquadra o problema. A partir de uma análise dos
desvios padrões amostrais, parece coerente supor que as variâncias amostrais vêm de uma população de
variâncias iguais.
Observação: Um fato importante a ser levantado é que a definição de igualdade das variâncias deve ser
realizada através de teste de hipótese adequado e não por mera análise descritiva.
Na tabela t-Student obtém-se: ( ⁄ )
Observação: Foi tomado na tabela o valor cujo grau de liberdade mais se aproxima (40).
* √ ( ) √ ( )+
Sejam 1 e 2 duas populações tal que se pretende analisar uma característica comum através da proporção de
sucessos, para tanto são selecionadas aleatoriamente amostras n1 e n2. Temos que as proporções de sucessos
em cada amostra seguem os seguintes modelos:
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para 146
Duas Amostras
Da combinação linear acima focaremos na diferença. Desta forma o intervalo de confiança para a diferença de
proporções é dado por:
* ⁄ √ ⁄ √ +
Exemplo:
O objetivo de uma pesquisa era avaliar o desempenho dos alunos com dificuldades em uma disciplina. A
pesquisa considerou os seguintes grupos: 1: buscaram apoio na monitoria e 2: Não buscaram apoio na
monitoria. Dos 40 que buscaram apoio na monitoria, 75% conseguiram ser aprovados na disciplina, enquanto
apenas 35% dos 50 que não buscaram foram aprovados. Determine o intervalo de confiança para diferença de
proporção entre os grupos. Use α=5%.
Resolução:
* √
√ +
* √ √ +
Finalmente:
Importante: De forma conveniente usar a diferença entre o maio e o menor. Caso o limite inferior fique negativo,
também é conveniente indicar valor igual zero.
Métodos Quantitativos para Engenharia | Estimativa Intervalar ou Intervalo de Confiança para 147
Duas Amostras
15. Análise de Correlação e Regressão
O estudo de correlação mostra uma forma de medir quanto e de que maneira se relacionam duas
variáveis, por exemplo: o frio está para o setor farmacêutico, assim como o dia das mães está para o comércio.
Pois as vendas de medicamentos não controlados, como analgésicos, antigripais e vitaminas, disparam. Outro
exemplo, é o faturamento das empresas de energia elétrica nos Estado Unidos é diretamente influenciada pela
temperatura, especialmente no inverno. Um inverno brando reduz a demanda de energia para calefação e pode
diminuir drasticamente o lucro. Em Fortaleza, nos meses que ocorre o verão (dezembro até meados de março), o
consumo de água nas residências aumenta de forma significativa.
Essa relação pode ser verificada com auxílio de um gráfico de dispersão e de um coeficiente de
correlação linear (que mede a intensidade da associação linear entre duas variáveis, de caráter quantitativo e que
mostre uma relação de causa de efeito).
O diagrama de dispersão é um gráfico bidimensional, por meio do qual podemos analisar a relação existente das
variáveis em estudo, ou seja, qual alteração deve esperar em uma das variáveis, como consequência de
alterações sofridas pela outra variável. Ao construir o gráfico deve-se definir a variável que será representada no
eixo x (causa) e y (efeito).
Pelo gráfico podemos notar que a vaiável Y cresce com a varável X até certo ponto (inflexão), a partir de então Y
começa a decrescer, ou seja, há uma correlação, porém não linear. Um exemplo a oferta de um produto (Y) com o
percentual de impostos (X).
A importância da determinação da correlação entre duas variáveis está no fato de que a presença de uma
correlação pode conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa).
Importante:
Outlier: São os pontos discrepantes, ou seja, observações extremas que não são condizentes com o restante da massa de
dados.
As causas mais prováveis da ocorrência de outliers pode ser o registro incorreto dos dados, algum
defeito no instrumento de medição utilizado, dentre outros. Caso isso ocorra, o outlier deve ser, se possível,
corrigido, em extremo caso eliminado. Deve-se dar a devida atenção à causa de tais anomalias, pois esses dados
discrepantes podem ser úteis para descobrir a causa dessa ocorrência.
Outra saída é coletar mais dados para verificar se ainda ocorrerá valores próximos dos outliers, pois os mesmos
podem ser obtidos mesmo que não exista um erro de coleta ou digitação.
Outlier
A correlação mede a força do relacionamento entre duas variáveis em termos relativos. O conceito
de correlação não implica causa e efeito de uma variável sobre a outra, mas somente o relacionamento
matemático entre elas.
Dizemos que existe associação positiva entre as variáveis quando valores baixos ou altos da variável x
correspondem também valores baixos ou altos da variável y, respectivamente. No caso de uma associação
negativa, valores baixos de uma variável correspondem valores altos da outra; e a valores altos de uma,
valores baixos da outra.
∑ ∑
∑
(∑ ) (∑ )
√(∑ ) (∑ )
√(∑ ) (∑ )
Propriedades:
Contudo, em geral, uma correlação forte não é sinônimo de relação causa – e - efeito entre as amostras
ou variáveis. Há situações em que um coeficiente de correlação próximo de um ou de um menos um não significa
que a maioria dos pares de valores esteja contida em uma reta (veremos isso em regressão linear). O simples
conhecimento do coeficiente de correlação não é suficiente devido a anomalias na dispersão dos dados, por isso é
recomendada a construção do gráfico de dispersão das amostras para melhor compreender o resultado, pois em
alguns casos, a relação causa-efeito pode ser provocada por um ou mais fatores ocultos, uma variável não
considerada na análise. Por exemplo, suponha que o número de vendas diárias de um jornal e a produção diária
de ovos tenha uma forte correlação positiva. Não se pode afirmar que o aumento do número de jornais vendidos
resulte no aumento da produção de ovos. Para compreender a forte correlação positiva, deve-se procurar fatores
I. O valor de Rxy não varia se todos os valores de qualquer uma das variáveis são convertidos para uma
escala diferente. Por exemplo, se o peso for em kg e transformá-la em libra (medida inglesa), o valor de
Rxy não se modificará;
II. O valor de Rxy não é afetado pela escolha de localização de x ou y. Permutando todos os valores de x e
y, Rxy permanecerá inalterado;
III. Rxy mede a intensidade, ou o grau, de um relacionamento linear. Não serve para medir a intensidade
de um relacionamento não - linear.
Como visto anteriormente, o coeficiente de correlação (Rxy) apenas não mede com segurança a
relação causa-efeito entre duas variáveis, apesar de essa relação poder estar presente. Por exemplo, uma
correlação fortemente positiva entre as variáveis x e y não autoriza afirmar que variações da variável x
provocam variações na y, ou vice-versa. Entretanto, em uma regressão linear, a relação causa-efeito deve ser
definida no início da análise.
Em muitas pesquisas estatísticas, o objetivo principal é estabelecer relações que possibilitem
predizer uma ou mais variáveis em termos de outras. Assim, é que se fazem estudos para predizer os seguintes
exemplos:
Naturalmente, o ideal seria que pudéssemos predizer uma quantidade exatamente em termos de
outra, mas isso raramente é possível. Na maioria dos casos, devemos contentar-nos com a predição de
médias, ou valores esperados. Portanto, a predição do valor médio de uma variável em termos dos valores
conhecidos de outra variável, constitui o problema da regressão.
Na regressão linear simples, utilizam-se duas amostras ou duas variáveis, e será deduzida e analisada
a reta que melhor explica essa relação, tendo previamente definido a variável independente ou (resposta) e a
variável dependente (ou preditora).
A origem do termo “regressão” remonta a Francis Galton (1822 a 1911), que por volta de 1855,
investigava relações entre características antropométricas de sucessivas gerações. Uma de suas constatações
era de que “cada peculiaridade de um homem é transmitida aos seus descendentes, mas, em média, numa
intensidade menor”. Por exemplo: embora pais com baixa estatura tendem a ter filhos também com baixa
estatura, estes têm altura média do que a altura média de seus pais. O mesmo ocorre, mas em direção
contrária, com pais com estatura alta. A esse fenômeno de a altura dos pais mover-se em direção à altura
média de todos os homens ele chamou de regressão.
Reta Estimada
Uma vez que o comportamento entre as variáveis tende para uma relação linear, o próximo passo
consiste em buscar determinar a respectiva equação de regressão linear simples.
Importante:
α: Coeficiente linear ou ponto que intercepta o eixo vertical y, ou seja, valor de y para x = 0
β: Coeficiente angular ou Declividade da reta, ou seja, a variação de y por unidade de variação de x.
onde:
Pressuposições do Modelo:
[ ]
[ ]
[ ]
[ ] [ ]
O modelo estatístico de uma regressão linear pode ser expresso da seguinte forma:
𝑓 𝑌𝑖 𝑋𝑖
𝐸[𝑌𝑖 ] 𝛽𝑥𝑖
𝑌𝑖
𝑋𝑖
Modelo Estimado
...
...
n xn Yn
Este método consiste em determinar a equação da reta que minimize o quadrado dos erros, assim:
𝜀𝑖 : erro aleatório
Para dada amostra, muitas são as retas que se pode ajustar para o conjunto de pares ordenados
, porém apenas uma delas minimiza a soma dos quadrados dos erros dos pontos até ela. Desta forma:
De obtemos:
∑ ∑
Determinar α e β de modo que ∑ seja mínimo, para tanto devemos derivar uma vez em relação
a α e outra vez com relação a β, assim:
Com relação a α
∑
∑
∑ ∑
∑ ∑
Com relação a β
∑
∑
∑( ) ∑ ∑ ∑
∑ ∑ ∑
∑ ∑ ∑
∑ ∑
Obtêm-se:
∑
∑
Os parâmetros da reta são dados por:
Coeficiente Linear:
Coeficiente Angular:
∑
∑
A análise de variância trata da análise do modelo. Esta análise baseia-se nas variabilidades do modelo e erro,
denotado aqui de resíduo.
I. ̂
II. Subtrai-se a média do total e da regressão: ̂
III. Elevando-se cada membro ao quadrado e aplica-se somatório
Como ∑ ̂ , obtemos:
∑ ∑ ̂ ∑
Onde:
Soma de quadrados total, mede a variabilidade total dos dados em relação à média:
∑ ∑
∑ ̂ ∑ ∑ ∑
∑
Outra forma: substituindo na expressão anterior obtém-se:
∑
∑
∑ ∑ (∑ )
∑
∑ (∑ )
Para cada soma de quadrados define-se o quadrado médio ou variância, basta dividir cada soma de
quadrados pelos respectivos graus de liberdade.
∑ ( )
∑ (̂ )
∑
Fontes de Graus de
Soma de Quadrados Quadrado Médio F
Variação Liberdade
Resíduo n-2 ∑ ∑
∑ ∑
Total n-1 ∑ -
A distribuição F
A distribuição F Snedecor é utilizada para avaliar a validade do modelo encontrado. Esta distribuição
compara as variâncias do modelo e com a do resíduo (erro). O valor dado por Testa as seguintes
hipóteses:
O valor F é comparado com o F tabelado com graus de liberdade da regressão / graus de liberdade do resíduo.
Teste:
Se F > F tabelado: Rejeita H0
Se F ≤ F tabelado: Não Rejeita H0
Indica a proporção da variação total da variável dependente que é explicada pela variação da variável
independente, ou seja, quanto o modelo consegue explicar do comportamento da variável. Quanto maior for
o R², melhor será o poder de explicação da reta de regressão.
∑ ∑ ∑
∑ ∑ ∑
∑
∑ ∑
Como
∑
√ ∑ ∑
Temos que:
Exemplo: Segundo o ranking elaborado pelo Instituto Brasileiro de Executivos de Varejo e Mercado de
Consumo (IBEVAR), o Grupo Pão de Açúcar segue sendo a maior empresa de varejo no Brasil. O ranking usa
como base o faturamento das redes em 2013, ano em que o Pão de Açúcar faturou aproximadamente 57
bilhões de reais, seguido do Carrefour (31 bilhões de reais) e o Walmart (26 bilhões de reais). O objetivo do
diretor de vendas do Grupo Pão de Açúcar é analisar a relação entre o investimento realizado em
propaganda e as vendas (ambas em milhões de Reais) das lojas da rede no Município de Fortaleza, para
realizar projeções de vendas baseados em futuros investimentos em propaganda nos próximos anos. O
Quadro a seguir registra o histórico de 10 lojas na Capital de Fortaleza com os valores de propaganda e
vendas em milhões de reais, no ano de 2013:
Resoluções:
Sendo , temos:
∑
∑
Coeficiente Linear: α=117,07, para X=0, ou seja, para investimento zero em propaganda, estima-se
vendas, em milhões de reais, em torno de R$ 117,07. Um ponto de atenção com relação a esta
interpretação é quando este valor foi negativo. Para alguns casos, o valor negativo não faz sentido na
prática.
Coeficiente Angular: β=9,74, para cada unidade de X incrementa-se em Y 9,74, ou seja, para cada um
milhão de reais investido em propaganda, acrescenta-se R$ 9,74 milhões em vendas.
√(∑ √
) (∑ )
Assim:
f) Soma de Quadrados:
∑
∑
∑ ∑
Fontes de Soma de
Graus de Liberdade Quadrado Médio F
Variação Quadrados
Se F (22,59) > F tabelado (5,32): Rejeita-se a hipótese H0, ou seja, podemos concluir que o modelo é válido ao
nível de significância de 5%
A regressão linear proporciona a análise de vários fenômenos através do ajuste de um modelo linear. Até aqui
o modelo experimental é obtido diretamente dos dados. No entanto há várias situações em que o
comportamento do fenômeno é não linear. Neste caso, os pontos experimentais são obtidos a partir de uma
transformação dos dados ou linearização (anamorfose). Consiste em aplicar uma função que nos dados
originais e em seguida aplicar o método de mínimos quadrados.
Exemplo: Considere que as quantidades vendidas (Y) e o preço de um produto (X) estão relacionados da
seguinte forma:
Pode-se observar que a expressão acima é não linear. Para estimar os parâmetros é necessário aplicar
uma função que torne a função linear.
Fazendo:
Exemplo: Distribuição das pessoas economicamente ativas de uma cidade de acordo com a renda mensal
(Fonte: Rodolfo Hoffman)
4 8.192 300.000
8 1.024 200.000
100.000
16 256
0
32 8 0 5 10 15 20 25 30 35
A estimação do modelo pelo método dos mínimos quadrados requer que os dados sejam linearizados através
de uma transformação aplicar uma transformação. A transformação adequada à potência é o logaritmo. Pode-
se utilizar o log ou ln (logaritmo natural ou Neperiano). Como os dados são potências de base 2, será utilizado
o log na base 2. Assim:
Métodos Quantitativos para Engenharia | Regressão Linear Simples 161
Dados Transformados Forma da distribuição: Linear
20
0 18
15
1 17
10
2 13
3 10 5
4 8 0
0 1 2 3 4 5 6
5 3
∑
∑
Com:
.
Para retornar o valor de α no modelo original (potência) deve-se retornar a transformação, assim:
Observação: O valor de para a transformação indicada não necessita retorno da transformação, uma
vez que o valor não foi alterado.
Os demais casos de modelos não lineares podem ser analisados de forma análoga. O importante é a
identificação da forma da distribuição e a transformação adequada. Uma forma de avaliar a e melhor
escolha é comparara os coeficientes de determinação (R2) para os modelos testados, o maior coeficiente
de determinação é critério para a escolha do melhor modelo. O Microsoft Excel possibilita algumas
propostas de delineamentos com respectivos coeficientes de determinação.
Métodos Quantitativos para Engenharia | Regressão Linear Simples 162
15.4 Regressão Linear Simples com Excel
1. Com o uso do excel a Correlação pode ser calcuada aplicando as fórmuas, ou utilizando a função
“=CORREL(matriz1;matriz2)” onde: Matriz1 corresponde a coluna X e Matriz2 corresponde a Coluna do
Y. Para o cálculo da Correlação não há problemas em trocar X por Y.
2. Os parâmetros do modelo (α e β)
3. Com o uso do excel, pode-se determinar os parâmetros do modelo através das fórmulas ou utilizando
opções de gráfico no diagrmama de Dispersão, veja:
Caminho: inserir gráfico de Dispersão, em seguinda selecione os pontos, clique com o botão direito e
selecione a opção Adiocionar Linha de Tendência, escolha o tipo de modelo (linear, exponencial, etc),
finalmente marque as opções Exibir Equação no Gráfico e Exibir valor de R-quadrado no Gráfico.
600
500
400
100
0
0 5 10 15 20 25 30 35 40 45
Métodos Quantitativos para Engenharia | Regressão Linear Simples com Excel 163
4. Os parâmetros do modelo e a ANOVA podem ser obtidos com o seguinte caminho: Dados, Análise
de Dados, Regressão. Em seguida preencha os campos dos intervalo de X e Y e marque as opções de
saída desejadas.
Métodos Quantitativos para Engenharia | Regressão Linear Simples com Excel 164
16. Critérios de arredondamentos
Figura 18 – Bala Big Big: Moeda de troco.
Em situações do dia-a-dia somos obrigados a utilizar números com
poucas casas decimais. Exemplo: costumamos trabalhar apenas com centésimos
em nossa unidade monetária, ex: R$ 0,10 reais (preço do Big Big). Algumas
formas de apresentar uma quantidade não são práticas, por exemplo: você não
vai na venda do Sr. Raimundo e pede √ de feijão. Além disso, existem
muitas expressões matemáticas, como cálculos de áreas, volumes, entre outros,
que recaem em números com infinitas casas decimais que, obviamente, só
podemos utilizar uma parte delas, ou seja, precisamos realizar um
ARREDONDAMENTO. Em processos indústrias há equipamentos que trabalham
com alta precisão e que são obrigados a tratarem com muitas casas decimais, mesmo assim faz-se necessário o
arredondamento. Desta forma, podemos definir Arredondamento como o processo de utilizar um número com
quantidade de casas decimais menores que a do número original.
9,999 10
Utilizar menos casas decimais implica em utilizar um número maior ou menor que o número original. O objetivo é
que esta diferença ou discrepância seja a menor possível. Os principais critérios de arredondamento utilizam a
ideia do número mais próximo.
a) 10,1
b) 10,8
Novamente, a grande questão é: Qual o inteiro mais próximo? Claramente é 11 (ganha-se 0,2).
Então , veja que estamos utilizando um número maior que o original, ou seja, arredondamento
por EXCESSO.
O critério do número mais próximo pode ser estendido para qualquer quantidade de casas, vejamos outros
exemplos:
De forma geral, para se deixar um número com determinada quantidade de casas (após a vírgula) digamos x,
toma-se como referência a casa seguinte x+1.
Exemplos:
Método Tradicional
Critério de arredondamento utilizado pelo Excel, consiste em considerar a quantidade de casas significativas
(x), partindo da casa seguinte (x+1) de acordo com o critério:
a.
Veja que para arredondar para décimos, toma-se a segunda casa de 1,41667, como esta casa é igual a “1”
(<5), a primeira casa (décimos) fica então inalterada. Assim:
1,4166... 1,4
b) √
Neste caso, a segunda casa de 3,162278 é igual a “6”( ≥ 5), a primeira casa recebe então “1”. Assim:
3,16227... 3,2
Observação 1: No Excel este arredondamento pode ser realizado com a função ARRED, cuja sintaxe é:
”=ARRED (núm;núm_dígitos)”.
Onde:
núm: número(endereço) a ser arredondado
núm_dígitos: número de dígitos a permanecer após a vírgula
Observação 2: o botão aumentar número de casas e diminuir número de casas não arredonda o número,
apenas apresenta uma visualização com mais ou menos casas decimais (print abaixo)
Método ABNT
i) Ao 5 seguir, em qualquer casa, um algarismo diferente de 0 (zero), a última casa a permanecer fica
adicionada de 1
ii) O 5 for o último dígito ou se a ele só seguirem dígitos iguais a 0 (zero), a última casa a permanecer só
será adicionada de 1 se for ímpar.
Veja que este critério diferencia-se do tradicional quando a casa de referência é igual 5, para os casos em
que a casa é maior ou igual a 5, os critérios convergem.
a)
Neste caso, a segunda casa de 0,55555... é igual a “5” e ale precede-se dígitos diferentes de 0 (zero), a
primeira casa recebe então “1”. Assim:
0,55555... 0,6
b)
Neste caso, a segunda casa de 0,250 é igual a “5”, ale precede-se dígitos iguais a 0(zero), a primeira casa é
PAR, esta fica então inalterada. Assim:
0,250 0,2
c)
Neste caso, a segunda casa de 0,350 é igual a “5”, ale precede-se dígitos iguais a 0(zero), a primeira casa é
ÍMPAR, esta fica então adicionada de 1. Assim:
0,350 0,4
Observação: O critério de considerar dígitos pares ou impares como desempate para realizar arredondamento
por excesso ou falta está no fato de haverem iguais quantidades de dígitos pares e impares, ou seja, há igual
possibilidade de arredondamentos por excesso ou falta.
Método do Truncamento
Critério de arredondamento que consiste em considerar a quantidade de casas significativas (x), simplesmente
desconsiderando todas as casas a partir da casa seguinte (x+1), ou seja, a última casa a permanecer fica
sempre inalterada.
a)
b) √
Observação: No Excel este arredondamento pode ser realizado com a função TRUNCAR, cuja sintaxe é
”=TRUNCAR(núm;núm_dígitos)”.
Onde:
núm: número (endereço) a ser arredondado por truncamento
núm_dígitos: número de dígitos a permanecer após a vírgula
2. A parte da estatística que se preocupa somente com a descrição de determinadas características de um grupo, sem tirar
conclusões sobre um grupo maior denomina-se:
a) Tanto a nota quanto a chamada são usadas para esclarecimento geral sobre um quadro e uma tabela;
b) Tanto a nota quanto a chamada são usadas para esclarecer detalhes em relação à casa, linhas ou colunas de um
quadro ou uma tabela;
c) A nota é usada para esclarecer detalhes em relação a casas, linhas ou colunas enquanto a chamada é usada para
um esclarecimento geral sobre um quadro ou uma tabela;
d) A nota é usada para esclarecimento geral sobre um quadro ou tabela enquanto a chamada é usada para
esclarecer detalhes em relação a casas, linhas ou colunas.
e) Todas as afirmativas anteriores são falsas.
7. Um administrador do G.M. Branco (Fortaleza), em dezembro de 2001, obteve junto ao departamento de recursos
humanos dessa empresa, informações de uma amostra de 500 funcionários, onde foram analisadas as variáveis: sexo e
grau de instrução. A pesquisa mostrou que:
Faça uma tabela estatística que mostre a distribuição conjunta entre as duas variáveis. Observação: Dados fictícios.
8. Efetuando-se 50 medições do ponto de fusão de uma substância, foram anotados os resultados, que abaixo são dados:
De um lote de resistores do mesmo tipo foram escolhidos ao acaso 10 resistores. A medição do afastamento da
resistência nominal em KΩ (Kilo-ohms) forneceu a tabela abaixo. Ache ̅ e s.
Nº do Resistor 1 2 3 4 5 6 7 8 9 10
Desvio do Valor nominal 1 3 -2 2 4 2 5 -2 4 3
9. Uma amostra de 80 corpos de prova de concreto forneceu a seguinte distribuição de resistências de ruptura:
a) A especificação para este tipo de material exige que a resistência média de ruptura esteja compreendida entre 70
e 80 psi e que o coeficiente de variação seja inferior a 20%. Qual dessas exigências parece não está sendo
satisfeita no presente estudo? Justifique.
b) Determinar moda e mediana.
10. Uma cerâmica fabrica tijolos de acordo com a norma de um grande cliente. A norma estabelece que os tijolos devem
2
suportar no mínimo uma força de compressão média de 10 kg/cm e que o desvio padrão não deve ser superior a 5% da
média. Num ensaio realizado em um lote de tijolos pelo Engenheiro da Qualidade do cliente, foram registrados os
2
seguintes dados de uma amostra de 6 tijolos, para sua resistência à compressão em kg/cm : 12; 11; 10; 9; 8,5 e 11,5.
Nestas condições, o Engenheiro da Qualidade aprovará ou reprovará o lote de tijolos?
11. Considere o conjunto de medições: 1, 2, 3, 2, 2, 3, 4, 4, 3, 1, 0, 0 e 20. Para estes dados, qual a medida de posição mais
adequada? Justifique.
12. Uma máquina para empacotamento de sacas de cimento não está calibrada, de modo a acrescentar 200g a cada
pesagem. Se o peso médio das sacas de cimento deve ser 50 kg, qual será o peso médio final? Justifique.
13. Um órgão do governo do estado está interessado em determinar padrões sobre o investimento em saneamento básico,
por habitante, realizado por prefeituras. De um levantamento de 10 cidades. Foram obtidos os valores (codificados)
abaixo:
Cidade A B C D E F G H I J
Investimento 20 16 14 8 19 15 15 16 19 18
Nesse caso, será considerado como investimento básico da média final das observações acima, calculada da seguinte forma:
14. Os dados abaixo referem ao número de apartamentos vendidos pela Construtora Pais & Filhos.
0 0 1 4 5 3 2 4 8 4
6 7 4 5 2 1 1 1 5 3
6 4 5 6 1
15. Considere a distribuição de frequências relacionada às idades (anos) de um grupo de funcionários de uma empresa:
16. Analisando a distribuição dos salários dos empregados de uma empresa em número de salários Mínimos (SM), obteve-se
o histograma de frequências absolutas abaixo com os intervalos de classe fechados à esquerda e abertos à direita.
Considere que:
é a média aritmética dos salários, calculada levando em conta que todos os valores incluídos num certo
intervalo de classe são coincidentes com o ponto médio deste intervalo;
Md é a mediana dos salários, calculada por meio do método da interpolação linear;
Mo é a moda dos salários, calculada com a utilização da fórmula de King.
Em que L é o limite inferior da classe modal (classe que se verifica, no caso, a maior frequência). é frequência da classe
anterior à classe modal, é a frequência da classe posterior à classe modal e h é amplitude do intervalo de classe
correspondente.
17. Considerando Insalubridade como a situação ou condição (notoriamente ambiental) que afeta, ao menos de forma
potencial, a saúde das pessoas ali presentes, tais como: ruído, poeira, radiação, calor, insolação, etc. Os dados abaixo
referem aos índices de insalubridade de uma amostra de construtoras cearenses durante o ano de 2014.
0,21 0,20 0,24 0,24 0,35 0,38 0,41 0,49 0,50 0,53
0,48 0,65 0,25 0,28 0,34 0,45 0,47 0,58 0,62 0,66
0,70 0,54 0,67 0,26 0,64
Determine:
a) A organização dos dados em uma distribuição de frequências adequada;
b) Construção do histograma;
c) A média, moda e mediana para a distribuição de frequências;
d) A variância, desvio-padrão e coeficiente de variação;
e) Que percentual de construtoras apresentou um índice inferior a 0,40?
f) Que número de construtoras apresentou um índice de no mínimo 0,30?
18. Uma população possuía 100 mil habitantes em 31 de dezembro de 2017. Um pesquisador mediu a idade média desta
população nesta data e encontrou um valor x. Suponha que não houve nascimento, não houve mortes e que ninguém se
mudou da ou para a cidade durante um ano. Um ano depois, em 31 de dezembro de 2018, demonstre que a idade média
desta população torna-se 1 ano maior.
19. Acredita-se que a concentração de um ingrediente ativo em um detergente líquido para lavagem de roupas seja afetado
pelo tipo de catalizador usado no processo. Dez medições são realizadas na concentração (gl/l) para dois tipos de
catalizadores.
57,9 66,2 65,4 65,4 65,2
Catalisador 1
62,6 67,6 63,7 67,2 71,0
20. Quatro estudantes dirigem de Fortaleza até a Guaramiranga a uma velocidade de 40 km por hora. Eles voltam a uma
velocidade média de 60 km por hora. Qual a velocidade média deles durante a viagem?
21. Em uma empresa do ramo Têxtil 60% dos funcionários são do sexo feminino. O salário médio das mulheres é de R$ 600,
enquanto a dos homens R$ 450,00. Se a empresa tem 400 funcionários, qual o salário médio de todos os funcionários?
22. Prove que a soma dos quadrados dos desvios dos valores de um conjunto de dados com relação média é menor que a
soma dos quadrados dos desvios com relação a qualquer outro valor arbitrário.
23. Uma prova consta de três questões com pesos iguais a 3,2 e 1, respectivamente, para a primeira, a segunda e terceira
questão. Se um aluno obteve 8,0 na prova 8,5 na primeira questão e 6,5 na segunda, que grau ele conseguiu na terceira
questão?
25. Um censo realizado em duas empresas Alfa e Beta revelou que os coeficientes de variação correspondentes dos salários
de seus empregados foram 10% e 5%, respectivamente. Sabe-se que a soma das médias aritméticas dos salários das
duas empresas é igual a R$ 3.400,00 e o desvio padrão da empresa Beta é igual a 9/16 do desvio padrão da empresa
2
Alfa. A soma dos respectivos valores das variâncias, em (R$) , das duas empresas, é igual a:
27. A Estatística é bastante utilizada em diversos ramos da sociedade, no intuito de realizar pesquisas, colher dados e
processá-los, analisar informações, apresentar situações por meio de gráficos de fácil compreensão. O CRA-AC, por
exemplo, ao elaborar um relatório ou ao apresentar um projeto, pode utilizar gráficos estatísticos que tornam as
informações mais palpáveis e a leitura mais atraente. Um dos conceitos fundamentais da estatística é a mediana, que
pode ser definida como:
a) Valor representado através de porcentagem, divisão entre a frequência absoluta de cada variável e o somatório
das frequências absolutas;
b) Medida central em uma determinada sequência de dados numéricos
c) Medida de tendência central. Somatório dos valores dos elementos, dividido pelo número de elementos;
d) Somatório dos valores dos elementos multiplicado por seus respectivos pesos, dividido pela soma dos pesos
atribuídos;
e) Valor de maior frequência em uma série de dados, o que mais se repete.
28. A população de determinada cidade é de 1.800.000 habitantes, qual será sua população daqui a 4 anos se ela cresce à
uma taxa de 5% ao ano ? (R: 2.187.911)
29. Segundo Ferreira (2006), os indicadores são elementos de informação que buscam representar um elemento do mundo
real por meio de um valor. Os indicadores têm como princípio fundamental o seu poder de síntese e representação.
Sobre a importância dos indicadores para a mensuração do alcance da estratégia, analise as questões a seguir:
Fonte: https://br.images.search.yahoo.com
a) Uma empresa do ramo calçadista indicou no seu mapa o objetivo estratégico: Capacitação dos Funcionários. Para
mensurar o alcance deste objetivo foram colocados os seguintes indicadores:
30. Considerando que o montante de uma transação financeira é dado por: , onde M(t) é o montante o
tempo t (meses) e C é o capital aplicado. Qual deve ser a taxa de juros para que o capital duplique em dois anos? (R:
2,93%)
31. Considere que um produto imprescindível para a lucratividade de um salão já acumulou três aumentos a partir de
dezembro de 2019; um de 10%, outro 5% e o último de 8%. Em contrapartida, o salão está promovendo campanhas de
fidelização dos clientes, aumentar os preços não está sendo uma opção. Se um frasco deste produto custa atualmente
R$ 300,00, quanto custava antes da série de aumentos? (R: R$ 240,50).
17.3 Probabilidade
33. A probabilidade de uma mulher e de seu marido estarem vivos daqui a trinta anos é, respectivamente, 3/4 e 3/5. Qual a
probabilidade de apenas o marido está vivo nesse mesmo período? (R: 3/20)
34. A montagem de um sistema é formada de dois subsistemas A e B. De procedimentos de ensaios anteriores, as seguintes
probabilidades se admitem: P (A falhe) = 0,20, P (A e B falhem) = 0,15 e P (B falhe sozinho) = 0,15. Calcule: (R: 0,5 e 0,05)
35. Um estudo realizado entre motoristas adultos sobre a relação existente entre o nível de renda (B= baixa, M = média e A
= alta) e a preferência por um dos três fabricantes de automóveis (X, Y e Z) resultou na tabela das probabilidades
conjuntas:
Renda
Fabricante P(F=f)
B M A
X 10 13 2 25
Y 20 12 8 40
Z 10 15 10 35
P(R=r) 40 40 20 100
Use esta tabela para encontrar as seguintes probabilidades condicionais: (R: 2/5, 3/7, 27/40, 27/75 e 27/75)
C C
a) P (Y \ A) b) P(M \ Z) c) P(X \M) d) P(M \X ) e) P(M \ YUZ)
36. Para um determinado telefone, a probabilidade de se conseguir linha é ¾ em dias normais e ¼ em dias de chuva. A
probabilidade de chover em um dia é 1/10, além disso, tendo-se conseguido linha, a probabilidade de que o número
chamado esteja ocupado é de 11/21. (R: 1/3, 4/9 e 1/28)
37. Determine a confiabilidade de cada dos sistemas representados pelos diagramas abaixo, assumindo que cada
componente funciona independentemente. (R: 88,65% e 96,39%)
a) b)
39. Um mecanismo robótico de inserção contém 10 componentes primários. A probabilidade de que qualquer um dos
componentes falhe durante o período de garantia é de 0,03. Assume que as falhas dos componentes são independentes
e o mecanismo falha se qualquer um dos componentes falharem. (R: 0,2626 e 0,0051 ).
40. Quantas vezes, no mínimo, se deve lançar um dado não tendencioso para que a probabilidade de obter algum 6 seja
superior a 0,9? (R: n ≥13)
41. Se a voltagem é baixa, a probabilidade de ocorrência de falha em um dispositivo é 0,6 e se a voltagem é normal, a
probabilidade é de 0,1. Em 20% dos casos a voltagem é baixa. Qual a probabilidade de não ocorrer falha com voltagem
baixa? (R: 0,4)
42. Em um teste múltipla escolha, marca-se uma alternativa em cada uma de quatro questões, cada uma com cinco
alternativas da qual apenas uma é correta. Qual a probabilidade de um indivíduo acertar por mero acaso alguma
questão? (R: 0,59)
43. Uma nave espacial tem mil componentes em série. Se a confiabilidade da nave deve ser de 0,9, e se todos os
componentes têm o mesmo grau de confiabilidade, qual deve ser a confiabilidade de cada componente? (R: 0,99985).
44. Um empreiteiro apresentou orçamentos separados de dois projetos, um para a execução da parte elétrica e outro da
parte de encanamento de um edifício. Ele acha que a probabilidade de ganhar a concorrência da parte elétrica é de 1/2.
Caso ele ganhe a parte elétrica, a chance de ganhar a parte de encanamento é de 3/4; caso contrário, essa probabilidade
é de 1/3. Qual a probabilidade de ele: (R: 1/3 e 7/24)
45. Considere que a definição do preço total de um frete depende de 5 fatores: distância da origem ao destino, preço do
combustível, tipo de mercadoria, valor do seguro e condições das estradas. Suponha que o peso da distância na
composição do preço seja duas vezes mais que o tipo de mercadoria, este por sua vez três vezes mais que as condições
das estradas; por outro lado preço de combustível e valor do seguro, individualmente, igual ao tipo de mercadoria.
Determine a probabilidade de cada fator na composição do preço do frete.
46. Um grupo de consumidores foi informado sobre a possibilidade da ocorrência sistemática de falha na pesagem (peso
abaixo do discriminado na embalagem) no departamento de carne de um supermercado. Um representante é
encarregado de comprar 5 pacotes de 1 kg de carne cada um no referido supermercado. Se existem 20 pacotes na
vitrine e oito deles realmente apresentam peso abaixo do informado, qual é a probabilidade de que pelo menos três dos
5 pacotes comprados estejam com problemas de pesagem?
a) Qual a probabilidade de que um circuito produzido pela companhia, escolhido ao acaso, seja defeituoso?
b) Se o vendedor dos circuitos faz o teste num deles e verifica ser o mesmo defeituoso, qual a probabilidade de que
ele tenha sido produzido pela fábrica A? E pela fábrica B?
48. Um estudante responde a uma questão de múltipla escolha com 4 alternativas das quais apenas uma é correta. Suponha
que a probabilidade do estudante saber a resposta correta é de 0,8 e que caso ele não saiba responderá aleatoriamente,
isto é, ele “chutará” a questão. Sabendo que o estudante acertou a questão, qual a probabilidade do mesmo não ter
“chutado”?
49. Em uma escola, foram consultados 800 alunos sobre a realização de uma oficina extra turno. Desses, 385 optaram por
oficina de música, 428 optaram por oficina de pintura e 47 não opinaram. Selecionando, ao acaso, um desses alunos,
qual é a probabilidade de ele ter optado pelas duas oficinas?
50. No Rio de janeiro algumas condições são exigidas para que um automóvel seja aprovado na vistoria anual obrigatória:
Basta que uma delas não se cumpra para que o veículo não seja aprovado. Suponha que uma pessoa vai levar o seu carro
para a vistoria. Como ela não teve o cuidado de verificar todos esses detalhes, pode haver problema. Admita que as
probabilidades de essas condições não estarem atendidas são: 10% (poluição), 15% (lanternas) e 20% (extintor). Supondo
que tudo o mais esteja OK (documentação, impostos em dia, multas pagas etc.): (R: 0,612 e 0,848)
51. Os indivíduos S1, S2, S3 e S4, suspeitos da prática de um ilícito penal, foram interrogados, isoladamente, nessa mesma
ordem. No depoimento, com relação à responsabilização pela prática do ilícito, S1 disse que S2 mentiria; S2 disse que S3
mentiria; S3 disse que S4 mentiria. A partir dessa situação, julgue o item a seguir. Considerando que a conclusão ao final
do interrogatório tenha sido a de que apenas dois deles mentiram, mas que não fora possível identificá-los, escolhendo-
se ao acaso dois entre os quatro para novos depoimentos, a probabilidade de apenas um deles ter mentido no primeiro
interrogatório é superior a 0,5 ? Justifique.
52. De acordo com dados do IBGE [disponível em: www.ibge.-gov.br/agencia-noticias, acesso em: 12 mar. 2018, adaptado] o Brasil tinha 67
milhões de domicílios particulares em 2014, sendo que 97,1% deles possuíam aparelho de TV, e 39,8% dos domicílios
com TV tinham TV digital aberta. Além disso, cerca de 15,1 milhões de domicílios com aparelhos de TV, no país, ainda
tinham TV analógica aberta. Desta forma, escolhendo ao acaso um domicílio particular brasileiro no ano de 2014, a
probabilidade de que ele possuísse aparelho de TV analógico aberto era, aproximadamente, de:
53. Uma operação policial será realizada com uma equipe de seis agentes, que têm prenomes distintos, entre eles André,
Bruno e Caio. Um agente será o coordenador da operação e outro, o assistente deste; ambos ficarão na base móvel de
operações nas proximidades do local de realização da operação. Nessa operação, um agente se infiltrará, disfarçado,
entre os suspeitos, em reunião por estes marcada em uma casa noturna, e outros três agentes, também disfarçados,
entrarão na casa noturna para prestar apoio ao infiltrado, caso seja necessário. Se os dois agentes que ficarão na base
móvel forem escolhidos aleatoriamente, determine a probabilidade de André e Bruno serem os escolhidos.
54. O ano de 2017 inicia com um bom índice pluviométrico (chuva), mesmo assim insuficiente para afastar o período de seca
pelo qual o Brasil vem passando. A crise na gestão dos recursos hídricos está relacionada a este período de seca, mas
também a graves falhas no planejamento e na manutenção destes recursos. Além disso, há o processo de ocupação de
forma não planejada, o que provoca impactos ambientais graves, como assoreamento dos mangues, desmatamentos,
aterramentos, impermeabilizações do solo, erosão, contaminação da água, inundações entre outros. Uma importante
55. Em matemática, a probabilidade condicionada refere-se à probabilidade de um evento A ocorrer sabendo que ocorreu
outro evento B ocorreu. Sobre o conceito de probabilidade condicional, considere a seguinte questão: Em determinado
período letivo, cada estudante de um curso universitário tem aulas com três professores, esses identificados pelas letras
X, Y e Z. As quantidades de estudantes (homens e mulheres) que têm aula com cada professor é apresentada na tabela
de contingência abaixo: (Fonte: ENADE 2011).
A partir do grupo de estudantes desse curso universitário, escolhe-se um estudante ao acaso. Qual a probabilidade de
que esse estudante seja mulher, dado que ele tem aulas apenas com o professor X ?
b) c) d) e)
56. Um número entre 1 e 200 é sorteado aleatoriamente. Calcular a probabilidade de que seja divisível por 5, 4 ou 7. (R:
97/200).
57. O rito processual de análise de determinado tipo de processo segue as três seguintes fases:
Instrução: após a apresentação da representação e das provas, o juiz decide pela admissibilidade ou não do
caso;
Julgamento: admitido o caso, o juiz analisa o mérito para decidir pela culpa ou não do representado;
Apenação: ao culpado o juiz atribui uma pena, que pode ser ou o pagamento de multa, ou a prestação de
serviços à comunidade.
A partir das informações acima, considerando que a probabilidade de que ocorra erro de decisão na primeira fase seja de
10%, na segunda, de 5% e, na terceira, de 3%, e que a ocorrência de erro em uma fase não influencie a ocorrência de erro
em outras fases, julgue os próximos itens. A probabilidade de que ocorram erros de decisão em todas as fases do
processo é inferior a 0,1%?
58. Com relação ao problema anterior, sabe-se que, para cada peça processada, o operário ganha uma quantia de fixa de R$
2,00, mas se ele processar em menos de 6 minutos, ganhará R$ 0,50 por minuto poupado. Por exemplo, se ele processar
a peça em 4 minutos, receberá a quantia adicional de R$ 1,00. Considere G a v.a representando o ganho do operário por
peça. Determine: (R: R$ 2,75)
59. Uma linha de produção é segmentada em lotes de tamanho N=1.000. O processo de inspeção é baseado em amostra
única de tamanho n = 40. Sendo o nível de qualidade igual a 2% e nº de aceitação 2, determine: (R: 83; 70,55)
60. O custo de reparo de um produto é categorizado de acordo com a tabela abaixo. Determine o custo de reparo médio em
R$. (R$ 0,85).
k 0 1 2 3 4 5 6 7
P(K=k) 0,05 0,15 0,22 0,22 0,17 0,12 0,05 0,02
Qual das duas empresas recebe em média o maior volume de pedidos em uma semana? Por que?
62. Em um processo de fabricação, 10% das peças são consideradas defeituosas. As peças são acondicionadas em caixas com
5 unidades cada uma. Se a empresa paga um a multa de R$ 10,00 por caixa em que houver alguma peça defeituosa, qual
o valor esperado da multa num total de 1000 caixas? (R: 4.095,10)
63. Em uma loteria, 7 em cada 10 vezes não se ganha nada, 2 em cada 10 vezes ganha-se R$ 100, e 1 em cada 10 vezes
ganha-se R$ 1.000. O valor que pode ser ganho é uma variável aleatória X. (R: R$ 120,00)
64. A Inspeção Total Média (ITM) mede o número médio de itens inspecionados, devido ao uso de um programa de
inspeção por retificação (inspeção total com substituição dos itens defeituosos). Para inspeção simples seu valor é dado
por:
Sendo N = 1000, n= 30, p = 5% e a=1 (nº de aceitação), determine o valor do ITM e sua interpretação (R: 464).
65. Um produto alimentício é ensacado automaticamente, sendo o peso médio de ensacamento de 50 Kg por saca e desvio
padrão de 1,6 Kg. Os clientes exigem que, para saca fornecida com menos de 48 Kg, o fornecedor pague uma multa de R$
5,00. Calcular: (R: R$ 105,65; 50,62 Kg; 1,06 Kg)
66. O tempo T, em minutos, necessários para um operário processar certa peça é uma V.A. (variável aleatória) com a
seguinte distribuição de probabilidade:
T 2 3 4 5 6 7
P(T=t) 0,1 0,1 0,3 0,2 0,2 0,1
67. Um casal planeja ter filhos até conseguir pelo menos um de cada sexo. Qual a probabilidade de que para tanto, precise
ter: (R: 0,0625; 0,25 e 3)
68. Uma pessoa joga 3 moedas não viciadas e ganha R$ 12,00 se ocorrer somente caras ou somente coroas. Se perder,
quanto deverá pagar para o jogo ser justo? (Sugestão: considere E[X] = 0) (R: R$ 4,00).
69. Uma firma precisa decidir entre dois projetos de investimento. O projeto A terá ganho de R$ 20.000,00 se for bem
sucedido ou uma perda de R$ 2.000,00 se fracassar; ao passo que o projeto B terá ganho e perda de R$ 25.000,00 e R$
5.000,00 respectivamente. Sabendo que a probabilidade de um projeto ser bem sucedido é p, para quais valores de p
você escolheria o projeto A? (R: p <3/8)
70. Uma Organização financeira verificou que o lucro unitário (L) obtido numa operação financeira é dado pela expressão:
L = 1,1.V - 0,9.C - 4,5
Sabendo-se que o preço de venda unitário (V) tem distribuição de média R$ 50,00 e desvio padrão R$ 2,00 e que o preço
do custo unitário (C) tem distribuição média R$ 45,00 e desvio padrão de R$ 1,50. Qual a média e o desvio padrão do
lucro unitário? (R:R$ 10,00; R$ 2,58).
71. Três componentes, que funcionam independentemente, são ligados em um sistema único, de acordo com a figura
abaixo. Suponha que a confiabilidade de cada um dos componentes, para um período de operação de t horas, seja
-0,03t.
definido da seguinte forma: f(t) = 0,03e t ≥0. Se t for a duração até falhar, o sistema completo (em horas). Qual será
a confiabilidade do sistema? R
72. Num determinado processo de fabricação, 10% as peças são consideradas defeituosas. As peças são acondicionadas em
caixas com 5 unidades cada uma. (R: 0,0081; 0,0815 e R$ 4.095,10)
75. Estimativas de mercado indicam que um novo instrumento para análise de amostras de solo será pleno sucesso, sucesso
moderado ou insucesso com probabilidades 0,3; 0,6 e 0,1; respectivamente. O retorno anual associado com cada um
destes resultados é de 10 milhões, 5 milhões e 1 milhão, respectivamente. Seja X1 uma variável aleatória que denote o
retorno anual do produto.
76. Caracterizar as variáveis aleatórias como Binomial, Poisson e Hipergeométrica e identificar os parâmetros:
a) Nº de pessoas insatisfeitas com um produto em uma amostra de 5 pessoas selecionadas ao acaso de uma
população onde o percentual de insatisfação com o produto é de 5%;
2 2
b) Nº de defeitos por m de reboco onde a taxa média de defeitos é 2 defeitos a cada 2m ;
c) Nº de peças defeituosas entre 10 peças defeituosas escolhidas ao acaso e sem reposição de um lote contendo
200 peças, das quais 80 são defeituosas;
d) A variável anterior considerando a reposição;
e) Nº de acidentes por dia em uma empresa onde a taxa de ocorrência é de 1 acidente/dia;
f) Considerando o contexto da questão anterior, Nº de dias com zero acidente entre 10 dias observados;
77. Uma empresa foi contratada para perfurar poços artesianos no município X. Por experiências passadas, a empresa julga
que 20% dos poços que perfura apresentam vasão maior ou igual a 40.000 litros por hora. Se ela perfura 8 poços,
determine a probabilidade de (R: 0,0011; 0,2030; 0,0011).
78. Uma prova tipo teste tem 10 questões independentes. Cada questão tem 5 alternativas das quais apenas uma é correta.
Se um aluno resolve a prova respondendo a esmo as questões, qual a probabilidade de tirar 5,0? (R: 0,0467).
79. Uma pesquisa realizada por uma ONG indicou que apenas 40% dos novos prédios de uma cidade apresentavam
equipamentos de acessibilidade adequados (Rampas, Elevadores, Sinalização em relevo, etc). Tomando ao acaso uma
amostra de 10 prédios desta cidade, qual a probabilidade de (R: 0,0001; 0,0060):
80. De acordo com experiências passadas, sabe-se que 10% dos usuários do Parque do Cocó (Fortaleza) estão insatisfeitos
com acessibilidade do Parque. Para uma amostra de 10 pessoas tomadas ao acaso em dado dia, determine a
probabilidade de: (R: 0,3487; 0,9298; 0,6513; 0,0015; 1 e 0,9).
82. Suponha que Xt, o nº de partículas emitidas em t horas por uma fonte radioativa, tenha uma distribuição de Poisson com
parâmetro 20t. Qual será a probabilidade de que exatamente 5 partículas sejam emitidas durante um período de15 min?
(R: 17,54%)
83. A oficina de manutenção de uma indústria pode atender, no laboratório normal, 4 casos de quebras de máquinas por
dia. Em média, quebram-se 3 máquinas por dia. Se quebrarem mais de 4 em um dia a oficina deverá fazer horas extras
para atender essas ocorrências. Qual a probabilidade de, em uma semana (6 dias), fazerem-se horas extras em 2 ou dias?
(Sugestão: utilize Poisson para máquinas e Binomial para os dias).
84. Uma remessa de 800 estabilizadores de tensão é recebida pelo controle de qualidade de uma empresa. São
inspecionados 20 aparelhos da remessa, que será aceita se ocorrer no máximo um defeituoso. Há 80 defeituosos no lote.
Considerando análise com reposição, qual a probabilidade de o lote ser aceito? (R: 39,17%)
85. O nº médio de aviões que aterram num determinado aeroporto é de 3 em cada 2 minutos. Sabe-se que o nº de aviões
que aterram no aeroporto é bem modelado por uma distribuição de Poisson.
86. Uma fábrica de motores para máquinas de lavar roupas separa de sua linha de produção diária de 350 peças uma
amostra de 30 itens para inspeção. O número de peças defeituosas é de 14 por dia. Qual a probabilidade de que a
amostra contenha pelo menos 3 motores defeituosos?
87. Um processo de produção produz 10 itens defeituosos por hora. Encontre a probabilidade de 4 ou menos itens sejam
defeituosos numa retirada de uma hora.
88. A Detroit Auto Supply Company produz um lote de 50 filtros de combustível, dos quais 6 são defeituosos. Escolhem-se
aleatoriamente e testam-se 2 filtros do lote. Determine a probabilidade de ambos serem bons, se os filtros são
selecionados:
89. A probabilidade de ocorrência de turbulência em um determinado percurso a ser feito por uma aeronave é de 0,4 em
um circuito diário. Seja X o número de vôos com turbulência em um total de 7 desses vôos (ou seja, uma semana de
trabalho). Qual a probabilidade de que: (R: 2,8%; 58%; 74,5% e 24,9%)
90. Cinco lâmpadas são escolhidas aleatoriamente dentre 15 lâmpadas, das quais 5 são defeituosas. Encontre a
probabilidade de (com reposição)
a) Nenhuma seja defeituosa; b) Exatamente uma seja defeituosa; c) Pelo menos uma seja defeituosa
91. A possibilidade de transmissão de um bit com erro num canal digital é de 9,1% e pode ser modelado por uma variável
aleatória discreta binomial. Considere a transmissão de 50 bits, qual a probabilidade de que ocorram pelo menos três
bits com erros transmitidos?
93. O gerente de um almoxarifado informa que 30 % das peças tipo W estão com defeitos. Numa inspeção de auditoria,
calcule qual a probabilidade de que em 5 sorteios, sejam sorteados os seguintes eventos:
a) Nenhuma peça com defeito b) Exatamente duas peças com defeito c) Pelo menos duas peças com defeito
k 0 1 2 3 4 5 6 7
P(K=k) 0,05 0,15 0,22 0,22 0,17 0,12 0,05 0,02
a) Qual das duas empresas recebe em média o maior volume de pedidos em uma semana? Por que?
b) Em qual das duas é maior a variabilidade do volume semanal de atendimentos? Por que?
(Sugestão: utilizar as expressões [ ] ∑ e [ ] [ ] [ ] )
95. Um lote de 100 peças é entregue ao controle de qualidade de uma firma. O responsável pelo setor seleciona 5 peças
sem reposição. O lote será aceito se forem observadas 0 ou 1 defeituosas. Há 20 defeituosas no lote. Qual a
probabilidade de o lote ser aceito
96. Acredita-se que 20% dos moradores das proximidades de uma grande indústria siderúrgica têm alergia aos poluentes
lançados ao ar. Admitindo que este percentual de alérgicos é real (correto), Determine: (R: 25,26%; 2,6; 2,08)
97. Na fabricação de peças de determinado tecido aparecem defeitos ao acaso, um a cada 250 m. Supondo-se a distribuição
de Poisson para os defeitos, qual a probabilidade de que na produção de 1000m: (R: 1,83%; 76,19%; 6,57 dias)
98. O número de navios petroleiros, digamos N, que chega a uma determinada refinaria cada dia tem média igual a 2. As
instalações do porto podem atender a três petroleiros por dia. Se mais de três petroleiros aportarem por dia, o
excedente a três deverá seguir para outro porto. (R: 0,145; 4; 1 ou 2);
99. Suponha que uma aplicação de tinta em um automóvel e feita de forma mecânica, e pode produzir defeitos de
fabricação, como bolhas ou áreas mal pintadas, de acordo com uma variável aleatória x que segue uma distribuição de
Poisson de parâmetro lâmbda ʎ =1. Suponha que sorteamos um carro ao acaso para que sua pintura seja inspecionada,
qual a probabilidade de encontrarmos:
100. Sabe-se que em um sistema de transmissão de dados, uma tempestade causa, em média, a falha de transmissão
de um pacote em cada 200. Transmitindo 500 pacotes nestas condições, qual a probabilidade que: (R: 0,7578; 0,0816)
101. Vazamentos de tanques de gasolina subterrâneos em postos de gasolina podem poluir o meio ambiente. Estima-se
que 15% desses tanques apresentam vazamento. Você examina 20 tanques escolhidos ao acaso, independentes entre si.
Qual é a probabilidade de:
103. Suponha que as medidas da corrente elétrica em pedaço de fio sigam a distribuição Normal, com uma média de 10
2
mA e uma variância de 4 mA . (mA: miliamperes) (R: 6,68%; 38,29%; 14,1mA)
a) P(X≤ µ+2σ) b) P(│X- µ│ ≤ σ) c) O número “a”, tal que P(µ -aσ ≤ X≤ µ+aσ) d) O número “b”, tal que P(X>b) = 90%
105. Uma pessoa necessita tomar um trem que parte dentro de 20 min, podendo chegar a estação optando por dois
trajetos: T1 e T2. Sabe-se que, em T1, o tempo de deslocamento segue uma distribuição normal com média 18 min e
desvio padrão 5 mim, e idem para T2, com uma média de 20 min e desvio padrão 2 mim.
a) Qual a melhor escolha de trajeto? b) Se a pessoa sabe que o trem está atrasado 3 min, qual a melhor opção?
106. Os capacitores da marca A têm capacitância média de 49,5 µF com desvio padrão de 1,8 µF, e os da marca B têm
vida média 50,6 µF com desvio padrão 2,5 µF. Em ambos os casos, as capacitâncias seguem modelo normal, e o preço
unitário é também o mesmo. Sendo C0 o valor mínimo desejável para a capacitância, para que valores de C 0 é preferível
os capacitores da marca A? (R: C0 < 46,5 µF).
107. Uma máquina de enlatar sardinha preenche as latas do respectivo produto segundo, aproximadamente, uma
2
distribuição normal com média 160g e variância 16g .
a) Sabendo-se que na lata é informado 150g, qual a probabilidade, aproximada, do produto conter menos do que foi
informado?
b) Qual a probabilidade, aproximada, de uma lata qualquer, tomada aleatoriamente entre os enlatados por essa
máquina, apresentar entre 162g e 172g?
c) Caso a média do peso de sardinha seja regulável, em quanto esta máquina deveria ser regulada para que somente
1% dos enlatados, aproximadamente, contenha menos de 150g?
109. As lâmpadas fabricadas por uma indústria têm vida média de 2060 h e desvio padrão de 150 h, seguindo uma
distribuição normal. Calcule a probabilidade de:
110. Uma fábrica de pneus fez um teste para medir o desgaste dos mesmos e verificou que a duração tem distribuição
normal com média 52.000 km e desvio padrão 2.000 km. Qual a probabilidade de que um pneu escolhido ao acaso, durar
mais de 50.000 Km?
111. O gerente da Loja Consul do “Shopping do Vale do Aço” fez uma coleta aleatória do tempo de permanência de
clientes na fila de pagamento e descobriu que o tempo médio é igual a 6 minutos e o desvio-padrão igual a 1 minuto.
Para diminuir a ansiedade de seus clientes na fila, ele deseja dispor um quadro indicativo com o tempo previsto para o
atendimento. Supondo que este tempo tenha uma distribuição normal, se for disposto que o tempo de atendimento
será de 8 minutos, qual a percentagem máxima de clientes que poderão reclamar com o gerente? (R: 2,28%)
112. A concentração de um poluente em água liberada por uma fábrica tem distribuição N (8;2,25). Qual a chance, de
que num dado dia, a concentração do poluente exceda o limite regulatório de 10 ppm? (0,09) (ppm: partes por milhão)
113. Uma fábrica de carros sabe que os motores de sua fabricação têm duração normal com média 150.000 km e
desvio-padrão de 5.000 km. Qual a probabilidade de que um carro, escolhido ao acaso, dos fabricados por essa firma,
tenha um motor que dure: (R: 0,9999; 0,9759; 135.600 Km)
114. O diâmetro de um eixo de um drive óptico de armazenagem é normalmente distribuído, com média 0,2508
polegadas e desvio-padrão de 0,0005 polegadas. As especificações do eixo são 0,2500±0,0015 polegadas. Que proporção
de eixos obedece às especificações? (R: 0,9192)
115. Uma enchedora automática de refrigerantes está regulada para que o volume médio de líquido em cada garrafa
3 3
seja de 1000 cm e desvio padrão de 10 cm . Admita que o volume siga uma distribuição normal. (R: 15,9%; 95,44%;
58,04%)
3
a) Qual é a porcentagem de garrafas em que o volume de líquido é menor que 990 cm ?
b) Qual é a porcentagem de garrafas em que o volume de líquido não se desvia da média em mais do que dois
desvios padrões?
c) Se 10 garrafas são selecionadas ao acaso, qual é a probabilidade de que, no máximo, 4 tenham volume de líquido
3
superior a 1002 cm ?
116. Dois estudantes foram informados de que alcançaram as notas padronizadas 0,8 e -0,4 e as notas brutas 88 e 65,
respectivamente, em um exame de múltipla escolha de inglês. Supondo distribuição normal, determinar a média e o
desvio padrão (R: 72; 20)
117. Um avião de turismo de 4 lugares pode levar uma carga útil de 350 kg. Sabe-se que os pesos dos passageiros segue
2 2
N(70Kg; 10Kg ) e os pesos da bagagens N(12Kg; 6Kg ). Determinar: (R: 328 kg; 8 Kg; 0,3%)
118. Se X é uma v.a. contínua com distribuição N(80; 36), determine o valor de A, B, C e D nos seguintes casos: (R: 68;
69,2; 7,2; 1)
119. Uma peça cromada resiste a um ensaio de corrosão, em média, por três dias e com um desvio padrão de 5 horas.
Supondo distribuição Normal, calcular a probabilidade de uma peça resistir: (R: 0,82%; 0%; 64,72%; 0,82%; 65h; 62,5h)
a) A mais de 3,5 dias b) A mais de 5 dias c) Entre 60 e 84 horas d) A menos de 60 horas e) Se 8,08% das peças
resistem a, no máximo, t1 hora, quanto vale t1? f) Se 97% das peças resistem a, pelo menos, t2 hora, quanto vale
t2?
120. Uma peça de cerâmica é produzida em moldes de gesso. Por problemas de desgaste, calcinação, etc. o molde
produz peças cada vez maiores. As peças têm, em média, 30 cm de diâmetro com desvio padrão de 0,2cm, e são
considerados fora de medida se tiverem mais de 30,5cm. O molde aumenta o diâmetro da peça em 0,004cm a cada
moldada. Quantas vezes devemos utilizar o molde para que a porcentagem de peças fora da medida não ultrapasse
10,03% (R: 61).
121. De acordo com experiências passadas, sabe-se que o tempo de permanência dos usuários no Parque do Cocó
2
(Fortaleza) Segue um modelo aproximadamente Normal com média 90 minutos e variância 100 minutos . Determine as
seguintes probabilidades: (R: 0,3085; 0,3072; 0,0014; 0,9935; 50).
122. Sabe-se que o diâmetro médio de uma peça é normalmente distribuído com média 50 mm e desvio padrão de 0,4
mm. A especificação do processo impõe que as peças serão consideradas perfeitas se o diâmetro estiver entre 49,5 mm
e 50,5 mm. Peças com diâmetro fora desta faixa são consideradas defeituosas, porém, caso o diâmetro da peça não
supere os limites de especificação por mais de 1 mm, (48,5 a 49,5 mm ou 50,5 a 51,5 mm) a peça pode ser aproveitada
como de segunda qualidade. (R: 45,15%; 451,5)
a) Observando uma peça ao acaso da linha de produção, verifica-se que ela é defeituosa, qual a probabilidade de
que a mesma possa ser classificada como segunda qualidade?.
b) Observando um lote de 1000 peças defeituosas, qual o número esperado de peças que podem ser classificadas
como segunda qualidade?
123. Sabe-se que o contato com o sulfeto de carbono interfere na concentração do ácido xaturênico no corpo humano.
A quantidade de ácido xanturênico excretado na urina de trabalhadores de uma indústria, que usa sulfeto de carbono
como solvente, segue uma distribuição Normal com média 4,38 mg/15ml e desvio padrão 1,15mg/15ml. Determinar: (R:
0,3420; 0,1650; 3,41).
124. Um fabricante de baterias sabe, por experiências passadas, que vida média de suas
baterias de é 600 dias e desvio padrão de 100 dias, sendo que a duração tem
aproximadamente uma distribuição Normal. Oferece uma garantia de 312 dias, isto é, troca
às baterias que apresentarem falhas nesse período. Fabrica 10.000 baterias mensalmente.
Quantas baterias deverão trocar pelo uso da garantia mensalmente? (R: 20)
a) Em quanto deve ser fixado o peso médio para que apenas 10% dos pacotes tenham menos de 500g?
b) Com a máquina assim regulada, qual é a probabilidade de que o peso de um pacote exceda 600g?
c) Com a máquina assim regulada, qual a porcentagem de pacotes em que o peso não se afasta da média em mais
que dois desvios padrão?
d) Com a máquina assim regulada, para uma amostra de 120 pacotes, qual é o número espera do de pacotes com
menos de 500 g?
126. Um elevador tem suporte máximo de 700 kg para uma lotação de n= 10 pessoas. Sabendo que o peso médio de
um humano é de µ= 62 kg e cujo desvio padrão é igual a σ= 10 kg, responder as seguintes questões, assumindo que o
peso possui distribuição normal: (R: 21,19%; 0,57%)
127. As vendas de determinado produto têm distribuição aproximadamente normal, com média de 500 e desvio padrão
de 50. Se a empresa decide fabricar 600 unidades no mês em estudo, qual é a probabilidade de que não possa atender a
todos os pedidos desse mês, por estar com a produção esgotada? (R: 2,28%)
128. Sabe-se que a distribuição das rendas (mensais) das famílias de uma comunidade que residem em uma área que
será desapropriada para a construção de um parque ecológico segue um modelo aproximadamente normal com média
R$ 900,00 e desvio padrão de R$ 100,00. Determine:
129. Suponha que as amplitudes de vida de dois aparelhos elétricos D 1 e D2, tenham distribuições N(42; 6) e N(45; 3),
respectivamente. Se o aparelho é para ser utilizado por um período de 45 horas, qual aparelho deve ser preferido? E se
for por um período de 51 horas? (R: 50%; 6,68%)
130. O número de pedidos de compra de certo produto que uma cia recebe por semana distribui-se normalmente, com
média 125 e desvio padrão de 25. Se em uma dada semana o estoque disponível é de 150 unidades, qual é a
probabilidade de que todos os pedidos sejam atendidos? Qual deveria ser o estoque para que se tivesse 99% de
probabilidade de que todos os pedidos fossem atendidos? (R: 84,13%; 184)
131. A duração de certo componente eletrônico tem média de 850 dias e desvio padrão de 40 dias. Sabendo-se que a
duração é normalmente distribuída, calcule a probabilidade de um componente durar: (R: 0,9998; 0,8944; 0,0062).
a) Entre 700 e 1.000 dias; b) Mais de 800 dias; c) Menos de 750 dias.
Escala de Conceito:
Escore ≤2 3a4 5a6 7a8 ≥9
Conceito Péssimo Ruim Regular Bom Ótimo
133. A unidade de ensacamento de uma fábrica de cimento é pressuposto encher os sacos com um peso médio de
µ=50 kg. É obvio que nem todos os sacos ficam exatamente com a quantidade 50 kg, havendo alguns que ficam com
mais, outros que ficam com menos cimento, devido a diversos fatores aleatórios que ocasionam variabilidade no
2 2
processo. Um estudo desta variabilidade ou dispersão quantificou a variância do processo em σ =0,25 kg ou desvio
padrão de 0,5 kg. Admitindo-se que o processo de ensacamento segue a lei de distribuição Normal com média µ=50 kg e
2 2
σ =0,25 kg (X~N (50; 0,25)). Calcule a probabilidade de um saco, selecionado aleatoriamente, contenha: (R: 47,72%;
34,13%; 95,44%; 0,13%; 0,62%; 15,74%; 0,26%; 683; (X ε *49,18; 50,82+)
134. O diâmetro de mancais produzidos por um processo de manufatura é uma variável aleatória normalmente
distribuída com a média de 4,035 mm e desvio-padrão de 0,005 mm. O procedimento de inspeção requer uma amostra
de 25 mancais a cada hora. Determinar:
135. O controle tecnológico do concreto é essencial em todas as obras que utilizam o concreto armado. Em muitos
casos é deixado de lado por ser considerado caro, ou então por falta de esclarecimento da importância de controlar a
qualidade dos materiais que são utilizados em obra. Sobre o controle tecnológico do concreto, alguns parâmetros são
considerados, tais como a resistência à compressão simples, denominada fc, que é uma característica mecânica muito
importante. Para estimá-la em um lote de concreto, são moldados corpos de prova para ensaio segundo a NBR 5738
(Moldagem e cura de corpos de prova cilíndricos ou prismáticos de concreto). O ensaio é realizado segundo a NBR 5739
(Ensaio de compressão de corpos de prova cilíndricos) para corpos de prova padrão de formato cilíndrico de 150 mm de
diâmetro por 300 mm de altura. O tempo de cura é de 28 dias.
O fcm é a média aritmética dos valores de fc para o conjunto de corpos de prova ensaiados. O fck é a resistência
característica do concreto a compressão e é utilizado no cálculo estrutural. O valor de fck delimita os 95% maiores valores
de compressão de concretos. Dessa forma, há uma garantia de que 95% do concreto utilizado na obra tenha resistência
maior do que a resistência característica, fc > fck. Para um valor médio de compressão de 45,0 mPa e desvio padrão 9,0
mPa, calcule:
136. Uma pesquisa será conduzida para uma população composta de 600 empresas, das quais 50 são grandes, 200
médias e 350 são pequenas. Além disso, todas as grandes, 80% das médias e 20% das pequenas são do ramo indústria,
as demais são do ramo serviços. Determine:
a) O tipo de amostragem adequada, considerando que a análise não é influenciada nem pelo porte e nem pelo ramo
de atividade;
b) O tipo de amostragem adequada, considerando que a análise é influenciada tanto pelo porte quanto pelo ramo de
atividade;
c) A configuração de uma amostra composta por 20% destas empresas estratificada pelo porte;
d) A configuração de uma amostra composta por 10% destas empresas estratificada pelo ramo;
137. Uma das grandes necessidades das empresas atualmente é o estabelecimento de uma sistemática que permita a
melhoria continua dos produtos, aumento da produtividade e redução de custos, no sentido de se manterem
competitivas no mercado globalizado. Esses objetivos podem ser alcançados, por exemplo, pela Gestão da Qualidade
Total (GQT). Um cenário comum nas empresas cearenses é não utilização ou utilização inadequada das ferramentas da
qualidade. Com o objetivo de abordar esta problemática, uma pesquisa foi realizada em 2010 com 90 indústrias
cearenses, das quais 34 indicaram não utilizar nenhum programa formal de qualidade. Para a pesquisa, responda as
questões a seguir utilizando α= 5%:
139. Deseja-se estimar o diâmetro médio dos parafusos produzidos por uma fábrica. Para esta finalidade extraiu-se
uma amostra de 30 parafusos da produção e os mesmos apresentaram os seguintes diâmetros (mm):
10,0 11,0 11,0 11,0 12,0 12,0 12,0 12,0 13,0 13,0
13,0 13,0 13,0 13,0 13,0 13,0 13,0 13,0 13,0 13,0
14,0 14,0 14,0 14,0 14,0 15,0 15,0 15,0 16,0 16,0
Responda as questões a seguir:
140. Um pesquisador precisa determinar o tempo médio gasto para perfurar três orifícios em uma peça de metal. Qual
deve ser o tamanho da amostra para que a média amostral esteja a menos de 15 seg da média populacional? Por
experiência prévia, pode-se supor o desvio padrão em torno de 40 seg. Considere também, que a estimação será
realizada com nível de confiança de 95%. (R: n=28)
141. Uma unidade fabril da Intel produziu 500.000 chips Pentium IV em certo período. São selecionados,
aleatoriamente, 400 chips para testes.
a) Supondo que 20 chips não tenham a velocidade de processamento adequada, construir o intervalo de confiança
para a proporção de chips adequados. Use nível de confiança de 95%. (R: 95% 2,1%)
b) Verificar se essa amostra é suficiente para obter um intervalo de 99% de confiança, com erro amostral máximo de
0,5%, para a proporção de chips adequados. Caso contrário, qual deveria ser o tamanho da amostra? (R:
n=12.298)
142. Um analista de sistemas está avaliando o desempenho de um novo programa de análise numérica. Forneceu como
entrada do programa 14 operações similares e obteve os seguintes tempos de processamento (em milissegundos):
a) Calcule a média e o desvio padrão da amostra do tempo de processamento. (R: 15,44; 2,07)
b) Construir um intervalo de confiança para o tempo médio de processamento, com nível de confiança de 95%. (R:
15,44 1,09)
c) c) Qual deve ser o tamanho da amostra para garantir um erro amostral máximo de 0,5 milissegundos, na
estimação do tempo médio de processamento, com nível de confiança de 99%? (R: n=144)
143. Seja a construção de um plano para garantir a qualidade dos parafusos vendidos em caixas com 100 unidades. Um
dos requisitos é controlar o comprimento médio dos parafusos. Quer-se saber quantos parafusos deve-se examinar em
cada caixa, para garantir que a média amostral ( ) não difira do comprimento médio dos parafusos da caixa (μ) em mais
que 0,8 mm. Considere que a estimação seja realizada com nível de confiança de 95%. Análises feitas na linha de
2
produção indicam variância em tomo de 2 mm . (R: n=11).
144. Uma empresa que trabalha com manutenção ar condicionado apresenta uma carteira de 500 clientes empresas.
Qual deveria ser o tamanho da amostra suficiente para um erro máximo de 5% e com significância de α = 5%?
145. Uma firma está convertendo as máquinas que aluga para uma versão mais moderna. Até agora foram convertidas
40 máquinas. O tempo médio de conversão para as máquinas já convertidas foi de 24 horas, com desvio padrão de 3
horas. Determine:
146. A polícia rodoviária fez recentemente uma pesquisa secreta sobre as velocidades desenvolvidas na rodovia no
período de 2 às 4 horas da madrugada. No período de observação 50 carros passaram por um aparelho de radar a uma
velocidade média de 70 km/h, com desvio padrão de 15 km/h.
147. Em uma amostra de 200 eleitores, 114 são favoráveis a determinado projeto de lei. Com base nessas informações,
determinar:
148. As válvulas fabricadas por uma indústria possuem desvio padrão 100 h. Retirando-se aleatoriamente 400 válvulas
entre as 50.000 produzidas, obtêm-se para vida média 800 h. Com base nessas informações, determinar:
149. Numa empresa com 1000 funcionários, deseja-se estimar a percentagem dos favoráveis a certa proposta de
horário de trabalho. Qual deve ser o tamanho da amostra aleatória simples que garanta um erro amostral não superior a
5%?
150. Uma entrevista revelou que 50 dentre 80 pessoas consumiriam determinado produto se o mesmo fosse lançado
no mercado. Qual é o tamanho da amostra, para estimar a proporção de pessoas que consumiriam o produto, com erro
máximo de 2%, admitindo-se um nível de confiança de 95%? (R: 2.251 pessoas).
151. O valor de face dos títulos depositados em um banco para cobrança simples tem distribuição normal com variância
2
400 (u.m.) . Uma amostra de 10 títulos escolhidos ao acaso forneceu os seguintes valores: ( ( )
)
80, 120, 71, 120, 140, 200, 180, 70, 45, 87.
a) Qual é o intervalo de confiança de 90% para o valor médio dos títulos da carteira? O responsável pela carteira
afirma, com 95% de confiança, que o valor médio dos títulos é de 125. Ele pode estar correto?
152. Os dados abaixo referem-se as alturas das pessoas que participaram de uma pesquisa sobre dimensionamento e
ergonomia de móveis domésticos. Sobre os dados, responda as questões a seguir:
410
220
184
90 80
6 10
1,40 I---1,50 1,50 I---1,60 1,60 I---1,70 1,70 I---1,80 1,80 I---1,90 1,90 I---2,00 2,00 I---I2,10
153. A Pesquisa de Satisfação tem como objetivo conhecer a opinião de seus consumidores e clientes a respeito dos
serviços prestados por sua empresa. Dessa forma é possível descobrir a imagem passada pela companhia em cada um
dos pontos de contato com seus clientes, gerando relatórios específicos para as diversas áreas de atuação como SAC,
Vendas, Pós Vendas, Atendimento Pessoal, Atendimento Online, entre outros. Uma pesquisa levada à 200 usuários de
um produto em uma cidade, 40 se mostraram insatisfeitos com o produto. Sobre a pesquisa, responda as questões a
seguir. Use α = 5%. (R: 20%; 5,54%; P(14,46% ≤ µ≤ 25,54%)=95%; 400)
154. As estruturas metálicas espaciais de cobertura apresentam aspectos diferenciados de projeto. Existem diversos
arranjos geométricos possíveis para estas estruturas, cuja escolha está associada, entre outros fatores, às formas e
dimensões do contorno, aos pontos de apoio e aos sistemas de conexões empregados. O emprego desse tipo de
estrutura contribui para redução do tempo de execução de obras e com excelente desempenho de custos. Tal
desempenho está relacionado à tecnologia dos materiais e configurações utilizados nas estruturas. Uma viga, fabricada
2
com determinada liga metálica, apresenta tensão de ruptura média igual a 45 kgf/mm . Uma amostra de 25 unidades,
2
tomada após uma modificação no processo de fabricação, mostrou tensão de ruptura média igual a 46,8 kgf/mm e
2
desvio padrão 7 kgf/mm .
a) O erro de estimativa para a tensão de ruptura média após a modificação. Use α=5%.
b) Um intervalo de 95% de confiança para a tensão de ruptura média da viga após a modificação;
2
c) O tamanho da amostra necessário para um erro máximo de 0,85 kgf/mm . Use α=5%.
155. A gestão de Saúde e Segurança do Trabalho (SST) do setor de construção civil tem um grande desafio: melhorar os
índices de acidentes deste setor. O setor é, até hoje, um dos que ostenta os índices mais trágicos em relação aos
acidentes de trabalho. Essa realidade está relacionada à qualidade e a utilização dos Equipamentos de Proteção
Individual (EPI), bem como a participação efetiva dos trabalhadores nos programas de SST, por exemplo: o PPRA
(Programa de Prevenção de Riscos Ambientais).Suponha que o SESI - Serviço Social da Indústria realizou uma pesquisa
por amostragem tendo foco as empresas cearenses que não utilizam efetivamente os programas de SST. A amostra
utilizada foi de 400 empresas, destas 120 não tenham ou não utilizavam os programas de SST. Sobre a pesquisa,
responda as questões a seguir:
a) Determine a estimativa pontual da verdadeira proporção de empresas que não tinham ou não utilizavam
programas de SST;
b) Determine o erro de estimativa da pesquisa. Use α = 4,56%
156. Os dados a seguir provêm de um experimento para testar o desempenho de uma máquina industrial. O
experimento utilizou uma mistura de óleo diesel e gás, derivados de materiais destilados orgânicos. O valor da
capacidade da máquina em cavalo vapor (HP) foi coletado a diversas velocidades medidas em rotações por minuto
(rpm×100).
X Y X Y X Y X Y
22 64,03 15 46,85 18 52,9 15 45,79
20 62,47 17 51,17 16 48,84 17 51,17
18 54,94 19 58 14 42,74 19 56,17
16 48,84 21 63,21 12 36,63 21 62,61
14 43,73 22 64,03 10,5 32,05 23 65,31
12 37,48 20 62,63 13 39,68 24 63,89
a) Obter a equação ajustada e traçar seu gráfico. Mostre também o diagrama de dispersão;
b) Calcule o coeficiente de determinação e interprete;
c) Interprete a estimativa obtida para β1;
d) Determine a estimativa de Y para X = 15,5;
e) Monte a tabela de Análise de variância (ANOVA)
a) Estime a despesa mensal de uma família com renda líquida mensal de 15 salários mínimos.
b) A equação parece sugerir que uma família com renda mensal de 3 salários mínimos nada gasta com mercadorias.
O que você tem a dizer sobre isso?
c) A equação em questão serve para estimar a despesa mensal de uma família de 5 pessoas com renda líquida de 12
salários mínimos? Justifique.
158. Um reator químico é um dos equipamentos de grande importância em indústrias químicas onde grande variedade
de engenheiros, além do químico, podem atuar: engenheiros mecânicos, eletricistas, civis, ambientais e de produção. A
figura 1 mostra um reator químico gigante sendo transportado, tal equipamento é utilizado na indústria petroquímica.
Um engenheiro químico estuda o efeito da temperatura (°C) de reação de operação do processo sobre o resultado de
rendimento (%) da reação. Os resultados estão na tabela abaixo: (Hines, Montgomery, Goldsman e Borror Probabilidade e Estatística
na Engenharia. 2012).
Temperatura (°C) 100 110 120 130 140 150 160 170 180 190
Rendimento (%) 45 51 54 61 66 70 74 78 85 89
159. Uma empresa que produz bens de alta tecnologia está preocupada com a produtividade de funcionários que
exercem funções repetitivas e procura descobrir como algumas variáveis podem influenciar no rendimento dessas
pessoas. Para isso implementa em cada uma de suas três fábricas um programa específico: alimentação especial
sugerida pelos nutricionistas; intervalos para exercícios de relaxamento sugerido pelos fisioterapeutas; rodízio de
funções sugerido pelos psicólogos. A tabela a seguir mostra o resultado da produtividade para diversos níveis
implementados no programa.
a) Construa o diagrama de dispersão da produtividade contra cada uma das variáveis explicativas. Qual variável
parece manter melhor correlação com a produtividade?
b) Calcule o coeficiente de correlação linear de Pearson nos três casos. O coeficiente confirma a impressão visual dos
diagramas?
160. Foi realizada uma análise de regressão para investigar a existência de ralação linear simples entre a temperatura
superficial de uma estrada (X) medida em graus F e a deformação da pavimentação (Y) medida segundo uma técnica
especial. Baseado nas seguintes informações pede-se:
∑ ∑ ∑ ∑
161. Admita que as variáveis Z e W estão relacionadas de acordo com o modelo , onde os são erros
multiplicativos tais que são variáveis aleatórias independentes com distribuição normal de média zero e
variância . É dada a seguinte amostra com 5 pares de valores: (R: 2,297; 0,5; 0,1; 0,893).
8 8
64 16
16 8
4 4
32 16
a) Que anamorfoses devem ser aplicadas para que se obtenha o modelo regressão linear simples?
b) Obtenha as estimativas de
c) Determine a estimativa não tendenciosa de ,
d) Calcule o coeficiente de determinação da regressão.
Onde é o número de pessoas renda igual ou maior do que , são parâmetros e são erros multiplicativos.
Com base nos seguintes abaixo, determine: (R: 602.249; 1,8; 0,953).
1 262.144
4 65.536
16 16.384
64 256
256 16
BUSSAB, W. DE O.; MORETIN, P. A. Estatística Básica. 5 ed. São Paulo: Saraiva, 2003.
Douglas C. Montgomery & George C. Runger & Norma Faris Hubele . Estatística Aplicada à
Engenharia. 2ª Edição. LTC.
FARIAS, A.A.; CESAR, C.C.; SOARES, J.F. Introdução à Estatística. 2 ed. LTC, 2003.
FONSECA, J. S.; MARTINS, G. A. Curso de Estatística. 4. ed. São Paulo: Atlas, 1994.
FREUND, John E.; SIMON, Gary A. Estatística aplicada – economia, administração e contabilidade. Porto
Alegre: Bookman, 2000.
Douglas C. Montgomery & George C. Runger & Norma Faris Hubele . Estatística Aplicada à
Engenharia. 2ª Edição. LTC.
William Navidi. Probabilidade e Estatística para Ciências Exatas. Editora MCgraw Hill, 2012
TOLEDO, Geraldo Luciano; OVALLE, Ivo Izidoro. Estatística Básica. 2. ed. São Paulo: Atlas, 1985.
Para valores agrupados em uma distribuição de frequências pode-se aplicar a fórmula obtida a seguir.
Suponha-se que a figura 1, a seguir, represente parte do histograma de uma distribuição de frequências cujo
valor modal deseja-se calcular. O retângulo mais alto representa a classe modal, isto é, a de maior frequência.
O valor modal, Mo, coincide com I’, abscissa do ponto I, que é a intersecção dos segmentos AD e BC. Os
triângulos AIC e BID são semelhantes. Então:
Onde:
Li: limite inferior da classe modal;
: Diferença entre frequência simples da classe modal e da classe anterior;
: Diferença entre frequência simples da classe modal e da classe posterior;
h: amplitude de classe.
Temos então que fmd está h, assim como (n/2 - ) está para (Md - li), assim:
( ) ( ) ( )
Onde:
Função de probabilidade: ( )
Esperança da Binomial:
[ ] ∑ , temos que:
[ ] ∑ ( ) ∑
Como a primeira parcela (x=0) é zero, podemos iniciar o somatório a partir de 1, em seguida dar um passo no
fatorial e somar e subtrair 1 no expoente de p para completar um binômio de Newton, assim:
[ ] ∑
[ ]
Variância da Binomial
[ ] ∑ ( )
[ ] ∑[ ]( )
[ ] ∑ ( ) ∑ ( )
Parcela I: ∑ ( )
Parcela II: ∑ ( )
Temos que a segunda parcela corresponde à esperança, ou seja, np. Operando apenas com a primeira, temos:
∑ ( ) ∑
As duas primeiras parcelas do somatório são nulas (x=0 e x=1), podemos então iniciar o somatório a partir do
terceiro (x=2), abrir o fatorial de n até n-2 e somar e subtrair 2 no expoente de p para completar o binômio de
Newton, assim:
[ ] [ ] [ ]
[ ] [ ] [ ]
[ ]
Função de probabilidade:
Esperança da Poisson:
[ ] ∑ , temos que:
[ ] ∑ ∑
Como a primeira parcela do somatório é nula, podemos iniciar da segunda (x=1), desta forma podemos
simplifica x com x!. Além disso, podemos somar e subtrair 1 do expoente de , assim:
[ ] ∑ ∑
∑ ∑
Logo:
[ ] ∑ [ ]
Variância da Poisson:
Análogo ao que foi realizado com a variância da Binomial, podemos escrever , temos:
[ ] ∑[ ] ∑ ∑
Temos que a segunda parcela corresponde à esperança, ou seja, . Trabalhando com a primeira parcela:
∑ ∑
Como a primeira e segunda parcela são nulas (x=0 e x=1), podemos iniciar o somatório da terceira (x=2),
abrindo também o fatorial de x até x-2 e somando-se e subtraindo-se 2 do expoente de , temos:
∑ ∑
Utilizando mais uma vez o argumento da série de Taylor e fazendo z=x-2, temos:
∑ ∑
Logo:
[ ] ∑
[ ] Finalmente:
[ ] [ ] [ ] [ ]
( )( )
Função de probabilidade: { }
( )
[ ] ∑ , temos que:
{ } { }
( )( )
[ ] ∑ ∑
( )
Como em x=0 a parcela também é nula, iniciamos o indexador por x=1, assim:
{ } [ ]
∑ [ ]
Variância da Hipergeométrica
( )( )
[ ] ∑
( )
( )( )
[ ] ∑[ ]
( )
Analisando por partes, temos:
( )( )
Parcela I: ∑
( )
( )( )
Parcela II: ∑
( )
{ } { }
( )( )
∑ ∑
( )
{ } ⌈ ⌉
[ ] [ ]
[ ] [ ]
[ ] [ ] [ ]
[ ] [ ] [ ] ( )( )
Uma questão bastante levantada nos cursos básicos de estatística é a diferença entre as expressões do cálculo
da variância amostral e populacional.
∑ ∑
O questionamento recai sobre a o denominador amostra ser “n-1”. A razão do “-1” ou grau de liberdade se
relaciona com três fatos:
A expressão é estimador coerente ou consistente para , para tanto é necessário verificar duas
propriedades:
[ ]
[ ]
( )
( )
Esta distribuição representa a soma dos quadrados de variáveis independentes com distribuição normal
padrão, assim:
Tomando:
Substituindo em:
∑
[ ]
[ ]
[ ] [ ] [ ] [ ]
[ ] [ ] [ ]
∑
[ ] [ ] [ (∑ )] [ ( [ ] * +)]
Como
[ ] [ ] [ ] [ ] ( * +)
Temos que:
( [ ] * +)
[ ] [ ]
O coeficiente de Correlação Linear de Pearson, utilizado como medida descritiva para a força da relação entre
um par de variáveis quantitativas X e Y é dado por:
√ ∑ (∑ )
Para demostrar que este valor está entre -1 e +1 recorreremos a um importante resultado em Álgebra linear e
Geometria Analítica, trata-se da desigualdade de Cauchy-Schwarz, também conhecida como desigualdade de
Cauchy-Bunyakovsky-Schwarz ou desigualdade CBS.
Sejam * + * +
De acordo com esta desigualdade, para os vetores u e v de um espaço vetorial com produto interno, tem-se
que:
〈 〉 〈 〉〈 〉
Observação: a igualdade é verificada apenas para os casos em que u e v forem linearmente dependentes.
Temos que:
Partindo-se da desigualdade triangular que teve origem na geometria euclidiana e refere-se ao teorema que
afirma: em um triângulo, o comprimento de um dos lados é sempre inferior à soma dos comprimentos dos
outros dois lados. Esta desigualdade pode ser rescrita da seguinte forma: ‖ ‖ ‖ ‖ ‖ ‖. Onde ‖ ‖ é
o comprimento ou norma do vetor.
〈 〉 ‖ ‖ ‖ ‖ √
〈 〉 ‖ ‖ ‖ ‖ √
* + * + [ ]
〈 〉 ‖ ‖ ‖ ‖ √
Onde:
〈 〉 [ ] * + ∑
〈 〉 [ ] * + ∑
〈 〉 [ ] * + ∑
〈 〉 [ ] [ ] ∑
‖ ‖ ‖ ‖ ‖ ‖
Elevando os dois membros ao quadrado, temos:
‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖ ‖‖ ‖ ‖ ‖
√
Dividindo os dois membros por dois e elevando ao quadrado, obtemos:
Que corresponde a 〈 〉 〈 〉〈 〉
〈 〉 〈 〉〈 〉 (∑ ) ∑ ∑
∑
∑ ∑
∑
√ √
∑ ∑
Como √ | |, temos que:
|∑ |
√∑ ∑
∑
| |
√∑ ∑
Como | | , temos que:
∑
√∑ ∑
Numerador:
∑ ∑ ∑ ∑ ∑ ∑
Denominador:
∑ ∑ ∑( ) ∑ ∑ ∑ ∑
∑ ∑( ) ∑( ) ∑ ∑ ∑ ∑
√(∑ ) (∑ )
Finalmente,