Escolar Documentos
Profissional Documentos
Cultura Documentos
Probabilidades
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
ESTATÍSTICA E PROBABILIDADES
Belo Horizonte
Junho de 2015
COPYRIGHT © 2015
GRUPO ĂNIMA EDUCAÇÃO
Todos os direitos reservados ao:
Grupo Ănima Educação
Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização
por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.
Edição
Grupo Ănima Educação
Vice Presidência
Arthur Sperandeo de Macedo
Coordenação de Produção
Gislene Garcia Nora de Oliveira
Ilustração e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar
Equipe EaD
CONHEÇA CONHEÇA
O AUTOR A AUTORA
Bom trabalho!
UNIDADE 2 019
Análise exploratória de dados 020
Síntese gráfica de dados 021
Síntese tabulador de dados 038
Síntese numérica de dados 038
Revisão 048
UNIDADE 3 049
Introdução à teoria de probabilidades 050
Probabilidade clássica e probabilidade frequentista 053
Leis básicas de probabilidade 053
União e interseção de eventos 054
Tabelas de contigência 056
Eventos independentes 057
Teorema de Bayes 058
Revisão 061
UNIDADE 4 063
Modelos probabilísticos 064
Varieaveis aleatórias 065
Modelos probabilísticos 071
Distribuição binomial 071
Distribuição Poisson 072
Distribuição normal 072
Revisão 076
UNIDADE 5 077
Estimação de médias e proporções 078
Teorema central do limite 079
Estimação pontual e por intervalos de confiança para uma
média populacional 082
Estimação pontual e por intervalos de confiança para uma
proporção populacional 089
Uso do excel no cálculo de intervalos de confiança para
média e proporção 091
Introdução ao programa Epiinfo 094
Revisão 095
UNIDADE 6 098
Planejamento de experimentos 099
Cálculo de tamanho de amostra baseado em intervalos
de confiança para uma proporção 100
Cálculo de tamanho de amostra baseado em intervalos
de confiança para uma média 103
Planejamento de experimentos 106
Revisão 113
UNIDADE 7 115
Testes de hipóteses 116
A construção e o significado de uma hipótese estatística 117
Testes para uma amostra 118
Testes para duas ou mais amostras 133
Revisão 137
UNIDADE 8 139
Análise de correlação e regressão 140
Análise de correlação 141
Regressão linear simples 149
Regressão linear múltipla 157
Revisão 160
REFERÊNCIAS117
INTRODUÇÃO À
ESTATÍSTICA
P
odemos entender o método estatístico como um processo para obter, apresentar e
analisar características ou valores numéricos, identificando padrões que possibilitam
a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o
método estatístico para a análise e solução de problemas, muito rapidamente se tornará um
especialista de qualquer área do conhecimento! Num mundo real, completamente cercado
de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos,
produtos, serviços, etc pode transformá-lo num “mago”.
004
unidade 1
ESTATÍSTICA E PROBABILIDADES
Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro
grandes áreas:
3) teoria de probabilidades;
A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá
entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questões
simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico,
que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:
É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o
entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de
dados, não há como você ser feliz nas outras etapas do processo!
005
unidade 1
ESTATÍSTICA E PROBABILIDADES
006
unidade 1
ESTATÍSTICA E PROBABILIDADES
007
unidade 1
ESTATÍSTICA E PROBABILIDADES
população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo
quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos
quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de
aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de
resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.
População
Inferência
amostrada
Amostra
Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?
A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela
é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados
desnecessários de um grande número de indivíduos pode ser gasto em outra atividade,
como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem
menores que a população, podem ser estudadas mais rapidamente que censos e são
também mais baratas. Além disso, se o processo de amostragem gerar uma amostra
representativa da população alvo do estudo, os resultados observados poderão ser
generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida
se trabalhar com toda a população.
008
unidade 1
ESTATÍSTICA E PROBABILIDADES
009
unidade 1
ESTATÍSTICA E PROBABILIDADES
LEMBRE
toda a análise e a tomada de decisão
subsequente.
010
unidade 1
ESTATÍSTICA E PROBABILIDADES
CONCEITO variável:
011
unidade 1
ESTATÍSTICA E PROBABILIDADES
TIPOS CARACTERÍSTICAS
Variáveis explicativas São aquelas que, por hipótese, podem influenciar, determinar ou
afetar a variável resposta ou desfecho da pesquisa. São chamadas
também de co-variáveis ou variáveis independentes.
A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise
será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos
de análise estatística que serão estuados nas próximas unidades.
012
unidade 1
ESTATÍSTICA E PROBABILIDADES
013
unidade 1
ESTATÍSTICA E PROBABILIDADES
014
unidade 1
ESTATÍSTICA E PROBABILIDADES
015
unidade 1
ESTATÍSTICA E PROBABILIDADES
TRATAMENTOS
PARÂMETROS
A B
Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de
filtro de aguapé + ração)
Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância
016
unidade 1
ESTATÍSTICA E PROBABILIDADES
017
unidade 1
ESTATÍSTICA E PROBABILIDADES
mas como a amostra será obtida, pois o Ainda compreendemos que alguns sistemas
delineamento amostral mal feito invalida computacionais são ferramentas essenciais
qualquer pesquisa. para coleta de dados de experimentos de
pequeno e médio porte na área de Ciências
Tipos de variáveis: Exatas e da Engenharia. São eles: o Excel,
um dos componentes do pacote Office da
-
Variável qualitativa ou categórica: é
Microsoft, e os Formulários do Google Docs
aquela que expressa características ou
<https://docs.google.com/forms>.
atributos de classificação, distribuídos
em categorias mutuamente exclusivas de
objetos ou entidades.
PARA SABER
- Variável quantitativa: é aquela obtida
por meio de um processo de medição ou
MAIS
contagem. Para aprofundar sobre as questões discutidas
018
unidade 1
UNIDADE
ANÁLISE EXPLORATÓRIA
DE DADOS
C
onforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá
rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,
como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas
de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas
para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas
e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos
alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência
então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico.
Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral
e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas.
Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso
estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida,
preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de
projeto de iniciação científica do Centro Universitário de Belo Horizonte – UniBH, cujo título da
pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo
básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa
(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download
020
unidade 2
ESTATÍSTICA E PROBABILIDADES
no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.
Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema
de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de
qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas
a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a
análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm
como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos
e números. Portanto, para entendermos e resolvermos nosso problema de reprovação,
precisamos estudar as ferramentas da Estatística Descritiva:
c) Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico
de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot.
O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender
dados coletados, transformando dados brutos em informações úteis!
SÍNTESE
GRÁFICA DE DADOS
Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil
palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe
gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar
para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de
pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras,
colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de
linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em
construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemos
construir gráficos usando ferramentas computacionais como o Excel.
021
unidade 2
ESTATÍSTICA E PROBABILIDADES
Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar
gráficos:
1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio
gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o
Excel, por exemplo, este será exportado para algum documento do Word ou para o
PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do
gráfico será então colocado no slide ou na descrição da figura no editor de textos,
sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em
casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo,
sendo impresso diretamente do Excel, o título não deve ser colocado no meio da
figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.
2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem
artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma:
começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro
022
unidade 2
ESTATÍSTICA E PROBABILIDADES
possível: toda informação necessária para o entendimento da figura deve estar no seu
título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e
tem um efeito colateral: o título da figura fica muito longo. Isso não é exatamente uma
regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de
figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:
O que? Quem? Quando? Onde? A interpretação das informações no gráfico também
deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas,
usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu
chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura abaixo.
A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou
somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto
dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de
contingência, ferramentas que serão discutidas na Unidade 7 deste livro.
3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para
entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar
os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a
menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de
um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura abaixo.
023
unidade 2
ESTATÍSTICA E PROBABILIDADES
Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399
alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e
Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.
4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa
desde que os valores no gráfico não fiquem muito espalhados nem muito juntos
numa única região da figura.
6. A
maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas
isso não é necessário se o ponto de início da escala é devidamente marcado na
figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do
gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar
de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base
da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma
interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não
começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!
024
unidade 2
ESTATÍSTICA E PROBABILIDADES
7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo
de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para
que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo
símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das
escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.
025
unidade 2
ESTATÍSTICA E PROBABILIDADES
8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo
aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção
da figura e da própria informação, que fica comprometida: o primeiro gráfico está
correto, mas os outros estão na categoria “como mentir com estatística”...
FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação
à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.
026
unidade 2
ESTATÍSTICA E PROBABILIDADES
027
unidade 2
ESTATÍSTICA E PROBABILIDADES
sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão
do concreto se relaciona com fx por meio de uma equação de reta.
028
unidade 2
ESTATÍSTICA E PROBABILIDADES
Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a
Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/
Dario.pdf. Acesso em 14 maio 2015.
A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X)
e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão,
você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A)
Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em
“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B)
Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média,
quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim
“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y)
e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D)
Sem associação: Também é um padrão importante, pois indica que não há relação entre as
duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por
exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na
maioria das disciplinas que ele cursa.
029
unidade 2
ESTATÍSTICA E PROBABILIDADES
11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a
em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e
construir um gráfico de colunas com o resultado. Ao se interpretar um histograma,
deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos
dados? Existe um ponto central bem definido? Como é a amplitude de variação dos
dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo
podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual
destes oito tipos o seu histograma se parece.
030
unidade 2
ESTATÍSTICA E PROBABILIDADES
031
unidade 2
ESTATÍSTICA E PROBABILIDADES
032
unidade 2
ESTATÍSTICA E PROBABILIDADES
0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25
Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O
número de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e
5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.
R R 25
Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ k . No exemplo, h ≈ k ≈ 10 . ≈ 2,5
Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10
classes de tamanho 2,5.
Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo,
mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima
de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos
033
unidade 2
ESTATÍSTICA E PROBABILIDADES
entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode
ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira
classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de
valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas
com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à
esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores
maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo
Excel na construção de histogramas (figura 14).
Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho
da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência
relativa ou percentual de cada classe (em relação ao total de valores) e a frequência
acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que
será explicado mais à frente).
034
unidade 2
ESTATÍSTICA E PROBABILIDADES
12. G
ráfico de Pareto: Esta ferramenta é ótima para ajudar na definição de prioridades,
quando precisamos fazer um plano de ação para melhoria de qualidade de um
serviço ou produto. Por exemplo, se um determinado problema ou defeito pode
ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem
corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados
a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do
gráfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequência
num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação
de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro
menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda
muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura,
estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao
se construir um gráfico de Pareto com os dados (figura 16), observa-se que a maioria
absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro
menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir
possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas
ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!
035
unidade 2
ESTATÍSTICA E PROBABILIDADES
13. Box-plot: Este gráfico, também conhecido como diagrama em caixa ou “caixa e
bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis
quantitativas (figura 17), informando o menor valor (pequena linha horizontal
inferior) e valor máximo (pequena linha horizontal superior). A distância entre o
valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os
25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado
pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde
estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a
pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao
intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando
as duas caixas representa a mediana, que expressa o valor do meio se todos os
dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos
informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir
a visualização de grupos de dados (figura 18). Nessa figura, é apresentado um
resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico de
cursos de Engenharia.
036
unidade 2
ESTATÍSTICA E PROBABILIDADES
FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.
037
unidade 2
ESTATÍSTICA E PROBABILIDADES
SÍNTESE TABULAR
DE DADOS
Na análise exploratória de dados, em última instância, todos os resultados são apresentados
ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e
sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?
Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no
próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas
realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo
para síntese de variáveis categóricas de uma base de dados.
SÍNTESE NUMÉRICA
DE DADOS
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como
apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolve
resumir dois aspectos:
038
unidade 2
ESTATÍSTICA E PROBABILIDADES
Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que
“divide os dados em duas metades”:
Md = 9
{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}
039
unidade 2
ESTATÍSTICA E PROBABILIDADES
ATENÇÃO
Além de se basear nas regras acima, que
exigem uma interpretação caso a caso do
que seja “média e mediana muito diferentes”,
Não se esqueça, para obter a mediana é você poderá construir histogramas e, pelo
necessário, antes de tudo, colocar os dados padrão do gráfico, escolher uma ou outra
em ordem crescente. Não ordenar os dados é a medida para representar os dados. Nos
principal fonte de erro no cálculo da mediana! modelos de histograma colocados no
tópico anterior, os exemplos 1 (simétrico),
Algumas pessoas se perguntam: “Quantas 3 (despenhadeiro) e 5 (platô), a média
casas decimais devo apresentar no é a melhor medida de posição. Já nos
resultado?”. Quanto menos casas decimais histogramas dos exemplos 2 (fortemente
você conseguir apresentar nos seus assimétrico) e 6 (ilha isolada), a mediana é
resultados, melhor para o entendimento a melhor medida de posição que caracteriza
da informação! Apresente seus resultados o conjunto de dados.
usando o mesmo número de casas decimais
que os dados originais ou, no máximo, uma 2. Medida do grau de variabilidade ou
casa decimal além do original, como foi de dispersão dos dados: O objetivo
feito nos cálculos anteriores. é quantificar o quanto os dados são
heterogêneos, são imprevisíveis,
Outra questão é “Quando escolher entre em suma, quantificar o grau de
média e mediana para melhor representar variabilidade de uma variável
um conjunto de dados?” ou “Em que quantitativa.
situações resumir uma variável quantitativa
040
unidade 2
ESTATÍSTICA E PROBABILIDADES
A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e
o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín.
Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável,
o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de
variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados
estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja
uma amostra de n = 5 pessoas e seus respectivos números de filhos:
Pessoa A B C D E
Número de filhos 0 1 1 2 3
0+1+1+2+3 7
X= = = 1,4.
5 5
Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve estar se perguntado, “como
assim... um e 0,4 filho? Não existe 0,4 filho!!” Não se preocupe, a média funciona como um
modelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo
para esses dados e, caso seja necessário resumir toda a informação num único valor, ela
deve ser usada para substituir o verdadeiro número de filhos de cada pessoa. Bom, voltando
à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para
cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:
Pessoa A B C D E
Número de filhos 0 1 1 2 3
O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma
medida de quanto os dados estão distantes da média. Para resumir os resíduos num único
valor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão
041
unidade 2
ESTATÍSTICA E PROBABILIDADES
distantes da média, em média! Infelizmente, se fizermos essa média, ela sempre dará zero,
pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero.
Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular
o resíduo elevado ao quadrado:
Pessoa A B C D E
Número de filhos 0 1 1 2 3
Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos
n
( ∑ ( Xi -X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior
i =1
a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa
métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):
n
s2 = ∑ ( Xi -X )2
i =1
n-1
2 n
Ợ = ∑ ( Xi -X )2
i =1
042
unidade 2
ESTATÍSTICA E PROBABILIDADES
É importante se lembrar dessa diferença, pois ela aparece nas calculadoras científicas e no
2
Excel, que permite o cálculo tanto de s2 quanto de Ợ . Na prática (e na dúvida), sempre calcule
a variância amostral (s2).
Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da
variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada
da variância, o resultado tem a mesma unidade de medida que a média e os dados originais.
Assim, no exemplo anterior, do número de filhos da amostra de n=5 pessoas, a variância
amostral é:
Cuidado, isso não significa que os dados variem somente dentro do intervalo X = s , de 1,4 –
1,1 = 0,3 até 1,4 + 1,1 = 2,5 filhos! Essa é apenas uma forma usada para apresentar ambos os
valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma
de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo definido
pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou
menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição
dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89%
dos dados cairão no intervalo X = 3s .
Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, como
interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade
043
unidade 2
ESTATÍSTICA E PROBABILIDADES
dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da
média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do
valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:
Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os
resultados com maior variabilidade? Se você responder essa questão comparando os dois
desvios padrões, estará cometendo dois erros:
Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo
coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a média:
s
cv = x x 100 (%).
Além de ser uma medida adimensional, o que possibilita comparações entre diferentes
variáveis, o CV pode ser interpretado de forma absoluta:
CV INTERPRETAÇÃO
CV > 100% Neste caso, o desvio padrão é maior que a média. Dados com
variabilidade extrema, muito heterogênea. A variável tem um
comportamento caótico, completamente imprevisível.
044
unidade 2
ESTATÍSTICA E PROBABILIDADES
2,1
Tempo para correr 100 metros: cv = x 100 = 19%;
11,5
0,8
Salto em altura: cv = x 100 = 36%;
2,2
Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de
100 m e muita variabilidade nos saltos em altura.
LEMBRE
Quando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo
Excel. Lembre-se também de colocar os títulos das tabelas e das figuras o mais informativo possível.
E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira
na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por
meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e
o problema investigado.
A análise exploratória dos dados é o primeiro passo para que você se torne especialista na
área investigada. Suas ferramentas de análise não produzem conclusões definitivas sobre um
problema, mas possibilitam que hipóteses sejam construídas de forma consistente.
APLICAÇÃO
PRÁTICA
O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de
Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação
em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos
Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação
nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma significativa
o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir
045
unidade 2
ESTATÍSTICA E PROBABILIDADES
em projetos de “Cálculo Zero”? Quais são os fatores, as características que afetam o desempenho dos
Várias técnicas de análise exploratória de dados foram utilizadas no artigo. Por exemplo, usando um
gráfico de linhas, uma série temporal, mostrou-se no artigo a elevação no número de matrículas nas
Um diagrama de dispersão foi construído mostrando claramente o efeito das faltas às aulas na nota
046
unidade 2
ESTATÍSTICA E PROBABILIDADES
Além de gráficos, tabelas com a síntese numérica dos dados coletados no estudo também foram
apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma
inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa
disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.
Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de
especialista na área.
Referência:
XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero no
Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: <http://www.
fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.
047
unidade 2
ESTATÍSTICA E PROBABILIDADES
048
unidade 2
UNIDADE
INTRODUÇÃO À
TEORIA DE PROBABILIDADES
A
origem da teoria das probabilidades é comumente associada à questões colocadas
por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que
sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOLI
(1445-1514), CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-1642),
dentre outros.
Contudo, foi ADOLPHE QUÉTELET (1796 – 1874) o pioneiro na tarefa de mensurar, ou seja,
quantificar uma pequena amostra do universo de interesse da investigação, almejando inferir
sobre toda a população em estudo, baseando-se em análises probabilísticas e embasando-se
em rigorosos métodos científicos.
A teoria das probabilidades, porém, só começa a fazer sentido nas engenharias por volta
de 1930, quando surgem os primeiros trabalhos práticos destinados aos engenheiros. O
primeiro foi executado pelo matemático WILLIAM GOSSET (1876 – 1937), com a aplicação das
probabilidades no Controle de Qualidade em uma fábrica de Cervejas.
A teoria das probabilidades é uma importante área da estatística que possibilita ao profissional
no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predições
em toda e qualquer área do conhecimento. No que tange às Engenharias, a probabilidade
está presente no controle de processos de produtos e serviços, permitindo estimar o risco e o
acaso de eventos futuros. Também é amplamente utilizada no que tange ao planejamento de
novas técnicas e estratégias de produção e vendas, dentre outras.
050
unidade 3
ESTATÍSTICA E PROBABILIDADES
Suponha que você é o engenheiro responsável pela qualidade na linha de produção de uma
grande marca de bebidas. Sabe-se que não é possível “experimentar” todos os produtos
antes de disponibilizá-lo ao mercado, pois ninguém compraria uma bebida já provada, e que
o processo de fabricação é composto por etapas, por interferências dos funcionários, por
equipamentos (que podem estar ou não muito bem regulados), e por uma série de outros
fatores controláveis ou não, como até mesmo uma simples umidade excessiva no ambiente de
fabricação devido ao período chuvoso. No entanto, você pode suspeitar que um determinado
lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não
conformes maior que o permitido pelos órgãos fiscalizadores.
A teoria das probabilidades vem auxiliá-lo nesse processo de tomada de decisão, permitindo
inferir sobre a população em estudo, ou mesmo sobre eventos que ainda irão ocorrer,
estimando as “chances” de sucesso do mesmo.
A TEORIA DAS
PROBABILIDADES
A teoria das probabilidades nasce na Idade Média com os tradicionais jogos de azar existentes
na Corte. Jogos de cartas e dados, ou mesmo os lançamentos de moeda são classificados
como fenômenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma
aplicação direta da teoria das probabilidades no campo das Engenharias é o processo de
decisão, seja para aumentar o investimento ou cortar despesas, no qual o profissional do
mercado de trabalho deve arriscar-se mantendo “os pés no chão”.
CONCEITO
Um dos principais conceitos matemáticos amplamente estudado no que diz respeito à teoria das
probabilidades é o de conjunto. Um conjunto pode ser definido como uma coleção de objetos, itens ou
No contexto da teoria das probabilidades, o conjunto de todos os resultados possíveis a ser estudado
Espaço Amostral (Ω) é qualquer conjunto de todos os possíveis resultados em um experimento aleatório.
051
unidade 3
ESTATÍSTICA E PROBABILIDADES
Sendo definido como experimento todo e temos duas possibilidades (cara ou coroa)
qualquer resultado que sugere a incerteza em cada lançamento, portanto o espaço
antes da observação, ou seja, fenômenos amostral (Ω) é dado por:
que, mesmo repetidos várias vezes sob
052
unidade 3
ESTATÍSTICA E PROBABILIDADES
053
unidade 3
ESTATÍSTICA E PROBABILIDADES
Associatividade (A∩B)∩C=A∩(B∩C)
(AUB)UC=AU(BUC)
Distributividade (A∩B)UC=(AUC)∩(BUC)
(AUB)∩C=(A∩C)U(B∩C)
Modulares A ∩Ω = A
A ∩Ω = Ω
A ∩Ø = Ø
A Ø=A
UNIÃO E INTERSEÇÃO
DE EVENTOS
A união de dois eventos A e B, indicada por A U B, é o evento que contém todos os elementos
de A e todos os elementos de B.
P(AUB)=P(A)+P(B)-P(A∩B)
A interseção de dois eventos A e B, indicada por A∩B, é o evento que contém todos os elementos
comuns a A e B.
054
unidade 3
ESTATÍSTICA E PROBABILIDADES
TIPO SANGUÍNEO
O A B AB TOTAL
Negativo 28 25 8 4 65
45 + 65 - 8 = 0,2494
409
CONCEITO
Dois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realização de um
exclui a realização do (s) outro (s). No lançamento de uma moeda, o evento "tirar cara" e o evento "tirar
coroa" são mutuamente exclusivos, já que a realização de um deles implica, necessariamente, na não
realização do outro.
055
unidade 3
ESTATÍSTICA E PROBABILIDADES
DICAS
se almeja saber é: o tratamento alterou
significativamente a proporção de objetos
em cada uma das duas categorias?
Eventos mutuamente exclusivos não é a mesma
esses dados.
TABELAS DE
CONTINGÊNCIA
As tabelas de contingência são aplicadas na
avaliação do relacionamento das categorias
com respeito aos grupos segundo dois
modos: independência ou homogeneidade.
Ou seja, eventos com dupla entrada.
056
unidade 3
ESTATÍSTICA E PROBABILIDADES
Defeito 10 5 15
A partir dessa tabela, é possível estimar que a probabilidade dessa empresa disponibilizar um
produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito é dada por:
P (defeito) = 15 = 0,0075
2000
Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum
tipo de defeito.
IMPORTANTE
A tabela de contingência é um processo de organizar a informação correspondente a dados dicotômicos.
De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo
qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser
EVENTOS
INDEPENDENTES
Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realização
de um dos eventos não afeta a probabilidade de ocorrência do outro, e vice-versa.
057
unidade 3
ESTATÍSTICA E PROBABILIDADES
EXEMPLO
Nota na prova e ter feito a prova de chinelo;
TEOREMA
DE BAYES
A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro
evento B ocorreu, é dada por:
P(A∩B)
P(A|B)=
P(B)
para P ( B ) > 0.
P ( B | Ei ) . P ( Ei )
P ( Ei | B ) =
P(B)
P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei )
∑ P ( B | Ej )
CONCEITO
Seja B1, B2, …, Bn um conjunto de eventos mutuamente exclusivos cuja união forma o espaço amostral Ω.
Seja E outro evento no mesmo espaço amostral Ω, tal que P ( E ) > 0, então:
P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...⋯+ P ( E | Bn )
P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...⋯+ P( Bn ) P ( E | Bn )
058
unidade 3
ESTATÍSTICA E PROBABILIDADES
distribuídos semanalmente?
APLICAÇÃO
PRÁTICA
b) Qual a probabilidade do consumidor
adquirir um suco?
etapas, por interferências dos funcionários, por Para responder essas questões, utilizamos a
equipamentos (que podem estar ou não muito probabilidade clássica para responder o item (a);
bem regulados), e por uma série de outros a união de probabilidades para responder o item
fatores controláveis ou não, como até mesmo (b); a probabilidade condicional para responder o
059
unidade 3
ESTATÍSTICA E PROBABILIDADES
Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo
060
unidade 3
ESTATÍSTICA E PROBABILIDADES
REVISÃO
A teoria das probabilidades é utilizada em todas as áreas do conhecimento. Ela visa auxiliar
o profissional no mercado de trabalho a predizer valores futuros, estimando as “chances” de
ocorrência de um evento antes que ele ocorra.
Para calcular a probabilidade, basta dividir o que se “quer” pelo que se “tem”, ou seja:
Probabilidade = Quer
20 passo
Tem 10 passo
Sendo imprescindível, primeiro, definir o que se “tem” para somente depois retirar do que se
“tem” o que se “quer”.
Quando a ocorrência de um evento não afeta a realização ou não de um outro evento, eles são
classificados como eventos independentes.
061
unidade 3
ESTATÍSTICA E PROBABILIDADES
Com uma certa atmosfera de 'Um dia', mas voltado das cartas e um, muito bem definido esquemas
para o público jovem adulto, a probabilidade de sinais, que permitem à equipa vencer nos
estatística do amor à primeira vista é uma grandes cassinos. Seduzido pelo dinheiro e pelo
história romântica, capaz de conquistar fãs de estilo de vida de Vegas, e pela sua inteligente
todas as idades. Quem imaginaria que quatro e sexy amiga Jill Taylor (Kate Bosworth), Ben
horas, a história de Oliver e Hadley mostra que Quebrando a Banca. Direção: Robert Luketic.
EUA: Sony Pictures, 2008. (123 min), son., color.,
o amor, diferentemente das bagagens, jamais se legendado.
extravia.
062
unidade 3
UNIDADE
MODELOS
PROBABILÍSTICOS
A
ssim como a Matemática, também a Estatística apresenta funções que norteiam
o comportamento de suas variáveis, como as retas, parábolas e hipérboles.
Na Estatística temos os modelos probabilísticos. Esses modelos são funções
paramétricas que descrevem o comportamento de uma variável em estudo.
064
unidade 4
ESTATÍSTICA E PROBABILIDADES
065
unidade 4
ESTATÍSTICA E PROBABILIDADES
X x1 x2 x3 ... xn
P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )
n
E (x) = ∑ xi . p ( xi )
i =1
DICAS
O valor esperado, indicado por E (x) = μ, é a média de uma variável discreta.
Var ( x ) = E ( x2 ) - [ E ( x ) ] 2
n 2
E ( x2 ) = ∑ xi . p ( xi )
i =1
066
unidade 4
ESTATÍSTICA E PROBABILIDADES
DICAS
O desvio padrão indicado por DP ( x ) = σ é a raiz da variância, ou seja:
DP ( x ) = √Var ( x )
Para uma variável aleatória n-dimensional (também chamada de vetor aleatório), com n=2,
denota-se por ( X,Y ) o vetor aleatório, sendo:
X VALORES ASSOCIADOS
P(Y)
Y À VARIÁVEL X
IMPORTANTE
Só é possível realizar análises estatísticas sobre distribuições que sejam uma função densidade de
probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variáveis são uma f.d.p. quando a soma de todas
as probabilidades que compõem o evento em estudo é igual a 1, ou seja, 100%. Portanto, uma ou mais
n
∑ p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1
i =1
067
unidade 4
ESTATÍSTICA E PROBABILIDADES
ATENÇÃO
As probabilidades são sempre dispostas paralelamente às suas variáveis na construção da tabela
distribuição de probabilidades:
X VALORES ASSOCIADOS
P(X)
Y À VARIÁVEL Y
O valor esperado da distribuição conjunta, indicado por E ( X, Y), é dado pelo produto entre
cada valor associado à variável X, com cada valor associado à variável Y e sua respectiva
probabilidade conjunta, ou seja:
n n
E ( X, Y ) = ∑ ∑ xi . yj . p ( xi , yj )
i =1 j =1
E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )
X
Y A B C P(Y)
d P (a, d ) P ( b, d) P ( c, d ) P(d)
e P ( a, e ) P ( b, e ) P ( c, e ) P(e)
f P ( a, f ) P ( b, f ) P ( c, f ) P(f)
P(X) P ( a ) P ( b ) P(c) 1
068
unidade 4
ESTATÍSTICA E PROBABILIDADES
VARIÁVEIS b
CONTÍNUAS E (x) = ∫ x .f ( x ) dx
a
E ( x ) = ∫ x2 . f ( x ) dx〗
2
• f (x) ≥ 0, x C R;
A
a
+ oo
Para uma variável aleatória contínua
• ∫ f ( x ) dx = 1 (toda área sob a
- oo bidimensional, definida em todos os valores
curva de probabilidade, ou curva
dos números reais, a função densidade
de frequência, definida por f ( x )
de probabilidade conjunta f ( x, y ) é uma
vale um);
função que satisfaz:
b
• P ( a ≤ x ≤ b) = ∫a f ( x ) dx
• f ( x, y ) ≥ 0, para todo ( x, y ) R2;
(probabilidade correspondente
à área sob a curva limitada pelo
•∫R ∫ R
f ( x, y ) d x d y =1
intervalo compreendido entre x
= a e x = b ). Esse assunto será
O valor esperado da distribuição conjunta,
mais detalhado posteriormente no
indicado por E ( X, Y ), é dado por:
estudo da distribuição normal.
E ( X, Y ) =∫R ∫ R
x . y . f ( x, y ) d x d y
O valor esperado, indicado por E ( x ) = μ, é
a esperança matemática de uma variável
A covariância para as variáveis contínuas
aleatória contínua X, que assume os
ou discretas, ou seja, a medida estatística
infinitos valores do intervalo ( a, b ), ou seja:
que possibilita verificar se as variáveis
envolvidas na análise são diretamente ou
069
unidade 4
ESTATÍSTICA E PROBABILIDADES
Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )
ρ X, Y = Cov ( X, Y )
σX . σY
Sendo -1 ≤ ρ X,Y ≤ 1.
IMPORTANTE
ndependentemente de a classificação da variável aleatória ser dada como discreta ou contínua, sendo
E(X)=μ Var ( x ) = σ2
E(a)=a Var ( a ) = 0
CONCEITO
Duas variáveis aleatórias X e Y são independentes se o produto das distribuições marginais for igual à
070
unidade 4
ESTATÍSTICA E PROBABILIDADES
071
unidade 4
ESTATÍSTICA E PROBABILIDADES
072
unidade 4
ESTATÍSTICA E PROBABILIDADES
embora não sejam rigorosamente normais, podem gerar bons resultados, facilitando o
tratamento matemático;
Essa distribuição é classificada como contínua, podendo a variável assumir qualquer valor
dentro de um intervalo previamente definido. Essa distribuição, delineada por uma curva em
forma de sino com f.d.p, é dada por:
073
unidade 4
ESTATÍSTICA E PROBABILIDADES
Como o cálculo da área abaixo da curva é a integral da f.d.p. nos limites desejados e esse
cálculo é, muitas vezes, longo, a área sob a curva pode ser simplificada pela transformação:
x-μ
z= w
σ
Sendo z uma variável aleatória com distribuição normal, média zero e variância 1, e x sendo
uma variável aleatória com distribuição normal, média μ e variância σ2.
A área total limitada pela curva normal e pelo eixo das abscissas é 1u.a. (uma unidade de
área), ou seja, 100%, sendo as áreas sob a curva limitadas pela distância entre o desvio padrão
e a média. Essa área é apresentada na tabela a seguir.
074
unidade 4
ESTATÍSTICA E PROBABILIDADES
Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa decimal e
a segunda casa decimal, respectivamente, do número z calculado pela estatística de teste
x-μ
z= e, no centro da tabela, as probabilidades correspondentes à área entre zero e esse
σ
ponto, conforme ilustração a seguir.
APLICAÇÃO
PRÁTICA
Uma grande indústria compra diversos novos processadores de texto no final de cada ano, sendo que o número
exato deles depende da frequência dos reparos no ano anterior. Suponha que o número de processadores,
indicado por X, que são comprados a cada ano, tenha a seguinte distribuição de probabilidade:
X 0 1 2 3
P(X) 0,10 0,30 0,40 0,20
Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2
(em reais) for fornecido em relação a qualquer compra, quanto a empresa espera gastar E ( X ) em novos
E ( X ) = 1,7
075
unidade 4
ESTATÍSTICA E PROBABILIDADES
REVISÃO
A distribuição discreta é usada em casos cujos dados analisados podem ser alocados em uma
tabela de probabilidades, sendo que aquelas localizadas no centro da tabela são classificadas
como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais.
Probabilidades marginais são aquelas que correspondem a apenas uma das variáveis em
estudo, e as probabilidades conjuntas são as que correspondem a duas variáveis analisadas
concomitantemente.
A distribuição contínua é usada em casos cujos dados analisados podem ser alocados em um
intervalo contínuo.
Binomial Não usual para amostras com Quando os eventos estudados permitem apenas
mais de 30 elementos. duas respostas possíveis.
PARA SABER
MAIS
MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014.
Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra:
MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e probabilidade para engenheiros. 3 ed.
076
unidade 4
UNIDADE
ESTIMAÇÃO DE MÉDIAS
E PROPORÇÕES
N
as unidades anteriores, você estudou três grandes áreas do método estatístico:
amostragem e coleta de dados; análise exploratória de dados; e teoria de
probabilidades. A partir de agora, você vai entender como essas áreas se relacionam
para construir a quarta área do método estatístico, que é a decisão na presença de incerteza
ou estatística inferencial.
A estatística inferencial recebe esse nome por ser um conjunto de métodos e técnicas que
permitem, a partir dos dados provenientes de uma amostra, inferir informações sobre toda
a população alvo do estudo. Logicamente existe uma incerteza associada a esse processo,
mas ela é quantificada através dos níveis de confiança e margens de erro do estudo. Essa é a
grande contribuição da estatística inferencial, permitir que se conheça o nível de incerteza da
informação antes de tomar decisões.
A boa notícia é que em todas essas técnicas existe um ponto em comum, conceitos que
são utilizados em todas elas, como estimativa pontual, intervalos de confiança e testes
de hipóteses. Esses conhecimentos estão presentes em todas as técnicas de estatística
078
unidade 5
ESTATÍSTICA E PROBABILIDADES
Aqui você vai descobrir como são calculadas as margens de erro das pesquisas eleitorais,
que são obtidas através das estimativas pontuais e intervalares para médias e proporções
populacionais. Vai descobrir como utilizar o Excel para construir uma calculadora para intervalos
de confiança. E também um software muito útil para fazer várias análises estatísticas, o EpiInfo.
TEOREMA CENTRAL
DO LIMITE
Imagine a seguinte situação: um engenheiro de produção deseja monitorar um processo de
produção de fibra sintética de maneira a garantir que a característica de qualidade resistência
à tração esteja sempre dentro dos limites de especificação. É conhecido que a resistência à
tração das fibras produzidas naquela empresa é normalmente distribuída com média de 75 psi
(libras força por polegada quadrada) com desvio-padrão de 3,5 psi.
Como não é viável medir a característica de qualidade em todas as peças produzidas (inspeção
100%) ele decidiu coletar amostras periodicamente para verificar se não houve alteração na
média do processo. Acontece que cada vez que ele coleta uma amostra e obtém a média
dessa amostra existe uma variação, ou seja, as médias das amostras são sempre diferentes.
A dúvida é: o engenheiro pode afirmar que houve alteração na média do processo (de todas as
peças produzidas) ou a variação é devida simplesmente à uma flutuação amostral?
079
unidade 5
ESTATÍSTICA E PROBABILIDADES
X-μ
z=
σ
⁄√n
é a distribuição normal padrão quando n
tende ao infinito. Fonte: Elaborada pelo autor.
EXEMPLO 73,6 - 75
z= = -2
35
⁄√25
Pensando no exemplo das fibras sintéticas,
chamamos de X a variável aleatória Então,
resistência à tração das fibras. Sabemos
que a média é 75 psi e o desvio-padrão é P( < 73,6 ) = P ( Z < -2 ) = 0,0228 (pela
080
unidade 5
ESTATÍSTICA E PROBABILIDADES
O resultado acima indica que a probabilidade de selecionar uma amostra de fibras e obter
resistência média menor que 73,6 psi é de 2,28%. Na Unidade 7 veremos que essa probabilidade
pode ser considerada baixa e, portanto, de posse dessa informação, o engenheiro poderia adotar
o seguinte critério: ao observar uma amostra de fibras com resistência média menor que 73,6
psi, o processo deve ser verificado.
É importante ressaltar que o TCL pode ser utilizado ainda que a distribuição da variável
aleatória X não seja normal, ou seja, o teorema é valido para qualquer que seja a distribuição
de X. Essa é a grande contribuição do TCL para o desenvolvimento dos métodos estatísticos.
Entretanto, nas situações em que a distribuição da variável aleatória X seja muito assimétrica,
a aplicação do TCL é adequada para amostras grandes ( n ≥ 30 ). A figura abaixo ilustra as
distribuições amostrais de para diferentes populações e diferentes tamanhos de amostra.
081
unidade 5
ESTATÍSTICA E PROBABILIDADES
Note nos gráficos acima que a aproximação pela distribuição normal é razoável para amostras com
30 ou mais observações. Por essa razão, a utilização do teorema central do limite é adequada quando
o tamanho da amostra for ao menos 30 ou quando a distribuição da variável aleatória X for normal.
Nos próximos tópicos, você vai descobrir como aplicar o teorema central do limite para
obter estimativas intervalares para médias e proporções populacionais a partir da média e
proporções amostrais. Na Unidade 7, o TCL será utilizado para realizar testes de hipóteses
sobre os parâmetros populacionais.
Considere que uma montadora desenvolveu um novo modelo e está elaborando a ficha técnica
do veículo. Uma informação relevante para o cliente é o consumo médio de combustível. Sabe-
se que o consumo está relacionado ao tipo de combustível (etanol ou gasolina ), à maneira
de conduzir, ao tipo de via (cidade ou estrada), à qualidade do combustível, dentre outras
variáveis. O consumo pode variar também entre os veículos de mesmo modelo, por essa razão
podemos tratar o consumo de combustível como uma variável aleatória.
Para definir o consumo médio de combustível do novo modelo de veículo, a montadora coletou
dados sobre distância percorrida e consumo de combustível de 35 veículos. Com esses dados,
calculou o consumo médio na estrada e na cidade tanto para gasolina quanto para etanol. Os
resultados são apresentados na tabela abaixo:
082
unidade 5
ESTATÍSTICA E PROBABILIDADES
083
unidade 5
ESTATÍSTICA E PROBABILIDADES
084
unidade 5
ESTATÍSTICA E PROBABILIDADES
2
E = 1,96 * = 0,663
√35 Felizmente, quando trabalhamos com
grandes amostras ( n > 30 ), o desvio-
Então:
padrão amostral (s) é uma boa aproximação
IC [ μ ; 95% ] = 10,4 ± 0,663 para o desvio-padrão populacional (σ), o
que possibilita a utilização da equação
O intervalo é comumente apresentado como apresentada para o cálculo da margem de
segue: erro. Mas, o que fazer quando a amostra
é pequena ( n < 30 )? É exatamente o que
IC [ μ ; 95% ] = [ 9,737 ; 11,063 ] descobriremos aqui.
Dessa forma, afirmamos com 95% de Nas situações em que a amostra é pequena,
confiança que o consumo médio de etanol nos deparamos com dois problemas:
na estrada para o novo modelo de veículo
1. Não podemos utilizar o teorema central
está entre 9,737 km/l e 11,063 km/l.
do limite para dizer que a média amostral
( ) é normalmente distribuída, pois o
TCL é válido somente para amostras com
ESTIMAÇÃO POR
mais de 30 observações.
INTERVALOS DE
CONFIANÇA PARA
2. A aproximação do desvio-padrão
UMA MÉDIA
populacional pelo desvio-padrão
POPULACIONAL
amostral é considerada pobre.
(AMOSTRAS
PEQUENAS) Para contornar o problema 1, lançamos
mão do seguinte teorema:
Você deve ter observado no tópico anterior
que o cálculo da margem de erro para o
Se X é uma variável aleatória normalmente
intervalo de confiança exige o conhecimento
distribuída, ao selecionar amostras de
do desvio-padrão populacional (σ).
tamanho n, a distribuição amostral de
Entretanto, na maioria das vezes em que
será uma distribuição normal.
se deseja estimar a média populacional,
085
unidade 5
ESTATÍSTICA E PROBABILIDADES
Para contornar o problema 2, vamos precisar utilizar uma nova distribuição de probabilidades,
a distribuição t-student. Essa distribuição é muito semelhante à distribuição normal: tem
forma de sino, é simétrica e tem média zero. A diferença é que a distribuição t-student é
mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa
distribuição serão menos precisas.
A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuição t-student.
Para construção de intervalos de confiança, devemos olhar os valores para área em duas
α α
caudas e a área deve se referir ao valor de ⁄ + ⁄ . Os graus de liberdade são dados por n -
2 2
1, ou seja, o tamanho da amostra menos 1.
086
unidade 5
ESTATÍSTICA E PROBABILIDADES
Exemplo:
Uma equipe de engenharia está desenvolvendo uma nova mistura para concreto e deseja
estimar a resistência média do produto à compressão. Como o teste de resistência à
compressão é um ensaio destrutivo, o máximo que a equipe conseguiu para realização do
estudo foram 10 corpos de prova. A resistência média à compressão da amostra foi de 2.500
psi e o desvio-padrão foi de 45 psi. Sabendo que a resistência do concreto à compressão segue
uma distribuição normal, obtenha uma estimativa intervalar para a verdadeira resistência
média populacional com 95% de confiança.
Solução:
Observe que o tamanho da amostra é pequeno, n = 10, e o desvio-padrão foi obtido da amostra
(não conhecemos o desvio-padrão populacional). Nesse caso, para construir o intervalo de
confiança, é necessário utilizar a distribuição t-student e a margem de erro deve ser calculada
utilizando a equação:
087
unidade 5
ESTATÍSTICA E PROBABILIDADES
S
E = t (α
/2 ; n - 1) √n
Onde tα ⁄2 ; n-1 é obtido da tabela t-student, sendo os parâmetros: α⁄2 a área em cada uma
das duas caudas e n - 1 os graus de liberdade.
E = 2,262 45 = 32,189
√10
O intervalo de confiança pode ser então obtido:
A equipe de engenharia pôde interpretar o resultado como segue: afirmamos com 95% de confiança
que a resistência média do concreto à compressão está entre 2.467,81 psi e 2.532,19 psi.
088
unidade 5
ESTATÍSTICA E PROBABILIDADES
Para simplificar os cálculos, vamos pensar em uma eleição que foi para o segundo turno e, portanto,
tem apenas dois candidatos. Uma empresa de pesquisa entrevistou 2.500 eleitores quanto à
intenção de voto nos candidatos A e B. Note que "candidato" é uma variável qualitativa, e o que
queremos descobrir é como estimar a probabilidade de sucesso em um experimento binomial em
que p é a probabilidade de que o eleitor escolhido prefira o candidato A, por exemplo. Uma maneira
bem intuitiva de estimar p para a população é usar a proporção de sucessos da amostra:
Suponha que dos 2.500 eleitores amostrados 1.300 tenham declarado intenção de votar
no candidato A, 950 no candidato B e 250 em branco ou nulo. Assim, podemos estimar a
proporção de eleitores que votariam no candidato A por:
ˆp ̂= 1.300 = 0,52
2.500
Ou seja, a amostra indica que cerca de 52% dos eleitores têm intenção de votar no candidato
A. Entretanto, devemos lembrar que caso fosse realizada outra amostragem e fossem
selecionados outros 2.500 eleitores o resultado poderia ser diferente de 0,52. O valor de ˆp ̂ é
uma estimativa pontual para p, a verdadeira proporção de eleitores que têm intenção de votar
no candidato A em toda a população.
Podemos tratar p como uma média, se pensarmos que X é uma variável aleatória que assume
0 quando o eleitor declara votar no candidato B, em branco ou nulo e 1 quando o eleitor declara
votar no candidato A. Nesse caso, podemos utilizar o teorema central do limite e dizer que ˆp é
089
unidade 5
ESTATÍSTICA E PROBABILIDADES
Sabemos que o TCL é válido apenas Podemos afirmar com 95% de confiança
para amostras grandes. No caso de que a verdadeira proporção de eleitores que
estimativas para proporções, dizemos votam no candidato A em toda a população
que a amostra é grande quando n . p ≥ está entre 50,04% e 53,96%. Observe que
5 e também n . q ≥ 5, ou seja, ambos os afirmar com 95% de confiança significa
critérios devem ser satisfeitos. dizer que, se fossem feitas 100 pesquisas
e calculados os intervalos de confiança,
Caso esses critérios tenham sido satisfeitos, cerca de 95 deles conteriam a verdadeira
podemos calcular a margem de erro através proporção de eleitores que votam no
da equação: candidato A.
ˆˆ Exemplo:
E = Zα
/2 √ pq
n
A empresa XYZ compra tubos de aço do
E então o intervalo de confiança para p será: fornecedor A. Na última semana, a XYZ
recebeu uma proposta de comprar tubos de
ˆ±E
IC [ p ; ( 100 - α) % ]= p aço do fornecedor B pela metade do preço
do fornecedor A. Para decidir, o gerente de
No exemplo da pesquisa eleitoral, n . p
ˆ ̂= compras deseja estimar qual o percentual de
2.500 * 0,52 = 1.300 e n.q
ˆ ̂= 2.500 * 0,48 não conformidade nos tubos do fornecedor
= 1.200. Como ambos os critérios foram B (proporção de tubos defeituosos). Em um
satisfeitos, dizemos que temos uma lote de 150 tubos havia 21 não conformes.
amostra grande o bastante para justificar Obtenha o intervalo de 90% de confiança
a utilização do TCL, logo podemos obter para a verdadeira proporção de tubos não
a margem de erro com o nível de 95% de conformes do fornecedor B.
confiança:
Solução:
E= 1,96 √ 0,52 × 0,48
2.500
= 0,0196
Uma estimativa pontual para a verdadeira
proporção de tubos não conformes é dada por:
090
unidade 5
ESTATÍSTICA E PROBABILIDADES
Então, definimos o intervalo com 90% de Nos tópicos anteriores, vimos que o
confiança para p pela equação: intervalo de confiança para a média
populacional pode ser obtido de duas
ˆ±E
IC [ p ; 90% ] = p maneiras: utilizando a distribuição
normal (estatística z) ou a distribuição
IC [ p ; 90% ] = 0,14 ± 0,047 t-student (estatística t). Vimos também
que a distribuição t-student é utilizada
IC [ p ; 90% ] = [ 0,093 ;0,187 ] quando o tamanho da amostra é menor
que 30 e o desvio-padrão populacional
O gerente de compras pode afirmar, é desconhecido. Nos outros casos,
com 90% de confiança, que a verdadeira utilizamos a distribuição normal.
proporção de tubos não conformes
provenientes do fornecedor B está entre Vamos construir primeiramente uma
9,3% e 18,7%. O gerente fará sua decisão calculadora para intervalos de confiança
baseado nessa informação e em outras que utilizando a distribuição normal.
julgar convenientes. Utilizaremos os dados sobre consumo
de combustível do primeiro exemplo.
091
unidade 5
ESTATÍSTICA E PROBABILIDADES
Nas linhas 9 a 11 são realizados cálculos intermediários como erro padrão da média σx (ou σˆx ̅),
o valor de z relativo ao nível de confiança desejado e a margem de erro resultante. As fórmulas
utilizadas para cada um dos cálculos são apresentadas exatamente à sua direita. Por exemplo,
na célula B9 foi inserida a fórmula = B4/RAIZ(B6), que é o desvio-padrão dividido pela raiz do
tamanho da amostra. Nas linhas 13 e 14 é apresentado o intervalo de confiança, sendo limite
inferior do intervalo o valor de - E e o limite superior do intervalo o valor de + E.
092
unidade 5
ESTATÍSTICA E PROBABILIDADES
093
unidade 5
ESTATÍSTICA E PROBABILIDADES
INTRODUÇÃO AO
PROGRAMA EPIINFO
O software EpiInfo é uma ferramenta muito útil para análise de dados. Esse software foi
desenvolvido pelo Centro de Controle de Doenças (CDC) para análise de dados epidemiológicos,
entretanto pode ser utilizado em qualquer área, inclusive em engenharia. O software está
disponível no site www.cdc.gov/epiinfo
APLICAÇÃO
PRÁTICA
Um fabricante de anéis para pistões de motor deseja verificar se seu produto atende as especificações
do cliente. Para isso, resolveu estimar o diâmetro médio dos anéis produzidos. A partir de uma amostra
094
unidade 5
ESTATÍSTICA E PROBABILIDADES
confiança para o verdadeiro diâmetro médio dos O intervalo é comumente apresentado como
anéis. segue:
Note que o enunciado não informou a distribuição Dessa forma, afirmamos com 99% de confiança
de probabilidade da variável diâmetro dos anéis que o diâmetro médio dos anéis está entre
e, além disso, também não temos informação 74,037 milímetros e 74,053 milímetros.
do teorema central do limite e afirmar que a Nesta unidade, você aprendeu a construir
distribuição amostral do diâmetro médio dos estimativas pontuais e por intervalos para
anéis é normal, com média μ e desvio-padrão os verdadeiros parâmetros populacionais
σ⁄ , através de dados provenientes de amostras.
√n onde μ é o verdadeiro diâmetro médio dos
equação:
S
E = Zα
/2 √n
Logo:
0,02
E = 2,575 * = 0,008
√40
095
unidade 5
ESTATÍSTICA E PROBABILIDADES
Tipo de dados
PARA SABER
MAIS
Caso você tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse conteúdo,
McCLAVE, James T. George Benson, Terry Sincich. Estatística para administração e economia. trad.
Fabrício Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo:
Se você deseja uma leitura mais formal e tem interesse em demonstrações das equações, leia o capítulo
8 do livro texto:
096
unidade 5
ESTATÍSTICA E PROBABILIDADES
www.abenc-ba.org.br/attachments/289_
ANTONIO_PELLI_ABNT%20NBR%2014653-2%20
%282%C2%BAProjeto%29212751_1.pdf>.
097
unidade 5
UNIDADE
PLANEJAMENTO DE
EXPERIMENTOS
N
a Unidade 5, Estimação de médias e proporções, você aprendeu a estimar
parâmetros populacionais a partir de dados amostrais. Você deve ter observado
que os resultados amostrais foram disponibilizados, mas não foram apresentados
os métodos utilizados para seleção das amostras ou sequer a justificativa para o tamanho
amostral. Nesta unidade você vai aprender a planejar um experimento de pequeno e médio
porte na área de Engenharia e Ciências Exatas, bem como calcular o tamanho mínimo de
uma amostra que tenha representatividade estatística.
A têmpera consiste essencialmente em aquecer uma peça de aço a uma certa temperatura e, a seguir, resfriá-
la rapidamente em um banho, usualmente água, óleo ou soluções salinas. Seu objetivo é, em geral, aumentar
a dureza do aço e tornar mais elevadas suas resistências à tração, à compressão e ao desgaste
099
unidade 6
ESTATÍSTICA E PROBABILIDADES
Neste tópico você aprenderá a calcular o tamanho amostral para um estudo que tem o
interesse de estimar uma proporção populacional. Os parâmetros controlados são o nível de
confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo:
Exemplo 8
100
unidade 6
ESTATÍSTICA E PROBABILIDADES
Onde:
Dessa forma, a equipe concluiu que para
n: é o tamanho da amostra calculado estimar a verdadeira proporção de correias
não conformes produzidas pelo fornecedor
zα⁄2 : escore z que separa uma área de
Borrachão, com 95% de confiança e uma
α/2 na cauda direita da distribuição
precisão de 2%, será necessário coletar uma
normal padrão
amostra de 1.225 correias.
ˆ é uma estimativa da verdadeira proporção
p:
populacional. Note que, caso a equipe tivesse uma
informação quanto ao verdadeiro percentual
ˆ ̂: é obtido por 1-p
q ˆ̂
de correias não conformes e desejasse
E: é a margem de erro máxima aceitável realizar um estudo apenas para confirmação
para o estudo. da informação o tamanho amostral, poderia
ser significativamente menor. Suponha
Note que a equação acima exige que que o fornecedor Borrachão afirmasse
se tenha um conhecimento prévio da que o percentual de peças não conformes
101
unidade 6
ESTATÍSTICA E PROBABILIDADES
IMPORTANTE
Equação 3: Tamanho de amostra
exigido para estimativa de uma
É importante destacar que, para o cálculo do
proporção populacional –
tamanho amostral, o resultado deve ser sempre
Correção para população finita
arredondado para cima, independentemente
102
unidade 6
ESTATÍSTICA E PROBABILIDADES
103
unidade 6
ESTATÍSTICA E PROBABILIDADES
[ ]
2
das outras baterias. Em muitas situações
n= Z(α/2)Ợ
E práticas, o desvio-padrão populacional não
é conhecido e nesses casos pode-se utilizar
Onde:
uma das seguintes alternativas:
n: é o tamanho da amostra
1–U
tilização da regra empírica da
Zα/2: escore z que separa uma área de
amplitude para estimação do desvio-
α/2 na cauda direita da distribuição
padrão: σ ≈ Amplitude⁄4. Para aplicação
normal padrão
dessa alternativa, é necessário
σ: é o desvio-padrão populacional coletar uma amostra piloto de
aproximadamente 87 observações.
E: é a margem de erro máxima aceitável
Para maior esclarecimento sobre essa
para a estimativa.
regra, consulte Triolla (2013), seção 3-3.
n=
{ 2,575 x 6
E } 2
3–U
tilize o valor de σ estimado por outros
estudos realizados anteriormente.
n = 26,5 ˜ 27
104
unidade 6
ESTATÍSTICA E PROBABILIDADES
{ 1,965x 30 }
uma fórmula alternativa para o cálculo 2
n=
do tamanho amostral para estimativa de
uma proporção populacional, no caso n = 139
de populações finitas. Da mesma forma,
para calcular o tamanho amostral para Sem entender o que havia feito de errado, o
estimativa de uma média populacional, no sargento decidiu conversar com um soldado
caso de populações finitas, existe também que tinha conhecimento de estatística para
um fator de correção. A equação abaixo auxiliá-lo. O soldado informou então que,
apresenta o método correto para essas neste caso, o sargento deveria utilizar a
situações: equação 5, que leva em consideração o
tamanho populacional. Utilizando o método
Equação 5: Tamanho de amostra adequado, o sargento decidiu, portanto, que
exigido para estimativa de uma média para estimar a altura média dos 100 novos
populacional – população finita recrutas, com 95% de confiança e margem
de erro máxima da estimativa de cinco cm,
n= Nσ2 (Zα/2)2
era necessária uma amostra de 59 recrutas:
(N - 1) E2 + σ2(Zα/2)2
n= 100 x 302 (1,96)2
Exemplo 10 (100 - 1) x 52 +302 x (1,96)2
n = 58,3 ˜ 59
Suponha que o exército brasileiro deseje
encomendar uma remessa de uniformes
para os novos recrutas. Para melhor
adequação dos tamanhos dos uniformes,
o sargento decidiu obter uma estimativa da
altura média deles. Dos 100 novos recrutas,
o sargento deseja obter a estimativa
a partir de uma amostra com 95% de
105
unidade 6
ESTATÍSTICA E PROBABILIDADES
106
unidade 6
ESTATÍSTICA E PROBABILIDADES
Y
SISTEMA Varíaveis resposta
Entradas (Características de
(PRODUTO/PROCESSO
Qualidade)
Fatores controláveis
(especificados pelo pesquisador)
Com esse objetivo, decidiu produzir uma série de corpos de prova, utilizando cada uma das
quatro técnicas e medindo a resistência à compressão desses concretos. A resistência média
seria utilizada para determinar qual seria a melhor técnica de mistura.
Analisando o experimento com mais cautela, o engenheiro detectou várias questões que
deveriam ser respondidas antes do início da coleta de dados: existem apenas essas quatro
técnicas de mistura ou existem outras? Por que foram escolhidas estas quatro técnicas?
Existem outros fatores que possam afetar a resistência à compressão do concreto? Quantos
corpos de prova devem ser produzidos com cada técnica? De que modo os corpos de prova
devem ser alocados às diferentes técnicas de mistura? Qual método de análise de dados deve
ser utilizado? Qual resistência à compressão deverá ser considerada significativa do ponto de
vista prático?
Em todo experimento, a forma de coleta dos dados é fundamental para interpretação dos
resultados e, consequentemente, para confiabilidade do estudo. Suponha que nesse estudo
107
unidade 6
ESTATÍSTICA E PROBABILIDADES
108
unidade 6
ESTATÍSTICA E PROBABILIDADES
109
unidade 6
ESTATÍSTICA E PROBABILIDADES
FIGURA 34 - Blocagem dos cimentos para cada tipo de técnica de mistura do concreto
TERMINOLOGIA
BÁSICA
Agora que você já aprendeu quais são os princípios básicos do DOE, vamos aprender alguns
termos comuns e muito úteis para o bom planejamento do experimento. Serão apresentados
seis termos básicos, a saber: Unidade Experimental, Fatores, Níveis de um Fator, Tratamento,
Ensaio e Variável Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo
sobre resistência à compressão do concreto, do tópico anterior, e definir cada termo.
A Unidade Experimental é a unidade básica para a qual será feita a medida da resposta. No
nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto
utilizado no estudo.
110
unidade 6
ESTATÍSTICA E PROBABILIDADES
111
unidade 6
ESTATÍSTICA E PROBABILIDADES
T2=médio e T3 = Alto.
APLICAÇÃO
PRÁTICA
Ensaio: Um ensaio seria secar uma trouxa
efeito do nível de temperatura sobre o tempo desse estudo é o tempo para secagem das
por exemplo.
a) Defina para essa situação cada um
dos seis termos básicos. b) Para este estudo, uma réplica seria secar
aleatorização.
c) A temperatura ambiente poderia ser um fator,
a) U
nidade Experimental: Cada trouxa de 3 (temperatura alta) no período da tarde
roupa molhada que será introduzida para (normalmente mais quente), por exemplo,
por exemplo.
d) Diferentes tipos de roupa poderiam ser um
Tratamento: Como estamos trabalhando problema, uma vez que roupas com malhas
com um único fator, os níveis do fator mais grossas levam um tempo maior para
são o próprio tratamento, logo, T1=baixo, secar do que outras. Devem-se agrupar as
112
unidade 6
ESTATÍSTICA E PROBABILIDADES
roupas por características semelhantes de fabricação, como leveza do pano, tamanho das peças.
A quantidade das mesmas também deve ser controlada para que cada ensaio seja feito de forma
mais homogênea possível. Por exemplo, se tiver disponível três peças de moletom, deve-se alocar
uma a cada trouxa de roupas, ou se tiver seis peças jeans, deve-se alocar duas para cada trouxa
de roupas.
REVISÃO
Nesta unidade você aprendeu que, para calcular o tamanho amostral, diversos fatores devem
ser levados em consideração. Em especial você aprendeu a calcular o tamanho amostral em
quatro situações: quando o objetivo do estudo é a estimativa de uma proporção populacional,
sendo o tamanho populacional finito ou “infinito”. E quando o objetivo do estudo é a estimativa
de uma média populacional, novamente, sendo o tamanho populacional finito ou “infinito”. O
quadro abaixo resume essas situações:
n=
ˆˆ
Zα/2 pq
E2
n=
( Zα/2Ợ 2
E
)
População Finita: Equação 2 População Finita: Equação 4
ˆˆ (Zα/ )2
Nqp Nσ2 (Zα/2)2
2
n= n=
ˆˆ (Zα/ )2 + (N - 1) E2
pq (N - 1) E2 + σ2(Zα/2)2
2
Você aprendeu também que em qualquer área do conhecimento a coleta de dados deve ser
sempre precedida pelo planejamento do experimento. Essa prática assegura a confiabilidade
dos resultados e simplifica os métodos de análise. Por outro lado, a não observância dessa
prática inviabiliza a utilização dos resultados a despeito de qualquer técnica estatística, por
mais sofisticada que seja.
Neste sentido, os princípios básicos que você aprendeu foram: réplica, aleatorização e
113
unidade 6
ESTATÍSTICA E PROBABILIDADES
blocagem. E também os seis termos básicos Ou você pode ler o capítulo 1 do livro:
utilizados em qualquer planejamento
WERKEMA, Maria Cristina Catarino; AGUIAR,
de experimentos, a saber: Unidade
Silvio. Planejamento e análise de experimentos:
Experimental, Fatores, Níveis de um fator,
Como Identificar as principais variáveis
Tratamento, Ensaio e Variável Resposta.
influentes em um processo. Belo Horizonte:
MAIS
Se você tem interesse em aprender mais
capítulo 7 do livro:
13 do livro:
114
unidade 6
UNIDADE
TESTES DE
HIPÓTESES
O
teste de hipóteses é uma técnica estatística utilizada para avaliar alguma
afirmação feita sobre uma população de interesse através de dados amostrais.
Por exemplo: um engenheiro pode estar interessado em avaliar a hipótese de que
o tempo de duração de um fusível seja de 1.000 horas, contra a hipótese de que tal valor
seja diferente de 1.000 horas. Essa seria uma afirmação sobre uma média, uma vez que a
variável de interesse – tempo de duração – é quantitativa. Nesse caso, o objetivo é testar
se a hipotética média de 1.000 horas é verdadeira.
Você irá aprender que, além de avaliar afirmações sobre médias, as hipóteses estatísticas
também podem ser testadas para outros parâmetros de interesse, como proporções (em caso
de variáveis categóricas), desvio-padrão, medianas, etc.
116
unidade 7
ESTATÍSTICA E PROBABILIDADES
SIGNIFICADO DE UMA
HIPÓTESE ESTATÍSTICA Exemplo 7.1
Uma hipótese estatística pode ser Um fabricante afirma que o tempo médio
construída a partir de alguma teoria sobre de secagem da tinta de sua marca é de 30
determinado assunto, ou através de minutos. Uma pessoa decide testar se essa
alguma afirmação sobre certo parâmetro afirmação é verdadeira. Para isso, marca o
da população em análise. No caso do tempo de secagem de 40 paredes e depois
engenheiro interessado em testar se o calcula a média. Quais seriam as hipóteses
tempo médio de duração de um fusível é nula e alternativa?
1.000 horas, a hipótese não se deu através
SOLUÇÃO:
de uma teoria, mas possivelmente em
função da experiência dele com o assunto. A hipótese nula é o tempo de secagem, igual
a 30 minutos.
Um teste estatístico tem como objetivo o
A hipótese alternativa é o contrário (ou
fornecimento de evidências para subsidiar a
o complemento): o tempo de secagem é
decisão de rejeitar ou não rejeitar uma hipótese
diferente de 30 minutos. As hipóteses são
sobre algum parâmetro de uma população
representadas da seguinte forma:
através de dados obtidos por uma amostra.
H0: μ = 30 minutos
A afirmação sobre a média populacional H1: μ ≠ 30 minutos
é tida como a hipótese nula. Damos o
Além da definição acerca das hipóteses,
nome de hipótese alternativa à afirmação
o nível de significância também deve ser
contrária à da hipótese nula.
escolhido pelo analista.
CONCEITO CONCEITO
Hipótese nula: Refere-se a uma afirmação do Nível de significância: Consiste na probabilidade
que queremos provar sobre algum parâmetro. de rejeitar a hipótese nula, dado que ela é
117
unidade 7
ESTATÍSTICA E PROBABILIDADES
Qual seria o significado da expressão “... variável assume. No segundo caso são
rejeitar a hipótese nula, dado que ela é comparados os valores de média ou
verdadeira”? Assim como no exemplo do proporção entre dois grupos. Além disso,
tempo de duração do fusível, em que o podemos fazer testes unilaterais ou
analista resolve testar se a afirmação de bilaterais. O próximo tópico aborda o teste
que o fusível sobrevive por 1.000 horas, bilateral com uma amostra.
a operacionalização do teste ocorre a
partir de dados amostrais. Nesse caso,
pode ser obtida uma amostra muito ou TESTES PARA
pouco parecida com a população. Tanto UMA AMOSTRA
no primeiro como no segundo caso
existem probabilidades associadas. A distribuição da estatística de teste
Existem chances de coletar uma amostra tende para o formato de uma distribuição
que dê evidências de que a hipótese seja normal quando o tamanho da amostra é
rejeitada, mesmo quando, na verdade, relativamente grande (geralmente maior
a hipótese seja verdadeira. O analista ou igual a 30). Se o tamanho da amostra
sempre corre o risco de tomar uma for pequeno (menor do que 30) e o desvio-
decisão equivocada no que se refere à padrão for desconhecido, a distribuição da
rejeição ou não da hipótese nula, cabendo estatística de teste apresenta formato mais
a ele escolher quanto risco aceita correr. próximo da distribuição t de Student. Essa
Esse risco é conhecido como nível de informação é importante porque definirá até
significância e geralmente é estipulado que valor da estatística de teste a hipótese
em 10%, 5% ou 1%. Dessa forma, ao deve ser rejeitada.
efetuar um teste de hipóteses com 5% de
significância, podemos afirmar que exista
5% de probabilidade de rejeitar a hipótese TESTES DE GRANDES
nula, quando na verdade ela é verdadeira, AMOSTRAS PARA
ou seja, 5% de chance de cometer o erro UMA MÉDIA
tipo I. POPULACIONAL
Os testes de hipótese com afirmações O exemplo a seguir consiste numa situação
sobre médias ou proporções podem ser em que é feita uma afirmação acerca
feitos principalmente com uma ou duas do valor de uma média (parâmetro mais
amostras. No primeiro caso é testada testado quando trabalhamos com variáveis
uma afirmação sobre o valor que a quantitativas).
118
unidade 7
ESTATÍSTICA E PROBABILIDADES
1ª
etapa: Estabeleça as hipóteses de
a) pacotes com volume muito
interesse
alto podem provocar aumento
exagerado de custos;
No caso em estudo, o parâmetro2 a ser
b) pacotes com peso muito abaixo testado é a média. Temos o interesse em
dos 500 gramas podem provocar verificar se ela é igual a 500 gramas. Então
sanções à indústria junto aos devemos estabelecer as hipóteses nula e
órgãos de fiscalização. alternativa. Dessa forma, as hipóteses são:
119
unidade 7
ESTATÍSTICA E PROBABILIDADES
Note que o teste refere-se à média 36, podemos trabalhar com a distribuição
populacional e não amostral. A média normal padronizada. Nomeamos o valor
amostral será utilizada como base para obtido da estatística de teste, que é
tomar a decisão sobre rejeição ou não calculada de acordo com a fórmula abaixo:
rejeição da hipótese nula.
-μ
Z = σx
2ª etapa: Obtenção da estatística de teste
Essa fórmula permite que a média
O valor médio obtido pela amostra foi: = amostral obtida passe de qualquer escala
502 gramas. Será que esse valor foi obtido (em gramas, no presente exemplo) para
em função da variabilidade amostral3 , ou número de desvio-padrão. Isso possibilita
seja, o valor obtido de 502 gramas é próximo traçar comparações com os valores de
do valor proposto de μ = 500 gramas? Para probabilidade da distribuição normal
respondermos a essa questão devemos padronizada (em que a unidade de medida
verificar qual a probabilidade de obter o é a quantidade de desvio-padrão). Sem
valor 502 gramas, levando em consideração esse procedimento, essa comparação seria
a distribuição das médias amostrais, pouco viável. A fórmula é composta dos
ou seja, a possibilidade de obtenção de seguintes itens:
resultados diferentes de amostra para
Z: E
score da distribuição normal
amostra. Para isso, utilizamos a distribuição
padronizada
normal padronizada quando o valor de σ é
conhecido ou quando o tamanho da amostra : Média obtida através da amostra
é razoavelmente grande (geralmente igual
μ: Valor da média populacional a ser testada
ou acima de 30). Quando a amostra é
pequena (geralmente menor do que 30) e o σx: Valor do desvio-padrão da distribuição
desvio-padrão é desconhecido, utilizamos das médias amostrais.
a distribuição t para avaliar a probabilidade
σ
em questão. Como no presente exemplo σx = √n
temos uma amostra de tamanho igual a
Caso não se conheça o desvio-padrão
3 - A variabilidade amostral ocorre porque populacional σ (situação muito comum),
existem chances de tomarmos tanto amostras
parecidas com a população de interesse quanto podemos utilizar o desvio-padrão obtido
amostras pouco semelhantes à população.
Qualquer processo de amostragem sujeita-se a através da amostra:
essa situação. Cabe ao pesquisador levar esse
fato em consideração ao construir um teste de σ
hipóteses sx = √n
120
unidade 7
ESTATÍSTICA E PROBABILIDADES
O número obtido significa que 502 gramas encontram-se a 4,0 desvios-padrão de distância da
média populacional de 500 gramas. Mas esse valor é perto ou longe da média populacional?
121
unidade 7
ESTATÍSTICA E PROBABILIDADES
Os valores acima podem ser obtidos através de um software estatístico, ou pela tabela Z.
Para tomar a decisão de rejeitar ou não a hipótese nula, podemos utilizar o diagrama da figura 8.2:
4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.
122
unidade 7
ESTATÍSTICA E PROBABILIDADES
A figura 8.2 representa a distribuição normal Devemos procurar na tabela o valor do nível
padronizada. A área em vermelho refere- de significância dividido por 2, ou seja α⁄2,
se à região de rejeição da hipótese nula. pois o teste é bilateral, o que implica em
Valores menores que - 1,96 desvios-padrão duas regiões de rejeição (as caudas direita
ou maiores que + 1,96 desvios-padrão são e esquerda da distribuição, conforme a
considerados demasiadamente afastados figura 8.3). Observe que a combinação da
quando consideramos uma significância de linha com a coluna gera o valor do escore
5% para o teste bilateral (ou seja, podemos Z = 1,96. O número 1,96 foi obtido através
considerar que tais valores sejam pontos de da combinação da coluna e linha formados
corte). Dessa forma, cada uma das áreas pelo valor 0,0250 referente à área da cauda
em vermelho representa 2,5% dos dados. A direita (ou esquerda) da distribuição normal
área total abaixo dos dados (soma da área padronizada.
verde com a área vermelha) representa
100% dos dados.
123
unidade 7
ESTATÍSTICA E PROBABILIDADES
124
unidade 7
ESTATÍSTICA E PROBABILIDADES
-μ
Com base nos valores obtidos pela estatística Z = s/√n
de teste e pela região de rejeição, tomamos
uma decisão em relação à hipótese nula. Com os dados do problema, temos então:
No caso em questão, a decisão é rejeitá-la, 120,2 - 120,0 = 1,0
Z=
pois o valor 4 desvios-padrão (relativo aos 2 1,6/√64
Exemplo 7.3
1ª
etapa: Estabeleça as hipóteses de
interesse
125
unidade 7
ESTATÍSTICA E PROBABILIDADES
O valor crítico de 1,645 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuição normal padrão da
figura 8.4.
5 - O valor 0,10 refere-se aos 10% escolhidos como nível de significância pelo pesquisador. Tal valor consiste
na probabilidade de rejeitar a hipótese nula, dado que ela é verdadeira, ou seja, probabilidade de tomar uma
decisão equivocada em relação à hipótese.
126
unidade 7
ESTATÍSTICA E PROBABILIDADES
127
unidade 7
ESTATÍSTICA E PROBABILIDADES
Exemplo 7.4
128
unidade 7
ESTATÍSTICA E PROBABILIDADES
Para saber o valor crítico, devemos consultar a tabela t. Como a amostra conta com 16
elementos, temos 15 graus de liberdade. Como o nível de significância é igual a 5%, devemos
procurar o escore t na coluna do 0,05 (área em duas caudas, pois o teste é bilateral)
129
unidade 7
ESTATÍSTICA E PROBABILIDADES
4ª etapa: Conclusão
Como o valor 4,0 obtido pela estatística de teste supera a valor crítico 2,13 obtido pela
distribuição t, rejeitamos a hipótese de que a média seja de 10 milímetros. Portanto, o processo
encontra-se fora de controle.
130
unidade 7
ESTATÍSTICA E PROBABILIDADES
131
unidade 7
ESTATÍSTICA E PROBABILIDADES
Como o teste é bilateral e com 5% de significância, obtemos através da tabela Z o valor crítico
igual a - 1,96.
4ª etapa: Conclusão
O valor - 0,53, obtido pela estatística de teste, encontra-se fora da região de rejeição, sendo
próximo de zero e longe do valor crítico de -1,96. Dessa forma, não rejeitamos a hipótese
nula. Portanto, não há indícios de que a proporção de trabalhadores estressados na empresa
estudada seja diferente de 30%.
No próximo tópico você verá situações em que o pesquisador tem como interesse comparar
os valores dos parâmetros de duas amostras.
132
unidade 7
ESTATÍSTICA E PROBABILIDADES
1 - 2
√
Z= Aplicando a fórmula, temos:
s s22
2
+ 1
n1 n2
133
unidade 7
ESTATÍSTICA E PROBABILIDADES
1 - 2 80 - 88 -8 -8 -8 -8
√ √ √ √0,72 + 2,5 √
Z= = = = = = 1,7944 = -4,46
s s2 2
6 10
2 2
36 100 3,22
+1 2 + +
n1 n2 50 40 50 40
O valor crítico de 2,33 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,005 (0,010 dividido por 2) da tabela da distribuição normal padrão.
4ª Etapa: Conclusão
Como o valor de Z = - 4,46 é bem inferior ao valor crítico - 2,33, obtido pela tabela da
distribuição normal padronizada, rejeitamos a hipótese nula. Não há indícios de que o tempo
médio de secagem das tintas seja diferente.
134
unidade 7
ESTATÍSTICA E PROBABILIDADES
ˆ1 - p
p ˆ2
√
Z=
p (1 - p) + p (1 - p)
n1 n2
ˆ = x1 e p2 = x2 (proporções amostrais)
Onde p
n1 n2
x1 + x2
p = n1 + n2 (proporção amostral combinada)
Exemplo 7.7
H0: p1 = p2
H1: p1 ≠ p2
x1 + x2 10 + 15 25
p = n1 + n2 = 50 + 50 = 100 = 0,25
10
ˆ1 =
p 50 = 0,20
15
ˆ2 =
p 50 = 0,30
ˆ1 - p
p ˆ2 0,20 - 0,30
√ √
Z= = =
p (1 - p) + p (1 - p) 0,25 (1 - 0,25) + 0,25 (1 - 0,25)
n1 n2 50 50
√ √
= = 0,0866 = -1,15
0,25 (0,75) + 0,25 (0,75) 0,0075
50 50
135
unidade 7
ESTATÍSTICA E PROBABILIDADES
O valor crítico de 1,96 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,025 (0,050 dividido por 2) da tabela da distribuição normal padrão.
4ª Etapa: Conclusão
O Z calculado de - 1,15 encontra-se fora da região crítica. Não rejeitamos a hipótese nula.
Portanto, não há diferença na proporção de trabalhadores com estresse entre os turnos da
manhã e tarde.
APLICAÇÃO
PRÁTICA
Os testes de hipótese são extremamente úteis na engenharia, principalmente no delineamento
insumos sejam combinados da melhor maneira possível, de forma a obter produtos de qualidade
ao menor custo possível. Nesse contexto, diversos fatores podem determinar o sucesso de um
Num processo produtivo em que determinada mercadoria é embalada de forma manual por um
trabalhador, diversos fatores (ou seja, diversas variáveis) exercem influência sobre o desempenho
136
unidade 7
ESTATÍSTICA E PROBABILIDADES
trabalhadas, e talvez até a altura de uma Para definir o tipo de teste a ser utilizado,
bancada. Dessa forma, a execução de um levamos em consideração o tamanho
experimento com diversas combinações de da amostra e o conhecimento ou não do
valores que as variáveis possam assumir pode desvio-padrão populacional. Quando
ser útil para a otimização do processo. Por desconhecemos o desvio-padrão e a
exemplo: o desempenho dos trabalhadores é amostra tem tamanho inferior a 30,
melhor quando a temperatura de um galpão é utilizamos o teste t. No caso de conhecer o
de 22 graus celsius, de 23 ou de 24? Como um desvio-padrão populacional ou a amostra
experimento desse tipo depende da utilização igual ou superior a 30, utilizamos o teste
de amostras, torna-se fundamental o uso Z. O nome do teste ocorre em função
de testes de hipóteses para obtenção de da distribuição da estatística de teste,
conclusões acerca do processo. que é construída através do conjunto de
possíveis amostras, o que é conhecido
como distribuição amostral.
REVISÃO
Nessa unidade aprendemos os Os testes podem ser utilizados para
fundamentos dos testes de hipóteses. O verificar uma afirmação sobre uma
principal objetivo deles é contrapor uma amostra, sobre duas amostras ou sobre
hipótese de interesse, conhecida como mais de duas amostras. Os dois primeiros
hipótese nula, a uma hipótese contrária, casos foram abordados nessa unidade.
conhecida como hipótese alternativa,
em relação a um parâmetro de interesse A grande utilidade do teste de hipóteses
(geralmente a média, no caso de variáveis para o engenheiro ocorre no delineamento
quantitativas e a proporção, no caso de de experimentos e no controle estatístico
variáveis categóricas). de processos.
137
unidade 7
ESTATÍSTICA E PROBABILIDADES
PARA SABER
MAIS
LEVINE, David; BERENSON, Mark; STEPHAN,
812 p.
VitalBook file.
seguinte obra:
138
unidade 7
UNIDADE
ANÁLISE DE CORRELAÇÃO E
REGRESSÃO
A
o analisar um conjunto de dados, podemos ter interesse no relacionamento
entre duas variáveis quantitativas. Dessa forma, poderíamos traçar o seguinte
questionamento: um aumento no valor da variável X se relaciona a um aumento
na variável Y? Qual seria a magnitude dessa relação? As técnicas de análise de correlação
e análise de regressão podem ser utilizadas para estudos desse tipo.
A relação entre variáveis quantitativas pode ser modelada através de análise de correlação e
regressão. Com a evolução da informática nos últimos 20 anos, essas técnicas têm sido cada
vez mais utilizadas no ambiente empresarial.
Nesta unidade, você aprenderá a desenvolver cálculos para correlação e regressão tanto
passo a passo como através do software Microsoft Excel.
140
unidade 8
ESTATÍSTICA E PROBABILIDADES
ANÁLISE DE
CORRELAÇÃO
Quando temos interesse em investigar o quanto duas variáveis quantitativas estão associadas,
podemos utilizar uma medida conhecida como coeficiente de correlação.
CONCEITO
O coeficiente de correlação mede o grau de intensidade do relacionamento linear entre duas variáveis
quantitativas.
DIAGRAMA DE
DISPERSÃO
Antes de calcular a correlação entre duas variáveis, é interessante representar os dados num
diagrama de dispersão.
CONCEITO
Diagrama de dispersão: Consiste na representação gráfica de duas variáveis quantitativas no plano
cartesiano.
A figura 8.1 se refere a uma pesquisa com anúncios de vendas de 58 imóveis. As variáveis são:
ÁREA DO IMÓVEL (em metros quadrados) e VALOR DO IMÓVEL (em R$ mil).
141
unidade 8
ESTATÍSTICA E PROBABILIDADES
800
700
600
Valor do imóvel (R$ mil)
500
400
300
200
100
-
0 50 100 150 200 250 300
Área (em metros quadrados)
No que se refere à direção, a figura 8.1 apresenta indícios de que as variáveis (ÁREA e VALOR)
estejam positivamente relacionadas, ou seja, parece que a direção é ascendente. Há situações
em que as variáveis apresentam associação negativa6 como por exemplo o PREÇO e a
QUANTIDADE DEMANDADA (para a maioria das mercadorias, quanto maior o preço, menor a
quantidade demandada).
Em relação à forma, na figura 8.1 podemos observar que a relação entre as variáveis parece
ser linear. Observe a reta que resume a associação. Existem situações em que duas variáveis
se encontram associadas, porém de forma não linear, como na figura 8.2.
6 - Associação negativa: Duas variáveis apresentam associação negativa quando o crescimento de uma se
associa à diminuição da outra, ou o contrário, a queda em uma se associa ao acréscimo da outra.
142
unidade 8
ESTATÍSTICA E PROBABILIDADES
80
70
60
50
40
Y
30
20
10
0
0 5 10 15 20
X
15
14
14
13
13
Y
12
12
11
11
10
0 5 10 15 20
X
143
unidade 8
ESTATÍSTICA E PROBABILIDADES
O grau de intensidade da relação linear entre duas variáveis quantitativas é dado pelo
coeficiente de correlação de Pearson.
COEFICIENTE DE
CORRELAÇÃO DE PEARSON
É importante destacar que o fato de duas variáveis estarem associadas não significa,
necessariamente, que exista uma relação de causa e efeito. Por exemplo: geralmente crianças
mais novas apresentam menor peso, entretanto isso não significa que o envelhecimento
causa aumento de peso. É mais provável que a criança aumente o peso pelo fato de aumentar
a altura.
A análise de correlação tem objetivo exploratório servindo como elemento auxiliar na análise
da relação entre variáveis. Dessa forma, em muitas ocasiões o estudo da correlação é utilizado
como um recurso a mais na análise dos dados.
∑ ( x -x ) ( y - y )
Cor ( X, Y ) = r =
sxsy ( n - 1)
144
unidade 8
ESTATÍSTICA E PROBABILIDADES
X - Temperatura (º Celsius) 100 110 120 130 140 150 160 170 180 190
Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89
Solução:
100
90
80
Y - Resultado (%)
70
60
50
40
30
20
10
0
0 50 100 150 200
X - Temperatura (º C)
A figura 8.4 apresenta indícios de que as variáveis estão fortemente associadas. Para
confirmar essa suspeita, podemos calcular o coeficiente de correlação, conforme a tabela 8.1:
145
unidade 8
ESTATÍSTICA E PROBABILIDADES
3985 3985
Cor ( X, Y ) = r = = = + 0,99
( 30,3) (14,7) (10 -1) 4008,7
O valor + 0,99 obtido pelo coeficiente de correlação confirma que as variáveis estão fortemente
associadas, conforme indício dado pelo diagrama de dispersão (figura 8.4).
O exemplo 8.2 se refere a uma situação em que as variáveis apresentam correlação negativa.
Exemplo 8.2
Preço (X) 10 11 12 13 14 15 16 17 18 19
Quantidade (Y) 200 171 168 165 170 147 120 130 105 124
Solução:
146
unidade 8
ESTATÍSTICA E PROBABILIDADES
220
200
180
Y - Quantidade
160
140
120
100
8 10 12 14 16 18 20
X - Preço
TABELA 8.2 - Dados para o cálculo do coeficiente de correlação entre preço (X) e quantidade (Y)
Preço (X) Quantidade (Y) (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ ) (𝑦𝑦𝑖𝑖 − 𝑦𝑦�) (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)
10 200 -4,5 50 -225
11 171 -3,5 21 -73,5
12 168 -2,5 18 -45
13 165 -1,5 15 -22,5
14 170 -0,5 20 -10
15 147 0,5 -3 -1,5
16 120 1,5 -30 -45
17 130 2,5 -20 -50
18 105 3,5 -45 -157,5
19 124 4,5 -26 -117
𝑛𝑛
Média (X) = 14,5 Média (Y) = 150 �(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦
�) = -747
Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6 𝑖𝑖 =1
-747 -747
Cor ( X, Y ) = r = = = - 0,93
( 3,0) (29,6) (10 -1) 799,2
147
unidade 8
ESTATÍSTICA E PROBABILIDADES
148
unidade 8
ESTATÍSTICA E PROBABILIDADES
REGRESSÃO
LINEAR SIMPLES
A regressão linear simples tem como objetivo estimar uma equação que relacione
matematicamente duas variáveis, sendo que uma delas é explicada pela outra. A variável
explicada geralmente é denominada variável resposta ou variável dependente. A variável
explicativa é denominada variável explanatória ou variável independente.
A análise de regressão múltipla tem por objetivo estimar uma equação que relacione
matematicamente uma variável resposta a duas ou mais variáveis explicativas.
A figura 8.7 reapresenta os dados relativos à figura 8.1 onde a variável resposta VALOR se
correlaciona à ÁREA DO IMÓVEL.
149
unidade 8
ESTATÍSTICA E PROBABILIDADES
Observe que os pontos do diagrama não caem exatamente sobre a reta de regressão, mas a
reta é capaz de resumir o padrão geral de comportamento dos dados. Uma das técnicas mais
utilizadas para obtenção dessa reta é conhecida como método dos mínimos quadrados.
CONCEITO
Método dos mínimos quadrados: É uma técnica estatística utilizada para resumir um conjunto de
variáveis quantitativas numa equação. Ela se baseia na minimização da distância quadrática de cada
Y1 = β0 + β1 X1 + ε1
150
unidade 8
ESTATÍSTICA E PROBABILIDADES
Onde: ^ =β
^0 + β
^ 1X
Y
^ ^
β1= segundo parâmetro da equação de A estimativa dos parâmetros β0 e β1
regressão, chamado coeficiente do modelo se dá a partir das seguintes
angular, que indica a inclinação da reta fórmulas:
de regressão;
^ ∑ XY - nXY
β1 =
εi = o valor do erro, que significa a diferença ∑ X2 - nX2
151
unidade 8
ESTATÍSTICA E PROBABILIDADES
Horas de Nota na
Estudante
estudo (X) prova (Y)
1 20 72
2 15 62
3 35 87
4 26 77
5 30 90
6 24 83
7 18 68
Fonte: Elaborado pelo autor
[b] Use a eq uação de regressão para estimar a nota de um estudante que tenha dedicado 20
horas de estudo para a prova.
Solução:
[a] Podemos incluir mais duas colunas na tabela para facilitar a operacionalização dos
cálculos:
152
unidade 8
ESTATÍSTICA E PROBABILIDADES
^ 1 = ∑ XY - nXY
β =
13.333 - 7 . 24. 77
=
13.333 -12.936
=
397
= 1,35
∑ X2 - nX2 4.326 - 7.24 2
4.326 - 4.032 294
Y^ = 44,6 + 1,35 . X
Para calcular o valor estimado da nota (Y) com base no número de horas estudadas (X), basta
inserir o valor de X na equação. Considerando X = 20, temos:
Portanto, estima-se que um estudante que tenha dedicado 20 horas de estudo obtenha
aproximadamente 72 pontos na prova. Observe abaixo o diagrama da figura 8.8:
FIGURA 8.8 - Previsão da NOTA (Y) com base no número de HORAS DE ESTUDO (X)
153
unidade 8
ESTATÍSTICA E PROBABILIDADES
Além de permitir a previsão de uma variável resposta em função de uma variável explanatória,
a análise de regressão também mede a variação de Y quando variamos X. A partir da equação
obtida pelos dados do exemplo 8.3, podemos afirmar que o aumento de uma unidade na
variável X (número de horas estudadas) aumenta, em média, 1,35 unidades na variável Y
(pontos na prova de estatística).
Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais
utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.
No exemplo 8.4, os dados do exemplo 8.3 foram rodados no Excel.
Exemplo 8.4
Solução:
Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória (X – horas de
estudo) e resposta (Y – nota na prova), respectivamente. Em seguida, aperte OK.
154
unidade 8
ESTATÍSTICA E PROBABILIDADES
Após rodar a regressão, o Excel apresenta três quadros. O primeiro mostra, dentre outras
estatísticas, o valor do R-quadrado. No exemplo em questão, o valor observado é igual a 0,843.
Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da
variação em X.
Estatística de regressão
R múltiplo 0,918
R-Quadrado 0,843
R-quadrado ajustado 0,811
Erro padrão 4,470
Observações 7
Fonte: Elaborado pelo autor
A tabela 8.4 diz respeito ao teste de significância do modelo, conhecido como teste F, que
produziu uma estatística igual a 26,8, que implica num valor p próximo de zero. Dessa forma,
rejeitamos a hipótese de que o modelo não se ajusta bem aos dados. Portanto, o modelo é
estatisticamente significativo.
155
unidade 8
ESTATÍSTICA E PROBABILIDADES
ANOVA
gl SQ MQ F Valor p
Regressão 1 536,085 536,085 26,8271 0,00353
Resíduo 5 99,915 19,983
Total 6 636
Fonte: Elaborado pelo autor
H0: β0 = 0
H0: β0 ≠ 0
H0: β1 = 0
H0: β1 ≠ 0
A equação estimada é:
ˆ = 44,6 +1,35 . X1
Y
Dessa forma, o modelo se mostra útil tanto para analisar o impacto que a variável explanatória
exerce sobre a variável resposta, quanto para previsão.
156
unidade 8
ESTATÍSTICA E PROBABILIDADES
Para um estudante que tenha dedicado 30 horas ao estudo, o valor previsto pela equação é 85:
REGRESSÃO
LINEAR MÚLTIPLA
Na regressão linear simples, uma variável resposta pode ser explicada por uma variável
explanatória. Na figura 8.7, o valor do imóvel pode ser previsto com base no seu tamanho
(em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a variável
explanatória X explica 45% da variação na variável Y. No exemplo em questão, outras variáveis
também podem ser utilizadas para explicar melhor a variação de Y (preço do imóvel), como
por exemplo a idade do imóvel, o preço do condomínio, o número de banheiros, etc.
Dessa forma, na regressão múltipla, uma variável resposta se relaciona a duas ou mais
variáveis explanatórias. O objetivo também é predizer os valores de Y com base nas variáveis
explanatórias.
Na maioria das vezes, uma variável resposta se relaciona a mais de uma variável explanatória.
Nessa situação, também podemos utilizar o método dos mínimos quadrados para obter uma
equação que relacione as variáveis. Nesse caso, temos uma regressão múltipla:
Yi = β0 + β1 X1 + β2 X2 + … + βk Xk + εi
Onde:
β0 = intercepto (valor assumido por Y quando todas as demais variáveis assumem valor igual
a zero);
157
unidade 8
ESTATÍSTICA E PROBABILIDADES
Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais
utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.
No exemplo 8.5, o preço do imóvel é estimado com base em duas variáveis: ÁREA DO IMÓVEL
e NÚMERO DE QUARTOS.
Exemplo 8.5
158
unidade 8
ESTATÍSTICA E PROBABILIDADES
Chart
Title
800.000,00
700.000,00
y
=
1868,2x
+
239876
600.000,00
R²
=
0,55094
Axis
Title
500.000,00
400.000,00
Series1
300.000,00
200.000,00
Linear
(Series1)
100.000,00
-‐
0
50
100
150
200
250
300
Axis
Title
159
unidade 8
ESTATÍSTICA E PROBABILIDADES
Solução
Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória e dependente,
respectivamente, assim como foi feito para a regressão simples. Em seguida, aperte OK.
ANOVA
gl SQ MQ F Valor p
Regressão 2 557.278.841.710 278.639.420.855 42,5 0,000
Resíduo 55 360.283.037.601 6.550.600.684
Total 57 917.561.879.310
Fonte: Elaborado pelo autor
A saída da última coluna se refere aos valores p do teste dos coeficientes da regressão. A
hipótese nula é de que cada coeficiente é igual a zero, individualmente, versus a hipótese
alternativa de que seja diferente de zero, respectivamente.
A equação estimada é:
Na última coluna temos os valores p, que mostram que as variáveis são significativas e o
intercepto não, conforme os testes t para cada coeficiente separadamente. O intercepto no
caso não tem significado prático nesse exemplo.
160
unidade 8
ESTATÍSTICA E PROBABILIDADES
Dessa forma, o modelo se mostra útil tanto para analisar o impacto que cada uma das variáveis
explanatórias exerce sobre a variável resposta, mantendo constantes as outras variáveis,
quanto para previsão. ˆ
Para um apartamento que tenha 80 metros quadrados e três quartos, o valor previsto pela
equação é:
APLICAÇÃO
PRÁTICA
Os exemplos de análise de regressão utilizados nesta unidade contêm uma variável explicativa, no caso
da regressão simples, ou duas variáveis explicativas, no caso da regressão múltipla. Tais situações
ilustram a utilização dos modelos de regressão para situações mais simples. Na verdade, esses modelos
Por exemplo, para prever o preço de revenda de um automóvel, o analista de dados pode utilizar diversas
variáveis, como: idade, número de quilômetros rodados, presença de vidros elétricos, presença de ar
Nesse sentido, os modelos de regressão se mostram muito úteis para a realização de previsões. Outro
exemplo: imagine o gestor de uma empresa de varejo de alimentos que tem que tomar a decisão sobre a
quantidade de itens em estoque. Nesse caso, ele não pode estocar muito, pois os produtos podem perder
161
unidade 8
ESTATÍSTICA E PROBABILIDADES
validade, além do custo do espaço utilizado para o estudo da relação entre duas variáveis é
guardar as mercadorias. Ao mesmo tempo, a regressão simples, muito útil para fazer
estocar uma quantidade insatisfatória pode previsões. Além da regressão simples, a
implicar na falta de produtos para a venda. regressão múltipla também é bastante
Nesse caso, é de grande valia a utilização de utilizada, pois na maioria das situações
modelos de previsão para estimar a quantidade as variáveis previstas são associadas a
de mercadorias que serão comercializadas num diversas variáveis explanatórias, tanto
certo espaço de tempo. quantitativas quanto categóricas.
162
unidade 8
ESTATÍSTICA E PROBABILIDADES
Bookman, 2007.
163
unidade 8
REFERÊNCIAS FREUND, John. Estatística Aplicada à Economia.
11 ed. Bookman, 2006. VitalBook file.
BARBETTA, Pedro Alberto, REIS, Marcelo
Menezes, BORNIA, Antônio Cezar.
GAZZARRRINI, Rafael. Lotus 1-2-3: o software
Estatística: Para Cursos de Engenharia e
que ajudou a mudar o mundo. 18 fev. 2013. In:
Informática. 3 ed. Atlas, 2010. VitalBook file.
Site “TecMundo”. Disponível em: <http://www.
tecmundo.com.br/tecnologia/36697-lotus-
BAILAR III, John.C.; MOSTELLER, Frederick.
1-2-3-o-software-que-ajudou-a-mudar-o-
Medical uses of statistics. 2. ed. Boston:
mundo.htm>. Acesso em: 15 abr. 2015
NEJM Books, 1992.
164
McCLAVE, James T.; BENSON, George; VELLEMAN. Paul. Estatística Aplicada -
SINCICH, Terry. Estatística para Administração, Economia e Negócios. Porto
administração e economia. trad. Fabrício Alegre: Bookman, 2011.
Pereira Soares e Fernando Sampaio Filho;
rev. téc. Galo Carlos Lopez Noriega. São SOARES, José Francisco; SIQUEIRA,
Paulo: Pearson Prentice Hall, 2009. Armanda Lúcia. Introdução à Estatística
Médica. Belo Horizonte: UFMG, 2002. 300p
MONTGMOMERY, Douglas C; RUNGER,
George C. Estatística aplicada e probabilidade STEVENSON, William. Estatística Aplicada
para engenheiros. trad. e rev. téc. Verônica à Administração. ed 2001. São Paulo:
Calado. Rio de Janeiro: LTC, 2009. Harbra, 1981.
MOORE, David. A estatística básica e sua TRIOLA, Mario Farias. Introdução à Estatística:
prática. Rio de Janeiro. LTC, 2014. tradução de Vera Regina Lima de Farias e
Flores, revisão técnica Ana Maria Lima de
NETO, Antônio Peli. Intervalos de confiança, Farias. 10 ed. Rio de Janeiro: LTC, 2008
Intervalos de Predição e Campo de Arbítrio
nas Avaliações de Imóveis Urbanos. TRIOLA, Mario F. Introdução à Estatística:
Associação Brasileira dos Engenheiros Atualização da Tecnologia, 11 ed. LTC,
Civis - Departamento da Bahia. Bahia, 2010. 03/2013. VitalBook file.
Disponível em: <http://goo.gl/6uFFSt>.
Acesso em 16 jun. 2015. WERKEMA, Maria Cristina Catarino;
AGUIAR, Silvio. Planejamento e análise de
REIDEL, Adilson et al. Utilização de efluente de experimentos: Como Identificar as principais
frigorífico, tratado com macrófita aquática, no variáveis influentes em um processo. Belo
cultivo de tilápia do Nilo. R. Bras. Eng. Agríc. Horizonte: Fundação Cristiano Ottoni,
Ambiental, Campina Grande, v.9, (Suplemento), Escola de Engenharia da UFMG, 1996.
p.181-185, 2005. Disponível em: <http://goo.
gl/TQP0re>. Acesso em: 21 jan. 2015 WALPOLE, Ronald. Probabilidade e
estatística para engenharia e ciências. São
SILVA, Nilza Nunes. Amostragem Paulo: Pears, 2008
probabilística. 2 ed. São Paulo: Editora da
Universidade de São Paulo, 2001. 120p
165
www.animaeducacao.com.br