Você está na página 1de 173

Estatística e

Probabilidades
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais
Bráulio Roberto Gonçalves Marinho Couto
Janaína Giovani Noronha de Oliveira
Octávio Alcântara Torres
Reinaldo Carvalho de Morais

ESTATÍSTICA E PROBABILIDADES

Belo Horizonte
Junho de 2015
COPYRIGHT © 2015
GRUPO ĂNIMA EDUCAÇÃO
Todos os direitos reservados ao:
Grupo Ănima Educação

Todos os direitos reservados e protegidos pela Lei 9.610/98. Nenhuma parte deste livro, sem prévia autorização
por escrito da detentora dos direitos, poderá ser reproduzida ou transmitida, sejam quais forem os meios
empregados: eletrônicos, mecânicos, fotográficos, gravações ou quaisquer outros.

Edição
Grupo Ănima Educação

Vice Presidência
Arthur Sperandeo de Macedo

Coordenação de Produção
Gislene Garcia Nora de Oliveira

Ilustração e Capa
Alexandre de Souza Paz Monsserrate
Leonardo Antonio Aguiar

Equipe EaD
CONHEÇA CONHEÇA
O AUTOR A AUTORA

Bráulio Roberto Gonçalves Marinho Couto é Janaína Giovani Noronha de Oliveira


doutor em Bioinformática, mestre em Ciência é mestre em Estatística e graduada
da Computação, especialista em Estatística, em Licenciatura em Matemática com
bacharel em Engenharia Química e técnico Habilitação em Física. Possui experiência
em Química. Atuante nas áreas de Estatística, como docente na área de Matemática
Cálculo Numérico, Informática em Saúde, e Estatística do Ensino superior e
Epidemiologia Hospitalar e Bioinformática. médio. Experiência com orientação de
Professor do Centro Universitário de Belo Monografias.
Horizonte (UniBH).
CONHEÇA CONHEÇA
O AUTOR O AUTOR

Octávio Alcântara Torres é bacharel em Reinaldo Carvalho de Morais é mestre


Estatística e mestre em Demografia. Possui e bacharel em Administração Pública,
experiência nas áreas de probabilidade e graduado em Estatística e especialista
estatística, regressão e correlação, análise em Gestão Financeira. Possui experiência
estatística multivariada e controle estatístico em pesquisas sobre economia e finanças
de processo. Áreas de interesse: projeções públicas mineiras, bem como docência nas
populacionais, projeções de mão de obra disciplinas de estatística, de economia,
qualificada, pesquisa de mercado, estatística de engenharia econômica, de matemática
aplicada. financeira e de administração da produção.
APRESENTAÇÃO
DA DISCIPLINA
Egressos de cursos de Engenharia e A ideia é usar ferramentas como o Excel
Tecnologia são profissionais que resolvem para construir tabelas e gráficos, como
problemas. E como isso ocorre? Pela histograma, diagrama de dispersão, Pareto
aplicação eficiente do método científico. e calcular valores como média, mediana,
Pois bem, é disso que se trata essa desvio padrão, e coeficiente de variação.
disciplina: apresentar ferramentas Na Unidade 3 são introduzidos conceitos
estatísticas que possibilitarão a você básicos de probabilidades, cruciais para
transformar-se num especialista em que se entenda o processo de tomada
qualquer área do conhecimento e, portanto, de decisão na presença de incerteza. A
apto a resolver problemas. A disciplina é Unidade 4 é uma continuação da terceira
dividida em oito unidades cujo objetivo é unidade, são apresentados os modelos
introduzir o aluno na área da Estatística probabilísticos mais importantes para se
e Probabilidades, tornando-o capaz de modelar problemas de pequeno e médio
planejar e de executar experimentos de porte na área de Engenharia e Tecnologia.
pequeno e médio porte nas áreas de
Ciências Exatas e de Engenharia. Além de A partir da Unidade 5 caminhamos para
fazer a análise exploratória dos dados e de a área “nobre” da Estatística, que envolve
realizar inferências, por meio da tomada de as inferências, isto é, o processo de
decisão na presença de incerteza. generalização de resultados parciais,
observados em amostras, para toda a
A Unidade 1 apresenta definições população envolvida num problema. Nessa
fundamentais para a correta compreensão unidade é discutida a forma de obter os
do processo de coleta e de análise de dados. intervalos de confiança, tanto para média
Conceitos sobre população e amostra, quanto para proporção. Na Unidade 5
censo e amostragem, e variáveis são discute-se, por exemplo, como o resultado
discutidos nessa unidade. A Unidade 2 trata de uma pesquisa eleitoral é calculado e o
da análise exploratória de dados, quando significado do intervalo definido pela soma
são apresentadas técnicas de Estatística e subtração de uma “margem de erro”.
Descritiva. O objeto dessa unidade,
bastante intuitiva, é trabalhar a síntese A Unidade 6 é voltada para o planejamento
numérica, gráfica e tabular dos dados. de experimentos, quando é apresentado,
por exemplo, como calcular o tamanho
de uma amostra. Em alguns livros este
item é colocado na primeira unidade, o
que tem certa lógica por tratar da coleta
de dados, primeira etapa de qualquer
análise estatística. Entretanto, como são
necessários conceitos probabilísticos e de
inferência para entender o planejamento
de experimentos, optamos por colocar
essa unidade logo após a discussão sobre
intervalos de confiança.

As Unidades 7 e 8 fecham a disciplina,


apresentado as ferramentas mais úteis
para que você finalmente se transforme
num especialista em uma área qualquer e,
portanto, realmente apto a resolver seus
problemas. Na Unidade 7 são discutidos
os métodos para fazer e interpretar testes
de hipóteses, num contexto uni variado
e, na Unidade 8, discute-se métodos de
correlação e regressão, introduzindo a
análise multivariada.

Ao longo das oito unidades, procuraremos


apresentar uma abordagem baseada
em PPL – Aprendizagem Baseada em
Problemas, além de usarmos como
ferramentas computacionais o Microsoft®
Excel e o software de domínio público,
EpiInfo.

Bom trabalho!

Bráulio, Janaína, Octávio e Reinaldo.


UNIDADE 1  003
Introdução à Estatística  004
Conceitos básicos 006
O papel das variáveis numa base de dados: identificação,
auxiliares, variáveis explicativas e variável reposta (desfecho) 010
Tipos de variáves 013
Uso do excel como um sistema de gerenciamento de dados
e dos formulários do google docs para coleta de informações 015
Revisão 017

UNIDADE 2  019
Análise exploratória de dados  020
Síntese gráfica de dados  021
Síntese tabulador de dados  038
Síntese numérica de dados 038
Revisão 048

UNIDADE 3  049
Introdução à teoria de probabilidades  050
Probabilidade clássica e probabilidade frequentista  053
Leis básicas de probabilidade 053
União e interseção de eventos 054
Tabelas de contigência 056
Eventos independentes 057
Teorema de Bayes 058
Revisão 061

UNIDADE 4  063
Modelos probabilísticos  064
Varieaveis aleatórias  065
Modelos probabilísticos 071
Distribuição binomial 071
Distribuição Poisson 072
Distribuição normal 072
Revisão 076
UNIDADE 5 077
Estimação de médias e proporções  078
Teorema central do limite  079
Estimação pontual e por intervalos de confiança para uma
média populacional  082
Estimação pontual e por intervalos de confiança para uma
proporção populacional 089
Uso do excel no cálculo de intervalos de confiança para
média e proporção 091
Introdução ao programa Epiinfo 094
Revisão 095

UNIDADE 6 098
Planejamento de experimentos  099
Cálculo de tamanho de amostra baseado em intervalos
de confiança para uma proporção  100
Cálculo de tamanho de amostra baseado em intervalos
de confiança para uma média  103
Planejamento de experimentos 106
Revisão 113

UNIDADE 7  115
Testes de hipóteses  116
A construção e o significado de uma hipótese estatística  117
Testes para uma amostra  118
Testes para duas ou mais amostras 133
Revisão 137

UNIDADE 8  139
Análise de correlação e regressão  140
Análise de correlação  141
Regressão linear simples  149
Regressão linear múltipla 157
Revisão 160

REFERÊNCIAS117
INTRODUÇÃO À
ESTATÍSTICA

P
odemos entender o método estatístico como um processo para obter, apresentar e
analisar características ou valores numéricos, identificando padrões que possibilitam
a tomada de decisão em situações de incerteza. Pode acreditar, se você aplicar o
método estatístico para a análise e solução de problemas, muito rapidamente se tornará um
especialista de qualquer área do conhecimento! Num mundo real, completamente cercado
de incertezas, ser capaz de identificar padrões de comportamento de pessoas, projetos,
produtos, serviços, etc pode transformá-lo num “mago”.

Entretanto, antes de você transformar-se num “mago”, é necessário um entendimento


adequado do método estatístico, que tem suas “armadilhas”. Costumo dizer que Estatística não
é Matemática... é muito mais “difícil”. Na verdade, Estatística é uma das áreas da Matemática
que, por sinal, é a Ciência cuja aplicação no mundo real possibilitou ter uma vida incrivelmente
confortável. Bom, quando afirmo que “Estatística não é Matemática”, quero dizer que, na
Matemática que você aprendeu no Ensino Fundamental e Médio, os problemas têm usualmente
uma única forma de serem resolvidos e devem todos chegar ao mesmo resultado (uma única
resposta correta). Na Estatística, os problemas têm várias formas de serem resolvidos, podem
chegar a resultados diferentes e todos estão corretos! Isso ocorre porque a Estatística requer
a habilidade de considerarmos as coisas dentro de uma perspectiva probabilística, o que vai
completamente contra a conceituação usual dos problemas em simplesmente certo ou errado.
Não buscaremos a “verdade absoluta”, mas padrões de comportamento que nos possibilitarão
tomar decisões com alto grau de confiança.

004
unidade 1
ESTATÍSTICA E PROBABILIDADES

Para melhor entendermos o que será discutido, o método estatístico será dividido em quatro
grandes áreas:

1) amostragem e coleta de dados;

2) análise exploratória de dados (estatística descritiva);

3) teoria de probabilidades;

4) decisão na presença de incerteza (inferência).

A ideia por trás dessa unidade é levar até você o conhecimento fundamental que lhe permitirá
entender a coleta de dados. Estudaremos conceitos fundamentais de Estatística, questões
simples, mas essenciais para que tenhamos sucesso nas outras etapas do método estatístico,
que serão discutidas nas próximas unidades. Estes são os objetivos da Unidade 1:

a) apresentar conceitos básicos de Estatística e Probabilidades;

b) identificar as funções e os principais tipos de dados e de variáveis;

c) identificar e corrigir problemas de dados faltantes (missing);

d) configurar o Excel como instrumento de coleta de dados;

e) entender o sistema de endereçamento de células do Excel.

f) construir formulários de coleta de dados no Google Docs;

g) enviar formulários de coleta de dados por meio de mala direta.

É crucial que você entenda os conceitos que serão discutidos nessa unidade. Sem o
entendimento do que seja, por exemplo, uma variável, o seu tipo e a sua função na base de
dados, não há como você ser feliz nas outras etapas do processo!

005
unidade 1
ESTATÍSTICA E PROBABILIDADES

CONCEITOS Entretanto, a cozinheira sabe que para fazer


BÁSICOS inferências válidas, deve tomar cuidado
para não trabalhar com amostras viciadas.
Você sabe o que é população? E E o que seria isso?
amostra? Vejamos o exemplo a seguir.
Se ela retirar uma amostra somente da
Vamos supor que uma cozinheira esteja parte de cima da sopa, muito provavelmente
preparando dois litros de sopa. terá uma amostra viciada, isto é, sem
representantes de todos os componentes
Como ela sabe se a sopa está temperada? da sopa como um todo que, neste caso, é a
população amostrada.
Os dois litros de sopa formam a população
e, se a cozinheira comer/provar toda a sopa, E como ela retira uma amostra
estará fazendo um censo, o que geraria um representativa da sua população (“sopa”)?
absurdo do tipo “É, a sopa estava ótima!”. Como a cozinheira procede para obter uma
amostra com “representantes” de cada
A cozinheira sabe que em experimentos estrato da sopa?
baseados em ensaios destrutivos, quando
a própria análise destrói o dado coletado, o Simples, ela mistura a sopa fazendo uma
censo é um absurdo. Na verdade, ela sabe homogeneização e sorteia uma porção/
que censos, de modo geral, são inviáveis, pitada que será usada no seu processo
muito caros e/ou muito demorados. Mais decisório. Fazendo uma amostragem
ainda, ela sabe que se usar uma pequena aleatória, a cozinheira sabe que terá
amostra cuidadosamente retirada, chamada grande chance de trabalhar com amostras
amostra representativa, poderá tomar representativas.
decisões sobre toda a população envolvida
no problema com um alto grau de confiança. Podemos agora resumir esses conceitos.

A cozinheira então retira uma pequena População:


amostra, uma “pitada” da comida, prova-a
a) consiste na totalidade das unidades de
e generaliza o resultado para toda a sopa.
observação a partir dos quais ou sobre
Isso é chamado de inferência: tomar
os quais deseja tomar uma decisão;
decisões sobre toda uma população com
base em informações parciais de uma b) conjunto de elementos que formam o
amostra (veja a FIGURA 1). universo do nosso estudo e que são

006
unidade 1
ESTATÍSTICA E PROBABILIDADES

passíveis de serem observados; b) gases, líquidos e alguns sólidos em


que as suas unidades não podem ser
c) conjunto de indivíduos sobre os quais
identificadas e contadas.
recairão todas as generalizações das
conclusões obtidas no estudo;
Amostra: conjunto de unidades
d) usualmente, as unidades de observações
selecionadas de uma população, ou seja,
são pessoas, objetos ou eventos;
uma parte dos elementos da população.
e) é o universo a ser amostrado;
Amostra representativa: é uma versão
f) do ponto de vista matemático, a população
em miniatura da população, exatamente
é definida como um conjunto de
como ela é, somente menor. A amostra
elementos que possuem pelo menos uma
representativa segue o modelo populacional,
característica em comum (SILVA, 2001).
tal que suas características importantes
são distribuídas similarmente entre ambos
População finita: o número de unidades de
os grupos.
observação pode ser contado e é limitado.
Exemplos:
Unidade amostral: é a menor parte distinta
a) alunos matriculados na disciplina de uma população, identificável para fins de
Estatística e Probabilidades; seleção e construção da amostra.

b) todas as declarações de renda recebidas


Amostra aleatória: é aquela obtida por meio
pela Receita Federal;
de um processo de sorteio ou aleatorização.
c) todas as pessoas que compram telefone
celular num determinado ano; Amostra viciada: é aquela que representa
apenas parte da população, não possuindo
d) um lote com N produtos.
elementos de todos os estratos ou
subconjuntos que formam a população
População infinita: a quantidade de
como um todo.
unidades de observação é ilimitada, ou
a sua composição é tal que as unidades
Censo: exame de todas as unidades de
da população não podem ser contadas.
observação de uma população. Como
Exemplos:
discutido no exemplo da cozinheira, se
a) conjunto de medidas de determinado a pesquisa envolve ensaio destrutivo, o
comprimento; censo é inviável. Na verdade, somente se a

007
unidade 1
ESTATÍSTICA E PROBABILIDADES

população alvo for pequena é razoável observá-la por inteiro, através do censo, pois mesmo
quando viáveis, censos são caros e demorados. Outros exemplos de ensaios destrutivos, nos
quais é impossível aplicar censo: pesquisa sobre a força de tração de um lote de barras de
aço para construção; pesquisa sobre contaminação de soro fisiológico em um lote; testes de
resistência e durabilidade de um lote de concreto; tempo de pega de um lote de cimento.

Amostragem: processo pelo qual uma amostra de unidades da população é retirada e


observada. É a parte mais importante do processo de pesquisa. O principal e fundamental
objetivo de qualquer plano de amostragem é selecionar a amostra, de tal maneira que ela
retrate fielmente a população pesquisada.

FIGURA 1 - População alvo, população amostrada e amostra

População alvo do estudo

População
Inferência
amostrada
Amostra

Fonte: Elaborado pelo autor.

Inferir significa generalizar resultados de uma amostra para toda a população.

Por que usar amostras? Por que não incluir no estudo todos os indivíduos da população?

A amostragem deve ser usada porque torna o processo eficiente e preciso. E ela
é eficiente, uma vez que o recurso que poderia ser despendido na coleta de dados
desnecessários de um grande número de indivíduos pode ser gasto em outra atividade,
como na monitoração da qualidade da própria coleta dos dados. As amostras, por serem
menores que a população, podem ser estudadas mais rapidamente que censos e são
também mais baratas. Além disso, se o processo de amostragem gerar uma amostra
representativa da população alvo do estudo, os resultados observados poderão ser
generalizados, sem risco de chegar a uma conclusão diferente daquela que seria obtida
se trabalhar com toda a população.

008
unidade 1
ESTATÍSTICA E PROBABILIDADES

Vejamos agora alguns aspectos selecionadas aleatoriamente no


relevantes para o campo da amostragem. território brasileiro?
São eles:
No entanto, essa não é uma questão
• Questões da amostragem: Qual
muito importante para obtermos o
o tamanho da amostra? Como
tamanho da amostra adequada para
a amostra será obtida? Como
uma pesquisa, visto que é necessário
garantir que a amostra obtida
estudarmos alguns conceitos
seja representante da população
probabilísticos, que serão apresentadas
objeto do estudo? A questão mais
somente nas próximas unidades.
importante não é o seu tamanho,
mas como a amostra será obtida,
pois a amostragem mal feita
invalida qualquer pesquisa. IMPORTANTE
• Tamanho da amostra (n): está
relacionado ao total de unidades A maioria das pessoas, quando questionadas
amostradas, usadas no processo sobre qual o tamanho da amostra necessária
de inferência. Imagino que para uma pesquisa, tem o raciocínio equivocado
você esteja curioso em relação de que o tamanho da amostra (n) tem relação
ao tamanho da amostra, mas, direta com o tamanho da população amostrada
como citado anteriormente, (N). Inevitavelmente, a maioria das pessoas
esta não é de longe a questão afirma erroneamente que uma boa amostra deve
mais importante. Por exemplo, conter pelo menos, digamos, 30% da população.
o que você que teria mais O que a cozinheira diria disto? Para provar dois
credibilidade numa pesquisa litros de sopa, quanto de amostra ela teria que
sobre a aceitação (ou não) do avaliar? Isso mesmo, uma pitada. E para provar
aborto por parte da população 400 litros de sopa, ela beberia um prato inteiro?
brasileira: resultados de pesquisa Não. Ela provará a mesma pitada, pois sabe que, o
realizada no domingo à noite por mais importante nesse processo inferencial não é
uma emissora de TV, envolvendo o tamanho da amostra, mas provar uma amostra
milhões de pessoas que, após não viciada, representativa de toda a sopa.
assistirem a uma reportagem
sobre o assunto, responderam Voltando aos processos de amostragem,
à pesquisa; ou resultados de as amostras podem ser classificadas em
uma amostra de 2.500 pessoas probabilísticas e não probabilísticas:

009
unidade 1
ESTATÍSTICA E PROBABILIDADES

Amostra probabilística: que fossem analisados tal percentual de


- existe uma garantia, em termos de indivíduos da população, não é o tamanho
probabilidade, de que qualquer membro que garante representatividade da
da população possa ser selecionado para amostra, mas a forma com ela é obtida. É
amostra. a imparcialidade do processo de seleção
dos seus elementos e a homogeneidade
Amostra não probabilística: da distribuição das características da
- os elementos da amostra não são amostra e da população que garantem a
escolhidos por meio de um sorteio. representatividade da amostra.

CARVALHO e COUTO (2003) apresentam


as principais características de tipos de O PAPEL DAS VARIÁVEIS
amostragem mais comuns, relacionados NUMA BASE DE DADOS:
principalmente com pesquisas de survey. IDENTIFICAÇÃO,
Outras amostras, por exemplo, amostragem AUXILIARES,
de minério, de solo, de gases e de líquidos VARIÁVEIS
têm procedimentos próprios que buscam, EXPLICATIVAS E
em última instância, obter amostras que
VARIÁVEL REPOSTA
sejam representativas de cada população
(DESFECHO)
envolvida. Em suma, qualquer que seja o
esquema de amostragem, probabilístico ou O primeiro passo de qualquer processo
não, deve-se sempre garantir que a amostra estatístico é a coleta de dados. Portanto,
reflita as características da população da tudo o mais será alicerçado sobre o que
qual foi retirada. for coletado. Sendo assim, essa fase deve
ser cuidadosamente planejada, já que da
qualidade dos dados coletados dependerá

LEMBRE
toda a análise e a tomada de decisão
subsequente.

Antes da coleta de um dado, é importante


Conforme discutido anteriormente, algumas
entender o conceito de variável que está
pessoas acreditam que uma amostra
por trás da informação que você procura.
representativa é necessária coletar dados
A variável contém a informação que você
de um percentual mínimo da população,
quer analisar, sob a forma de uma medição
digamos, 30% do total de indivíduos. Isso é
sobre determinadas características dos
absolutamente falso e, o que é pior, mesmo

010
unidade 1
ESTATÍSTICA E PROBABILIDADES

indivíduos estudados e das unidades de O grau de variabilidade de uma variável é


observação. chave no método estatístico e será foco
de discussões nas próximas unidades.
E, por que esse conceito é tão importante? Entretanto, neste momento, é crucial que
Porque, no fim das contas, é a variável você entenda dois aspectos básicos de
que é analisada e não a informação que qualquer variável: o seu tipo e a sua função,
ela contém. Por isso, é importante que o papel que ela exerce na base de dados.
você, antes de sair coletando informações,
analise o seu questionário de coleta de
dados, identifique cada variável envolvida ATENÇÃO
e responda perguntas, tais como: O que
exatamente a variável está medindo? Para
Toda análise que será feita na base de dados
que serve esta variável e, principalmente,
dependerá do seu entendimento sobre o tipo e a
é possível analisá-la? E com que método
função de cada variável coletada!
estatístico?

Vejamos os tipos de funções de cada

CONCEITO variável:

Uma variável é a quantificação de uma

característica de interesse da pesquisa (SOARES

e SIQUEIRA, 2002). Refere-se ao fenômeno a ser

pesquisado. É o campo de variação de cada tipo

de dado a ser pesquisado. Observe que, como o

próprio nome diz, uma variável deve variar, ou seja,

se você está coletando dados sobre características

de alunos da disciplina Cálculo Diferencial,

podemos pensar em inúmeras variáveis para a

unidade de observação “aluno”: idade, sexo, curso,

local do ensino médio, tempo entre final do ensino

médio e início da graduação, nota final, percentual

de presença às aulas etc. Entretanto, o tipo de

disciplina não é uma variável nesse caso, pois ela é

constante (Cálculo Diferencial).

011
unidade 1
ESTATÍSTICA E PROBABILIDADES

QUADRO 1 - O papel de uma variável numa base de dados.

TIPOS CARACTERÍSTICAS

Variáveis de Servem para o rastreamento dos indivíduos e das unidades


identificação e auxiliares amostrais, ou são usadas na definição de outras variáveis. Exemplos
de variáveis de identificação: CPF, nome, número de matrícula,
número da amostra etc.

Exemplos de variáveis auxiliares: datas, peso e altura.

Variáveis de identificação e auxiliares não são analisadas, mas


fazem parte da base de dados.

Variáveis explicativas São aquelas que, por hipótese, podem influenciar, determinar ou
afetar a variável resposta ou desfecho da pesquisa. São chamadas
também de co-variáveis ou variáveis independentes.

Para cada estudo existem variáveis explicativas próprias, definidas


por hipóteses da própria pesquisa ou conforme revisão da literatura.
Em processos químicos, quando se busca entender os fatores que
afetam o rendimento de uma reação química, são exemplos de
variáveis explicativas a temperatura, a pressão, o tipo de catalisador
e a concentração de reagentes. Se alguém pesquisar sobre as
razões de algumas pessoas serem maiores que outras, as alturas
do pai e da mãe, a origem étnica, a idade e o sexo são exemplos de
variáveis explicativas.

Variável desfecho É aquela que queremos explicar, em função de ser influenciada,


afetada por outros fatores (variáveis explicativas). Também
denominada de variável dependente ou variável resposta. Sempre
defina um ou mais desfechos para o estudo, conforme os objetivos
da sua pesquisa. Por exemplo, numa pesquisa cujo objetivo é
explicar porque imóveis de uma mesma região têm preços tão
variados, o preço de venda seria uma variável resposta. Fatores
como área, número de quatros, número e tipo de vaga de garagem,
quantidade de suítes, presença de salão de festas ou piscina são
algumas das possíveis variáveis explicativas para esse problema.

Fonte: Elaborado pelo autor.

A função de cada variável na base de dados, assim como o seu tipo, definirá que tipo de análise
será feita. Não subestime esses conceitos pois, sem eles, não há como entender os métodos
de análise estatística que serão estuados nas próximas unidades.

012
unidade 1
ESTATÍSTICA E PROBABILIDADES

TIPOS DE um aluno numa disciplina (aprovado,

VARIÁVEIS reprovado) etc.

Se considerarmos a maioria absoluta das A análise de uma variável categórica


variáveis envolvidas em experimentos é muito restrita e simples: conta-
de pequeno e médio porte nas áreas de se quantas unidades amostrais ou
Ciências Exatas e Engenharia, teremos resultados observados em cada
duas situações para o tipo da variável. categoria da variável e calcula-se o
percentual de ocorrência de cada classe
I) Variável qualitativa ou categórica: é ou categoria.
aquela que expressa características ou
atributos de classificação, distribuídos II) V
 ariável quantitativa: é aquela obtida
em categorias mutuamente por meio de um processo de medição
exclusivas de objetos ou entidades. ou contagem. Por exemplo: peso,
Categorias mutuamente exclusivas ou altura, dosagem e concentrações
mutuamente excludentes não podem de produtos químicos e outros
ser observadas simultaneamente insumos, temperatura, pressão,
num mesmo indivíduo. Por exemplo, altitude, umidade, largura, diâmetro,
grupo sanguíneo (A, B, AB, O) é uma comprimento, voltagem, corrente,
variável categórica mutuamente quantidade de chuva (mm), número
exclusiva: um indivíduo tem somente de falhas, número de ligações
um grupo sanguíneo, não podendo telefônicas, número de mensagens
ser classificado em mais de uma eletrônicas, número de faltas de um
categoria ao mesmo tempo. Variáveis aluno numa disciplina, nota final na
qualitativas têm um nível baixo de disciplina, área, preço, etc.
informação, sendo obtidas por um
critério de classificação. Por exemplo, A variável quantitativa possui o mais
sexo (masculino, feminino), estado civil alto nível de informação, sendo objeto de
(com companheiro, sem companheiro), inúmeras técnicas de análise. Para cada
cor de um produto (branco, verde, variável quantitativa podemos calcular
amarelo, azul), tipo de transmissão seu valor médio, mediano, modal, mínimo,
de um carro (manual, automática), máximo, seu desvio padrão, coeficiente
conformidade de qualidade de um de variação, intervalos específicos de
produto (aceito, não aceito), dia variação e outras técnicas analíticas que
chuvoso (sim, não), resultado final de serão descritas na próxima unidade.

013
unidade 1
ESTATÍSTICA E PROBABILIDADES

As variáveis quantitativas são chamadas classificação. As notas obtidas por


também de numéricas, mas essa um aluno numa prova são tratadas
nomenclatura pode gerar confusão, como quantitativas, mesmo que não
pois o simples fato de alocar números sejam obtidas por meio de um aparelho
aos resultados de uma variável não a ou dosador. Nesse caso, a nota de
torna quantitativa. Por exemplo, se os uma prova é tratada como variável
grupos sanguíneos fossem classificados quantitativa porque considera-se válido
em 1, 2, 3 e 4 (ao invés de A, B, AB e aplicar operações aritméticas aos
O), tal codificação não a tornaria uma seus resultados. Entretanto, será que
variável quantitativa. Na verdade, para um aluno que obtém 80 pontos numa
que uma variável seja quantitativa, disciplina sabe o dobro que um aluno que
deve ser possível aplicarmos operações obteve 40 pontos? Claro que não. Já uma
aritméticas aos seus resultados. A pessoa de 100 Kg tem o dobro de peso
capacidade de realizarmos, por exemplo, de uma pessoa de 50 Kg. Outro exemplo,
somas e subtrações “válidas” aos as temperaturas medidas em Graus
resultados de uma variável é um indicativo Celsius são tratadas como variáveis
de que ela é quantitativa. Claro que a quantitativas. Isso quer dizer que um dia
análise do seu processo de obtenção é com 40ºC tem o dobro de calor de um
mais importante: os resultados de uma dia com 20ºC? Transforme os valores em
variável quantitativa devem ser obtidos Graus Celsius para Kelvin e compare o
por medição ou contagem. Além disso, resultado.
essas variáveis podem ser contínuas,
quando representadas por números reais, Bom, os conceitos por trás dessa
ou discretas, quando representadas por discussão envolve o nível de mensuração
números inteiros. da variável (nominal, ordinal, intervalar
e de razão) que será tratado a seguir.
Usualmente, se ela é obtida por Para efeito prático, consideraremos
medição, então é contínua. Caso seja somente duas categorias de variáveis:
obtida por meio de contagem, é uma quantitativas versus categóricas.
variável discreta. Para efeitos práticos, Conforme citado anteriormente, esses
não faremos distinção entre variáveis são os tipos de variável coletadas em
contínuas e discretas, o fundamental é problemas típicos de Ciências Exatas e
entendê-las como quantitativas. de Engenharia.

Algumas variáveis originalmente de

014
unidade 1
ESTATÍSTICA E PROBABILIDADES

USO DO EXCEL COMO pelos respondentes são automaticamente


UM SISTEMA DE armazenadas em planilha eletrônica,
GERENCIAMENTO DE facilitando a coleta e a análise dos dados.
DADOS E DOS
FORMULÁRIOS É crucial que você domine o Excel como

DO GOOGLE DOCS instrumento de coleta de dados e entenda

PARA COLETA DE perfeitamente o papel de cada variável a ser

INFORMAÇÕES coletada. Identificar variáveis explicativas


e desfecho (s), distinguir entre variável
quantitativa e categórica é uma questão
Duas ferramentas essenciais para coleta
relativamente simples, mas fundamental
de dados de experimentos de pequeno
para as discussões que serão feitas nas
e médio porte na área de Ciências
próximas unidades.
Exatas e Engenharia são o Excel, um dos
componentes do pacote Office da Microsoft,
e os Formulários do Google Docs <https:// APLICAÇÃO
docs.google.com/forms>.
PRÁTICA
O Excel é uma planilha eletrônica com Considere o artigo “Utilização de efluente de
origens no Lotus 1-2-3 (GAZZARRRINI, frigorífico, tratado com macrófita aquática,
2013). Ambas as ferramentas são no cultivo de tilápia do Nilo”, de autoria de
extremamente práticas, de grande utilidade Adilson Reidel e outros pesquisadores da
e serão discutidas por meio de vídeo aulas. Universidade Estadual do Oeste do Paraná
(REIDEL et al.; 2005) disponível em:
Os formulários do Google Docs são ótimos
para pesquisas envolvendo pessoas que <http://www.agriambi.com.br/revista/
têm endereço eletrônico (e-mails). Para suplemento/index_arquivos/PDF/181.pdf>
usá-los você terá que obter uma lista com os
nomes dos respondentes e os respectivos Neste trabalho, os pesquisadores fizeram
e-mails. Após construir o formulário de um experimento em que, resumidamente,
coleta de dados no Google Docs, você foram colocadas amostras aleatórias de
poderá enviá-lo usando o mecanismo de alevinos (“filhotes”) de tilápia em aquários
“mala direta”, da aba “correspondências” com água potável (tratamento A) e em
do Word, que também é parte do pacote tanques com efluente de frigorífico após
Office da Microsoft. As respostas enviadas passar num sistema de filtro com aguapé

015
unidade 1
ESTATÍSTICA E PROBABILIDADES

(tratamento B), avaliando-se comparativamente o desenvolvimento e a sobrevivência dos


peixes. A pergunta principal da pesquisa era: “É possível cultivar tilápias em efluente de
frigorífico tratado com aguapé?”

Nas tabelas 1 e 2 do artigo, são apresentados alguns resultados e um conjunto de variáveis


envolvidas na pesquisa.

TABELA 1 – Valores médios dos parâmetros físico-químicos


determinados durante o cultivo da tilápia do Nilo (O. niloticus)

TRATAMENTOS
PARÂMETROS
A B

Temperatura média (ºC) 26,4 = 1,60 26,4 = 1,70


Oxigienio Dissolvido (mg L-1) 7,17 = 0,60 7,18 = 0,90
Condutividade Elétrica (uS cm-1) 227,48 = 36 1779,7 = 68
pH 8,44 = 0,12 7,40 = 0,35

Tratamentos: (A) controle (água potável + ração); (B) efluente tratado (efluente do sistema de
filtro de aguapé + ração)

Fonte: REIDEL et al., 2005.

TABELA 2 – Valores médios de desempenho e sobrevivência de alevinos


de tilápia do Nilo, cultivados com água potável e efluente tratado

Tratamento A Tratamento B Teste t-Student


VARIÁVEIS
média O média O T calculado

Peso inicial (indivíduo) (g) 0,235 a 43,267 0,232 a 46,113 0


Biomassa inicial (aquário) (g) 1,172 a 2,426 1,160 a 1,901 0,001
Peso final (indivíduo) (g) 1,391 a 42,269 1,054 a 45,582 0,028
Biomassa final (aquário) 5,280 a 38,890 4,300 a 45,721 0,028
Sobrevivência (%) 75 a 80,467 80 a 25,819 0,08

Médias seguidas da mesma letra, na linha, não diferem significadamente pelo teste t de Student ao nível 5% de significância

Fonte: REIDEL et al.; 2005.

Esse é um exemplo prático da aplicação de conceitos discutidos na Unidade 1 em experimentos


de pequeno e médio porte na área de Ciências Exatas e de Engenharia. O experimento é baseado
em amostragem e analisa o impacto de variáveis explicativas em desfechos diretamente ligados
ao objetivo do projeto: sobrevivência dos peixes, peso e biomassa final no aquário.

016
unidade 1
ESTATÍSTICA E PROBABILIDADES

Nesse trabalho são usadas três variáveis tanto em relação ao desenvolvimento


resposta, uma categórica (“O peixe quanto à sobrevivência dos peixes”.
sobreviveu?” “sim ou não”) e dois desfechos
quantitativos (peso final e biomassa final, O entendimento completo das razões
medidos em gramas). Dentre as variáveis para chegar a essa conclusão será obtido
explicativas envolvidas, a mais importante, nas próximas unidades. Entretanto, neste
que está diretamente ligada ao objetivo da momento, é fundamental que você já
pesquisa é o tipo de tratamento (A versus entenda conceitos referentes ao processo
B), uma variável categórica dicotômica. de amostragem/coleta de dados e,
principalmente, que consiga diferenciar
Muitas pessoas têm dificuldade em os tipos e as funções das variáveis numa
identificar essa variável explicativa, apesar pesquisa.
dela ser a mais importante na pesquisa.
As outras variáveis explicativas são todas
REVISÃO
quantitativas e, como tal, foram obtidas
por meio de um processo de medição, Vimos nessa unidade alguns dos principais
contagem ou dosagem: temperatura (ºC), tópicos introdutórios do campo da
oxigênio Dissolvido (mg L-1), condutividade Estatística. Em resumo, estudamos sobre:
Elétrica (μS cm-1), pH, peso inicial (g) e
biomassa inicial (g). População, amostra, censo e amostragem:

- Censo de toda a população não é viável,


Nas tabelas apresentadas aparecem
devido aos altos custos e/ou quando a
métricas (média, desvio padrão e valor de t
pesquisa envolve ensaios destrutivos.
de student) que são usadas na análise e na
conclusão do projeto. Fique tranquilo, esses - Uma pequena, mas cuidadosamente
conceitos serão tratados nas próximas escolhida amostra pode ser usada para
unidades! representar a população.

- Os resultados observados numa amostra


De qualquer forma, a conclusão da pesquisa
representativa poderão ser generalizados,
para a pergunta “É possível cultivar tilápias
sem risco de chegar a uma conclusão
em efluente de frigorífico tratado com
diferente daquela que seria obtida no caso
aguapé?”, é: “Sim, é possível cultivar tilápias
de trabalhar com toda a população.
em efluente de frigorífico tratado com
aguapé. Os dados não mostraram diferença - A questão mais importante numa
significativa entre os dois tratamentos, amostragem não é o tamanho da amostra,

017
unidade 1
ESTATÍSTICA E PROBABILIDADES

mas como a amostra será obtida, pois o Ainda compreendemos que alguns sistemas
delineamento amostral mal feito invalida computacionais são ferramentas essenciais
qualquer pesquisa. para coleta de dados de experimentos de
pequeno e médio porte na área de Ciências
Tipos de variáveis: Exatas e da Engenharia. São eles: o Excel,
um dos componentes do pacote Office da
-
Variável qualitativa ou categórica: é
Microsoft, e os Formulários do Google Docs
aquela que expressa características ou
<https://docs.google.com/forms>.
atributos de classificação, distribuídos
em categorias mutuamente exclusivas de
objetos ou entidades.
PARA SABER
- Variável quantitativa: é aquela obtida
por meio de um processo de medição ou
MAIS
contagem. Para aprofundar sobre as questões discutidas

nessa unidade, leia o Capítulo 1 do livro texto:


Função das variáveis: LEVINE, David M. et al. Estatística: teoria

e aplicações usando Microsoft Excel em


- Variáveis de identificação e auxiliares:
português, 3º edição ou superior: “Introdução e
servem para o rastreamento dos
Coleta de Dados”, assim como o suplemento do
indivíduos e das unidades amostrais
capítulo 1 “Introdução à Utilização do Microsoft
ou são usadas na definição de outras
Excel”.
variáveis.

- Variáveis explicativas: são aquelas


que, por hipótese, podem influenciar,
determinar ou afetar a variável resposta
ou desfecho da pesquisa.

- Variável desfecho: é aquela que queremos


explicar, em função de ser influenciada e/
ou afetada por outros fatores (variáveis
explicativas). Também denominada de
variável dependente ou variável resposta.
Aconselha-se sempre definir um ou mais
desfechos para o estudo, conforme os
objetivos da sua pesquisa.

018
unidade 1
UNIDADE
ANÁLISE EXPLORATÓRIA
DE DADOS

C
onforme citado na Unidade 1, se você usar técnicas de análise estatística, você poderá
rapidamente se transformar num especialista em qualquer assunto, certo? Pois bem,
como exemplo, que tal se tornar um especialista em reprovação em disciplinas básicas
de cursos de Engenharia e Tecnologia? E você não precisará “repetir” nenhuma dessas disciplinas
para ser um especialista em reprovação...! Esse é um problema bem conhecido, mas suas causas
e fatores associados não! Uma hipótese é que durante o ensino fundamental e médio muitos
alunos não conseguem adquirir habilidade em resolver problemas matemáticos. Essa deficiência
então culmina nos cursos de Engenharia com altos índices de reprovação no ciclo básico.
Disciplinas como Cálculo Diferencial, Geometria Analítica e Álgebra Linear (GAAL), Química Geral
e Algoritmos (AEDS) podem ser verdadeiros “infernos” para alunos da área de Exatas.

Considerando o problema geral “desempenho acadêmico em disciplinas de ciclo básico de


cursos de Engenharia”, que tal analisar dados de amostra de alunos, buscando identificar
as características e possíveis fatores associados aos desfechos “conceito” (aprovado ou
reprovado), “nota histórico” (0 a 100 pontos) e “abandonou a disciplina?” (sim ou não)?

Para resolver o problema acima, qual a primeira providência? Muitos podem pensar: “Preciso
estudar melhor o assunto, fazer uma revisão da literatura sobre o problema. Em seguida,
preciso planejar e executar a coleta dos dados”. Essa primeira etapa já foi feita e faz parte de
projeto de iniciação científica do Centro Universitário de Belo Horizonte – UniBH, cujo título da
pesquisa é “Fatores associados ao desempenho acadêmico de alunos em disciplinas do ciclo
básico de cursos de Engenharia”. A pesquisa foi aprovada pelo Comitê de Ética em Pesquisa
(CEP) do UniBH com o nº 920.308, em 17/12/2014 e os dados estão disponíveis para download

020
unidade 2
ESTATÍSTICA E PROBABILIDADES

no link: https://www.dropbox.com/sh/6bvsls6mi6kpqyv/AABy88F2iVFPyEc2ArIIZ2GNa?dl=0.

Agora que você já tem acesso aos dados, qual o próximo passo para resolvermos o problema
de reprovação e abandono em Cálculo, GAAL, Química Geral e AEDS? A primeira etapa de
qualquer análise estatística, ou melhor, a fase preliminar da busca das informações agregadas
a dados já coletados, é a análise exploratória dos mesmos. Como o próprio nome diz, a
análise exploratória dos dados é o conjunto de ferramentas da Estatística Descritiva que têm
como objetivo fazer uma síntese dos dados, organizando-os sob a forma de tabelas, gráficos
e números. Portanto, para entendermos e resolvermos nosso problema de reprovação,
precisamos estudar as ferramentas da Estatística Descritiva:

a) Síntese tabular: Resumo da análise por meio de tabelas;

b) Síntese numérica: Medidas de posição (média e mediana) e medidas de variabilidade (soma


dos quadrados dos resíduos, variância, desvio padrão, coeficiente de variação);

c) Síntese gráfica: Gráficos de pizza, barra, coluna, linha, séries históricas, histograma, gráfico
de Pareto, gráfico misto, de coluna e de linha, diagrama de dispersão e box-plot.

O objetivo desta unidade é promover o conhecimento fundamental que lhe permitirá entender
dados coletados, transformando dados brutos em informações úteis!

SÍNTESE
GRÁFICA DE DADOS

Uma figura vale mais que mil palavras! Isso é verdade, entretanto um gráfico vale mais que mil
palavras se e somente se ele for desenhado de forma clara, correta e concisa. Sempre desenhe
gráficos a partir de seus dados, mas tente fazê-los de tal forma que a frase “basta olhar
para entender” seja válida. Os gráficos mais úteis para análise de dados de experimentos de
pequeno e médio porte na área de Ciências Exatas e Engenharia são: gráficos de pizza, barras,
colunas, linha, séries históricas, histograma, gráfico de Pareto, gráfico misto, de coluna e de
linha, diagrama de dispersão e box-plot (tabela 1). De todos esses, somente vejo sentido em
construi-los “à mão” histogramas e diagramas de dispersão. Entretanto, na prática devemos
construir gráficos usando ferramentas computacionais como o Excel.

021
unidade 2
ESTATÍSTICA E PROBABILIDADES

TABELA 3 - Gráficos mais úteis para análise de dados de experimentos


de pequeno e médio porte na área de Ciências Exatas e Engenharia.

TIPO DE GRÁFICO NÚMERO DE VARIÁVEIS TIPO DE VARIÁVEL ANALISADA


ENVOLVIDAS
Pizza ou setor Uma Categórica

Colunas (verticais) Uma Categórica

Barras (horizontais) Uma Categórica

Histograma Uma Quantitativa, mas categorizada numa


tabela de distribuição de frequências

Gráficos de linha Duas Quantitativa no eixo vertical, e


categórica no eixo horizontal

Séries históricas Duas Quantitativa no eixo vertical, e


o “tempo” no eixo horizontal

Gráfico de Pareto Uma Categórica

Gráfico misto, de Duas Quantitativa no eixo vertical, e


coluna e linhas o “tempo” no eixo horizontal

Diagrama de Duas Variável explicativa quantitativa no eixo horizontal,


dispersão e desfecho quantitativo no eixo vertical

Box-plot Uma ou mais Quantitativa

Fonte: Elaborado pelo autor.

Como fazer os gráficos? Siga regras e comentários abaixo e você terá sucesso ao desenhar
gráficos:

1. Um gráfico deve conter um título, entretanto este não deve ser colocado no próprio
gráfico (como o Excel insiste em fazer...). Quando desenhamos um gráfico usando o
Excel, por exemplo, este será exportado para algum documento do Word ou para o
PowerPoint, ou para outros editores de texto e apresentadores de slides. O título do
gráfico será então colocado no slide ou na descrição da figura no editor de textos,
sendo desnecessário e errado colocá-lo no meio do próprio gráfico. Mesmo em
casos excepcionais, quando o gráfico não é exportado para nenhum outro aplicativo,
sendo impresso diretamente do Excel, o título não deve ser colocado no meio da
figura. O título deve ser inserido no cabeçalho da planilha que contém o gráfico.

2. Ao escrever um relatório, comece pelas figuras. É impressionante, mas as pessoas leem
artigos científicos, relatórios técnicos, jornais e revistas de “fofoca” da mesma forma:
começamos pelas figuras! Por isso, o título de gráficos e tabelas deve ser o mais claro

022
unidade 2
ESTATÍSTICA E PROBABILIDADES

possível: toda informação necessária para o entendimento da figura deve estar no seu
título. Essa é uma tendência das revistas científicas (Nature, Science, por exemplo) e
tem um efeito colateral: o título da figura fica muito longo. Isso não é exatamente uma
regra, mas recomendação. Se você quer que seu relatório seja lido, invista nos títulos de
figuras e tabelas e sempre coloque respostas claras para pelo menos quatro perguntas:
O que? Quem? Quando? Onde? A interpretação das informações no gráfico também
deve ser colocada como subtítulo da figura. Se necessário, coloque notas explicativas,
usando siglas somente para coisas realmente conhecidas de quem lerá o seu texto (seu
chefe ou o chefe do seu chefe...). Veja um exemplo de gráfico de pizza na figura abaixo.

FIGURA 2 – Principais ferramentas estatísticas encontradas em


artigos publicados no New England Journal of Medicine (NEJM).

A maioria absoluta (58%) dos 760 artigos publicados nos volumes 298 a 301 da NEJM utilizou
somente técnicas de Estatística Descritiva na análise dos dados. Praticamente um quarto
dos artigos usou teste t de student e 15% aplicou teste de qui-quadrado nas tabelas de
contingência, ferramentas que serão discutidas na Unidade 7 deste livro.

Fonte: BAILAR & MOSTELLER,1992.

3. Caso o gráfico tenha eixos (horizontal X e vertical Y), estes devem estar rotulados para
entendimento. Os rótulos dos eixos devem conter as respectivas unidades de medida
envolvidas (g, R$, kg, m/s, etc.). Esse é mais um ponto de erro do Excel! Além de não colocar
os rótulos nos eixos, o Excel coloca o título no meio da figura e uma legenda que não tem a
menor utilidade. Na verdade, as legendas somente devem ser colocadas se existirem mais de
um grupo de dados na figura. Veja um exemplo correto de gráfico de barras na figura abaixo.

023
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 3 – Risco de reprovação em disciplinas de cursos de Engenharia


e Tecnologia do Centro Universitário de Belo Horizonte – UniBH.

Análise de 21 disciplinas avaliadas em sete semestres (2011/1 a 2014/1), considerando amostra de 78.399
alunos. Quatro disciplinas têm mais de 40% de seus alunos reprovados: Cálculo Diferencial, Geometria Analítica e
Álgebra Linear, Cálculo de Várias Variáveis e Algoritmo e Estruturas de Dados.

Fonte: Elaborado pelo autor.

4. Não existe regra fixa para a escolha da escala do gráfico. Qualquer escala é boa
desde que os valores no gráfico não fiquem muito espalhados nem muito juntos
numa única região da figura.

5. Sombreamento, efeitos 3D e pequenas figuras relacionadas com o tipo de dado


usado no gráfico, colocados para dar vida à figura: na maioria das vezes esses
efeitos são inúteis, podendo até mesmo distorcer o gráfico.

6. A
 maioria dos gráficos apresenta o valor zero como ponto de início dos eixos, mas
isso não é necessário se o ponto de início da escala é devidamente marcado na
figura. Na verdade, as pessoas usualmente assumem que o valor zero está na base do
gráfico. Para os gráficos de linha isso não é problemático, entretanto, quando se tratar
de gráficos de colunas ou de barras, o valor zero deve obrigatoriamente estar na base
da coluna. Caso isso não seja feito, ocorre uma distorção do gráfico levando a uma
interpretação errada dos dados. Veja o exemplo abaixo. O primeiro gráfico, como não
começa no valor zero, está errado, ele “ilude o leitor”: a auditoria foi um sucesso?!

024
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 4 – Exemplos de gráfico de colunas: o valor


zero deve obrigatoriamente ser incluído na figura.

Fonte: Elaborado pelo autor.

7. Mais de uma curva ou linha pode ser desenhada em um único gráfico com o objetivo
de comparação. Entretanto, deve-se diferenciar claramente os dados de cada linha para
que não haja erro de interpretação (use cores diferentes ou linhas pontilhadas ou mesmo
símbolos). Linhas de grade, usualmente colocadas no gráfico para auxiliar a leitura das
escalas, devem ser discretas (na cor cinza, por exemplo) ou serem eliminadas.

FIGURA 5- Exemplo de gráfico com legenda identificando diferentes dados.

Fonte: Elaborado pelo autor.

025
unidade 2
ESTATÍSTICA E PROBABILIDADES

8. Os gráficos devem ser desenhados no formato de paisagem, com a altura tendo
aproximadamente ¾ da sua largura. Caso isso não seja feito, poderá haver distorção
da figura e da própria informação, que fica comprometida: o primeiro gráfico está
correto, mas os outros estão na categoria “como mentir com estatística”...

FIGURA 6 – Formato dos gráficos: a figura deve ser desenhada em


formato de paisagem, com a altura tendo aproximadamente 75% da largura.

Fonte: Elaborado pelo autor.

FIGURA 7 – Gráfico distorcido: desenhando a figura com a altura muito pequena, em relação
à largura, a informação é falseada e se tem a sensação de estabilidade dos dados.

Fonte: Elaborado pelo autor.

026
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 8 - Gráfico distorcido: desenhando visualizarmos funções matemáticas


a figura com a altura muito grande,
em relação à largura, a informação é teóricas (figura 9) quanto funções
falseada e se tem a sensação de redução de relacionamentos empíricos já
dos dados ao longo do tempo
conhecidos (figura 10), mas a sua
grande utilidade é quando tentamos
estabelecer a associação entre
duas variáveis quantitativas (figura
11). A figura 9 é um diagrama de
dispersão mostrando uma relação
completamente teórica entre duas
variáveis (x e y). Como é uma relação
exata, somente é desenhada a linha
que liga os pontos do gráfico. Na
figura 10 é desenhada uma relação
empírica, no caso a lei de Abrams,
que relaciona a resistência do
concreto à compressão (R) com o
Fonte: Elaborado pelo autor. fator água/cimento (fx) da seguinte
forma: R = α/βfx. Nessa figura, α e
9. Gráficos de pizza, “o queridinho”: β foram definidos como 100 e 10
Apesar de muito “engraçadinhos”, respectivamente, de tal forma que
estes gráficos são muitos confusos. a equação ficou R = 100/10fx, fx
Evite o seu uso, substituindo por variando de 0 a 3. Já a figura 11
gráficos de barra ou de colunas. mostra o uso “nobre” dos diagramas
É aceitável construi-los somente de dispersão, quando tentamos
quando são poucos setores bem explorar, criar e propor uma nova
definidos (até cinco pedaços). Evitar relação empírica entre duas variáveis
gráficos de pizza em 3D, com vários quantitativas. Nesse exemplo,
pedaços. Construi-los como na ao invés de aplicarmos a relação
figura 2. empírica de Abrams, usamos dados
reais de fator fx de água/cimento
10. Diagrama de dispersão: Ferramenta e a resistência medida em 28 dias
que nos permite avaliar o efeito de de uma amostra de concretos
uma variável explicativa quantitativa (desfecho). Ao inserirmos uma
sobre um desfecho. Serve tanto para linha de tendência linear, estamos

027
unidade 2
ESTATÍSTICA E PROBABILIDADES

sugerindo que, na faixa de variação medida de fx (entre 0,2 e 1,0), a resistência à compressão
do concreto se relaciona com fx por meio de uma equação de reta.

FIGURA 9 – Diagrama de dispersão sem os marcadores e com linhas contínuas mostrando a


relação de x e sua função f(x) = 2x3 – cos(x+1) – 3. Nesse caso o diagrama está mostrando
uma relação teórica exata, tal como aquela encontrada nas disciplinas de Cálculo Diferencial.

Fonte: Elaborado pelo autor.

FIGURA 10 – Diagrama de dispersão com marcadores e linhas contínuas mostrando


a relação empírica da lei de Abrams que relaciona a resistência à compressão
de concretos, medida em megapascal (MPa), e o fator água/cimento (fx),
determinado pela razão do peso de água pelo peso em cimento do concreto.

Fonte: Elaborado pelo autor.

028
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 11 – Diagrama de dispersão somente com os marcadores e sem


linhas contínuas mostrando uma possível relação linear entre resistência à
compressão de concretos em 28 dias (MPa) e o fator água/cimento (fx).

Fonte: Elaborado pelo autor baseado nos dados em DAFICO, Dario de Araújo. Método Simples para Explicar a
Resistência à Compressão do Concreto de Alto Desempenho. Disponível em: http://www2.ucg.br/nupenge/pdf/
Dario.pdf. Acesso em 14 maio 2015.

A figura 12 mostra possíveis padrões de relacionamento entre uma variável explicativa (X)
e o desfecho (Y), ambos quantitativos. Sempre que construir um diagrama de dispersão,
você deve interpretar o gráfico gerado em um dos quatro padrões mostrados na figura 12. A)
Correlação positiva: Em média, quando X aumenta, Y também aumenta, numa tendência em
“linha reta”. Por exemplo, quanto maior a área de um imóvel, maior é o seu preço de venda. B)
Correlação negativa: Em média, quando X aumenta, Y tende a diminuir. Por exemplo, quanto
mais velho um imóvel, menor é o seu preço de venda. C) Associação curvilinear: Em média,
quando X aumenta, Y também aumenta, mas não numa tendência em “linha reta”, e sim
“em curva”. Isso pode ocorrer quando, por exemplo, a relação entre a variável resposta (Y)
e a explicativa (X) for uma equação de segundo grau (parábola) ou cúbica, de grau três. D)
Sem associação: Também é um padrão importante, pois indica que não há relação entre as
duas variáveis associadas, que a variável explicativa, na verdade, não explica o desfecho! Por
exemplo, frequentemente se observa que a idade do aluno não está associada à sua nota na
maioria das disciplinas que ele cursa.

029
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 12 – Padrões de relacionamentos entre variáveis avaliadas


por meio de diagrama de dispersão: correlação positiva (A), correlação
negativa (B), associação curvilinear (C) e ausência de associação (D).

Fonte: Elaborado pelo autor.

11. Histograma: A ideia deste gráfico é categorizar uma variável quantitativa, dividindo-a
em intervalos ou classes, contar quantos valores se encaixam em cada intervalo e
construir um gráfico de colunas com o resultado. Ao se interpretar um histograma,
deve-se tentar responder às seguintes questões: Qual é a forma da distribuição dos
dados? Existe um ponto central bem definido? Como é a amplitude de variação dos
dados? Existe apenas um pico isolado? A distribuição é simétrica? Os exemplos abaixo
podem auxiliá-lo na interpretação de um histograma. Procure descobrir com qual
destes oito tipos o seu histograma se parece.

Exemplo 1 - Histograma simétrico: A frequência de dados é mais alta no centro e decresce


gradualmente à esquerda e à direita de forma aproximadamente simétrica, em forma de sino.

030
unidade 2
ESTATÍSTICA E PROBABILIDADES

Exemplo 3 - Histograma tipo despenhadeiro:


O histograma termina abruptamente em
um ou nos dois lados, dando a impressão
de que faltam dados. Na verdade, essa
possivelmente deve ser a explicação para
histogramas com esse formato: os dados
muito pequenos e/ou muito grandes foram
Fonte: Elaborado pelo autor
eliminados da amostra.

Exemplo 2 - Histograma fortemente


assimétrico: A frequência dos dados
decresce rapidamente num dos lados e
muito lentamente no outro, provocando uma
assimetria na distribuição dos valores. A
distribuição dos salários numa empresa é um
exemplo comum de histograma assimétrico:
muitas pessoas ganham pouco e poucas Fonte: Elaborado pelo autor

pessoas ganham muito (a). A situação (b),


Exemplo 4 - Histograma com dois picos:
apesar de mais rara, também pode acontecer.
Ocorrem picos na distribuição e a frequência
é baixa entre os picos. Possivelmente, os
dados se referem a uma mistura de valores
de diferentes populações, devendo ser
avaliados com cuidado. Se houve mistura
dos dados, é melhor separá-los.

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor

031
unidade 2
ESTATÍSTICA E PROBABILIDADES

Exemplo 5 - Histograma tipo platô: As Exemplo 7 – Histograma tipo serrote:


classes de valores centrais apresentam As frequências de valores se alternam
aproximadamente a mesma frequência. formando vários dentes. Pode indicar algum
Essa situação também sugere mistura de problema na obtenção (leitura) dos dados.
valores de diferentes populações.

Fonte: Elaborado pelo autor.


Fonte: Elaborado pelo autor.

Vamos usar como exemplo de dados para


Exemplo 6 – Histograma com uma pequena a construção de um histograma notas de
ilha isolada: Alguns valores isolados têm amostra de alunos em uma prova de Cálculo
frequência elevada, formando uma espécie Diferencial (n=120):
de ilha. Também pode ter ocorrido uma
mistura de dados.

Fonte: Elaborado pelo autor.

032
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 13 – Dados brutos de notas de amostra de alunos em prova de


Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

0 0 0 1 5 5 6 9 13 17 18 21
0 0 0 1 5 5 6 10 13 17 18 21
0 0 0 1 5 5 6 11 14 17 20 22
0 0 0 2 5 5 9 11 14 17 20 22
0 0 0 2 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 12 14 17 20 24
0 0 0 3 5 5 9 13 15 17 20 25
0 0 0 5 5 6 9 13 15 17 20 25
0 0 0 5 5 6 9 13 17 18 21 25
0 0 1 5 5 6 9 13 17 18 21 25

Fonte: Elaborado pelo autor.

Passo 1 - Determinar valores mínimo, máximo e amplitude (R):

mín = 0; máx = 25; R = máx – mín = 25 – 0 = 25

Passo 2 – Determinar quantas classes ou intervalos (k) serão usados para dividir os dados. O
número de classes deve ser algo entre 5 a 20 subintervalos. Regra empírica: k ≈ √n e
5 ≤ k ≤ 20 . No exemplo, n ≈ 120; k ≈ √120 ≈ 10.
R R 25
Passo 3 – Determinar o tamanho de cada subintervalo (h). h ≈ k . No exemplo, h ≈ k ≈ 10 . ≈ 2,5
Ou seja, no nosso exemplo, temos 120 valores que variam de 0 a 25 e vamos dividi-los em 10
classes de tamanho 2,5.

Passo 4 - Contar a frequência de valores em cada classe. No exemplo, começando em zero


(valor mínimo), teremos uma tabela de distribuição de frequências, base para construção do
histograma, de 2,5 a 2,5 pontos cada subintervalo. Vamos verificar na base de dados quantos
valores se encaixam em cada classe.

Observe na figura 14 o símbolo --|, ele indica que o valor à direita faz parte do intervalo,
mas o valor à sua esquerda não! Ou seja, o intervalo 2,5 --| 5,0 implica em valores acima
de 2,5 e menores ou iguais a 5,0. Por exemplo, alunos que tiraram 5,0 são contabilizados
somente no segundo intervalo (2,5 --| 5,0), assim como aqueles que tiraram 7,5 pontos

033
unidade 2
ESTATÍSTICA E PROBABILIDADES

entram somente na terceira classe (5,0 --| 7,5). Veja também o símbolo |--|, ele só pode
ser usado no primeiro subintervalo e possibilita que incluamos o valor 0,0 na primeira
classe (0,0 |--| 2,5). Se não fizéssemos isso, não teríamos onde colocar a frequência de
valores iguais a zero. Eventualmente você poderá se deparar com tabelas construídas
com o símbolo “invertido”, |--, que indica valores maiores ou iguais ao número colocado à
esquerda e menores que o valor colocado à direita. Por exemplo, 30 |-- 40 implica valores
maiores ou iguais a 30 e menores que 40. Usei a notação --| que é o padrão usado pelo
Excel na construção de histogramas (figura 14).

Lembre-se de que o total, a soma da coluna “Frequência”, deve ser exatamente o tamanho
da amostra (n). Além da coluna de frequência absoluta, podemos calcular a frequência
relativa ou percentual de cada classe (em relação ao total de valores) e a frequência
acumulada ou percentual acumulado, útil para a construção de gráficos de Pareto (que
será explicado mais à frente).

FIGURA 14 – Tabela de distribuição de frequências das notas de amostra de alunos em


prova de Cálculo Diferencial. Centro Universitário de Belo Horizonte – UniBH, 2014/2.

NOTA FREQUÊNCIA PERCENTUAL PERCENTUAL ACUMULADO

0,0 |--| 2,5 35 29% 29%

2,5 --| 5,0 22 18% 48%

5,0 --| 7,5 6 5% 53%

7,7 --| 10,0 9 8% 60%

10,0 --| 12,5 4 3% 63%

12,5 --| 15,0 12 10% 73%

15,0 --| 17,5 10 8% 82%

17,5 --| 20,0 10 8% 90%

20,0 --| 22,5 6 5% 95%

22,5 --| 25,0 6 5% 100%

Total 120 100%

Fonte: Elaborado pelo autor.


U

034
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 15 – Histograma com a distribuição das notas na prova de Cálculo


Diferencial: os dados mostram um padrão de distribuição assimétrico,
semelhante àquele apresentado no histograma do exemplo 2.

Fonte: Elaborado pelo autor.

12. G
 ráfico de Pareto: Esta ferramenta é ótima para ajudar na definição de prioridades,
quando precisamos fazer um plano de ação para melhoria de qualidade de um
serviço ou produto. Por exemplo, se um determinado problema ou defeito pode
ocorrer de diversas formas, como escolher os tipos de defeito prioritários para serem
corrigidos? A ideia do “efeito Pareto” é que 80% dos problemas estão associados
a 20% dos problemas. Nem sempre esse efeito ocorre, mas esse é o objetivo do
gráfico de Pareto: verificar quais itens ou problemas ocorrem com maior frequência
num determinado cenário. Por exemplo, numa amostra de 400 defeitos de fabricação
de uma peça mecânica, foram observados 16 tipos de defeito: rebarbas, diâmetro
menor, diâmetro maior, sem usinagem, altura menor, trincas, altura maior, borda
muito fina, enviesado, base maior que o topo, borda muito grossa, cor muito escura,
estrutura pouco flexível, base menor que o topo, cor muito clara e estrutura frágil. Ao
se construir um gráfico de Pareto com os dados (figura 16), observa-se que a maioria
absoluta (66%) dos defeitos se refere somente a três tipos: rebarbas (32%), diâmetro
menor (21%) e diâmetro maior (13%). Ou seja, ao fazer um plano de ação para corrigir
possíveis defeitos de fabricação dessa peça, “ignore” 13 defeitos e priorize suas
ações em apenas esses três. Fazendo isso, 66% do problema estará corrigido!

035
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 16 – Gráfico de Pareto com a frequência de defeitos de fabricação


de uma peça mecânica: 66% dos defeitos são somente de três categorias prioritárias
para um plano de ação para melhorar a qualidade do processo de fabricação
(rebarbas, diâmetro menor e diâmetro maior).

Fonte: Elaborado pelo autor.

13. Box-plot: Este gráfico, também conhecido como diagrama em caixa ou “caixa e
bigode”, informa sobre a distribuição dos dados. Somente se aplica a variáveis
quantitativas (figura 17), informando o menor valor (pequena linha horizontal
inferior) e valor máximo (pequena linha horizontal superior). A distância entre o
valor mínimo e a aresta inferior da caixa cinza é a amplitude em que ocorrem os
25% dos valores mais baixos. Este é conhecido como 1º quartil, sendo delimitado
pelo percentil 25 dos dados. As duas caixas, cinza e vermelha, mostram onde
estão 50% dos dados. A distância entre a aresta superior da caixa vermelha e a
pequena linha horizontal superior, que equivale ao máximo dos dados, refere-se ao
intervalo em que ocorrem 25% dos maiores valores da variável. A linha separando
as duas caixas representa a mediana, que expressa o valor do meio se todos os
dados fossem colocados em ordem. Assim como os histogramas, o box-plot nos
informa sobre a maneira de distribuição dos dados, tendo a vantagem de permitir
a visualização de grupos de dados (figura 18). Nessa figura, é apresentado um
resumo comparativo da taxa de aprovação de oito disciplinas de ciclo básico de
cursos de Engenharia.

036
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 17 – Exemplo de box-plot para uma variável quantitativa genérica: quanto maior o
tamanho das duas caixas, vermelho e cinza, maior a variabilidade e dispersão dos dados.

Fonte: Elaborado pelo autor.

FIGURA 18 – Box-plot com as taxas de aprovação de oito disciplinas de ciclo básico de


cursos de Engenharia: Desenho e Estatística se destacam das outras disciplinas, que têm
taxas de aprovação bem menores e mais heterogêneas. Cálculo Integral é a disciplina com
menor taxa de aprovação e maior variabilidade dos dados.

Fonte: Elaborado pelo autor.

037
unidade 2
ESTATÍSTICA E PROBABILIDADES

SÍNTESE TABULAR
DE DADOS
Na análise exploratória de dados, em última instância, todos os resultados são apresentados
ou na forma de figuras ou de tabelas. Assim como nos gráficos, invista no título da tabela e
sempre coloque respostas claras para pelo menos quatro perguntas: O que? Quem? Quando?
Onde? Sugerimos que a interpretação das informações na tabela também seja colocada no
próprio título. Se necessário, coloque notas explicativas, usando siglas somente para coisas
realmente conhecidas. A tabela 4 é um exemplo de formato de tabelas, apresentando modelo
para síntese de variáveis categóricas de uma base de dados.

TABELA 4 – Análise exploratória de variáveis categóricas: a síntese de variáveis


categóricas, sejam elas explicativas ou desfecho, resume-se a apresentar suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais.

VARIÁVEL CATEGORIA FREQUÊNCIA PERCENTUAL

Conceito Aprovado 2287 49%

Reprovado 2386 51%

Local do ensino médio Instituição privada 1509 32%

Instituição pública 3164 68%

Sexo Feminino 1948 42%

Masculino 2725 58%

Turno Manhã 1153 25%

Noite 3520 75%

Fonte: Elaborado pelo autor.

SÍNTESE NUMÉRICA
DE DADOS
A síntese numérica de variáveis categóricas é muito simples, basta que você apresente suas
categorias, a frequência de valores em cada categoria e os respectivos percentuais, tal como
apresentado na tabela 3. Já a síntese de variáveis quantitativas é mais ampla e envolve
resumir dois aspectos:

038
unidade 2
ESTATÍSTICA E PROBABILIDADES

1) um valor típico ou característico para a variável;

2) uma medida do grau de variabilidade ou de dispersão dos dados.

1. Valor típico ou medida de posição: O objetivo é encontrar o valor característico, aquele


que melhor represente os dados. Vamos discutir aqui as duas possibilidades mais
aplicadas a problemas de pequeno e médio porte na área de Ciências Exatas e
Engenharia: a média ( X ) e a mediana ( Md ). A média é obtida pelo resultado da
soma de todos os valores, dividido pelo total de dados ou tamanho da amostra (n).
Matematicamente, a média é obtida por:
n
X = ∑ Xi
i =1

Já a mediana, é na verdade uma medida de ordem, indicando o valor “do meio”, aquele que
“divide os dados em duas metades”:

Passo 1 – Colocar os dados em ordem crescente.

Passo 2 – Encontrar o “valor do meio”, isto é:


se n, o tamanho da amostra, é ímpar, então Md é o valor central;
se n é par, então Md é a média dos dois valores centrais.

Exemplo A (n=11), dados já ordenados:


{3; 4; 4; 5; 9; 9; 9; 10; 10; 10; 10}

Para a mediana, como são 11 valores (n é ímpar) e a metade de 11 é 5,5, então Md é o 6º


valor, ou seja, o “valor do meio” (lembre-se de que os dados já estão ordenados):

Md = 9

Exemplo B (n=18), dados já ordenados:

{17; 17; 20; 20; 20; 24; 26; 28; 30; 40; 50; 50; 50; 50; 50; 51; 51; 52}

039
unidade 2
ESTATÍSTICA E PROBABILIDADES

usando a média e quando a mediana é


melhor para representar os dados?”. Para
essa resposta, é preciso seguir uma regra
prática:

Para a mediana, como são 18 valores (n • Se média e mediana forem


é par) e a metade de 18 é 9, então Md é a semelhantes, então usar a média
média entre o 9º e o 10º valor, ou seja: para representar os dados.

30 + 40 • Se média e mediana forem muito


Md = 2 = 35
diferentes, então usar a mediana
para representar os dados.

ATENÇÃO
Além de se basear nas regras acima, que
exigem uma interpretação caso a caso do
que seja “média e mediana muito diferentes”,
Não se esqueça, para obter a mediana é você poderá construir histogramas e, pelo
necessário, antes de tudo, colocar os dados padrão do gráfico, escolher uma ou outra
em ordem crescente. Não ordenar os dados é a medida para representar os dados. Nos
principal fonte de erro no cálculo da mediana! modelos de histograma colocados no
tópico anterior, os exemplos 1 (simétrico),
Algumas pessoas se perguntam: “Quantas 3 (despenhadeiro) e 5 (platô), a média
casas decimais devo apresentar no é a melhor medida de posição. Já nos
resultado?”. Quanto menos casas decimais histogramas dos exemplos 2 (fortemente
você conseguir apresentar nos seus assimétrico) e 6 (ilha isolada), a mediana é
resultados, melhor para o entendimento a melhor medida de posição que caracteriza
da informação! Apresente seus resultados o conjunto de dados.
usando o mesmo número de casas decimais
que os dados originais ou, no máximo, uma 2. Medida do grau de variabilidade ou
casa decimal além do original, como foi de dispersão dos dados: O objetivo
feito nos cálculos anteriores. é quantificar o quanto os dados são
heterogêneos, são imprevisíveis,
Outra questão é “Quando escolher entre em suma, quantificar o grau de
média e mediana para melhor representar variabilidade de uma variável
um conjunto de dados?” ou “Em que quantitativa.
situações resumir uma variável quantitativa

040
unidade 2
ESTATÍSTICA E PROBABILIDADES

A princípio, podemos medir a variabilidade de um dado informando o seu valor mínimo (mín) e
o valor máximo (máx), o que nos leva à sua amplitude (R): R = máx – mín.

Entretanto, essa é uma forma muito “simplista”, pois envolve somente dois valores da variável,
o mínimo e o máximo, ignorando todos os outros. Para uma medida mais adequada de
variabilidade, uma forma é calcular a sua média ( X ) e, em seguida, calcular quanto os dados
estão distantes da média, em média! Soa estranho, mas a ideia faz sentido. Por exemplo, seja
uma amostra de n = 5 pessoas e seus respectivos números de filhos:

Pessoa A B C D E

Número de filhos 0 1 1 2 3

Qual o número médio de filhos?

0+1+1+2+3 7
X= = = 1,4.
5 5

Isso mesmo, essas pessoas têm, em média, 1,4 filhos! Você deve estar se perguntado, “como
assim... um e 0,4 filho? Não existe 0,4 filho!!” Não se preocupe, a média funciona como um
modelo e, como tal, é uma aproximação da realidade. A média é o melhor valor representativo
para esses dados e, caso seja necessário resumir toda a informação num único valor, ela
deve ser usada para substituir o verdadeiro número de filhos de cada pessoa. Bom, voltando
à variabilidade, como calcular o quanto os dados estão distantes da média, em média? Para
cada indivíduo, devemos subtrair o valor observado pela média, calculando um “resíduo”:

Pessoa A B C D E

Número de filhos 0 1 1 2 3

Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =


-1,4 -0,4 -0,4 +0,6 +1,6

O resíduo mede a distância de cada valor em relação à média dos dados, ou seja, é uma
medida de quanto os dados estão distantes da média. Para resumir os resíduos num único
valor, o ideal é então calcular uma média dos resíduos, que refletiria o quanto os dados estão

041
unidade 2
ESTATÍSTICA E PROBABILIDADES

distantes da média, em média! Infelizmente, se fizermos essa média, ela sempre dará zero,
pois os resíduos negativos anulam os positivos, dando uma soma dos resíduos igual a zero.
Para resolver esse problema, ao invés de simplesmente calcular os resíduos, devemos calcular
o resíduo elevado ao quadrado:

Pessoa A B C D E

Número de filhos 0 1 1 2 3

Resíduo 0-1,4 = 1-1,4 = 1-1,4 = 2-1,4 = 3-1,4 =


-1,4 -0,4 -0,4 +0,6 +1,6

Resíduo elevado (-1,4)2 = (-0,4)2 = (-1,4)2 = (+0,6)2 = (+1,6)2 =


ao quadrado 1,96 0,16 0,16 0,36 2,56

Se somarmos os resíduos elevados ao quadrado teremos a soma dos quadrados dos resíduos
n
( ∑ ( Xi -X )2 ), uma métrica que aparece em várias outras análises estatísticas. Quanto maior
i =1

a soma dos quadrados dos resíduos, maior a variabilidade dos dados! Para resumir essa
métrica, calculamos a sua média, que é chamada de variância amostral ( s2 ):
n
s2 = ∑ ( Xi -X )2
i =1

n-1

Nessas fórmulas, Xi representa cada um dos dados individuais, X é a média e n o tamanho da


amostra ou total de dados. Observe que, no denominador, dividimos a soma dos quadrados
dos resíduos por (n - 1) e não por ( n ). Isso é feito porque nossos dados foram obtidos por
meio de amostragem e não por censo. Ou seja, sempre que tivermos dados amostrais, que é
a situação mais comum, calcularemos a variância amostral dividindo a soma dos quadrados
dos resíduos por (n - 1). Se tivermos acesso à população toda, ou melhor, se fizermos um
2
censo (o que é muito raro), então poderemos calcular a variância populacional (Ợ ), dividindo
a soma dos quadrados dos resíduos por (n):

2 n
Ợ = ∑ ( Xi -X )2
i =1

042
unidade 2
ESTATÍSTICA E PROBABILIDADES

É importante se lembrar dessa diferença, pois ela aparece nas calculadoras científicas e no
2
Excel, que permite o cálculo tanto de s2 quanto de Ợ . Na prática (e na dúvida), sempre calcule
a variância amostral (s2).

Uma outra métrica de variabilidade é o desvio padrão amostral (s). Ele é a raiz quadrada da
variância e tem uso mais difundido que sua “mãe” (s2), porque, ao tirarmos a raiz quadrada
da variância, o resultado tem a mesma unidade de medida que a média e os dados originais.
Assim, no exemplo anterior, do número de filhos da amostra de n=5 pessoas, a variância
amostral é:

O desvio padrão amostral é:

É muito comum, ao divulgarmos uma síntese de uma variável quantitativa, apresentarmos a


sua média, seguida do seu desvio padrão no formato ( X = s ). Ou seja, no exemplo anterior,
essas pessoas têm 1,4 = 1,1 filhos.

Cuidado, isso não significa que os dados variem somente dentro do intervalo X = s , de 1,4 –
1,1 = 0,3 até 1,4 + 1,1 = 2,5 filhos! Essa é apenas uma forma usada para apresentar ambos os
valores, de média ( X ) e desvio padrão (s). Na verdade, se os dados tiverem um histograma
de forma simétrica, aproximadamente 95% dos dados ocorrerão dentro do intervalo definido
pela média mais ou menos dois desvios padrões ( X = 2s ), e 99,7% dentro da média mais ou
menos três desvios padrões ( X = 3s ). Se não tivermos como avaliar a forma de distribuição
dos dados, ou seja, se não soubermos o padrão do histograma dos dados, pelo menos 89%
dos dados cairão no intervalo X = 3s .

Supondo que você já consiga calcular o desvio padrão ( s ) de um conjunto de dados, como
interpretar o seu resultado? É fato que, quanto maior o desvio padrão, maior a variabilidade

043
unidade 2
ESTATÍSTICA E PROBABILIDADES

dos dados. Mas, o que é um desvio padrão grande? Essa resposta depende da magnitude da
média ( X ), isto é, para sabermos se um desvio padrão é grande ou pequeno, vai depender do
valor da média. Por exemplo, sejam os resultados das provas de um atleta, resumidos abaixo:

Tempo para correr 100 metros: X = 11,5 e s = 2,1 segundos;

Salto em altura: X = 2,2 e s = 0,8 e metros.

Em qual prova, salto em altura e tempo para 100 m, o atleta é mais heterogêneo, tem os
resultados com maior variabilidade? Se você responder essa questão comparando os dois
desvios padrões, estará cometendo dois erros:

1º Não se pode comparar diferentes unidades de medida (s versus m);

2º Deve-se considerar a magnitude da média ao se avaliar um desvio padrão.

Então, como efetivamente obter o grau de variabilidade de uma variável? Isso é feito pelo
coeficiente de variação (cv), uma relação percentual entre o desvio padrão e a média:
s
cv = x x 100 (%).

Além de ser uma medida adimensional, o que possibilita comparações entre diferentes
variáveis, o CV pode ser interpretado de forma absoluta:

QUADRO 2 – Definição e interpretação do grau de variabilidade de um conjunto de dados.

CV INTERPRETAÇÃO

CV <= 20% Dados com pouca variabilidade, bem comportados, homogêneos. A


variável tem um comportamento bem previsível.

20 < CV <= 30% Dados com variabilidade intermediária.

CV > 30% Dados com muita variabilidade, heterogêneos. A variável tem um


comportamento muito imprevisível.

CV > 100% Neste caso, o desvio padrão é maior que a média. Dados com
variabilidade extrema, muito heterogênea. A variável tem um
comportamento caótico, completamente imprevisível.

Fonte: Elaborado pelo autor.

044
unidade 2
ESTATÍSTICA E PROBABILIDADES

No caso do atleta, teremos os seguintes valores de coeficiente de variação:

2,1
Tempo para correr 100 metros: cv = x 100 = 19%;
11,5

0,8
Salto em altura: cv = x 100 = 36%;
2,2

Podemos dizer então que o atleta tem pouca variabilidade nos seus resultados da corrida de
100 m e muita variabilidade nos saltos em altura.

LEMBRE
Quando você fizer uma análise exploratória de dados, lembre-se de corrigir os gráficos produzidos pelo

Excel. Lembre-se também de colocar os títulos das tabelas e das figuras o mais informativo possível.

E, ao calcular o desvio padrão, não se esqueça de considerar que você tem dados amostrais. Confira

na sua calculadora e/ou no próprio Excel qual a fórmula que está sendo usada. Resuma os dados por

meio de gráficos, números e tabelas. Esse é o primeiro e fundamental passo para entender os dados e

o problema investigado.

A análise exploratória dos dados é o primeiro passo para que você se torne especialista na
área investigada. Suas ferramentas de análise não produzem conclusões definitivas sobre um
problema, mas possibilitam que hipóteses sejam construídas de forma consistente.

APLICAÇÃO
PRÁTICA
O artigo “Avaliação do impacto do Cálculo Zero no desempenho de alunos ingressantes de cursos de

Engenharia”, apresentado em 2013 por COUTO e cols. no COBENGE - Congresso Brasileiro de Educação

em Engenharia, teve como objetivo avaliar o impacto do “Cálculo Zero” no desempenho de alunos

ingressantes em cursos de Engenharia e Ciência da Computação, tanto em termos da nota final em

Cálculo Diferencial e Geometria Analítica e Álgebra Linear (GAAL), quanto na chance de aprovação

nessas disciplinas. As perguntas-chave do trabalho eram: O “Cálculo Zero” afeta de forma significativa

o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL? Vale a pena investir

045
unidade 2
ESTATÍSTICA E PROBABILIDADES

em projetos de “Cálculo Zero”? Quais são os fatores, as características que afetam o desempenho dos

alunos nessas duas disciplinas?

Várias técnicas de análise exploratória de dados foram utilizadas no artigo. Por exemplo, usando um

gráfico de linhas, uma série temporal, mostrou-se no artigo a elevação no número de matrículas nas

duas disciplinas-alvo do trabalho, Cálculo Diferencial e GAAL:

FIGURA 19 - Evolução do número de alunos matriculados e o percentual de aprovados


em Cálculo Diferencial e GAAL. Entre o 2º semestre de 2009 e o 2º semestre de 2012, o
percentual de aprovação em ambas as disciplinas apresentou elevação, principalmente em
Cálculo Diferencial. O número de alunos matriculados nas disciplinas também aumentou de
forma importante no período, principalmente após o 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Um diagrama de dispersão foi construído mostrando claramente o efeito das faltas às aulas na nota

final de Cálculo Diferencial:

046
unidade 2
ESTATÍSTICA E PROBABILIDADES

FIGURA 20 – Gráfico de dispersão considerando o percentual de faltas/ausências


às aulas de Cálculo Diferencial e a nota final do aluno nessa disciplina: análise
considerando somente alunos em que foram registradas pelo menos uma falta
às aulas durante o semestre. Há uma forte correlação negativa (r= -0,77) entre
ausências às aulas e a nota final do aluno: quanto mais faltas às aulas o aluno tiver,
menor a sua nota final em Cálculo Diferencial. IET/ UniBH, 1º semestre de 2011.

Fonte: COUTO et al., 2013.

Além de gráficos, tabelas com a síntese numérica dos dados coletados no estudo também foram

apresentadas no artigo. O uso dessas ferramentas estatísticas de análise de dados mostrou de forma

inequívoca que valia a pena implementar ações como o “Cálculo Zero”, pois o fato de se ofertar essa

disciplina afetava o resultado dos alunos nas disciplinas obrigatórias de Cálculo Diferencial e GAAL.

Esse é um exemplo real de como usar a análise exploratória dos dados e outras técnicas de

Estatística e Probabilidades para se entender a fundo um problema, resolvendo-o e se tornando um

especialista na área.

Referência:

XLI CONGRESSO BRASILEIRO DE EDUCAÇÃO EM ENGENHARIA, 2013. Avaliação do Impacto do Cálculo Zero no
Desempenho de Alunos Ingressantes de Cursos de Engenharia. Paraná: FADEP, 2013. Disponível em: <http://www.
fadep.br/engenharia-eletrica/congresso/pdf/116280_1.pdf>. Acesso em 14 maio 2015.

047
unidade 2
ESTATÍSTICA E PROBABILIDADES

REVISÃO coisas realmente conhecidas.

Vimos nesta unidade os principais tópicos


Síntese numérica: O resumo de uma
da análise exploratória de dados, também
variável categórica é muito simples, basta
denominada de Estatística Descritiva:
que você apresente suas categorias, a
frequência de valores em cada categoria
Síntese gráfica: Uma figura vale mais que
e os respectivos percentuais. Já a síntese
mil palavras! Isso é verdade, entretanto
de variáveis quantitativas é mais ampla e
um gráfico vale mais que mil palavras se
envolve resumir dois aspectos:
e somente se ele for desenhado de forma
clara, correta e concisa. Sempre desenhe
1) Um valor típico ou característico para a
gráficos a partir de seus dados, mas tente
variável, que é definido pela média ( X ) e
fazê-los de tal forma que a frase “basta
pela mediana (Md). Se média e mediana
olhar para entender” seja válida. Os gráficos
forem semelhantes, então a média deve
mais úteis para análise de dados de
ser usada para representar os dados.
experimentos de pequeno e médio porte na
Entretanto, caso haja discrepância muito
área de Ciências Exatas e Engenharia são:
grande entre média e mediana, então se
gráficos de pizza, barras, colunas, linha,
deve usar a mediana para representar os
séries históricas, histograma, gráfico de
dados;
Pareto, gráfico misto, de coluna e de linha,
diagrama de dispersão e box-plot. Na
2) Uma medida do grau de variabilidade ou
prática devemos construir gráficos usando
de dispersão dos dados, calculada pelo
ferramentas computacionais como o Excel.
desvio padrão amostral ( ) e o coeficiente
de variação (CV).
Síntese tabular de dados: Na análise
exploratória de dados, em última instância,
todos os resultados são apresentados ou
na forma de figuras ou de tabelas. Assim, PARA SABER
invista no título da tabela e sempre coloque
respostas claras para pelo menos quatro
MAIS
perguntas: O que? Quem? Quando? Onde? Caso você deseje aprofundar sobre as questões
Também sugiro que a interpretação das discutidas nesta unidade, leia os capítulos 2 e 3
informações na tabela seja colocada no do livro texto: LEVINE, David M. et al. Estatística:
próprio título. Se necessário, coloque notas teoria e aplicações: usando Microsoft Excel em
explicativas, usando siglas somente para português. 6. ed. Rio de Janeiro: LTC, 2012,

048
unidade 2
UNIDADE
INTRODUÇÃO À
TEORIA DE PROBABILIDADES

A
origem da teoria das probabilidades é comumente associada à questões colocadas
por MÉRÉ (1607-1684) a PASCAL (1623-1662). Todavia, existem autores que
sustentam que o cálculo das probabilidades iniciou-se na Itália, com PACCIOLI
(1445-1514), CARDANO (1501-1576), TARTAGLIA (1499-1557) e GALILEO (1564-1642),
dentre outros.

Contudo, foi ADOLPHE QUÉTELET (1796 – 1874) o pioneiro na tarefa de mensurar, ou seja,
quantificar uma pequena amostra do universo de interesse da investigação, almejando inferir
sobre toda a população em estudo, baseando-se em análises probabilísticas e embasando-se
em rigorosos métodos científicos.

A teoria das probabilidades, porém, só começa a fazer sentido nas engenharias por volta
de 1930, quando surgem os primeiros trabalhos práticos destinados aos engenheiros. O
primeiro foi executado pelo matemático WILLIAM GOSSET (1876 – 1937), com a aplicação das
probabilidades no Controle de Qualidade em uma fábrica de Cervejas.

A teoria das probabilidades é uma importante área da estatística que possibilita ao profissional
no mercado de trabalho calcular percentuais, trabalhar com estimativas e realizar predições
em toda e qualquer área do conhecimento. No que tange às Engenharias, a probabilidade
está presente no controle de processos de produtos e serviços, permitindo estimar o risco e o
acaso de eventos futuros. Também é amplamente utilizada no que tange ao planejamento de
novas técnicas e estratégias de produção e vendas, dentre outras.

050
unidade 3
ESTATÍSTICA E PROBABILIDADES

Suponha que você é o engenheiro responsável pela qualidade na linha de produção de uma
grande marca de bebidas. Sabe-se que não é possível “experimentar” todos os produtos
antes de disponibilizá-lo ao mercado, pois ninguém compraria uma bebida já provada, e que
o processo de fabricação é composto por etapas, por interferências dos funcionários, por
equipamentos (que podem estar ou não muito bem regulados), e por uma série de outros
fatores controláveis ou não, como até mesmo uma simples umidade excessiva no ambiente de
fabricação devido ao período chuvoso. No entanto, você pode suspeitar que um determinado
lote, devido à variabilidade inerente ao processo, apresente um percentual de itens não
conformes maior que o permitido pelos órgãos fiscalizadores.

A teoria das probabilidades vem auxiliá-lo nesse processo de tomada de decisão, permitindo
inferir sobre a população em estudo, ou mesmo sobre eventos que ainda irão ocorrer,
estimando as “chances” de sucesso do mesmo.

A TEORIA DAS
PROBABILIDADES
A teoria das probabilidades nasce na Idade Média com os tradicionais jogos de azar existentes
na Corte. Jogos de cartas e dados, ou mesmo os lançamentos de moeda são classificados
como fenômenos que envolvem o acaso, assim como a maioria dos jogos esportivos. Uma
aplicação direta da teoria das probabilidades no campo das Engenharias é o processo de
decisão, seja para aumentar o investimento ou cortar despesas, no qual o profissional do
mercado de trabalho deve arriscar-se mantendo “os pés no chão”.

CONCEITO
Um dos principais conceitos matemáticos amplamente estudado no que diz respeito à teoria das

probabilidades é o de conjunto. Um conjunto pode ser definido como uma coleção de objetos, itens ou

serviços que possuem característica (s) comum (s).

No contexto da teoria das probabilidades, o conjunto de todos os resultados possíveis a ser estudado

em um experimento aleatório é denominado espaço amostral.

Espaço Amostral (Ω) é qualquer conjunto de todos os possíveis resultados em um experimento aleatório.

051
unidade 3
ESTATÍSTICA E PROBABILIDADES

Sendo definido como experimento todo e temos duas possibilidades (cara ou coroa)
qualquer resultado que sugere a incerteza em cada lançamento, portanto o espaço
antes da observação, ou seja, fenômenos amostral (Ω) é dado por:
que, mesmo repetidos várias vezes sob

condições semelhantes, apresentam resultados Ω = ( possibilidades )(repetições)= 23 = 8


imprevisíveis (acaso). Os resultados dos

experimentos são nomeados estatisticamente Se tivermos eventos distintos, como no


como eventos. lançamento de um dado e uma moeda, o
espaço amostral (Ω) é dado pelo produto
Um Evento Aleatório (E) é qualquer subconjunto
da quantidade de possibilidades de cada
de um espaço amostral.
evento, como:

O espaço amostral (Ω) é essencial na teoria


No lançamento de uma moeda e um dado,
das probabilidades por definir o espaço
temos duas possibilidades da moeda (cara
de interesse da investigação, permitindo
ou coroa) e seis possibilidades do dado
ao pesquisador de toda e qualquer área
(os números inteiros de 1 a 6). Portanto, o
do conhecimento fazer inferências sobre
espaço amostral (Ω) é dado por:
o todo a partir da parte estudada. Pode
ser definido de acordo com o evento de
Ω = ( possibilidades ) . ( possibilidades ) =
interesse da investigação, podendo ser
2.6 = 12
caracterizado por: (1) o mesmo evento
repetidas vezes; ou (2) eventos distintos; ou
Se tivermos eventos aleatórios, como o
(3) eventos aleatórios.
número de funcionários ausentes em um
dia de trabalho de uma determinada linha
Se tivermos o mesmo evento repetidas
de produção, ou mesmo o número de
vezes, como no lançamento de um
caminhões presentes em uma determinada
dado ou de uma moeda, ou mesmo nas
rota, não há um modelo matemático que
possibilidades de filhos de um casal, ou
simplifique a mensuração dos elementos
de peças defeituosas em uma linha de
que compõem esse espaço amostral.
produção, o espaço amostral (Ω) é dado
É preciso “apelar” para o princípio
pelas possibilidades do evento elevado
fundamental da contagem, ou seja, o
ao número de repetições realizadas, por
serviço “braçal”.
exemplo:

Os eventos que compõem o espaço


No lançamento de uma moeda três vezes,
amostral podem ser classificados de acordo

052
unidade 3
ESTATÍSTICA E PROBABILIDADES

com a sua ocorrência. Os eventos nos quais do que tem”, ou seja:


cada elemento do banco de dados pode 20 passo
Probabilidade = Quer
ocorrer com a mesma probabilidade são Tem 10 passo

chamados de eventos equiprováveis.


Existem duas restrições à aplicação da
Eventos Equiprováveis são aqueles cujos definição da probabilidade clássica: (1)
todos os elementos do banco de dados todos os eventos possíveis devem ter a
têm a mesma probabilidade de ocorrência. mesma probabilidade de ocorrência, ou
seja, os eventos devem ser equiprováveis e
Os eventos são classificados como (2) deve-se ter um número finito de eventos
mutuamente exclusivos, se eles não possíveis.
puderem ocorrer simultaneamente, ou
seja, A ∩ B= Ø.
LEIS BÁSICAS DE
Se E = Ω, E é chamado de evento certo.
PROBABILIDADES
Se E = Ø , E é chamado de evento impossível.
Para qualquer evento E de um espaço
amostral Ω : 0 ≤ P ( E ) ≤ 1;
PROBABILIDADE
CLÁSSICA E P ( Ω ) = 1;
PROBABILIDADE
FREQUENTISTA P ( Ac ) = 1 - P ( A ), sendo Ac o evento
complementar ao evento A;
A probabilidade de realização de um evento
A é dada pelo quociente entre o número de
ocorrências de A pelo número de eventos
possíveis, ou seja: LEMBRE
número de orcorrências de A
P(A)= As operações com os eventos utilizam as
espaço amostral (Ω)
mesmas propriedades matemáticas, ou seja:
A probabilidade pode ser resumida como
o quociente do que se “quer” pelo que se
“tem”. Na qual primeiro determina-se o que
é possível “ter” e depois retira o que se “quer
do que se tem”, não podendo “querer mais

053
unidade 3
ESTATÍSTICA E PROBABILIDADES

QUADRO 3 – Leis Matemáticas

PROPRIEDADE DESCRIÇÃO MATEMÁTICA

Associatividade (A∩B)∩C=A∩(B∩C)
(AUB)UC=AU(BUC)

Comutatividade A∩B = B∩A


AUB = BUA

Distributividade (A∩B)UC=(AUC)∩(BUC)
(AUB)∩C=(A∩C)U(B∩C)

Absorção ACB → A∩B=A


ACB → A∩B=B

Modulares A ∩Ω = A
A ∩Ω = Ω
A ∩Ø = Ø
A Ø=A

Leis de De Morgan A∩B = AUB


AUB = A∩B

Dupla negação A=A

Fonte: Elaborado pelo autor.

UNIÃO E INTERSEÇÃO
DE EVENTOS
A união de dois eventos A e B, indicada por A U B, é o evento que contém todos os elementos
de A e todos os elementos de B.

P(AUB)=P(A)+P(B)-P(A∩B)

P ( A U B ) = P ( A ) + P ( B ), se A e B são mutuamente exclusivos;

A interseção de dois eventos A e B, indicada por A∩B, é o evento que contém todos os elementos
comuns a A e B.

P(A Ç B) = P(B). P(A | B)

054
unidade 3
ESTATÍSTICA E PROBABILIDADES

Sendo P ( A | B ), a probabilidade condicional, ou seja, a probabilidade de A ocorrer sabendo


que o evento B ocorreu.

TABELA 12 – Tipo Sanguíneo

TIPO SANGUÍNEO

O A B AB TOTAL

Positivo 156 139 37 12 344

Negativo 28 25 8 4 65

Total 184 164 45 16 409

Fonte: Elaborado pela autora.

A probabilidade de o doador ter tipo sanguíneo O ou A é dada por:

184 + 164 = 0,8508


409

A probabilidade de o doador ter tipo sanguíneo B ou ser Rh negativo é dada por:

45 + 65 - 8 = 0,2494
409

CONCEITO
Dois ou mais eventos podem ser classificados como mutuamente exclusivos quando a realização de um

exclui a realização do (s) outro (s). No lançamento de uma moeda, o evento "tirar cara" e o evento "tirar

coroa" são mutuamente exclusivos, já que a realização de um deles implica, necessariamente, na não

realização do outro.

Portanto, em eventos mutuamente exclusivos, a probabilidade de que um ou outro se realize é igual à

soma das probabilidades de que cada um deles se realize.

055
unidade 3
ESTATÍSTICA E PROBABILIDADES

classificados nas duas categorias. O que

DICAS
se almeja saber é: o tratamento alterou
significativamente a proporção de objetos
em cada uma das duas categorias?
Eventos mutuamente exclusivos não é a mesma

coisa de eventos independentes. O primeiro é

utilizado quando apenas um dos eventos pode

ocorrer, excluindo qualquer probabilidade de


EXEMPLO
ocorrência do outro. Já o segundo é utilizado

quando a ocorrência de um dos eventos não Em relação à pratica apresentada no início

afeta a ocorrência do outro. dessa unidade, suponha que em uma amostra

de 2000 produtos disponibilizados ao mercado,


Exemplo: Um grupo de alunos que usa óculos
sejam 800 refrigerantes e 1200 cervejas, dos
é independente do número de alunos do sexo
quais 5 e 10 apresentaram algum tipo de
masculino em sala de aula, mas não são eventos
defeito, respectivamente, seja no rótulo da
mutuamente exclusivos, pois é possível ter
embalagem, no volume líquido ou qualquer
alunos do sexo masculino em sala de aula que
outro tipo de avaria. A tabela 1 apresenta uma
usam óculos.
tabela de contingência para melhor visualizar

esses dados.

TABELAS DE
CONTINGÊNCIA
As tabelas de contingência são aplicadas na
avaliação do relacionamento das categorias
com respeito aos grupos segundo dois
modos: independência ou homogeneidade.
Ou seja, eventos com dupla entrada.

A aplicação de tabela de contingência


dois por dois é dada quando n elementos,
selecionados aleatoriamente de uma
população, são classificados em duas
categorias. Depois dos elementos serem
classificados, um tratamento é aplicado
e alguns são examinados novamente e

056
unidade 3
ESTATÍSTICA E PROBABILIDADES

TABELA 13 - Produtos Disponibilizados

CERVEJA REFRIGERANTE TOTAL

Bom 1190 795 1985

Defeito 10 5 15

Total 1200 800 2000

Fonte: Elaborado pela autora.

A partir dessa tabela, é possível estimar que a probabilidade dessa empresa disponibilizar um
produto (dentre cervejas e/ou refrigerantes) no mercado com algum tipo de defeito é dada por:

P (defeito) = 15 = 0,0075
2000

Portanto, apenas 0,75% dos produtos disponibilizados por essa empresa apresentam algum
tipo de defeito.

IMPORTANTE
A tabela de contingência é um processo de organizar a informação correspondente a dados dicotômicos.

De uma maneira geral, uma tabela de contingência é uma representação dos dados, quer de tipo

qualitativo, quer de tipo quantitativo, especialmente quando são de tipo bivariado, isto é, podem ser

classificados segundo dois critérios.

EVENTOS
INDEPENDENTES

Um ou mais eventos pode (m) ser classificado (s) como independente (s) quando a realização
de um dos eventos não afeta a probabilidade de ocorrência do outro, e vice-versa.

Quando dois eventos são independentes, P ( A ∩ B ) = P ( A ) . P ( B ).

057
unidade 3
ESTATÍSTICA E PROBABILIDADES

EXEMPLO
Nota na prova e ter feito a prova de chinelo;

O valor de venda de um produto e a cor do cabelo das funcionárias que o fabricaram.

TEOREMA
DE BAYES
A probabilidade condicional, ou seja, as chances de um evento A ocorrer, dado que outro
evento B ocorreu, é dada por:
P(A∩B)
P(A|B)=
P(B)

para P ( B ) > 0.

O teorema de Bayes propõe que, se os eventos E1,E2,…,En são partições do espaço


amostral Ω, então:

P ( B | Ei ) . P ( Ei )
P ( Ei | B ) =
P(B)

Recorrendo à lei de probabilidade total, é possível inferir que:

P ( Ei | B ) = ( P ( B | Ei ) . P ( Ei )
∑ P ( B | Ej )

CONCEITO
Seja B1, B2, …, Bn um conjunto de eventos mutuamente exclusivos cuja união forma o espaço amostral Ω.

Seja E outro evento no mesmo espaço amostral Ω, tal que P ( E ) > 0, então:

P ( E ) = P ( E | B1 ) + P ( E | B2 ) + P ( E | B3 ) + ...⋯+ P ( E | Bn )

P ( E ) = P ( B1 ) . P ( E | B1 ) + P ( B2 ) P ( E | B2 ) + P ( B3 ) P ( E | B3 ) + ...⋯+ P( Bn ) P ( E | Bn )

058
unidade 3
ESTATÍSTICA E PROBABILIDADES

Portanto, uma simples umidade excessiva no ambiente

de fabricação devido ao período chuvoso. Você


P ( E ) = ∑ P ( Bi ) . P ( E | Bi )
pode suspeitar que um determinado lote, devido

à variabilidade inerente ao processo, apresente

um percentual de itens não conformes maior que

EXEMPLO o permitido pelos órgãos fiscalizadores? ”

Numa sala de aula, sabe-se que 10% dos


Se a empresa aqui citada produzir dois lotes
homens e 2% das mulheres têm mais de 1,80 m.
com duas mil unidades em cada por semana,
A sala tem 70% de mulheres e 30% de homens.
distribuídas entre 1000 cervejas, 600 refrigerantes
Um estudante foi escolhido aleatoriamente, e
e 400 sucos por lote, com aproximadamente
constatou-se que tem mais de 1,80 m. Qual a
0,2, 0,1 e 0,15 por cento de itens defeituosos,
probabilidade de que seja homem?
respectivamente, podemos utilizar a teoria das
0,10 . 0,70 = 0,9211 probabilidades para responder questões como:
0,10.0,70+0,02.0,30

a) Qual o percentual de refrigerantes

distribuídos semanalmente?
APLICAÇÃO
PRÁTICA
b) Qual a probabilidade do consumidor

adquirir um suco?

A teoria das probabilidades pode auxiliar c) Dentre as cervejas, qual a

facilmente a resolver o problema proposto no probabilidade do consumidor adquirir

início dessa unidade. Vejamos: uma cerveja com defeito?

“Suponha que você é o engenheiro responsável d) Dentre os sucos, qual a probabilidade

pela qualidade na linha de produção de uma do consumidor adquirir um suco sem

grande marca de bebidas. Está ciente de que defeito do primeiro lote?

não é possível “experimentar” todos os produtos


e) Sabendo que foi adquirido um produto
antes de disponibilizá-lo ao mercado, pois
com defeito, qual a probabilidade de
ninguém compraria uma bebida já provada, e
ser um suco?
que o processo de fabricação é composto por

etapas, por interferências dos funcionários, por Para responder essas questões, utilizamos a

equipamentos (que podem estar ou não muito probabilidade clássica para responder o item (a);

bem regulados), e por uma série de outros a união de probabilidades para responder o item

fatores controláveis ou não, como até mesmo (b); a probabilidade condicional para responder o

059
unidade 3
ESTATÍSTICA E PROBABILIDADES

item (c); e o teorema de Bayes para responder o item (d). Ou seja:

a) P (refrigerante ) = 1200 =0,30 = 30%


4000

b) P (suco) = 400 + 400 = 0,40 = 40%


2000 2000

Observe que, neste caso, tanto faz se o consumidor adquirir um suco do primeiro lote ou do segundo

lote, independente da ordem de ocorrência do evento.

P (cerveja com defeito ) 0,2.1000 + 0,2 * 1000 400


c) P ( defeito│cerveja ) = = = = 0,20
P ( cerveja ) 1000 + 1000 2000

d) P ( suco sem defeito do primeiro lote | suco ) =

= 0,5. 0,2 . 0,85 = 0,0850 = 0,5


0,5.0,2.0,85+0,5.0,2.0,85 0,1700

060
unidade 3
ESTATÍSTICA E PROBABILIDADES

P ( suco com defeito │defeito ) =

= 2. (0,5 . 0,2 . 0,15 ) = 0,0150 = 0,1875


2. ( 0,5 . 0,2 . 0,15 + 0,5 .0,3 .0,1 + 0,5 .0,5 .0,2 0,0800

REVISÃO
A teoria das probabilidades é utilizada em todas as áreas do conhecimento. Ela visa auxiliar
o profissional no mercado de trabalho a predizer valores futuros, estimando as “chances” de
ocorrência de um evento antes que ele ocorra.

Para calcular a probabilidade, basta dividir o que se “quer” pelo que se “tem”, ou seja:

Probabilidade = Quer
20 passo

Tem 10 passo

Sendo imprescindível, primeiro, definir o que se “tem” para somente depois retirar do que se
“tem” o que se “quer”.

Quando a ocorrência de um evento não afeta a realização ou não de um outro evento, eles são
classificados como eventos independentes.

O Teorema de Bayes é aplicado em situações cuja a probabilidade de ocorrência de um evento


está vinculada às chances de sucesso de um outro evento.

061
unidade 3
ESTATÍSTICA E PROBABILIDADES

cartas. Ele é recrutado para integrar o grupo dos


PARA SABER mais talentosos estudantes da escola, que todos

MAIS os fins-de-semana vão a Las Vegas, com falsas

identidades e com as suas mentes brilhantes,

Filmes são capazes de aumentar em grande escala as

probabilidades de ganhar no blackjack.


A Probabilidade Estatística do Amor Á Primeira

Vista (Adaptado) Além disto, ainda contam com o professor

de matemática (e gênio da estatística) Micky


Jennifer E. Smith
Rosa (Kevin Spacey) como líder. A contagem

Com uma certa atmosfera de 'Um dia', mas voltado das cartas e um, muito bem definido esquemas

para o público jovem adulto, a probabilidade de sinais, que permitem à equipa vencer nos

estatística do amor à primeira vista é uma grandes cassinos. Seduzido pelo dinheiro e pelo

história romântica, capaz de conquistar fãs de estilo de vida de Vegas, e pela sua inteligente

todas as idades. Quem imaginaria que quatro e sexy amiga Jill Taylor (Kate Bosworth), Ben

minutos poderiam mudar a vida de alguém? começa a ir até ao limite.

Mas é exatamente o que acontece com Hadley.


Apesar da contagem da carta não ser ilegal,
Presa no aeroporto em Nova York, esperando
o risco é cada vez mais elevado e o grande
outro voo depois de perder o seu, ela conhece
desafio prende-se agora com, não só manter
Oliver. Um britânico fofo, que se senta a seu lado
a contagem correta, mas também enganar o
na viagem para Londres. Enquanto conversam
chefe de segurança dos casinos: Cole Williams
sobre tudo, eles provam que o tempo é, sim,
(Laurence Fishburne).
muito, muito relativo. Passada em apenas 24

horas, a história de Oliver e Hadley mostra que Quebrando a Banca. Direção: Robert Luketic.
EUA: Sony Pictures, 2008. (123 min), son., color.,
o amor, diferentemente das bagagens, jamais se legendado.

extravia.

SMITH, Jennifer E. A Probabilidade Estatística do


Amor à Primeira Vista. Rio de Janeiro: Galera Record,
2013

Quebrando a banca (Adaptado).

Ben Campbell (Jim Sturgess) é um brilhante

estudante do M.I.T. (Instituto Tecnológico de

Massachusetts). O seu único problema é não ter

dinheiro para pagar as contas escolares, mas

a solução está onde ele menos esperava: nas

062
unidade 3
UNIDADE
MODELOS
PROBABILÍSTICOS

A
ssim como a Matemática, também a Estatística apresenta funções que norteiam
o comportamento de suas variáveis, como as retas, parábolas e hipérboles.
Na Estatística temos os modelos probabilísticos. Esses modelos são funções
paramétricas que descrevem o comportamento de uma variável em estudo.

064
unidade 4
ESTATÍSTICA E PROBABILIDADES

VARIÁVEIS que resultam de processos aleatórios nos

ALEATÓRIAS quais os resultados possíveis são casuais e


formam um conjunto enumerável.
O estudo das variáveis aleatórias é de suma
importância nas engenharias ou mesmo São classificadas como variáveis contínuas
em qualquer outra área do conhecimento as funções para as quais é possível associar
técnico e científico. Isso porque, nem infinitos valores a um intervalo ( a, b ), sendo
sempre, os dados que compõem o estudo que para valores que não pertencem ao
estatístico são números, sendo necessário intervalo no qual se limita o experimento, a
descobrir um meio de transformá-los em probabilidade de ocorrência é zero.
números, a partir de uma função chamada
de ‘variável aleatória’, visando facilitar a
estimativa das medidas estatísticas. VARIÁVEIS
DISCRETAS

CONCEITO É função P ( x ) aquela nas quais se


associam probabilidades aos valores da
variável aleatória X abordada no estudo
Probabilidade estatístico. Ou seja, quando uma variável
aleatória X assume os valores x1,x2,x3,…,xn
Seja um experimento aleatório qualquer
com as respectivas probabilidades p ( x1 ),
de um espaço amostral Ω e um espaço de
p ( x2 ), p ( x3 ) ,…, p ( xn ) definidas por uma P
probabilidades P. Então a variável aleatória X
( X ), na qual a soma de todas as possíveis
no espaço de probabilidade é uma função real
probabilidades é igual a um, conforme
definida no espaço amostral Ω, tal que ( X ≤ x ) é
apresentado na tabela 14, ou seja:
um evento aleatório para qualquer x real.

As variáveis aleatórias podem ser


classificadas como contínuas ou discretas,
de acordo com o domínio da variável
abordada no estudo. São classificadas
como variáveis discretas as funções para as
quais é possível associar um único número
real a cada evento de uma partição do
espaço amostral Ω. Portanto são variáveis

065
unidade 4
ESTATÍSTICA E PROBABILIDADES

TABELA 14 - Distribuição de probabilidades discretas

X x1 x2 x3 ... xn
P (X) p ( x1 ) p ( x2 ) p ( x3 ) ... p ( xn )

Fonte: Elaborado pelo autor.

Para uma distribuição discreta de probabilidades, é possível definir a função acumulada


indicada por F ( x ) = P ( X ≤ xi ), ou seja, a probabilidade da variável aleatória assumir valores
menores ou iguais a xi.

O valor esperado, indicado por E ( x ) = μ, é a esperança matemática de uma variável aleatória


discreta X que assume os valores x1, x2, x3, …, xn com as respectivas probabilidades p ( x1 ), p ( x2 ),
p ( x3 ),…, p ( xn ) definidas por uma P ( Xn ), ou seja, é igual ao valor médio da variável:

E ( x ) = x1 . p ( x1 ) + x2. p ( x2 ) + x3 .p ( x3 )+...+ xn. p (xn)

n
E (x) = ∑ xi . p ( xi )
i =1

DICAS
O valor esperado, indicado por E (x) = μ, é a média de uma variável discreta.

A variância, ou seja, a medida estatística que concentra as probabilidades em torno da média


é indicada por Var ( x ) ou σ2 e dada por:

Var ( x ) = E ( x2 ) - [ E ( x ) ] 2

sendo E ( x ) o valor esperado, e E (x2 ) dada por:

E ( x2 ) = x12 . p ( x1 ) + x22. p ( x2 ) + x32 . p ( x3 ) + ... + xn2 . p ( xn )

n 2
E ( x2 ) = ∑ xi . p ( xi )
i =1

066
unidade 4
ESTATÍSTICA E PROBABILIDADES

DICAS
O desvio padrão indicado por DP ( x ) = σ é a raiz da variância, ou seja:

DP ( x ) = √Var ( x )

Para uma variável aleatória n-dimensional (também chamada de vetor aleatório), com n=2,
denota-se por ( X,Y ) o vetor aleatório, sendo:

TABELA 15 - Distribuição discreta

X VALORES ASSOCIADOS
P(Y)
Y À VARIÁVEL X

Valores associados Probabilidade conjunta Probabilidade


à variável Y P ( X, Y ) marginal de Y
Pois P
P(X) Probabilidade marginal de X 1 (X,Y) é uma
f.d.p.
Fonte: Elaborado pelo autor.

IMPORTANTE
Só é possível realizar análises estatísticas sobre distribuições que sejam uma função densidade de

probabilidade, ou seja, f.d.p. Dizemos que uma ou mais variáveis são uma f.d.p. quando a soma de todas

as probabilidades que compõem o evento em estudo é igual a 1, ou seja, 100%. Portanto, uma ou mais

variáveis podem ser classificadas como f.d.p. quando:

n
∑ p ( xi ) = p ( x1) + ( x2 ) + p ( x3 ) + ... + p ( xn ) = 1
i =1

067
unidade 4
ESTATÍSTICA E PROBABILIDADES

ATENÇÃO
As probabilidades são sempre dispostas paralelamente às suas variáveis na construção da tabela

bidimensional. Portanto, se invertermos as posições de X e Y na tabela anterior, teremos a seguinte

distribuição de probabilidades:

TABELA 16 - Distribuição discreta

X VALORES ASSOCIADOS
P(X)
Y À VARIÁVEL Y

Valores associados Probabilidade conjunta Probabilidade


à variável Y P ( X, Y ) marginal de X
Pois P
P(Y) Probabilidade marginal de Y 1 (X,Y) é uma
f.d.p.
Fonte: Elaborado pelo autor.

O valor esperado da distribuição conjunta, indicado por E ( X, Y), é dado pelo produto entre
cada valor associado à variável X, com cada valor associado à variável Y e sua respectiva
probabilidade conjunta, ou seja:

n n
E ( X, Y ) = ∑ ∑ xi . yj . p ( xi , yj )
i =1 j =1

E ( X, Y ) = a . d . p ( a , d ) + b . d . p ( b, d ) + c . d . p ( c, d ) + a . e . p ( a, e ) + b . e . p ( b , e ) +
+ c . e . p ( c, e ) + a . f . p ( a, f ) + b . f . p ( b, f ) + c . f . p ( c, f )

Para a tabela de distribuição a seguir:

TABELA 16 - Distribuição discreta

X
Y A B C P(Y)

d P (a, d ) P ( b, d) P ( c, d ) P(d)
e P ( a, e ) P ( b, e ) P ( c, e ) P(e)
f P ( a, f ) P ( b, f ) P ( c, f ) P(f)
P(X) P ( a ) P ( b ) P(c) 1

Fonte: Elaborado pelo autor.

068
unidade 4
ESTATÍSTICA E PROBABILIDADES

VARIÁVEIS b

CONTÍNUAS E (x) = ∫ x .f ( x ) dx
a

É uma função f ( x ) aquela nas quais se


associam probabilidades aos infinitos A variância, ou seja, a medida estatística
valores da variável aleatória X, abordada que concentra as probabilidades em torno
no estudo estatístico. Ou seja, quando uma da média é indicada por Var ( x ) ou σ2 e
variável aleatória X assume infinitos valores dada por:
em um determinado intervalo ( a, b ), sendo
a probabilidade igual a zero para valores Var ( x ) = E ( x2 ) - [ E ( x ) ]2,
fora desse intervalo e a soma de todas as
possíveis probabilidades contidas nesse sendo E ( x ) o valor esperado, e E ( x2 ) dada
intervalo igual a um. Portanto, para as por:
variáveis contínuas, temos que: b

E ( x ) = ∫ x2 . f ( x ) dx〗
2

• f (x) ≥ 0, x C R;
A
a

+ oo
Para uma variável aleatória contínua
• ∫ f ( x ) dx = 1 (toda área sob a
- oo bidimensional, definida em todos os valores
curva de probabilidade, ou curva
dos números reais, a função densidade
de frequência, definida por f ( x )
de probabilidade conjunta f ( x, y ) é uma
vale um);
função que satisfaz:
b

• P ( a ≤ x ≤ b) = ∫a f ( x ) dx
• f ( x, y ) ≥ 0, para todo ( x, y ) R2;
(probabilidade correspondente
à área sob a curva limitada pelo
•∫R ∫ R
f ( x, y ) d x d y =1
intervalo compreendido entre x
= a e x = b ). Esse assunto será
O valor esperado da distribuição conjunta,
mais detalhado posteriormente no
indicado por E ( X, Y ), é dado por:
estudo da distribuição normal.

E ( X, Y ) =∫R ∫ R
x . y . f ( x, y ) d x d y
O valor esperado, indicado por E ( x ) = μ, é
a esperança matemática de uma variável
A covariância para as variáveis contínuas
aleatória contínua X, que assume os
ou discretas, ou seja, a medida estatística
infinitos valores do intervalo ( a, b ), ou seja:
que possibilita verificar se as variáveis
envolvidas na análise são diretamente ou

069
unidade 4
ESTATÍSTICA E PROBABILIDADES

inversamente proporcionais. Isso porque à medida que X aumenta o Y também aumenta, ou à


medida que X diminui o Y aumenta, respectivamente. Tal relação é dada por:

Cov ( X, Y ) = E ( X, Y ) - E ( X ) . E ( Y )

E o coeficiente de correlação das variáveis contínuas ou discretas, indicado por ρX , Y , ou seja,


a medida estatística que mensura a relação entre as variáveis X e Y é dado por:

ρ X, Y = Cov ( X, Y )
σX . σY

Sendo -1 ≤ ρ X,Y ≤ 1.

IMPORTANTE
ndependentemente de a classificação da variável aleatória ser dada como discreta ou contínua, sendo

a e b constantes e x e y variáveis aleatórias, valem as propriedades:

E(X)=μ Var ( x ) = σ2

E(a)=a Var ( a ) = 0

E(ax)=a.E(x) Var ( a x ) = a2 . Var ( x )

E(a±bx)=a±b.E(x) Var ( a ± b x ) =b2 . Var ( x )

E(ax±by)=a.E(x)±b.E(y) Var ( a x ± b y ) = a2 . Var ( x ) = b2 . Var ( y ) ± 2 . a . b . Cov ( x, y )

CONCEITO
Duas variáveis aleatórias X e Y são independentes se o produto das distribuições marginais for igual à

distribuição conjunta, ou seja:

p ( x ) . p ( y ) = p ( x , y ) para distribuição discreta;

f ( x ) . f ( y ) = f ( x , y ) para distribuição contínua.

070
unidade 4
ESTATÍSTICA E PROBABILIDADES

MODELOS Para se caracterizar como distribuição

PROBABILÍSTICOS binomial, a variável aleatória abordada no


estudo deve ter:
Assim como na Matemática, temos os
modelos que representam o comportamento a) n tentativas ou provas independentes, ou
da variável abordada no estudo, ou seja, as seja, eventos sem reposição;
retas, parábolas e hipérboles dentre tantas
outras funções matemáticas. Na Estatística, b) cada uma das n tentativas só admite dois
os modelos probabilísticos descrevem o resultados possíveis, sendo eles sucesso
comportamento de uma variável, sendo ou falha;
possível calcular a probabilidade associada
aos eventos da variável abordada no c) as probabilidades de sucesso e falha são
estudo, recorrendo apenas aos modelos complementares e constantes durante
probabilísticos. Esses modelos são todo o processo de observação.
chamados de distribuições, apresentando
particularidades próprias que facilitam a O valor esperado, ou seja, a média da
sua identificação, podendo ser divididos distribuição binomial e a variância são
em contínuos e discretos, assim como as dadas por:
variáveis estudadas no início deste capítulo.
E ( x ) = μ = n . p e Var ( x ) = σ2 = np . ( 1 - p ),
respectivamente.
DISTRIBUIÇÃO
BINOMIAL A probabilidade de ocorrência de um
determinado evento na distribuição
A distribuição binomial é denotada por binomial é dada por:
X~Bin ( n; p ), sendo n o número de
n
amostragens (tentativas) e p a probabilidade P ( X = x ) = ( x ). px. ( 1 - p )n-x
de sucesso do experimento. Trata-se de
n
uma distribuição discreta, aplicada em sendo: ( x ) a combinação de n elementos
n n!
casos dicotômicos, ou seja, experimentos x a x, ou seja: ( x ) = e p a
( n- x) ! . x!
aleatórios com apenas duas possibilidades probabilidade de sucesso.
de resposta, denotadas por sucesso ou
falha. Podemos citar como exemplo o A distribuição binomial é amplamente
lançamento de uma moeda, um item ter aplicada para avaliar probabilidades de
defeito ou não, um funcionário faltar ou não. eventos relacionados com controle de

071
unidade 4
ESTATÍSTICA E PROBABILIDADES

qualidade, mercado de ações, risco de e-λ . λx


P(X=x)=
apólices de seguro, análise demográfica e x!

vendas, dentre outras inúmeras situações


de controle da variabilidade inerente ao
A distribuição Poisson pode ser aplicada
processo produtivo.
como um caso limite da binomial, quando
o tamanho da amostra em eventos
dicotômicos é maior que 30.
DISTRIBUIÇÃO
POISSON
DISTRIBUIÇÃO
A distribuição Poisson é denotada por
NORMAL
X~Poisson (λ), sendo λ a taxa média,
1
ou seja, λ = μ e sendo λ também sempre
A distribuição normal é denotada por
inversamente proporcional ao intervalo de
X~Normal (μ; σ2 ), sendo o valor esperado,
tempo ou espaço definido no problema.
ou seja, a média da distribuição normal e a
Portanto, o seu valor deve corresponder ao
variância dadas por:
tamanho do intervalo apresentado. Assim,
para qualquer outro intervalo, o valor da
E ( x ) = μ e Var ( x ) = σ2, respectivamente.
média deve sofrer a correção numérica
adequada.
Por diversas razões, tanto na teoria
quanto na prática, a distribuição normal
A distribuição Poisson é uma distribuição
é a mais importante das distribuições de
discreta, aplicada em variáveis aleatórias
probabilidade. Isso porque muitas variáveis
cujo número de sucessos observados num
no mundo real têm comportamento bastante
intervalo contínuo, de tempo ou espaço,
aproximado dessa distribuição. Sua
pode estar relacionado à quantidade
relevância pode ser destacada pelo fato de:
de: carros que passam em um sinal por
minuto; defeitos por metro quadrado de um
a) seus resultados serem de fácil operação
revestimento; chamadas por hora numa
matemática;
delegacia etc.

b) muitas técnicas estatísticas pressuporem


A probabilidade de ocorrência de um
que os dados têm distribuição normal;
determinado evento com distribuição
Poisson é dada por:
c) os dados de muitas situações reais,

072
unidade 4
ESTATÍSTICA E PROBABILIDADES

embora não sejam rigorosamente normais, podem gerar bons resultados, facilitando o
tratamento matemático;

d) a distribuição amostral de muitas estatísticas tenderem à distribuição normal, em face do


teorema do limite central.

Essa distribuição é classificada como contínua, podendo a variável assumir qualquer valor
dentro de um intervalo previamente definido. Essa distribuição, delineada por uma curva em
forma de sino com f.d.p, é dada por:

As principais propriedades da distribuição normal são:

1) ter a forma de um sino;

2) ser simétrica em relação à média μ ;

3) ser assintótica1 em relação ao eixo de x;

4) ser unimodal2 e ter achatamento proporcional ao desvio padrão ou variância;

5) ter média, moda e mediana iguais.

FIGURA 21 - Distribuição normal

Fonte: TRIOLA, 2011, p.88.

1 - Não toca o eixo x.


2 - Só tem uma moda.

073
unidade 4
ESTATÍSTICA E PROBABILIDADES

Como o cálculo da área abaixo da curva é a integral da f.d.p. nos limites desejados e esse
cálculo é, muitas vezes, longo, a área sob a curva pode ser simplificada pela transformação:

x-μ
z= w
σ

Sendo z uma variável aleatória com distribuição normal, média zero e variância 1, e x sendo
uma variável aleatória com distribuição normal, média μ e variância σ2.

A área total limitada pela curva normal e pelo eixo das abscissas é 1u.a. (uma unidade de
área), ou seja, 100%, sendo as áreas sob a curva limitadas pela distância entre o desvio padrão
e a média. Essa área é apresentada na tabela a seguir.

TABELA 18 - Área sob a curva da normal

Fonte: BARBETTA, 2010, p. 377.

074
unidade 4
ESTATÍSTICA E PROBABILIDADES

Sendo a primeira coluna e a primeira linha o número inteiro mais a primeira casa decimal e
a segunda casa decimal, respectivamente, do número z calculado pela estatística de teste
x-μ
z= e, no centro da tabela, as probabilidades correspondentes à área entre zero e esse
σ
ponto, conforme ilustração a seguir.

FIGURA 22 - Distribuição normal padrão

Fonte: Elaborado pela autora.

APLICAÇÃO
PRÁTICA
Uma grande indústria compra diversos novos processadores de texto no final de cada ano, sendo que o número

exato deles depende da frequência dos reparos no ano anterior. Suponha que o número de processadores,

indicado por X, que são comprados a cada ano, tenha a seguinte distribuição de probabilidade:

TABELA 19 - Distribuição de frequências

X 0 1 2 3
P(X) 0,10 0,30 0,40 0,20

Fonte: Elaborado pelo autor.

Se o custo do modelo desejado permanecer fixo em R$ 1500,00 durante este ano e um desconto de 50.X2

(em reais) for fornecido em relação a qualquer compra, quanto a empresa espera gastar E ( X ) em novos

processadores no final do ano?

E ( X ) = 0.0,1 + 1.0,3 + 2.0,4 + 3.0,2

E ( X ) = 1,7

075
unidade 4
ESTATÍSTICA E PROBABILIDADES

REVISÃO
A distribuição discreta é usada em casos cujos dados analisados podem ser alocados em uma
tabela de probabilidades, sendo que aquelas localizadas no centro da tabela são classificadas
como probabilidade conjunta e as localizadas nas laterais, como probabilidades marginais.

Probabilidades marginais são aquelas que correspondem a apenas uma das variáveis em
estudo, e as probabilidades conjuntas são as que correspondem a duas variáveis analisadas
concomitantemente.

A distribuição contínua é usada em casos cujos dados analisados podem ser alocados em um
intervalo contínuo.

No que tange as distribuições de probabilidade, cabe ressaltar:

TABELA 20 - Revisão das medidas de tendência central

DISTRIBUIÇÃO LIMITAÇÕES QUANDO USAR

Binomial Não usual para amostras com Quando os eventos estudados permitem apenas
mais de 30 elementos. duas respostas possíveis.

Poisson Quando o foco do estudo é na quantidade do


período.

Normal Quando a média e o desvio padrão são


conhecidos.

Fonte: Elaborado pelo autor.

PARA SABER
MAIS
MOORE, David. A estatística básica e sua prática. Rio de Janeiro. LTC, 2014.

Para uma fundamentação matemática mais aprofundada sobre o assunto, consulte a seguinte obra:

MONTGOMERY, Douglas; RUNGER, George Estatística aplicada e probabilidade para engenheiros. 3 ed.

Rio de Janeiro: LTC, 2009.

076
unidade 4
UNIDADE
ESTIMAÇÃO DE MÉDIAS
E PROPORÇÕES

N
as unidades anteriores, você estudou três grandes áreas do método estatístico:
amostragem e coleta de dados; análise exploratória de dados; e teoria de
probabilidades. A partir de agora, você vai entender como essas áreas se relacionam
para construir a quarta área do método estatístico, que é a decisão na presença de incerteza
ou estatística inferencial.

A estatística inferencial recebe esse nome por ser um conjunto de métodos e técnicas que
permitem, a partir dos dados provenientes de uma amostra, inferir informações sobre toda
a população alvo do estudo. Logicamente existe uma incerteza associada a esse processo,
mas ela é quantificada através dos níveis de confiança e margens de erro do estudo. Essa é a
grande contribuição da estatística inferencial, permitir que se conheça o nível de incerteza da
informação antes de tomar decisões.

Existe uma infinidade de técnicas de estatística inferencial, como os intervalos de confiança,


testes de hipóteses paramétricos e não paramétricos, análises de correlação e regressão,
dentre outras. Para que você tenha noção da quantidade de técnicas, imagine que exista um
curso de graduação em Estatística com duração de quatro anos em que o aluno passa a maior
parte do tempo estudando técnicas de estatística inferencial. E ainda assim esse tempo não é
suficiente para estudar todas as técnicas!

A boa notícia é que em todas essas técnicas existe um ponto em comum, conceitos que
são utilizados em todas elas, como estimativa pontual, intervalos de confiança e testes
de hipóteses. Esses conhecimentos estão presentes em todas as técnicas de estatística

078
unidade 5
ESTATÍSTICA E PROBABILIDADES

inferencial. E é exatamente o que estudaremos nas próximas unidades.

Nesta unidade, especificamente, você vai conhecer o teorema principal da estatística, o


fundamento de grande parte das técnicas de estatística inferencial: o teorema central do
limite. Esse teorema fala sobre a relação entre o modelo normal de probabilidades e a média
calculada a partir de uma amostra. Você consegue imaginar qual seja essa relação?

Aqui você vai descobrir como são calculadas as margens de erro das pesquisas eleitorais,
que são obtidas através das estimativas pontuais e intervalares para médias e proporções
populacionais. Vai descobrir como utilizar o Excel para construir uma calculadora para intervalos
de confiança. E também um software muito útil para fazer várias análises estatísticas, o EpiInfo.

TEOREMA CENTRAL
DO LIMITE
Imagine a seguinte situação: um engenheiro de produção deseja monitorar um processo de
produção de fibra sintética de maneira a garantir que a característica de qualidade resistência
à tração esteja sempre dentro dos limites de especificação. É conhecido que a resistência à
tração das fibras produzidas naquela empresa é normalmente distribuída com média de 75 psi
(libras força por polegada quadrada) com desvio-padrão de 3,5 psi.

Como não é viável medir a característica de qualidade em todas as peças produzidas (inspeção
100%) ele decidiu coletar amostras periodicamente para verificar se não houve alteração na
média do processo. Acontece que cada vez que ele coleta uma amostra e obtém a média
dessa amostra existe uma variação, ou seja, as médias das amostras são sempre diferentes.
A dúvida é: o engenheiro pode afirmar que houve alteração na média do processo (de todas as
peças produzidas) ou a variação é devida simplesmente à uma flutuação amostral?

O teorema central do limite (TCL) poderá auxiliar o engenheiro a interpretar os resultados


dessas amostras e resolver a dúvida. O TCL diz que quando trabalhamos com amostras e
calculamos médias, as médias das amostras são normalmente distribuídas em torno da
verdadeira média populacional. Isso acontece porque, exatamente pelo fato de serem
baseadas em sorteio aleatório, as amostras são sempre diferentes e, se calcularmos então a
média em cada amostra, é bem difícil encontrarmos exatamente os mesmos valores.

079
unidade 5
ESTATÍSTICA E PROBABILIDADES

Entretanto, apesar de as amostras serem 3,5 psi. Encontre a probabilidade de uma


diferentes e terem médias diferentes, amostra aleatória de n = 25 fibras ter uma
se selecionarmos várias amostras e resistência média menor que 73,6 psi.
obtivermos suas médias, podemos fazer um
histograma dessas médias. Ao realizar esse Note que a distribuição amostral de é
procedimento poderemos ver que, à medida normal, com média μX = ̅75 psi e um desvio-
que aumentamos a quantidade de amostras, padrão de
o histograma mais se assemelha à curva
da distribuição normal de probabilidades σX ̅ = σ = 3,5 = 0,7 psi
e, ainda, a média dessas médias mais se √n √25
aproxima da verdadeira média populacional.
Consequentemente, a probabilidade
desejada corresponde à área sombreada na
Definição do teorema central do limite:
figura abaixo.

Se X é uma variável aleatória com média µ e


FIGURA 23 - Distribuição amostral de X -
variância σ2 e é a média de uma amostra Média 75 e desvio-padrão 0,7
com n elementos dessa variável aleatória,
então podemos dizer que a forma limite da
distribuição de

X-μ
z=
σ
⁄√n
é a distribuição normal padrão quando n
tende ao infinito. Fonte: Elaborada pelo autor.

Desse modo, podemos dizer que


Podemos dizer ainda que X é normalmente
distribuído com média μX = μ e desvio-
P( < 73,6 ) = P ( Z < z ) onde o valor de z é
padrão σX = σ ⁄ .
√n obtido através da padronização:

EXEMPLO 73,6 - 75
z= = -2
35
⁄√25
Pensando no exemplo das fibras sintéticas,
chamamos de X a variável aleatória Então,
resistência à tração das fibras. Sabemos
que a média é 75 psi e o desvio-padrão é P( < 73,6 ) = P ( Z < -2 ) = 0,0228 (pela

080
unidade 5
ESTATÍSTICA E PROBABILIDADES

tabela da distribuição normal padrão).

O resultado acima indica que a probabilidade de selecionar uma amostra de fibras e obter
resistência média menor que 73,6 psi é de 2,28%. Na Unidade 7 veremos que essa probabilidade
pode ser considerada baixa e, portanto, de posse dessa informação, o engenheiro poderia adotar
o seguinte critério: ao observar uma amostra de fibras com resistência média menor que 73,6
psi, o processo deve ser verificado.

É importante ressaltar que o TCL pode ser utilizado ainda que a distribuição da variável
aleatória X não seja normal, ou seja, o teorema é valido para qualquer que seja a distribuição
de X. Essa é a grande contribuição do TCL para o desenvolvimento dos métodos estatísticos.
Entretanto, nas situações em que a distribuição da variável aleatória X seja muito assimétrica,
a aplicação do TCL é adequada para amostras grandes ( n ≥ 30 ). A figura abaixo ilustra as
distribuições amostrais de para diferentes populações e diferentes tamanhos de amostra.

FIGURA 24 - Distribuições amostrais de para diferentes populações e tamanhos de amostra


População original Distribuição amostral Distribuição amostral Distribuição amostral
(distribuição de X) de X para n = 2 de X para n = 5 de X para n = 30

Fonte: Elaboração do autor.

081
unidade 5
ESTATÍSTICA E PROBABILIDADES

Note nos gráficos acima que a aproximação pela distribuição normal é razoável para amostras com
30 ou mais observações. Por essa razão, a utilização do teorema central do limite é adequada quando
o tamanho da amostra for ao menos 30 ou quando a distribuição da variável aleatória X for normal.

Nos próximos tópicos, você vai descobrir como aplicar o teorema central do limite para
obter estimativas intervalares para médias e proporções populacionais a partir da média e
proporções amostrais. Na Unidade 7, o TCL será utilizado para realizar testes de hipóteses
sobre os parâmetros populacionais.

ESTIMAÇÃO PONTUAL E POR INTERVALOS DE CONFIANÇA


PARA UMA MÉDIA POPULACIONAL
Neste tópico, você vai aprender a obter uma estimativa para média populacional e calcular
a precisão dessa estimativa. Você vai entender por que apresentar a margem de erro e o
nível de confiança da pesquisa é tão importante quanto apresentar a estimativa pontual para
média. Após a leitura deste tópico, você terá um novo olhar sobre as estatísticas que lhe são
apresentadas diariamente em jornais ou revistas.

Considere que uma montadora desenvolveu um novo modelo e está elaborando a ficha técnica
do veículo. Uma informação relevante para o cliente é o consumo médio de combustível. Sabe-
se que o consumo está relacionado ao tipo de combustível (etanol ou gasolina ), à maneira
de conduzir, ao tipo de via (cidade ou estrada), à qualidade do combustível, dentre outras
variáveis. O consumo pode variar também entre os veículos de mesmo modelo, por essa razão
podemos tratar o consumo de combustível como uma variável aleatória.

Para definir o consumo médio de combustível do novo modelo de veículo, a montadora coletou
dados sobre distância percorrida e consumo de combustível de 35 veículos. Com esses dados,
calculou o consumo médio na estrada e na cidade tanto para gasolina quanto para etanol. Os
resultados são apresentados na tabela abaixo:

TABELA 21 - Revisão das medidas de tendência central

TRAJETO ETANOL (KM/L) GASOLINA (KM/L)


Cidade 8,7 12,5
Estrada 10,4 15,2

Fonte: Elaborado pelo autor.

082
unidade 5
ESTATÍSTICA E PROBABILIDADES

Os 35 veículos que participaram do Onde:


experimento podem ser considerados uma
amostra do total de veículos produzidos zα ⁄2 está relacionado ao nível de confiança
pela montadora, já que o objetivo é obter desejado para o estudo;
informação sobre todos os veículos do
referido modelo que são produzidos. Dessa σ é o desvio-padrão populacional da
forma, a montadora está utilizando a média variável aleatória X;
da amostra para estimar µ, o consumo
médio de todos os veículos. n é o tamanho da amostra coletada.

Dizemos que a média da amostra O nível de confiança do estudo é definido


representa um único estimador numérico pelo valor de zα⁄2 que pode ser obtido da
da média da população. Por essa razão, tabela da distribuição normal padrão. O nível
recebe o nome de estimador pontual. de confiança é dado em valor percentual e
Observe, por exemplo, na tabela 20 que o deve ser sempre inferior a 100%. Chamamos
consumo médio do veículo na cidade com significância (α) o percentual restante, de
etanol foi estimado em 8,7 km/l, mas não foi maneira que confiança + significância =
apresentada nenhuma informação quanto à 100%. Por exemplo, para um estudo com
precisão dessa estimativa. 95% de confiança, o valor de α será 5%. O
valor de z = 1,96 é definido então a partir da
No tópico anterior, vimos que a média distribuição normal padrão, como ilustra a
amostral pode ser considerada uma figura abaixo:
variável aleatória. Isso significa que, caso
selecionássemos outra amostra de 35 FIGURA 25 - Definição do valor
de z para confiança de 95%
veículos e calculássemos o consumo
médio na cidade com etanol, o resultado
poderia ser diferente de 8,7 km/l. Por
essa razão, a estimativa pontual deve vir
sempre acompanhada da margem de erro,
informando assim sua precisão. A margem
de erro pode ser obtida através da equação
abaixo:
Fonte: Elaborado pelo autor.
σ
E = Zα
/2 √n

083
unidade 5
ESTATÍSTICA E PROBABILIDADES

Observe também que, para o cálculo da


IC [ μ; ( 100 - α ) % ] = ±E
margem de erro, precisamos conhecer o
desvio-padrão populacional da variável
Ou seja, o intervalo de confiança para μ, a
aleatória X, isto é, o desvio-padrão do
verdadeira média populacional, com um nível
consumo de combustível de todos os
de ( 100 - α ) % de confiança, é dado pela
veículos do referido modelo produzidos
média amostral menos a margem de erro e a
pela montadora. Entretanto, como a
média amostral mais a margem de erro.
amostra pode ser considerada grande ( n >
30 ), podemos utilizar o desvio-padrão da
O resultado do exemplo acima é comumente
amostra s como aproximação de σ, e então
interpretado da seguinte maneira: “se
o cálculo da margem de erro será:
obtivermos várias amostras de 35 veículos
e, para cada uma delas, calcularmos os
S
E = Zα correspondentes intervalos com 95% de
/2 √n
confiança, esperamos que a proporção de
intervalos que contenham o verdadeiro
Vamos obter, portanto, a margem de erro
consumo médio μ seja igual a 95%”.
para o verdadeiro consumo médio de etanol
na cidade para esse veículo, com um nível
Exemplo:
de 95% de confiança, sabendo que o desvio-
padrão do consumo de etanol na cidade
Para os dados da tabela 20, supondo que o
para a amostra dos 35 veículos foi de 4 km/l.
desvio-padrão para o consumo de etanol na

4 estrada seja de 2 km/l, obtenha o intervalo


E = 1,96 = 1,325
√35 de 95% para o verdadeiro consumo médio.

O cálculo acima mostra que a margem de erro


Solução:
do estudo é de 1,325 km/l para o consumo
do veículo ao rodar com etanol na cidade.
Para resolver a questão acima, podemos
Com isso, podemos dizer que o verdadeiro
utilizar a equação:
consumo médio do veículo é de 8,7 km/l com
uma margem de 1,325 km/l para mais ou para
menos, ou seja, está entre 8,7 - 1,325 = 7,375 IC [ μ; 95% ] = ±E
km/l e 8,7 + 1,325 = 10,025 km/l. O intervalo
que acabamos de construir (7,375; 10,025) Precisamos, portanto, encontrar a margem
é conhecido como intervalo de confiança ou de erro do estudo. Para isso, vamos utilizar
estimador intervalar e é definido pela equação: a equação:

084
unidade 5
ESTATÍSTICA E PROBABILIDADES

S o desvio-padrão populacional também é


E = Zα
/2 √n desconhecido, o que torna inadequada a
aplicação da equação para o cálculo da
Logo: margem de erro.

2
E = 1,96 * = 0,663
√35 Felizmente, quando trabalhamos com
grandes amostras ( n > 30 ), o desvio-
Então:
padrão amostral (s) é uma boa aproximação
IC [ μ ; 95% ] = 10,4 ± 0,663 para o desvio-padrão populacional (σ), o
que possibilita a utilização da equação
O intervalo é comumente apresentado como apresentada para o cálculo da margem de
segue: erro. Mas, o que fazer quando a amostra
é pequena ( n < 30 )? É exatamente o que
IC [ μ ; 95% ] = [ 9,737 ; 11,063 ] descobriremos aqui.

Dessa forma, afirmamos com 95% de Nas situações em que a amostra é pequena,
confiança que o consumo médio de etanol nos deparamos com dois problemas:
na estrada para o novo modelo de veículo
1. Não podemos utilizar o teorema central
está entre 9,737 km/l e 11,063 km/l.
do limite para dizer que a média amostral
( ) é normalmente distribuída, pois o
TCL é válido somente para amostras com
ESTIMAÇÃO POR
mais de 30 observações.
INTERVALOS DE
CONFIANÇA PARA
2. A aproximação do desvio-padrão
UMA MÉDIA
populacional pelo desvio-padrão
POPULACIONAL
amostral é considerada pobre.
(AMOSTRAS
PEQUENAS) Para contornar o problema 1, lançamos
mão do seguinte teorema:
Você deve ter observado no tópico anterior
que o cálculo da margem de erro para o
Se X é uma variável aleatória normalmente
intervalo de confiança exige o conhecimento
distribuída, ao selecionar amostras de
do desvio-padrão populacional (σ).
tamanho n, a distribuição amostral de
Entretanto, na maioria das vezes em que
será uma distribuição normal.
se deseja estimar a média populacional,

085
unidade 5
ESTATÍSTICA E PROBABILIDADES

Esse teorema garante que, se a variável aleatória X é normalmente distribuída, então a


distribuição amostral de será normal independente do tamanho da amostra.

Para contornar o problema 2, vamos precisar utilizar uma nova distribuição de probabilidades,
a distribuição t-student. Essa distribuição é muito semelhante à distribuição normal: tem
forma de sino, é simétrica e tem média zero. A diferença é que a distribuição t-student é
mais achatada (tem caudas mais pesadas). Com isso, as estimativas obtidas a partir dessa
distribuição serão menos precisas.

FIGURA 26 - Comparação entre a distribuição normal e a distribuição t-student (5 gl)

Fonte: Elaborado pelo autor.

A figura abaixo ilustra parte da tabela dos valores mais utilizados para distribuição t-student.
Para construção de intervalos de confiança, devemos olhar os valores para área em duas
α α
caudas e a área deve se referir ao valor de ⁄ + ⁄ . Os graus de liberdade são dados por n -
2 2
1, ou seja, o tamanho da amostra menos 1.

086
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 27 -Valores tabelados para distribuição t-studen

Fonte: TRIOLLA, 2013, p. 614.

Exemplo:

Uma equipe de engenharia está desenvolvendo uma nova mistura para concreto e deseja
estimar a resistência média do produto à compressão. Como o teste de resistência à
compressão é um ensaio destrutivo, o máximo que a equipe conseguiu para realização do
estudo foram 10 corpos de prova. A resistência média à compressão da amostra foi de 2.500
psi e o desvio-padrão foi de 45 psi. Sabendo que a resistência do concreto à compressão segue
uma distribuição normal, obtenha uma estimativa intervalar para a verdadeira resistência
média populacional com 95% de confiança.

Solução:

Observe que o tamanho da amostra é pequeno, n = 10, e o desvio-padrão foi obtido da amostra
(não conhecemos o desvio-padrão populacional). Nesse caso, para construir o intervalo de
confiança, é necessário utilizar a distribuição t-student e a margem de erro deve ser calculada
utilizando a equação:

087
unidade 5
ESTATÍSTICA E PROBABILIDADES

S
E = t (α
/2 ; n - 1) √n

Onde tα ⁄2 ; n-1 é obtido da tabela t-student, sendo os parâmetros: α⁄2 a área em cada uma
das duas caudas e n - 1 os graus de liberdade.

Como o intervalo é de 95% de confiança, sabemos que a significância é o α = 5% (para consultar


a tabela usamos o valor em decimal, 0,05). Os graus de liberdade são obtidos calculando n-1,
ou seja, 10 - 1 = 9. Assim, encontramos que o valor de t0,025;9 é de 2,262.

FIGURA 28: Tabela t-student - encontrando t 0,025;9

Fonte: TRIOLA, 2013, p. 614

Com isso, estimamos que a margem de erro será:

E = 2,262 45 = 32,189
√10
O intervalo de confiança pode ser então obtido:

IC [ μ ; 95% ] = 2.500 ± 32,189

IC [ μ ; 95% ] = [ 2.467,81 ; 2.532,19 ]

A equipe de engenharia pôde interpretar o resultado como segue: afirmamos com 95% de confiança
que a resistência média do concreto à compressão está entre 2.467,81 psi e 2.532,19 psi.

088
unidade 5
ESTATÍSTICA E PROBABILIDADES

ESTIMAÇÃO PONTUAL E POR


INTERVALOS DE CONFIANÇA
PARA UMA PROPORÇÃO POPULACIONAL
Como são calculadas as margens de erro das pesquisas eleitorais? Possivelmente no início da
unidade você tenha ficado instigado a descobrir como é feito esse cálculo. Antes de dar início,
é preciso entender que as pesquisas eleitorais buscam descobrir o percentual de eleitores
que são favoráveis ao candidato A ou B, e esses percentuais são tratados na estatística como
proporções.

Para simplificar os cálculos, vamos pensar em uma eleição que foi para o segundo turno e, portanto,
tem apenas dois candidatos. Uma empresa de pesquisa entrevistou 2.500 eleitores quanto à
intenção de voto nos candidatos A e B. Note que "candidato" é uma variável qualitativa, e o que
queremos descobrir é como estimar a probabilidade de sucesso em um experimento binomial em
que p é a probabilidade de que o eleitor escolhido prefira o candidato A, por exemplo. Uma maneira
bem intuitiva de estimar p para a população é usar a proporção de sucessos da amostra:

ˆ = Número de eleitores que preferem o candidato A


p
Número de eleitores amostrados

Suponha que dos 2.500 eleitores amostrados 1.300 tenham declarado intenção de votar
no candidato A, 950 no candidato B e 250 em branco ou nulo. Assim, podemos estimar a
proporção de eleitores que votariam no candidato A por:

ˆp ̂= 1.300 = 0,52
2.500

Ou seja, a amostra indica que cerca de 52% dos eleitores têm intenção de votar no candidato
A. Entretanto, devemos lembrar que caso fosse realizada outra amostragem e fossem
selecionados outros 2.500 eleitores o resultado poderia ser diferente de 0,52. O valor de ˆp ̂ é
uma estimativa pontual para p, a verdadeira proporção de eleitores que têm intenção de votar
no candidato A em toda a população.

Podemos tratar p como uma média, se pensarmos que X é uma variável aleatória que assume
0 quando o eleitor declara votar no candidato B, em branco ou nulo e 1 quando o eleitor declara
votar no candidato A. Nesse caso, podemos utilizar o teorema central do limite e dizer que ˆp é

089
unidade 5
ESTATÍSTICA E PROBABILIDADES

normalmente distribuído com média μp = E o intervalo de confiança será:


√p.qn , onde q = 1-p,
p e desvio-padrão σˆp =
ou de maneira aproximada σˆ = √ˆp.qˆ , pois
p IC [ p ; 95% ] = 0,52 ± 0,0196
n
não conhecemos os verdadeiros valores de
p e q. IC [ p ; 95% ] = [ 0,5004 ; 0,5396 ]

Sabemos que o TCL é válido apenas Podemos afirmar com 95% de confiança
para amostras grandes. No caso de que a verdadeira proporção de eleitores que
estimativas para proporções, dizemos votam no candidato A em toda a população
que a amostra é grande quando n . p ≥ está entre 50,04% e 53,96%. Observe que
5 e também n . q ≥ 5, ou seja, ambos os afirmar com 95% de confiança significa
critérios devem ser satisfeitos. dizer que, se fossem feitas 100 pesquisas
e calculados os intervalos de confiança,
Caso esses critérios tenham sido satisfeitos, cerca de 95 deles conteriam a verdadeira
podemos calcular a margem de erro através proporção de eleitores que votam no
da equação: candidato A.

ˆˆ Exemplo:
E = Zα
/2 √ pq
n
A empresa XYZ compra tubos de aço do
E então o intervalo de confiança para p será: fornecedor A. Na última semana, a XYZ
recebeu uma proposta de comprar tubos de
ˆ±E
IC [ p ; ( 100 - α) % ]= p aço do fornecedor B pela metade do preço
do fornecedor A. Para decidir, o gerente de
No exemplo da pesquisa eleitoral, n . p
ˆ ̂= compras deseja estimar qual o percentual de
2.500 * 0,52 = 1.300 e n.q
ˆ ̂= 2.500 * 0,48 não conformidade nos tubos do fornecedor
= 1.200. Como ambos os critérios foram B (proporção de tubos defeituosos). Em um
satisfeitos, dizemos que temos uma lote de 150 tubos havia 21 não conformes.
amostra grande o bastante para justificar Obtenha o intervalo de 90% de confiança
a utilização do TCL, logo podemos obter para a verdadeira proporção de tubos não
a margem de erro com o nível de 95% de conformes do fornecedor B.
confiança:
Solução:
E= 1,96 √ 0,52 × 0,48
2.500
= 0,0196
Uma estimativa pontual para a verdadeira
proporção de tubos não conformes é dada por:

090
unidade 5
ESTATÍSTICA E PROBABILIDADES

pˆ = 21 = 0,14 USO DO EXCEL


150
NO CÁLCULO DE
Verificamos que a aplicação do teorema INTERVALOS
central do limite é adequada, pois n . p = 21 DE CONFIANÇA
ˆ = 150 * 0,86 = 129, ou seja, ambos
en.q PARA MÉDIA E
são maiores que 5, indicando que a amostra PROPORÇÃO
é suficientemente grande. Podemos estimar
a margem de erro do estudo pela equação: Agora que você já sabe exatamente como
são obtidos os intervalos de confiança,
E = Zα pq
ˆˆ
/2 √ n vamos utilizar o Excel para construir uma
calculadora de intervalos de confiança.
E = 1,645 √ 0,14 × 0,86
150
= 0,047 Começaremos pelo intervalo para média.

Então, definimos o intervalo com 90% de Nos tópicos anteriores, vimos que o
confiança para p pela equação: intervalo de confiança para a média
populacional pode ser obtido de duas
ˆ±E
IC [ p ; 90% ] = p maneiras: utilizando a distribuição
normal (estatística z) ou a distribuição
IC [ p ; 90% ] = 0,14 ± 0,047 t-student (estatística t). Vimos também
que a distribuição t-student é utilizada
IC [ p ; 90% ] = [ 0,093 ;0,187 ] quando o tamanho da amostra é menor
que 30 e o desvio-padrão populacional
O gerente de compras pode afirmar, é desconhecido. Nos outros casos,
com 90% de confiança, que a verdadeira utilizamos a distribuição normal.
proporção de tubos não conformes
provenientes do fornecedor B está entre Vamos construir primeiramente uma
9,3% e 18,7%. O gerente fará sua decisão calculadora para intervalos de confiança
baseado nessa informação e em outras que utilizando a distribuição normal.
julgar convenientes. Utilizaremos os dados sobre consumo
de combustível do primeiro exemplo.

A figura abaixo ilustra como deve ficar


nossa calculadora nas colunas A e B.

091
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 29 - Calculadora para intervalo de confiança para média:


amostras grandes ou desvio-padrão populacional conhecido

Fonte: Elaborado pelo autor.

Nas linhas 4 a 7 são inseridas as informações iniciais do problema, como: desvio-padrão,


que pode ser tanto da população quanto da amostra; a média amostral ̅; o tamanho da
amostra n; e o nível de confiança desejado. Note que a célula B7 deve ser configurada como
porcentagem.

Nas linhas 9 a 11 são realizados cálculos intermediários como erro padrão da média σx (ou σˆx ̅),
o valor de z relativo ao nível de confiança desejado e a margem de erro resultante. As fórmulas
utilizadas para cada um dos cálculos são apresentadas exatamente à sua direita. Por exemplo,
na célula B9 foi inserida a fórmula = B4/RAIZ(B6), que é o desvio-padrão dividido pela raiz do
tamanho da amostra. Nas linhas 13 e 14 é apresentado o intervalo de confiança, sendo limite
inferior do intervalo o valor de - E e o limite superior do intervalo o valor de + E.

Para construir a calculadora para amostras pequenas e desvio-padrão populacional


desconhecido, vamos utilizar os dados do exemplo sobre a resistência do concreto à
compressão. O procedimento é o mesmo do anterior, alterando apenas as informações
relativas aos parâmetros da distribuição t-student:

092
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 30 - Calculadora para intervalo de confiança para média:


amostras pequenas e desvio-padrão populacional desconhecido

Fonte: Elaborado pelo autor.

Para construir a calculadora de intervalos de confiança para proporções, vamos utilizar os


dados do exemplo da pesquisa eleitoral. Nesse caso, os dados iniciais são o número de
sucessos e o tamanho da amostra. Lembrando que a palavra sucesso está relacionada à
distribuição binomial e se refere ao número de vezes que ocorreu o evento de interesse. No
caso do exemplo sobre as eleições, o número de sucessos é a quantidade de entrevistados
que declarou intenção de votar no candidato A, 1300 pessoas. O tamanho da amostra foi de
2500 entrevistados. Com esses dados, calcula-se a proporção estimada p ̂ dividindo o número
de sucessos pelo tamanho da amostra (célula B6).

O erro padrão da média é calculado através da equação σˆp = √p.q


ˆ ˆ = implementada na célula
n
B9. As demais células utilizam as mesmas fórmulas já apresentadas nas calculadoras
anteriores.

093
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 31 - Calculadora para intervalo de confiança para proporção

Fonte: Elaborado pelo autor.

INTRODUÇÃO AO
PROGRAMA EPIINFO
O software EpiInfo é uma ferramenta muito útil para análise de dados. Esse software foi
desenvolvido pelo Centro de Controle de Doenças (CDC) para análise de dados epidemiológicos,
entretanto pode ser utilizado em qualquer área, inclusive em engenharia. O software está
disponível no site www.cdc.gov/epiinfo

Veja no material web da disciplina os vídeos de instalação do EpiInfo e de introdução à análise


de dados utilizando essa ferramenta.

APLICAÇÃO
PRÁTICA
Um fabricante de anéis para pistões de motor deseja verificar se seu produto atende as especificações

do cliente. Para isso, resolveu estimar o diâmetro médio dos anéis produzidos. A partir de uma amostra

094
unidade 5
ESTATÍSTICA E PROBABILIDADES

de 40 anéis, registrou-se diâmetro médio de Então:

74,045 milímetros com desvio-padrão de 0,02


IC [ μ ; 99% ] = 74,045 ± 0,008
milímetros. Construa o intervalo com 99% de

confiança para o verdadeiro diâmetro médio dos O intervalo é comumente apresentado como

anéis. segue:

Solução: IC [ μ ;99% ] = [ 74,037 ; 74,053]

Note que o enunciado não informou a distribuição Dessa forma, afirmamos com 99% de confiança

de probabilidade da variável diâmetro dos anéis que o diâmetro médio dos anéis está entre

e, além disso, também não temos informação 74,037 milímetros e 74,053 milímetros.

a respeito do desvio-padrão populacional

dessa variável. Entretanto, como a amostra é


REVISÃO
considerada grande (40 anéis), podemos valer

do teorema central do limite e afirmar que a Nesta unidade, você aprendeu a construir
distribuição amostral do diâmetro médio dos estimativas pontuais e por intervalos para
anéis é normal, com média μ e desvio-padrão os verdadeiros parâmetros populacionais
σ⁄ , através de dados provenientes de amostras.
√n onde μ é o verdadeiro diâmetro médio dos

anéis e σ o verdadeiro desvio-padrão. Sabemos Aprendeu também que existem ao menos


ainda que o estimador de μ é X ̅, a média amostral quatro maneiras de obter estimativas
e o estimador de σ é s, o desvio-padrão amostral. intervalares, e que a escolha da maneira
Dessa forma, utilizaremos as equações abaixo adequada para cada situação é determinada
para construir o intervalo com 99% de confiança basicamente pelo tipo de dados (qualitativo
para o verdadeiro diâmetro médio dos anéis. ou quantitativo) e pelo tamanho da amostra
( n < 30 ou n ≥ 30 ). O esquema abaixo
IC [ μ ;99% ] = x ± E apresenta de maneira resumida o processo
de decisão:
Precisamos, portanto, encontrar a margem

de erro do estudo. Para isso, vamos utilizar a

equação:

S
E = Zα
/2 √n

Logo:

0,02
E = 2,575 * = 0,008
√40

095
unidade 5
ESTATÍSTICA E PROBABILIDADES

FIGURA 32– Processo de decisão

Tipo de dados

Quantitativo parâmetro μ Qualitativo parâmetro p

Amostra grande ( n ≥ 30 ) Amostra pequena ( n < 30 ) Aplicável quando np ≥ 5 e nq ≥ 5

Pelo teorema central do O intervalo de confiança pode


O intervalo de
limite, o intervalo de ser obtido pela equação 3
confiança pode ser
confiança pode ser obtido apenas se a população tem
obtido pela equação 4.
pelas equações 1 ou 2. distribuição normal.

Fonte: Elaborada pelo autor

PARA SABER
MAIS
Caso você tenha se interessado pelo assunto desta unidade e deseja aprofundar nesse conteúdo,

recomendo a leitura do capítulo 5 do livro texto:

McCLAVE, James T. George Benson, Terry Sincich. Estatística para administração e economia. trad.

Fabrício Pereira Soares e Fernando Sampaio Filho; rev. téc. Galo Carlos Lopez Noriega. São Paulo:

Pearson Prentice Hall, 2009.

Se você deseja uma leitura mais formal e tem interesse em demonstrações das equações, leia o capítulo

8 do livro texto:

096
unidade 5
ESTATÍSTICA E PROBABILIDADES

MONTGMOMERY, Douglas C. George C. Runger.

Estatística aplicada e probabilidade para

engenheiros. trad. e rev. téc. Verônica Calado.

Rio de Janeiro: LTC, 2009.

Se você deseja um estudo de caso com aplicação

do conteúdo na área de engenharia, leia o artigo:

NETO, Antônio Peli. Intervalos de confiança,

Intervalos de Predição e Campo de Arbítrio nas

Avaliações de Imóveis Urbanos. Associação

Brasileira dos Engenheiros Civis - Departamento

da Bahia. Bahia, 2010. Disponível em: <http://

www.abenc-ba.org.br/attachments/289_

ANTONIO_PELLI_ABNT%20NBR%2014653-2%20

%282%C2%BAProjeto%29212751_1.pdf>.

Acesso em 16 jun. 2015.

097
unidade 5
UNIDADE
PLANEJAMENTO DE
EXPERIMENTOS

N
a Unidade 5, Estimação de médias e proporções, você aprendeu a estimar
parâmetros populacionais a partir de dados amostrais. Você deve ter observado
que os resultados amostrais foram disponibilizados, mas não foram apresentados
os métodos utilizados para seleção das amostras ou sequer a justificativa para o tamanho
amostral. Nesta unidade você vai aprender a planejar um experimento de pequeno e médio
porte na área de Engenharia e Ciências Exatas, bem como calcular o tamanho mínimo de
uma amostra que tenha representatividade estatística.

Uma situação que utiliza o planejamento de experimentos muito frequentemente é o estudo


dos efeitos do tratamento térmico de metais sobre suas propriedades mecânicas. Considere
que uma equipe de engenharia deseja estudar o efeito de três diferentes tipos de banho
de têmpera sobre a dureza de um determinado tipo de aço. Os tipos de banho de têmpera1
utilizados são têmpera em água, têmpera em óleo e têmpera em solução aquosa de cloreto de
sódio (água salgada). O propósito do estudo é determinar qual banho de têmpera produzirá a
dureza máxima do aço.

A princípio, a equipe considerou suficiente para o propósito do estudo submeter um


determinado número de corpos de provas a cada meio de têmpera e medir a dureza da liga
metálica. A partir desses resultados calcular-se-ia a dureza média em cada um dos diferentes
tipos de banho. Aquele que apresentasse a maior dureza média seria o mais adequado.

A têmpera consiste essencialmente em aquecer uma peça de aço a uma certa temperatura e, a seguir, resfriá-
la rapidamente em um banho, usualmente água, óleo ou soluções salinas. Seu objetivo é, em geral, aumentar
a dureza do aço e tornar mais elevadas suas resistências à tração, à compressão e ao desgaste

099
unidade 6
ESTATÍSTICA E PROBABILIDADES

Entretanto, ao analisar o experimento com cautela, o engenheiro de produção detectou várias


questões que deviam ser respondidas antes do início da coleta de dados: água, óleo e água salgada
são os únicos banhos de interesse no processo de têmpera? Há outros fatores que possam afetar
a dureza do aço e que devem ser pesquisados? Quantos corpos de prova devem ser submetidos a
cada banho de têmpera? De que modo os corpos de prova devem ser alocados aos três diferentes
banhos? Em que ordem os dados devem ser coletados? Qual método de análise de dados deve ser
utilizado? Qual diferença entre dureza média será considerada significativa do ponto de vista prático?

Diante de todas essas questões, a equipe constatou a necessidade de utilizar técnicas


estatísticas para planejamento do experimento, a fim de assegurar a confiabilidade dos
resultados do estudo. São estas técnicas que você irá aprender nessa unidade.

CÁLCULO DE TAMANHO DE AMOSTRA


BASEADO EM INTERVALOS DE CONFIANÇA
PARA UMA PROPORÇÃO
Para alguns pesquisadores, a definição do tamanho da amostra é o único cuidado necessário
para validade estatística do estudo. Como você observou na introdução dessa unidade, existe
uma série de cuidados que devem ser tomados ao conduzir experimentos em engenharia,
além do tamanho da amostra. A começar pelo objetivo do estudo.

Se o objetivo do estudo é comparar resultados expressos em forma de porcentagens ou


proporções, existe um método adequado para o cálculo do tamanho amostral. Se o objetivo
é comparar resultados expressos em forma de médias, existe outro método adequado para
o cálculo do tamanho amostral. Diversos outros fatores podem ser considerados nestes
cálculos, alterando, assim, a adequação de cada método.

Neste tópico você aprenderá a calcular o tamanho amostral para um estudo que tem o
interesse de estimar uma proporção populacional. Os parâmetros controlados são o nível de
confiança e a margem de erro máxima desejados para o estudo. Vejamos um exemplo:

Exemplo 8

Uma empresa fabricante de motores deseja comprar correias do fornecedor Borrachão,


pois o atual fornecedor tem apresentado um percentual elevado de peças defeituosas (não

100
unidade 6
ESTATÍSTICA E PROBABILIDADES

conformes). Para estimar o percentual de verdadeira proporção populacional. Esse


correias não conformes produzidas pelo pressuposto pode não ser satisfeito na
fornecedor Borrachão, a empresa fabricante prática. Nesse caso, deve-se utilizar o valor
de motores deseja adquirir uma amostra que ˆ e a equação passa a ser:
0,5 no lugar de p,
seja representativa. A equipe de engenharia
deseja que seja conduzido um estudo com Equação 2: Tamanho de amostra
95% de confiança e margem de erro máxima exigido para estimativa de uma
da estimativa de 2 pontos percentuais, para proporção populacional –
mais ou para menos. Qual o tamanho de Desconhecendo estimativa de pˆ ̂
amostra necessário para esse estudo? A
Zα/220,25
equação abaixo deverá ser utilizada para o n=
E2
cálculo do tamanho amostral desejado:

Equação 1: Tamanho de amostra Para o exemplo das correias, a equipe


exigido para estimativa de uma utilizou a equação 2, uma vez que não havia
proporção populacional – Conhecendo ˆ
conhecimento sobre a estimativa de p.
uma estimativa de pˆ
1,962 x 0,25
2
n=
ˆˆ
Zα/2 pq 0,022
n=
E2
n = 2.401

Onde:
Dessa forma, a equipe concluiu que para
n: é o tamanho da amostra calculado estimar a verdadeira proporção de correias
não conformes produzidas pelo fornecedor
zα⁄2 : escore z que separa uma área de
Borrachão, com 95% de confiança e uma
α/2 na cauda direita da distribuição
precisão de 2%, será necessário coletar uma
normal padrão
amostra de 1.225 correias.
ˆ é uma estimativa da verdadeira proporção
p:
populacional. Note que, caso a equipe tivesse uma
informação quanto ao verdadeiro percentual
ˆ ̂: é obtido por 1-p
q ˆ̂
de correias não conformes e desejasse
E: é a margem de erro máxima aceitável realizar um estudo apenas para confirmação
para o estudo. da informação o tamanho amostral, poderia
ser significativamente menor. Suponha
Note que a equação acima exige que que o fornecedor Borrachão afirmasse
se tenha um conhecimento prévio da que o percentual de peças não conformes

101
unidade 6
ESTATÍSTICA E PROBABILIDADES

fosse de 5%. A equipe poderia utilizar essa CÁLCULO DE TAMANHO


informação como uma estimativa de pˆ e DE AMOSTRA BASEADO
poderia então utilizar a equação 1: EM INTERVALOS DE
1,962 x 0,05 x 0,95
CONFIANÇA PARA
n=
0,022 UMA PROPORÇÃO –
n = 457 POPULAÇÃO FINITA
No tópico anterior aprendemos a calcular
Observe que o tamanho de amostra
o tamanho de amostra para estimar
necessário para confirmar a afirmação
uma proporção, mas observe que não
do fornecedor é de apenas 233 correias.
foi considerado o total de elementos na
Isso sempre acontecerá, ou seja, o
população. Isso ocorre em situações em
tamanho amostral resultante da equação
que a população é considerada infinita, ou
1 será sempre menor que o resultante
seja, o número de elementos da população
da equação 2, pois na primeira já temos
é tão grande que pode ser considerado
um conhecimento a priori do verdadeiro
infinito. Em algumas situações, no entanto,
valor populacional e desejamos apenas
esse pressuposto não é minimamente
confirmá-lo.
razoável. Nessas situações precisamos
utilizar um fator de correção para população
finita. Utilizamos, então, a equação 3:

IMPORTANTE
Equação 3: Tamanho de amostra
exigido para estimativa de uma
É importante destacar que, para o cálculo do
proporção populacional –
tamanho amostral, o resultado deve ser sempre
Correção para população finita
arredondado para cima, independentemente

do valor decimal. Assim, no exemplo anterior, ˆˆ (zα/ )2


Npq 2
n=
caso o cálculo exato resultasse em 232,1 ˆˆ (zα/2)2 + (N - 1) E2
pq
ainda assim arredondaríamos para 233

correias. Isso ocorre porque o tamanho de Considere que desejamos estimar o


amostra mínimo necessário para atender aos percentual de peças defeituosas em um lote
requisitos do nível de confiança e margem de 100 peças. Qual o tamanho de amostra
de erro seria de 232,1 correias. Como não necessário, se queremos uma estimativa
faz sentido amostrar 0,1 correia, devemos com 90% de confiança e margem de erro
selecionar uma peça a mais. máxima de 3%? Utilizando a equação 2

102
unidade 6
ESTATÍSTICA E PROBABILIDADES

teríamos o seguinte resultado: CÁLCULO DE TAMANHO


DE AMOSTRA BASEADO
1,6452 x 0,25 = 752
n=
0,032 EM INTERVALOS DE
Observe que o resultado da equação é
CONFIANÇA PARA
irreal, pois como poderíamos amostrar 457 UMA MÉDIA
peças em um lote de 100? Nessa situação
No início dessa unidade falamos que o
devemos utilizar a equação 3, que leva em
cálculo do tamanho amostral depende
consideração o tamanho do lote:
de vários fatores, sendo o principal deles
100 x 0,5 x 0,5 (1,645)2 o objetivo do estudo. Nesta seção você
n=
0,5 x 0,5 (1,645)2 + (100 - 1) 0,032 aprenderá a calcular o tamanho amostral
n = 89 para um estudo que tem o interesse de
estimar uma média populacional. Os
O tamanho da amostra passa a ser então
parâmetros controlados continuam sendo
89 peças, o que é real, ou possível, tendo em
o nível de confiança e a margem de erro
vista que o tamanho do lote é de 100 peças.
máxima desejados para o estudo. Vejamos
Caso já existisse uma informação sobre
um exemplo:
o percentual de peças defeituosas e fosse
desejável apenas confirmar a informação,
Exemplo 9
o tamanho amostral seria menor. Por
exemplo, considere que normalmente
Uma empresa fabricante de baterias
cerca de 5% das peças são defeituosas.
automotivas desenvolveu um novo produto
Para confirmar tal informação, seriam
e deseja estimar a sua vida média. De
necessárias 60 peças na amostra.
estudos anteriores, sabe-se que a vida
100 x 0,05 x 0,95 (1,645)2 média das baterias produzidas por esse
n=
0,05 x 0,95 (1,645)2 + (100 - 1) 0,032 fabricante segue uma distribuição normal,
n = 60 com desvio-padrão de seis meses. A
equipe de engenharia do produto ressalta
a importância da correta estimação da vida
média da bateria, pois a partir desta será
determinado o tempo de garantia. Por essa
razão, decidiu-se que o nível de confiança
do estudo será de 99% e a margem de erro
máxima aceitável para a estimativa é de
três meses. Utilizando a equação abaixo,

103
unidade 6
ESTATÍSTICA E PROBABILIDADES

a equipe poderá determinar o tamanho arredondar o resultado para cima.


amostral necessário para atender às
exigências do estudo. Você deve ter observado no exemplo 9
que já dispúnhamos de uma estimativa a
Equação 4: Tamanho de amostra exigido priori do desvio-padrão populacional (σ),
para estimativa de uma média populacional ou seja, a equipe utilizou o desvio-padrão

[ ]
2
das outras baterias. Em muitas situações
n= Z(α/2)Ợ
E práticas, o desvio-padrão populacional não
é conhecido e nesses casos pode-se utilizar
Onde:
uma das seguintes alternativas:
n: é o tamanho da amostra
1–U
 tilização da regra empírica da
Zα/2: escore z que separa uma área de
amplitude para estimação do desvio-
α/2 na cauda direita da distribuição
padrão: σ ≈ Amplitude⁄4. Para aplicação
normal padrão
dessa alternativa, é necessário
σ: é o desvio-padrão populacional coletar uma amostra piloto de
aproximadamente 87 observações.
E: é a margem de erro máxima aceitável
Para maior esclarecimento sobre essa
para a estimativa.
regra, consulte Triolla (2013), seção 3-3.

Utilizando a equação 4, a equipe determinou


2–C
 omece o processo de coleta sem o
que para estimar a vida média da nova
conhecimento de σ e, como base nos
bateria desenvolvida, com 99% de confiança
primeiros resultados, obtenha o desvio-
na estimativa e margem de erro máxima de
padrão amostral s. Use essa estimativa
três meses, será necessária uma amostra
em lugar de σ.
de 27 baterias.

n=
{ 2,575 x 6
E } 2
3–U
 tilize o valor de σ estimado por outros
estudos realizados anteriormente.
n = 26,5 ˜ 27

Ao calcular tamanho de amostra para


estimativa de uma média populacional,
continua valendo aquela regra de
arredondamento apresentada no tópico
anterior, ou seja, devemos sempre

104
unidade 6
ESTATÍSTICA E PROBABILIDADES

CÁLCULO DE TAMANHO confiança e margem de erro máxima de


DE AMOSTRA BASEADO cinco centímetros. Sabendo que nos anos
EM INTERVALOS DE anteriores o desvio-padrão da altura dos
CONFIANÇA recrutas era de 30 centímetros, o sargento

PARA UMA MÉDIA – utilizou a equação 4 para determinar

POPULAÇÃO FINITA o tamanho da amostra necessária,


encontrando o valor 139 (maior que o total
Nos tópicos anteriores apresentamos de novos recrutas):

{ 1,965x 30 }
uma fórmula alternativa para o cálculo 2
n=
do tamanho amostral para estimativa de
uma proporção populacional, no caso n = 139
de populações finitas. Da mesma forma,
para calcular o tamanho amostral para Sem entender o que havia feito de errado, o
estimativa de uma média populacional, no sargento decidiu conversar com um soldado
caso de populações finitas, existe também que tinha conhecimento de estatística para
um fator de correção. A equação abaixo auxiliá-lo. O soldado informou então que,
apresenta o método correto para essas neste caso, o sargento deveria utilizar a
situações: equação 5, que leva em consideração o
tamanho populacional. Utilizando o método
Equação 5: Tamanho de amostra adequado, o sargento decidiu, portanto, que
exigido para estimativa de uma média para estimar a altura média dos 100 novos
populacional – população finita recrutas, com 95% de confiança e margem
de erro máxima da estimativa de cinco cm,
n= Nσ2 (Zα/2)2
era necessária uma amostra de 59 recrutas:
(N - 1) E2 + σ2(Zα/2)2
n= 100 x 302 (1,96)2
Exemplo 10 (100 - 1) x 52 +302 x (1,96)2

n = 58,3 ˜ 59
Suponha que o exército brasileiro deseje
encomendar uma remessa de uniformes
para os novos recrutas. Para melhor
adequação dos tamanhos dos uniformes,
o sargento decidiu obter uma estimativa da
altura média deles. Dos 100 novos recrutas,
o sargento deseja obter a estimativa
a partir de uma amostra com 95% de

105
unidade 6
ESTATÍSTICA E PROBABILIDADES

PLANEJAMENTO DE como uma característica da qualidade do

EXPERIMENTOS produto (ou processo). O planejamento de


experimentos pode ser definido assim:
O planejamento de experimentos,
também conhecido como DOE (Design of Um experimento é um procedimento no
Experiments), é um conjunto de técnicas qual alterações propositais são feitas
estatísticas que visa garantir uma coleta nas variáveis de entrada de um processo
de dados eficiente para uma análise de ou sistema, de modo que se possa
dados que seja informativa e confiável. Esse avaliar as possíveis alterações sofridas
conjunto de técnicas tem vasta utilização pela variável resposta como também as
em diversas áreas do conhecimento, desde razões destas alterações (WERKEMA &
ciências ligadas à saúde até as engenharias. AGUIAR, 1996).
Em engenharia, especialmente, o DOE é
utilizado principalmente em Pesquisa e Todo processo ou sistema é impactado
Desenvolvimento, ou na área de qualidade e pelos insumos e por um conjunto de fatores.
desenvolvimento do produto. O objetivo do DOE é identificar quais são os
fatores que atuam sobre o processo, quais
O propósito dos experimentos planejados, desses fatores são controláveis e, dentre os
estatisticamente, é tornar a análise de controláveis, qual a relação que têm com o
dados tão informativa quanto possível. resultado do processo ou a característica
Experimentos que tenham sido mal de qualidade de interesse. A figura
planejados fornecem pouca ou nenhuma abaixo ilustra essa situação, podem estar
informação útil, mesmo com sofisticadas aturando sobre o sistema os insumos, os
técnicas de análise de dados, e podem levar, equipamentos, as informações do processo,
inclusive, à conclusões completamente as condições ambientais, as pessoas, os
equivocadas. métodos e os procedimentos:

Em engenharia, o DOE é utilizado em


conjunto com outras técnicas estatísticas,
como as cartas de controle de processos,
por exemplo, ou combinado ao ciclo PDCA.
Nesses casos o objetivo é, normalmente,
estudar os efeitos de possíveis fatores
sobre o resultado de um processo, expresso

106
unidade 6
ESTATÍSTICA E PROBABILIDADES

FIGURA 33 - Modelo geral de um processo ou sistema


Fatores de ruído
(não controláveis)

Y
SISTEMA Varíaveis resposta
Entradas (Características de
(PRODUTO/PROCESSO
Qualidade)

Fatores controláveis
(especificados pelo pesquisador)

Fonte: WERKEMA & AGUIAR, p.15, 2006. Adaptado.

Considere uma situação em que se deseja estudar a resistência à compressão de um concreto.


O engenheiro civil identificou que existem quatro tipos de técnicas de mistura desse concreto
e ele acredita que a resistência à compressão resultante varia conforme a técnica de mistura
utilizada. O objetivo do engenheiro é determinar qual a técnica produzirá o concreto com maior
resistência.

Com esse objetivo, decidiu produzir uma série de corpos de prova, utilizando cada uma das
quatro técnicas e medindo a resistência à compressão desses concretos. A resistência média
seria utilizada para determinar qual seria a melhor técnica de mistura.

Analisando o experimento com mais cautela, o engenheiro detectou várias questões que
deveriam ser respondidas antes do início da coleta de dados: existem apenas essas quatro
técnicas de mistura ou existem outras? Por que foram escolhidas estas quatro técnicas?
Existem outros fatores que possam afetar a resistência à compressão do concreto? Quantos
corpos de prova devem ser produzidos com cada técnica? De que modo os corpos de prova
devem ser alocados às diferentes técnicas de mistura? Qual método de análise de dados deve
ser utilizado? Qual resistência à compressão deverá ser considerada significativa do ponto de
vista prático?

Em todo experimento, a forma de coleta dos dados é fundamental para interpretação dos
resultados e, consequentemente, para confiabilidade do estudo. Suponha que nesse estudo

107
unidade 6
ESTATÍSTICA E PROBABILIDADES

sobre a resistência à compressão do é resultado das diferenças inerentes aos


concreto tenham sido utilizados quatro quatro tipos de cimento utilizados. Nesse
sacos de cimento, provenientes de quatro caso, dizemos que o efeito da técnica de
fornecedores distintos, sendo alocados da mistura foi confundido com o efeito do
seguinte maneira: tipo de cimento. Vamos apresentar agora
três princípios básicos do planejamento
Técnica de mistura 1 – cimento do
de experimentos que devem ser sempre
fornecedor A
utilizados. Estes princípios são: réplica,
Técnica de mistura 2 – cimento do aleatorização e blocagem.
fornecedor B
As réplicas são repetições do experimento
Técnica de mistura 3 – cimento do
feitas sob as mesmas condições
fornecedor C
experimentais. No exemplo que estamos
Técnica de mistura 4 – cimento do considerando, uma réplica do experimento
fornecedor D completo consiste em medir a resistência
à compressão de um corpo de prova
Você concorda com esse procedimento? produzido pela técnica de mistura 1, outro
Ao adotá-lo, o engenheiro assumiu que as pela técnica 2, outro pela técnica 3 e outro
características do cimento dos diferentes pela técnica 4. Se três corpos de prova
fornecedores são idênticas, ou que qualquer foram produzidos para cada técnica,
diferença entre os cimentos não exerceria dizemos que foram produzidas três réplicas
influência sobre a resistência à compressão do experimento (veja que teremos 3 x 4 = 12
dos corpos de prova. Entretanto, não corpos de prova, mas apenas três réplicas).
podemos tomar essa conduta, pois é
bem provável que existam características É muito importante que as réplicas sejam
específicas de cada fornecedor que produzidas sob as mesmas condições
poderiam impactar na resistência à experimentais. Isso significa que todos
compressão dos corpos de prova. os demais fatores que possam exercer
impacto sobre a característica resultante de
Da maneira como o estudo foi conduzido interesse devem ser mantidos constantes.
pelo engenheiro, quando forem obtidas
as resistências à compressão médias de O segundo princípio básico do DOE é a
cada técnica ele não será capaz de dizer aleatorização. De acordo com esse princípio,
quanto da diferença observada é resultado são definidos de maneira aleatória tanto a
da técnica de mistura utilizada e quanto ordem de realização dos ensaios individuais

108
unidade 6
ESTATÍSTICA E PROBABILIDADES

do experimento, quanto a alocação de cada realizar o experimento da seguinte maneira:


corpo de prova às respectivas condições Cada pacote de cimento será utilizado
experimentais. Esse princípio garante para produzir um corpo de prova para cada
que o efeito dos fatores não controláveis técnica de mistura. Nesse caso, cada bloco
sejam distribuídos igualmente ao longo de é um pacote de cimento (fornecedor) que
todos os ensaios, evitando assim que haja será utilizado para produzir quatro corpos
confusão do efeito desses fatores com o de prova. A figura 34 ilustra como ficaria o
efeito dos fatores de interesse. experimento. Cada retângulo vertical (azul
claro) é considerado um bloco enquanto
No exemplo citado, suponha que os corpos cada retângulo horizontal (azul escuro) é
de prova serão produzidos por operadores um corpo de prova produzido por uma das
distintos e, como se sabe, a habilidade dos quatro técnicas de mistura. Logo, para o
operadores pode influenciar a qualidade cimento proveniente do fornecedor A, por
do concreto produzido. Logo, se todas as exemplo, serão produzidos quatro corpos
amostras produzidas através da técnica de de prova, um para cada técnica de mistura.
mistura 1 forem feitas pelo operador menos Este procedimento é mais adequado que
experiente, poderemos estar continuamente aquele proposto pelo engenheiro no início
colocando a técnica de mistura 1 em da seção, em que cada pacote de cimento
desvantagem, em relação às outras seria utilizado para produção de quatro
técnicas de mistura. A distribuição aleatória corpos de prova, utilizando uma única
da ordem de produção de cada corpo de técnica de mistura.
prova para cada operador atenuaria esse
problema.

O terceiro e último princípio básico é o


princípio da blocagem. Chamamos de
blocos os conjuntos homogêneos de
unidades experimentais. No exemplo
considerado, os corpos de prova são
produzidos com cimento de fornecedores
distintos. Logo são bastante heterogêneos
em relação a outros fatores além da técnica
de mistura.

Para resolver esse problema, podemos

109
unidade 6
ESTATÍSTICA E PROBABILIDADES

FIGURA 34 - Blocagem dos cimentos para cada tipo de técnica de mistura do concreto

FORNECEDOR A FORNECEDOR B FORNECEDOR C FORNECEDOR D

Téc. 1 Téc. 1 Téc. 1 Téc. 1

Téc. 2 Téc. 2 Téc. 2 Téc. 2

Téc. 3 Téc. 3 Téc. 3 Téc. 3

Téc. 4 Téc. 4 Téc. 4 Téc. 4

Fonte: Elaborado pelo autor

TERMINOLOGIA
BÁSICA
Agora que você já aprendeu quais são os princípios básicos do DOE, vamos aprender alguns
termos comuns e muito úteis para o bom planejamento do experimento. Serão apresentados
seis termos básicos, a saber: Unidade Experimental, Fatores, Níveis de um Fator, Tratamento,
Ensaio e Variável Resposta (ou desfecho). Para melhor entendimento, vamos utilizar o exemplo
sobre resistência à compressão do concreto, do tópico anterior, e definir cada termo.

A Unidade Experimental é a unidade básica para a qual será feita a medida da resposta. No
nosso exemplo, cada unidade experimental corresponde a um corpo de prova do concreto
utilizado no estudo.

Os Fatores são os tipos distintos de condições que são manipuladas as unidades


experimentais. Ou seja, são as variáveis controláveis que podem exercer influência sobre a
variável resposta. E desejamos conhecer essa influência. No exemplo citado temos um único
fator: técnica de mistura.

Os Níveis de um fator são os diferentes modos de presença de um fator no estudo considerado.


No exemplo citado, os níveis do fator técnica de mistura são os diferentes tipos de técnica:
Técnica 1, Técnica 2, Técnica 3 e Técnica 4. Podemos dizer, portanto, que nosso fator tem
quatro níveis.

110
unidade 6
ESTATÍSTICA E PROBABILIDADES

Chamamos de Tratamento as combinações um tratamento a uma unidade experimental,


específicas dos níveis de diferentes fatores. realizamos um ensaio. No nosso exemplo
Quanto temos apenas um fator, como no sobre a resistência à compressão do
nosso exemplo, os tratamentos são os concreto, cada ensaio consiste em produzir
próprios níveis dos fatores, Tratamento um corpo de prova utilizando determinada
1 = Técnica 1, Tratamento 2 = Técnica 2, técnica de mistura do concreto.
Tratamento 3 = Técnica 3 e Tratamento 4 =
Técnica 4. No exemplo sobre os métodos de pintura de
para-choques automotivos, um ensaio seria
Em alguns estudos podemos desejar aplicar um tratamento em uma unidade
estudar dois ou mais fatores com diferentes experimental (para-choque), por exemplo,
níveis. Nesses casos, os tratamentos pintar um para-choque por Imersão usando
seriam a combinação de cada nível do fator tinta A.
1 com cada um dos diferentes níveis do
fator 2. Suponha que um engenheiro deseja Por fim, o termo Variável Resposta, você
estudar o efeito de dois métodos de pintura já conheceu nas unidades anteriores,
de para-choques de automóveis (imersão e nada mais é que o resultado de interesse
aspersão) e de três tipos de tinta (A, B e C) registrado após a realização de um ensaio.
sobre a força de adesão da tinta. No exemplo sobre as técnicas de mistura do
concreto, a variável resposta é a resistência
Aqui, o fator 1 seria o método de pintura, à compressão do corpo de prova produzido
que tem dois níveis (Imersão e Aspersão) e com cada uma das técnicas de mistura. Já
o fator 2 seria o tipo de tinta, que tem três no exemplo sobre os métodos de pintura
níveis (A, B e C). Para esse estudo, teríamos de para-choques automotivos, a variável
2x3=6 tratamentos, a saber: T1 = Imersão + resposta é força de adesão da tinta sobre o
Tinta A, Imersão + Tinta B, Imersão + Tinta para-choque, medida após a aplicação da
C, Aspersão + Tinta A, Aspersão + Tinta B tinta com cada método de aplicação e tipo
e por fim, Aspersão + Tinta C. Observe que de tinta.
a unidade experimental seria cada um dos
para-choques sobre os quais aplicaríamos
os distintos tratamentos.

Definimos como Ensaio cada realização do


experimento em uma determinada condição
de interesse (tratamento), ou seja, ao aplicar

111
unidade 6
ESTATÍSTICA E PROBABILIDADES

T2=médio e T3 = Alto.
APLICAÇÃO
PRÁTICA
Ensaio: Um ensaio seria secar uma trouxa

de roupa utilizando temperatura baixa, por

exemplo. Outro ensaio seria secar outra


Considere que você tenha uma máquina de
trouxa de roupa utilizando temperatura alta.
secar roupas que trabalha com diferentes

níveis de temperatura e deseja determinar o Variável resposta: A variável resposta

efeito do nível de temperatura sobre o tempo desse estudo é o tempo para secagem das

de secagem das roupas. roupas, que pode ser medido em minutos,

por exemplo.
a) Defina para essa situação cada um

dos seis termos básicos. b) Para este estudo, uma réplica seria secar

umas três trouxas de roupa, sendo uma


b) O que seria uma réplica nesse estudo?
para cada nível de temperatura da secadora,

c) Descreva um viés de amostragem ou seja, um ensaio para cada um dos

que poderia ser resolvido pela tratamentos existentes.

aleatorização.
c) A temperatura ambiente poderia ser um fator,

d) Descreva um viés de amostragem que de maneira que, caso realizássemos todos

poderia ser resolvido pela blocagem. os ensaios com tratamento 1 (temperatura

baixa) no período manhã (normalmente mais


SOLUÇÂO:
frio) e todos os ensaios com tratamento

a) U
 nidade Experimental: Cada trouxa de 3 (temperatura alta) no período da tarde

roupa molhada que será introduzida para (normalmente mais quente), por exemplo,

secagem. no final não saberíamos dizer quanto da

diferença no tempo de secagem é devido


Fator: O fator, nesse caso, é a temperatura
aos diferentes níveis de temperatura da
de operação da máquina de lavar.
máquina, e quanto é devido à variação

Níveis do fator: Os níveis do fator são da temperatura ambiente. Aleatorizando

as diferentes faixas de temperatura da a ordem de realização dos ensaios

secadora, podendo ser Baixo, Médio e Alto, atenuaríamos esse problema.

por exemplo.
d) Diferentes tipos de roupa poderiam ser um

Tratamento: Como estamos trabalhando problema, uma vez que roupas com malhas

com um único fator, os níveis do fator mais grossas levam um tempo maior para

são o próprio tratamento, logo, T1=baixo, secar do que outras. Devem-se agrupar as

112
unidade 6
ESTATÍSTICA E PROBABILIDADES

roupas por características semelhantes de fabricação, como leveza do pano, tamanho das peças.

A quantidade das mesmas também deve ser controlada para que cada ensaio seja feito de forma

mais homogênea possível. Por exemplo, se tiver disponível três peças de moletom, deve-se alocar

uma a cada trouxa de roupas, ou se tiver seis peças jeans, deve-se alocar duas para cada trouxa

de roupas.

REVISÃO

Nesta unidade você aprendeu que, para calcular o tamanho amostral, diversos fatores devem
ser levados em consideração. Em especial você aprendeu a calcular o tamanho amostral em
quatro situações: quando o objetivo do estudo é a estimativa de uma proporção populacional,
sendo o tamanho populacional finito ou “infinito”. E quando o objetivo do estudo é a estimativa
de uma média populacional, novamente, sendo o tamanho populacional finito ou “infinito”. O
quadro abaixo resume essas situações:

QUADRO 4 - Equações para cálculo de tamanho amostral segundo objetivos do estudo

Estimar uma proporção populacional Estimar uma média populacional

População Infinita: Equação 1 População Infinita: Equação 3

n=
ˆˆ
Zα/2 pq
E2
n=
( Zα/2Ợ 2
E
)
População Finita: Equação 2 População Finita: Equação 4
ˆˆ (Zα/ )2
Nqp Nσ2 (Zα/2)2
2
n= n=
ˆˆ (Zα/ )2 + (N - 1) E2
pq (N - 1) E2 + σ2(Zα/2)2
2

Fonte: Elaborado pelo autor.

Você aprendeu também que em qualquer área do conhecimento a coleta de dados deve ser
sempre precedida pelo planejamento do experimento. Essa prática assegura a confiabilidade
dos resultados e simplifica os métodos de análise. Por outro lado, a não observância dessa
prática inviabiliza a utilização dos resultados a despeito de qualquer técnica estatística, por
mais sofisticada que seja.

Neste sentido, os princípios básicos que você aprendeu foram: réplica, aleatorização e

113
unidade 6
ESTATÍSTICA E PROBABILIDADES

blocagem. E também os seis termos básicos Ou você pode ler o capítulo 1 do livro:
utilizados em qualquer planejamento
WERKEMA, Maria Cristina Catarino; AGUIAR,
de experimentos, a saber: Unidade
Silvio. Planejamento e análise de experimentos:
Experimental, Fatores, Níveis de um fator,
Como Identificar as principais variáveis
Tratamento, Ensaio e Variável Resposta.
influentes em um processo. Belo Horizonte:

Fundação Cristiano Ottoni, Escola de Engenharia

PARA SABER da UFMG, 1996.

MAIS
Se você tem interesse em aprender mais

sobre o cálculo do tamanho de amostra para

estimação de médias ou proporções, levando em

consideração o nível de confiança e margem de

erro da estimativa, leia o capítulo 8 do livro:

MONTGMOMERY, Douglas C. George C. Runger.

Estatística aplicada e probabilidade para

engenheiros. trad e rev téc Verônica Calado - Rio

de Janeiro: LTC, 2009.

Para este assunto você pode ler também o

capítulo 7 do livro:

TRIOLLA, Mario F. Introdução à Estatística:

Atualização da tecnologia. trad e rev téc Ana

Maria Lima de Farias, Vera Regina Lima de Farias

e Flores. Rio de Janeiro: LTC, 2013.

Se você tem interesse em aprofundar sobre

Planejamento de Experimentos, leia o capítulo

13 do livro:

MONTGMOMERY, Douglas C. George C. Runger.

Estatística aplicada e probabilidade para

engenheiros. trad e rev téc Verônica Calado. Rio

de Janeiro: LTC, 2009.

114
unidade 6
UNIDADE
TESTES DE
HIPÓTESES

O
teste de hipóteses é uma técnica estatística utilizada para avaliar alguma
afirmação feita sobre uma população de interesse através de dados amostrais.
Por exemplo: um engenheiro pode estar interessado em avaliar a hipótese de que
o tempo de duração de um fusível seja de 1.000 horas, contra a hipótese de que tal valor
seja diferente de 1.000 horas. Essa seria uma afirmação sobre uma média, uma vez que a
variável de interesse – tempo de duração – é quantitativa. Nesse caso, o objetivo é testar
se a hipotética média de 1.000 horas é verdadeira.

No exemplo em questão, seria impraticável observar o tempo de duração de todos os fusíveis


fabricados, ou seja, da população de interesse. De forma que é necessária a utilização de
dados amostrais. O engenheiro poderia selecionar alguns fusíveis, calcular o valor da média e
comparar com o valor proposto de 1.000 horas.

Você irá aprender que, além de avaliar afirmações sobre médias, as hipóteses estatísticas
também podem ser testadas para outros parâmetros de interesse, como proporções (em caso
de variáveis categóricas), desvio-padrão, medianas, etc.

116
unidade 7
ESTATÍSTICA E PROBABILIDADES

A CONSTRUÇÃO E O representada por H1 ou Ha.

SIGNIFICADO DE UMA
HIPÓTESE ESTATÍSTICA Exemplo 7.1

Uma hipótese estatística pode ser Um fabricante afirma que o tempo médio
construída a partir de alguma teoria sobre de secagem da tinta de sua marca é de 30
determinado assunto, ou através de minutos. Uma pessoa decide testar se essa
alguma afirmação sobre certo parâmetro afirmação é verdadeira. Para isso, marca o
da população em análise. No caso do tempo de secagem de 40 paredes e depois
engenheiro interessado em testar se o calcula a média. Quais seriam as hipóteses
tempo médio de duração de um fusível é nula e alternativa?
1.000 horas, a hipótese não se deu através
SOLUÇÃO:
de uma teoria, mas possivelmente em
função da experiência dele com o assunto. A hipótese nula é o tempo de secagem, igual
a 30 minutos.
Um teste estatístico tem como objetivo o
A hipótese alternativa é o contrário (ou
fornecimento de evidências para subsidiar a
o complemento): o tempo de secagem é
decisão de rejeitar ou não rejeitar uma hipótese
diferente de 30 minutos. As hipóteses são
sobre algum parâmetro de uma população
representadas da seguinte forma:
através de dados obtidos por uma amostra.
H0: μ = 30 minutos
A afirmação sobre a média populacional H1: μ ≠ 30 minutos
é tida como a hipótese nula. Damos o
Além da definição acerca das hipóteses,
nome de hipótese alternativa à afirmação
o nível de significância também deve ser
contrária à da hipótese nula.
escolhido pelo analista.

CONCEITO CONCEITO
Hipótese nula: Refere-se a uma afirmação do Nível de significância: Consiste na probabilidade

que queremos provar sobre algum parâmetro. de rejeitar a hipótese nula, dado que ela é

Geralmente representada por H0. verdadeira. Geralmente é representado pela letra

grega alfa (α). O nível de significância também é


Hipótese alternativa: Refere-se a uma afirmação
conhecido como erro tipo I.
contrária ao que queremos provar. Geralmente

117
unidade 7
ESTATÍSTICA E PROBABILIDADES

Qual seria o significado da expressão “... variável assume. No segundo caso são
rejeitar a hipótese nula, dado que ela é comparados os valores de média ou
verdadeira”? Assim como no exemplo do proporção entre dois grupos. Além disso,
tempo de duração do fusível, em que o podemos fazer testes unilaterais ou
analista resolve testar se a afirmação de bilaterais. O próximo tópico aborda o teste
que o fusível sobrevive por 1.000 horas, bilateral com uma amostra.
a operacionalização do teste ocorre a
partir de dados amostrais. Nesse caso,
pode ser obtida uma amostra muito ou TESTES PARA
pouco parecida com a população. Tanto UMA AMOSTRA
no primeiro como no segundo caso
existem probabilidades associadas. A distribuição da estatística de teste
Existem chances de coletar uma amostra tende para o formato de uma distribuição
que dê evidências de que a hipótese seja normal quando o tamanho da amostra é
rejeitada, mesmo quando, na verdade, relativamente grande (geralmente maior
a hipótese seja verdadeira. O analista ou igual a 30). Se o tamanho da amostra
sempre corre o risco de tomar uma for pequeno (menor do que 30) e o desvio-
decisão equivocada no que se refere à padrão for desconhecido, a distribuição da
rejeição ou não da hipótese nula, cabendo estatística de teste apresenta formato mais
a ele escolher quanto risco aceita correr. próximo da distribuição t de Student. Essa
Esse risco é conhecido como nível de informação é importante porque definirá até
significância e geralmente é estipulado que valor da estatística de teste a hipótese
em 10%, 5% ou 1%. Dessa forma, ao deve ser rejeitada.
efetuar um teste de hipóteses com 5% de
significância, podemos afirmar que exista
5% de probabilidade de rejeitar a hipótese TESTES DE GRANDES
nula, quando na verdade ela é verdadeira, AMOSTRAS PARA
ou seja, 5% de chance de cometer o erro UMA MÉDIA
tipo I. POPULACIONAL
Os testes de hipótese com afirmações O exemplo a seguir consiste numa situação
sobre médias ou proporções podem ser em que é feita uma afirmação acerca
feitos principalmente com uma ou duas do valor de uma média (parâmetro mais
amostras. No primeiro caso é testada testado quando trabalhamos com variáveis
uma afirmação sobre o valor que a quantitativas).

118
unidade 7
ESTATÍSTICA E PROBABILIDADES

Exemplo 7.2 Suponha que um profissional especializado


em controle estatístico de processos resolva
Uma indústria realiza o empacotamento
fazer esse teste. Nesse caso, o objetivo é
do produto café em grãos. Um dos
testar a hipótese de que o processo esteja
objetivos é que a embalagem contenha
sob controle, ou seja, que o peso médio
500 gramas de café. É natural que em
do café após empacotamento seja de 500
situações como essa exista alguma
gramas. Para a operacionalização do teste,
variação no peso do produto empacotado.
36 pacotes foram inspecionados (pesados).
Dessa forma, podem ter pacotes com
Sabendo que a média obtida através dessa
498 gramas, com 502 gramas, com 501
amostra foi de 502 gramas, e que o desvio-
gramas, com 499 gramas, ou qualquer
padrão foi de 3 gramas, podemos afirmar
outro valor próximo do especificado.
que o processo está sob controle?
No entanto, a indústria geralmente
trabalha para que exista certa margem
Para operacionalizar esse teste, devemos
de aceitação tanto para cima quanto para
seguir as seguintes etapas:
baixo, devido aos seguintes fatores:

1ª 
etapa: Estabeleça as hipóteses de
a) pacotes com volume muito
interesse
alto podem provocar aumento
exagerado de custos;
No caso em estudo, o parâmetro2 a ser
b) pacotes com peso muito abaixo testado é a média. Temos o interesse em
dos 500 gramas podem provocar verificar se ela é igual a 500 gramas. Então
sanções à indústria junto aos devemos estabelecer as hipóteses nula e
órgãos de fiscalização. alternativa. Dessa forma, as hipóteses são:

Para certificar de que o peso esteja H0: μ = 500 gramas


dentro da margem aceitável, pode ser H1: μ ≠ 500 gramas
inviável verificar todos os produtos
embalados (ou seja, toda a população
de interesse). Nesse contexto, torna-se
2 - Um parâmetro refere-se à determinada medida
interessante utilizar amostras para testar que caracterize a população de interesse. Os
parâmetros mais frequentemente investigados
se o processo encontra-se dentro de através dos testes de hipóteses são: a
média, o desvio-padrão, no caso de variáveis
padrões aceitáveis, ou seja, para testar se quantitativas e a proporção, no caso de variáveis
o processo encontra-se sobre controle. categóricas.)

119
unidade 7
ESTATÍSTICA E PROBABILIDADES

Note que o teste refere-se à média 36, podemos trabalhar com a distribuição
populacional e não amostral. A média normal padronizada. Nomeamos o valor
amostral será utilizada como base para obtido da estatística de teste, que é
tomar a decisão sobre rejeição ou não calculada de acordo com a fórmula abaixo:
rejeição da hipótese nula.

Z = σx
2ª etapa: Obtenção da estatística de teste
Essa fórmula permite que a média
O valor médio obtido pela amostra foi: = amostral obtida passe de qualquer escala
502 gramas. Será que esse valor foi obtido (em gramas, no presente exemplo) para
em função da variabilidade amostral3 , ou número de desvio-padrão. Isso possibilita
seja, o valor obtido de 502 gramas é próximo traçar comparações com os valores de
do valor proposto de μ = 500 gramas? Para probabilidade da distribuição normal
respondermos a essa questão devemos padronizada (em que a unidade de medida
verificar qual a probabilidade de obter o é a quantidade de desvio-padrão). Sem
valor 502 gramas, levando em consideração esse procedimento, essa comparação seria
a distribuição das médias amostrais, pouco viável. A fórmula é composta dos
ou seja, a possibilidade de obtenção de seguintes itens:
resultados diferentes de amostra para
Z: E
 score da distribuição normal
amostra. Para isso, utilizamos a distribuição
padronizada
normal padronizada quando o valor de σ é
conhecido ou quando o tamanho da amostra : Média obtida através da amostra
é razoavelmente grande (geralmente igual
μ: Valor da média populacional a ser testada
ou acima de 30). Quando a amostra é
pequena (geralmente menor do que 30) e o σx: Valor do desvio-padrão da distribuição
desvio-padrão é desconhecido, utilizamos das médias amostrais.
a distribuição t para avaliar a probabilidade
σ
em questão. Como no presente exemplo σx = √n
temos uma amostra de tamanho igual a
Caso não se conheça o desvio-padrão
3 - A variabilidade amostral ocorre porque populacional σ (situação muito comum),
existem chances de tomarmos tanto amostras
parecidas com a população de interesse quanto podemos utilizar o desvio-padrão obtido
amostras pouco semelhantes à população.
Qualquer processo de amostragem sujeita-se a através da amostra:
essa situação. Cabe ao pesquisador levar esse
fato em consideração ao construir um teste de σ
hipóteses sx = √n

120
unidade 7
ESTATÍSTICA E PROBABILIDADES

Dessa forma, a estatística de teste passa a ser:



Z = s/√n

Com os dados do problema, temos então:


502 - 500
Z= = 4,0
s/√36

O número obtido significa que 502 gramas encontram-se a 4,0 desvios-padrão de distância da
média populacional de 500 gramas. Mas esse valor é perto ou longe da média populacional?

• Quando Z = 0, pode-se afirmar que a média amostral é exatamente igual ao valor


hipotético da média populacional.

• Quando Z = 1, a probabilidade do valor da média amostral ter sido obtido devido à


flutuação amostral é de aproximadamente 34%, pois 68% dos dados encontram-se a
até um desvio-padrão de distância da média, conforme a figura 8.1

FIGURA 8.1: Área da distribuição normal padronizada


de acordo com o número de desvios-padrão.

Fonte: TRIOLA, 2013, p. 88.

121
unidade 7
ESTATÍSTICA E PROBABILIDADES

• Quando Z = 2, a probabilidade do valor da média amostral ter sido obtido devido à


flutuação amostral é de aproximadamente 5%, pois 95% dos dados encontram-se a
até um desvio-padrão de distância da média4.

• Quando Z = 3, a probabilidade do valor da média amostral ter sido obtido devido à


flutuação amostral é de aproximadamente 0,2%, pois 99,8% dos dados encontram-se
a até um desvio-padrão de distância da média.

Utilizando o mesmo raciocínio, com o valor de Z = 4,0, depreende-se que a probabilidade do


valor da média amostral ter sido obtida devido à flutuação amostral seja bem menor que 0,2%.
Dessa forma, o valor de Z = 4 significa que os 502 gramas obtidos pela amostra apresentam
uma grande distância dos 500 gramas propostos na hipótese nula (a distância de 2 gramas
corresponde a 4 desvios-padrão). O fato dos valores serem tidos como distantes implica
na rejeição da hipótese nula. Para definir quais valores do escore Z são considerados altos,
utiliza-se o desenho da distribuição normal padronizada, conforme o 3º passo.

Os valores acima podem ser obtidos através de um software estatístico, ou pela tabela Z.

3ª etapa: Obtenção da região de rejeição

Para tomar a decisão de rejeitar ou não a hipótese nula, podemos utilizar o diagrama da figura 8.2:

FIGURA 8.2 - Regiões de rejeição da hipótese nula

Fonte: Elaborado pelo autor.

4 - Observe pela Figura 8.1 que 34% + 13,5% = 47,5%. Ao multiplicarmos esse valor por dois, obtemos os 95%.

122
unidade 7
ESTATÍSTICA E PROBABILIDADES

A figura 8.2 representa a distribuição normal Devemos procurar na tabela o valor do nível
padronizada. A área em vermelho refere- de significância dividido por 2, ou seja α⁄2,
se à região de rejeição da hipótese nula. pois o teste é bilateral, o que implica em
Valores menores que - 1,96 desvios-padrão duas regiões de rejeição (as caudas direita
ou maiores que + 1,96 desvios-padrão são e esquerda da distribuição, conforme a
considerados demasiadamente afastados figura 8.3). Observe que a combinação da
quando consideramos uma significância de linha com a coluna gera o valor do escore
5% para o teste bilateral (ou seja, podemos Z = 1,96. O número 1,96 foi obtido através
considerar que tais valores sejam pontos de da combinação da coluna e linha formados
corte). Dessa forma, cada uma das áreas pelo valor 0,0250 referente à área da cauda
em vermelho representa 2,5% dos dados. A direita (ou esquerda) da distribuição normal
área total abaixo dos dados (soma da área padronizada.
verde com a área vermelha) representa
100% dos dados.

Quando o valor da estatística de teste


encontra-se na região em vermelho,
consideramos pouco provável que a média
amostral (ou outra estatística) tenha sido
resultado das flutuações amostrais. Os
valores críticos (- 1,96 e 1,96) foram obtidos
pelo percentil 97,5 da tabela da distribuição
normal padronizada. Podem ser calculados
também através de softwares estatísticos.
A figura 8.3 indica de onde os dados foram
obtidos.

123
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.3 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

124
unidade 7
ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão 2ª etapa: Obtenção da estatística de teste


Com base nos valores obtidos pela estatística Z = s/√n
de teste e pela região de rejeição, tomamos
uma decisão em relação à hipótese nula. Com os dados do problema, temos então:
No caso em questão, a decisão é rejeitá-la, 120,2 - 120,0 = 1,0
Z=
pois o valor 4 desvios-padrão (relativo aos 2 1,6/√64

gramas de distância entre a média amostral


3ª etapa: Obtenção da região de rejeição
e a média populacional proposta na hipótese
nula) pode ser considerado muito longe da
média, uma vez que se encontra na parte
vermelha do diagrama. A estatística de teste
no valor de 4,00 é maior do que o valor crítico
de + 1,96 (número obtido na tabela da Figura
8.3, que serve de referência para rejeição ou
não rejeição da hipótese nula).

Exemplo 7.3

Um processo foi delineado para fabricar


bancadas de tamanho igual a 120
centímetros. Para verificar se o processo
encontra-se sob controle, um especialista
coletou uma amostra de 64 peças. Foi
obtida uma média amostral = 120,2
centímetros, com desvio-padrão s = 1,6
centímetros. Teste a hipótese de que o
processo encontra-se sob controle, ou seja,
que a média populacional μ seja igual a 120
centímetros. Use significância de 10%.

1ª 
etapa: Estabeleça as hipóteses de
interesse

H0: μ = 120 centímetros


H1: μ ≠ 120 centímetros

125
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.4 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,645 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,050 (0,100 dividido por 2)5 da tabela da distribuição normal padrão da
figura 8.4.

5 - O valor 0,10 refere-se aos 10% escolhidos como nível de significância pelo pesquisador. Tal valor consiste
na probabilidade de rejeitar a hipótese nula, dado que ela é verdadeira, ou seja, probabilidade de tomar uma
decisão equivocada em relação à hipótese.

126
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.5 - Distribuição normal padrão

Fonte: BARBETTA, 2010, p. 377

127
unidade 7
ESTATÍSTICA E PROBABILIDADES

4ª etapa: Conclusão a hipótese de que a média seja igual a 10


milímetros. Use significância de 5%.
Como o valor de Z = 1,00 obtido pela
estatística de teste não supera a valor 1ª 
etapa: Estabeleça as hipóteses de
crítico de 1,645, ou seja, não pertence à interesse
região crítica, não rejeitamos a hipótese
H0: μ = 10 milímetros
nula. Não podemos descartar a hipótese de
H1: μ ≠ 10 milímetros
que a média seja 120 centímetros. Portanto,
há indícios de que o processo encontra-se
2ª etapa: Obtenção da estatística de teste
sob controle.

Nesse caso, devemos utilizar o escore t no


lugar do Z:
TESTES DE HIPÓTESES
PARA AMOSTRAS
Com os dados do problema, temos então:
PEQUENAS
- μ = 10,2 - 10,0
t=
Nos exemplos 7.2 e 7.3 as amostras têm s/√n 0,2/√16 = 4,0

tamanho maior que 30. Quando a amostra


3ª etapa: Obtenção da região de rejeição
for pequena (menor do que 30) e o desvio-
padrão for desconhecido (situação mais
Nesse caso, devemos trabalhar com a
frequente), devemos utilizar a Distribuição t
distribuição t:
de Student para realizar o teste.

O exemplo 7.4 consiste num problema de


teste de média em que a amostra é pequena
e o desvio-padrão (σ) é desconhecido.

Exemplo 7.4

Um engenheiro acredita que um processo


esteja sob controle produzindo esferas com
10 milímetros de diâmetro. Foi coletada
uma amostra com 16 esferas cujo o valor
obtido para a média foi X ̅ = 10,2 milímetros
e desvio-padrão s = 0,20 milímetros. Teste

128
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.6 - Distribuição t de Student

Fonte: Elaborado pelo autor.

Para saber o valor crítico, devemos consultar a tabela t. Como a amostra conta com 16
elementos, temos 15 graus de liberdade. Como o nível de significância é igual a 5%, devemos
procurar o escore t na coluna do 0,05 (área em duas caudas, pois o teste é bilateral)

129
unidade 7
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.7 - Tabela da Distribuição t

Fonte: TRIOLA, 2013, p. 614.

4ª etapa: Conclusão

Como o valor 4,0 obtido pela estatística de teste supera a valor crítico 2,13 obtido pela
distribuição t, rejeitamos a hipótese de que a média seja de 10 milímetros. Portanto, o processo
encontra-se fora de controle.

130
unidade 7
ESTATÍSTICA E PROBABILIDADES

TESTE PARA firma ficam estressados quando fazem

UMA PROPORÇÃO horas extras durante a madrugada.


Foi coletada uma amostra com 49
Quando trabalhamos com variáveis trabalhadores, dos quais 12 afirmaram
quantitativas, o principal parâmetro de se estressar nessa situação. Teste a
interesse costuma ser a média. Além da hipótese de que a proporção seja de
média, outros parâmetros também podem 30%. Use significância de 5%.
ser testados, como, por exemplo, o desvio-
padrão. No caso de variáveis categóricas, 1ª 
etapa: Estabeleça as hipóteses de
geralmente a medida de interesse a ser interesse
testada é uma proporção.
H0: π = 0,30
No teste de hipóteses, o valor do erro padrão H1: π ≠ 0,30
da proporção geralmente está baseado no
uso do valor hipotético: Observação 1: Enquanto a média é
representada pela letra μ, a proporção é

Sp = √π (1n -π) representada pela letra grega π (pi).

Observação 2: Para representarmos os


A fórmula para o cálculo de Z para testar
30% propostos na hipótese nula, utilizamos
uma hipótese voltada para o valor da
a escala decimal. Dessa forma, o valor
proporção da população é:
utilizado nos cálculos é 0,30 (ou seja, 30

p-π dividido por 100).


Z=
Sp
2ª etapa: Obtenção da estatística de teste

O exemplo 7.5 consiste num teste de


Antes de obtermos o escore padronizado
proporção.
Z, devemos calcular o desvio-padrão da
proporção populacional, dado pela fórmula
Exemplo 7.5
a seguir:
Um engenheiro acredita que 30% dos
trabalhadores de uma determinada

131
unidade 7
ESTATÍSTICA E PROBABILIDADES

Sp = √π (1n -π) = √0,30 (149- 0,30) = √0,21


49
= √0,00428 = 0,0655

O escore padronizado então é:


p-π 0,2653 - 0,3000 - 0,0347
Z= = = = -0,53
0,0655 0,0655 0,0655

3ª etapa: Obtenção da região de rejeição

Como o teste é bilateral e com 5% de significância, obtemos através da tabela Z o valor crítico
igual a - 1,96.

FIGURA 8.8 - Distribuição normal padronizada

Fonte: Elaborado pelo autor.

4ª etapa: Conclusão

O valor - 0,53, obtido pela estatística de teste, encontra-se fora da região de rejeição, sendo
próximo de zero e longe do valor crítico de -1,96. Dessa forma, não rejeitamos a hipótese
nula. Portanto, não há indícios de que a proporção de trabalhadores estressados na empresa
estudada seja diferente de 30%.

No próximo tópico você verá situações em que o pesquisador tem como interesse comparar
os valores dos parâmetros de duas amostras.

132
unidade 7
ESTATÍSTICA E PROBABILIDADES

TESTES PARA DUAS OU O numerador apresenta as médias das

MAIS AMOSTRAS duas amostras, enquanto o denominador


consiste na raiz da soma dos desvios-
Nos tópicos anteriores aprendemos a padrão divididos pelos respectivos
delinear testes de hipóteses bilaterais tamanhos de amostras. No exemplo 7.6 é
em que uma afirmação numérica é feita feito um teste em que são comparadas as
sobre uma média ou uma proporção para médias de duas amostras.
uma amostra. Em algumas situações o
pesquisador tem interesse em comparar Exemplo 7.6
tais valores em dois grupos. Nesse caso,
podemos afirmar que temos um teste Um engenheiro resolveu comparar o tempo
de hipótese para a comparação de duas de secagem de duas marcas diferentes de
médias ou de duas proporções. tintas para determinado tipo de parede.
Para a marca A foram verificados os tempos
de secagem de 50 paredes. O tempo médio
TESTE PARA A obtido foi A = 80 minutos, com desvio-
COMPARAÇÃO padrão s1 = 6 minutos. Para a marca B,
DE DUAS MÉDIAS EM foram verificadas 40 paredes, com tempo
AMOSTRAS médio B = 88 minutos e desvio-padrão
INDEPENDENTES s2 = 10 minutos. Teste a hipótese de que
não existe diferença entre as médias. Use
Em várias situações devemos decidir se significância 1%.
uma diferença observada entre as médias
de dois grupos pode ser atribuída ao acaso 1ª 
Etapa: Estabeleça as hipóteses de
ou se há indícios de que os valores obtidos interesse
de fato provêm de populações com médias
diferentes. Quando desejamos comparar H0: μA = μB
as médias obtidas por duas amostras
H1: μA ≠ μB
independentes, utilizamos a seguinte
estatística de teste:
2ª Etapa: Obtenção da estatística de teste

1 - 2


Z= Aplicando a fórmula, temos:
s s22
2
+ 1
n1 n2

133
unidade 7
ESTATÍSTICA E PROBABILIDADES

1 - 2 80 - 88 -8 -8 -8 -8

√ √ √ √0,72 + 2,5 √
Z= = = = = = 1,7944 = -4,46
s s2 2
6 10
2 2
36 100 3,22
+1 2 + +
n1 n2 50 40 50 40

3º Etapa: Obtenção da região de rejeição.

FIGURA 8.9 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 2,33 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,005 (0,010 dividido por 2) da tabela da distribuição normal padrão.

4ª Etapa: Conclusão

Como o valor de Z = - 4,46 é bem inferior ao valor crítico - 2,33, obtido pela tabela da
distribuição normal padronizada, rejeitamos a hipótese nula. Não há indícios de que o tempo
médio de secagem das tintas seja diferente.

TESTE PARA A COMPARAÇÃO


DE DUAS PROPORÇÕES
Quando se deseja testar a hipótese de que as proporções em duas populações são iguais, o
procedimento é análogo ao teste para a comparação de médias. A fórmula é a seguinte:

134
unidade 7
ESTATÍSTICA E PROBABILIDADES

ˆ1 - p
p ˆ2


Z=
p (1 - p) + p (1 - p)
n1 n2

ˆ = x1 e p2 = x2 (proporções amostrais)
Onde p
n1 n2
x1 + x2
p = n1 + n2 (proporção amostral combinada)

Exemplo 7.7

Um especialista acredita que a proporção de trabalhadores com estresse ocupacional no


turno da manhã seja estatisticamente diferente do turno da tarde. Uma amostra de 100
trabalhadores foi estudada, sendo 50 pela manhã e 50 a tarde. No turno da manhã contou-se
10 trabalhadores nessa situação. No turno da tarde contou-se 15. Teste a hipótese de que as
proporções sejam diferentes nos respectivos turnos. Nível de significância: 5%.

1ª Etapa: Estabeleça as hipóteses de interesse

H0: p1 = p2
H1: p1 ≠ p2

2ª Etapa: Obtenção da estatística de teste

Aplicando a fórmula, temos:

x1 + x2 10 + 15 25
p = n1 + n2 = 50 + 50 = 100 = 0,25

10
ˆ1 =
p 50 = 0,20

15
ˆ2 =
p 50 = 0,30

ˆ1 - p
p ˆ2 0,20 - 0,30

√ √
Z= = =
p (1 - p) + p (1 - p) 0,25 (1 - 0,25) + 0,25 (1 - 0,25)
n1 n2 50 50

- 0,10 - 0,10 - 0,10

√ √
= = 0,0866 = -1,15
0,25 (0,75) + 0,25 (0,75) 0,0075
50 50

135
unidade 7
ESTATÍSTICA E PROBABILIDADES

3º Etapa: Obtenção da região de rejeição.

FIGURA 8.10 - Regiões de rejeição da hipótese nula.

Fonte: Elaborado pelo autor.

O valor crítico de 1,96 positivo (ou negativo) foi obtido pela combinação da linha e coluna
relativas à área igual a 0,025 (0,050 dividido por 2) da tabela da distribuição normal padrão.

4ª Etapa: Conclusão

O Z calculado de - 1,15 encontra-se fora da região crítica. Não rejeitamos a hipótese nula.
Portanto, não há diferença na proporção de trabalhadores com estresse entre os turnos da
manhã e tarde.

APLICAÇÃO
PRÁTICA
Os testes de hipótese são extremamente úteis na engenharia, principalmente no delineamento

de experimentos. Em várias situações busca-se a otimização de processos. Espera-se que os

insumos sejam combinados da melhor maneira possível, de forma a obter produtos de qualidade

ao menor custo possível. Nesse contexto, diversos fatores podem determinar o sucesso de um

processo de produção de produtos ou serviços.

Num processo produtivo em que determinada mercadoria é embalada de forma manual por um

trabalhador, diversos fatores (ou seja, diversas variáveis) exercem influência sobre o desempenho

136
unidade 7
ESTATÍSTICA E PROBABILIDADES

desse trabalhador, como, por exemplo, a unidade focaram em testes bilaterais.


iluminação, a temperatura, o número de horas

trabalhadas, e talvez até a altura de uma Para definir o tipo de teste a ser utilizado,
bancada. Dessa forma, a execução de um levamos em consideração o tamanho
experimento com diversas combinações de da amostra e o conhecimento ou não do
valores que as variáveis possam assumir pode desvio-padrão populacional. Quando
ser útil para a otimização do processo. Por desconhecemos o desvio-padrão e a
exemplo: o desempenho dos trabalhadores é amostra tem tamanho inferior a 30,
melhor quando a temperatura de um galpão é utilizamos o teste t. No caso de conhecer o
de 22 graus celsius, de 23 ou de 24? Como um desvio-padrão populacional ou a amostra
experimento desse tipo depende da utilização igual ou superior a 30, utilizamos o teste
de amostras, torna-se fundamental o uso Z. O nome do teste ocorre em função
de testes de hipóteses para obtenção de da distribuição da estatística de teste,
conclusões acerca do processo. que é construída através do conjunto de
possíveis amostras, o que é conhecido
como distribuição amostral.
REVISÃO
Nessa unidade aprendemos os Os testes podem ser utilizados para
fundamentos dos testes de hipóteses. O verificar uma afirmação sobre uma
principal objetivo deles é contrapor uma amostra, sobre duas amostras ou sobre
hipótese de interesse, conhecida como mais de duas amostras. Os dois primeiros
hipótese nula, a uma hipótese contrária, casos foram abordados nessa unidade.
conhecida como hipótese alternativa,
em relação a um parâmetro de interesse A grande utilidade do teste de hipóteses
(geralmente a média, no caso de variáveis para o engenheiro ocorre no delineamento
quantitativas e a proporção, no caso de de experimentos e no controle estatístico
variáveis categóricas). de processos.

As hipóteses podem ser unilaterais ou


bilaterais. No primeiro caso, a hipótese
nula de igualdade contrapõe-se à hipótese
alternativa, em que o sinal é de menor
ou maior. No caso dos testes bilaterais,
na hipótese alternativa temos o sinal
de diferente. Todos os exemplos dessa

137
unidade 7
ESTATÍSTICA E PROBABILIDADES

PARA SABER
MAIS
LEVINE, David; BERENSON, Mark; STEPHAN,

David. Estatística: teoria e aplicações - usando

o Microsoft Excel em português. 6 ed. LTC, 2011,

812 p.

MOORE, David. A estatística básica e sua prática.

Rio de Janeiro: LTC, 2014.

TRIOLA, Mário. Introdução à Estatística:

Atualização da Tecnologia. 11 ed. LTC, 2013.

VitalBook file.

Para uma fundamentação matemática mais

aprofundada sobre o assunto, consulte a

seguinte obra:

MONTGOMERY, Douglas; RUNGER, George

Estatística aplicada e probabilidade para

engenheiros. 3 ed. Rio de Janeiro: LTC, 2009.

138
unidade 7
UNIDADE
ANÁLISE DE CORRELAÇÃO E
REGRESSÃO

A
o analisar um conjunto de dados, podemos ter interesse no relacionamento
entre duas variáveis quantitativas. Dessa forma, poderíamos traçar o seguinte
questionamento: um aumento no valor da variável X se relaciona a um aumento
na variável Y? Qual seria a magnitude dessa relação? As técnicas de análise de correlação
e análise de regressão podem ser utilizadas para estudos desse tipo.

A relação entre variáveis quantitativas pode ser modelada através de análise de correlação e
regressão. Com a evolução da informática nos últimos 20 anos, essas técnicas têm sido cada
vez mais utilizadas no ambiente empresarial.

Nesta unidade, você aprenderá a desenvolver cálculos para correlação e regressão tanto
passo a passo como através do software Microsoft Excel.

140
unidade 8
ESTATÍSTICA E PROBABILIDADES

ANÁLISE DE
CORRELAÇÃO
Quando temos interesse em investigar o quanto duas variáveis quantitativas estão associadas,
podemos utilizar uma medida conhecida como coeficiente de correlação.

CONCEITO
O coeficiente de correlação mede o grau de intensidade do relacionamento linear entre duas variáveis

quantitativas.

DIAGRAMA DE
DISPERSÃO
Antes de calcular a correlação entre duas variáveis, é interessante representar os dados num
diagrama de dispersão.

CONCEITO
Diagrama de dispersão: Consiste na representação gráfica de duas variáveis quantitativas no plano

cartesiano.

A figura 8.1 se refere a uma pesquisa com anúncios de vendas de 58 imóveis. As variáveis são:
ÁREA DO IMÓVEL (em metros quadrados) e VALOR DO IMÓVEL (em R$ mil).

141
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.1 - Área do imóvel x valor do Imóvel

800

700

600
Valor do imóvel (R$ mil)

500

400

300

200

100

-
0 50 100 150 200 250 300
Área (em metros quadrados)

Fonte: Elaborado pelo autor

Através do gráfico de dispersão é possível visualizar graficamente alguns aspectos relativos


ao comportamento conjunto das variáveis, como: direção, forma e força da relação.

No que se refere à direção, a figura 8.1 apresenta indícios de que as variáveis (ÁREA e VALOR)
estejam positivamente relacionadas, ou seja, parece que a direção é ascendente. Há situações
em que as variáveis apresentam associação negativa6 como por exemplo o PREÇO e a
QUANTIDADE DEMANDADA (para a maioria das mercadorias, quanto maior o preço, menor a
quantidade demandada).

Em relação à forma, na figura 8.1 podemos observar que a relação entre as variáveis parece
ser linear. Observe a reta que resume a associação. Existem situações em que duas variáveis
se encontram associadas, porém de forma não linear, como na figura 8.2.

6 - Associação negativa: Duas variáveis apresentam associação negativa quando o crescimento de uma se
associa à diminuição da outra, ou o contrário, a queda em uma se associa ao acréscimo da outra.

142
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.2 - Relação não linear entre as variáveis X e Y

80
70
60
50
40
Y

30
20
10
0
0 5 10 15 20
X

Fonte: Elaborado pelo autor

Outro aspecto de grande importância ao observar o diagrama de dispersão é a força da


relação. Na figura 8.1, o VALOR DO IMÓVEL se relaciona à ÁREA, mas a intensidade da relação
não parece tão extrema.

A figura 8.3 mostra um diagrama de dispersão onde as variáveis apresentam ausência de


relação.

FIGURA 8.3: Ausência de relação entre as variáveis X e Y

15
14
14
13
13
Y

12
12
11
11
10
0 5 10 15 20
X

Fonte: Elaborado pelo autor

143
unidade 8
ESTATÍSTICA E PROBABILIDADES

O grau de intensidade da relação linear entre duas variáveis quantitativas é dado pelo
coeficiente de correlação de Pearson.

COEFICIENTE DE
CORRELAÇÃO DE PEARSON

O coeficiente de correlação linear de Pearson consiste na medida do grau de intensidade


da relação linear entre duas variáveis quantitativas, podendo assumir valores entre -1 e 1.
Podemos afirmar que duas variáveis estão positivamente correlacionadas se elas caminham
no mesmo sentido, ou seja, quando uma delas aumenta de valor, o valor da outra também
aumenta. Nesse caso, quanto mais próxima de 1, maior a intensidade da associação entre
as variáveis. Quando as variáveis caminham em sentidos opostos, dizemos que elas
estão negativamente correlacionadas. Quanto mais próxima de -1, maior a intensidade da
associação, porém a relação é inversa.

É importante destacar que o fato de duas variáveis estarem associadas não significa,
necessariamente, que exista uma relação de causa e efeito. Por exemplo: geralmente crianças
mais novas apresentam menor peso, entretanto isso não significa que o envelhecimento
causa aumento de peso. É mais provável que a criança aumente o peso pelo fato de aumentar
a altura.

A análise de correlação tem objetivo exploratório servindo como elemento auxiliar na análise
da relação entre variáveis. Dessa forma, em muitas ocasiões o estudo da correlação é utilizado
como um recurso a mais na análise dos dados.

O coeficiente de correlação de Pearson é dado pela fórmula:

∑ ( x -x ) ( y - y )
Cor ( X, Y ) = r =
sxsy ( n - 1)

O numerador da fórmula se refere ao somatório do produto dos desvios da variável X e da


variável Y em relação às suas respectivas médias. No denominador, encontra-se o produto
dos desvios padrão de cada uma das duas variáveis multiplicado pelo tamanho da amostra
menos uma unidade.

144
unidade 8
ESTATÍSTICA E PROBABILIDADES

Exemplo 8.1 (adaptado de HINES et al, 2006)

Um engenheiro químico está estudando o efeito da temperatura de operação do processo


sobre o resultado da produção. O estudo resultou nos seguintes dados:

X - Temperatura (º Celsius) 100 110 120 130 140 150 160 170 180 190
Y - Resultado (porcentagem) 45 51 54 61 66 70 74 78 85 89

Calcule o coeficiente de correlação entre as variáveis.

Solução:

Ao realizar uma análise de correlação, é interessante construir o diagrama de dispersão para


ter uma ideia sobre a associação entre as variáveis:

FIGURA 8.4 - Resultado do processo (em %) em função da temperatura (em °C)

100
90
80
Y - Resultado (%)

70
60
50
40
30
20
10
0
0 50 100 150 200
X - Temperatura (º C)

Fonte: HINES et al (2006), pag.369

A figura 8.4 apresenta indícios de que as variáveis estão fortemente associadas. Para
confirmar essa suspeita, podemos calcular o coeficiente de correlação, conforme a tabela 8.1:

145
unidade 8
ESTATÍSTICA E PROBABILIDADES

TABELA 8.1 - Dados para o cálculo do coeficiente


de correlação entre temperatura (X) e resultado (Y)
X Y (𝑥𝑥 𝑖𝑖 − 𝑥𝑥 ) (𝑦𝑦𝑖𝑖 − 𝑦𝑦 ) (𝑥𝑥 𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦𝑖𝑖 − 𝑦𝑦 )
100 45 100 - 145 = -45 45 - 67,3 = -22,3 (-45) × (-22,3) = 1003,5
110 51 110 - 145 = -35 51 - 67,3 = -16,3 (-35) × (-16,3) = 570,5
120 54 120 - 145 = -25 54 - 67,3 = -13,3 (-25) × (-13,3) = 332,5
130 61 130 - 145 = -15 61 - 67,3 = -06,3 (-15) × (-6,3) = 94,5
140 66 140 - 145 = -05 66 - 67,3 = -01,3 (-5) × (-1,3) = 6,5
150 70 150 - 145 = +05 70 - 67,3 = +02,7 (5) × (2,7) = 13,5
160 74 160 - 145 = +15 74 - 67,3 = +06,7 (15) × (6,7) = 100,5
170 78 170 - 145 = +25 78 - 67,3 = +10,7 (25) × (10,7) = 267,5
180 85 180 - 145 = +35 85 - 67,3 = +17,7 (35) × (17,7) = 619,5
190 89 190 - 145 = +45 89 - 67,3 = +21,7 (45) × (21,7) = 976,5
𝑛𝑛
Média (X) = 145 Média (Y) = 67,3 (𝑥𝑥 𝑖𝑖 − 𝑥𝑥 )(𝑦𝑦 𝑖𝑖 − 𝑦𝑦 ) = 3985
Desv. Pad (X) = 30,3 Desv. Pad (Y) = 14,7 𝑖𝑖 = 1

Fonte: Elaborado pelo autor

3985 3985
Cor ( X, Y ) = r = = = + 0,99
( 30,3) (14,7) (10 -1) 4008,7

O valor + 0,99 obtido pelo coeficiente de correlação confirma que as variáveis estão fortemente
associadas, conforme indício dado pelo diagrama de dispersão (figura 8.4).

O exemplo 8.2 se refere a uma situação em que as variáveis apresentam correlação negativa.

Exemplo 8.2

O quadro abaixo representa o PREÇO (em R$) e a QUANTIDADE DEMANDADA de uma


determinada mercadoria.

Preço (X) 10 11 12 13 14 15 16 17 18 19
Quantidade (Y) 200 171 168 165 170 147 120 130 105 124

Solução:

Antes de calcular o coeficiente de correlação, é interessante construir o diagrama de dispersão


para ter uma ideia da direção e da forma da associação entre as variáveis.

146
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.5 - Quantidade x preço

220

200

180
Y - Quantidade

160

140

120

100
8 10 12 14 16 18 20
X - Preço

Fonte: Elaborado pelo autor

Para o cálculo do coeficiente de correlação, temos:

TABELA 8.2 - Dados para o cálculo do coeficiente de correlação entre preço (X) e quantidade (Y)

Preço (X) Quantidade (Y) (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ ) (𝑦𝑦𝑖𝑖 − 𝑦𝑦�) (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)
10 200 -4,5 50 -225
11 171 -3,5 21 -73,5
12 168 -2,5 18 -45
13 165 -1,5 15 -22,5
14 170 -0,5 20 -10
15 147 0,5 -3 -1,5
16 120 1,5 -30 -45
17 130 2,5 -20 -50
18 105 3,5 -45 -157,5
19 124 4,5 -26 -117
𝑛𝑛
Média (X) = 14,5 Média (Y) = 150 �(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦
�) = -747
Desv. Pad (X) = 3,0 Desv. Pad (Y) = 29,6 𝑖𝑖 =1

Fonte: Elaborado pelo autor

-747 -747
Cor ( X, Y ) = r = = = - 0,93
( 3,0) (29,6) (10 -1) 799,2

Portanto, as variáveis apresentam forte correlação negativa, conforme indício do diagrama de


dispersão.

Observações importantes sobre o coeficiente de correlação de Pearson:

147
unidade 8
ESTATÍSTICA E PROBABILIDADES

• O valor da correlação independe da USO DA TECNOLOGIA


unidade de medida dos dados. Por PARA O CÁLCULO DO
exemplo, se tivermos interesse em COEFICIENTE DE
medir a correlação entre ALTURA CORRELAÇÃO
e PESO de um grupo de pessoas,
tanto faz a ALTURA entrar nos O cálculo do coeficiente de correlação no
cálculos em centímetros ou em Excel é dado pela função:
metros;
= CORREL (matriz1;matriz2)
• A correlação não se aplica a mais
de duas variáveis;
Onde os parâmetros (matriz1 e matriz2)
• A correlação não faz distinção se referem aos dados das duas variáveis.
sobre qual variável se projeta em Observe a figura 8.6.
cada eixo do plano cartesiano.
Dessa forma, Cor (X,Y) = Cor (Y,X);

• As variáveis devem ser


quantitativas. O coeficiente de
correlação linear de Pearson não se
aplica a variáveis categóricas;

• A correlação mede o grau de


associação linear. Dessa forma,
se duas variáveis quantitativas se
relacionam de forma quadrática
ou exponencial, o coeficiente de
correlação linear não é indicado,
uma vez que matematicamente tem
a capacidade de captar relações
lineares.

148
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.6 - Coeficiente de correlação no Excel

Fonte: Elaborado pelo autor

REGRESSÃO
LINEAR SIMPLES
A regressão linear simples tem como objetivo estimar uma equação que relacione
matematicamente duas variáveis, sendo que uma delas é explicada pela outra. A variável
explicada geralmente é denominada variável resposta ou variável dependente. A variável
explicativa é denominada variável explanatória ou variável independente.

A análise de regressão múltipla tem por objetivo estimar uma equação que relacione
matematicamente uma variável resposta a duas ou mais variáveis explicativas.

A figura 8.7 reapresenta os dados relativos à figura 8.1 onde a variável resposta VALOR se
correlaciona à ÁREA DO IMÓVEL.

149
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.7 - Valor do imóvel x área do imóvel

Fonte: Elaborado pelo autor

Observe que os pontos do diagrama não caem exatamente sobre a reta de regressão, mas a
reta é capaz de resumir o padrão geral de comportamento dos dados. Uma das técnicas mais
utilizadas para obtenção dessa reta é conhecida como método dos mínimos quadrados.

CONCEITO
Método dos mínimos quadrados: É uma técnica estatística utilizada para resumir um conjunto de

variáveis quantitativas numa equação. Ela se baseia na minimização da distância quadrática de cada

ponto em relação à reta.

A equação que representa o modelo de regressão linear simples é:

Y1 = β0 + β1 X1 + ε1

150
unidade 8
ESTATÍSTICA E PROBABILIDADES

Onde: ^ =β
^0 + β
^ 1X
Y

Yi = valor da variável dependente na i-ésima


tentativa, ou observação; A análise de regressão se distingue da
correlação por supor uma relação de
β0 = primeiro parâmetro da equação de causalidade entre as variáveis resposta e
regressão, o qual indica o intercepto explanatória. A análise geralmente se baseia
no eixo Y, ou seja, o valor de Y quando numa referência teórica, que justifique uma
X = 0; relação matemática de causalidade.

^ ^
β1= segundo parâmetro da equação de A estimativa dos parâmetros β0 e β1
regressão, chamado coeficiente do modelo se dá a partir das seguintes
angular, que indica a inclinação da reta fórmulas:
de regressão;
^ ∑ XY - nXY
β1 =
εi = o valor do erro, que significa a diferença ∑ X2 - nX2

entre o valor verdadeiro e o valor


^
previsto pela equação de regressão (ε é β o = Y - β 1X

a letra grega épsilon). Após a estimação


da equação de regressão, o erro passa a
Exemplo 8.3
ser denominado resíduo.

Um professor acredita que a NOTA na


Os parâmetros β0 e β1 no modelo de
prova de estatística esteja relacionada ao
regressão linear são estimados pelos
número de HORAS DE ESTUDO dos alunos.
valores β0 e β1 que se baseiam nos dados
Para tentar convencer os estudantes dessa
amostrais. O “chapéu” sobre as letras indica
relação, o professor resolve fazer a pesquisa
que foi feita uma estimativa dos parâmetros
levantando dados de sete estudantes,
do modelo com base em dados obtidos
conforme o quadro abaixo.
através de uma amostra.

Dessa forma, a equação de regressão linear


baseada nos dados da amostra que é usada
para estimar um simples valor da variável
dependente, onde o “chapéu” sobre o Y
indica que ele é um valor estimado, é:

151
unidade 8
ESTATÍSTICA E PROBABILIDADES

QUADRO 8.1 -Dados para a estimação da reta de regressão


que relaciona nota na prova de estatística (Y) e horas de estudo (X)

Horas de Nota na
Estudante
estudo (X) prova (Y)
1 20 72
2 15 62
3 35 87
4 26 77
5 30 90
6 24 83
7 18 68
Fonte: Elaborado pelo autor

[a] Determine a equação da reta de regressão para os dados da tabela.

[b] Use a eq uação de regressão para estimar a nota de um estudante que tenha dedicado 20
horas de estudo para a prova.

Solução:

[a] Podemos incluir mais duas colunas na tabela para facilitar a operacionalização dos
cálculos:

QUADRO 8.2 - Cálculos para a estimação da reta de regressão


que relaciona nota na prova de estatística (Y) e horas de estudo (X)
Horas de Nota na 2
Estudante X X.Y
estudo (X) prova (Y)
1 20 72 400 1440
2 15 62 225 930
3 35 87 1225 3045
4 26 77 676 2002
5 30 90 900 2700
6 24 83 576 1992
7 18 68 324 1224
2
MÉDIA (X) = 24 MÉDIA(Y) = 77 ΣX = 4.326 ΣXY = 13.333
Fonte: Elaborado pelo autor

Na penúltima coluna foram obtidos os valores da variável X ao quadrado. Na última coluna os


valores de X foram multiplicados pelos valores de Y para cada estudante. Em seguida, foram
obtidas as médias de cada variável e, finalmente, o somatório das duas últimas colunas.
Colocando os dados obtidos nas fórmulas, temos:

152
unidade 8
ESTATÍSTICA E PROBABILIDADES

^ 1 = ∑ XY - nXY
β =
13.333 - 7 . 24. 77
=
13.333 -12.936
=
397
= 1,35
∑ X2 - nX2 4.326 - 7.24 2
4.326 - 4.032 294

^ o = 77 - (1,35) . (24) = 77 - 32,4 = 44,6


β

A equação estimada foi:

Y^ = 44,6 + 1,35 . X

Para calcular o valor estimado da nota (Y) com base no número de horas estudadas (X), basta
inserir o valor de X na equação. Considerando X = 20, temos:

Y^ = 44,6 + 1,35 . 20 = 44,6 + 27 = 71,6

Portanto, estima-se que um estudante que tenha dedicado 20 horas de estudo obtenha
aproximadamente 72 pontos na prova. Observe abaixo o diagrama da figura 8.8:

FIGURA 8.8 - Previsão da NOTA (Y) com base no número de HORAS DE ESTUDO (X)

Fonte: Elaborado pelo autor

153
unidade 8
ESTATÍSTICA E PROBABILIDADES

INTERPRETAÇÃO DO RESULTADO DA REGRESSÃO

Além de permitir a previsão de uma variável resposta em função de uma variável explanatória,
a análise de regressão também mede a variação de Y quando variamos X. A partir da equação
obtida pelos dados do exemplo 8.3, podemos afirmar que o aumento de uma unidade na
variável X (número de horas estudadas) aumenta, em média, 1,35 unidades na variável Y
(pontos na prova de estatística).

USO DA TECNOLOGIA PARA A ESTIMAÇÃO DA REGRESSÃO

Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais
utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.
No exemplo 8.4, os dados do exemplo 8.3 foram rodados no Excel.

Exemplo 8.4

Estime a equação de regressão com os dados do exemplo 8.2 utilizando o Excel.

Solução:

DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK

FIGURA 8.9 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória (X – horas de
estudo) e resposta (Y – nota na prova), respectivamente. Em seguida, aperte OK.

154
unidade 8
ESTATÍSTICA E PROBABILIDADES

FIGURA 8.10 - Comandos utilizados no Excel para análise de regressão

Fonte: Elaborado pelo autor

Após rodar a regressão, o Excel apresenta três quadros. O primeiro mostra, dentre outras
estatísticas, o valor do R-quadrado. No exemplo em questão, o valor observado é igual a 0,843.
Isso significa que o modelo explica aproximadamente 84,3% da variabilidade em Y a partir da
variação em X.

TABELA 8.3 - Estatísticas para análise de regressão

Estatística de regressão
R múltiplo 0,918
R-Quadrado 0,843
R-quadrado ajustado 0,811
Erro padrão 4,470
Observações 7
Fonte: Elaborado pelo autor

A tabela 8.4 diz respeito ao teste de significância do modelo, conhecido como teste F, que
produziu uma estatística igual a 26,8, que implica num valor p próximo de zero. Dessa forma,
rejeitamos a hipótese de que o modelo não se ajusta bem aos dados. Portanto, o modelo é
estatisticamente significativo.

155
unidade 8
ESTATÍSTICA E PROBABILIDADES

TABELA 8.4 - Resultados do teste de adequação do modelo de regressão simples (teste F)

ANOVA
gl SQ MQ F Valor p
Regressão 1 536,085 536,085 26,8271 0,00353
Resíduo 5 99,915 19,983
Total 6 636
Fonte: Elaborado pelo autor

A outra saída se refere a valores p dos testes dos coeficientes β0 e β1.

As hipóteses para o intercepto são:

H0: β0 = 0
H0: β0 ≠ 0

As hipóteses para a variável explanatória são:

H0: β1 = 0
H0: β1 ≠ 0

Os valores p iguais a zero para o intercepto e para a variável X1 implicam na rejeição da


hipótese de que os valores sejam não significativos. Portanto os coeficientes ( β0 e β1 ) são
significativos com base no teste t para cada um separadamente.

TABELA 8.5 - Coeficientes da regressão e estatísticas de interesse

Coeficientes Erro padrão Stat t valor-P


Interseção 44,59 6,48 6,88 0,00
Variável X 1 1,35 0,26 5,18 0,00
Fonte: Elaborado pelo autor

A equação estimada é:

ˆ = 44,6 +1,35 . X1
Y

Dessa forma, o modelo se mostra útil tanto para analisar o impacto que a variável explanatória
exerce sobre a variável resposta, quanto para previsão.

156
unidade 8
ESTATÍSTICA E PROBABILIDADES

A interpretação do coeficiente da variável X1 é: o aumento de uma unidade na variável X (ou


seja, a cada hora a mais de estudo) consiste no aumento de 1,35 unidades na variável Y (1,35
pontos na prova de estatística)

Para um estudante que tenha dedicado 30 horas ao estudo, o valor previsto pela equação é 85:

ˆ = 44,6 + 1,35 x 30 = 44,6 + 40,5 = 85


Y

REGRESSÃO
LINEAR MÚLTIPLA
Na regressão linear simples, uma variável resposta pode ser explicada por uma variável
explanatória. Na figura 8.7, o valor do imóvel pode ser previsto com base no seu tamanho
(em metros quadrados). O valor obtido para o R2 foi de 0,45. Isso significa que a variável
explanatória X explica 45% da variação na variável Y. No exemplo em questão, outras variáveis
também podem ser utilizadas para explicar melhor a variação de Y (preço do imóvel), como
por exemplo a idade do imóvel, o preço do condomínio, o número de banheiros, etc.

Dessa forma, na regressão múltipla, uma variável resposta se relaciona a duas ou mais
variáveis explanatórias. O objetivo também é predizer os valores de Y com base nas variáveis
explanatórias.

Na maioria das vezes, uma variável resposta se relaciona a mais de uma variável explanatória.
Nessa situação, também podemos utilizar o método dos mínimos quadrados para obter uma
equação que relacione as variáveis. Nesse caso, temos uma regressão múltipla:

Yi = β0 + β1 X1 + β2 X2 + … + βk Xk + εi

Onde:

Yi = variável resposta (variável dependente);

β0 = intercepto (valor assumido por Y quando todas as demais variáveis assumem valor igual
a zero);

β1, β2,..., βk = coeficientes angulares;

k = número de variáveis explanatórias (variáveis independentes).

157
unidade 8
ESTATÍSTICA E PROBABILIDADES

A estimação da equação de regressão linear múltipla também se dá através do método dos


mínimos quadrados. O objetivo é obter o hiperplano que melhor se ajuste ao conjunto de
dados através da minimização dos desvios quadráticos.

Com a evolução da informática, a técnica de regressão múltipla passou a ser cada vez mais
utilizada pelas organizações e pelos cientistas, pois os cálculos se tornaram menos tediosos.
No exemplo 8.5, o preço do imóvel é estimado com base em duas variáveis: ÁREA DO IMÓVEL
e NÚMERO DE QUARTOS.

Exemplo 8.5

Estime a equação de regressão relacionando o VALOR DO IMÓVEL às variáveis: ÁREA do


apartamento e NÚMERO DE QUARTOS.

158
unidade 8
ESTATÍSTICA E PROBABILIDADES

Chart  Title  
 800.000,00    
 700.000,00     y  =  1868,2x  +  239876  
 600.000,00     R²  =  0,55094  
Axis  Title  

 500.000,00    
 400.000,00    
Series1  
 300.000,00    
 200.000,00     Linear  (Series1)  
 100.000,00    
 -­‐        
0   50   100   150   200   250   300  
Axis  Title  

159
unidade 8
ESTATÍSTICA E PROBABILIDADES

Solução

DADOS > ANÁLISE DE DADOS > REGRESSÃO > OK

Nos intervalos de entrada e saída, insira o endereço das variáveis explanatória e dependente,
respectivamente, assim como foi feito para a regressão simples. Em seguida, aperte OK.

Após rodar a regressão múltipla, o Excel produz tabelas. Segue a primeira:

TABELA 8.7 - Resultados do teste de adequação do modelo de regressão múltipla (teste F)

ANOVA
gl SQ MQ F Valor p
Regressão 2 557.278.841.710 278.639.420.855 42,5 0,000
Resíduo 55 360.283.037.601 6.550.600.684
Total 57 917.561.879.310
Fonte: Elaborado pelo autor

A saída da última coluna se refere aos valores p do teste dos coeficientes da regressão. A
hipótese nula é de que cada coeficiente é igual a zero, individualmente, versus a hipótese
alternativa de que seja diferente de zero, respectivamente.

TABELA 8.8 - Coeficientes de regressão e estatísticas de interesse

Coeficientes Erro padrão Stat t valor-P


Interseção 86.873 60.689 1,43 0,16
Variável X 1 1.335 285 4,68 0,00
Variável X 2 67.719 24.091 2,81 0,01
Fonte: Elaborado pelo autor

A equação estimada é:

Yˆ = 86.873 + 1.335X1 + 67.719X2

Na última coluna temos os valores p, que mostram que as variáveis são significativas e o
intercepto não, conforme os testes t para cada coeficiente separadamente. O intercepto no
caso não tem significado prático nesse exemplo.

160
unidade 8
ESTATÍSTICA E PROBABILIDADES

Dessa forma, o modelo se mostra útil tanto para analisar o impacto que cada uma das variáveis
explanatórias exerce sobre a variável resposta, mantendo constantes as outras variáveis,
quanto para previsão. ˆ

A interpretação do coeficiente da variável X1 é: a cada uma unidade de aumento na ÁREA (ou


seja a cada metro quadrado a mais) a variável Y (VALOR) aumenta em R$ 1.335,00, se mantida
constante a variável X2 (NÚMERO DE QUARTOS).

A interpretação do coeficiente da variável X2 é: a cada uma unidade de aumento na variável


X2 (NÚMERO DE QUARTOS), a variável Y (VALOR) aumenta em média R$ 67.719, se mantida
constante a variável X1 (ÁREA).

Para um apartamento que tenha 80 metros quadrados e três quartos, o valor previsto pela
equação é:

Yˆ = 86.873 + 1.335 × 80 + 67.719 × 3=


ˆ = 86.873 + 106.800 + 203.157 = R$ 396.830
Y

APLICAÇÃO
PRÁTICA
Os exemplos de análise de regressão utilizados nesta unidade contêm uma variável explicativa, no caso

da regressão simples, ou duas variáveis explicativas, no caso da regressão múltipla. Tais situações

ilustram a utilização dos modelos de regressão para situações mais simples. Na verdade, esses modelos

podem ser utilizados com um número bem maior de variáveis explicativas.

Por exemplo, para prever o preço de revenda de um automóvel, o analista de dados pode utilizar diversas

variáveis, como: idade, número de quilômetros rodados, presença de vidros elétricos, presença de ar

condicionado, consumo de combustível na estrada, consumo de combustível na cidade, estado de

conservação dos pneus, estado de conservação da pintura, etc.

Nesse sentido, os modelos de regressão se mostram muito úteis para a realização de previsões. Outro

exemplo: imagine o gestor de uma empresa de varejo de alimentos que tem que tomar a decisão sobre a

quantidade de itens em estoque. Nesse caso, ele não pode estocar muito, pois os produtos podem perder

161
unidade 8
ESTATÍSTICA E PROBABILIDADES

validade, além do custo do espaço utilizado para o estudo da relação entre duas variáveis é
guardar as mercadorias. Ao mesmo tempo, a regressão simples, muito útil para fazer
estocar uma quantidade insatisfatória pode previsões. Além da regressão simples, a
implicar na falta de produtos para a venda. regressão múltipla também é bastante
Nesse caso, é de grande valia a utilização de utilizada, pois na maioria das situações
modelos de previsão para estimar a quantidade as variáveis previstas são associadas a
de mercadorias que serão comercializadas num diversas variáveis explanatórias, tanto
certo espaço de tempo. quantitativas quanto categóricas.

Um terceiro exemplo do uso de modelos de


Para que o modelo de regressão seja útil,
regressão se refere à decisão dos bancos
o analista depende do conhecimento da
sobre conceder ou não um empréstimo para
teoria acerca do assunto e de alguma
determinado candidato. Para isso, o banco
experiência prática capaz de auxiliar na
geralmente levanta diversas variáveis para
escolha das melhores variáveis candidatas
estimar a probabilidade de o cliente ser ou não
e explicativas.
um bom pagador.

A utilização dos modelos de regressão na


engenharia é muito importante, uma vez
REVISÃO
que vários experimentos são delineados na
A presente unidade tratou do tema relação otimização de processos de produção.
entre duas ou mais variáveis quantitativas.
Foi demonstrado que, para o estudo de duas
variáveis quantitativas simultaneamente, PARA SABER
faz-se interessante o uso de diagramas de
dispersão com o objetivo de inspecionar
MAIS
visualmente se elas apresentam associação. Para estudar mais sobre os modelos de
Devemos observar, principalmente, a forma, regressão, consulte as seguintes obras:
a intensidade e a direção da relação entre as
variáveis. Além disso, também é importante DOANE, David, SEWARD, Lori. Estatística
o cálculo do coeficiente de correlação, que Aplicada à Administração e à Economia.
fornece um valor entre 0 e 1, podendo ser ArtMed, 2010. VitalBook file.
negativo no caso de relacionamento linear
inverso entre as variáveis. FREUND, John, SIMON, Gary. Estatística
Aplicada: Economia, Administração
Outra técnica bastante interessante para e Contabilidade. 9 Ed. Porto Alegre:

162
unidade 8
ESTATÍSTICA E PROBABILIDADES

Bookman, 2007.

LEVINE, David; BERENSON, Mark; STEPHAN,


David. Estatística: teoria e aplicações -
usando o Microsoft Excel em português. 6
ed.Rio de Janeiro: LTC, 2011, 812 p.

MONTGOMERY, Douglas, RUNGER, George.


Estatística aplicada e probabilidade para
engenheiros. 3.ed. Rio de Janeiro: LTC,
2009.

MOORE, David. A estatística básica e sua


prática. Rio de Janeiro: LTC, 2014.

TRIOLA, Mário. Introdução à Estatística. 10


ed. Rio de Janeiro: LTC. 2008. 722p.

163
unidade 8
REFERÊNCIAS FREUND, John. Estatística Aplicada à Economia.
11 ed. Bookman, 2006. VitalBook file.
BARBETTA, Pedro Alberto, REIS, Marcelo
Menezes, BORNIA, Antônio Cezar.
GAZZARRRINI, Rafael. Lotus 1-2-3: o software
Estatística: Para Cursos de Engenharia e
que ajudou a mudar o mundo. 18 fev. 2013. In:
Informática. 3 ed. Atlas, 2010. VitalBook file.
Site “TecMundo”. Disponível em: <http://www.
tecmundo.com.br/tecnologia/36697-lotus-
BAILAR III, John.C.; MOSTELLER, Frederick.
1-2-3-o-software-que-ajudou-a-mudar-o-
Medical uses of statistics. 2. ed. Boston:
mundo.htm>. Acesso em: 15 abr. 2015
NEJM Books, 1992.

GRIFFITHS, Dawn. Use a cabeça! Estatística.


CARVALHO, Danilo Heraldo; COUTO, Bráulio
Rio de Janeiro: Altabooks, 2009.
Roberto Gonçalves Marinho. Levantamentos
por amostragem ou “pesquisas de survey.
HINES, William, MONTGOMERY, Douglas,
Relatório técnico DCET, Nº 3/2003. 107p
GOLDSMAN, Dave, BORROR, Connie.
Probabilidade e Estatística na Engenharia. 4
DAVID M. et al. Estatística: teoria e
ed. Rio de Janeiro: LTC, 2006. VitalBook file.
aplicações usando Microsoft Excel em
português. 3 ed. Rio de Janeiro: LTC, 2000
KAZMIER, Leonard. Estatística Aplicada à
Administração e Economia. Bookman, 2007.
DOANE, David, SEWARD, Lori. Estatística
Aplicada à Administração e à Economia.
LEVINE, David M. et al. Estatística - teoria
ArtMed, 2010. VitalBook file.
e aplicações: usando Microsoft Excel em
português. 6 ed. Rio de Janeiro: LTC, 2012. 804 p
DOWNING, Douglas. Estatística Aplicada.
Trad. Alfedro Alves de Farias: 2ed São Paulo:
MAGALHÃES, Marcos Nascimento; LIMA,
Saraiva, 2003
Antônio Carlos Pedroso. Noções de
Probabilidade e Estatística. 6. ed. São Paulo:
FIELD, Andy. Descobrindo a Estatística
Editora da Universidade de São Paulo, 2007.
Usando o SPSS. 2 ed. Porto Alegre:
ARTMED, 2009. 688p
MALHOTRA, Naresh K.. Pesquisa de
marketing: uma orientação aplicada. trad.
FORMULÁRIO GOOGLE DOCS. Disponível em:
Lene Belon Ribeiro, Monica Stefani. rev. téc.
<https://docs.google.com/forms>. Acesso
Janaína de Moura Engracia Giraldi. Porto
em: 15 abr. 2015
Alegre: Bookman, 2012.

164
McCLAVE, James T.; BENSON, George; VELLEMAN. Paul. Estatística Aplicada -
SINCICH, Terry. Estatística para Administração, Economia e Negócios. Porto
administração e economia. trad. Fabrício Alegre: Bookman, 2011.
Pereira Soares e Fernando Sampaio Filho;
rev. téc. Galo Carlos Lopez Noriega. São SOARES, José Francisco; SIQUEIRA,
Paulo: Pearson Prentice Hall, 2009. Armanda Lúcia. Introdução à Estatística
Médica. Belo Horizonte: UFMG, 2002. 300p
MONTGMOMERY, Douglas C; RUNGER,
George C. Estatística aplicada e probabilidade STEVENSON, William. Estatística Aplicada
para engenheiros. trad. e rev. téc. Verônica à Administração. ed 2001. São Paulo:
Calado. Rio de Janeiro: LTC, 2009. Harbra, 1981.

MOORE, David. A estatística básica e sua TRIOLA, Mario Farias. Introdução à Estatística:
prática. Rio de Janeiro. LTC, 2014. tradução de Vera Regina Lima de Farias e
Flores, revisão técnica Ana Maria Lima de
NETO, Antônio Peli. Intervalos de confiança, Farias. 10 ed. Rio de Janeiro: LTC, 2008
Intervalos de Predição e Campo de Arbítrio
nas Avaliações de Imóveis Urbanos. TRIOLA, Mario F. Introdução à Estatística:
Associação Brasileira dos Engenheiros Atualização da Tecnologia, 11 ed. LTC,
Civis - Departamento da Bahia. Bahia, 2010. 03/2013. VitalBook file.
Disponível em: <http://goo.gl/6uFFSt>.
Acesso em 16 jun. 2015. WERKEMA, Maria Cristina Catarino;
AGUIAR, Silvio. Planejamento e análise de
REIDEL, Adilson et al. Utilização de efluente de experimentos: Como Identificar as principais
frigorífico, tratado com macrófita aquática, no variáveis influentes em um processo. Belo
cultivo de tilápia do Nilo. R. Bras. Eng. Agríc. Horizonte: Fundação Cristiano Ottoni,
Ambiental, Campina Grande, v.9, (Suplemento), Escola de Engenharia da UFMG, 1996.
p.181-185, 2005. Disponível em: <http://goo.
gl/TQP0re>. Acesso em: 21 jan. 2015 WALPOLE, Ronald. Probabilidade e
estatística para engenharia e ciências. São
SILVA, Nilza Nunes. Amostragem Paulo: Pears, 2008
probabilística. 2 ed. São Paulo: Editora da
Universidade de São Paulo, 2001. 120p

SHARP, Norean, DE VEAUX, Richard,

165
www.animaeducacao.com.br

Você também pode gostar