Escolar Documentos
Profissional Documentos
Cultura Documentos
2020.1
Informações Sobre a Disciplina
- Objetivos
1. Compreender o uso da estatística na prática acadêmica ou empresarial;
2. Desenvolver cálculos básicos da estatística e interpretá-los;
3. Utilizar a objetividade e a probabilidade como uma base nas tomadas de decisões;
4. Entender o uso e a importância da inferência e da previsão estatística em pesquisas de mercado, de opinião
e em consultorias empresariais.
- Sistema de frequência: O aluno deve ter no mínimo 75% de frequência. Se o aluno tiver acima de 15
faltas estará reprovado por falta, visto que cada aula são três faltas ou três presenças, respectivamente. O
aluno deverá administrar as suas faltas.
Bibliografia Recomendada
TRIOLA, M. F. Introdução à Estatística. 11ª Edição. Rio de Janeiro. Livros Técnicos e Científicos, 2014.
MORETIN, L. G. Estatística básica: Probabilidade e Inferência. Volume único. São Paulo: Pearson,
2010.
LAPONNI, J.C. Estatística Usando o Excel. 4ª Edição. Editora Campus, 2005.
Pós-Graduação
Curso: Mestrado em Logística e Pesquisa Operacional
Instituição: Universidade Federal do Ceará - Ano de Conclusão: 2009
Curso: MBA em Administração e Marketing
Instituição: Centro Universitário Internacional Uninter – Paraná – SC - Ano de Conclusão: 2017
Curso: Especialização em Gastronomia
Instituição: Unifanor – Ano de Conclusão: 2018
Experiência no Magistério
1. Professor da Universidade Federal do Ceará (UFC).
Setor de estudo: Probabilidade e Estatística.
Departamento de Estatística e Matemática Aplicada (DEMA) do Centro de Ciências.
Cursos em que já ministrou/ministra aulas: Biblioteconomia, Ciências Atuariais, Ciências Biológicas, Ciências
Contábeis, Computação, Engenharia de Alimentos, Engenharia Elétrica, Engenharia Mecânica, Engenharia
Metalúrgica, Engenharia de Pesca, Geografia, Química, Matemática e Publicidade e Propaganda.
De Abril de 2006 a 2017
Modelo Casio fx 82 ES
A estatística é uma ciência importante, útil e com um escopo abrangente de aplicação em negócios,
administração política física e ciências sociais, dentre outras áreas, quase ilimitado.
Na prática empresarial e industrial, a Estatística é uma ferramenta-chave e segura para entender
sistemas variáveis, controlar processos, sumarizar dados e tomar decisões baseados nos mesmos.
1.1. Aplicações: Algumas ciências utilizam à estatística como uma ferramenta própria, possuindo-a com suas
terminologias próprias, como sendo:
Estatística Aplicada à Tecnologia da Informação: É um ramo da estatística que trabalha com a mineração
dos dados cadastrados em um banco de dados, a fim de encontrar anomalias ou tendências em séries
qualitativas ou quantitativas;
Bioestatística: É o planejamento, coleta, avaliação e interpretação de todos os dados obtidos em pesquisa
na área biológica, médica e áreas da saúde em geral;
Estatística Econômica ou Econometria: É um ramo da estatística direcionado para a análise de fenômenos
econômicos;
Estatística aplicada à Engenharia: É um ramo da estatística que estuda as suas aplicações no controle de
processos de produtos e serviços, no planejamento de novas estratégias de produção, nas vendas, no controle
de qualidade, em ensaios destrutivos e não destrutivos, com o objetivo de verificar a porcentagem de peças
não conforme as especificações ou a probabilidade de vida de equipamentos ou peças, dentre outras;
Estatística Física: É o ramo da física que através da estatística analisa sistemas físicos de alta complexidade,
com elevado número de entidades constituintes, como os átomos, as moléculas, os íons, entre outros;
Estatística Social: É o ramo da estatística que avalia fatores relativos à realidade social, econômica e
ambiental de um país e seu uso para a formulação e a avaliação de políticas públicas;
1.2. Origem:
A palavra estatística originou-se da expressão latina statisticum, que significa “Estado”, que depois de
vários significados, surgiu em alemão a palavra statistik que significa “análise de dados sobre o Estado”. O
Estado teve fundamental importância na origem da Estatística como ciência, pois originalmente, as
estatísticas eram colhidas para as finalidades relacionadas com o Estado, como os recenseamentos, por
exemplo. Como disciplina, só no século XIX é que se estruturou, mas já era conhecida desde a antiguidade,
há mais de 4 mil anos.
Nas decisões do dia-a-dia, o indivíduo há de forma direta ou indireta que se basear em dados
observados para isso. Por exemplo, ao decidir pelo seguro de um carro de uma determinada seguradora,
geralmente, esta procura verificar se este seguro satisfaz as suas necessidades, ou seja, se o seu preço é
compatível com o seu orçamento, além de outras características.
Posteriormente, compara se dados deste seguro com o de outras seguradoras e, através de uma
análise processada internamente em sua mente, toma-se a decisão de adquiri-lo ou não.
Essa analogia não difere na realização das pesquisas científicas, que tem por objetivo responder as
indagações ou comprovar as hipóteses elaboradas pelo pesquisador. E para isso, é preciso, inicialmente,
coletar dados que possam fornecer informações relevantes para responder esses questionamentos, mas para
que os resultados da pesquisa sejam confiáveis, tanto a coleta de dados quanto à sua análise deve ser feita de
forma criteriosa e objetiva. Para isso, o planejamento eficaz da realização de uma pesquisa científica é
necessário. Mas para isso é necessário entender o que realmente é uma pesquisa.
Quantitativas ou Numéricas: São atributos resultantes de uma contagem ou mensuração. Podendo ser:
Discreta: São todas as variáveis numéricas cujos valores se obtém a partir de procedimento de
contagem originado de um conjunto amostral finito ou enumerável. As variáveis discretas assumem
valores inteiros. Exemplos: Número de peixes encontrados em um rio, Número de pacientes vacinados
contra uma doença, dentre outros.
Contínua: São variáveis numéricas cujos valores são obtidos por procedimento de mensuração (ou
não enumerável), de sorte que ao menos teoricamente, os resultados das medidas são capazes de
variações insensíveis ou contínuas. As variáveis contínuas podem assumir qualquer valor num intervalo
contínuo e são quantificadas em uma escala infinita de valores, por isso, diz-se que as variáveis contínuas
são muito informativas. Exemplos: Peso, Altura, Temperatura, Espessura, Velocidade, Idade, Renda (em
Reais), dentre outros.
2.3. Parâmetro: É a medida usada para descrever uma característica numérica da população em estudo e para
isso é necessária uma análise integral desta. Assim, como na prática este procedimento se torna inviável, seu
valor é quase sempre desconhecido, na maioria das vezes. Um exemplo prático de parâmetro é a Idade média
de todos os alunos de uma sala de aula, ou seja, a média () e a variância (2), são exemplos de parâmetros.
Muitos pesquisadores defendem que o censo proporciona uma precisão incontestável nos resultados
estatísticos, pois todo o universo é analisado. No entanto, essa precisão pode ser contestada por diversos
fatores, dentre eles, as mudanças comportamentais dos componentes da população, nos casos em que a
pesquisa demanda período longo, ou por erros de coleta de dados, como informações inverídicas, dentre
outras. Então, para abster-se desses fatores que o censo pode causar de forma implícita e, muitas das vezes,
explícita, a utilização da amostragem é uma solução, pois a mesma permite que o pesquisador, ao contrário do
censo, cometa alguns “equívocos” previsíveis e aceitáveis ao estudo, mas para que esses “equívocos” sejam
toleráveis, faz-se necessário que o pesquisador entenda estatisticamente o que é amostragem.
2.4. Amostra (n): É uma parcela significativa de uma população, ou seja, uma parte da população que a
representa estatisticamente.
Os pesquisadores que optarem em utilizar o processo de amostragem terão que utilizar as seguintes
medidas estatísticas conhecidas como estimativa e margem de erro.
2.6. Margem de Erro (e): Um estudo em que se optou na utilização da amostragem como método de coleta
de dados, sempre apresentará uma “falha” embutida nas suas análises, visto que não se analisou todo o
universo. Essa “falha” é conhecida como margem de erro (ou erro amostral), e tem uma relação forte e
inversamente proporcional com o tamanho da amostra e dos resultados que foram obtidos com a pesquisa,
ou seja, quanto maior for a quantidade de elementos pesquisados, menor a quantidade de erros cometidos, ou
seja, menor a margem de erro, mas em contrapartida, maior o custo financeiro da mesma. E vice-versa
quando o tamanho amostral for menor.
Um exemplo prático de margem de erro é visto nas pesquisas eleitorais em que através de uma
amostragem de eleitores um determinado candidato aparece com um percentual de tantos por centos de
aceitação ao pleito, levando-se em consideração a margem de erro tolerável de tantos pontos percentuais para
mais ou para menos, ou seja, ele estará entre x% e y% dentro da margem de erro, isso quer dizer que, se fosse
analisada toda a população de eleitores, existem uma possibilidade de que no dia da eleição o resultado
percentual do candidato fique entre x% e y%.
A margem de erro é definida, na grande maioria das vezes, antes da coleta de dados, para evitar
assim retrabalho aos pesquisadores do estudo, pois caso a margem de erro fique muito alta (acima de 5% para
mais ou para menos), o retrabalho é inevitável ocasionando um custo a mais a quem encomendou a pesquisa,
e isso ocorre, na prática, por falta de planejamento amostral adequado ao estudo almejado.
Assim, para planejar um estudo estatístico com uso de amostragem faz-se necessário conhecer dois
processos básicos de amostragens, as amostras não probabilísticas e as probabilísticas.
a) Amostras por Conveniência: As amostras por conveniência ocorrem quando as unidades a serem
analisadas estão mais acessíveis ao pesquisador de acordo com as conveniências sociais, econômicas, de
tempo, dentre outras. É um tipo de amostragem que é vantajosa por ser rápida, de baixo custo e de fácil
acessibilidade, mas não há nada que a credite estatisticamente.
b) Amostras por Cotas: São amostras em que se leva em conta a porcentagem de alguma(s) característica(s)
da população de origem.
c) Amostras por Julgamento ou Intencional: É uma forma de amostragem por conveniência na qual os
elementos populacionais são selecionados com base no julgamento arbitrário do pesquisador, ou seja, o
pesquisador identifica os elementos que corroborarão com o objetivo do seu estudo sem o risco de fugir
deste objetivo pré-definido, ou seja, não há uma escolha aleatória dos elementos pesquisados e sim o
contrário.
a) Amostra Aleatória Simples (AAS): Selecionado por um processo ao qual a probabilidade de escolha de
todos os elementos é a mesma para todos, ou seja, a população de origem é consideração homogênea, pois os
seus elementos têm características parecidas entre si.
a1) Fórmula para determinação do tamanho da amostra com AAS:
N .n0
n
N n0
Fonte: Barbetta (2001)
Onde:
N = Tamanho da população
n = Tamanho da amostra
1
Se a confiança do estudo for de 95%, de acordo a tabela da Normal Padrão: n 0 ,
e²
2,06
Se a confiança for 96%: n 0
e²
2,17
Se a confiança for 97%: n 0
e²
2,33
Se a confiança for 98%: n 0
e²
2,575
Se a confiança for 99%: n 0
e²
3
Se a confiança for 99,9%: n 0
e²
OBS 2: Caso conheça o N seja muito grande (tender para o infinito), não é necessário considerar o seu
tamanho exato. Neste caso, o cálculo da primeira aproximação (n0) já é suficiente para o cálculo.
b) Se diminuirmos a margem de erro para 2%, qual será o tamanho da amostra (n), mantendo a mesma
confiança de 95%?
c) E se pesquisássemos 2000 residências, qual seria a margem de erro, com a confiança de 95%?
Baseado nos itens anteriores:
d) Se para o empreendedor o que importa é o resultado estatístico da pesquisa, qual das alternativas (“a”,
“b” e “c”) você aconselharia ela a utilizar? Por quê?
e) Se para o empreendedor o que importa é o quanto ela vai pagar pela pesquisa, ou seja, o custo da mesma,
qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê?
f) Se para o empreendedor o que importa é o resultado estatístico da pesquisa e ao mesmo tempo com
menor custo, qual das alternativas (“a”, “b” e “c”) você aconselharia ela a utilizar? Por quê?
Exercício 2 – Um investidor deseja verificar se em um determinado bairro de Fortaleza vale a pena ou não a
construção e implantação de um restaurante mediante uma aceitação expressiva do público-alvo analisado.
Caso o nível de aceitação a este tipo de empreendimento seja acima de 70% o investidor estudará a
possibilidade de instalação da empresa. Assim, o investidor conseguiu levantar junto com a prefeitura a
quantidade de domicílios no bairro e verificou que é de 2.550. Estes domicílios cadastrados são os que pagam
anualmente o IPTU, onde 1.500 deles são residenciais e 1.050 são comerciais. Assim, com confiança de
96%, quantos deles serão pesquisados, por categoria, utilizando uma amostra aleatória estratificada, se a
margem de erro for de 3%?
c) Amostra Sistemática (AS): Esse tipo de amostragem é uma variação da amostragem aleatória simples,
mas que exige que um sistema aleatoriamente seja definido.
Segue abaixo outros tipos de exemplos de amostras sistemáticas:
Exemplo1: Um engenheiro de controle da qualidade seleciona cada centésima fonte de computador que passa
em uma esteira transportadora.
Exemplo2: Um professor retira da população para compor a amostra os alunos aleatoriamente escolhidos que
possuem o algarismo “0” como último número da sua matrícula.
xi x i
X i 1
i 1
, Onde
n N
xi = Valores da variável
n = Número de valores da amostra
N = Número de valores da população
OBS1: A média por ser influenciada por todos os valores do conjunto de dados é considerada como uma
medida sensível, ao contrário das outras medidas de tendência central existentes.
Propriedades:
a) A média de um grupo de dados sempre será única, independente da sua localização;
b) O resultado de multiplicar a média pela quantidade “n” de valores da variável x é igual a soma dos “n”
valores da variável;
x X 0
n
c) A soma algébrica dos desvios tomados em relação à média é sempre nula: i
i 1
d) Somando-se ou subtraindo-se uma constante “c” (valor invariável) a todos os valores de uma variável, a
média do conjunto ficará aumentada ou diminuída dessa constante, respectivamente, de forma análoga, se
multiplicar ou dividir, a média ficará multiplicada ou dividida, respectivamente.
n n n
xi
xi c xi .c c
X i 1
e X i 1
e X i 1
n n n
Falando ainda de média, há a média aparada, que não é tão utilizada na prática estatística pois a
mesma tende a manipular o resultado final desta medida de tendência central, mas vale a pena conhecer o que
é este tipo de medida como segue no próximo tópico.
2.1.1. Média Aparada: Uma média aparada é calculada aparando-se certa porcentagem dos maiores ou
menores valores do conjunto de dados. Por exemplo, para calcular a média aparada de 10%, deve-se eliminar
10% dos valores maiores e 10% dos valores menores, e então calcular a média dos valores que sobraram.
Podendo-se usar de forma arbitrária a porcentagem a ser retirada da amostra para um novo cálculo. Ao
contrário da média aritmética, a média aparada é uma medida resistente, pois não sofre influência dos valores
extremos.
Exemplo 1: Um estudo sobre tempos de reação de pessoas em um teste foi composto por 30 canhotos, 50
destros e 20 ambidestros. Embora não possamos tomar a média numérica dessas características, podemos
afirmar que a moda é destro, que é a característica com maior frequência.
Quando no conjunto há apenas um valor que se repete além dos demais de forma máxima, chama-
se este conjunto de unimodal, bem como se tiver dois valores que se repete além dos demais, de forma
máxima e na mesma quantidade é bimodal, assim acima de 2 modas é multimodal. Se o conjunto de dados
não tiver nenhum valor que se repete além dos demais de forma máxima, o conjunto de dados é amodal.
OBS2: Se o conjunto de dados tiver os valores: 1, 1, 2, 2, 3, 3, o conjunto é multimodal, pois todos os valores
se repetem 2 vezes, ou seja, a frequência é a mesma para todos. Agora se for: 1, 2, 3, 4, é amodal, pois não há
repetição de valores.
E se for: 10, 10, 10, 10 é unimodal, pois o valor 10 é o que ocorre com maior frequencia.
A terceira medida de tendência central a ser analisada é a mediana. Muitos confundem a mediana
com a média, mas são medidas completamente diferente, tanto na sua forma de encontrar quanto na sua
interpretação, como segue no próximo tópico.
3. MEDIDAS DE DISPERSÃO:
Ao se fazer a descrição dos dados, além de verificar o centro da distribuição deles através das
medidas de tendência central é prescindível verificar também se os dados se comportam de forma
homogênea ou heterogênea, e isso será possível através das medidas de dispersão.
Essa verificação é importante, pois através delas podem-se tomar decisões mais consistentes e
eficazes. Um exemplo disso eram que os bancos, há uns anos atrás, costumavam exigir que os clientes
formassem filas separados para os diversos guinches, mas atualmente passaram adotar a fila única. O motivo
dessa modificação foi que o tempo médio de espera era o mesmo para ambos os formatos de filas, não
afetando a eficiência dos caixas, mas a adoção de fila única ocorreu ao fato de os clientes preferirem tempos
de espera com menor variação. Assim, é que milhares de bancos efetuaram essa modificação que resultou em
uma variação menor (e clientes mais satisfeitos), mesmo que a média de tempo de atendimento não tenha
sido afetada.
Com isso, pode-se concluir que as medidas de dispersão avaliam a variabilidade dos dados com
relação à sua média. As medidas de dispersão mais usadas são a amplitude total, variância, desvio padrão e
coeficiente de variação.
x X
n n
x
2 2
i i
S2 i 1
2 i 1
, onde
n 1 N
tudo pela quantidade de valores (n), obtendo aí o desvio médio dado pela seguinte notação
n
x i X
DM i 1
?
n
A resposta para essa pergunta é não, pois o módulo fará com que os desvios negativos fiquem
positivos, apresentando uma realidade distorcida dos dados.
Ao elevar ao quadrado, todos os desvios são elevados ao quadrado e não somente alguns, portanto,
o melhor a ser utilizado é a variância porque ela dá certeza absoluta que as amostras são diferentes. Já o
módulo não dá essa informação de variabilidade, ao contrário, ele nos dá evidências de que as amostras são
iguais. Por exemplo: Suponha que uma turma fez uma prova e a média desta foi 7,0, e um aluno tirou 8,0, ou
seja, a dispersão foi de 1 ponto para mais (8 - 7 = 1 ponto). Se outro aluno tirar 6,0, a dispersão é 1 ponto
para menos (6 – 7 = -1 ponto). Se usar o módulo, a dispersão ao invés de ser -1 e 1, será 1 e 1, mostrando
que não há dispersão das notas dos dois alunos, ou seja, ao invés de um aluno ter tirado a nota 6 e o outro a
nota 8, ambos tiraram a nota 8, pois o desvio com o uso do módulo foi 1 ponto para mais.
Mas mesmo a variância sendo considerada a ideal para tomar decisões sobre a variabilidade dos
dados, a mesma apresenta um grande problema com unidade de medida dos dados que a compõem, pois
estes serão elevados ao quadrado, dificultando assim a sua interpretação, pois se a unidade de medida for em
metro, será metro quadrado, se for em centímetro, ficará centímetro ao quadrado e assim por diante.
OBS3: Para um melhor entendimento da divisão por “n-1” na fórmula da variância e não por “n” apenas, é
que a variância trabalha encima de “n-1” valores, pois se subtende que pelo menos um valor é a própria média
(não havendo dispersão de um valor, nesse caso). Portanto, a variabilidade será entre “n-1” valores e não “n”.
Por exemplo, sejam os seguintes valores: 1, 2 e 3, a média é “2”, ou seja, um valor é a própria média, mas dois
valores não, ou seja, 2 = n-1 = 3-1 = 2. Mas isso não tem 100% de certeza não, pois tem casos em que a
média não é igual ao conjunto de valores.
OBS4: Observe que no cálculo da variância amostral (S²), deve-se dividir a soma dos quadrados dos desvios
por “n-1”e não por “n” apenas. Isso se dá, pois através de estudos que serão vistos em Estimação de
Parâmetros, a variância amostral (S²) tende a estimar de forma distorcida a variância populacional (²) se for
dividido apenas por “n”, então para que S² seja um estimador não viciado ou não tendencioso de ² deve-se
dividir por “n-1”.
Há uma demonstração que prova que E(S²) = ², mostrando que a esperança da variância amostral é igual a
variância populacional, ou seja, a variância amostral com divisão da sua fórmula por “n-1” representa de
forma eficaz e inferencial a variância populacional, sem ter analisado a população em si.
OBS5: Quando o tamanho da amostral é suficientemente grande (é usual considerar um valor de n superior a
30) não há praticamente diferença entre S² e ², assim pode-se dividir por “n-1” ou por “n”, respectivamente
que o resultado será aproximadamente o mesmo, pois, para comprovação S²/² será aproximadamente 1,
não fazendo diferença nenhuma nos cálculos. Agora, se n for menor que 30, essa divisão será bem menor que
1 mostrando que não é a mesma coisa, devendo assim não deixar de dividir por n-1 se for o amostral e por n
se for o populacional.
Após as observações anteriores, faz-se necessário verificar a medida de dispersão realmente utilizada
na tomada de decisão, o desvio padrão.
(x i X )2
S i 1
n -1
A última medida de dispersão a ser analisada é o coeficiente de variação, como segue no próximo
tópico.
S
CV 100
X
Mas para afirmar se os dados são ou não passíveis de grandes ou pequenas variabilidades, adota-se
o ponto de corte percentual como segue:
Se CV < 50% (Há baixa dispersão entre os dados, ou seja, eles são homogêneos)
Se CV 50% (Há alta dispersão entre os dados, ou seja, eles são heterogêneos)
Funcionário
19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36
Nº.
Salário (S.M*) 14 16 5 17 9 11 9 10 6 15 7 12 23 7 17 9 14 19
Desvio Padrão: (11,12 4,6), ou seja, a maioria dos funcionários ganham entre 6,52 s.m e 15,72 s.m.
Intervalo: É a amplitude total, ou seja, a diferença entre o meio e o menor salário é de 19,3 s.m.
Mínimo e Máximo: O menor salário entre os 36 funcionários é 4 s.m e o maior é 23,3 s.m.
Soma: A empresa gasta 400,4 s.m no pagamento de seus 36 funcionários, ou seja, 400,4 s.m é a folha de pagamentos da
empresa.
Exercício 1: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule os quartis:
2 5 6 9 10 13 15
Exercício 2: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule e interprete os quartis:
1 1 2 3 5 5 6 7 9 9
Exercício 3: Seja o seguinte conjunto de dados que representa a idade de determinado grupo de pessoas,
calcule e interprete os quartis:
1 1 2 3 5 5 6 7 9 9 10 13
Sendo:
IIQ = Intervalo Interquartílico = Tamanho da caixa
LI = Limite Inferior = Q1 - IIQ
LS = Limite Superior = Q3 + IIQ
* Outliers = Dados discrepantes
2. CORRELAÇÃO LINEAR:
O estudo de correlação mostra uma forma de medir quanto e de que maneira se relacionam duas
variáveis quantitativas por meio do qual se pode analisar a relação existente das variáveis em estudo, ou seja,
qual alteração deve esperar em uma das variáveis, como consequência de alterações sofridas pela outra
variável, ou seja, uma relação de causa de efeito.
Para entendimento dessa relação entre duas variáveis, segue alguns exemplos práticos: o frio está
para o setor farmacêutico, assim como o dia das mães está para o comércio, pois as vendas de medicamentos
não controlados, como analgésicos, antigripais e vitaminas, disparam. Outro exemplo é o faturamento das
empresas de energia elétrica é diretamente influenciada pela temperatura, especialmente no verão, onde a
demanda por energia aumenta, pelo uso de ar condicionado e ventiladores, fazendo com que as empresas
produtoras de energia aumentem seus lucros. De forma similar, para o consumo de água, desta forma em
Fortaleza, por exemplo, nos meses que ocorre o verão (dezembro até meados de março), o consumo de água
nas residências aumenta de forma significativa.
A priori essa relação pode ser verificada com auxílio de um gráfico de dispersão bidimensional, que
será definido como eixo x, a variável causa e y, a variável efeito, como segue:
y y y
x x x
Correlação Positiva Forte correlação Correlação Positiva
entre x e y Positiva entre x e y perfeita entre x e y
Assim, a importância de tal determinação decorre do fato de que a presença de uma correlação pode
conduzir-nos a um método para estimar a variável y (efeito) utilizando a variável x (causa).
O Coeficiente de Correlação de Pearson mede o grau de associação entre as duas variáveis analisadas,
podendo ser fraca ou forte. Para isso, a notação matemática que permite verificar essa associação é a que
segue:
X Y
XY n
R xy
X 2
X 2
Y
2
Y
2
n n
Assim, o valor de Rxy deve pertencer ao intervalo -1 Rxy 1, e a sua interpretação é a seguinte:
y x ² x xy x y
a xy
n x ² x ² b n
x ²
x² n
3.2. Coeficiente de determinação (R²):
Indica a proporção da variação total da variável dependente que é explicada pela variação da variável
independente, ou seja, mede a confiabilidade da previsão a ser realizada. Assim, quanto maior for o R²,
melhor será o poder de explicação da reta de regressão.
A diferença do coeficiente de correlação (Rxy) para o coeficiente de determinação (R²), é que o
primeiro mede a força da relação linear entre as variáveis, enquanto que o R² mede a explicação da reta de
regressão.
4. SÉRIES TEMPORAIS:
Segundo Corrar (2009), uma série temporal é um conjunto de observações sequenciais de
determinada variável, expressas numericamente, obtidas em períodos regulares de tempo. Assim, a análise de
séries temporais baseia-se na premissa segundo a qual os fatores que influenciaram o comportamento dos
dados no passado continuam influenciando seus movimentos futuros.
Desta forma, os dados coletados de uma série temporal podem sofrer a influência de diversos
fatores, como: alterações macroeconômicas, mudanças no padrão tecnológico vigente, variações nas
condições de natureza, ou mesmo podem ser afetados por fenômenos imprevisíveis, e por consequência
disso, os dados podem sofrer alguma tendência (sazonalidade, por exemplo), que consiste em mudanças nos
dados, fazendo-os serem no formato linear (diretamente ou inversamente proporcional), ou no formato de
uma curva, como por exemplo, a exponencial, polinomial, potencial, dentre outras (Quadro 1).
Tipo de Função Equação Original Equação Linearizada Variável X Variável Y
Linear y = a + b.x y = a + b.x x y
bx
Exponencial y = a.e ln y = ln a + b.x x ln y
b
Potência y = a.x ln y = ln a + b.ln x ln x ln y
Logarítmica y = a + b.ln x y = a + b.ln x ln x y
Quadro 1: Principais transformações lineares
Fonte: Adaptado de Corrar (2009)
X = Causa Y = Efeito
2,5 57
4,5 78
4 72
2 58
6 89
3 63
4 75
5 84
3 75
1 48
Digitar:
2,5 (tecla do lado do M+) 57 M+
4,5 (tecla do lado do M+) 78 M+
...
1 (tecla do lado do M+) 48 M+
Encontrar o valor do Coeficiente de Correlação (Rxy): Clicar em Shift 2 (S-VAR) clicar na seta localizada em
Replay duas vezes para a direita Clicar no número 3 = Aparecerá 0,9575 (Valor do Coeficiente de Correlação =
95,75%).
Shift 1 7
2=
HP – Modelo: 12C
Passos para o procedimento completo:
1º) Digitar os pares ordenados na calculadora: y Enter x +
2º) Achar o valor de “a”: 0 g 2
3º) Armazenar o valor de “a”: Clicar em STO 0
4º) Achar o coeficiente de Correlação: Clicar em x y
5º) Achar o valor de a + b: Clicar em 1 g 2, depois
Valor de b: Clicar em RCL (Recuperar o valor de b) 0 -
Formatação do gráfico:
Apagar a legenda
Título: Clique com botão direto do mouse dentro do gráfico: Opções do gráfico Em Título: digitar
“Relação entre Propaganda (R$ milhões) versus Vendas (R$ milhões) de uma determinada empresa x”.
Formatar os eixos “x” e “y”, sendo Propaganda (R$ milhões) e Vendas (R$ milhões), respectivamente;
Letra Times New Roman, tamanho 11;
Verificar se os dados do gráfico seguem uma tendência linear. Se sim, calcula-se a correlação linear entre
as variáveis x e y;
x y
fórmula:
xy n
b
x ²
x² n
Clique em Inserir função INCLINAÇÃO Selecione os dados da variável y, inclusive o título, e os
dados da variável y. Resultará: b = 9,74
Portanto a equação de previsão será: y = a + bx, ou seja, y = 117,07 + 9,74x, que representa:
Vendas = 117,07 + 9,74. Propaganda
Onde o Coeficiente de determinação (R²) é igual a 0,7385, ou seja, 73,85% dos dados estão sendo explicados
pela equação y = 117,07 + 9,74x, e 0,2614 = 26,14% não estão sendo explicados pela reta encontrada.
Coeficientes
Interseção 117,07
Propaganda (R$ milhões) 9,73
500
Vendas (R$ milhões)
400
300
200
y = 9,7381x + 117,07
100
R2 = 0,7385
0
0 10 20 30 40 50
Propaganda (R$ milhões)
Exemplo: Seja o experimento: “Lançamento um dado de 6 faces honesto”. Então, = {1, 2, 3, 4, 5, 6},
sejam os eventos:
E1
E1: Ocorrer face par
E2: Ocorrer número menor que 3
a) Então, E1 E2 =
E2
b) Então, E1 E2 =
Eventos mutuamente exclusivos ou disjuntos: São eventos que não ocorrem simultaneamente, ou seja,
A B = , pois a ocorrência de um deles anula a ocorrência do outro.
Exemplo: Seja o experimento “Lançar um dado honesto”. Então, = {1, 2, 3, 4, 5, 6}, sejam os eventos:
E1: Ocorrer face par
E2: Ocorrer face ímpar
Então, E1 E2 =
Em outras palavras, probabilidade é uma fração entre o número de resultados favoráveis (aqueles que
satisfazem a necessidade do problema a ser calculado) com o número de resultados possíveis.
Propriedades/Axiomas:
a) A probabilidade de um evento certo é igual a 1, isto é, P() = 1
b) O P(E) 1: A probabilidade de um evento ocorrer é sempre maior ou igual a zero e menor ou igual a 1.
c) P( A ) 1 P( A) P( A) P( A ) 1 = P(), ou seja, a soma de eventos mutuamente exclusivos sempre
será igual a 1.
d) P() = 0, mas a reciproca não é verdadeira, pois o fato de P(A) = 0 não implica que seja impossível.
Exercício 1: É sexta-feira a noite e um estudante universitário está em uma festa e lembra que na próxima
segunda-feira haverá uma prova de cálculo em que ele está totalmente “por fora” da matéria. E o pior é que,
se ele não conseguir uma boa nota, estará reprovado. Mas ele lembra que o professor falou que a prova teria
3 questões de múltipla escolha, e basta ele acertar duas dessas questões para ser aprovado. Se o estudante
optar em continuar na festa e decidir que vai fazer a prova na base do “chute”. Portanto:
a) Relacione os diferentes resultados possíveis que ele poderá obter:
b) Qual é a probabilidade de responder corretamente todas as três questões e ser aprovado?
c) Qual é a probabilidade chutar corretamente pelo menos 2 questões e conseguir sua aprovação?
d) A estratégia de “chutar” na prova é uma estratégia inteligente adotada pelo aluno?
P (A e B) = P (A B)
Se os eventos forem mutuamente exclusivos, ou seja, não ocorrem simultaneamente, isto é,
A B = , então P (A B) = 0, assim: P (A B) = P (A) + P (B)
Quando as probabilidades de eventos mutuamente exclusivos somam 1, diz-se que os eventos são
coletivamente exaustivos, nesse caso não existem outros resultados possíveis.
Leis de Morgan ou Leis das Dualidades: Seja E um espaço amostral finito e não vazio. O principal
objetivo da regra é verificar a:
P ( A B ) = Probabilidade de não ocorrer A e B, ou seja, não ocorre a interseção.
P( A B ) = Probabilidade de não ocorrer “A” e não ocorrer “B”, ou seja, não ocorre cada um
b) P ( A B )
c) P ( A B )
d) P( A B )
b) Nenhum paciente com chikungunya e nenhum com dengue nesse determinado hospital.
Eventos independentes: Dois eventos A e B são independentes se a ocorrência de um deles não afeta a
probabilidade de ocorrência do outro, caso contrário, são dependentes. Então:
P (A B) = P (A). P (B), se A e B são independentes
P (A B) = P (A). P (B/A), se A e B são dependentes
A regra da multiplicação é extremamente importante em virtude de suas inúmeras aplicações.
Exercício 4: Um aquarista coleciona peixes ornamentais e deseja com estes realizar um estudo com o
objetivo de descrever características comportamentais com relação ao gênero destes peixes, pois estudos
afirmam que os machos são mais agressivos que as fêmeas. O estudo será feito da seguinte forma: captura-se
o peixe, coloca-o em outro aquário durante 3 dias sob determinadas situações manipuladas por ele e filma-se
o comportamento de cada peixe frente às situações ocorridas. Com este estudo o pesquisador poderá traçar
estratégias de forma de cultivo destas espécies, de acordo as características comportamentais identificadas.
Desta forma, no aquário em que ele os cultiva há 5 peixes machos de cor branca e 8 peixes fêmeas de cor
azul. Dois peixes serão retirados do aquário, aleatoriamente e sem reposição. Portanto determine a
probabilidade de ser branco (ou macho) e outro azul (ou fêmea), em qualquer ordem.
n( A B )
n( ) P ( A ).P ( B )
Nesse caso, P ( A / B ) . Se A e B forem independentes: P ( A / B ) P( A ) ,
n( B ) P( B )
n( )
Exercício 5: Suponha que nesta sala de aula há um total 15 alunos regularmente matriculados. O professor
gostaria de identificar qual a área da estatística é mais interessante para o aluno se aprofundar de acordo a sua
área de formação. Assim, um aluno será sorteado ao acaso entre todos os alunos que constam na lista de
presença do professor. Se o número sorteado for par, qual a probabilidade de que seja o aluno de número 6?
A descoberta teve logo grande sucesso e grandes estudiosos da época foram ligados à curva normal,
tais como Laplace que em 1783 a utilizou para descrever a distribuição de erros, e Gauss que em 1809 a
empregou para analisar dados astronômicos.
Assim, como Gauss foi a primeira pessoa a reafirmar o papel fundamental proposta por Moivre a
curva da normal é chamada hoje de curva de Gauss.
Antes de explanar com mais detalhes a curva de Gauss, faz-se necessário analisar a lei dos grandes
números proposta por Bernoulli. Esse teorema diz o seguinte: numa situação de eventos casuais, onde as
alternativas são independentes, obter coroa em lances de uma moeda de cara ou coroa, tem a probabilidade
2. DISTRIBUIÇÃO NORMAL:
Mas por que esta distribuição tem esse nome? Existe uma explicação plausível para isto, será visto
mais adiante.
A distribuição normal é uma distribuição de probabilidade usada para variáveis aleatórias contínuas
(obtidas por mensuração), com a seguinte notação X ~ N (; ²) e sua função densidade de probabilidade é
dada por:
1 x
2
1
f ( x) e 2
, para - < x < (ou x ), onde:
2
O gráfico que mostra os indícios de que os dados de uma distribuição são aproximadamente normal
é o histograma ou o diagrama de ramo e folhas.
A distribuição normal é uma das distribuições fundamentais da moderna teoria estatística. A
vantagem da distribuição normal reside na facilidade de defini-la com apenas dois parâmetros, a média e o
desvio padrão da distribuição, por exemplo, suponha a seguinte a curva da normal f(x) para = 40 e =
10, o gráfico construído será:
Substituindo os parâmetros
0,0300
x f(x)
0,0250
20 0,0007
0,0200
30 0,0146
0,0150
40 0,0399
0,0100
50 0,0146
0,0050
60 0,0007
0,0000 Segue o gráfico 1 com a plotagem dos
0 10 20 30 40 50 60 70 80
Parâmetros da variável aleatória seguintes valores.
Gráfico 1: Distribuição Normal com média e desvio padrão
c) Os valores de f(x) nunca tocam o eixo “x” da curva da Normal, mas f(x) 0, se x ;
d) A área sob a curva é 1.
Como se trata de distribuição de probabilidade contínua, a área que fica entre a curva e o eixo “x”
representa a probabilidade. A probabilidade de ocorrer um evento entre os pontos “a” e “b” é calculada pela
integral definida (visto na disciplina de cálculo) da função entre os pontos “a” e “b”, representada por:
1 x
2
b
1
P ( a, b ) e 2
, graficamente:
a 2
a b
Observa-se que o cálculo direto de probabilidade envolvendo a distribuição normal exige recursos de
cálculo avançado e, mesmo assim, dada a forma da função densidade de probabilidade (f.d.p), não é um
processo muito elementar. Por isso ela foi tabelada, permitindo assim obter diretamente o valor da
probabilidade desejada.
Verifica-se que, no entanto, a f.d.p da normal depende de dois parâmetros, a e ², o que acarreta um
grande trabalho para tabelar as probabilidades, considerando-se as várias combinações de e ².
Esse problema pode ser resolvido por meio de uma mudança de variável, obtendo-se, assim, a
distribuição normal padronizada ou reduzida.
1 x
2
1
Na fórmula f ( x ) e 2 , observa-se que a parte mais importante é o expoente
2
1 X
2
Z2
X 1
Z , com isso f ( Z ) e 2
2
A vantagem desta curva normal padronizada é que em alguns parâmetros já estão automaticamente
definidos para qualquer escala de medida que você utilizar, quais seja, a média é zero ( = 0) e desvio padrão
um ( = 1), onde suas probabilidades já foram calculadas e são apresentadas em uma tabela (ver anexo desta
nota de aula) de fácil utilização. Essa tabela nada mais é que uma tabela de conversão do número de desvios
padrão entre x e em um algoritmo.
Em que X é uma variável aleatória normal da média e variância ² (são constantes), assim:
X ~ N(; ²) Z ~ N(0; 1²), seu gráfico será:
Trabalhar com a curva normal padronizada facilita muito a vida da gente, pois com ela a média
sempre será zero e o desvio padrão será um. Quando não for padronizada, então teremos que calcular o valor
da média e o valor do desvio padrão da distribuição e trabalhar com os dois parâmetros.
Onde Z0 representa o número de desvios padrão distante da média, ou seja, as informações contidas
nessa tabela não são sempre idênticas nos diferentes autores de livros de estatística, mas duas informações
sempre estão presentes e essas duas são as mais importantes, a saber, o Z e a proporção de casos que caem na
faixa que vai da média zero até este valor de Z. Assim, se você conhece o Z, você pode descobrir qual a
proporção de casos que corresponde a ele ou, se você conhece a proporção de casos, você pode descobrir
qual o Z que lhe corresponde.
OBS: Embora a curva normal vá até o infinito (positivo e negativo), você vê que quase a totalidade dos casos
cai entre -3 e 3 desvios padrão (ou Z), de fato, 99,74% dos casos, por isso, a tabela (em anexo) varia -3,99 a
3,99, acima ou abaixo disso é 0,499.
Portanto, quase nunca é preciso prolongar muito as caudas de uma distribuição normal, porque a
área sob a curva é de mais ou menos 4 ou 5 desvios-padrão a contar da média é desprezível para quase todos
os fins práticos.
Exercício 1 - Exercício para aprender utilizar a Tabela na Normal Padrão: Encontre a probabilidade
de:
a) P(Z 1,34)
b) P(Z 1)
c) P(-2,55 Z 1,2)
d) P(1 Z 3,09)
e) P( - 3 X + 3)
De acordo com o banco de dados acima classifique o tipo de variável para as variáveis seguintes. Marque a
alternativa correta:
a) Gênero:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
b) Peso:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
c) Tipo de Tratamento:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
d) Número de Convulsões:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
e) Classificação da doença:
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
b) Qual a sua faixa de Renda familiar mensal (OBS: Identificar a classe social de acordo com a legenda
abaixo)? Legenda com relação a faixa de renda familiar do pesquisado e sua classe social
(a) Qualitativa Nominal (b) Qualitativa Ordinal (c) Quantitativa Discreta (d) Quantitativa Contínua
Planejamento Amostral:
3) (Amostra Aleatória Simples) Estudo sobre elaboração de estratégia de marketing: A “Guerra das Colas”
é o termo popular utilizado para a intensa competição entre Coca-Cola e Pepsi mostrada em suas campanhas
de marketing. As campanhas geralmente têm estrelas do cinema, televisão, youtubers e influenciadores digitais,
que surgem reforçando as suas preferências com base em testes de sabor. Assim, como parte de uma
campanha de marketing, a Pepsi submeteu de uma população de 625 consumidores de refrigerante sabor cola
uma amostragem de 300 a um teste cego (isto é, o consumidor degusta o refrigerante e informa qual dos dois
ele prefere sem visualizar a marcar que está degustando). Cada consumidor é questionado quanto à sua
preferência em relação à marca A ou B. Diante disso, calcule a margem de erro do teste cego, se a
confiança for de 99%?
Gabarito: 6,7%
Como não é possível analisar todos as lojas nas três capitais, será feito um estudo por amostragem. Portanto,
através de uma Amostra Aleatória Estratificada Proporcional, quantas lojas serão pesquisadas, por destino de
entrega, com uma margem de erro de 2,5% para mais ou para menos e uma Confiança de 98%?
7) Estudo para tomada de decisão de atendimento ao cliente: Uma rede de supermercados de Fortaleza
queria saber se o tempo de espera para atendimento de clientes de dois tipos de filas (Única e Múltipla) era o
mesmo ou não, pois caso o tempo do tipo de fila fosse diferente, iriam adotar a partir do mês seguinte o tipo
de fila que apresentasse o menor tempo de atendimento. Na fila única os clientes entram e são atendidos por 3
caixas, enquanto que na fila múltipla os clientes entram em qualquer uma das três filas que conduzem até os
caixas. Foram observados 10 clientes aleatoriamente escolhidos durante 1 hora de um determinado dia e
anotou-se o tempo que cada um levou para ser atendido, como segue abaixo:
Fila única 6,5 6,6 6,7 6,8 7,1 7,3 7,4 7,7 7,7 7,7
Fila múltipla 4,2 5,4 5,8 6,2 6,7 7,7 7,7 8,5 9,3 10,0
10) Em relação ao gráfico Box-Plot, conforme a figura abaixo, pode-se afirmar que:
Probabilidade
3) Em um canteiro de obras há 375 quadrantes de 1 metro quadrado, que foi definido por um engenheiro
civil, numerados consecutivamente de 1 a 375 para realizar um estudo do solo por amostragem. Escolhe-se
por sorteio um quadrante desse canteiro para estudo de suas características, a probabilidade de se obter um
quadrante numerado com um número múltiplo de 15 é?
Gabarito: 6,67%
4) Suponha que o professor falou o seguinte na última aula de Estatística: “Alunos, estudem todo o assunto
que foi visto durante todo o semestre que se encontra nas Notas de Aulas de Estatística, pois na próxima aula
farei um sorteio de um aluno e abrirei aleatoriamente a nota de aula. Assim, na página em que eu abrir o aluno
sorteado deverá fazer no quadro para toda a turma um exercício que estiver na página sorteada, sendo que se
a página tiver mais de um exercício, será feito o primeiro exercício que há nela”. Suponha ainda que a nota de
aula é composta por 240 páginas, e o aluno verificou que os assuntos que ele mais domina estão entre as
páginas 80 e 120, excluindo estas duas. Diante disso qual é a probabilidade de quando o professor abrir a nota
de aula ele abra entre estas páginas, e ele resolva com tranquilidade e receba a pontuação que será
proporcionada pela atividade?
5) Dentre os números formados por três algarismos, qual é a probabilidade de encontrarmos um número
maior que 930? Gabarito: 7,67%
7) Escolhe-se ao acaso dois números naturais (*) distintos de 1 a 100. Qual a probabilidade de que o
produto dos números escolhidos seja ímpar?
Gabarito: 24,75%
8) Numa urna há 6 bolas azuis numeradas de 1 a 6 e cinco bolas vermelhas numeradas de 1 a 5. Extraindo ao
acaso uma bola, qual a probabilidade de sair uma bola azul ou com número ímpar?
Gabarito: 81,8%
9) Em uma locadora de carro, de cada 100 veículos 30 são de 4 portas e 20 têm motor a gasolina. Se de cada
100 veículos, 5 são a gasolina e têm 4 portas, qual a probabilidade de carros na locadora que não são a
gasolina e nem tem 4 portas?
Gabarito: 55%
11) Estudo para engenharia de tráfego: O tráfego aéreo (número de aterrissagens e decolagens) no
Aeroporto Internacional de Fortaleza durante a “hora de pico” é uma variável aleatória normal com média de
80 aviões por hora e desvio padrão de 10 aviões por hora. Se a capacidade atual de tráfego aéreo no aeroporto
é de 90 aviões por hora, qual é a probabilidade de ocorrer congestionamento do tráfego aéreo?
Gabarito: 15,87%
13) Estudo para descobrir possíveis fraudes: Uma aplicação clássica da distribuição normal é inspirada em
uma carta de uma esposa americana ao seu marido também americano, em que ela alegava ter dado à luz 308
dias após uma rápida visita de seu marido que estava servindo na Marinha no Havaí. Segundo informações
médicas, os prazos da gravidez têm distribuição normal com média de 268 dias e desvio padrão de 15 dias.
Assim, com base nessa informação determine a probabilidade de uma gravidez durar 308 dias ou mais. O que
o resultado sugere?