BANCO DE DADOS
REDES DE COMPUTADORES
SISTEMAS BIOMÉDICOS
3º Semestre
ESTATÍSTICA
Sumário
Sumário .................................................................................................................... 2
Apresentação ............................................................................................................. 4
O que é Estatística? .................................................................................................4
Introdução à Estatística .............................................................................................. 5
Conceito de Dados ...................................................................................................5
Conceito de Variável.................................................................................................5
Conceito de População e Amostra ................................................................................7
Exercícios ..............................................................................................................8
Distribuição de Frequências ........................................................................................ 10
Introdução ........................................................................................................... 10
Outros tipos de frequência ....................................................................................... 13
Exercícios ............................................................................................................ 14
Representação gráfica de uma Distribuição de Frequências ............................................. 16
Exercícios ............................................................................................................ 19
Medidas de Tendência Central ..................................................................................... 21
Introdução ........................................................................................................... 21
Média Aritmética ................................................................................................... 21
Moda .................................................................................................................. 23
Mediana.............................................................................................................. 24
Separatrizes ......................................................................................................... 27
Quartis ............................................................................................................... 27
Percentis ............................................................................................................. 29
Exercícios ............................................................................................................ 30
Comparando Média e Mediana ................................................................................. 32
Medidas de Dispersão ................................................................................................. 33
Introdução ........................................................................................................... 33
Amplitude total ..................................................................................................... 33
Variância ............................................................................................................ 33
Desvio Padrão ...................................................................................................... 34
Coeficiente de Variação ........................................................................................... 36
Exercícios ............................................................................................................ 37
Exercícios Complementares ...................................................................................... 39
Noções de Probabilidade ............................................................................................. 43
Introdução ........................................................................................................... 43
Conceito de Probabilidade ....................................................................................... 44
Exercícios ............................................................................................................ 46
Teorema da Soma de Probabilidades .......................................................................... 48
Teorema da Multiplicação de Probabilidades ................................................................ 50
Exercícios ............................................................................................................ 51
Distribuições de Probabilidade .................................................................................. 54
Distribuição Normal ................................................................................................... 56
Introdução ........................................................................................................... 56
Exercícios ............................................................................................................ 59
Teste de Hipóteses .................................................................................................... 60
Introdução ........................................................................................................... 60
Hipótese Estatística ............................................................................................... 60
Tipos de Hipóteses................................................................................................. 60
Teste de Hipótese .................................................................................................. 61
Exercícios ............................................................................................................ 64
Exercícios Complementares ...................................................................................... 66
Formulário para Avaliações ......................................................................................... 68
Referências Bibliográficas ........................................................................................... 70
Apresentação
O que é Estatística?
Desde a antiguidade os governos mais esclarecidos faziam levantamento de dados
com a finalidade de administrar melhor o Estado. O Estado tinha interesse em registrar seu
patrimônio e também registrar o número de habitantes, de nascimentos, de óbitos etc. Os
recenseamentos antigos, como os mencionados na Bíblia, não passavam de anotações
militares, referentes à baixa de soldados, armas e cavalos com o objetivo de organizar o
exército para novas conquistas e administrar as terras conquistadas.
Uma definição mais usual nos dias de hoje seria “um método científico que permite
a análise, em bases probabilísticas, de dados coligados e condensados”. De forma geral,
trata-se de um ramo da Matemática Aplicada, uma metodologia, uma técnica científica,
adotada para se trabalhar com dados, ou seja, com elementos de pesquisa. Esta
metodologia consiste em uma série de etapas, iniciando pela coleta dos dados que, após
coletadas, passarão por uma organização e apresentação. Daí, uma fase complementar, na
qual se dará a análise dos dados organizados e descritos, para se chegar a uma conclusão,
que deverá desencadear uma tomada de decisão.
Introdução à Estatística
Vamos iniciar este curso, nem poderia ser de outra forma, alicerçando os pilares da
Estatística, transmitindo alguns conceitos, algumas noções básicas, elementares e, muitas
delas, essenciais ao desenrolar dos demais tópicos do programa do curso. Passemos aos
conceitos iniciais.
Conceito de Dados
Os dados são fatos e números coletados, analisados e sintetizados para
representação e interpretação. Juntos são denominados conjunto de dados para o estudo.
Os dados podem ser: qualitativos (quando os valores são expressos por uma qualidade ou
atributo, por exemplo: sexo, estado civil, marcas de carro etc.) ou quantitativos (quando os
valores são expressos por números, por exemplo: idades, notas de avaliação, medidas etc.).
A coleta destes dados pode ser feita de forma direta (quando é feita sobre elementos
informativos de registros obrigatórios como: nascimentos, casamentos, notas fiscais etc.) ou
de forma indireta (quando é feita através de dados já colhidos por uma coleta direta, como
uma pesquisa sobre a duração de vida do ser humano, que pode ser feita com os dados
obtidos pelos cartórios).
A coleta direta pode ser classifica quanto ao fator tempo em: contínua (quanto feita
continuamente, como a de nascimentos, óbitos), periódica (quando feita em intervalos
constantes de tempo, como os censos, balanço de uma empresa) e ocasional (quando feita
esporadicamente, sem época pré-estabelecida, a fim de atender uma conjuntura ou
emergência, como no caso de epidemias).
Conceito de Variável
Variável é a característica de interesse que é medida em cada elemento da amostra
ou da população. Como o nome diz, seus valores variam de elemento para elemento. É o
objeto da pesquisa. É aquilo que estamos investigando. Portanto o objeto da pesquisa, do
estudo estatístico, será pois, a variável.
Outro ponto importante é que nem sempre uma variável representada por números é
quantitativa. O número do telefone de uma pessoa, o número da casa, o número do seu
CPF. Às vezes o sexo do indivíduo é registrado numa planilha de dados como 1 (homem) e
2(mulher), por exemplo. Isto não significa que a variável sexo passou a ser quantitativa.
Exercícios
[1] Assinale a alternativa que apresenta o conceito de variável quantitativa discreta:
(a) É aquela que expressa uma medida como um valor real, por exemplo, peso e altura
(b) É aquela que separa os indivíduos em casses como uma determinada ordem, por
exemplo, nível de escolaridade: fundamental, médio e superior
(c) É aquela que expressa o valor de uma contagem, por exemplo, quantidade de televisores
numa casa, quantidade de habitantes de uma cidade
(d) É aquela que separa os indivíduos em classes, porém não é possível estabelecer uma
ordem, por exemplo: sexo (masculino e feminino) e esporte praticado (futebol, basquete,
vôlei, ...)
V. Comprimento de um inseto
Com relação à classificação dos dados requeridos como variáveis de pesquisa, é correto
afirmar que:
[3] Indique em cada um dos casos abaixo, se a variável é quantitativa Discreta (D),
quantitativa Contínua (C), qualitativa Nominal (N) ou qualitativa Ordinal (O):
(a) [ ___ ] Meses do ano para observação do consumo de energia elétrica numa empresa
(b) [ ___ ] As temperaturas registradas num certo dia em uma cidade do Paraná
(d) [ ___ ] Nacionalidade das pessoas que passam diariamente no Aeroporto de Guarulhos
(f) [ ___ ] Avaliação (ótimo, bom, regular, ruim) do desempenho do Presidente da República
(g) [ ___ ] Cor dos cabelos dos alunos matriculados nos cursos da Fatec Bauru
(h) [ ___ ] Número de coroas obtidas no lançamento de uma moeda duzentas vezes
(j) [ ___ ] Número de ações negociadas num dia na B3 : Bolsa de Valores de São Paulo
[4] Uma população encontra-se dividida em três estratos, com tamanhos 40, 100 e 60.
Sabendo-se que nove elementos foram retirados do terceiro estrato em uma amostragem
estratificada, determine o número total de elementos dessa amostra.
[5] Num levantamento feito numa Instituição de Ensino sobre os alunos regularmente
matriculados nos quatro primeiros semestres de um determinado curso estão apresentados
na Tabela abaixo. Obtenha uma amostra proporcional estratificada de 125 alunos para
responder a uma pesquisa:
Distribuição de Frequências
Introdução
Para atingir os objetivos da Estatística Descritiva, os dados observados são muitas
vezes sintetizados e apresentados em formas de Tabelas, as quais irão fornecer rápidas e
seguras informações a respeito das variáveis em estudo. Uma das tabelas mais utilizadas
na Estatística é a Distribuição de Frequências.
65264362516351363435
54162522351562645213
Então, temos:
Observe que os valores das medidas não estão ordenados, isto é, não estão
colocados em ordem crescente ou decrescente e por isso são chamados dados brutos.
A ordenação dos dados brutos chama-se rol. Portanto, vamos organizar esses dados
em ordem crescente a fim de facilitar a comparação entre eles:
1. Amplitude total: chama-se Amplitude Total (AT) dos dados a diferença entre o
maior e o menor valor da variável. A amplitude total mostra o campo de variação dos
valores observados da variável em estudo.
k = 1 + 3,322 . log n
AT
h=
k
Este arranjo ou organização dos dados brutos em classes, juntamente com as suas
respectivas frequências, ou seja, com o número de elementos do conjunto que está inserido
em cada classe, configura-se na chamada Distribuição de Frequências com intervalo de
classes.
Distribuição de frequências, com a frequência acumulada (Fi ) , a qual fornece a soma das
frequências absolutas até determinado dado. A frequência acumulada é utilizada em
variáveis cujos valores apresentam uma ordenação natural, ou seja, as variáveis
qualitativas ordinais e as quantitativas em geral.
fi
e o número total de observações (n) , isto é: fri = .
n
Fi
da frequência acumulada em relação ao total da absoluta, isto é: Fri = .
n
Com estas novas definições, podemos completar nossa Distribuição de frequências.
Exercícios
[1] Numa sala com 100 alunos, foi feita uma pesquisa para determinar a altura destes
alunos. Para tanto, perguntou-se a cada um deles, um a um, qual a sua estatura. Os
resultados obtidos nessa pesquisa (dados brutos) estão abaixo. Elabore uma Distribuição
de frequência (completa):
[2] Uma empresa de RH fez uma entrevista para a seleção de candidatos a algumas vagas
de emprego. Ao todo foram entrevistados 280 candidatos, dos quais 20 foram separados
aleatoriamente e indicados na tabela a seguir:
(a) Podemos verificar que a população é composta de _______ candidatos e a amostra desses
candidatos é composta de _______ pessoas.
(c) quantos funcionários recebem salário igual ou superior a R$ 1.000,00 e menor do que
R$ 2.600,00?
[4] As notas obtidas por 40 alunos de uma turma em certa disciplina estão registradas a
seguir:
Num histograma, as classes são representadas por retângulos (um para cada classe)
dispostos vertical e contiguamente (sem espaço entre eles) e cujas bases serão
determinadas pelos limites destas classes (limites inferior e superior) e as alturas
determinadas pelas frequências de cada classe.
Exercícios
[1] O tempo de duração em horas de 100 (cem) lâmpadas de determinada marca, foram
registrados na tabela abaixo:
[2] A Tabela abaixo mostra o resultado de um teste aplicado a 90 alunos para medir o
Quociente de Inteligência (QI). A partir dela, construa o Histograma e o Polígono de
frequências:
[3] A partir da Distribuição de Frequência abaixo, referente notas de uma turma de 700
alunos, elabore uma representação gráfica:
[4] Com base nas Distribuições de Frequências abaixo, construa o Histograma e o Polígono
de frequências:
(a) (b)
Introdução
Dentro das análises estatísticas, há três grupos de medidas utilizados: as medidas de
tendência central, que quantificam a tendência dos dados concentrarem-se em torno de
uma posição central (os dados tendem a se agrupar em torno de valores centrais); as
medidas de dispersão, que avaliam o espalhamento dos dados e as medidas de assimetria e
curtose, que medem a simetria e o achatamento de alguns gráficos, em particular o
Histograma. Como a intenção da Estatística Descritiva é resumir os dados em uma única
informação numérica, aproveita-se a tendência de agrupamento dos dados e determinam-se
algumas medidas, cujos valores numéricos, possam expressar o centro de localização da
distribuição das observações. Tais medidas são denominadas de medidas de tendência
central. Dentre elas destacam-se: a média aritmética, a mediana e a moda. Claramente, a
média aritmética é mais usada. Outras medidas de posição são as separatrizes que são: a
mediana, os quartis e os percentis.
Média Aritmética
Existem dois tipos de médias: a média populacional (representa pela letra grega ) e
a média amostral (representada por X ). Vejamos como esse conceito se aplica em cada
caso:
x1 + x 2 + x 3 + ... + x n
X=
n
Ou seja, é obtida tomando-se a soma de todas as observações e dividindo pelo
número de observações na amostra.
Exemplo (1): um teste aplicado a dez (10) pessoas resultou nos seguintes valores:
94, 85, 78, 70, 69, 85, 93, 78, 66 e 62. Qual é a média deste teste?
94 + 85 + 78 + 70 + 69 + 85 + 93 + 78 + 66 + 62
A média é: X = = =
10 10
(f .x ) i i
Vejamos um exemplo:
(f .x ) i i
X= i= 1
n
= =
fi= 1
i
(f .x ) i i
X= i= 1
n
= ==
fi= 1
i
Moda
Denomina-se moda (Mo) de um conjunto de dados, o valor que ocorre com maior
frequência (f i ) , ou seja, o valor que mais se repete.
Exemplo: 3, 4, 5, 6, 6, 6, 6, 7, 7, 8, 9
Exemplo: 1, 2, 3 4, 5, 6, 7, 8, 9
Exemplo: 1, 2, 2, 2, 3, 4, 5, 6, 6, 6, 7, 8, 9
1
(f i ) e aplica-se a seguinte fórmula: Mo = li + .h
1 + 2
2 = Fi − Fi, post
Exemplo:
Classe Modal
2
Mo = 158 + .4 = 159 ,6
2+3
Mediana
A mediana (Md) de um conjunto de dados, organizados em ordem de magnitude, é o
valor que está no centro do conjunto (se o número de dados for ímpar), ou é a média dos
dois dados que estão no centro do conjunto (se o número de dados for par).
Ou seja, a mediana é o valor que divide o conjunto de dados em dois grupos, ou duas
partes exatamente iguais, isto é, em dois subconjuntos de mesmo número de elementos,
onde 50% dos dados são menores ou iguais a mediana ou 50% dos dados são maiores ou
iguais a mediana.
Exemplo: 2, 5, 6, 9, 10, 13, 15, 16, 18 → Md = 10 (quatro valores para cada lado).
9 + 10
Exemplo: 2, 5, 6, 9, 10, 15, 16, 18 → Md = = 9,5
2
A menor frequência acumulada (Fi ) que supera esse valor é 49, que corresponde ao
valor 3 da variável (x i ) ; logo Md = 3.
x i + x i +1
Md =
2
f i
=
36
= 18 = F3
2 2
18ª posição
2+3
Então: Md = = 2,5
2
fi
− Fant . h
2
Md = l i + , onde:
fi
f i
=
40
= 20 (20ª posição)
2 2
No caso de
f i
= Fi acontecer, a mediana será o limite superior da classe
2
correspondente.
Estatística (versão 2022a) MODESTO, Marco Antonio
27 Fatec Bauru
NOTA (1): Média e Mediana sempre existem. Moda pode não existir. Exemplo:
quando todas as observações são iguais;
NOTA (2): Os três índices (média, moda e mediana) são geralmente diferentes;
NOTA (3): A média é afetada pelos valores fora do padrão das observações (outliers)
mais que a Moda e a Mediana (em amostras pequenas). Moda e Mediana são mais
resistentes aos outliers;
Separatrizes
As separatrizes são valores que dividem uma distribuição em um certo número de
partes iguais. Já vimos a Mediana (Md) que divide a distribuição em duas partes
exatamente iguais. Veremos agora os quartis, percentis e decis. O objetivo das separatrizes
é proporcionar uma melhor ideia da dispersão do conjunto, principalmente da simetria ou
assimetria da distribuição.
Quartis
Denominam-se quartis os valores de uma série que a dividem em quatro partes
iguais. Portanto, há três quartis. São mais aplicados em Distribuição de Frequências com
intervalos de classes.
1° quartil (Q1): 25% dos dados são < que o Q1 e os 75% restantes são maiores
2° quartil (Q2): coincide com a mediana, 50% para cada lado, ou seja, Q2 = Md
3° quartil (Q3): 75% dos dados são < que o Q3 e os 25% restantes são maiores
k . fi
Para o caso de dados agrupados, basta aplicarmos a fórmula , sendo k o
4
número do quartil (primeiro quartil k =1; segundo quartil k = 2 e terceiro quartil k = 3).
Então:
1. f i
− Fant . h
4
Q1 = l i +
fi
2. f i 3. f i
− Fant . h − Fant . h
4 4
Q 2 = li + Q 3 = li +
fi fi
Exemplo:
► Primeiro Quartil:
1. fi 1 . 40 40
= = = 10 , logo o 1° quartil está na 2ª classe, ou seja: , de onde
4 4 4
2. f i 2 . 40 80
= = = 20 , logo o 2° quartil está na 3ª classe, ou seja: , de onde
4 4 4
► Terceiro Quartil:
3. f i 3 . 40 120
= = = 30 , logo o 3° quartil está na 4ª classe, ou seja: , de
4 4 4
Percentis
Denominamos Percentis os noventa e nove valores que separam uma série em 100
k . fi
Calcula-se da mesma forma que os Quartis, só que aplicando , sendo k o
100
número de ordem do percentil (1°, 2°, 3°, ..., 25°, ..., 50°, ..., 99°).
k. f i
− Fant . h
100
Fórmula ➔ Pk = l i +
fi
Exemplo:
65 . f i 65 . 40
Para o septuagésimo quinto (65°) percentil (k = 65): = = 26
100 100
NOTA: Os Percentis múltiplos de 10% são chamados de Decis. Assim, por exemplo, o
Exercícios
[1] Calcule a média aritmética, a mediana e a moda dos seguintes conjuntos de dados:
(a) x i : 9, 6, 7, 4, 7, 9, 8, 4, 5, 5, 6, 4, 5, 4, 6, 5, 7, 4, 2, 8, 7, 5, 8, 5, 7, 6, 4
Para os conjuntos de dados acima, vamos calcular o valor das medidas de posição:
Média e Mediana:
x1 =
X1: 34, 36, 38, 40, 42, 44, 46
Md1 =
x2 =
X2: 35, 37, 39, 40 41, 43, 45
Md 2 =
Observe que cada conjunto de escores tem a mesma média e a mesma mediana.
Mas analisando a figura abaixo notamos que os dados em X1 estão mais espalhados
com relação à média do que aqueles de X2:
Vamos ver agora uma forma de medir o quanto os escores estão espalhados.
Medidas de Dispersão
Introdução
As medidas de dispersão (ou variabilidade) indicam se os valores estão relativamente
próximos uns dos outros, ou separados. Podemos dizer que dispersão é o grau com o qual
médio. O valor zero indica ausência de dispersão; a dispersão aumenta à proporção que
Amplitude total
É a medida mais simples de dispersão. A amplitude total (AT) é a diferença entre o
maior valor e o menor valor observado, ou seja:
AT = X max - X min
Exemplo:
A Amplitude é uma medida pobre da dispersão, pois ela depende apenas de dois
itens dos dados e não diz nada sobre como o restante dos dados estão espalhados.
Variância
É uma medida de dispersão também baseada na diferença entre o valor de cada
observação e a média dos dados. Esta diferença é chamada desvio em torno da média. A
2
Variância (S ) mede, portanto, o afastamento em torno da média, de cada um dos dados.
Quanto maior este afastamento maior é a variância e, então, maior a dispersão dos dados.
Os conjuntos de dados com menor variância são mais homogêneos e preferidos pela
Estatística.
(x1 − x ) 2 + (x 2 − x ) 2 + (x 3 − x ) 2 + ... + (x n − x ) 2
S =
2
n -1
S1 =
2
S2 =
2
Como a variância amostral para o conjunto X1 é maior que a variância amostral para
o conjunto X2, concluímos que os dados do conjunto X1 estão mais largamente espalhados
com relação aos dados do conjunto X2.
Desvio Padrão
No cálculo da variância, elevamos o quadrado os desvios com relação à média, ou
seja, a variância é um número em unidade quadrada em relação à média; logo o desvio
padrão de dados amostrais será a raiz quadrada positiva da variância:
(x i − x ) 2
S= S = 2
n -1
S1 =
S2 =
Novamente, o fato de o desvio padrão do conjunto X2 ser menor que o desvio padrão
do conjunto X1, indica que estes dados estão mais densamente agrupados em torno da
média do que aqueles de X1.
NOTA: para dados agrupados sem intervalos de classe, devemos levar em conta as
frequências, ou seja:
(f i . x i ) (f i . x i )
2 2
S= −
n n
Exemplo:
(f . x ) − (f
2
. xi )
2 2
=
s= S = − = =
2 i i i
n n
Já para dados agrupados com intervalos de classe, devemos também levar em conta
Por exemplo:
(f . x ) − (f
2
. xi )
2 2
s = S2 =
i i i
= − = =
n n
Coeficiente de Variação
Trata-se de uma média relativa à dispersão, útil para a comparação e observação
em termos relativos do grau de concentração em torno da média de séries distintas, ou seja,
s
é a porcentagem do Desvio Padrão em relação a sua média: CV = .100 .
x
Classificação da distribuição quanto à dispersão:
s = 1,32874 s 1,32874
(a) CV = .100 → CV = .100 = 65,46 %
x = 2,03 x 2,03
s = 5,56776 s 5,56776
(b) CV = .100 → CV = .100 = 3,46%
x = 161 x 161
Outro exemplo: numa empresa o salário médio dos funcionários do sexo masculino
é de R$ 3.500,00 com seu desvio padrão de R$ 1.100,00 e os funcionários do sexo feminino
é em média de R$ 3.000,00 com um desvio padrão de R$ 1.200,00. Calcule o CV em cada
caso.
CVM = CVF =
Interpretação: logo, podemos concluir que o salário das mulheres apresenta maior
dispersão relativa que a dos homens.
Exercícios
[1] Uma amostra de dez lâmpadas foi escolhida e foram medidas as suas vidas úteis. As
lâmpadas duraram 968, 895, 769, 845, 922, 916, 970, 778, 852 e 935 horas. Calcule a
média, desvio padrão e o coeficiente de variação das vidas úteis das lâmpadas amostradas.
[2] Um grupo de 85 moças (grupo 1) tem estatura média de 160,6 cm e desvio padrão de
5,97 cm. Um outro grupo de 125 moças (grupo 2) tem uma estatura média de 161,9 cm e
desvio padrão igual a 6,01 cm. Qual é o CV de cada um dos grupos? Qual o grupo mais
homogêneo?
[4] Para aferir uma máquina empacotadora de um determinado cereal, foram amostrados
124 pacotes e suas massas registradas, conforme tabela abaixo. Determine o desvio padrão,
a variância e o coeficiente de variação dos pacotes amostrados.
[6] Uma pesquisa sobre a idade, em anos, dos frequentadores de um determinado Hotel,
durante uma semana, revelou os valores abaixo. Determine todas as medidas de dispersão
para esses dados:
Exercícios Complementares
[1] Um dado não viciado foi lançado 50 vezes e os resultados obtidos foram:
Construa uma Distribuição de Frequência (completa) para os dados acima, faça uma
representação gráfica e determine: média, moda e a mediana desta distribuição.
[3] Uma fábrica, para avaliar a qualidade do descanso de seus funcionários, aplicou um
questionário para verificar o tempo médio de horas de sono noturno. Os valores obtidos
estão indicados a seguir:
[9] Dado o rol do número de erros de impressão da primeira página de um jornal durante
50 dias, obteve-se os seguintes resultados:
5 5 5 6 6 6 7 7 7 7
7 8 8 8 8 8 8 8 9 9
10 10 10 10 10 11 11 11 11 12
12 12 12 12 12 12 12 12 12 14
14 14 14 14 14 14 15 16 19 22
Noções de Probabilidade
Introdução
Estudos envolvendo probabilidade também fazem parte da Estatística. Antes de
começarmos nosso estudo sobre Probabilidade, vejamos algumas definições importantes.
Exemplo (2): no lançamento de dado, anotando a face voltada para cima, temos o
seguinte espaço amostral:
E = {1, 2, 3, 4, 5, 6} n(E) = 6
E = {(C, 1), (K, 1), (C, 2), (K, 2), (C, 3), (K, 3), (C, 4), (K, 4), (C, 5), (K, 5), (C, 6), (K, 6)}
n(E) = 2.6 = 12
n(E) = 2.2.2 = 8
C: CARA K: COROA
E = {(C, C, C), (C, C, K), (C, K, C), (C, K, K), (K, C, C), (K, C, K), (K, K, C), (K, K, K)}
A = {(1, 1), (2, 2), (3, 3), (4, 4), (5, 5), (6, 6)} n(A) = 6
OBS (1): neste último caso, o conjunto C (conjunto vazio) representa um evento que nunca
pode ocorrer e, por isso, é denominado evento impossível.
OBS (2): o espaço amostral também pode ser representado pela letra grega ômega: .
Conceito de Probabilidade
Sejam E um espaço amostral equiprovável (com resultados que têm a mesma
chance de ocorrer) e A um evento deste espaço amostral. A probabilidade de ocorrer algum
elemento do evento A é indicada por P(A) e definida por:
n(A)
P(A) =
n(E)
NOTA (2): sabemos que um evento pode ocorrer ou não. Sendo p a probabilidade de
que ele ocorra (sucesso) e q a probabilidade de que ele não ocorra (insucesso), então para
um mesmo evento sempre existe a relação: p + q = 1 → q = 1 – p (neste caso, q é
chamado de evento complementar de p).
1
Por exemplo, se a probabilidade de se realizar um evento é p = , logo, a
5
1 4
probabilidade de que ele não ocorra é dada por: q = 1 – p ➔ q = 1 - =
5 5
E = {1, 2, 3, 4, 5, 6} n(E) = 6
A = {5, 6} n(A) = 2
n(A) 2 1
Logo: P(A) = = = = 0,3333 (33,33%)
n(E) 6 3
EX(2): Probabilidade de retirar uma bola vermelha de uma urna contendo três bolas
brancas, duas vermelhas e cinco azuis:
E = {B, B, B, V, V, A, A, A, A, A} n(E) = 10
A = {V, V} n(A) = 2
n(A) 2 1
Logo: P(A) = = = = 0,20 (20,00%)
n(E) 10 5
EX(3): Probabilidade de extrair, ao acaso, uma bola com número par, de uma urna que
contém 15 bolas numeradas de 1 a 15:
n(A) 7
Logo: P(A) = = = 0,4667 (46,67%)
n(E) 15
Exercícios
[1] Numa caixa há fichas numeradas de 11 a 20. Defina:
(a) o espaço amostral do experimento “retirar uma ficha ao acaso desta caixa”;
(b) o evento “ocorrência de número ímpar”;
(c) o evento “ocorrência de número primo”;
(d) o evento “ocorrência de número maior que 14”
[2] Em uma urna são colocadas três bolas idênticas numeradas: ,e. São
sorteadas duas dessas bolas com reposição, ou seja, sorteia-se uma bola, que é reposta na
urna e, em seguida, sorteia-se outra bola. Determine:
(a) o espaço amostral desse experimento;
(b) o evento A: ocorrência de dois números pares;
(c) o evento B: ocorrência da 1ª bola sorteada ter um número maior do que o número da 2ª
bola sorteada;
(d) o evento C: ocorrência do produto dos números sorteados nas bolas ser menor que 20.
[3] Considere a seguinte D.F. das idades de funcionários de um setor de uma empresa.
Escolhendo-se ao acaso um funcionário desse setor, qual a probabilidade dele possuir:
[5] Uma sala contém 10 homens e 20 mulheres, sendo que a metade dos homens e três
quartos das mulheres têm olhos castanhos. Uma pessoa é escolhida ao acaso. Determine a
probabilidade dessa pessoa escolhida:
(a) ser homem;
(b) ser homem com olhos castanhos;
(c) ser mulher com olhos castanhos;
(d) não ter olhos castanhos;
[6] Em um experimento, uma moeda é lançada 800 vezes, obtendo-se 520 caras e 280
coroas. Construa uma tabela de frequências para representar os resultados obtidos neste
experimento. O que é possível suspeitar acerca da honestidade da moeda?
1
A: sair n° 2 P(A) =
6
1
B: sair n° 5 P(B) =
6
1 1 2 1
Logo: P(A B) = P(A) + P(B) = + = = = 0,333 (33,33%)
6 6 6 3
Exemplo: quando você joga um dado, pensemos nos eventos: ocorrer “número
ímpar” ou ocorrer “número maior do que quatro”. Esses dois eventos têm um resultado em
comum: o número cinco, que tanto pertence ao evento “número ímpar” como ao evento
“número maior do que quatro”.
3
A: ocorrer n° ímpar A = {1, 3, 5} P(A) =
6
2
B: ocorrer n° maior do que quatro B = {5, 6} P(B) =
6
1
A B = {5} P(A B) =
6
3 2 1 4 2
Logo: P(A B) = P(A) + P(B) - P(A B) = + − = = = 0,6667 (66,67%)
6 6 6 6 3
1
A: ocorrer face 3, dado amarelo P(A) =
6
1
B: ocorrer face 5, dado vermelho P(B) =
6
1 1 1
Logo: P(A B) = P(A) . P(B) = . = = 0,0278 (2,78%)
6 6 36
Exemplo: Dentro de uma caixa há cinco bolas, três são azuis e duas brancas.
Retiram-se duas bolas ao acaso dessa caixa, sem reposição, uma em seguida da outra.
2
A : 1ª bola retirada é branca P(A) =
5
1
B : 2ª bola retirada é branca P(B/A) =
4
2 1 2 1
Logo: P(A B) = P(A) . P(B/A) = . = = = 0,10 (10,00%)
5 4 20 10
Exercícios
[1] Dados os algarismos 1, 2, 3, 4, 5, 6 e 7, construímos todos os números que podem ser
representados usando dois deles, sem repetir. Escolhendo ao acaso aleatoriamente um dos
números formados, qual a probabilidade de o número sorteado ser par? E ser múltiplo de
5?
[2] Num grupo de 80 pessoas, 16 gostam de música, esporte e leitura; 24 gostam de música
e esporte; 30 gostam de música e leitura; 22 gostam de esporte e leitura; 6 gostam somente
de música; 9 gostam somente de esporte; e 5 gostam somente de leitura. Qual é a
probabilidade de, ao apontar ao acaso uma dessas pessoas, ela gostar de música? Qual é a
probabilidade de, ao apontar ao acaso uma dessas pessoas, ela não gostar de nenhuma
dessas atividades?
[3] Num grupo de 100 pessoas da zona rural, 25 estão afetadas por uma parasitose
intestinal A e 11 por uma parasitose intestinal B, não se verificando nenhum caso de
incidência conjunta de A e B. Duas pessoas desse grupo são escolhidas, aleatoriamente,
uma após a outra. Determine a probabilidade de que, dessa dupla, a primeira pessoa esteja
afetada por A e a segunda por B.
[8] Um lote contém seis lâmpadas, sendo três boas e três defeituosas. Um funcionário vai
retirar ao acaso, três lâmpadas deste lote, sem reposição. Qual a probabilidade de todas
serem boas? Qual a probabilidade de duas serem boas e uma defeituosa? Qual a
probabilidade de pelo menos uma delas ser defeituosa? (Para resolver exercícios como esse,
devemos nos lembrar dos tipos de agrupamentos existentes2).
n!
agrupamentos. Temos a seguinte fórmula: A n,p = , onde 0 ≤ p ≤ n.
(n - p)!
n!
composição desses agrupamentos. Temos a seguinte fórmula: C n,p = , onde 0 ≤ p ≤ n.
p! . (n - p)!
Estatística (versão 2022a) MODESTO, Marco Antonio
53 Fatec Bauru
[10] O seguinte grupo de pessoas está numa sala: 5 rapazes com mais de 21 anos, 4
rapazes com menos de 21 anos, 6 moças com mais de 21 anos e 3 moças com menos de 21
anos. Uma pessoa é escolhida ao acaso dentre as 18. Os seguintes eventos são definidos:
C: a pessoa é um rapaz
Calcule:
(a) P(B D)
(b) P(A C)
Distribuições de Probabilidade
Seja a variável aleatória X, que pode assumir os valores correspondentes ao conjunto
X = {x 1 , x 2 , x 3 ,..., x n } .
A relação x i → f(x i ) define uma correspondência entre todos os valores que a variável
Exemplo: suponha que o número máximo de leitos que uma UTI comporte seja 4.
Definindo a variável aleatória X como “número de óbitos na UTI”, os valores que a variável
aleatória pode assumir, num certo período de tempo, são X = {0, 1, 2, 3, 4}, onde X = 0
significa nenhum óbito (quatro pacientes vivos); X = 1 (um) óbito (três pacientes vivos), e
assim por diante. Supondo que um paciente nesta UTI tenha ¾ de chances de sobrevida e
¼ de chance ir a óbito. Vamos associar as probabilidades a cada um destes possíveis
resultados, ou seja:
x = 0 ➔ f(0) =
x = 1 ➔ f(1) =
x = 2 ➔ f(2) =
x = 3 ➔ f(3) =
x = 4 ➔ f(4) =
x 0 1 2 3 4
f(x)
Graficamente, teremos:
Note, também, que a soma das áreas sob a curva que representa a função de
probabilidade é igual a 1 ou 100%.
Distribuição Normal
Introdução
Já vimos que uma variável é o conjunto de resultados possíveis de um fenômeno. A
variável pode ser qualitativa, quando seus valores são expressos por atributos (sexo, cor) ou
pode ser quantitativa, quando seus valores são expressos em números.
A variável quantitativa pode ser contínua, quando assume qualquer valor entre dois
limites (peso, altura, medições), ou pode ser discreta, quando só pode assumir valores
pertencentes a um conjunto enumerável (número de filhos, contagem em geral).
Ponto de inflexão
Para caracterizar a distribuição normal, basta a média e o desvio padrão. Por esta
razão, quando se quer informar que uma variável aleatória se distribui normalmente,
costuma-se escrever N( x, s) .
Quando temos em mão uma variável aleatória com distribuição normal, nosso
principal interesse é obter a probabilidade de essa variável aleatória assumir um valor em
um determinado intervalo. Essa probabilidade é representada pela área sob a curva dentro
desse intervalo. A área total sob a curva é 1 ou 100%. O cálculo desse valor é difícil, sendo
então esse já tabelado (veja tabela na página seguinte).
x-x
z=
s
Exemplo: seja um teste de inteligência aplicado a um grupo de 198 adolescentes.
Obteve-se uma distribuição normal com média 50 e desvio padrão 6. Pergunta-se qual a
proporção de alunos com notas superiores a 60? Qual o número de alunos com notas entre
35 e 45?
x - x 60 − 50
z= = = 1,67
s 6
x - x 45 − 50
z1 = = = −0,83
s 6
x - x 35 − 50
z2 = = = −2,50
s 6
(consultando na tabela):
Exercícios
[1] Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio
padrão 25. Determine a probabilidade de um indivíduo submetido ao teste ter nota entre 75
e 125. E entre 115 e 125.
r.: 68,26% 11,56%
[2] Suponha que o tempo de resposta na execução de um algoritmo é uma variável aleatória
com distribuição normal de média 23 segundos e desvio padrão de 4 segundos. Calcule a
probabilidade para que o tempo de resposta fique entre 20 e 30 segundos.
r.: 73,33%
[3] Determinar os valores de z simétricos em relação a origem, que entre si abrangem 95%
da área total. Idem para os 99% da área total. r.: 1,96 2,575
[4] Seja um teste de inteligência aplicado a um grupo de 1000 alunos de uma escola
superior. Obteve-se uma distribuição normal, com média de 32 e desvio padrão de 4. Qual
o número de alunos com notas superiores a 38? E inferiores a 35? Qual o número de
alunos com notas compreendidas entre 27 e 31?
r.: 67 773 296
[5] Foi realizado um exame cuja média foi 78 com desvio padrão de 10. Determine os
escores reduzidos de dois estudantes cujas notas foram 93 e 62 respectivamente e
interprete o valor do score z. Determine a nota de dois estudantes cujos escores reduzidos
foram, respectivamente, -0,60 e 1,20.
r.: 1,50 e -1,60 (direita e esquerda) 72 e 90
[7] O tempo para que um Sistema Computacional execute determinada tarefa é uma
variável aleatória com distribuição normal, com média 320 segundos e desvio padrão de 7
segundos. Qual a probabilidade de que a tarefa seja executada entre 310 e 330 segundos?
r.: 84,72%
[8] Um processo industrial produz peças com diâmetro médio de 2,00” e desvio padrão de
0,018”. Peças cujo diâmetro médio se afastam da média por mais de 0,03” são consideradas
defeituosas. Admitida a normalidade, num lote de 1000 peças, quantas peças defeituosas
teremos? r.: 95
Teste de Hipóteses
Introdução
Na prática, somos chamados a tomar decisões acerca de populações, baseadas nas
informações das amostras. Este tipo de situação é um exemplo de inferência estatística e,
ao contrário do que possa parecer, é relativamente frequente no dia a dia de empresas.
Tome-se, como exemplo, a decisão de substituir um equipamento por outro, similar ou
mais avançado tecnologicamente. Esta tomada de decisão requer estudos sobre
desempenho, custo e confiabilidade, entre outros fatores. Neste caso, o procedimento usual
é a comparação dos dados referentes ao novo equipamento com os dados referentes ao
equipamento a ser substituído. Somente após esta comparação é que se toma a decisão de
efetuar, ou não, a troca. O que temos aqui é uma típica aplicação da Teoria da Decisão
Estatística (TDE), já que, por mais detalhados que sejam os estudos, sempre haverá uma
margem de incerteza quanto à correção da decisão tomada.
Hipótese Estatística
Hipótese estatística é uma afirmação a respeito da distribuição de uma ou mais
variáveis. A partir de amostras faremos suposições sobre os parâmetros de uma população.
São exemplos de hipóteses estatísticas: a média populacional da altura dos brasileiros é
170 cm; a proporção de brasileiros com a doença Y é 35%. Na situação tomada como
exemplo no início deste capítulo, poderíamos formular duas hipóteses. A primeira poderia
ser: “A substituição do equipamento não acarretará nenhum ganho de produtividade”. A
segunda hipótese poderia ser: “A substituição do equipamento acarretará um ganho
expressivo de produtividade”. A prova ou o teste de uma hipótese estatística é uma regra
que, obtidos os valores amostrais, conduz a uma decisão de aceitar ou rejeitar a hipótese
considerada.
Tipos de Hipóteses
Na TDE são formuladas duas hipóteses, chamadas hipótese nula (H0) e hipótese
alternativa (H1). Ambas dizem respeito, essencialmente, a um parâmetro (valor
populacional) e ao seu respectivo estimador (valor amostral).
Teste de Hipótese
Um teste de hipótese estatística é uma regra geral tal que, quando os valores de uma
amostra são obtidos, leva à decisão de aceitar ou rejeitar a hipótese considerada. Supondo
que a média () de uma população seja o parâmetro a ser testado, as hipóteses nula (H0) e
H o : = o
1. Teste bicaudal ou bilateral:
H1 : o
H o : = o
2. Teste unicaudal ou unilateral à direita:
H1 : o
H o : = o
3. Teste unicaudal ou unilateral à esquerda:
H1 : o
x é a média da amostra
x − o
z= o é a média da população
s , onde:
s é o desvio padrão da população
n n é o número de elementos da amostra
Os valores críticos de z relativos aos níveis de significância () usados com maior
frequência são dados abaixo:
Resolução:
H o : o = 15
(Teste bilateral com nível de significância de 0,05)
H1 : o 15
x − o 14,8 − 15
Cálculo do z = = = − 1,77 (valor que se localiza na região de
s 0,8
n 50
aceitação).
Exercícios
[1] A vida média de uma amostra de 100 lâmpadas fluorescentes fabricadas por
determinada empresa é de 1570 horas, com desvio padrão de 120 horas. Se o é a vida
média de todas as lâmpadas fabricadas pela empresa, teste a hipótese o = 1600 horas
contra a hipótese alternativa o ≠ 1600 horas, utilizando um nível de significância de 0,05.
[2] No exercício anterior, utilizando o mesmo nível de significância, teste a hipótese nula
o = 1600 horas contra a hipótese alternativa o < 1600 horas.
[3] Em certo Banco de Dados, o tempo para a realização das buscas é aproximadamente
normal, com média de 53 s e desvio padrão de 14 s. Depois de realizadas algumas
modificações no sistema, observou-se que, em 30 consultas, o tempo médio caiu para 45 s.
Num nível de significância de 1%, há evidência de melhoria?
[5] A associação dos proprietários de instituições hospitalares está muito preocupada com o
tempo perdido com acidentes de trabalho, cuja média nos últimos tempos, tem sido da
ordem de 60 horas/homem por ano. Tentou-se um programa de prevenção de acidentes,
após o qual foi tomada uma amostra de 9 Hospitais e medido o número de horas/homens
perdidas por acidente, que foi de 50 horas e desvio padrão de 20 horas/homem. Você diria,
no nível de 5%, que há evidência de melhoria?
[6] Uma fábrica de cigarros anuncia que o índice de nicotina dos cigarros da marca Y
apresenta-se abaixo de 26mg por cigarro. Um laboratório realiza 10 análises do índice
obtendo: 26, 24, 23, 22, 28, 25, 27, 26, 28, 24. Sabe-se que o índice de nicotina dos
cigarros da marca Y se distribui normalmente com variância de 5,36 mg 2. Pode-se aceitar a
afirmação do fabricante, ao nível de 5%?
x = 210 kg. Ao nível de 10%, pode o fabricante aceitar que a resistência média de suas
lajotas tenha aumentado?
[8] Uma fábrica de equipamentos hospitalares anuncia que seus equipamentos consomem,
em média, 11 kWh por 100 horas de uso mensal, com desvio padrão de 0,8 kWh. Uma
revista médica decide testar essa afirmação e analisa 35 equipamentos dessa marca,
obtendo 11,4 kWh por 100 horas de uso mensal, como consumo médio. Admitindo que o
consumo tenha distribuição normal, ao nível de 10% o que a revista concluirá sobre o
anúncio do fabricante?
[9] A fim de acelerar o tempo que um analgésico leva para surtir efeito, um químico analista
acrescentou certo ingrediente à fórmula original, que acusava um tempo médio de 43
minutos para fazer efeito. Em 49 observações com a nova fórmula, obteve-se um tempo
médio de 41 minutos, com desvio padrão de 10 minutos. Num nível de 5% de significância,
a nova fórmula é melhor, pior ou igual à anterior?
[10] O tempo para transmitir 10MB em determinada rede de computadores varia segundo
um modelo normal, com média 7,4 s e variância 1,3 s2. Depois de algumas mudanças na
rede acredita-se numa redução no tempo de transmissão de dados, além de uma possível
alteração na variabilidade. Foram realizados 10 ensaios independentes com arquivo de
10MB e anotados os tempos de transmissão, em segundos: 6,8 ; 7,1 ; 5,9 ; 7,5 ; 6,3 ; 6,9 ;
7,2 ; 7,6 ; 6,6 e 6,3. Existe evidência suficiente de que o tempo médio de transmissão foi
reduzido? Use nível de significância de 10%.
Exercícios Complementares
[2] Um número inteiro é escolhido aleatoriamente dentre os números E = {1, 2, 3, ..., 48, 49,
50}. Determine a probabilidade de:
(a) o número ser divisível por 5;
(b) o número terminar em 3;
(c) o número ser divisível por 4 e por 6;
[3] Um lote é formado por dez peças boas, quatro com defeitos leves e duas com defeitos
graves. Uma peça é escolhida ao acaso deste lote. Calcule a probabilidade de que:
(a) ela não tenha defeitos graves;
(b) ela não tenha defeitos;
(c) ela seja boa ou tenha defeitos graves;
[4] Um teste padronizado de escolaridade tem distribuição normal com média 100 e desvio
padrão 10. Determine a probabilidade de um indivíduo submetido ao teste ter nota:
(a) maior que 120;
(b) maior que 80;
(c) entre 85 e 115;
(d) maior que 100;
[5] A vida média útil de um determinado componente eletrônico é de 850 dias e desvio
padrão de 40 dias. Sabendo que a vida útil é normalmente distribuída, calcule a
probabilidade de esse componente durar:
(a) entre 700 e 1000 dias;
(b) mais de 800 dias;
(c) menos de 750 dias;
[6] O valor médio gasto, por mês, com manutenções na rede é de R$ 2.000,00 com desvio
padrão de R$ 500,00. Qual a probabilidade de um mês apresentar valores gastos:
(a) entre R$ 1.000,00 e R$ 1.500,00?
(b) acima de R$ 2.500,00?
(c) abaixo de R$ 1.750,00?
[7] Retirada uma amostra de dezesseis parafusos obteve-se as seguintes medidas para seus
diâmetros:
10 10 11 12 12 13 14 15
15 10 11 12 12 13 14 14
Testar, num nível de significância de 0,05: (a) H0 : o = 12,5 contra o ≠ 12,5;
[8] Um determinado vegetal tem estatura normal com variância de 2 cm2 e média de 50 cm.
Com o intuito de melhorar geneticamente o crescimento desse vegetal aplicou-se um novo
insumo agrícola. Para comprovar a eficiência desse insumo, foram coletadas vinte
amostras, cujos resultados são em cm:
48 50 52 49 49 54 52 47 52 49
53 52 50 49 49 54 46 56 49 58
Pode-se afirmar ao nível de 0,05 que este insumo surtiu efeito no crescimento desse
vegetal?
[9] Um fabricante de pneus alega que seus pneus têm duração média de rodagem igual a
26.000km e desvio padrão de 2.500 km. Uma revista pretendendo verificar esta afirmação
faz um teste de rodagem com 45 pneus deste fabricante e obtém uma média de rodagem
igual a 24.600 km. O que a revista conclui sobre o que o fabricante anuncia, a um nível de
significância de 0,01?
[10] A tensão de ruptura dos cabos produzidos por um fabricante apresenta a média de
1800 kg e o desvio padrão 100 kg. Mediante nova técnica no processo de fabricação,
proclamou-se que a tensão de ruptura pode ter aumentado. Para testar essa declaração,
ensaiou-se uma amostra de 50 cabos, tendo-se determinado a tensão média de ruptura de
1850 kg. Pode-se dizer que a tensão de ruptura aumentou se usarmos o nível de
significância de 0,01?
k = 1 + 3,322. log n
AT
h=
k
x1 + x 2 + x 3 + ... + x n
X=
n
(f .x ) i i
X= i= 1
n
fi= 1
i
►Fórmula de Czuber para cálculo da Moda para Distribuição de Frequência com classes:
1
Mo = li + .h
1 + 2
fi
− Fant . h
2
Md = l i +
fi
k . f i
− Fant . h
4
Q k = li +
fi
k . f i
− Fant . h
100
Pk = l i +
fi
(x1 − x ) 2 + (x 2 − x ) 2 + (x 3 − x ) 2 + ... + (x n − x ) 2
S2 =
n -1
(x i − x ) 2
S = S2 =
n -1
(f i . x i ) (f i . x i )
2 2
S = S2 = −
n n
s
CV = .100
x
n(A)
P(A) =
n(E)
x-x
z=
s
x − o
z=
s
n
Referências Bibliográficas
BUSSAB, W. O.; MORETTIN, P. A. Estatística básica. 5. ed. São Paulo: Saraiva, 2007.
LAURENTI, Ruy ... [et al.]. Estatísticas de saúde. 2. ed. ver. e atual. São Paulo: EPU, 2005.