Escolar Documentos
Profissional Documentos
Cultura Documentos
BIOESTATÍSTICA
INTRODUÇÃO
ESTATÍSTICA
Ciência que trata do delineamento, colheita, organização, sumarização, apresentação
e análise de dados, bem como, na obtenção de conclusões válidas e tomadas de decisões em
diversos campos, a saber, engenharias, campo da saúde, biologia, farmácia, biofísica, etc.
Estatística é o estudo das populações, das variações e dos métodos de redução de
dados.
Uma metodologia desenvolvida para a coleta, a classificação, a apresentação, a
análise e a interpretação de dados quantitativos e a utilização desses dados para a tomada de
decisões
É objetivo da Estatística extrair informação dos dados para obter uma melhor
compreensão das situações que representam.
POPULAÇÃO E AMOSTRA
amostra
População
EXEMPLOS DE POPULAÇÃO
EXEMPLOS DE AMOSTRA
POPULAÇÃO E AMOSTRA
POPULAÇÃO EM ESTUDO
CLASSIFICAÇÃO
Planejamento de
Experimentos É a parte que tem por objetivo planejar a pesquisa e se preocupa com o
mecanismo da coleta de dados
e Amostragem
Estatística É a parte que tem por objetivo organizar, apresentar e sintetizar dados
observados de determinada população, sem pretensões de tirar conclusões de
Descritiva caráter extensivo.
VARIÁVEL
Exemplos:
02) Diga qual das variáveis abaixo são discretas e quais são contínuas:
04) Diga qual tipo de variável estamos trabalhando em cada caso abaixo:
TECNICAS DE AMOSTRAGEM
Amostras Probabilísticas
Amostra:
2. Na EE Professor Sebastião Torres, quer fazer-se um estudo sobe o peso dos alunos de 7
anos de idade. Sabendo-se que há 120 crianças na faixa dos 7 anos, selecione uma
amostra de 10 alunos por:
(a) Amostragem aleatória simples.
(b) Na ordenação geral qual dos elementos abaixo será escolhido para pertencer à
amostra, sabendo-se que o elemento de ordem 1420 à ela pertence?
1.648º, 290º, 725º, 1.120º
6. Uma firma de produtos alimentícios tem 120 empregados. Obtenha uma amostra
representativa correspondente a 10% da população. Sugestão: use a 8ª, 9ª e 10ª colunas, a
partir da 1ª linha, da Tabela de Números Aleatórios.
A pesquisa Survey pode ser descrita como a obtenção de dados ou informações sobre
características, ações ou opiniões de determinado grupo de pessoas, indicado como
representante de uma população alvo, por meio de um instrumento de pesquisa, normalmente
um questionário Tanur (apud PINSONNEAULT; FRAEMER, 1993).
Surveys são muito semelhantes a censos, mas deles se diferenciam porque examinam
somente uma amostra da população (enquanto o censo geralmente implica uma enumeração
da população toda) (BABBIE, Earl, 2001).
Como principais características do método de pesquisa survey podem ser citadas: o
interesse é produzir descrições quantitativas de uma população; e faz uso de um instrumento
pré-definido.
8
Surveys amostrais são realizados para entender-se a população maior da qual a
amostra foi inicialmente selecionada. Análises explicativas em pesquisas de survey visam a
desenvolver proposições gerais sobre o comportamento humano.
Survey é apropriada como método de pesquisa quando:
• Se desejar responder questões do tipo “o quê?”, “por que?”, “como?” e
“quando?”, ou seja, quando o foco de interesse é sobre “o que está
acontecendo” ou “como e por que isso está acontecendo”;
• O ambiente natural é a melhor situação para estudar o fenômeno de interesse;
• O objeto de interesse ocorre no presente ou no passado recente.
TAMANHO DA AMOSTRA
1
n0 = 2
E 0
Onde:
n0 é a primeira aproximação do tamanho da amostra.
E0 é o erro amostral tolerável (exemplo: 2% = 0,02 se definirmos este valor).
N .n0
n=
N + n0
onde:
Exemplo
Em uma empresa que contém 2000 colaboradores, deseja-se fazer uma pesquisa de
grau de satisfação. Quantos colaboradores devem ser entrevistados para tal estudo?
Resolução:
N = 2000
n 0 = 1 /( E 0 ) 2
n 0 = 1 /( 0 , 02 ) 2
n 0 = 2500
9
n = ( N .n0 ) /( N + n0 )
n = (2000.2500) /(2000 + 2500)
n = 1111 colaboradores
Com o erro amostral tolerável em 2%, 1111 colaboradores devem ser entrevistados
para a pesquisa.
N = 2000
E 0 = 0 ,04
n 0 = 1 /( E 0 ) 2
n 0 = 1 /( 0 ,04 ) 2
n 0 = 625
n = ( N .n0 ) /( N + n0 )
n = (2000.625) /(2000 + 625)
n = 476 colaboradores
N = 300.000
E 0 = 0 ,04
n 0 = 1 /( E 0 ) 2
n 0 = 1 /( 0 ,04 ) 2
n 0 = 625
n = ( N .n0 ) /( N + n0 )
n = (300000.625) /(300000 + 625)
n = 623 colaboradores
Observe que a diferença entre n e n0, neste último cálculo, é muito pequena.
Observe ainda:
N = 2000
E0 = 0,04
n = 476 coladoradores = 23,8% da população
10
N = 300.000
E0 = 0,04
n = 623 coladoradores = 0,2% da população
1. Numa empresa com 1.000 deseja-se estimar a porcentagem dos empregados favoráveis a
certa mudança em cursos de treinamentos. Qual deve ser o tamanho da amostra aleatória
simples que garanta um erro amostral não superior a 5%?
2. Numa pesquisa para eleição do cargo de presidente de um país, qual deve ser o tamanho
de uma amostra aleatória simples, se deseja garantir um erro amostral não superior a 2%?
TABELAS
Tabela de Contingência
As tabelas com muitos dados são cansativas e não mostram ao leitor uma visão
rápida e global do fenômeno.
Para isso, é preciso que os dados estejam organizados em uma tabela de distribuição
de frequências. Exemplo:
Exemplo 1:
Idades dos Empregados de uma
empresa
15 30 39 18 33 21
42 23 49 46 38 29
59 57 58 35 53 29
34 39 45 49 43 33
22 22 35 27 32 19
Para que a tabela fique menor e permita melhor compreensão, podemos agrupar os
valores da variável em vários intervalos, sendo que, em Estatística, prefere-se chamar os
intervalos de classes.
O que se pretende com a construção dessa nova tabela é realçar o que há de essencial
nos dados e, também, tornar possível o uso de técnicas analíticas para sua total descrição, até
porque a Estatística tem por finalidade específica, analisar o conjunto de valores,
desinteressando-se por casos isolados.
Temos de criar intervalos denominados classes (intervalos de idades, no exemplo
anterior) e o número de dados que pertencem a cada intervalo são denominados freqüência da
classe ou simplesmente freqüência.
Para indicar o intervalo, utilizaremos o símbolo |⎯. Por exemplo, a classe de 150 a
154 será representada, daqui a diante, por: 150 |⎯154.
Onde 150 é chamado de limite inferior da classe e 154, de limite superior da classe.
Genericamente, todo intervalo pode ser representado por: (limite inferior) |⎯(limite superior)
Observe que, nesta conotação, o limite inferior está incluído no intervalo, enquanto o
limite superior não está incluído no intervalo.
13
Processo para agrupar dados em uma tabela
A = M V − mv
maior e menor valor da amostra
A = 59 − 15 = 44
K= N K = 30 K 5,477
N ➔ nº total de elementos.
h = A / k = 44 / 5,477 8,043 = 8
K = 1 + 3,3. log N
Ponto Médio
Freqüência Acumulada
A freqüência acumulada nada mais é do que a soma das frequências de cada classe
(da primeira até a última) sendo acumuladas (somadas).
14
EXERCÍCIOS PROPOSTOS --------------------------------------------------------------------------
1. Faça uma tabela de frequências para mostrar que, numa prova de Estatística, 2 alunos
obtiveram nota 3, 1 aluno obteve 4, 3 alunos obtiveram 5, 4 obtiveram 6, 7 obtiveram 7, 2
obtiveram 9 e 1 obteve 10.
2. Faça uma tabela de frequências para mostrar que de um total de 852 homens entrevistados
sobre determinado assunto, 59 não tinham opinião, 425 eram favoráveis e os demais eram
contrários. Das 725 mulheres entrevistadas, 99 não tinham opinião, 522 eram favoráveis e
as demais contrárias.
5. As estaturas, em metro, dos alunos de uma turma de 6ª série do Colégio Passa Todos são:
1.60, 1.73, 1.60, 1.66, 1.65, 1.50, 1.50, 1.62, 1.60, 1.66, 1.60, 1.65, 1.60, 1.67, 1.69, 1.60,
1.68, 1.80, 1.70, 1.67, 1.78, 1.70, 1.66, 1.74, 1.60, 1.60, 1.68, 1.60, 1.70, 1.60, 1.65 e 1.58.
Organize esses dados em uma tabela de frequências.
7. Abaixo, temos os pesos (em kg) de 50 alunos de um 1º ano de uma faculdade, presentes
numa aula de Educação Física.
89 75 78 76 76 67 90 88 83 71
70 72 78 79 80 64 75 77 69 70
88 91 71 73 77 69 82 87 79 90
75 78 81 85 86 91 69 70 65 90
69 71 74 86 91 88 85 79 75 88
10 13 12 14 13 14 12 14 13 14 11 12
15
12 14 10 13 15 11 15 13 16 16 14 14
GRÁFICOS
Gráfico de Linhas
Gráfico de Colunas
Colunas (Comparação)
17
Gráfico de Barras
Gráfico de Setores
Pcitóricos
18
19
Histograma
Polígono de Freqüência
Média Aritmética
Média = X =
xi
n
3–1–2–0–2–5–0–1–2–2–4–3–1
X=
xi = 3 + 1 + 2 + 0 + 2 + 5 + 0 + 1 + 2 + 2 + 4 + 3 + 1 = 26 = 2
i
n 13 13
Mediana
1 – 3 – 6 – 8 – 9 – 12 – 16 Me=8
• Posição: 1º elemento: i = n / 2 = 4º
• Posição: 2º elemento: i + 1 = 5º
2 – 5 – 7 – 9 – 11 – 13 – 14 – 16
Me = (9 + 11) / 2
Me = 10
Moda
É aquele que mais se repete, ou seja, o valor mais freqüente de um grupo de estudo.
Amodal ➔ 2 – 3 – 7 – 9 – 12 – 15 – 16
Unimodal ➔ 1 – 3 – 5 – 6 – 8 – 8 – 9 – 10
Mo = 8
Bimodal ➔ 2 – 2 – 4 – 5 – 5 – 6 – 6 – 6 – 10 - 10 – 10 – 12 – 12
Mo = 6 e 10
Multi ou Polimodal ➔ 1 – 3 – 3 – 5 – 6 – 6 – 7 – 8 – 9 – 9 – 10 – 11 – 11
Mo = 3,6,9 e 11
Tabela de Freqüência
* Moda = 13
* Mediana = ?
(15º e 16º elemento) n 30
i= = = 15
2 2
Me = (13 + 14) / 2 = 13,5
21
MEDIDAS DE DIVISIBILIDADE
Quartil
Decil
Percentil
classes fi fac
4 |⎯ 9 8 8
9 |⎯ 14 22 30
14 |⎯ 19 15 45
19 |⎯ 24 5 50
Soma 50
Nº de funcionários 18 13 9 6 4
Operários 28 32 20 6 4
4 – Considere a distribuição de freqüência:
Idade (anos) 10 |⎯ 14 |⎯ 18 |⎯ 22 |⎯ 26 |⎯ 30 |⎯ 34 |⎯ 38 |⎯ 42
Nº de pessoas 15 28 40 30 20 15 10 5
MEDIDAS DE DISPERSÃO
Isto indica que necessitamos de um outro tipo de medida para distinguir os dois
conjuntos dados.
Observando as figuras, podemos notar que o primeiro conjunto apresenta valores
concentrados em relação à média, enquanto que o segundo apresenta valores dispersos
(espalhados) em relação à média.
As medidas que tratam desta característica são chamadas de medidas de dispersão.
As principais medidas de dispersão que veremos são: amplitude, desvio médio absoluto,
variância e desvio padrão.
Amplitude
Amplitude é a diferença entre o maior e o menor valores dos dados. Esta medida
utiliza somente dois valores (máximo e mínimo) para o seu cálculo, e é geralmente utilizada
para pequeno conjunto de dados.
23
Desvio = xi − X
Uma vez que estamos interessados em analisar todos os dados, devemos calcular a
média dos desvios. O problema surge quando somamos todos os desvios, pois a soma será
sempre zero.
Como estamos interessados na distância de um valor em relação à média, devemos
considerar o módulo (valor absoluto) dos desvios, evitando, deste modo, valores negativos de
alguns desvios.
Dados agrupados ➔
i =1
xi − x . fi
DM =
n
xi fi
1 2
3 5
4 2
5 1
Classes 2 |⎯ 4 |⎯ 6 |⎯ 8 |⎯ 10 |⎯ 12
fi 2 4 7 4 3
Obs.: O desvio médio absoluto depende de cada componente da série. Se mudarmos o valor
de um único elemento da série, mudamos também o desvio. Portanto, o desvio médio
24
absoluto, tem perfeita sensibilidade estatística. Outro problema é que envolvem módulos,
cujas propriedades, em geral não são suficientes conhecidas por pessoas que desenvolvem
estes cálculos.
Variância (S2)
(x − x )
n
2
i
Dados não agrupados ➔
S2 = i =1
n −1
(x )
n
2
i − x . fi
Dados agrupados ➔
S2 = i =1
n −1
xi fi
2 1
3 4
5 5
6 3
7 2
Classes 2 |⎯ 4 |⎯ 6 |⎯ 8 |⎯ 10 |⎯ 12
fi 3 5 8 6 3
xi fi
5 2
7 3
8 5
9 4
11 2
Classes 2 |⎯ 4 |⎯ 6 |⎯ 8 |⎯ 10 |⎯ 12
fi 2 4 7 4 3
-----------------------------------------------------------------------------------------------------------------
Os dados geralmente têm unidades de medida como metro, quilograma, segundo, etc.
Ao elevar os desvios ao quadrado, estas unidades também serão elevadas ao quadrado,
dificultando a comparação do valor da variância com os dados. Para resolver este problema,
podemos extrair a raiz quadrada positiva da variância, que é chamada de desvio padrão.
É a mais importante medida de dispersão utilizada em dados quantitativos.
S= S2
26
Regra Empírica
Exemplo: o valor médio dos pesos de determinados obesos é de 125 kg, com um
desvio padrão de 5 kg. O conjunto de dados tem uma distribuição na forma de sino. Estime o
porcentual de obesos que têm entre 120 e 135 kg.
-----------------------------------------------------------------------------------------------------------------
Uma vez que o peso levantado pelos atletas é maior do que dos não atletas, o desvio
padrão também é maior, porém, isto não significa que a dispersão do peso da atleta seja maior
que a do não atleta. Para realizar corretamente este tipo de comparação, utilizaremos o
coeficiente de variação. O coeficiente de variação, que representaremos por CV, é a razão
entre o desvio padrão e a média da distribuição, ou seja:
S
CV = X 100 O coeficiente de variação é expresso em porcentagens.
x
16,4
Atletas ➔ CV = 204 ,3 * 100 CV = 8,0%
28
15,1
Não Atletas ➔ CV = 94,3 *100 CV = 16,0%
Portanto, podemos agora, concluir que os pesos levantados pelos atletas têm menor
variabilidade do que dos não atletas.
1 – Qual das séries apresenta maior dispersão absoluta? E relativa? Qual apresenta maior
dispersão?
A : x = 20 B : x = 20
a) =2 =5
A : x = 50 B : x = 100
b) =2 =3
Tipos de caixa A B C
Pressão média de ruptura 150 200 300 (em bária)
Desvio Padrão das pressões 40 50 60