Você está na página 1de 80

Estatística Básica

Prof. Renato Luis Bueno Netto


DEFINIÇÃO DA ESTATÍSTICA

• “um conjunto de métodos e


processos quantitativos que
servem para estudar e medir os
fenômenos coletivos”
DESCRIÇÃO E APRESENTAÇÃO DE DADOS

POPULAÇÃO

AMOSTRA

VARIÁVEIS
EXECUÇÃO DA PESQUISA
POPULAÇÃO

CENSO AMOSTRA

Probabilística Não Probabilística

Simples ao acaso
-Sistemática
-Estratificada
-Conglomerado
Amostragem Simples ao Acaso
• Definição: É um método para selecionar,
sem reposição, n elementos de uma
população de tamanho N, em que todos têm
a mesma probabilidade de ser escolhido
para a amostra.
• Processo de coleta: Todos os elementos da
população devem ser enumerados. Sorteia-
se n elementos quer irão compor a amostra.
Este sorteio tem que ser feito de forma
aleatória.
Amostragem Simples ao Acaso
• Utilização: Este tipo de amostragem é
aplicado quando toda a população tem
características semelhantes.
• Exemplo: Selecionar aleatoriamente a altura
de 6 alunos desta sala de aula. Utilize a
linha 10 e a coluna 14 da tabela de números
aleatórios, da esquerda para a direita.
• Pergunta-se:
• Qual o tamanho da amostra?
• Quem é a população?
• Quem é a variável em estudo e de que tipo
ela é?
Amostragem Sistemática
• Definição: É utilizada quando a população está
naturalmente ordenada, como fichas em um fichário, listas
telefônicas, prédios de uma rua, etc.
• Processo de coleta: Considerando N o tamanho da
população e n o tamanho da amostra, calcula-se o
intervalo de amostragem . Sorteia-se um número entre 1 e
k. Seja m esse número:
• - O primeiro elemento da amostra é o de número m;
• - O segundo elemento é o de número m+k;
• - O terceiro elemento é o de número m+2k;
• - Repete-se o processo sucessivamente.
• Exemplo: Selecionar aleatoriamente a altura de 6 alunos
desta sala de aula. Utilize a lista de presença como
ordenação da população.
Amostragem Estratificada
• Definição: É utilizada quando uma população é
heterogênea, quanto ao estudo a ser realizado,
divide-se a população em sub-populações
homogêneas.
• Processo de coleta: Deve-se dividir as N unidades
da população em N1, N2,..., Nj estratos e
selecionar ao acaso uma amostra de tamanhos n1,
n2,..., nj, de modeo que o tamanho da amostra
será n=n1+n2+...+nj.
• Amostragem estratificada: Proporcional
• - calcula-se a fração de amostragem dada por:
f =n ;
N
• - calcula-se o número de elementos a serem
sorteados em cada estrato:n1=N1f, n2=N2f.....
TAMANHO DE AMOSTRA
Margem de Erro
População
d=3% d=5%
100 91 79
1.000 516 277
5.000 879 356
20.000 1013 377
100.000 1055 383
500.000 1064 384
1.000.000 1067 384
TAMANHO DE AMOSTRA

z . p.1  p 
2
n
n0
n0  2 1
n0
d N
CUIDADOS COM AMOSTRAGEM
• Definição da População
• Definição das Unidades Amostrais
• Confiabilidade
• Tamanho da Amostra
REPRESENTAÇÃO TABULAR
TABELA 1 – Número e porcentagem de causas de morte de
residentes de Londrina, no período de 10 de agosto
a 31 de dezembro de 1993.

%
CAUSAS DA MORTE Freqüência
Doenças do ap. circulatório 281 33,5
Neoplasias 115 13,7
Causas externas 92 11,0
Doenças do ap. respiratório 87 10,4
Doenças das glând. endóc./transt. 56 6,7
Imunitários
Doenças do ap. digestivo 54 6,4
Doenças e infec. e parasitárias 46 5,5
Afecções do per. Perinatal 26 3,1
Demais grupos 82 9,8
TOTAL 839 100,0
Elementos complementares da
tabela
• ● Fonte: é a indicação do órgão ou entidade
responsável pelo fornecimento dos dados
ou pela sua elaboração. É colocada no
rodapé da tabela;
• ● Notas: são informações destinadas a
esclarecer o conteúdo das tabelas, ou
indicar a metodologia adotada na coleta ou
preparo dos dados;
• ● Chamadas: são informações de natureza
específica referindo-se a um item específico
da tabela, colocado no rodapé da página.
TABELA 2 – Distribuição percentual da população residente, em relação
a utilização de serviços de saúde. Brasil, 1998.

Percentual (%)
Serviço de saúde
Posto ou centro de saúde 41,9
Ambulatório de hospitais 21,5
Consultório particular 19,7
Ambulatório ou consultório de 8,3
clínica
Pronto socorro 4,8
Farmácia 2,2
Ambulatório de empresa ou 1,5
sindicato
Agentes comunitáios 0,1

Fonte: IBGE
Nota: Utilizou-se uma amostragem estratificada por região do país.
Tabelas de contingência

• Uma tabela de contingência é uma tabela de


dupla entrada, em que os elementos da
amostra ou da população são classificados
de acordo com dois fatores.
TABELA 3 – Mortalidade segundo a faixa etária e região dos residentes de
Londrina, no período de 10 de agosto a 31 de dezembro de 1993.

REGIÃO FAIXA ETÁRIA


< 1 ano 1a4 5 a 19 20 a 49 anos 50 anos ou
anos anos +
Centro 4,54 - 2,02 14,65 78,79
Norte 6,45 1,61 2,42 26,61 62,91
Sul 7,27 4,55 5,45 22,73 60,00
Leste 3,36 - 4,03 24,16 68,45
Oeste 4,57 1,14 3,43 18,29 72,57
Rural 15,71 4,29 4,28 14,29 61,43
LONDRIN 5,83 1,42 3,37 20,61 68,77
A

FONTE: Relatório do período de 10 de agosto a 31 de dezembro


do Núcleo de Informação em mortalidade – PML.
DISTRIBUIÇÃO DE FREQÜÊNCIA
Idade dos alunos desta sala de aula

Freqüência Freqüência
Idade (anos) absoluta relativa %
DISTRIBUIÇÃO DE FREQÜÊNCIA
POR INTERVALO
Idade dos pacientes potencialmente suicidas
Freqüência Freqüência
Idade (anos)
absoluta relativa %
10 |-- 20 57 18,54
20 |-- 30 113 37,42
30 |-- 40 57 18,87
40 |-- 50 32 10,62
50 |-- 60 19 6,29
60 |-- 70 7 2,29
 70 2 0,67
Indeterminada 13 4,3
Total 302 100
Variáveis Tipos Exemplos

Qualitativas
ou cor dos olhos, sexo,
Nominal
Categóricas estado civil

nível de escolaridade,
Ordinal
estágio da doença

Quantitativas número de filhos por


Discretas casal, quantidade de
leitos

medida de altura e peso,


Contínuas
taxa de glicose
Tabela Primitiva

• É uma tabela ou relação de elementos


que não foram numericamente
organizados; Estes elementos são
resultantes de variáveis quantitativas;
• Ex : 45, 41, 42, 41, 42 43, 44, 41 ,50, 46,
50, 46, 60, 54, 52, 58, 57, 58, 60, 51.
Rol
• É o resultado obtido após a ordenação
dos dados de uma tabela primitiva;
• Permite, com relativa facilidade, saber o
menor e maior valor da variável, assim
como seu valor mais comum;

• Ex : 41, 41, 41, 42, 42 43, 44, 45 ,46,


46,50, 50, 51, 52, 54, 57, 58, 58, 60, 60
Distribuição de Freqüência
• Freqüência é o nome dado ao número de
amostras em que a variável assume um
determinado valor;
• Uma tabela de distribuição de freqüência
(DF) apresenta os possíveis valores da
variável e suas respectivas freqüências;
• As distribuições de freqüência podem
ser
sem ou com intervalos de classe (IC);
Distribuição de Freqüência

• A utilização de distribuição de freqüência


sem intervalos de classe pode ser
inconveniente em alguns casos, quando
houverem muitos valores possíveis para a
variável;
Distribuição de freqüência
• Quando da análise de dados, é comum
procurar conferir certa ordem aos números
tornando-os visualmente mais amigáveis. O
procedimento mais comum é o de divisão
por classes ou categorias, verificando-se o
número de indivíduos pertencentes a cada
classe.
• 1. Determina-se o menor e o maior valor
para o conjunto:
2. Definir o limite inferior da primeira classe
(Li) que deve ser igual ou ligeiramente
inferior ao menor valor das observações:
Distribuição de freqüência
• 3. Definir o limite superior da última classe
(Ls) que deve ser igual ou ligeiramente
superior ao maior valor das observações:
4. Definir o número de classes (K), que será
calculado usando i=√n . Obrigatoriamente
deve estar compreendido entre 5 a 20.
5. Conhecido o número de classes define-se
a amplitude de cada classe:
6. Com o conhecimento da amplitude de
cada classe, define-se os limites para cada
classe (inferior e superior)
Distribuição de Freqüência
Valor Freqüência Valor Freqüência
41 3 51 1
42 2 52 1
43 1 54 1
44 1 57 1
45 1 58 2
46 2 60 2
50 2 TOTAL 20
Distribuição de Freqüência
• Para evitar uma grande quantidade de
linhas em tabelas sem intervalos de
classe, é possível agrupar os valores
possíveis da variável em intervalos,
chamados classes;
• Neste caso tem-se uma distribuição de
freqüência com intervalos de classe;
Distribuição de Freqüência

Classes Freqüência
41-45 7
45-49 3
49-53 4
53-57 1
57-61 5
Total 20
Classe
( i ) Classes de freqüências ou simplesmente classes
• são intervalos de variação da variável.

• Podem assumir valores de 1 até k;

• Assim no nosso exemplo anterior o


intervalo 45-49 define a segunda classe
(i = 2). Como a distribuição é formada de
cinco classes, podemos afirmar que k=5
( li e Li ) Limites de classe:
São respectivamente o menor (limite
inferior) e o maior (limite superior) valor que
a variável pode assumir para estar contida
na classe

Na segunda classe, por exemplo, temos:

li = 45 e Li = 49
( hi ) Amplitude do intervalo de classe:
• Amplitude de um intervalo de classe
ou simplesmente, intervalo de classe é
a medida do intervalo que define a classe;

Ela é obtida pela diferença entre os


limites superior e inferior dessa classe
e indicada por hi. Assim:
Hi = Li - li
H2 = L2 – l2 h2 =49 – 45 = 4 seg
Amplitude total da distribuição
• ( AT ) Amplitude total da distribuição: é a diferença
entre o limite superior da última classe (limite
superior máximo) e o limite inferior da primeira
classe ( limite inferior mínimo);

AT = L(máx.) – l(min.)

Em nosso exemplo:
AT = 61 – 41 = 20 seg
• É evidente que se as classes possuem o
mesmo intervalo verificamos a relação

AT = k
hi

Em nosso exemplo: 20/4 = 5


Amplitude amostral
• ( AA ) Amplitude amostral ( ROL ): é a
diferença entre o valor máximo e o mínimo
assumido pela variável nas amostras

AA = x(máx) –x(min.)

Em nosso exemplo. Temos:


AA = 60 - 41 = 19 seg.
Ponto médio de uma classe
• ( x i ) Ponto médio da classe: é o valor que
divide o intervalo de classe em duas partes
iguais;
Para obtermos o ponto médio de
uma classe, calculamos a semi-soma
dos limites da classe(média aritmética):
x i = l i + Li x2 = l 2 + L2 = 45+49 = 47
2 2 2
O ponto médio de uma classe é o valor que a representa
Freqüência simples ou absoluta
• ( f i ) ou simplesmente freqüência de uma
classe ou de um valor individual : é o
número de observações correspondentes a
esta classe ou esse valor

A freqüência simples é simbolizada por fi


(lemos: f índice i ou freqüência da classe i)
f1 = 7, f2 = 3, f3 = 4, f4 = 1, f5 = 5
k 5
∑fi=n ∑ f i = 20
i=1 i=1
Representação tabular técnica
i Classes Freqüência = fi

1 41-45 7

2 45-49 3

3 49-53 4

4 53-57 1

5 57-61 5

Total ∑ fi = 20
Número de Classes
Intervalos de Classe
A primeira preocupação que temos na
construção de uma distribuição de
freqüência, é a determinação do número
de classes, e conseqüentemente, da
amplitude e dos limites dos intervalos de
classe
Número de classes
Intervalos de classe
Para definir-se o número de classes
pode ser utilizada a regra de
sturges, que dá o número de classes
em função do número de valores da
variável:
i = 1 + 3,3 * log n

i é o número de classe
n é o número total de dados
Essa regra nos permite obter a
seguinte tabela
n i
3-5 3
6 - 11 4
12 - 22 5
23 - 46 6
47 - 90 7
91 - 181 8
182 - 362 9
........ .......
• Além da regra de Sturges, existem outras
fórmulas empíricas que pretendem resolver
o problema da determinação do número de
classes que deve ter a distribuição.
i=√h
Entretanto, a verdade é que essas fórmulas
não nos levam a uma decisão final; esta vai
depender, na realidade, de um julgamento
pessoal, que deve estar ligado à natureza dos
dados, da unidade usada para expressá-los e,
• ainda, do objetivo que se tem em vista,
procurando, sempre que possível, evitar
classe com freqüência nula ou com
freqüência relativa muito exagerada etc.
• Decidido o número de classes que deve ter
a distribuição, resta-nos resolver o
problema da determinação da amplitude do
intervalo de classe, o que conseguimos
dividindo a amplitude total pelo número de
classes

h= AT
i
• Quando o resultado não é exato, devemos
arredondá-lo para mais.
• Outro problema que surge é a escolha dos
limites dos intervalos, os quais deverão ser
tais que forneçam, na medida do possível,
para pontos médios, números que facilitem
os cálculos- Números naturais.
• Em nosso exemplo, temos:
• Para n = 20 pela tabela n x i , i = 5
• Logo:
h = 60 – 41 = 19 = 3,8 aproximadamente 4
5 5
Tipos de Freqüências

• Freqüências simples ou absolutas(fi


• Freqüências relativas (fr)
• Freqüência acumulada(F i)
• Freqüência acumulada relativa (Fr i)
Freqüências simples ou
absolutas(fi)
• São os valores que realmente representam
o número de dados de cada classe

Como vimos, a soma das freqüências simples


é igual ao número total dos dados:

∑fi=n
( fr i ) Freqüências relativas:
• São os valores das razões entre as
freqüência simples da classe i e a
freqüência total;

fr i = f i
∑fi
Logo , a freqüência relativa da terceira classe,
em nosso exemplo é:
fr 3 = f3 = fr 3 = 4 = 0,250 fr 3 = 0,250
∑fi 20
Evidentemente ∑ fr i = 1 ou 100%
( F i ) Freqüência acumulada:
• é o total das freqüências de todos os valores
inferiores ao limite superior do intervalo de
uma dada classe;

F k = f1 + f2 + f3 +....+ fk

3
F 3 =∑ fi = f1+ f2+ f3 = 7+ 3+ 4=14 F3=14
i=1
O que significa existirem 14 medições
com valores inferiores a 53 seg em( limite
superior do intervalo da terceira classe)
( Fr i ) Freqüência acumulada relativa:
• De uma classe é a freqüência acumulada da
classe dividida pela freqüência total da
distribuição;

Fr3 = F3 Fr3 = 14 = 0,70


∑fi 20
i Classes fi xi fri Fi Fri

1 41-45 7 43 0,35 7 0,35

2 45-49 3 47 0,15 10 0,50

3 49-53 4 51 0,20 14 0,70

4 53-57 1 55 0,05 15 0,75

5 57-61 5 59 0,25 20 1,00

∑=20 ∑=1,0
Distribuição de Freqüência sem
intervalos de classe
• Quando se trata de xi fi
variável discreta de
variação relativamente
pequena, cada valor x1 f1
pode ser tomado como
um intervalo de x2 f2
classe(intervalo
degenerado) e , nesse : :
caso, a distribuição é
chamada distribuição
xn fn
sem intervalos de
classe, tomando a
seguinte forma: ∑fi = n
Exemplo
• Seja x a variável i xi fi
“numero de cômodos
das casas ocupadas 1 2 4
por vinte famílias
2 3 7
entrevistadas”:
3 4 5

4 5 2

5 6 1

6 7 1

∑=20
i xi fi fri Fi Fri

1 2 4 0,20 4 0,20

2 3 7 0,35 11 0,55

3 4 5 0,25 16 0,80

4 5 2 0,10 18 0,90

5 6 1 0,05 19 0,95

6 7 1 0,05 20 1,00

∑=20 ∑=1,00
• Se a variável toma numerosos valores
distintos, é comum tratá-la como uma
variável contínua, formando intervalos de
classe de amplitude diferente de um.
• Esse tratamento (arbitrário) abrevia o
trabalho, mas acarreta alguma perda de
precisão.
Representação Gráfica de
Distribuições
• Uma distribuição de freqüência pode ser
representada pelo histograma, pelo
polígono de freqüência e pelo polígono de
freqüência acumulada;
• O histograma é formado por um conjunto
de retângulos justapostos, cujas bases se
localizam sobre o eixo horizontal, e cujos
pontos médios coincidem com os pontos
médios de classe;
Histograma
Representação Gráfica de
Distribuições
• O polígono de freqüência é um
gráfico em linha, sendo as
freqüências marcadas sobre
perpendiculares ao eixo horizontal,
levantadas pelos pontos médios
dos intervalos de classe;
Polígono de Freqüência
Representação Gráfica de
Distribuições
O polígono de freqüência acumulada é
traçado marcando-se as freqüências
acumuladas sobre perpendiculares ao
eixo horizontal, levantadas nos pontos
correspondentes aos limites superiores
dos intervalos de classe;
Polígono de Freqüência Acumulada
Distribuições simétricas
• A distribuição das freqüências faz-se de
forma aproximadamente simétrica,
relativamente a uma classe média
• Caso especial de uma distribuição simétrica
Quando dizemos que os dados obedecem a
uma distribuição normal, estamos tratando
de dados que distribuem-se em forma de
sino.
Distribuições Assimétricas
• A distribuição das freqüências apresenta
valores menores num dos lados
Distribuições com "caudas" longas
Observamos que nas extremidades há uma
grande concentração de dados em relação
aos concentrados na região central da
distribuição
Medidas de tendência Central
• As mais importante medidas de tendência
central, são a média aritmética, média
aritmética para dados agrupados, média
aritmética ponderada, mediana, moda,
média geométrica, média harmônica,
quartis. Quando se estuda variabilidade, as
medidas mais importantes são: amplitude,
desvio padrão e variância
Medidas de tendência Central
Medidas

Média aritmética

Média aritmética para


dados agrupados

Média aritmética
ponderada

Mediana 1) Se n é impar, o valor é


central, 2) se n é par, o valor é
a média dos dois valores
centrais
Medidas

Moda Valor que ocorre com mais freqüência

Média
geométrica

Média
harmônica

Quartil
• Sendo a média uma medida tão
sensível aos dados, é preciso ter
cuidado com a sua utilização, pois
pode dar uma imagem distorcida dos
dados.
Pode-se mostrar, que quando a
distribuição dos dados é "normal",
então a melhor medida de localização
do centro, é a média
• Sendo a Distribuição Normal uma das
distribuições mais importantes e que
surge com mais freqüência nas
aplicações, (esse fato justifica a grande
utilização da média).
A média possui uma particularidade
bastante interessante, que consiste no
seguinte:
se calcularmos os desvios de todas as
observações relativamente à média e
somarmos esses desvios o resultado
obtido é igual a zero.
• A média tem uma outra característica, que
torna a sua utilização vantajosa em certas
aplicações:

• Quando o que se pretende representar é a


quantidade total expressa pelos dados,
utiliza-se a média.
Na realidade, ao multiplicar a média pelo
número total de elementos, obtemos a
quantidade pretendida
GRÁFICOS – VARIÁVEIS
QUANTITATIVAS
GRÁFICOS – VARIÁVEIS
QUANTITATIVAS
Histograma
60
50
Número de casos

40
30
20
10
0
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
Ácido úrico (mg/dl)
GRÁFICOS – VARIÁVEIS
QUANTITATIVAS
• Polígono de Frequências

60
50
Número de casos

40
30
20
10
0
3 3,5 4 4,5 5 5,5 6 6,5 7 7,5 8 8,5
Ácido úrico (mg/dl)
GRÁFICOS – VARIÁVEIS
QUANTITATIVAS
• Gráfico de Dispersão
90

80

70
Peso

60

50

40
1,45 1,5 1,55 1,6 1,65 1,7 1,75 1,8 1,85 1,9
Altura
GRÁFICOS – VARIÁVEIS
QUANTITATIVAS
30000 Gráficos em colunas e barras

25000

20000
Frequência

15000

10000

5000

0
Tetano Pneumonia Tuberculose Hepatite Leptospirose

Doenças

Figura 1: Dados sobre as doenças mais comuns ocorridas no Estado de São Paulo
GRÁFICOS – VARIÁVEIS
QUANTITATIVAS
Gráfico de Linhas
Mortalidade Infantil, São Caetano do Sul (SP), 1970-80

80
Coef. (por 1000 N.V.)

70
60
50
40
30
20
10
0
1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980
GRÁFICOS – VARIÁVEIS
QUANTITATIVAS
• Ilusão dos Gráficos
GRÁFICOS – VARIÁVEIS
QUALITATIVAS
GRÁFICOS – VARIÁVEIS
QUALITATIVAS
Leptospirose

Hepatite
Doenças

Tuberculose

Pneumonia

Tetano

0 5000 10000 15000 20000 25000 30000

Frequência

Figura 2: Dados sobre as doenças mais comuns ocorridas no Estado de São Paulo
Gráfico em setores circulares

Leptospirose
10%
Tetano
Hepatite
33%
12%

Tuberculose
21%

Pneumonia
24%
Gráfico para duas variáveis
qualitativas
Óbitos por acidentes, segundo tipo e sexo. Município de
São Paulo, 1980.

1600

1200
Homens
800
Mulheres
400
Causas
0
Transp. Homícidio Afogam. Suicídio Outros

Você também pode gostar