Escolar Documentos
Profissional Documentos
Cultura Documentos
Est at Is Tic A
Est at Is Tic A
Profa Alcione Miranda dos Santos Departamento de Sade Pblica UFMA Ncleo de Estatstica e Informtica HUUFMA email: alcione.miranda@terra.com.br
Estatstica: O que ?
Estatstica pode ser pensada como a cincia de aprendizagem a partir de dados. Em linhas gerais, a Estatstica fornece mtodos que auxiliam o processo de tomada de deciso. A Estatstica est presente em todas as reas da cincia que envolvam a coleta e anlise de dados.
Introduo Estatstica
A Estatstica est compreendida em duas partes: Estatstica Descritiva: Rene um conjunto de tcnicas para sumarizar os dados (tabelas, grficos) e medidas descritivas que permitem tirar muitas informaes contidas nos dados. Estatstica Indutiva: Produzir afirmaes sobre uma dada caracterstica da populao, na qual estamos interessados, a partir de informaes colhidas de uma parte dessa populao.
3
Tipos de Variveis
As variveis podem ser categricas (qualitativas) ou numricas (quantitativas) Variveis qualitativas: So caractersticas de uma populao que no pode ser medidas. Ordinais Ex: Grau de gravidade de uma doena Nominais Ex: Presena de um sintoma Variveis quantitativas: So caractersticas de uma populao que pode ser quantificadas. Discretas Ex: Nmero de cirurgias Contnuas Ex: Idade, Presso Arterial
7
Esquematicamente
Categricas Numricas
Nominal (classificao)
Ordinal (classificao)
Discreta (contagem)
Contnua (mensurao)
Tipos de variveis
Classifique as variveis apresentadas na tabela:
Idade 34 58 31 49 39 33 35
O tipo da varivel ir indicar a melhor forma para apresentao em tabelas e grficos, em medidas de resumo e a anlise estatstica mais adequada.
Profa Alcione Miranda dos Santos Departamento de Sade Pblica UFMA Ncleo de Estatstica e Informtica HUUFMA email: alcione.miranda@terra.com.br
1
Segundo Pereira (1997), a estatstica a tecnologia da cincia e, portanto, a estatstica deve estar presente desde o incio da pesquisa. Sem Mtodos Estatsticos, sem validade cientfica!
DE LEVANTAMENTO
Caractersticas de interesse de uma populao so levantadas (observadas ou medidas), mas sem manipulao.
EXPERIMENTAL
Grupos de indivduos (ou animais, ou objetos) so manipulados para se avaliar o efeito de diferentes tratamentos.
4
Pesquisas de levantamento
amostragem
POPULAO: todos os possveis consumidores
inferncia
Amostragem
Representatividade da amostra Tamanho da amostra Aleatoriedade da amostra
Garantir que TODOS os elementos da populao tenham chance de pertencer amostra. Sorteio NO VICIADO. nica forma de poder generalizar estatisticamente os resultados para a populao.
Censo ou amostragem
tamanho da amostra
tamanho da populao
Relao entre tamanho da populao e tamanho da amostra para garantir determinada margem de erro
7
Metodologia estatstica
Definio do Problema
Formular corretamente o problema. Definir a populao a ser estudada. Quais variveis sero observadas? Quais hipteses sero avaliadas? Determinar o que se pretende investigar. Estudos realizados (reviso da literatura).
10
Planejamento da Pesquisa
Nesta fase, so definidos:
Objetivos a serem alcanados Bibliografia, materiais, impressos, equipamentos a serem utilizados Tipo de levantamento (censo ou amostragem) Pessoal que vai ser envolvido no trabalho Locais de trabalho Cronograma da execuo
11
O qu?
caractersticas a serem observadas
VARIVEIS
Quem?
os elementos a serem pesquisados
POPULAO
Como?
o instrumento de coleta de dados
QUESTIONRIO / ENTREVISTA ESTRUTURADA
12
Protocolos Questionrios
Tipos de informaes:
Primrias Secundrias
13
14
15
Anlise estatstica:
Estatstica Descritiva: tabelas ou grficos, mdia, mediana, desvio padro. Estatstica Indutiva: testes estatsticos.
16
Tabela de Freqncias
Forma de representao da freqncia de cada valor distinto da varivel em estudo. Juntamente com as freqncias simples, a tabela poder ainda incluir:
Frequncias relativas Frequncias acumuladas Frequncias relativas acumuladas.
Tabela de Freqncias
Freqncia relativa: percentagem relativa
freqncia.
Tabela de Freqncias
Exemplo:Consideremos a seguinte tabela
Nome Paula Manuel Carla Maria Joo Sexo F M F F M Nome Gonalo Pedro Cristina Sofia Susana Sexo M M F F F
Temos, Sexo Masculino: Frequncia absoluta : 4 Frequncia relativa: 4 em 10 = 40% Sexo Feminino: Frequncia absoluta : 6 Frequncia relativa: 6 em 10 = 60%
Tabela de Freqncias
Assim a tabela de freqncias da varivel Sexo, para o exemplo anterior, ser: Sexo Feminino Masculino Total Freq. Simples (n) 6 4 10 Freq. Relativa (%) 60 40 100
Varivel Qualitativa
Podemos sumarizar a varivel em:
Tabelas usando contagens ou porcentagens Grfico de Barras ou Grfico de Setores
Fonte: TOTAL
Fonte: Desconhecida
Frequncia
Doenas
Varivel Quantitativa
Podemos sumarizar a varivel em:
Tabelas de Freqncias Histograma ou Polgono de Freqncias Grficos de linhas Box plot
Tabela de Freqncias
TABELA 2: Tempo de Internao (em dias) de 160 pacientes no Hospital X
Tempo de Internao ( dias) 10 |--- 20 20 |--- 30 30 |--- 40 40 |--- 50 50 |--- 60 60 |--- 70 Total
k = 1 + 3,3 log(n )
Amplitude das classes
Exemplo
Considere os seguintes dados, referentes ao peso de 30 crianas com sete anos, em kg:
13,00 17,40 19,50 13,63 17,40 19,70 14,10 17,70 20,00 14,10 17,70 20,32 14,70 17,90 20,50 15,35 17,90 21,45 15,54 18,20 21,50 16,00 18,35 22,00 16,00 19,10 22,25 16,30 19,30 24,00
Histograma
Representao grfica da distribuio das frequncias absolutas ou relativas Normalmente utilizado para variveis contnuas. Caractersticas:
as barras devem estar todas juntas;
60
Nmero de casos
Polgono de Freqncias
FIGURA 4: cido rico dos pacientes internados no Hospital X
60
Nmero de casos
Grfico de linhas
Mortalidade Infantil, So Caetano do Sul (SP), 1970-80
80
70 60 50 40 30 20 10 0 1970 1971 1972 1973 1974 1975 1976 1977 1978 1979 1980
Box-Plot
Representao grfica de cinco medidas: mnimo, quartil inferior, mediana, quartil superior, mximo
Exemplo Box-Plot
Figura 1: Boxplot do nvel de Hemoglobina glicosilada, segundo grupo de gestantes.
11 10 9 HbA 8 7 6 5 Diabtica Normal Tol_Diminuda
Anlise Bivariada
Muitas vezes queremos verificar se h uma relao entre duas variveis (se as variveis so dependentes ou no). Podemos construir tabelas de freqncia com dupla entrada. Essas tabelas de dados cruzados so conhecidas por tabelas de contingncia, e so utilizadas para estudar a relao entre duas variveis categricas.
Tabela de Contingncia
TABELA 4. Tipo de parto segundo categoria de internao em nascidos vivos de parto nico. So Lus - MA, 1997/98
Mulheres
1600 1200 800 400 0 Transporte Homcidio Afogam. Suicdio Outros
Causas
Peso
70 60 50 40 1,45
1,5
1,55
1,6
1,65
1,7
1,75
1,8
1,85
1,9
Altura
Medidas Descritivas
Profa Alcione Miranda dos Santos Departamento de Sade Pblica UFMA Ncleo de Estatstica e Informtica HUUFMA email: alcione.miranda@terra.com.br
Medidas Descritivas
Medidas de Tendncia Central
Medidas Separatrizes
Mdia Amostral
Se os dados consistem de n observaes x1, x2,,xn, a mdia dada pela soma das observaes dividida pelo o nmero de observaes. Por exemplo, se os dados so x1=2, x2=3, x3=1, ento a mdia (2+3+1)/3=2. A mdia amostral definida por :
x +x +x X=
1 2
+ ... + xn
Turma A (2+3+4+4+5+6+7+7+7+7+8) / 11 = 60/11 Mdia turma A = 5,45 Turma B (2+3+4+4+4+5+6+7+7+8+9)/11 = 59/ 11 Mdia turma B = 5,36
Mediana
Divide uma distribuio ordenada de dados em duas partes iguais. A mediana (Md) a observao central, depois de ordenada a amostra. Se a amostra tiver dimenso mpar, a mediana coincide com a observao central. Exemplo: Na amostra 1.2; 1.7; 2.1; 2.2; 2.4 a mediana 2.1 Se a amostra tiver dimenso par, a mediana toma o valor da mdia das duas observaes mais centrais. Exemplo: Na amostra 0.3; 0.7; 0.9; 1.1 a mediana 0.8.
Mediana
Para calcularmos a mediana preciso ordenarmos os dados: x(1), x(2), ..., x(n). A mediana de um conjunto de dados :
Md = x(n+1/2), se n mpar Md = [x(n/2) +x(n/2+1) ]/2, se n par
Mediana - Exemplo
Exemplo 1:Turma A : 2 3 4 4 5 6 7 7 7 7 8 Turma B : 2 3 4 4 4 5 6 7 7 8 9
Turma A : Mediana = 6
Turma B : Mediana = 5 Exemplo 2: Turma A : 2 3 4 4 5 6 7 7 7 8 Turma B : 2 3 4 4 4 5 6 7 8 9 Turma A : Mediana = (5+6)/2=5,5 Turma B : Mediana = (4+5)/2=4,5
Mediana - Exemplo
Caso xi Valores 1 x1 2 2 x2 4 3 x3 5 4 x4 5 5 x5 7 6 x6 9 7 x7 10
8 x8 30
Resposta: 6 e 5
Moda
Valor que ocorre com maior freqncia. Obtida por inspeo da tabela de distribuio de freqncias. Ao contrrio do que acontece com a mediana e a mdia, uma amostra pode possuir mais do que uma moda.
Moda - Exemplo
Turma A : 2 3 4 4 5 6 7 7 7 7 8 Turma B : 2 3 4 4 4 5 6 7 7 8 9 Moda turma A = 7 Moda turma B = 4
Medidas Separatrizes
Medidas que separam a distribuio em partes iguais.
Quartis Decis Percentis
Quartis
Quartis so os valores (Q1, Q2 e Q3) que dividem a amostra, depois de ordenada, em quatro partes iguais (ou o mais iguais possvel).
Obtendo os quartis
Ordena-se os dados; Calcula-se a posio do quartil atravs da frmula: PQi = i .
n 4
Decis
Dividem um conjunto de dados em dez partes iguais Encontra s o valor do decil desejado, procedendo s - e - e como no caso dos quartis, sendo a posio do decil, encontrada por:
PDi = i .
n 10
Percentis
Dividem um conjunto de dados em cem partes iguais Procede s como no caso dos quartis, sendo que para o - e clculo da posio do percentil , a frmula ser:
PPi = i . n
100
Medidas de Variabilidade
Medidas de tendncia central so descritores insuficientes de uma amostra. So necessrias medidas que reflitam a variao dentro de um conjunto de dados (medidas de variabilidade). Essas medidas sero pequenas se os dados forem prximos e grandes se eles estiverem muito espalhados. Alm disso, tais medidas devem permitir comparar amostras de diferentes tamanhos e determinar se uma amostra mais varivel (ou heterognea) que a outra.
Exemplo
Os dados abaixo referem-se aos pesos dos pacientes em dois grupos:
Amplitude Total
Diferena entre o maior e o menor valor do conjunto de dados. Grupo A
AMPLITUDE TOTAL = 88 78 = 10
Grupo B
AMPLITUDE TOTAL = 98 65 = 33
Varincia
um indicativo da disperso de um conjunto de dados em relao mdia.
2 1 n s = Xi X n 1 i =1 2
A varincia populacional denotada por 2. Usualmente 2 desconhecida. A varincia amostral denotada por S2. Desvantagem - no expressa na unidade de medida do dado original.
Desvio Padro
Corresponde raiz quadrada da varincia, tendo portanto a mesma unidade da varivel que est sendo estudada. O desvio padro ser denotado por S. a medida mais usada na comparao de diferenas entre grupos. Fornece um nmero que permite especificar quo acima ou quo abaixo da mdia est um determinado valor. Quanto maior o desvio padro, maior a variabilidade dos dados.
Coeficiente de Variao
Muitas vezes o desvio padro pode ser considerado grande ou pequeno dependendo da ordem de grandeza da varivel. Pode- s obter um ndice relativo de disperso: e
S CV = .100 X
Alguns analistas consideram: Baixa disperso: CV 15% Mdia disperso:15%< CV <30% Alta disperso: CV 30%
Assimetria
Assimetria o grau de deformao de uma curva ou distribuio de freqncias. Em uma distribuio simtrica tem-se igualdade dos valores da mdia, mediana e moda.
X = Mo = Md
Toda distribuio deformada sempre assimtrica. Entretanto, a assimetria pode dar-se na cauda esquerda ou na direita da curva de freqncias.
Mo Md X
Em uma distribuio assimtrica negativa, ou assimetria esquerda, predominam valores inferiores Moda.
X < Md < Mo
X Md Mo
AS =
x Mo S
Curtose
Denomina-se curtose o grau de achatamento da distribuio. Uma destituio nem chata e nem delgada, denominada de mesocrtica.
Q3 Q1 K= 2(P90 P10 )
Se K = 0,263, diz-se que a curva correspondente distribuio de freqncia mesocrtica. Se K > 0,263, diz-se que a curva correspondente distribuio de freqncia platicrtica. Se K < 0,263, diz-se que a curva correspondente distribuio de freqncia leptocrtica.
Distribuio Normal
Profa Alcione Miranda dos Santos Departamento de Sade Pblica UFMA Ncleo de Estatstica e Informtica HUUFMA email: alcione.miranda@terra.com.br
Distribuio Normal
Muitas variveis estudadas na rea biomdica apresentam distribuio simtrica (os valores centrais so mais freqentes e os valores extremos mais raros). Na prtica, se o coeficiente de assimetria est situado no intervalo ( 0.5,+0.5), considera s - e a distribuio aproximadamente simtrica. Uma distribuio simtrica tpica a distribuio normal.
Distribuio Normal
Por que importante que as variveis possam ser descritas por uma distribuio normal? Motivo simples: Se as variveis respeitam uma distribuio normal, pode- s aplicar a grande maioria dos e testes e mtodos estatsticos conhecidos. tem s maior facilidade! - e Variveis que no tm distribuio normal podem ser submetidas a transformaes (raiz quadrada, logaritmo)
Exemplo: Considere que a glicemia tenha distribuio normal, com mdia igual a 90 mg e desvio-padro 5 mg na populao de pessoas sadias. Pode-se concluir que: 1. Aproximadamente 2/3 (68%) da populao de indivduos sadios possuem valores de glicemia entre (-) = 90-5 = 85 mg e (+) = 90+5 = 95 mg. Grande parte das pessoas sadias (95%) tem glicemia entre (2) = 90-2(5) = 80 e (+2) = 90+2(5) = 100 mg.
99.73 % Praticamente todos (99,7%) os indivduos da populao tem valores entre (-3) = 75 e (+3) = 95.46 % mg. 105 68.26 %
2. 3.
-3
-2
+2
+3
N(1; 2)
N(2; 2)
Curvas Normais com mesma varincia 2 mas mdias diferentes (2 > 1).
na curva Normal
2
Curvas Normais com mesma mdia , mas com varincias diferentes (22 > 12 ).
Distribuio Normal
A distribuio normal pode ser descrita pela seguinte funo de densidade:
Clculo de probabilidades
P(a < X < b) rea sob a curva e acima do eixo horizontal (x) entre a e b.
Se X ~ N( ; 2), Portanto,
definimos
X Z =
1 - P(Z < z)
Encontrando o valor na Tabela N(0;1): z 0,0 0,1 0,2 0,3 0 0,5000 0,5398 0,5792 0,6179 1 0,5039 0,5437 0,5831 0,6217 2 0,5079 0,5477 0,5870 0,6255
P(0 < Z 1,71) = P(Z 1,71) P(Z 0) = A(1,71) A(0) = 0,9564 - 0,5 = 0,4564. Obs.: P(Z < 0) = P(Z > 0) = 0,5.
P(1,32 < Z 1,79) = P(Z 1,79) P(Z 1,32) = A(1,79) - A(1,32) = 0,9633 - 0,9066 = 0,0567.
d) P(Z 1,5)
e) P(Z 1,3)
P(Z 1,3) = P(Z 1,3) = 1 P(Z 1,3) = 1 A(1,3) = 1 0,9032 = 0,0968. Obs.: Pela simetria, P(Z 1,3) = P(Z 1,3).
f) P(-1,5 Z 1,5)
P(1,5 Z 1,5) = P(Z 1,5) P(Z 1,5) = P(Z 1,5) P(Z 1,5) = P(Z 1,5) [1 P(Z 1,5)] = 2 P(Z 1,5) 1 = 2 A(1,5) 1 = 2 0,9332 1 = 0,8664.
P(1,32 < Z < 0) = P(0 < Z < 1,32) = P(Z 1,32) P(Z 0) = A(1,32) 0,5 = 0,9066 0,5 = 0,4066.
Distribuio Normal-Exemplo
QI~N(100,225)
Z=(QI-100)/15~N(0,1) Qual a probabilidade que uma pessoa escolhida aleatoriamente tenha o QI superior a 135?
Z=(135-100)/15=2,33 P(Z>2.33) = 0,01 (tabela normal padro)
Qual a probabilidade que uma pessoa escolhida aleatoriamente tenha o QI inferior a 90?
Z=(90-100)/15=-0,67 P(Z<-0,67)=P(Z>0,67)=0,2514
Lembre-se da simetria
Probabilidades que uma pessoa escolhida aleatoriamente tenha o QI entre dois valores tambm podem ser determinadas.
Faixa de Normalidade
mdia aritmtica desvio-padro corresponde aproximadamente 68% dos indivduos da amostra
Exemplo
Os dados abaixo referem-se aos pesos dos pacientes em dois grupos: