Você está na página 1de 45

Bioestatística

Bioestatística: aplicação de métodos e conceitos de Estatística, Teoria de Probabilidades e


Machine Learning a dados de natureza biológica.

Compreende também:

- estima prevalências e incidências de doenças;

- mensura a eficácia de determinados fármacos;

- determina a possível associação entre variáveis;

- testa a verosimilhança de determinadas hipóteses;

- averigua possíveis diferenças entre grupos.

Escalas
1. Escalas quantitativas (numéricas)
Escalas racionais- intervalos constantes e um zero com significado físico, um zero
absoluto (ex: comprimento, peso, volume, contagens)

Escalas intervalares- ponto zero arbitrário, não definido (ex: temperatura, horas do dia)

Discretas: valor absoluto

Contínuas: tem casas decimais

2. Escalas qualitativas (não numéricas)


Escalas nominais- sem ordem associada. Os valores são categorias exclusivas e não
possuem qualquer ordem (ex: tipo sanguíneo, religião, nacionalidade)

Escalas ordinais- variáveis não numéricas e com ordem inerente. São categorias
ordenadas segundo critérios (ex: estádios do cancro- I, II, III, IV)- Variáveis medidas na
escala ordinal são denominadas variáveis categóricas ordinais. Quando só são
assumidos 2 níveis, são designadas de binárias (ex: ter cancro (1) ou não ter cancro (0))
Representação gráfica
1. Variáveis ordinais e nominais
>Tabelas de frequência

Fi fi fi%

>Gráficos de barras e gráficos circulares

2. Variáveis contínuas
>Histogramas

6 classes

Classe dos 50 aos 55- [50,55[=6

Classe dos 40 aos 45- [0,20[=1


Medidas de tendência central
Ponto de equilíbrio dos dados

̅)
>Média aritmética (𝒙
Somar todos os dados e dividir pelo número de dados
Sensível a outliers

>Mediana (Md)
Medida de localização do centro da distribuição dos dados
(50% dos valores > mediana; 50% dos valores < mediana)
Não é sensível a outliers
- Se n é ímpar = mediana é o elemento médio;
- Se n é par = mediana é a semi soma dos 2 elementos médios.

Quando a distribuição é simétrica, os valores da média e da mediana coincidem.


Se a distribuição dos dados for enviesada para a direita (alguns valores grandes como
"outliers"), a média tende a ser maior que a mediana. Se a distribuição dos dados for
enviesada para a esquerda (alguns valores pequenos como "outliers"), a média tende a ser
inferior à mediana.
(retrocedendo…)

Importância de estatística na área da saúde


-Estatística surge da expressão:
Em Latim statisticum collegium significa palestra sobre os assuntos do Estado;
Em italiano statista que significa "homem de estado" ou político;
Em alemão Statistik designa a análise de dados sobre o Estado
-Evolução

A Estatística é uma técnica que tem por fim descrever um fenómeno através de
medidas e determinar neles as leis que permitem explicar o seu comportamento e
prever a sua evolução.
A Estatística torna-se então uma grande aliada da investigação científica.
Investigação empírica é uma investigação em que se fazem observações para
compreender melhor o fenómeno a estudar.
Tipos de investigação empírica
- Pura: o objetivo é descobrir factos novos para testar deduções feitas a partir de
uma teoria com interesse intelectual e que no momento da investigação parece não ter
aplicação prática;
- Aplicada: o objetivo é descobrir factos novos para testar deduções feitas a
partir de uma teoria que pode ter aplicações práticas a médio prazo;
- Aplicável: o objetivo é descobrir factos novos que sejam capazes de resolver
problemas práticos em curto prazo.
Objetivos e metodologia da investigação
>Objetivos:
- De compreensão e diagnóstico: identificar e descrever o fenómeno utilizando
a informação contida nos indicadores numéricos (medidas, proporções, percentagens).
Estabelecer relações entre os fenómenos, ou seja, colocar hipóteses explicativas;
- De previsão: projetar a dimensão potencial do problema, no tempo ou no
espaço, através da determinação das relações.

>Planeamento:
- Estratégicos: avaliar as alternativas decorrentes do conhecimento de fatores
que influenciam o fenómeno;
- Decisão: decidir de acordo com as mudanças desejáveis em função da avaliação
das alternativas.

>Métodos e procedimentos:

- Identificação do problema e eventual elaboração de hipóteses


- Identificar as variáveis a utilizar e a sua medição
- Identificação da população e construção da amostra
- Recolha de dados
- Apresentação dos dados – disposição apropriada aos dados através de quadros, tabelas
e gráficos
- Estimação – redução dos dados a medidas ou estatísticas (p.ex. média, moda,
proporção) representativos da manifestação da variável na amostra e que vão ser
tomadas como estimativas da população.
- Determinação de relações – formulação de hipóteses ou revisão das elaboradas
- Verificação das hipóteses – aplicar testes estatísticos que são procedimentos lógico-
probabilísticos que permitem verificar se a relação entre as variáveis existe ou se são
por mero acaso.
>Prática investigativa:
-Prática Baseada na Evidência:
- Recolher e avaliar evidência e informação da enorme quantidade de
fontes e analisar criticamente a evidência da investigação aplicando-a de forma
apropriada à prática;
- Compreender os princípios da análise crítica da literatura e das razões
pelas quais deve ser aplicada;
- Capacidade para avaliar a relevância da evidência publicada na prática
clínica;
- Capacidade para reconhecer o valor da investigação no
desenvolvimento da profissão e dos cuidados ao utente/cliente;
- Compreender sobre o leque de processos de investigação relevantes
para a avaliação da prática da farmácia e a adequabilidade da sua aplicação a
diferentes questões de investigação;
- Utilizar dados numéricos e capacidades ao nível das tecnologias de
informação e comunicação na gestão e análise de dados.

>Tipos de estudo e planeamento experimental:


- Estudos Experimentais: o investigador manipula o fator que se considera estar
na origem de um resultado e há randomização na construção da amostra (Ex: Verificar
o efeito de radiações ionizantes no alívio da dor. O investigador manipula o fator em
causa, porque ele aplica ou não o tratamento considerado neste exemplo o possível
fator explicativo do alívio da dor);
- Estudos Quasi-Experimentais: o investigador manipula o fator que se considera
estar na origem de um resultado mas não há randomização na construção da amostra
(Ex: Verificar o efeito de radiações ionizantes no alívio da dor, mas em que os efetivos
observados não são selecionados de forma aleatória, mas por conveniência ou segundo
certos critérios. Por exemplo, forma-se a amostra com os doentes que foram a consultas
a uma unidade de saúde);
- Estudos de Observação: o observador não pode manipular o fator explicativo
de um resultado:
-Estudo Transversal: ver se há diferenças nas notas de acesso ao Curso de
Radiologia em função do nível sócio - económico das famílias;
-Estudo Longitudinal: é feito ao longo do tempo (observam-se os efeitos
no tempo);
-Estudo de Coorte: estudos prospetivos que procuram encontrar
os efeitos de uma determinada exposição ao longo de um período de
tempo;
-Estudo de Caso: Controlo - estudos retrospetivos, uma vez que
se conhece um resultado e pretende-se saber se ele se deve a uma
determinada exposição.

>Diversos tipos de estatística:


Estatística descritiva:
Principal objetivo: resumir/sumariar as observações recolhidas;
Principais ferramentas: construção de tabelas e gráficos adequados, uso de
estatísticas descritivas adequadas, por exemplo: média, moda…

Estatística inferencial:
Principal objetivo: extrapolar dados obtidos para a população;
Principais ferramentas: testes estatísticos

Dados biológicos e representação gráfica


>Variável: característica que pode variar de elemento para elemento de uma amostra
ou população (ex: altura, peso, sexo);
>Dados quantitativos: assumem um conjunto de valores numéricos (ex: idade,
temperatura);
>Dados qualitativos: assumem um conjunto de categorias (ex: tipo de Sangue (O, A e
AB), sexo (feminino, masculino).

Escalas de medição
>Escala Racional/Intervalar:
-Dados quantitativos;
-Podem ser classificadas em variáveis contínuas ou variáveis discretas;
Nº de células mortas numa experiência; Nº de
intervenções cirúrgicas de um paciente;
Comprimento de um osso; Temperatura da água
de uma cultura aquática; Peso de um paciente
>Escala ordinal:
-Dados qualitativos;
-Uma escala que supõe ordem entre categorias;

Grau de escolaridade (ensino básico, ensino secundário, licenciatura,


mestrado); Grau de gravidade de um sintoma clínico (pouco grave, grave,
muito grave); Grau de satisfação de um serviço médico (nada satisfeito,
pouco satisfeito, satisfeito, muito satisfeito, plenamente satisfeito).

>Escala nominal:
- Dados qualitativos;
-Podem ser dicotómicas (2 categorias) ou policotómicas (3 ou mais categorias);

-As categorias não possuem uma ordem.


A presença ou ausência de um
determinado fator de risco; Sexo;
Tipo de Sangue (O, A, AB);

Representação gráfica para escala nominal ou ordinal


>Tabelas de frequência
-Lista de todos os valores observados e quantas vezes
esses valores aparecem (frequência absoluta Fi ) e/ou a
frequência relativa desses valores (fi ).

>Gráfico de barras
-Eixo horizontal tem as categorias e o eixo vertical tem a contagem.

>Gráfico circular
-Quando o número de categorias é baixo
Representação gráfica para escala racional ou intervalar
>Construção de uma tabela de frequência
1. Identificar as observações extremas (maior e menor)
2. Subtrair estas observações para obter o intervalo de variação das observações
3. Seguidamente pode escolher-se um dos métodos: determinar o nº de classes e dividir
o intervalo por esse número para obter a amplitude das classes (formando neste caso
classes de igual amplitude) ou fixar a amplitude de cada classe, pré-determinando o
número de classes desejado.
4. Para determinar o número de classes adequado para dar uma ideia da distribuição,
devem seguir-se algumas indicações:
-Um nº de classes entre 6 e 14
-Um nº de classes suficiente para dar uma ideia da forma da distribuição mas não
tão grande que se percebam flutuações pequenas
-Uma aproximação para o nº de classes baseado no nº total de observações (n)
usando a relação: Nº classes = 1 + 3,3 × log10 𝑛
-A frequência em cada classe não deve ser inferior a 5 (mínimo de 3)
-Evitar "falhas", isto é, classes vazias no meio da distribuição
5. De um modo geral as classes definidas devem obedecer aos seguintes critérios:
-Os limites de classes consecutivas não devem sobrepor-se Ex: 40-44; 45-49; 50-
54 e não 40-45; 45-50; 50-54
-Utilizar classes com igual amplitude
-Usar apenas amplitudes diferentes quando existirem grandes espaços vazios
(falhas na distribuição)
-Evitar classes abertas, porque não comunicam o intervalo das observações.
Evitar classes do tipo: ≤49 ou ≥90
Se possível os limites das classes devem escolher-se de modo que as observações
na classe se encontrem mais perto do ponto médio da classe do que dos limites da
classe.
>Diagrama de caule e folhas

>Histograma
-Gráfico de barras para uma variável contínua;
-Eixo do x tem as variáveis e o eixo do y a contagem.

>Gráfico de caixa e fio


- Representação gráfica cujo objetivo é mostrar
algumas medidas de localização na distribuição: Mediana,
1º Quartil, 3º Quartil, observações extremas que podem ser
consideradas outliers

>Polígono de frequências
- Gráficos de linha que se obtêm através do histograma, unindo os pontos médios
de cada classe.

Tabelas e gráficos para duas variáveis


Duas variáveis medidas numa escala nominal ou ordinal
>Tabela de contingência (dupla entrada)
>Gráfico de barras

Uma variável na escala ordinal/nominal e outra na escala racional/intervalar


>Gráfico de caixa e fio

Análise laboratorial segundo o


>Polígono de frequências sexo dos doentes

Duas variáveis na escala intervalar/racional

>Diagrama de dispersão
Medidas estatísticas sumárias
Medidas de ordenamento Infos sobre a ordem dos dados

>Percentis
-Percentil 𝑣 : valor da distribuição até ao qual se encontram 𝑣% das observações;
-Divide a distribuição em duas partes 𝑣% abaixo e 100 − 𝑣% acima;

Determinação do percentil:
− Análise da tabela de frequências (frequência relativa acumulada);
− Dados agrupados: estimativa do percentil 𝑣 através da classe onde ele se encontra.
Classe: [L𝑣;U𝑣[
− Para a distribuição de uma variável (desagrupada) cujos valores foram previamente
ordenados podemos definir o percentil 𝑣 como o valor que está na posição:

Dados simples:
- Quando a posição não é um n.º inteiro então a parte decimal indica a distância
proporcional da posição indicada até à posição imediatamente superior;
Dados agrupados em classes:
Quartis
Existem alguns percentis que por dividirem a distribuição em múltiplos de 25%, são
designados por quartis, estes são também os percentis mais usados: Quartil 1 ou
percentil 25; Quartil 2 ou percentil 50; Quartil 3 ou percentil 75;

Podemos afirmar que 20% dos


hospitais têm orçamentos
menores que 64.5

Posição da mediana
Medidas de tendência central
- Medem o resultado típico da distribuição;
- Medidas que “se localizam em torno do meio ou centro da distribuição”.

Moda: é o valor que ocorre mais vezes, a observação que apresenta maior frequência.
Classe modal: classe que apresenta maior frequência.
-A moda é uma medida que faz sentido calcular para dados em qualquer escala;
-A moda em dados agregados com classes de diferente amplitude tem uma
validade relativa;
-Quando trabalhamos com dados agregados, podemos através da classe modal
definir uma aproximação da moda, tendo em consideração as frequências das classes
que ladeiam a classe modal;

Média
- É a medida de tendência central mais comum;
- Só faz sentido calcular a média em dados medidos em escala
racional/intervalar;
- A média nem sempre é representativa das observações, visto que é sensível a
valores extremos;
- Representa o valor (ideal) que caberia a cada indivíduo se a distribuição fosse
igualitária.
Quando os dados estão agrupados, pode calcular-se uma aproximação à média,
substituindo cada observação pelo ponto médio da classe.

O valor da média é alterado quando se altera qualquer valor da distribuição.


Mediana
- Também designada por percentil 50 ou quartil 2;

- É a observação que divide a distribuição ao meio, i.e., tem 50% das observações abaixo
e 50% das observações acima;

- Medida que faz sentido para dados medidos nas escalas ordinal e racional/intervalar.

Classe mediana: classe que contém a mediana

Mediana para dados agrupados

- O valor da mediana não se altera com a modificação dos valores extremos da


distribuição;
- São medidas que dão indicação se as observações estão concentradas ou
dispersas.
Medidas de tendência central
Cada um dos indicadores de posição central tem definições precisas, por isso,
mostram aspetos particulares do fenómeno em estudo.
Têm de ser considerados complementares e devem ser analisados em
simultâneo.

As medidas de localização central não fornecem indicações sobre a dispersão ou


variabilidade dos dados. Duas distribuições com a mesma média, mediana ou moda
podem ser muito diferentes quanto à homogeneidade ou heterogeneidade do grupo em
estudo.
Medidas de dispersão pelo intervalo
>Intervalo absoluto: é a diferença entre a observação máxima e a observação
mínima:

>Intervalo interquartis: é a diferença entre o quartil 3 e o quartil 1:

O intervalo absoluto é mais sensível a alterações nos valores extremos da


distribuição que o intervalo interquartis.

>Desvio interquartis (em relação à mediana):

>Variância (em relação à média):


Para que a medida de dispersão tenha a mesma unidade da observação, utiliza-
se frequentemente o desvio padrão:

Se o desvio padrão é pequeno os valores estão concentrados próximos da média


(caso A), caso contrário os valores estão afastados da média (caso B).

Quanto menor fôr o desvio


padrão, mais concentrados estão
os valores perto da média

Outras medidas de dispersão


>Score Z ou valor padrão:
- Indica quantos desvios padrão está a observação distante da média;
- É útil na comparação de dois conjuntos diferentes de dados;

Coeficiente de variação
- Mede a variação relativa
- É útil para a comparação de variáveis diferentes, muitas vezes em unidades diferentes.
Medidas da forma global de distribuição
Coeficiente de Assimetria (Skewness):
- Um valor positivo deste coeficiente indica uma assimetria positiva, existência
de um grupo pequeno de valores muito grandes;
- Um valor negativo deste coeficiente indica uma assimetria negativa, existência
de um grupo pequeno de valores muito pequenos;
- Um valor nulo deste coeficiente indica uma simetria;

Coeficiente de Assimetria de Pearson (Sk):


Mede quanto a distribuição foge à
distribuição normal, moda não
influencia Sk

Ouliers à direita
Outliers à esquerda

Coeficiente de Curtose (Kurtosis)


- Um valor positivo deste coeficiente indica uma curva alongada com um bico
pronunciado - curva leptocúrtica;
- Um valor negativo deste coeficiente indica uma curva achatada – curva
platicúrtica;
- Um valor nulo deste coeficiente indica uma curva proporcionada – curva
mesocúrtica;
- Mede a propensão da distribuição ter outliers.
Pouco propenso a
Muito propenso a
outliers
outliers

Área debaixo da curva é igual a 1

Características e formas da distribuição


- Através do polígono de frequências, é possível construir uma curva de
frequências (arredondando os bicos);
- Através da curva de frequências podemos descrever/caracterizar a forma da
distribuição;

- As curvas unimodais podem ser caracterizadas tendo como critérios a


assimetria e curtose (forma da distribuição);

Gráfico muito bom porque o pico


é igual à moda, média e mediana
A considerar…
Fatores que influenciam a escolha das estatísticas sumárias:
– A escala em que estão medidas as observações;
– A forma da distribuição;
– O objetivo da análise.

- Para dados medidos numa escala nominal a moda é a única medida que se pode usar;
- Para dados medidos numa escala ordinal as estatísticas mais apropriadas são a moda
e a mediana;
- Para dados medidos numa escala racional/intervalar todas as estatísticas são possíveis
de ser calculadas.
- Para distribuições simétricas a média e o desvio padrão são mais apropriadas;
- Para distribuições marcadamente assimétricas a mediana e o intervalo interquartis são
mais apropriados.
Probabilidades
Quando se interpretam resultados de exames, estabelecem-se diagnósticos,
existe sempre uma certa dose de incerteza, que pode ser quantificada através da teoria
das probabilidades. Contextos de incerteza: Aplicar o tratamento A ou B? Qual a
probabilidade do doente recuperar? Qual a probabilidade de o meu tratamento
melhorar a qualidade de vida do doente B?
As respostas a estas questões são do domínio da Teoria da Probabilidades, cujo
papel é o de fornecer informações para a tomada das decisões, quando a partir do
passado não podemos prever com exatidão o futuro.
Experiência: processo planeado de recolha de dados;

Ensaios: Uma experiência pode ser replicada várias vezes, uma dessas vezes é designada
ensaio;

Espaço amostral: conjunto de resultados possíveis através da realização da experiência;

Acontecimento: um subconjunto do espaço amostral.

Acontecimento elementar: resultado que não pode ser reduzido ou simplificado

Cálculo de probabilidades- conceito frequencista


– Realize uma experiência um grande nº de vezes, e conte o nº de vezes em que
ocorreu o acontecimento A.
– Baseado nestes resultados, P(A) é estimada por
Lei dos grandes números
Quando uma experiência é repetida um grande nº de vezes, o valor da frequência
relativa de um acontecimento tende a aproximar-se do valor da verdadeira
probabilidade.

Estabilização das frequências relativas

Experiência: lançamento
de uma moeda ao ar

Cálculo combinatório
Regra de Bayes
Sejam 𝐴1, 𝐴2, … , 𝐴𝑛 acontecimentos mutuamente exclusivos:
𝑃 𝐴𝑖 > 0 ∪ 𝐴𝑖 = Ω
Se os acontecimentos 𝐴1, 𝐴2, … , 𝐴𝑛 são mutuamente exclusivos com 𝑃 𝐴𝑖 > 0 e ∪ 𝐴𝑖=
Ω (os acontecimentos 𝐴𝑖 definem uma partição sobre Ω), então para qualquer
acontecimento 𝐵 definido em Ω tem-se:

Teorema da probabilidade total


O acontecimento 𝐵 realiza-se através da ocorrência dos acontecimentos 𝐴𝑖.

Regra de Bayes
- Aplica-se a situações em que existem dois ou mais acontecimentos (𝐴𝑖 ) que são causas
de um outro acontecimento (𝐵);
- Sabe-se que 𝐵 aconteceu;
- O objetivo é determinar qual a probabilidade de ter sido desencadeado por uma causa.

Acontecimentos não se
intersetam e a probabilidade
deles é tudo (ou se tem a doença
ou não)
-Valor preditivo de um teste de diagnóstico positivo: é a probabilidade de existir
doença (𝐷 +), dado que o teste de diagnóstico foi positivo (𝑇 +):
𝑃(𝐷 +|𝑇 +)
- Valor preditivo de um teste de diagnóstico negativo: é a probabilidade de não
existir doença (𝐷 −), dado que o teste de diagnóstico foi negativo (𝑇 −):
𝑃(𝐷 −|𝑇 −)
- Sensibilidade do teste: habilidade do teste para detetar a doença quando ela
existe:
𝑃(𝑇 +|𝐷 +)
- Especificidade do teste: teste negativo para indivíduos que não têm a doença:
𝑃(𝑇 −|𝐷 −) (T+/D-) = falso positivo

(T-/D+) = falso negativo

Distribuições de probabilidade
As variáveis aleatórias são variáveis associadas aos resultados de experiências
aleatórias cujos valores são imprevisíveis, porque dependem do acaso e é possível
associar uma distribuição de probabilidade unidimensional ou bidimensional (duas
variáveis).
Variáveis aleatórias quantitativas: os resultados são quantitativos (os elementos
de Ω são conjuntos de números reais):
- Discretas: Número de atendimentos por hora numa clínica;
- Contínuas: Tempo de tratamento dos doentes de uma clínica.

Variáveis aleatórias qualitativas: os resultados não são quantificáveis (os


elementos de Ω são modalidades nominais ou ordinais):
v.a nominais: sexo das crianças que vão nascer;
v.a. ordinais: – grau académico dos indivíduos selecionados
aleatoriamente.

Suporte: conjunto de valores que a variável aleatória pode tomar.


• Se o suporte for um subconjunto dos números reais, então pode ser classificado como:
– variável aleatória discreta se o suporte for finito ou infinito numerável.
– Caso contrário a variável aleatória diz-se contínua.
• Se o suporte toma valores não quantificáveis: – variável aleatória diz-se qualitativa

Função de probabilidade
Se 𝑋 é uma v.a. discreta que assume os valores 𝑥1 , 𝑥2 , … , 𝑥𝑛 , chama-se FUNÇÃO DE
PROBABILIDADE à função representada por 𝑓(𝑥) e definida por:

Nas variáveis contínuas Probabilidade da variável


surgem gráficos que se aleatória assumir um valor
designam de função
densidade de
probabilidade
Função de distribuição
A partir da função de probabilidade pode ser calculada a função de distribuição que a
cada valor de x associa a sua probabilidade acumulada.
A FUNÇÃO DE DISTRIBUIÇÃO de uma v.a é definida por:
𝐹(𝑥) = 𝑃(𝑋 ≤ 𝒙)
Nota: esta definição é válida para v.a. contínuas.

Propriedades da função:

Probabilidade num ponto é nula


Distribuições de probabilidades discretas

>Distribuição de Bernoulli
Sempre que uma experiência aleatória só tem dois resultados possíveis;
Por convenção utilizam-se os valores 0 e 1 (0 → insucesso, 1 → sucesso).
Ex: estudo envolvendo Rh+ e Rh-

>Distribuição binomial
n experiências de Bernoulli, contam-se os sucessos

Ex: número de doentes com Rh+ num grupo de 10 pessoas

>Distribuição de Poisson
Modelar contagens em intervalos de tempo ou regiões do espaço

Ex: número de doentes que chegam, num certo período de tempo, ao hospital
>Distribuição normal
A distribuição Normal ou de Gauss é a mais utilizada em estatística, porque muitas das
situações da vida real seguem este modelo teórico ou, se não o seguem, dele se
aproximam. Utilizada para variáveis contínuas.
Uma v.a. contínua 𝑋 tem distribuição normal se a sua função densidade de
probabilidade (f.d.p.) for dada por:

𝑋 ~ 𝑁(𝜇, 𝜎) significa que 𝑋 tem distribuição


Normal com média 𝜇 e desvio padrão σ

P (µ-σ ≤ X ≤ µ+σ) = 0,68

P (µ-2σ ≤ X ≤ µ+2σ) = 0,955

Esta distribuição tem uma função densidade complexa para descrever a curva em forma
de sino, mas existem tabelas que nos dão as probabilidades desejadas. Basta
transformarmos a v.a 𝑋 numa variável padronizada Z.

>Distribuição normal padronizada


Obtemos a distribuição normal de (0,1), ou seja, quando µ=0 e σ=1

Tem de estar sempre na


forma P(Z ≥ no)
Amostras e distribuições amostrais
População (µ): conjunto completo de pessoas que apresentam um
determinado conjunto de características (parâmetros)
Amostras: um subconjunto da população

Pop. Alvo- generalizar os


resultados (diabetes na região
norte)

Pop. a amostrar- de onde é


retirada a amostra (doentes do
IPO, Hospital de S. João, etc)

Amostra- só pessoas escolhidas


aleatoriamente (deve ser
representativa

É necessário bom senso para tirar inferências da população a amostrar para a


população alvo. É necessário que a população amostral seja uma amostra representativa
da população alvo.
Estatística Inferencial: é necessário uma amostra aleatória para tirar inferências
da amostra para a população da qual foi retirada.
Noutras situações:
População: conjunto de itens, objetos, medições ou observações, que podem ser
finitas ou infinitas
Amostra: subconjunto da população selecionado de tal modo que é
representativo dessa população. Só assim teremos inferências válidas e fiáveis.
Plano de amostragem
- Identificação da variável a estudar, instrumentos de recolha de dados, extensão
geográfica do estudo,…
- Identificar a amostra (Identificar população alvo/população a amostrar; Definir
o método de selecção de amostra, Verificar a dimensão amostral)

Vantagens no uso de amostras:


>Rapidez- as amostras podem ser estudadas mais depressa que a população;
>Económica- o estudo de uma amostra, é mais económico do que o estudo de
uma população inteira;
>Viabilidade- o estudo de uma população inteira é por vezes impossível.

Tipos de amostragem
Amostragem aleatória (casual): é possível calcular, à priori, a probabilidade de observar
cada indivíduo da população na amostra
N= dimensão de população 1- Casos possíveis
P=
n= dimensão da amostra CNn – combinações de
escolher n indivíduos de
uma população N

A probabilidade de ser selecionado para a amostra é igual para todos os indivíduos


Amostragem determinística (dirigida): não é possível calcular essa probabilidade

Amostragem agrupada: A população é dividida em grupos, seleciona-se aleatoriamente


um subconjunto desses grupos e termina por se escolher todos os elementos desse
grupo
Amostragem estratificada: primeiro estratifica-se a população e pretende-se manter a
proporção da população para a amostra.
Ex: Torna-se estratificada
porque temos a diferença
60% rural entre o meio rural e
urbano. Depois, teremos de
40% urbano ter em atenção se é homem
ou mulher, a que geração
pertence, idade, ect,
N (população) n (amostra) perfazendo diversos ramos.

São estratos independentes representativos de onde se faz uma amostragem simples


(escolher aleatoriamente pessoas).
𝑛1 𝑛2 𝑛𝑘
= =
𝑁1 𝑁2 𝑁𝑘
A alocação proporcional dos dados, ou seja, as dimensões das amostras individuais são
proporcionais à dimensão dos respetivos estratos.
Vantagens: Pode ser medido e controlado o grau de confiança associado aos resultados;
podem evitar-se enviesamentos nos resultados, porque o processo de seleção de
indivíduos é casual e mecânico e não dirigido em função dos valores pessoais
Desvantagens: Dificuldade em listar todos os indivíduos; custos elevados

Amostragem sistemática: selecionar um elemento de K Em K elementos


Ex: de uma lista escolher (de 20 em 20): 1, 21, 41, 61, …

Deverá ter-se cuidado com este esquema quando: existir periodicidade ( ou seja,
repetição cíclica) nos dados pois perde-se o carácter aleatório
Amostragem por conveniência (mais determinista): selecionada em função da
disponibilidade e acessibilidade dos elementos do universo
Ex: ver o consumo de massa num Continente; conhecer a quantidade de cigarros diários
dos fumadores, fazendo uma amostra dos fumadores que vão a uma tabacaria.

Amostragem intencional: selecionar os elementos consoante os que estão em melhor


condição para satisfazer os nossos objetivos. Geralmente são escolhidas pessoas
conhecedoras do assunto em estudo.
Ex: fazer um estudo sobre os órgãos da comunicação social, para tal escolhe-se a SIC

Amostragem por cotas: semelhante à estratificada mas não é tão aleatória em relação
à seleção de indivíduos.
- Amostra equivalente à estratificada
- Selecionar indivíduos nos vários estratos
- Tradicionalmente não aleatória
- Seleção de indivíduos por conveniência
- A amostra por quotas é constituída pelos subgrupos que terão na amostra a
mesma proporção (quota) que têm na população.
Ex: uma amostra por quotas tendo em conta o sexo, havendo na população 60% de
mulheres a amostra deverá conter 60% de mulheres e 40% de homens. Mas a seleção
dos elementos não é aleatória, pode ser por conveniência, escolhendo-se os efetivos
que estão mais “à mão”

Tipos de amostras

Amostras aleatórias Amostra determinista

- Aleatória simples - Conveniência

- Agrupada - Intencional

- Sistemática - Cotas

- Estratificada
Inferência estatística: generalização dos resultados obtidos numa amostra para a
população
Parâmetros: descrever ou sumariar informação referente a um população ou amostra
Estatísticas: estimativas dos parâmetros obtidas a partir da amostra
Distribuição amostral: estudar o comportamento do estimador desse parâmetro

As medidas estatísticas variam de amostra para amostra. Depende:


>Tamanho da amostra
>Dispersão da população

Distribuição amostral da média


- De uma população extraem-se várias amostras do mesmo tamanho;
- Calcula-se a média de todas essas amostras, essas médias são
provavelmente todas diferentes;
- Estes valores constituem a chamada distribuição amostral das
médias.
- A média das médias é igual à média da população;
- O desvio padrão da média ou erro Padrão da Média é menor que o desvio padrão da
população ( diminui com o tamanho da amostra);
Nota: para cada tamanho de amostra tem-se distribuições amostrais diferentes
- A média das médias é igual à média da população;
- Se a variável 𝑋 de uma população (infinita) segue uma população normal 𝑋 ~ 𝑁 (𝜇, σ);
- As médias amostrais 𝑋1, 𝑋2 ,𝑋3, … formam uma distribuição que segue uma normal
de média 𝜇 e desvio padrão 𝜎/ 𝑛1/2 , isto é:

População infinita Erro padrão da média

Indica até que ponto


as médias variam
apenas devido ao
Se a população for finita e de dimensão N
acaso. Interpretar
consoante o valor do
desvio padrão e
consoante o tamanho
da amostra.

População finita
(µ, )

Ex: Os pesos de uma população seguem uma distribuição normal, média 𝜇 = 70𝐾𝑔 e desvio
padrão 𝜎 = 10𝐾g. Se considerarmos várias amostras de dimensão 25, a distribuição amostral da
média segue uma normal de média 𝜇x = 𝜇 = 70𝐾𝑔 e desvio padrão 2Kg.

X não segue uma distribuição normal.


Teorema do limite central: quando a dimensão amostral 𝑛, é suficientemente grande
(𝑛 ≥ 30), a distribuição amostral da média aproxima-se de uma distribuição Normal,
qualquer que seja a forma da distribuição da população (se fôr menor que 30 tem de se
provar que a distribuição é normal).

Na prática desconhecemos 𝜎 e estimamo-lo a partir do desvio padrão da amostra, 𝑠.

Princípios gerais de inferência estatística


(a partir da amostra inferir sobre a população)
>Estimação de parâmetros:
- Pontual;
- Intervalar.
>Testes de hipóteses

Estimador: fórmula que se utiliza para calcular uma estatística


Estimador para a média

Estimativa: valor do estimador calculado para os valores observados


ex: média amostral da frequência fundamental de doentes com Parkinson é 177,37 HZ
Características dos estimadores:
- Não tendencioso (ou centrado): o estimador deve ter uma distribuição cuja média é
igual ao parâmetro que se está a estimar;
- Eficiente: ter variância mínima

- Consistente: convergir para o valor do parâmetro quando n aumenta


- Suficiente: conter toda a informação sobre o parâmetro através de uma amostra de
dimensão n (quanto maior n, mais próximo da média real estará)

Estimadores intervalares: intervalos de confiança (definem um limite superior e um


limite inferior para a estimativa com uma probabilidade associada), conferem maior
precisão à amostra. Exigem o conhecimento do modelo de distribuição de probabilidade
do estimador
Ex: Suponha-se que a progressão da capacidade neurofisiológica de um paciente com lesão
cerebral é traduzida por pontuações numa escala real. Considere-se que os valores de
pontuação segue a distribuição normal de média 27 e desvio padrão 3. Suponha que um grupo
de investigadores tem um conjunto 40 pacientes com características semelhantes e com média
de pontuação igual a 25. Os investigadores pretendem saber se as medições feitas nestes
doentes podem provir de uma população de valores de pontuação semelhante à população de
valores de doentes com lesão cerebral ou se representam uma população diferente. Estimar a
média da população da qual provem a amostra dos investigadores, µ, usando um intervalo de
valores de X: Confiança de 95%, atendendo que segue o teorema do limite central.

Ver caderno
Resultado 1:
Se , então:

Resultado 2:
Se , então:

Resultado 3:
Se n ≥30, x v.a. na população. Então, , com µ, a média da
população e σ, o desvio padrão
Grau de confiança

De uma forma geral, o intervalo de confiança para a média amostral:


Para uma população de média µ e desvio padrão σ, (1- α)x100% é a probabilidade de
uma amostra de dimensão n ter um valor de média contida no intervalo:

Na prática, desconhecemos a verdadeira média da população.


Significa que:
- se retirássemos amostras repetidas da mesma população, (1 - α)*100% delas
resultariam num valor de que se encontraria naquele intervalo;
- a probabilidade de retirar uma amostra de dimensão n com valor de que se encontre
no intervalo (I.C. representado acima) é de (1 - α)*100%.

Nota: Quanto maior for o tamanho da amostra (n), mais pequeno é o intervalo de
confiança e, portanto, mais preciso.
Testes de hipóteses
- A observação do fenómeno levanta questões que são muitas vezes formalizadas em
hipóteses;
- Depois são levados a cabo novos procedimentos para averiguar a veracidade dessas
hipóteses;
- Normalmente estas conclusões são generalizadas para além da amostra observada, ou
seja, para a população (por exemplo: eficácia de um tratamento).
Ex: sistema legal

Erros num teste de hipóteses

Erro tipo I: ocorre quando se rejeita H0, sendo H0 verdadeira, a probabilidade de obter
esse erro é designada por α
P(rejeitar H0 I H0 verdadeira)= α
Erro tipo II: ocorre quando não se rejeita H0, sendo H0 falsa, a probabilidade de obter
esse erro é designada por β
P(não rejeitar H0 I H0 falsa)

>Normalmente controla-se o erro do tipo I (nível de significância), escolhendo para tal


um α;
>Poder do teste – habilidade de detetar diferença quando ela existe;
P(rejeita H0 I H0 é falsa) = 1- P(erro tipo I)
>O erro do tipo II normalmente não é controlado porque:

Passos a seguir num teste de hipóteses


1- Descrever a questão a estudar em termos de hipóteses estatísticas (hipóteses
sobre os parâmetros da população, distribuição da variável…. );
- Hipótese H0:
- Envolve um parâmetro que queremos testar;
- Traduz a igualdade;
- Indica que não existe diferença;

- Hipótese H1:
- Envolve o mesmo parâmetro de H0;
- Discorda com H0 (H0 e H1 são disjuntas);
- Traduz a diferença;
- Está no sentido do que se observa na amostra;
2- Decidir qual o teste apropriado para a hipótese admitida
- O teste estatístico depende do tipo de variável.
- O teste estatístico é calculado através dos dados da amostra.
- Cada teste estatístico segue uma determinada distribuição de probabilidade.

3- Escolher o nível de significância para o teste estatístico


- Nível de significância, α, valor máximo que se admite para um erro do tipo I;
- Geralmente baixo 0,05; 0,01 e 0,1.

4- Determinar o valor a alcançar pelo teste para ser declarado significativo


- Valores que definem a área de rejeição e não rejeição;
- Dependem do nível de significância escolhido.

5- Fazer cálculos
- Substituir no teste os resultados da amostra

6- Tirar conclusões
>Valor P (P-value): probabilidade de obter um resultado tão extremo ou mais
extremo do que o valor observado se H0 é verdadeira;
- Valor p < α rejeitamos H0;
- Valor p> α não rejeitamos H0;
(http://www.youtube.com/watch?v=eyknGvncKLw)

- H0 tem uma igualdade, será bilateral:

- H0 tem < ou >, será unilateral:

Especificação de α, β e Poder 1-β


Poder 1-β: “Habilidade” de detetar a diferença quando ela existe.

Analogias de um teste de hipóteses:

Sensibilidade: teste positivo quando o indivíduo é doente


Especificidade: teste negativo quando o indivíduo é saudável

>Erro do tipo I – decidir pela presença da diferença quando ela não existe: falso
positivo;
>Erro do tipo II - decidir pela ausência da diferença quando ela existe: falso negativo;
>Poder do teste – a habilidade de detectar diferença quando ela existe: sensibilidade.

Errar em α ou em β?
- É preferível errar em ß:
-Declarar que não existe diferença quando existe;
-Alegando que outros poderão planear um estudo mais adequado para detetar
a diferença.
- Do que declarar que existe diferença quando não existe.

Intervalos de confiança vs testes de hipóteses


- Os intervalos de confiança fornecem mais informação pois fazem uma
estimativa intervalar, indicando o valor inferior e o valor superior.
Valor P
Exemplo 1
Sabe-se que a média de cálcio sérico é 9,9 mg/dl e o desvio padrão é 0,66
mg/dl numa população de homens saudáveis. Um grupo de investigadores estuda uma
amostra de 43 homens com artrite reumatóide e encontram uma média de 9,5 mg/dl.
Eles pretendem saber se a média para os doentes é diferente do valor indicado, 9,9
mg/dl.
- As hipóteses formuladas originam um teste bilateral, porque à partida não se
sabe o que se espera da amostra, se apresenta valores maiores ou menores do que a
suspeita.
- A hipótese nula será rejeitada se o nível médio de cálcio for suficientemente
grande ou pequeno em comparação com 9,9.

Exemplo 2
Suponha que a média do tempo de sobrevivência de pacientes, que recebem
um determinado tratamento, é 8 meses e o desvio padrão 4,4. 60 pacientes foram
tratados com outro tratamento e obtiveram uma média de sobrevivência 14,6. Será
que este novo tratamento aumenta o tempo de sobrevivência?
- As hipóteses formuladas originam um teste unilateral.
- A hipótese nula será rejeitada se obtivermos um valor da amostra muito
grande relativamente a 8.

Você também pode gostar