Escolar Documentos
Profissional Documentos
Cultura Documentos
Compreende também:
Escalas
1. Escalas quantitativas (numéricas)
Escalas racionais- intervalos constantes e um zero com significado físico, um zero
absoluto (ex: comprimento, peso, volume, contagens)
Escalas intervalares- ponto zero arbitrário, não definido (ex: temperatura, horas do dia)
Escalas ordinais- variáveis não numéricas e com ordem inerente. São categorias
ordenadas segundo critérios (ex: estádios do cancro- I, II, III, IV)- Variáveis medidas na
escala ordinal são denominadas variáveis categóricas ordinais. Quando só são
assumidos 2 níveis, são designadas de binárias (ex: ter cancro (1) ou não ter cancro (0))
Representação gráfica
1. Variáveis ordinais e nominais
>Tabelas de frequência
Fi fi fi%
2. Variáveis contínuas
>Histogramas
6 classes
̅)
>Média aritmética (𝒙
Somar todos os dados e dividir pelo número de dados
Sensível a outliers
>Mediana (Md)
Medida de localização do centro da distribuição dos dados
(50% dos valores > mediana; 50% dos valores < mediana)
Não é sensível a outliers
- Se n é ímpar = mediana é o elemento médio;
- Se n é par = mediana é a semi soma dos 2 elementos médios.
A Estatística é uma técnica que tem por fim descrever um fenómeno através de
medidas e determinar neles as leis que permitem explicar o seu comportamento e
prever a sua evolução.
A Estatística torna-se então uma grande aliada da investigação científica.
Investigação empírica é uma investigação em que se fazem observações para
compreender melhor o fenómeno a estudar.
Tipos de investigação empírica
- Pura: o objetivo é descobrir factos novos para testar deduções feitas a partir de
uma teoria com interesse intelectual e que no momento da investigação parece não ter
aplicação prática;
- Aplicada: o objetivo é descobrir factos novos para testar deduções feitas a
partir de uma teoria que pode ter aplicações práticas a médio prazo;
- Aplicável: o objetivo é descobrir factos novos que sejam capazes de resolver
problemas práticos em curto prazo.
Objetivos e metodologia da investigação
>Objetivos:
- De compreensão e diagnóstico: identificar e descrever o fenómeno utilizando
a informação contida nos indicadores numéricos (medidas, proporções, percentagens).
Estabelecer relações entre os fenómenos, ou seja, colocar hipóteses explicativas;
- De previsão: projetar a dimensão potencial do problema, no tempo ou no
espaço, através da determinação das relações.
>Planeamento:
- Estratégicos: avaliar as alternativas decorrentes do conhecimento de fatores
que influenciam o fenómeno;
- Decisão: decidir de acordo com as mudanças desejáveis em função da avaliação
das alternativas.
>Métodos e procedimentos:
Estatística inferencial:
Principal objetivo: extrapolar dados obtidos para a população;
Principais ferramentas: testes estatísticos
Escalas de medição
>Escala Racional/Intervalar:
-Dados quantitativos;
-Podem ser classificadas em variáveis contínuas ou variáveis discretas;
Nº de células mortas numa experiência; Nº de
intervenções cirúrgicas de um paciente;
Comprimento de um osso; Temperatura da água
de uma cultura aquática; Peso de um paciente
>Escala ordinal:
-Dados qualitativos;
-Uma escala que supõe ordem entre categorias;
>Escala nominal:
- Dados qualitativos;
-Podem ser dicotómicas (2 categorias) ou policotómicas (3 ou mais categorias);
>Gráfico de barras
-Eixo horizontal tem as categorias e o eixo vertical tem a contagem.
>Gráfico circular
-Quando o número de categorias é baixo
Representação gráfica para escala racional ou intervalar
>Construção de uma tabela de frequência
1. Identificar as observações extremas (maior e menor)
2. Subtrair estas observações para obter o intervalo de variação das observações
3. Seguidamente pode escolher-se um dos métodos: determinar o nº de classes e dividir
o intervalo por esse número para obter a amplitude das classes (formando neste caso
classes de igual amplitude) ou fixar a amplitude de cada classe, pré-determinando o
número de classes desejado.
4. Para determinar o número de classes adequado para dar uma ideia da distribuição,
devem seguir-se algumas indicações:
-Um nº de classes entre 6 e 14
-Um nº de classes suficiente para dar uma ideia da forma da distribuição mas não
tão grande que se percebam flutuações pequenas
-Uma aproximação para o nº de classes baseado no nº total de observações (n)
usando a relação: Nº classes = 1 + 3,3 × log10 𝑛
-A frequência em cada classe não deve ser inferior a 5 (mínimo de 3)
-Evitar "falhas", isto é, classes vazias no meio da distribuição
5. De um modo geral as classes definidas devem obedecer aos seguintes critérios:
-Os limites de classes consecutivas não devem sobrepor-se Ex: 40-44; 45-49; 50-
54 e não 40-45; 45-50; 50-54
-Utilizar classes com igual amplitude
-Usar apenas amplitudes diferentes quando existirem grandes espaços vazios
(falhas na distribuição)
-Evitar classes abertas, porque não comunicam o intervalo das observações.
Evitar classes do tipo: ≤49 ou ≥90
Se possível os limites das classes devem escolher-se de modo que as observações
na classe se encontrem mais perto do ponto médio da classe do que dos limites da
classe.
>Diagrama de caule e folhas
>Histograma
-Gráfico de barras para uma variável contínua;
-Eixo do x tem as variáveis e o eixo do y a contagem.
>Polígono de frequências
- Gráficos de linha que se obtêm através do histograma, unindo os pontos médios
de cada classe.
>Diagrama de dispersão
Medidas estatísticas sumárias
Medidas de ordenamento Infos sobre a ordem dos dados
>Percentis
-Percentil 𝑣 : valor da distribuição até ao qual se encontram 𝑣% das observações;
-Divide a distribuição em duas partes 𝑣% abaixo e 100 − 𝑣% acima;
Determinação do percentil:
− Análise da tabela de frequências (frequência relativa acumulada);
− Dados agrupados: estimativa do percentil 𝑣 através da classe onde ele se encontra.
Classe: [L𝑣;U𝑣[
− Para a distribuição de uma variável (desagrupada) cujos valores foram previamente
ordenados podemos definir o percentil 𝑣 como o valor que está na posição:
Dados simples:
- Quando a posição não é um n.º inteiro então a parte decimal indica a distância
proporcional da posição indicada até à posição imediatamente superior;
Dados agrupados em classes:
Quartis
Existem alguns percentis que por dividirem a distribuição em múltiplos de 25%, são
designados por quartis, estes são também os percentis mais usados: Quartil 1 ou
percentil 25; Quartil 2 ou percentil 50; Quartil 3 ou percentil 75;
Posição da mediana
Medidas de tendência central
- Medem o resultado típico da distribuição;
- Medidas que “se localizam em torno do meio ou centro da distribuição”.
Moda: é o valor que ocorre mais vezes, a observação que apresenta maior frequência.
Classe modal: classe que apresenta maior frequência.
-A moda é uma medida que faz sentido calcular para dados em qualquer escala;
-A moda em dados agregados com classes de diferente amplitude tem uma
validade relativa;
-Quando trabalhamos com dados agregados, podemos através da classe modal
definir uma aproximação da moda, tendo em consideração as frequências das classes
que ladeiam a classe modal;
Média
- É a medida de tendência central mais comum;
- Só faz sentido calcular a média em dados medidos em escala
racional/intervalar;
- A média nem sempre é representativa das observações, visto que é sensível a
valores extremos;
- Representa o valor (ideal) que caberia a cada indivíduo se a distribuição fosse
igualitária.
Quando os dados estão agrupados, pode calcular-se uma aproximação à média,
substituindo cada observação pelo ponto médio da classe.
- É a observação que divide a distribuição ao meio, i.e., tem 50% das observações abaixo
e 50% das observações acima;
- Medida que faz sentido para dados medidos nas escalas ordinal e racional/intervalar.
Coeficiente de variação
- Mede a variação relativa
- É útil para a comparação de variáveis diferentes, muitas vezes em unidades diferentes.
Medidas da forma global de distribuição
Coeficiente de Assimetria (Skewness):
- Um valor positivo deste coeficiente indica uma assimetria positiva, existência
de um grupo pequeno de valores muito grandes;
- Um valor negativo deste coeficiente indica uma assimetria negativa, existência
de um grupo pequeno de valores muito pequenos;
- Um valor nulo deste coeficiente indica uma simetria;
Ouliers à direita
Outliers à esquerda
- Para dados medidos numa escala nominal a moda é a única medida que se pode usar;
- Para dados medidos numa escala ordinal as estatísticas mais apropriadas são a moda
e a mediana;
- Para dados medidos numa escala racional/intervalar todas as estatísticas são possíveis
de ser calculadas.
- Para distribuições simétricas a média e o desvio padrão são mais apropriadas;
- Para distribuições marcadamente assimétricas a mediana e o intervalo interquartis são
mais apropriados.
Probabilidades
Quando se interpretam resultados de exames, estabelecem-se diagnósticos,
existe sempre uma certa dose de incerteza, que pode ser quantificada através da teoria
das probabilidades. Contextos de incerteza: Aplicar o tratamento A ou B? Qual a
probabilidade do doente recuperar? Qual a probabilidade de o meu tratamento
melhorar a qualidade de vida do doente B?
As respostas a estas questões são do domínio da Teoria da Probabilidades, cujo
papel é o de fornecer informações para a tomada das decisões, quando a partir do
passado não podemos prever com exatidão o futuro.
Experiência: processo planeado de recolha de dados;
Ensaios: Uma experiência pode ser replicada várias vezes, uma dessas vezes é designada
ensaio;
Experiência: lançamento
de uma moeda ao ar
Cálculo combinatório
Regra de Bayes
Sejam 𝐴1, 𝐴2, … , 𝐴𝑛 acontecimentos mutuamente exclusivos:
𝑃 𝐴𝑖 > 0 ∪ 𝐴𝑖 = Ω
Se os acontecimentos 𝐴1, 𝐴2, … , 𝐴𝑛 são mutuamente exclusivos com 𝑃 𝐴𝑖 > 0 e ∪ 𝐴𝑖=
Ω (os acontecimentos 𝐴𝑖 definem uma partição sobre Ω), então para qualquer
acontecimento 𝐵 definido em Ω tem-se:
Regra de Bayes
- Aplica-se a situações em que existem dois ou mais acontecimentos (𝐴𝑖 ) que são causas
de um outro acontecimento (𝐵);
- Sabe-se que 𝐵 aconteceu;
- O objetivo é determinar qual a probabilidade de ter sido desencadeado por uma causa.
Acontecimentos não se
intersetam e a probabilidade
deles é tudo (ou se tem a doença
ou não)
-Valor preditivo de um teste de diagnóstico positivo: é a probabilidade de existir
doença (𝐷 +), dado que o teste de diagnóstico foi positivo (𝑇 +):
𝑃(𝐷 +|𝑇 +)
- Valor preditivo de um teste de diagnóstico negativo: é a probabilidade de não
existir doença (𝐷 −), dado que o teste de diagnóstico foi negativo (𝑇 −):
𝑃(𝐷 −|𝑇 −)
- Sensibilidade do teste: habilidade do teste para detetar a doença quando ela
existe:
𝑃(𝑇 +|𝐷 +)
- Especificidade do teste: teste negativo para indivíduos que não têm a doença:
𝑃(𝑇 −|𝐷 −) (T+/D-) = falso positivo
Distribuições de probabilidade
As variáveis aleatórias são variáveis associadas aos resultados de experiências
aleatórias cujos valores são imprevisíveis, porque dependem do acaso e é possível
associar uma distribuição de probabilidade unidimensional ou bidimensional (duas
variáveis).
Variáveis aleatórias quantitativas: os resultados são quantitativos (os elementos
de Ω são conjuntos de números reais):
- Discretas: Número de atendimentos por hora numa clínica;
- Contínuas: Tempo de tratamento dos doentes de uma clínica.
Função de probabilidade
Se 𝑋 é uma v.a. discreta que assume os valores 𝑥1 , 𝑥2 , … , 𝑥𝑛 , chama-se FUNÇÃO DE
PROBABILIDADE à função representada por 𝑓(𝑥) e definida por:
Propriedades da função:
>Distribuição de Bernoulli
Sempre que uma experiência aleatória só tem dois resultados possíveis;
Por convenção utilizam-se os valores 0 e 1 (0 → insucesso, 1 → sucesso).
Ex: estudo envolvendo Rh+ e Rh-
>Distribuição binomial
n experiências de Bernoulli, contam-se os sucessos
>Distribuição de Poisson
Modelar contagens em intervalos de tempo ou regiões do espaço
Ex: número de doentes que chegam, num certo período de tempo, ao hospital
>Distribuição normal
A distribuição Normal ou de Gauss é a mais utilizada em estatística, porque muitas das
situações da vida real seguem este modelo teórico ou, se não o seguem, dele se
aproximam. Utilizada para variáveis contínuas.
Uma v.a. contínua 𝑋 tem distribuição normal se a sua função densidade de
probabilidade (f.d.p.) for dada por:
Esta distribuição tem uma função densidade complexa para descrever a curva em forma
de sino, mas existem tabelas que nos dão as probabilidades desejadas. Basta
transformarmos a v.a 𝑋 numa variável padronizada Z.
Tipos de amostragem
Amostragem aleatória (casual): é possível calcular, à priori, a probabilidade de observar
cada indivíduo da população na amostra
N= dimensão de população 1- Casos possíveis
P=
n= dimensão da amostra CNn – combinações de
escolher n indivíduos de
uma população N
Deverá ter-se cuidado com este esquema quando: existir periodicidade ( ou seja,
repetição cíclica) nos dados pois perde-se o carácter aleatório
Amostragem por conveniência (mais determinista): selecionada em função da
disponibilidade e acessibilidade dos elementos do universo
Ex: ver o consumo de massa num Continente; conhecer a quantidade de cigarros diários
dos fumadores, fazendo uma amostra dos fumadores que vão a uma tabacaria.
Amostragem por cotas: semelhante à estratificada mas não é tão aleatória em relação
à seleção de indivíduos.
- Amostra equivalente à estratificada
- Selecionar indivíduos nos vários estratos
- Tradicionalmente não aleatória
- Seleção de indivíduos por conveniência
- A amostra por quotas é constituída pelos subgrupos que terão na amostra a
mesma proporção (quota) que têm na população.
Ex: uma amostra por quotas tendo em conta o sexo, havendo na população 60% de
mulheres a amostra deverá conter 60% de mulheres e 40% de homens. Mas a seleção
dos elementos não é aleatória, pode ser por conveniência, escolhendo-se os efetivos
que estão mais “à mão”
Tipos de amostras
- Agrupada - Intencional
- Sistemática - Cotas
- Estratificada
Inferência estatística: generalização dos resultados obtidos numa amostra para a
população
Parâmetros: descrever ou sumariar informação referente a um população ou amostra
Estatísticas: estimativas dos parâmetros obtidas a partir da amostra
Distribuição amostral: estudar o comportamento do estimador desse parâmetro
População finita
(µ, )
Ex: Os pesos de uma população seguem uma distribuição normal, média 𝜇 = 70𝐾𝑔 e desvio
padrão 𝜎 = 10𝐾g. Se considerarmos várias amostras de dimensão 25, a distribuição amostral da
média segue uma normal de média 𝜇x = 𝜇 = 70𝐾𝑔 e desvio padrão 2Kg.
Ver caderno
Resultado 1:
Se , então:
Resultado 2:
Se , então:
Resultado 3:
Se n ≥30, x v.a. na população. Então, , com µ, a média da
população e σ, o desvio padrão
Grau de confiança
Nota: Quanto maior for o tamanho da amostra (n), mais pequeno é o intervalo de
confiança e, portanto, mais preciso.
Testes de hipóteses
- A observação do fenómeno levanta questões que são muitas vezes formalizadas em
hipóteses;
- Depois são levados a cabo novos procedimentos para averiguar a veracidade dessas
hipóteses;
- Normalmente estas conclusões são generalizadas para além da amostra observada, ou
seja, para a população (por exemplo: eficácia de um tratamento).
Ex: sistema legal
Erro tipo I: ocorre quando se rejeita H0, sendo H0 verdadeira, a probabilidade de obter
esse erro é designada por α
P(rejeitar H0 I H0 verdadeira)= α
Erro tipo II: ocorre quando não se rejeita H0, sendo H0 falsa, a probabilidade de obter
esse erro é designada por β
P(não rejeitar H0 I H0 falsa)
- Hipótese H1:
- Envolve o mesmo parâmetro de H0;
- Discorda com H0 (H0 e H1 são disjuntas);
- Traduz a diferença;
- Está no sentido do que se observa na amostra;
2- Decidir qual o teste apropriado para a hipótese admitida
- O teste estatístico depende do tipo de variável.
- O teste estatístico é calculado através dos dados da amostra.
- Cada teste estatístico segue uma determinada distribuição de probabilidade.
5- Fazer cálculos
- Substituir no teste os resultados da amostra
6- Tirar conclusões
>Valor P (P-value): probabilidade de obter um resultado tão extremo ou mais
extremo do que o valor observado se H0 é verdadeira;
- Valor p < α rejeitamos H0;
- Valor p> α não rejeitamos H0;
(http://www.youtube.com/watch?v=eyknGvncKLw)
>Erro do tipo I – decidir pela presença da diferença quando ela não existe: falso
positivo;
>Erro do tipo II - decidir pela ausência da diferença quando ela existe: falso negativo;
>Poder do teste – a habilidade de detectar diferença quando ela existe: sensibilidade.
Errar em α ou em β?
- É preferível errar em ß:
-Declarar que não existe diferença quando existe;
-Alegando que outros poderão planear um estudo mais adequado para detetar
a diferença.
- Do que declarar que existe diferença quando não existe.
Exemplo 2
Suponha que a média do tempo de sobrevivência de pacientes, que recebem
um determinado tratamento, é 8 meses e o desvio padrão 4,4. 60 pacientes foram
tratados com outro tratamento e obtiveram uma média de sobrevivência 14,6. Será
que este novo tratamento aumenta o tempo de sobrevivência?
- As hipóteses formuladas originam um teste unilateral.
- A hipótese nula será rejeitada se obtivermos um valor da amostra muito
grande relativamente a 8.