Escolar Documentos
Profissional Documentos
Cultura Documentos
Amostragem
Conjunto de procedimento estatísticos usados para selecionar amostras das populações em
estudo.
Existem 2 tipos de amostragem:
• Amostragem aleatória, casual ou probabilística
• Amostragem não aleatória ou não probabilística
Amostragem aleatória, casual ou probabilística
Método de amostragem em que cada elemento da população tem uma probabilidade
conhecida e igual de ser selecionado para a amostra e todas as amostras são igualmente
prováveis. Ou seja, as amostras são obtidas de forma aleatória e todos os N indivíduos da
população têm a mesma probabilidade de serem selecionados para a amostra
Pode ser:
- Amostragem Aleatória Simples
Todos os elementos da amostra são selecionados ao acaso, usando métodos como sorteios
aleatórios ou números aleatórios (nem sempre resulta em amostras representativas, podendo sub-
representar grupos minoritários
- Amostragem Aleatória Estratificada
A população é dividida em subgrupos homogéneos ou estratos (grupos etários, sexo…). Em
seguida, uma amostra aleatória é selecionada de cada estrato garantindo que cada subgrupo da
população seja representado proporcionalmente na amostra final (garante a representação de
grupos minoritários na população)
- Amostragem aleatória sistemática
Os elementos são escolhidos a intervalos regulares, começando de forma aleatória. Por exemplo,
podemos selecionar um indivíduo a cada 10 premiados num determinado jogo de azar (indivíduo
1, 11, 21, 31…)
- Amostragem aleatória por clusters
A população é dividida em grupos chamados clusters, e alguns clusters são selecionados
aleatoriamente para formar a amostra. Essa abordagem é útil quando a população é
naturalmente agrupada em clusters (freguesias)
- Amostragem aleatória Multi-etapas
Combina 2 ou mais dos métodos descritos acima.
Podem ser:
- Amostragem de Conveniência
Os elementos da amostra são recolhidos de forma não sistemática, com base na conveniência
- Amostragem Objetiva
Os elementos são selecionados com base em critérios específicos ou objetivos predefinidos, como
pacientes com determinado critério de inclusão (indivíduos que sofreram ataques cardíacos ou
pacientes com episódios de demência)
- Amostragem Modal
Envolve a recolha de elementos que representam os tipos mais frequentes ou comuns na
população (clientes típicos, eleitores típicos ou pacientes típicos)
- Amostragem de Especialistas
Os elementos da amostra são especialistas em uma área específica, como um painel de
comentadores ou um painel de médicos, sendo selecionados pela sua experiência e
conhecimento especializado
- Amostragem de Bola de Neve
Os elementos da amostra são identificados inicialmente e, em seguida, sugerem novos elementos
para a amostra (clientes com crédito à habitação sugerindo amigos nas mesmas condições)
Variáveis de medida
Variável: Formalmente a definição de variável é uma entidade estatística cuja manifestação
assume pelo menos dois atributos. Pode
ser qualitativa ou quantitativa e normalmente é representada por x, y, z
Variáveis qualitativas
- Nominal
Qualidades onde não é possível estabelecer qualquer tipo de ordenação entre as mesmas
- Ordinal
Categorias/qualidades onde é possível estabelecer uma determinada ordem através segundo
uma relação descritível, mas não quantificável -> é possível ordenar, mas não quantificar (Estatuto
socioeconómico, risco de incêndio, grau de satisfação, nível de dor)
Variáveis quantitativas
- Intervalares
Valores mensuráveis que podem ser discretos ou contínuos, apresentando distâncias fixas entre os
valores na escala. No entanto, essas escalas não possuem um zero absoluto (QI, temperatura). Ou
seja, embora as diferenças entre os valores sejam consistentes, a ausência de um zero absoluto
implica que zero não indica a completa ausência da característica medida
- Razão
Valores mensuráveis que podem ser discretos ou contínuos, apresentando distâncias fixas entre os
valores na escala, incluindo um zero absoluto (velocidade, peso e altura). A presença de um zero
absoluto nessas escalas significa que o zero indica a ausência completa da característica medida,
tornando essas variáveis mais robustas para análises e interpretações numéricas.
Estatística descritiva e Representação Gráfica
Estatística Descritiva
Pretende descrever os dados. Quando temos bases de dados com muitas observações não as
conseguimos compreender sem algum tipo de resumo. Por isso, precisamos de ferramentas que nos
permitam resumir e descrever os dados
Importante: Como em qualquer resumo perdemos informação e às vezes pode ser informação
importante. O que devemos fazer é olhar para
diferentes resumos dos dados, que nos informam sobre aspetos diferentes, para chegar a um meio
termo entre simplicidade e nível de detalhe
• Frequência
Informam-nos sobre o total ou a percentagem de observações com um determinado valor. São
geralmente organizadas em tabelas de frequências.
Frequência Absoluta (ni) – quantidade – total de observações com um determinado valor
Frequência Relativa (fi) – percentagem de observações
Acumuladas:
(necessário ordenar os valores da variável por ordem crescente – só devem ser usadas para
variáveis qualitativas ordinais ou superiores)
Absoluta (NI): Soma das frequências absolutas até um determinado valor
Relativa (FI): Soma das frequências relativas até um determinado valor
Não seria possível calcular frequências acumuladas para variáveis nominais uma vez que não é
possível ordenar
Seria relativamente fácil realizar a mesma tabela para variáveis quantitativas discretas (que só
assumem valores inteiros)
• Medidas de dispersão
Estimar o quão distantes os dados estão uns dos outros (quão dispersos estão). Acabam por ser
medidas da largura da distribuição
- Amplitude
Diferença entre o máximo e o mínimo de observadores -> A = max – min
Exemplo: 50, 1, 6, 18, 39
➔ 50 - 1 = 49
Pode ser calculada para variáveis qualitativas ordinais ou superiores
- Amplitude interquatilica
Diferença entre o quartil 3 e o quartil 1 -> AIQ = Q3 – Q1
Exemplo: Q1 = 3,5, Q2 = 6, Q3=8,5
Pode ser calculada para variáveis ordinais ou superiores
- Desvio padrão
É a raiz da média de distâncias quadradas de cada participante à média. Diz nos quão distantes
as observações tendem a estar na média. Geralmente, valores elevados indicam que as pessoas
diferem muito umas das outras. Tal como a media, esta na mesma unidade de medida que a
variável.
Assim como a media é muito sensível e pouco robusto a valores extremos
Variável quantitativa e ordinal
• Medidas de forma
A distribuição de um conjunto de observações, alem do ponto central e da dispersão, pode ainda
ser caracterizada quanto à sua forma
- Simetria/assimetria – enviesamento – skewness (sk)
Desejabilidade social
Assimétrica à direita (enviesada à esquerda)
➔ Enviesamento positivo (sk>0)
➔ Cauda para a direita e centro para a esquerda
Simétrica
➔ Sem assimetria (sk = 0)
➔ Entre -3 e 3 é considerado simétrica
Assimétrica à esquerda (enviesamento à direita)
➔ Enviesamento negativo (sk < 0)
➔ Cauda para a esquerda e centro para direita
A sk pode ser calculada para variáveis quantitativas ordinais ou superiores
- Achatamento – kurtosis (ku)
Leptocúrtica (ku > 0)
Distribuição muito próxima do ponto central
Mesocúrtica (ku = 0) –> de -7 a 7
Platicúrtica (ku < 0)
Distribuição afastada do ponto central
Distribuição de probabilidade
Definição – tabela ou função que indica a probabilidade de ocorrência de um ou vários eventos
de uma variável aleatória (v. a.). Ou seja, é algo que representa a probabilidade para cada
possível evento de um v. a.
➔ v.a. discreta – se os valores possíveis forem valores discretos (valores finitos ou infinitos
• Com estas variáveis podemos estudar a probabilidade de ocorrer um evento específico ou
estudar a probabilidade de certos intervalos de valores.
• É um valor exato
• Utiliza-se normalmente o gráfico de barras
• Exemplos - se alguém cai ou não das escadas; probabilidade de reportar “muitíssimo” numa
escala sobre depressão)
➔ v.a. contínua – se os valores possíveis forem valores contínuos (valores finitos ou infinitos)
• Com estas variáveis podemos apenas falar na probabilidade de um evento estar dentro de um
determinado intervalo de valores.
• Pode conter várias casas decimais.
• Utiliza-se normalmente o gráfico com intervalos infinitesimais (gráfico de densidade).
• Exemplos - Qual a probabilidade de uma pessoa ter entre 82kg e 83kg?; Qual a probabilidade
de uma pessoa ter 75 kg ou menos?)
Distribuição binomial
➔ Aplicada a variáveis aleatórias discretas.
➔ Indica a probabilidade de sucessos (p) esperados num conjunto de ensaios/tentativas (n).
➔ Verifica-se quando a experiência em causa tem apenas 2 eventos possíveis (sim ou não,
feminino ou masculino; grávida ou não grávida) Isto é conhecido como ensaio/experiência de
Bernoulli
➔ A probabilidade do “target/sucesso” (resultados de interesse) em cada ensaio é representado
por p. A probabilidade do outro resultado (insucesso) é representado por q. O n representa o
número de observações
➔ Propriedades gerais
•p=1–q
•p+q=1
•q=1–p
➔ A média (ou proporção esperada de sucessos) é representado por:
E(X) = n x p
➔ Já a variância é representada por:
V(X) = n x p x q
Neste cenário, 2 em cada 10 pessoas toma medicação antidepressiva. Logo p = 2/10 = 0.2
Além disto, todos os problemas envolvem recolher 80 pessoas. Logo n = 80
podemos invocar o TLC e dizer que a média da nossa amostra segue provavelmente uma
distribuição aproximadamente normal:
➔ É importante que se trate de uma amostra simétrica e com um achatamento pouco elevado.
➔ Através do TLC é possível obter uma precisão sobre a estatística estudada
➔ Além disto, esta propriedade permite-nos, sabendo a média e desvio padrão da população, fazer
estimativas sobre a média que esperamos obter (e com que confiança) quando recolhemos novas
amostras.
Introdução à estatística inferencial
A estatística inferencial permite-nos, a partir da nossa amostra, estimar o valor de parâmetros
(Teoria da Estimação) e tomar decisões (com recurso a testes de hipóteses) relativas a esses
mesmos parâmetros na população teórica (Teoria da Decisão)
Nota: Da filosofia sabemos que inferência diz sempre respeito a generalizar a partir dum caso
específico para algo mais geral.
Em estatística queremos generalizar de uma dada amostra que recolhemos para uma população
que queremos estudar. Se o nosso interesse fosse apenas na amostra, não precisaríamos de
estatística inferencial, apenas descritiva.
Teoria da Estimação
Teoria da Estimação – visa estimar parâmetros populacionais a partir de estimativas amostrais,
utilizando estimadores apropriados.
➔ Estimação pontual
Infere-se o valor do parâmetro na população com base no valor da estatística obtida numa ou
em várias amostras representativas. Pode ser tão simples como que estimar a média
populacional é 4 porque a média amostral é 4.
Nível de significância – percentagem de erro – ex: 0,05%
Nível de confiança – o que sobra do erro – ex: 99,95%
Problema! – não possui nenhum grau de certeza associado à estimativa obtida. Diferentes
amostras conduzem a diferentes estimativas do parâmetro populacional que é único.
➔ Estimação intervalar
Estima-se o valor dos parâmetros populacionais com recurso a intervalos de confiança (IC), ou
seja, um IC é uma estimativa estatística que fornece um intervalo de valores dentro da qual é
razoável supor que o verdadeiro valor de um parâmetro desconhecido esteja.
A amplitude desse intervalo dá-nos uma ideia da precisão da nossa estimação. Quanto mais
variabilidade (pouco N) (erro de medida, diferenças interpessoais…) maior o intervalo, logo
menos precisa é a estimativa.
• Se já estimamos o IC:
Margem de Erro = metade da amplitude do IC
Ou seja
Margem de Erro = (Limite Superior – Limite Inferior) / 2
NOTA!
Todos os pontos negros têm o 0 incluído
Os vermelhos não têm
Gráfico 1 e 3 – 5 valores não têm o zero incluído – 5 em 100 logo 95% de IC!
Como estimar parâmetros populacionais no JASP - Média
Teoria da Decisão
Teoria da Decisão – Toma-se decisões relativas aos parâmetros populacionais, a partir das
observações amostrais
➔ Testes de hipóteses – é um procedimento estatístico que nos permite decidir sobre a
plausibilidade de hipóteses relativas a parâmetros populacionais a partir de amostras
representativas da população do estudo. Essas decisões são tomadas com um determinado
nível de confiança ou probabilidade de erro.
Ou seja, não conseguimos ter a certeza que foi decidido corretamente, mas recorremos a
procedimentos que controlam erros, dando-nos alguma confiança na decisão tomada (95%)
Nesta UC apenas são importantes as abordagens de Fisher e Neyman-Pearson (frequências
clássicas)!
Ex. Os alunos de psicologia não têm scores Ex. Os alunos de psicologia têm scores no
no STICSA diferentes dos alunos de direito STICSA diferentes dos alunos de direito
Nota! Nos exercícios fala-se sempre em rejeitar ou não rejeitar H0, nunca rejeitar H1!
• Se a E.T. for um valor elevado, então a média observada na amostra (x̅) é muito diferente
da média da população (μ) prevista pela H0. Logo, rejeitamos H0.
• Se a E.T. for um valor pequeno, então a média observada na amostra (x̅) não é muito
diferente da média da população (μ) prevista pela H0. Logo, não rejeitamos H0.
3. Decidir
Existem 2 formas:
Esta região da distribuição amostral designa-se por região de rejeição do teste ou região
crítica do teste
Ou
Nota! a -> proporção máxima de falsos positivos que estamos dispostos a aceitar. É a
probabilidade de eu rejeitar H0 quando ela é verdadeira = P (erro tipo I)
Contudo a decisão de rejeitar H0 pode estar errada:
Decisão do teste
Rejeitar H0 Não rejeitar H0
tipo II) = B
(potencia do teste)
População
Erro tipo I
Decisão correta
(efeito detetado, mas
Sem efeito presente! (o efeito não existe e
não existe)
(H0 é verdadeira) não foi detetado)
Probabilidade (erro
Probabilidade = 1 - a
tipo I) = a