Retiramos uma amostra de uma população e realizamos uma inferência estatística acerca da
mesma.
Estatística descritiva sumariar e descrever atributos mais proeminentes de um determinado
conjunto de dados;
Estatística inferencial caraterizar o todo (população) a partir da parte (amostra).
Natureza das variáveis
Quantitativa: assume valores intrinsecamente numéricos, podendo ser discretas - conjunto
finito ou infinito numerável (ex. nº de AVCs) – ou contínuas – assumem valores em intervalos reais (ex. comprimentos, pesos, tempos);
Qualitativa: valores intrinsecamente não numéricos (ex. região de proveniência)
Escalas de medida de uma variável
Métrica: de razões – valores possuem ordem e diferenças têm significado, representando o 0 a
ausência de caraterística (ex. nº de filhos de um casal, comprimento, peso) – ou de intervalos – não existe ponto nulo natural e múltiplos valores não possuem significado (ex. diferentes escalas de temperatura);
Ordinal: valores possuem ordem intrínseca (ex. classificação de um serviço de 1 a 5, grupos
etários);
Nominal: valores não possuem ordem intrínseca (ex. grupo sanguíneo, sexo)
Organização dos dados – tabelas de frequências, em que normalmente são calculadas
frequência absoluta, relativa e cumulativa.
Interpretação:
1. Em 52 dias foram contabilizadas 3
ocorrências da doença A.
2. Em 84,8 por cento dos 257 dias
contabilizados, ocorreram 3 ou menos ocorrências da doença A.
Medidas amostrais > de localização, dispersão ou forma.
Localização/ Tendência Central
média - centro de massa dos valores das observações;
mediana - observação central da amostra ordenada, significa que pelo menos 50% dos dados são inferiores ou iguais e superiores ou iguais a 50% de me. Se a amostra possui dimensão ímpar, corresponde à observação central, se a amostra possui dimensão par, corresponde à média das duas observações mais centrais. moda – valor mais frequente de uma amostra, pode ser usado em dados numa escala nominal. Não possui significado em dados de natureza contínua ou em discretos com poucas observações repetidas. média aparada
Localização Relativa – mínimo, máximo, quantil
Dispersão
amplitude – diferença entre o máximo e o mínimo.
variância (s^2) – média dos quadrados dos desvios das observações em relação à média da amostra, sendo geralmente considerada a variância corrigida. desvio padrão (sc) – raiz quadrada da variância. tanto este como a variância podem ser fortemente afetados por erros ou observações extremas. coeficiente de variação (v) – razão entre o desvio padrão e a média (sc/X_). Trata-se de uma medida de dispersão relativa que não possui unidade, sendo lida como percentagem e utilizada para comparar 2 ou mais grupos (<0.1 baixo, 0.1-0.2 médio, 0.2-0.3 alto, >0.3 muito alto) distância interquartil (H) – intervalo interquartis [Q1,Q3] (50% das observações, as mais centrais). distância interquartil – diferença entre Q3 e Q1.
Forma
Avaliação por simetria ou assimetria. Uma distribuição possui assimetria positiva/negativa,
quando existe uma concentração de valores na zona de valores mais reduzidos/elevados da amostra.
Assimetria positiva: moda < mediana < média
Assimetria negativa: média < mediana < moda
Simetria pura: média = mediana = moda
Simetria aproximada: média ~ mediana ~ moda
Coeficiente de assimetria (skewness) - assume o valor zero quando a distribuição de
frequências da amostra é completamente simétrica e assume valores diferentes de zero quando a distribuição não é simétrica.
Se Standard Error of Skewness: |skewness/ std. error of skewness| > 2, a assimetria é