Escolar Documentos
Profissional Documentos
Cultura Documentos
“Saber o que medir e como o medir transforma um mundo complicado num mundo
muito menos complicado.
Se aprendermos a olhar para os dados de forma certa, conseguimos explicar enigmas
que, caso contrário, podiam parecer impossíveis de resolver. Porque não há nada
como o poder cristalino dos números para limpar camadas de confusão e
contradições.”
Levitt & Dubner (2011) in Freakonomics
https://www.ted.com/talks/alan_smith_why_we_re_so_bad_at_statistics/transcript?langua
ge=en#t-11108
É objetivo da Estatística extrair informação dos dados para obter uma melhor
compreensão das situações que representam.
ØEstatística Descritiva
ØInferência Estatística
Torna-se importante, por isso saber interpretar de forma crítica as tabelas, gráficos e medidas
calculadas. Sendo esse o objectivo primordial desta unidade curricular.
Por vezes é designada, também, por Estatística indutiva – parte do particular (amostra) para o
geral (população).
Os métodos que constituem a Inferência Estatística permitem, por exemplo, prever a duração de
um equipamento (com base no desempenho de muitos desses equipamentos), comparar a
eficiência de duas dietas para reduzir o peso, ou comparar a eficiência de dois combustíveis no
funcionamento de um motor, ou até para prever o fluxo de tráfego numa auto-estrada que ainda
não foi construída (com base no tráfego observado no passado em vias alternativas).
Ø Representar
Recolha de dados
Distribuições de frequências
Previsão Organização e
apresentação
Histogramas
Análise de Regressão
Tendência Central
Inferência Medidas
Estatística descritivas
Exemplo
Considere-se esta turma:
uma variável a estudar pode ser a altura dos alunos desta sala;
então podemos definir classes de alturas, os atributos: alto, médio, baixo;
o valor poderá ser altura de cada um em cm;
ainda podemos estabelecer uma relação de ordem, por exemplo, entre as alturas, sendo possível organizá-las
por ordem crescente ou decrescente, por exemplo.
Escala nominal: quando os dados estão divididos por categorias que não possuem ordem. Ou
seja, quando cada um dos dados for identificado pela atribuição de um nome que designa uma
classe. As classes podem, também, ser designadas por números. No entanto, para que a escala
seja nominal não se poderá estabelecer qualquer relação de ordem entre tais números.
Exemplos:
Classificação de pessoas pela cor do cabelo: preto, castanho, branco, loiro, etc.
Classificação dos consumidores de bens de primeira necessidade pelo sexo: feminino ou
masculino.
Classificação dos consumidores, pelo género, no âmbito de um programa de computador (por ex.
o SPSS): 0 (feminino) ou 1 (masculino).
Escala ordinal: quando os dados estão divididos por categorias que obedecem a uma
sequência com significado. Ou seja, a ordem das classes é relevante.
Exemplos:
Classificações obtidas pelos alunos num teste de estatística: mau, medíocre, suficiente,
bom ou muito bom.
Classificação dos clientes segundo o volume de encomendas que colocam: clientes A
(muito importantes), B (importantes) ou C (menos importantes).
Variáveis contínuas: podem tomar um número infinito não numerável de valores. Ou seja,
podem assumir qualquer valor dentro de um intervalo de números reais.
Exemplo: temperatura do ar, volumes de investimento, expressos em milhares de euros.
Tipos de Dados
Qualitativos Quantitativos
R project https://www.r-project.org/
Microsoft Excel
Nº de indivíduos 10 nº de variáveis 8
23
AIB & AIC <MGP> 2022/2023
Análise descritiva
-Frequências
-Medidas descritivas
-Explorador de dados
-Tabelas de referência
cruzada
- QQPlots
26
AIB & AIC <MGP> 2022/2023
Tabelas de Frequência no SPSS
Frequency
Frequência Absoluta (ni)
Percent
Frequência relativa (fi) em %
Valid percent
Frequência relativa válida em %
Cumulative percent
Frequência relativa acumulada em
%
Analyse → Descriptive Statistics → Frequencies
27
AIB & AIC <MGP> 2022/2023
Análise descritiva
-Frequências
-Medidas descritivas
-Explorador de dados
-Tabelas de referência
cruzada
- QQPlots
Fonte: ICNF, 2013. IFN6 – Áreas dos usos do solo e das espécies florestais de
Portugal continental. Resultados preliminares. [pdf], 34 pp, Instituto
da Conservação da Natureza e das Florestas. Lisboa.
Gráfico de barras – diagrama de barras, sendo cada barra associada a cada uma das
categorias da variável. A altura das barras é determinada pelas frequências absolutas ou
relativas.
Medidas de assimetria
Média
Mediana
åx i
x1 + x2 + ... + xn
x= i =1
=
Ø Vantagens: n n
– Utiliza toda a informação disponível e pode ser calculada com precisão matemática.
Ø Desvantagens:
– É influenciada por valores extremos (outliers) que tomam um peso significativo no cálculo da média;
Moda (Mo) é o valor da variável ao qual corresponde uma maior frequência (absoluta ou relativa). É o
valor mais comum.
Dados agrupados
Vantagens
§ É pouco sensível a valores extremos (outliers). Assim, é mais indicativa de valores típicos do que
a média.
Desvantagens
§ Tem pouco (ou nenhum) significado para um número pequeno de observações. Neste caso,
muito frequentemente, não existe moda, porque os valores não se repetem.
A mediana é o valor que divide a distribuição dos dados (ordenados por ordem crescente ou
decrescente) em duas partes iguais.
𝑥 ! +𝑥 !
$ $ %&
, 𝑠𝑒 𝑛 𝑝𝑎𝑟
𝑥$ = 2
𝑥 ! , 𝑠𝑒 𝑛 í𝑚𝑝𝑎𝑟
$ %&
Resolução:
Vantagens
§ É pouco sensível a valores extremos (outliers). Assim, é mais indicativa de valores típicos do que
a média.
Desvantagens
§ Para calcular a mediana é necessário ordenar as observações, o que se pode tornar numa
operação bastante complexa.
Mediana
Moda
Média
Mediana
Média
Moda
Os Quartis dividem um conjunto de dados, preparados em ordem crescente, em 4 partes iguais (com o
mesmo número de observações).
O 1.º Quartil (Q1) é o valor que divide a amostra em duas partes, de tal modo que 25% das observações
sejam inferiores ou iguais a esse valor e 75% das observações sejam superiores ou iguais a esse valor.
O 2.º Quartil (Q2) é o valor que divide a amostra em duas partes, de tal modo que 50% das observações
sejam inferiores ou iguais a esse valor e 50% das observações sejam superiores ou iguais a esse valor.
O 3.º Quartil (Q3) é o valor que divide a amostra em duas parte, de tal modo que que 75% das
observações sejam inferiores ou iguais a esse valor e 25% das observações sejam superiores ou iguais a
esse valor.
Representação gráfica que permite avaliar a tendência central, dispersão e padrão de assimetria de um conjunto de
dados, com base em medidas resistentes.
Consiste:
–Numa medida de tendência central (ex: a mediana)
–Num rectângulo central para representar a dispersão das observações típicas (ex: observações entre o 1º e o 3º
quartil)
–Em duas barras verticais para representar a totalidade, ou a maioria, das observações (ex: amplitude total ou
amplitude das observações não identificadas como “outliers”)
Notas:
-O padrão de assimetria para as observações típicas pode avaliar-se comparando as distâncias dos dois limites do
rectângulo central à medida de localização.
-Valores “demasiado distantes” (ex: valores a uma distância da mediana superior a 2,5 * AIQ) do rectângulo central são
por vezes considerados como “outliers” e representados isoladamente
Um “outlier” é uma observação anómala, i.e. uma observação cujo valor está claramente
em contradição com o padrão dominante nos restantes dados
Um outlier pode ser o resultado de erros na recolha dos dados, podendo distorcer a sua
interpretação e exercer uma influência excessiva sobre várias medidas sumárias, tais como
a média ou o desvio padrão.
Quando um outlier corresponde a um valor correctamente observado ele pode ser
particularmente importante e revelador, uma vez que ele sugere um comportamento
extremo ou uma alteração no processo gerador de dados. Por essa razão os outliers devem
ser cuidadosamente examinados antes de se recorrer à análise do conjunto completo de
dados.
Os outliers não devem ser eliminados automaticamente sem qualquer justificação.
Os outliers moderados encontram-se entre 1,5 e 3 amplitudes interquartis para baixo do primeiro
quartil ou para cima do terceiro quartil.
Os outliers severos encontram-se para valores superiores ou iguais a 3 amplitudes inter-quartis para
baixo do primeiro quartil ou para cima do terceiro quartil.
𝑥" ≤ 𝑄! − 3. 𝐴𝐼𝑄
Ou se
𝑥" ≥ 𝑄# + 3. 𝐴𝐼𝑄
No gráficos boxplot no SPSS: Os outliers moderados são representados por círculos, enquanto que os
severos são respresentados por um asterisco.
Interpretação:
§ Na segunda parte 100 x (p – 1)% dos elementos são maiores ou iguais a Pp.
Observações:
1.º Q = P25
3.º Q = P75
A = máximo - mínimo
Amplitude interquartil, AIQ, é a diferença entre a o 3.º Quartil e o 1.º Quartil. Corresponde a um intervalo que
engloba 50% das observações centrais:
AIQ = Q3 - Q1
å ( xi - x ) 2
å i
( x - x ) 2
Nota: quando a amostra
s =
2 i =1 s' =
2 i =1
é pequena deve
n n -1 calcular-se a variância
corrigida.
Variância não corrigida Variância corrigida
O Desvio Padrão (s) indica a proximidade com que os valores estão agrupados à volta da média, e ao contrário
da variância está expresso nas mesmas unidades da variável.
Um valor pequeno do desvio padrão significa que as observações estão pouco espalhadas (pouco dispersas) à
volta da média.
s= s 2 s ' = s '2
Desvio padrão não corrigido Desvio padrão corrigido
Medidas de
Tendência
Central
Quartis e
Percentis
e
e l ad s
Tab ência Medidas de Dispersão
u
freq
Analyse → Descriptive Statistics → Frequencies → Statistics (e selecionar)
60
AIB & AIC <MGP> 2022/2023
Output
frequências
Tabela de
Distribuição
Assimetria
Curtose ou achatamento
Analyse → Descriptive Statistics → Frequencies → Statistics (e selecionar)
62
AIB & AIC <MGP> 2022/2023
Medida de assimetria
As medidas de localização central e as medidas de dispersão embora forneçam informação importante, são
insuficientes para uma caracterização da distribuição de frequências.
A medida de assimetria sintetiza até que ponto uma distribuição de frequências é enviesada ou assimétrica
(sem necessitar de calcular a média, a moda e a mediana) e permite comparar distribuições diferentes.
65
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Distribuições de dados aproximadamente simétricas
(ou distribuições aproximadamente normais)
66
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Assimetria (Skewness)
É uma medida que caracteriza a assimetria da função de
probabilidade.
12345366
𝐺 = 178. :;;<; <= 12345366
+,-./010
𝐾 =
2.3.5--/- /6 +,-./010
68
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
distribuição leptocúrtica
distribuição mesocúrtica
distribuição platicúrtica
69
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Para que uma distribuição se possa assumir como normal, os valores dos coeficientes
descritos devem ser próximos de zero, i. e., dentro de um intervalo ]-0,5;0,5[ (ver por
exemplo Runyon et. al., 1996).
Sempre que os valores absolutos destes coeficientes sejam superiores a 1, pode assumir-se
que a distribuição em causa não é do tipo normal.
Contudo, Kline (1998) refere estudos, de simulação de Monte Carlo, segundo os quais valores
absolutos de assimetria e achatamento inferiores a 3 e a 7 respetivamente, não são
problemáticos em análise de modelos lineares generalizados (como por exemplo a ANOVA ou
Regressão Linear) que apresentam como pressuposto a distribuição normal dos resíduos dos
modelos.
In Página 22
João Maroco (2011). Análise Estatística com o SPSS Statistics, ReportNumber, Pero Pinheiro.
Kline, R. B. (1998). Principles and Practice of Structural Equation Modeling, Guilford Press, New York.
Runyon, R. P., Haber, A., Pittenger, D. J. & Coleman, K. A. (1996). Fundamentals of Behavioral Statistics, McGraw-Hill, New-York.
70
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Coeficiente de assimetria
𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
𝐺 =
𝑆𝑡𝑑. 𝐸𝑟𝑟𝑜𝑟 𝑜𝑓 𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
',)*'
= ≈0,823
',+&+
Coeficiente de Curtose
𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
𝐾 =
𝑆𝑡𝑑. 𝐸𝑟𝑟𝑜𝑟 𝑜𝑓 𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
',),*
= ≈0,41
&,-
71
AIB & AIC <MGP> 2022/2023
Análise descritiva
-Frequências
-Medidas descritivas
-Explorador de dados
-Tabelas de referência
cruzada
- QQPlots
- ou na prática…
74
AIB & AIC <MGP> 2022/2023
Gráficos
75
AIB & AIC <MGP> 2022/2023
Valores Omissos (Missing Values)
Os dados omissos podem ser problemáticos para os investigadores e resultam
principalmente de erros na recolha ou entrada de dados ou da omissão de
respostas pelos entrevistados.
A classificação dos dados ausentes e os motivos subjacentes à sua presença são
abordados por meio de uma série de etapas que não apenas identificam os
impactos dos dados omissos, mas também fornecem soluções para lidar com
eles na análise.
O desafio do investigador é abordar as questões levantadas pela falta de dados
que afetam a generalização dos resultados.
76
AIB & AIC <MGP> 2022/2023
Valores Omissos (Missing Values)
Principais tipos de mecanismos de dados omissos:
- MCAR (missing completely at random): a omissão não está relacionada às
variáveis (dependentes ou independentes). Isso significa que a causa que
levou aos dados omissos é um evento aleatório. Por exemplo, quando a
falta da informação se deveu à perda de acompanhamento do paciente em
virtude de ele ter mudado de residência por motivos totalmente alheios ao
estudo;
- MAR (missing at random): a omissão pode depender do que é observado
(variáveis dependentes ou independentes), mas ela não depende dos
valores que faltam. Neste caso os dados omissos são causados por alguma
variável observada, disponível para análise e correlacionada com a variável
que possui dados omissos.
- MNAR (missing not at random): a omissão depende também do que não é
observado. Nesse caso, as variáveis observadas não explicam
completamente a omissão dos dados.
77
AIB & AIC <MGP> 2022/2023
Valores Omissos (Missing Values)
78
AIB & AIC <MGP> 2022/2023