Aula - AIB1 - 2022 - 2023

Métodos de Técnicas de Investigação
o Introdução aos conceitos de estatística: População, Amostra, classificação de

variáveis, medidas de tendência central, dispersão, distribuição normal,
assimetria e curtose, tratamento de valores omissos, identificação de outliers;
o Análise Exploratória de dados com recurso ao SPSS: representações tabulares,
representações gráficas .
AIB & AIC <MGP> 2022/2023 1

Porquê Estatística?
“Saber o que medir e como o medir transforma um mundo complicado num mundo
muito menos complicado.
Se aprendermos a olhar para os dados de forma certa, conseguimos explicar enigmas
que, caso contrário, podiam parecer impossíveis de resolver. Porque não há nada
como o poder cristalino dos números para limpar camadas de confusão e
contradições.”
Levitt & Dubner (2011) in Freakonomics
https://www.ted.com/talks/alan_smith_why_we_re_so_bad_at_statistics/transcript?langua
ge=en#t-11108
AIB & AIC <MGP> 2022/2023 2

Conceito de Estatística.
Ramo da Matemática Aplicada que inclui os instrumentos necessários para recolher,

organizar ou classificar, apresentar e interpretar conjuntos de dados.
De um modo geral, a Estatística procura estudar uma ou várias características de uma

população tendo por base um conjunto de métodos que permite a recolha, classificação,
apresentação e interpretação dos dados sobre o fenómeno em estudo.
É objetivo da Estatística extrair informação dos dados para obter uma melhor
compreensão das situações que representam.
AIB & AIC <MGP> 2022/2023 3

Porquê Estatística?
Descrever e compreender relações entre as variáveis: a quantidade de informação

recolhida cresce tão rapidamente que se torna imprescindível tomar decisões
corretas.
Tomar melhores e rápidas decisões: como a informação disponível está geralmente
associada a um elevado grau de incerteza, a estatística é fundamental para tirar
conclusões válidas a partir de informação incompleta.
Necessidade de planear as ações a empreender no futuro: tornam-se importantes
métodos estatísticos de previsão de acontecimentos futuros medindo as variações
atuais e estabelecendo os cenários futuros mais prováveis.
Na biologia, medicina, genética, meteorologia, balística, economia, etc. a
experimentação não é geralmente possível de ser efetuada de uma forma
totalmente rigorosa. Assim, não é possível repetir observações em condições
idênticas ou fazendo variar apenas um parâmetro mantendo fixos os restantes de
forma a estudar os efeitos de uma única variação.
AIB & AIC <MGP> 2022/2023 4

Cuidados a ter no tratamento de dados
§ Os dados deverão ser medidos sempre de igual modo. Assim, se se quiser comparar
pesos dever-se-á usar sempre a mesma balança. De outra forma os resultados e
conclusões poderão estar errados.
§ As hipóteses deverão ser formuladas previamente à recolha das amostras. De outra
forma os resultados poderão vir enviesados.
§ Não confundir correlação com causalidade. A estatística poderá acusar a existência de

uma eventual associação entre variáveis, mas isso não implica uma relação de
causalidade.
§ Um bom conhecimento da matéria em análise acompanhado dum enquadramento

correto do problema é fundamental para, por exemplo, eliminar possíveis associações em
que há uma ou mais variáveis causais escondidas que conduzem a correlações
estatisticamente significativas.
AIB & AIC <MGP> 2022/2023 5

População e Amostra:
Ao grupo de todos os elementos que se pretende estudar e que possuem uma
característica (ou mais) em comum chama-se população.
No entanto, nem sempre é viável inquirir todos os elementos de uma população

(população de grande dimensão, custo excessivo do processo de recolha e tratamento dos
dados, inacessibilidade a alguns dos elementos da população). Como tal, seleciona-se um
subgrupo da população para análise, designado por amostra.
As medidas relativas à amostra designam-se por estatísticas. O valor dessas estatísticas
varia de amostra para amostra, não sendo constante. Ou seja, é uma variável aleatória
(v.a.). As medidas relativas a uma população designam-se por parâmetros.
Ou seja, o termo estatística é utilizado para referir dois conceitos diferentes, conforme se utiliza no
singular ou no plural:
Estatísticas - é sinónimo de factos ou dados numéricos;
Estatística - constitui um objeto de estudo, uma ciência e compreende, um conjunto de princípios e

métodos de recolha, classificação, síntese e apresentação de dados numéricos.
AIB & AIC <MGP> 2022/2023 6

AIB & AIC <MGP> 2022/2023 7
Subáreas da estatística:
Essencialmente, podemos dividir a Estatística em duas áreas:
ØEstatística Descritiva
ØInferência Estatística
AIB & AIC <MGP> 2022/2023 8

Estatística Descritiva
Conjunto de técnicas apropriadas para recolher, organizar, reduzir e apresentar dados
estatísticos. Sintetizando, no âmbito da estatística descritiva, procura-se sintetizar e representar
de forma compreensível a informação contida num conjunto de dados. Esta tarefa materializa-se
na construção de tabelas, gráficos, ou no cálculo de medidas que representem
convenientemente a informação contida nos dados – as estatísticas.
Torna-se importante, por isso saber interpretar de forma crítica as tabelas, gráficos e medidas
calculadas. Sendo esse o objectivo primordial desta unidade curricular.
Embora a estatística descritiva seja um ramo importante da estatística amplamente utilizada, as

informações estatísticas são obtidas quase sempre de amostras, e isso significa que a sua análise
exige generalizações para além dos dados. Daí a crescente necessidade de partir de métodos
meramente descritivos para métodos que servem para fazer generalizações – a Inferência
estatística.
AIB & AIC <MGP> 2022/2023 9

Inferência Estatística
Procura retirar conclusões para a população em geral, com base na análise dos resultados obtidos
para um ou mais subconjuntos (amostras). Trata-se de um conjunto de técnicas que permite
caracterizar uma população, requerendo o conhecimento das probabilidades. As principais
técnicas utilizadas são a Estimação – que visa determinar o valor dos parâmetros desconhecidos
(da qual se pode destacar, por exemplo, os intervalos de confiança) - e os Testes de Hipóteses -
que visa testar suposições acerca das características de uma certa população.
Por vezes é designada, também, por Estatística indutiva – parte do particular (amostra) para o
geral (população).
Os métodos que constituem a Inferência Estatística permitem, por exemplo, prever a duração de
um equipamento (com base no desempenho de muitos desses equipamentos), comparar a
eficiência de duas dietas para reduzir o peso, ou comparar a eficiência de dois combustíveis no
funcionamento de um motor, ou até para prever o fluxo de tráfego numa auto-estrada que ainda
não foi construída (com base no tráfego observado no passado em vias alternativas).
AIB & AIC <MGP> 2022/2023 10

Síntese:
Estatística Descritiva Inferência Estatística
Ø Recolher Ø Prever valores dos parâmetros da

população
Ø Organizar
Ø Testar hipóteses sobre os valores
Ø Sumariar dos parâmetros da população
Ø Analisar Ø Tomar decisões
Ø Representar
AIB & AIC <MGP> 2022/2023 11

Método Estatístico
Recolha de dados
Distribuições de frequências
Previsão Organização e
apresentação
Histogramas
Análise de Regressão
Tendência Central
Inferência Medidas
Estatística descritivas
Testes de Hipóteses Dispersão
AIB & AIC <MGP> 2022/2023 12

Conceito de variável. Classificação de variáveis:
Em qualquer estudo estatístico é necessário definir a unidade estatística, ou elemento
(qualquer indivíduo, objecto ou fato que é objeto da observação ou das conclusões) e o
que se pretende estudar sobre ela - características.
Dado estatístico – resultado da observação das unidades estatísticas que compõem um

determinado conjunto.
Variável – característica relativa a todos os indivíduos (ou unidades estatísticas)

observados. O valor desta característica varia com as observações.
AIB & AIC <MGP> 2022/2023 13

O processo de medição tem 4 níveis:
• a variável ou característica que corresponde à propriedade que se pretende medir;

• 2
• o atributo ou categoria que corresponde ao grau que se manifesta a categoria medida;
• o valor que corresponde à forma numérica, se existir, de expressar o atributo;

• 4
• a relação que corresponde à ligação, se existir, entre os vários valores da variável.
Exemplo
Considere-se esta turma:
uma variável a estudar pode ser a altura dos alunos desta sala;
então podemos definir classes de alturas, os atributos: alto, médio, baixo;
o valor poderá ser altura de cada um em cm;
ainda podemos estabelecer uma relação de ordem, por exemplo, entre as alturas, sendo possível organizá-las
por ordem crescente ou decrescente, por exemplo.
AIB & AIC <MGP> 2022/2023 14

A natureza das variáveis pode ser de dois tipos: variáveis Qualitativas ou

Quantitativas.
AIB & AIC <MGP> 2022/2023 15

Variáveis Qualitativas (ou categóricas): os dados podem ser separados em diferentes categorias
que se distinguem por características não numéricas, podendo ser expressos em duas escalas
distintas: nominal e ordinal.
Escala nominal: quando os dados estão divididos por categorias que não possuem ordem. Ou
seja, quando cada um dos dados for identificado pela atribuição de um nome que designa uma
classe. As classes podem, também, ser designadas por números. No entanto, para que a escala
seja nominal não se poderá estabelecer qualquer relação de ordem entre tais números.
Exemplos:
Classificação de pessoas pela cor do cabelo: preto, castanho, branco, loiro, etc.
Classificação dos consumidores de bens de primeira necessidade pelo sexo: feminino ou
masculino.
Classificação dos consumidores, pelo género, no âmbito de um programa de computador (por ex.
o SPSS): 0 (feminino) ou 1 (masculino).
AIB & AIC <MGP> 2022/2023 16

Escala ordinal: quando os dados estão divididos por categorias que obedecem a uma
sequência com significado. Ou seja, a ordem das classes é relevante.
Exemplos:
Classificações obtidas pelos alunos num teste de estatística: mau, medíocre, suficiente,
bom ou muito bom.
Classificação dos clientes segundo o volume de encomendas que colocam: clientes A
(muito importantes), B (importantes) ou C (menos importantes).
AIB & AIC <MGP> 2022/2023 17

As variáveis de natureza qualitativa podem ainda ser classificadas em:
Dicotómicas – se existem apenas duas classes, duas categorias.

Exemplo: género (Masculino ou Feminino)
Politómicas – se existem três ou mais classes.

Exemplo: Estado Civil (solteiro, casado, divorciado ou viúvo)
AIB & AIC <MGP> 2022/2023 18

Variáveis Quantitativas (ou numéricas): números que representam contagens ou medições
e que podem ser classificadas como discretas ou contínuas.
Variáveis discretas: podem tomar um número finito de valores ou uma infinidade

numerável de valores.
Exemplo: resultados de 150 lançamentos de um dado. Número de pessoas que visita um
museu numa hora.
Variáveis contínuas: podem tomar um número infinito não numerável de valores. Ou seja,
podem assumir qualquer valor dentro de um intervalo de números reais.
Exemplo: temperatura do ar, volumes de investimento, expressos em milhares de euros.
AIB & AIC <MGP> 2022/2023 19

Esquematicamente temos:
Tipos de Dados
Qualitativos Quantitativos
Nominais Ordinais Discretos Contínuos
AIB & AIC <MGP> 2022/2023 20

Nota
§ Diferentes escalas de medida necessitam de diferentes métodos estatísticos para
descreverem e analisarem as variáveis.
§ A diferença entre uma escala por intervalos e uma escala de rácios nem sempre é
evidente, sendo por vezes estes dois tipos de escala agrupados numa só categoria.
§ Os dados nominais são os mais limitados em termos de técnicas estatísticas disponíveis
para análise.
§ Por sua vez, os dados ordinais poderão ser analisados com técnicas definidas para dados
em escalas por intervalos.
AIB & AIC <MGP> 2022/2023 21

Softwares Estatísticos:
IBM SPSS (Statistical Package for Social Sciences) http://www.spss.com.hk/
R project https://www.r-project.org/
Microsoft Excel
AIB & AIC <MGP> 2022/2023 22

Classificação de variáveis
Qualitativa Qualitativa Quantitativa Qualitativa Qualitativa

Quantitativas
nominal nominal contínua discretas nominal ordinal
Nº de indivíduos 10 nº de variáveis 8
23
AIB & AIC <MGP> 2022/2023
Análise descritiva
-Frequências
-Medidas descritivas
-Explorador de dados
-Tabelas de referência
cruzada
- QQPlots
Analyse → Descriptive Statistics…

24
AIB & AIC <MGP> 2022/2023
Representações tabulares de dados qualitativos ou quantitativos discretos
Tabela de frequências –Tabela que disponibiliza um acesso rápido ao número, à percentagem
ou proporção de elementos observados com uma determinada característica ou valor ou
intervalo de valores (denominadas classes de valores). Relaciona as k categorias ou classes de
valores com o número de ocorrências, ou frequências, de observações que pertencem a cada
categoria ou classe.
Nota: Para os dados qualitativos não se calculam as frequências (absolutas e relativas)

acumuladas (4.ª e 5ª colunas).
AIB & AIC <MGP> 2022/2023 25

Frequências
Frequência Absoluta (ni) - frequency

É o número de vezes que um dado estatístico foi observado.
Frequência absoluta acumulada (Ni)

É a soma das primeiras i frequências absolutas.
Frequência relativa (fi)

É o quociente entre a frequência absoluta e o número total N de observações, isto
!"
é, 𝑓𝑖 = #
Frequência relativa acumulada (Fi)

É a soma das primeiras i frequências relativas.
26
AIB & AIC <MGP> 2022/2023
Tabelas de Frequência no SPSS
Frequency
Frequência Absoluta (ni)
Percent
Frequência relativa (fi) em %
Valid percent
Frequência relativa válida em %
Cumulative percent
Frequência relativa acumulada em
%
Analyse → Descriptive Statistics → Frequencies
27
AIB & AIC <MGP> 2022/2023
Análise descritiva
-Frequências
cruzada
- QQPlots
Analyse → Descriptive Statistics…

28
AIB & AIC <MGP> 2022/2023
Exemplo: Numa amostra constituída por 120 peças, constatou-se que 100 não tinham
qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram irrecuperáveis (ou
seja, constituíam sucata).
Uma proposta de representação tabular destes dados qualitativos, de natureza nominal

(categorias não ordenadas), é a seguinte:
AIB & AIC <MGP> 2022/2023 29

Exemplo: Num estudo para analisar a ocorrência de acidentes de trabalho num
determinado hospital, em 397 profissionais de saúde verificou-se que 16 não sofreram
qualquer acidente, 32 tiveram 1 acidente, 89 reportaram 2 acidentes, 137 sofreram 3
acidentes, 98 4 acidentes e 25 profissionais reportaram 5 acidentes.
Uma proposta de representação tabular destes dados quantitativos discretos é a seguinte:
AIB & AIC <MGP> 2022/2023 30

Representações Gráficas de dados Univariados:
Resumidamente, os gráficos mais utilizados para a representação e melhor visualização
dos dados são:
AIB & AIC <MGP> 2022/2023 31

Gráfico circular – constituído por um circulo dividido em tantas fatias quanta as categorias
da variável. O tamanho das fatias é determinado pelo número ou percentagem/proporção
de observações nas categorias, i.e., pelas frequências absolutas ou pelas relativas.
Fonte: ICNF, 2013. IFN6 – Áreas dos usos do solo e das espécies florestais de
Portugal continental. Resultados preliminares. [pdf], 34 pp, Instituto
da Conservação da Natureza e das Florestas. Lisboa.
AIB & AIC <MGP> 2022/2023 32

Gráfico de barras – diagrama de barras, sendo cada barra associada a cada uma das
categorias da variável. A altura das barras é determinada pelas frequências absolutas ou
relativas.
AIB & AIC <MGP> 2022/2023 33

Gráfico de frequências acumuladas – gráfico de linhas onde são representadas as
frequências absolutas ou relativas acumuladas.
AIB & AIC <MGP> 2022/2023 34

Histograma – gráfico de barras adjacentes, com uma barra associada a cada uma das
classes da variável. A base de cada barra é proporcional à amplitude da respectiva classe e
a área é proporcional às frequências absolutas ou relativas.
AIB & AIC <MGP> 2022/2023 35

Polígono de frequências – gráfico de linhas onde são representadas as frequências
absolutas ou relativas, nos pontos médias das classes.
AIB & AIC <MGP> 2022/2023 36

Polígono de frequências acumuladas – gráficos de linhas onde são representadas

frequências absolutas ou relativas acumuladas.
AIB & AIC <MGP> 2022/2023 37

Representações Gráficas de dados Bivariados:
AIB & AIC <MGP> 2022/2023 38

Medidas descritivas
Sumariam características importantes das amostras.
Medidas de tendência central

Medidas de Localização
Medidas de tendência não central
Medidas descritivas Medidas de dispersão
Medidas de assimetria
AIB & AIC <MGP> 2022/2023 39

Medidas descritivas
As Medidas de tendência central tratam-se de medidas de localização, pois informam sobre a
localização de alguns valores importantes da distribuição, e representam os fenómenos pelos seus
valores médios, em torno dos quais tendem a concentrar-se os valores observados.
Média
Medidas de tendência central Moda
Mediana
AIB & AIC <MGP> 2022/2023 40

Média:
n
åx i
x1 + x2 + ... + xn
x= i =1
=
Ø Vantagens: n n
– Facilidade de interpretação e cálculo;
– Utiliza toda a informação disponível e pode ser calculada com precisão matemática.
Ø Desvantagens:
– É influenciada por valores extremos (outliers) que tomam um peso significativo no cálculo da média;
– Pode não corresponder a um valor concreto da variável.
AIB & AIC <MGP> 2022/2023 41

MODA
Moda (Mo) é o valor da variável ao qual corresponde uma maior frequência (absoluta ou relativa). É o
valor mais comum.
Dados não agrupados
Amostra bimodal – existem dois valores com a maior frequência
Amostra amodal – todos os valores da variável têm a mesma frequência
Amostra plurimodal – existem vários valores com a frequência mais alta.
Dados agrupados
Classe modal é a classe à qual corresponde a maior frequência
AIB & AIC <MGP> 2022/2023 42

Algumas propriedades da moda:
Vantagens
§ É pouco sensível a valores extremos (outliers). Assim, é mais indicativa de valores típicos do que
a média.
Desvantagens
§ Tem pouco (ou nenhum) significado para um número pequeno de observações. Neste caso,
muito frequentemente, não existe moda, porque os valores não se repetem.
§ No caso de dados quantitativos contínuos, o cálculo da moda torna-se um processo

computacionalmente complexo;
§ O valor exacto pode não corresponder a um dado observado
§ Pode haver mais que uma moda
AIB & AIC <MGP> 2022/2023 43

MEDIANA
A mediana é o valor que divide a distribuição dos dados (ordenados por ordem crescente ou
decrescente) em duas partes iguais.
Cálculo da mediana para dados não agrupados:
𝑥 ! +𝑥 !
$ $ %&
, 𝑠𝑒 𝑛 𝑝𝑎𝑟
𝑥$ = 2
𝑥 ! , 𝑠𝑒 𝑛 í𝑚𝑝𝑎𝑟
$ %&
AIB & AIC <MGP> 2022/2023 44

Exemplo - Cálculo da mediana para dados não classificados:
Considere os seguintes conjuntos de observações. Determine, em cada caso, a mediana.
a) {5, 5, 7, 15, 16, 17, 24}
b) {18, 7, 6, 1, -6, -30}
Resolução:
a) As 7 observações deste conjunto estão em ordem crescente. A mediana é
Ou seja, o valor da observação do meio (a 4.ª das 7 observações).
a) As 6 observações deste conjunto estão em ordem decrescente. A mediana é
AIB & AIC <MGP> 2022/2023 45

Algumas propriedades da mediana:
Vantagens
§ É pouco sensível a valores extremos (outliers). Assim, é mais indicativa de valores típicos do que
a média.
Desvantagens
§ Para calcular a mediana é necessário ordenar as observações, o que se pode tornar numa
operação bastante complexa.
§ Tem pouco significado para um número pequeno de observações.
AIB & AIC <MGP> 2022/2023 46

Classificação de distribuições de frequências, comparando a média, a moda e a mediana:
Média = mediana = moda
Mediana
Moda
Média
Mediana
Média
Moda
Distribuição simétrica Distribuição assimétrica Distribuição assimétrica

positiva negativa
AIB & AIC <MGP> 2022/2023 47

Quartis
Os Quartis dividem um conjunto de dados, preparados em ordem crescente, em 4 partes iguais (com o
mesmo número de observações).
O 1.º Quartil (Q1) é o valor que divide a amostra em duas partes, de tal modo que 25% das observações
sejam inferiores ou iguais a esse valor e 75% das observações sejam superiores ou iguais a esse valor.
O 2.º Quartil (Q2) é o valor que divide a amostra em duas partes, de tal modo que 50% das observações
sejam inferiores ou iguais a esse valor e 50% das observações sejam superiores ou iguais a esse valor.
O 3.º Quartil (Q3) é o valor que divide a amostra em duas parte, de tal modo que que 75% das
observações sejam inferiores ou iguais a esse valor e 25% das observações sejam superiores ou iguais a
esse valor.
AIB & AIC <MGP> 2022/2023 48

Diagrama de Extremos e Quartis (boxplot):
Representação gráfica que permite avaliar a tendência central, dispersão e padrão de assimetria de um conjunto de
dados, com base em medidas resistentes.
Consiste:
–Numa medida de tendência central (ex: a mediana)
–Num rectângulo central para representar a dispersão das observações típicas (ex: observações entre o 1º e o 3º
quartil)
–Em duas barras verticais para representar a totalidade, ou a maioria, das observações (ex: amplitude total ou
amplitude das observações não identificadas como “outliers”)
Notas:
-O padrão de assimetria para as observações típicas pode avaliar-se comparando as distâncias dos dois limites do
rectângulo central à medida de localização.
-Valores “demasiado distantes” (ex: valores a uma distância da mediana superior a 2,5 * AIQ) do rectângulo central são
por vezes considerados como “outliers” e representados isoladamente
AIB & AIC <MGP> 2022/2023 49

Diagrama de Extremos e Quartis (boxplot):
AIB & AIC <MGP> 2022/2023 50

Outlier
Um “outlier” é uma observação anómala, i.e. uma observação cujo valor está claramente
em contradição com o padrão dominante nos restantes dados
Um outlier pode ser o resultado de erros na recolha dos dados, podendo distorcer a sua
interpretação e exercer uma influência excessiva sobre várias medidas sumárias, tais como
a média ou o desvio padrão.
Quando um outlier corresponde a um valor correctamente observado ele pode ser
particularmente importante e revelador, uma vez que ele sugere um comportamento
extremo ou uma alteração no processo gerador de dados. Por essa razão os outliers devem
ser cuidadosamente examinados antes de se recorrer à análise do conjunto completo de
dados.
Os outliers não devem ser eliminados automaticamente sem qualquer justificação.
AIB & AIC <MGP> 2022/2023 51

Outlier
Os outliers moderados encontram-se entre 1,5 e 3 amplitudes interquartis para baixo do primeiro
quartil ou para cima do terceiro quartil.
Estes outliers podem ser calculados através da seguinte expressão:
𝑄! − 3. 𝐴𝐼𝑄 ≤ 𝑥" ≤ 𝑄! − 1,5. 𝐴𝐼𝑄
𝑄# + 1,5. 𝐴𝐼𝑄 ≤ 𝑥" ≤ 𝑄# + 3. 𝐴𝐼𝑄
Onde 𝑥" é a i-ésima observação e 𝐴𝐼𝑄 é a amplitude inter-quartil.
AIB & AIC <MGP> 2022/2023 52

Outlier
Os outliers severos encontram-se para valores superiores ou iguais a 3 amplitudes inter-quartis para
baixo do primeiro quartil ou para cima do terceiro quartil.
Estes outliers podem ser calculados através da seguinte expressão:
𝑥" ≤ 𝑄! − 3. 𝐴𝐼𝑄
Ou se
𝑥" ≥ 𝑄# + 3. 𝐴𝐼𝑄
Onde 𝑥" é a i-ésima observação e 𝐴𝐼𝑄 é a amplitude inter-quartil.
No gráficos boxplot no SPSS: Os outliers moderados são representados por círculos, enquanto que os
severos são respresentados por um asterisco.
AIB & AIC <MGP> 2022/2023 53

Diagrama de Extremos e Quartis (boxplot) – Exemplo de Interpretação
gráfica
A figura seguinte contém a caixa de bigodes da variável
esperança de vida feminina em 108 países do mundo no
ano de 1995.
Podemos observar a existência de vários países com
valores de esperança de vida bastante reduzidos
(inferiores a 50 anos de idade!) e identificados como
outliers.
Uma identificação posterior destes países poderá facilitar
a deteção de causas para uma esperança de vida tão
reduzida (são países onde os níveis de pobreza são muito
elevados)
Verifica-se, também, que a mediana da esperança de vida

feminina é de 74 anos pelo que metade dos países
considerados apresentam esperanças de vida superiores a
74 anos.
Também se verifica que a esperança de vida não vai além
dos 82 anos.
AIB & AIC <MGP> 2022/2023 54

Percentis
Valores da variável que dividem a distribuição em cem partes iguais.
Interpretação:
O percentil Pp divide a amostra em duas partes iguais:
§ Na primeira parte 100 x p% dos elementos são menores ou iguais a Pp.
§ Na segunda parte 100 x (p – 1)% dos elementos são maiores ou iguais a Pp.
Observações:
1.º Q = P25
2.º Q = P50 = Mediana
3.º Q = P75
AIB & AIC <MGP> 2022/2023 55

As Medidas de dispersão descrevem a dispersão/concentração dos dados da amostra em torno dos
valores centrais. Amplitude total
Amplitude interquartil
Medidas de dispersão Variância
Desvio padrão
Coeficiente de dispersão
Coeficiente de variação
AIB & AIC <MGP> 2022/2023 56

Medidas de dispersão
Amplitude total, A, é a diferença entre a observação maior e a mais pequena:
A = máximo - mínimo
Amplitude interquartil, AIQ, é a diferença entre a o 3.º Quartil e o 1.º Quartil. Corresponde a um intervalo que
engloba 50% das observações centrais:
AIQ = Q3 - Q1
AIB & AIC <MGP> 2022/2023 57

Variância e Desvio Padrão
n n
å ( xi - x ) 2
å i
( x - x ) 2
Nota: quando a amostra
s =
2 i =1 s' =
2 i =1
é pequena deve
n n -1 calcular-se a variância
corrigida.
Variância não corrigida Variância corrigida
O Desvio Padrão (s) indica a proximidade com que os valores estão agrupados à volta da média, e ao contrário
da variância está expresso nas mesmas unidades da variável.
Um valor pequeno do desvio padrão significa que as observações estão pouco espalhadas (pouco dispersas) à
volta da média.
O Desvio Padrão é a raiz quadrada positiva da variância:
s= s 2 s ' = s '2
Desvio padrão não corrigido Desvio padrão corrigido
AIB & AIC <MGP> 2022/2023 58

Medidas descritivas (Resumo)
Escala de Medida Estatísticas Descritivas
Medidas de Tendência Central Medidas de Dispersão
Nominal 1. Moda: o valor mais frequente Não há
(sem qualquer relação de ordem) da amostra
Ordinal 1. Moda 1. Amplitude Interquartil:
(ordenável mas sem quantificar) 2. Quartis: AIQ=Q3-Q1
Q1 – valor abaixo do qual estão 2. Intervalo:
25% dos elementos da amostra I=Máximo-Mínimo
Q2 ou Mediana – valor abaixo
do qual estão 50% dos
elementos
Q3 – valor abaixo do qual estão
75% dos elementos da amostra
Quantitativa 1. Moda 1. AIQ
(ordenável sendo possível quantificar 2. Quartis 2. Intervalo
as diferenças) ! 3. Desvio Padrão:
3. Média: 𝑥̅ = " ∑"#$! 𝑋#
!
𝑆% = )
∑"#$!(𝑋# − 𝑋)
"&!
Adaptado de pág. 27 João Maroco (2011). Análise Estatística com o SPSS Statistics, ReportNumber, Pero59Pinheiro.
AIB & AIC <MGP> 2022/2023
Medidas descritivas no SPSS
Medidas de
Tendência
Central
Quartis e
Percentis
e
e l ad s
Tab ência Medidas de Dispersão
u
freq
Analyse → Descriptive Statistics → Frequencies → Statistics (e selecionar)
60
AIB & AIC <MGP> 2022/2023
Output
frequências
Tabela de
Nota: Esta tabela não é informativa nem sintetiza

informação. Não deve ser apresentada num relatório,
basta dizer que há um indivíduo de cada idade.
61
AIB & AIC <MGP> 2022/2023
Estatísticas de Distribuição no SPSS
Distribuição
Assimetria
Curtose ou achatamento
Analyse → Descriptive Statistics → Frequencies → Statistics (e selecionar)
62
AIB & AIC <MGP> 2022/2023
Medida de assimetria
As medidas de localização central e as medidas de dispersão embora forneçam informação importante, são
insuficientes para uma caracterização da distribuição de frequências.
A medida de assimetria sintetiza até que ponto uma distribuição de frequências é enviesada ou assimétrica
(sem necessitar de calcular a média, a moda e a mediana) e permite comparar distribuições diferentes.
Duas Distribuições com a

mesma média e desvio padrão,
mas com formatos diferentes.
AIB & AIC <MGP> 2022/2023 63

Medida de assimetria – Exemplo de Interpretação gráfica
A figura seguinte contém as caixas de bigodes
paralelas (ou comparativas) das variáveis
esperança de vida feminina e masculina em 108
países do mundo no ano de 1995.
Verifica-se que a esperança de vida masculina
tende a ser inferior à esperança de vida
feminina (a caixa de bigodes encontra-se abaixo
da feminina).
Em ambos os casos deteta-se uma assimetria
negativa, havendo assim uma maior
concentração de valores elevados.
AIB & AIC <MGP> 2022/2023 64

Assimetria e Curtose
Comparação entre medidas
• Distribuições simétricas: média = mediana = moda

• Distribuições enviesadas à direita (assimétrica positiva):
média > mediana > moda
• Distribuições enviesadas à esquerda (assimétrica negativa):
média < mediana < moda
65
AIB & AIC <MGP> 2022/2023
Distribuições de dados aproximadamente simétricas
(ou distribuições aproximadamente normais)
68% dos dados situam-se no intervalo

[média – desvio-padrão; média + desvio-padrão]
95% dos dados situam-se no intervalo

[média – 2 desvio-padrão; média + 2 desvio-padrão]
66
AIB & AIC <MGP> 2022/2023
Assimetria (Skewness)
É uma medida que caracteriza a assimetria da função de
probabilidade.
12345366
𝐺 = 178. :;;<; <= 12345366
-1,96 < G < 1,96 – distribuição simétrica

G > 1,96 – distribuição assimétrica positiva
G < -1,96 – distribuição assimétrica negativa
AIB & AIC <MGP> 2022/2023 67

Curtose (Kurtosis)
É uma medida de dispersão que caracteriza o "achatamento" da
função de probabilidade.
+,-./010
𝐾 =
2.3.5--/- /6 +,-./010
-1,96 < K < 1,96 – distribuição mesocúrtica

K < -1,96 – distribuição platicúrtica
K > 1,96 – distribuição leptocúrtica
68
AIB & AIC <MGP> 2022/2023
distribuição leptocúrtica
distribuição mesocúrtica
distribuição platicúrtica
69
AIB & AIC <MGP> 2022/2023
Para que uma distribuição se possa assumir como normal, os valores dos coeficientes
descritos devem ser próximos de zero, i. e., dentro de um intervalo ]-0,5;0,5[ (ver por
exemplo Runyon et. al., 1996).
Sempre que os valores absolutos destes coeficientes sejam superiores a 1, pode assumir-se
que a distribuição em causa não é do tipo normal.
Contudo, Kline (1998) refere estudos, de simulação de Monte Carlo, segundo os quais valores
absolutos de assimetria e achatamento inferiores a 3 e a 7 respetivamente, não são
problemáticos em análise de modelos lineares generalizados (como por exemplo a ANOVA ou
Regressão Linear) que apresentam como pressuposto a distribuição normal dos resíduos dos
modelos.
In Página 22
João Maroco (2011). Análise Estatística com o SPSS Statistics, ReportNumber, Pero Pinheiro.
Kline, R. B. (1998). Principles and Practice of Structural Equation Modeling, Guilford Press, New York.
Runyon, R. P., Haber, A., Pittenger, D. J. & Coleman, K. A. (1996). Fundamentals of Behavioral Statistics, McGraw-Hill, New-York.
70
AIB & AIC <MGP> 2022/2023
Coeficiente de assimetria
𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
𝐺 =
𝑆𝑡𝑑. 𝐸𝑟𝑟𝑜𝑟 𝑜𝑓 𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
',)*'
= ≈0,823
',+&+
Como −1,96 < 𝐺 < 1,96 a distribuição

é simétrica.
Coeficiente de Curtose
𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
𝐾 =
𝑆𝑡𝑑. 𝐸𝑟𝑟𝑜𝑟 𝑜𝑓 𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
',),*
= ≈0,41
&,-
Como 𝐾 > 1,96 a distribuição é mesocúrtica.
71
AIB & AIC <MGP> 2022/2023
Análise descritiva
-Frequências
cruzada
- QQPlots
Analyse → Descriptive Statistics …

72
AIB & AIC <MGP> 2022/2023
Explorador de dados
Analyse → Descriptive Statistics → Explore

73
AIB & AIC <MGP> 2022/2023
Gráficos
O software SPSS permite a elaboração de
gráficos por duas formas distintas:
- através do chart builder (caixa
interactiva);
- ou usando um dos tipos de gráficos da
galeria de gráficos.
- ou na prática…
Graphs → Legacy dialogs…
74
AIB & AIC <MGP> 2022/2023
Gráficos
75
AIB & AIC <MGP> 2022/2023
Valores Omissos (Missing Values)
Os dados omissos podem ser problemáticos para os investigadores e resultam
principalmente de erros na recolha ou entrada de dados ou da omissão de
respostas pelos entrevistados.
A classificação dos dados ausentes e os motivos subjacentes à sua presença são
abordados por meio de uma série de etapas que não apenas identificam os
impactos dos dados omissos, mas também fornecem soluções para lidar com
eles na análise.
O desafio do investigador é abordar as questões levantadas pela falta de dados
que afetam a generalização dos resultados.
Imputação Múltipla -> O propósito de imputação múltipla é gerar valores

possíveis para valores omissos, criando, portanto, vários conjuntos de dados
"completos".
76
AIB & AIC <MGP> 2022/2023
Principais tipos de mecanismos de dados omissos:
- MCAR (missing completely at random): a omissão não está relacionada às
variáveis (dependentes ou independentes). Isso significa que a causa que
levou aos dados omissos é um evento aleatório. Por exemplo, quando a
falta da informação se deveu à perda de acompanhamento do paciente em
virtude de ele ter mudado de residência por motivos totalmente alheios ao
estudo;
- MAR (missing at random): a omissão pode depender do que é observado
(variáveis dependentes ou independentes), mas ela não depende dos
valores que faltam. Neste caso os dados omissos são causados por alguma
variável observada, disponível para análise e correlacionada com a variável
que possui dados omissos.
- MNAR (missing not at random): a omissão depende também do que não é
observado. Nesse caso, as variáveis observadas não explicam
completamente a omissão dos dados.
77
AIB & AIC <MGP> 2022/2023
In: Veroneze, R. (2011). Tratamento de dados faltantes empregando biclusterização

com imputação múltipla.
78
AIB & AIC <MGP> 2022/2023

Aula - AIB1 - 2022 - 2023

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Aula - AIB1 - 2022 - 2023

Enviado por

Direitos autorais:

Formatos disponíveis

Métodos de Técnicas de Investigação

o Introdução aos conceitos de estatística: População, Amostra, classificação de

AIB & AIC <MGP> 2022/2023 1

AIB & AIC <MGP> 2022/2023 2

Ramo da Matemática Aplicada que inclui os instrumentos necessários para recolher,

De um modo geral, a Estatística procura estudar uma ou várias características de uma

AIB & AIC <MGP> 2022/2023 3

Descrever e compreender relações entre as variáveis: a quantidade de informação

AIB & AIC <MGP> 2022/2023 4

§ Não confundir correlação com causalidade. A estatística poderá acusar a existência de

§ Um bom conhecimento da matéria em análise acompanhado dum enquadramento

AIB & AIC <MGP> 2022/2023 5

No entanto, nem sempre é viável inquirir todos os elementos de uma população

Estatísticas - é sinónimo de factos ou dados numéricos;

Estatística - constitui um objeto de estudo, uma ciência e compreende, um conjunto de princípios e

AIB & AIC <MGP> 2022/2023 6

Essencialmente, podemos dividir a Estatística em duas áreas:

AIB & AIC <MGP> 2022/2023 8

Embora a estatística descritiva seja um ramo importante da estatística amplamente utilizada, as

AIB & AIC <MGP> 2022/2023 9

AIB & AIC <MGP> 2022/2023 10

Ø Recolher Ø Prever valores dos parâmetros da

Ø Analisar Ø Tomar decisões

AIB & AIC <MGP> 2022/2023 11

Testes de Hipóteses Dispersão

AIB & AIC <MGP> 2022/2023 12

Dado estatístico – resultado da observação das unidades estatísticas que compõem um

Variável – característica relativa a todos os indivíduos (ou unidades estatísticas)

AIB & AIC <MGP> 2022/2023 13

• a variável ou característica que corresponde à propriedade que se pretende medir;

• o valor que corresponde à forma numérica, se existir, de expressar o atributo;

AIB & AIC <MGP> 2022/2023 14

A natureza das variáveis pode ser de dois tipos: variáveis Qualitativas ou

AIB & AIC <MGP> 2022/2023 15

AIB & AIC <MGP> 2022/2023 16

AIB & AIC <MGP> 2022/2023 17

As variáveis de natureza qualitativa podem ainda ser classificadas em:

Dicotómicas – se existem apenas duas classes, duas categorias.

Politómicas – se existem três ou mais classes.

AIB & AIC <MGP> 2022/2023 18

Variáveis discretas: podem tomar um número finito de valores ou uma infinidade

AIB & AIC <MGP> 2022/2023 19

Nominais Ordinais Discretos Contínuos

AIB & AIC <MGP> 2022/2023 20

AIB & AIC <MGP> 2022/2023 21

IBM SPSS (Statistical Package for Social Sciences) http://www.spss.com.hk/

AIB & AIC <MGP> 2022/2023 22

Qualitativa Qualitativa Quantitativa Qualitativa Qualitativa

Analyse → Descriptive Statistics…

Nota: Para os dados qualitativos não se calculam as frequências (absolutas e relativas)

AIB & AIC <MGP> 2022/2023 25

Frequência Absoluta (ni) - frequency

Frequência absoluta acumulada (Ni)

Frequência relativa (fi)

Frequência relativa acumulada (Fi)

Analyse → Descriptive Statistics…

Uma proposta de representação tabular destes dados qualitativos, de natureza nominal

AIB & AIC <MGP> 2022/2023 29

AIB & AIC <MGP> 2022/2023 30

AIB & AIC <MGP> 2022/2023 31

AIB & AIC <MGP> 2022/2023 32

AIB & AIC <MGP> 2022/2023 33

AIB & AIC <MGP> 2022/2023 34