Você está na página 1de 78

Métodos de Técnicas de Investigação

o Introdução aos conceitos de estatística: População, Amostra, classificação de


variáveis, medidas de tendência central, dispersão, distribuição normal,
assimetria e curtose, tratamento de valores omissos, identificação de outliers;
o Análise Exploratória de dados com recurso ao SPSS: representações tabulares,
representações gráficas .

AIB & AIC <MGP> 2022/2023 1


Porquê Estatística?

“Saber o que medir e como o medir transforma um mundo complicado num mundo
muito menos complicado.
Se aprendermos a olhar para os dados de forma certa, conseguimos explicar enigmas
que, caso contrário, podiam parecer impossíveis de resolver. Porque não há nada
como o poder cristalino dos números para limpar camadas de confusão e
contradições.”
Levitt & Dubner (2011) in Freakonomics

https://www.ted.com/talks/alan_smith_why_we_re_so_bad_at_statistics/transcript?langua
ge=en#t-11108

AIB & AIC <MGP> 2022/2023 2


Conceito de Estatística.

Ramo da Matemática Aplicada que inclui os instrumentos necessários para recolher,


organizar ou classificar, apresentar e interpretar conjuntos de dados.

De um modo geral, a Estatística procura estudar uma ou várias características de uma


população tendo por base um conjunto de métodos que permite a recolha, classificação,
apresentação e interpretação dos dados sobre o fenómeno em estudo.

É objetivo da Estatística extrair informação dos dados para obter uma melhor
compreensão das situações que representam.

AIB & AIC <MGP> 2022/2023 3


Porquê Estatística?

Descrever e compreender relações entre as variáveis: a quantidade de informação


recolhida cresce tão rapidamente que se torna imprescindível tomar decisões
corretas.
Tomar melhores e rápidas decisões: como a informação disponível está geralmente
associada a um elevado grau de incerteza, a estatística é fundamental para tirar
conclusões válidas a partir de informação incompleta.
Necessidade de planear as ações a empreender no futuro: tornam-se importantes
métodos estatísticos de previsão de acontecimentos futuros medindo as variações
atuais e estabelecendo os cenários futuros mais prováveis.
Na biologia, medicina, genética, meteorologia, balística, economia, etc. a
experimentação não é geralmente possível de ser efetuada de uma forma
totalmente rigorosa. Assim, não é possível repetir observações em condições
idênticas ou fazendo variar apenas um parâmetro mantendo fixos os restantes de
forma a estudar os efeitos de uma única variação.

AIB & AIC <MGP> 2022/2023 4


Cuidados a ter no tratamento de dados
§ Os dados deverão ser medidos sempre de igual modo. Assim, se se quiser comparar
pesos dever-se-á usar sempre a mesma balança. De outra forma os resultados e
conclusões poderão estar errados.
§ As hipóteses deverão ser formuladas previamente à recolha das amostras. De outra
forma os resultados poderão vir enviesados.

§ Não confundir correlação com causalidade. A estatística poderá acusar a existência de


uma eventual associação entre variáveis, mas isso não implica uma relação de
causalidade.

§ Um bom conhecimento da matéria em análise acompanhado dum enquadramento


correto do problema é fundamental para, por exemplo, eliminar possíveis associações em
que há uma ou mais variáveis causais escondidas que conduzem a correlações
estatisticamente significativas.

AIB & AIC <MGP> 2022/2023 5


População e Amostra:
Ao grupo de todos os elementos que se pretende estudar e que possuem uma
característica (ou mais) em comum chama-se população.

No entanto, nem sempre é viável inquirir todos os elementos de uma população


(população de grande dimensão, custo excessivo do processo de recolha e tratamento dos
dados, inacessibilidade a alguns dos elementos da população). Como tal, seleciona-se um
subgrupo da população para análise, designado por amostra.
As medidas relativas à amostra designam-se por estatísticas. O valor dessas estatísticas
varia de amostra para amostra, não sendo constante. Ou seja, é uma variável aleatória
(v.a.). As medidas relativas a uma população designam-se por parâmetros.
Ou seja, o termo estatística é utilizado para referir dois conceitos diferentes, conforme se utiliza no
singular ou no plural:

Estatísticas - é sinónimo de factos ou dados numéricos;

Estatística - constitui um objeto de estudo, uma ciência e compreende, um conjunto de princípios e


métodos de recolha, classificação, síntese e apresentação de dados numéricos.

AIB & AIC <MGP> 2022/2023 6


AIB & AIC <MGP> 2022/2023 7
Subáreas da estatística:

Essencialmente, podemos dividir a Estatística em duas áreas:

ØEstatística Descritiva
ØInferência Estatística

AIB & AIC <MGP> 2022/2023 8


Subáreas da estatística:
Estatística Descritiva
Conjunto de técnicas apropriadas para recolher, organizar, reduzir e apresentar dados
estatísticos. Sintetizando, no âmbito da estatística descritiva, procura-se sintetizar e representar
de forma compreensível a informação contida num conjunto de dados. Esta tarefa materializa-se
na construção de tabelas, gráficos, ou no cálculo de medidas que representem
convenientemente a informação contida nos dados – as estatísticas.

Torna-se importante, por isso saber interpretar de forma crítica as tabelas, gráficos e medidas
calculadas. Sendo esse o objectivo primordial desta unidade curricular.

Embora a estatística descritiva seja um ramo importante da estatística amplamente utilizada, as


informações estatísticas são obtidas quase sempre de amostras, e isso significa que a sua análise
exige generalizações para além dos dados. Daí a crescente necessidade de partir de métodos
meramente descritivos para métodos que servem para fazer generalizações – a Inferência
estatística.

AIB & AIC <MGP> 2022/2023 9


Subáreas da estatística:
Inferência Estatística
Procura retirar conclusões para a população em geral, com base na análise dos resultados obtidos
para um ou mais subconjuntos (amostras). Trata-se de um conjunto de técnicas que permite
caracterizar uma população, requerendo o conhecimento das probabilidades. As principais
técnicas utilizadas são a Estimação – que visa determinar o valor dos parâmetros desconhecidos
(da qual se pode destacar, por exemplo, os intervalos de confiança) - e os Testes de Hipóteses -
que visa testar suposições acerca das características de uma certa população.

Por vezes é designada, também, por Estatística indutiva – parte do particular (amostra) para o
geral (população).

Os métodos que constituem a Inferência Estatística permitem, por exemplo, prever a duração de
um equipamento (com base no desempenho de muitos desses equipamentos), comparar a
eficiência de duas dietas para reduzir o peso, ou comparar a eficiência de dois combustíveis no
funcionamento de um motor, ou até para prever o fluxo de tráfego numa auto-estrada que ainda
não foi construída (com base no tráfego observado no passado em vias alternativas).

AIB & AIC <MGP> 2022/2023 10


Síntese:
Estatística Descritiva Inferência Estatística

Ø Recolher Ø Prever valores dos parâmetros da


população
Ø Organizar
Ø Testar hipóteses sobre os valores
Ø Sumariar dos parâmetros da população

Ø Analisar Ø Tomar decisões

Ø Representar

AIB & AIC <MGP> 2022/2023 11


Método Estatístico

Recolha de dados

Distribuições de frequências

Previsão Organização e
apresentação

Histogramas

Análise de Regressão
Tendência Central

Inferência Medidas
Estatística descritivas

Testes de Hipóteses Dispersão

AIB & AIC <MGP> 2022/2023 12


Conceito de variável. Classificação de variáveis:
Em qualquer estudo estatístico é necessário definir a unidade estatística, ou elemento
(qualquer indivíduo, objecto ou fato que é objeto da observação ou das conclusões) e o
que se pretende estudar sobre ela - características.

Dado estatístico – resultado da observação das unidades estatísticas que compõem um


determinado conjunto.

Variável – característica relativa a todos os indivíduos (ou unidades estatísticas)


observados. O valor desta característica varia com as observações.

AIB & AIC <MGP> 2022/2023 13


O processo de medição tem 4 níveis:

• a variável ou característica que corresponde à propriedade que se pretende medir;


• 2
• o atributo ou categoria que corresponde ao grau que se manifesta a categoria medida;

• o valor que corresponde à forma numérica, se existir, de expressar o atributo;


• 4
• a relação que corresponde à ligação, se existir, entre os vários valores da variável.

Exemplo
Considere-se esta turma:
uma variável a estudar pode ser a altura dos alunos desta sala;
então podemos definir classes de alturas, os atributos: alto, médio, baixo;
o valor poderá ser altura de cada um em cm;
ainda podemos estabelecer uma relação de ordem, por exemplo, entre as alturas, sendo possível organizá-las
por ordem crescente ou decrescente, por exemplo.

AIB & AIC <MGP> 2022/2023 14


Conceito de variável. Classificação de variáveis:

A natureza das variáveis pode ser de dois tipos: variáveis Qualitativas ou


Quantitativas.

AIB & AIC <MGP> 2022/2023 15


Conceito de variável. Classificação de variáveis:
Variáveis Qualitativas (ou categóricas): os dados podem ser separados em diferentes categorias
que se distinguem por características não numéricas, podendo ser expressos em duas escalas
distintas: nominal e ordinal.

Escala nominal: quando os dados estão divididos por categorias que não possuem ordem. Ou
seja, quando cada um dos dados for identificado pela atribuição de um nome que designa uma
classe. As classes podem, também, ser designadas por números. No entanto, para que a escala
seja nominal não se poderá estabelecer qualquer relação de ordem entre tais números.

Exemplos:
Classificação de pessoas pela cor do cabelo: preto, castanho, branco, loiro, etc.
Classificação dos consumidores de bens de primeira necessidade pelo sexo: feminino ou
masculino.
Classificação dos consumidores, pelo género, no âmbito de um programa de computador (por ex.
o SPSS): 0 (feminino) ou 1 (masculino).

AIB & AIC <MGP> 2022/2023 16


Conceito de variável. Classificação de variáveis:

Escala ordinal: quando os dados estão divididos por categorias que obedecem a uma
sequência com significado. Ou seja, a ordem das classes é relevante.

Exemplos:
Classificações obtidas pelos alunos num teste de estatística: mau, medíocre, suficiente,
bom ou muito bom.
Classificação dos clientes segundo o volume de encomendas que colocam: clientes A
(muito importantes), B (importantes) ou C (menos importantes).

AIB & AIC <MGP> 2022/2023 17


Conceito de variável. Classificação de variáveis:

As variáveis de natureza qualitativa podem ainda ser classificadas em:

Dicotómicas – se existem apenas duas classes, duas categorias.


Exemplo: género (Masculino ou Feminino)

Politómicas – se existem três ou mais classes.


Exemplo: Estado Civil (solteiro, casado, divorciado ou viúvo)

AIB & AIC <MGP> 2022/2023 18


Conceito de variável. Classificação de variáveis:
Variáveis Quantitativas (ou numéricas): números que representam contagens ou medições
e que podem ser classificadas como discretas ou contínuas.

Variáveis discretas: podem tomar um número finito de valores ou uma infinidade


numerável de valores.
Exemplo: resultados de 150 lançamentos de um dado. Número de pessoas que visita um
museu numa hora.

Variáveis contínuas: podem tomar um número infinito não numerável de valores. Ou seja,
podem assumir qualquer valor dentro de um intervalo de números reais.
Exemplo: temperatura do ar, volumes de investimento, expressos em milhares de euros.

AIB & AIC <MGP> 2022/2023 19


Esquematicamente temos:

Tipos de Dados

Qualitativos Quantitativos

Nominais Ordinais Discretos Contínuos

AIB & AIC <MGP> 2022/2023 20


Nota
§ Diferentes escalas de medida necessitam de diferentes métodos estatísticos para
descreverem e analisarem as variáveis.
§ A diferença entre uma escala por intervalos e uma escala de rácios nem sempre é
evidente, sendo por vezes estes dois tipos de escala agrupados numa só categoria.
§ Os dados nominais são os mais limitados em termos de técnicas estatísticas disponíveis
para análise.
§ Por sua vez, os dados ordinais poderão ser analisados com técnicas definidas para dados
em escalas por intervalos.

AIB & AIC <MGP> 2022/2023 21


Softwares Estatísticos:

IBM SPSS (Statistical Package for Social Sciences) http://www.spss.com.hk/

R project https://www.r-project.org/

Microsoft Excel

AIB & AIC <MGP> 2022/2023 22


Classificação de variáveis

Qualitativa Qualitativa Quantitativa Qualitativa Qualitativa


Quantitativas
nominal nominal contínua discretas nominal ordinal

Nº de indivíduos 10 nº de variáveis 8
23
AIB & AIC <MGP> 2022/2023
Análise descritiva

-Frequências
-Medidas descritivas
-Explorador de dados
-Tabelas de referência
cruzada
- QQPlots

Analyse → Descriptive Statistics…


24
AIB & AIC <MGP> 2022/2023
Representações tabulares de dados qualitativos ou quantitativos discretos
Tabela de frequências –Tabela que disponibiliza um acesso rápido ao número, à percentagem
ou proporção de elementos observados com uma determinada característica ou valor ou
intervalo de valores (denominadas classes de valores). Relaciona as k categorias ou classes de
valores com o número de ocorrências, ou frequências, de observações que pertencem a cada
categoria ou classe.

Nota: Para os dados qualitativos não se calculam as frequências (absolutas e relativas)


acumuladas (4.ª e 5ª colunas).

AIB & AIC <MGP> 2022/2023 25


Frequências

Frequência Absoluta (ni) - frequency


É o número de vezes que um dado estatístico foi observado.

Frequência absoluta acumulada (Ni)


É a soma das primeiras i frequências absolutas.

Frequência relativa (fi)


É o quociente entre a frequência absoluta e o número total N de observações, isto
!"
é, 𝑓𝑖 = #

Frequência relativa acumulada (Fi)


É a soma das primeiras i frequências relativas.

26
AIB & AIC <MGP> 2022/2023
Tabelas de Frequência no SPSS

Frequency
Frequência Absoluta (ni)
Percent
Frequência relativa (fi) em %
Valid percent
Frequência relativa válida em %
Cumulative percent
Frequência relativa acumulada em
%
Analyse → Descriptive Statistics → Frequencies

27
AIB & AIC <MGP> 2022/2023
Análise descritiva

-Frequências
-Medidas descritivas
-Explorador de dados
-Tabelas de referência
cruzada
- QQPlots

Analyse → Descriptive Statistics…


28
AIB & AIC <MGP> 2022/2023
Representações tabulares de dados qualitativos ou quantitativos discretos
Exemplo: Numa amostra constituída por 120 peças, constatou-se que 100 não tinham
qualquer defeito, 15 tinham defeitos mas eram recuperáveis e 5 eram irrecuperáveis (ou
seja, constituíam sucata).

Uma proposta de representação tabular destes dados qualitativos, de natureza nominal


(categorias não ordenadas), é a seguinte:

AIB & AIC <MGP> 2022/2023 29


Representações tabulares de dados qualitativos ou quantitativos discretos
Exemplo: Num estudo para analisar a ocorrência de acidentes de trabalho num
determinado hospital, em 397 profissionais de saúde verificou-se que 16 não sofreram
qualquer acidente, 32 tiveram 1 acidente, 89 reportaram 2 acidentes, 137 sofreram 3
acidentes, 98 4 acidentes e 25 profissionais reportaram 5 acidentes.
Uma proposta de representação tabular destes dados quantitativos discretos é a seguinte:

AIB & AIC <MGP> 2022/2023 30


Representações Gráficas de dados Univariados:
Resumidamente, os gráficos mais utilizados para a representação e melhor visualização
dos dados são:

AIB & AIC <MGP> 2022/2023 31


Representações Gráficas de dados Univariados:
Gráfico circular – constituído por um circulo dividido em tantas fatias quanta as categorias
da variável. O tamanho das fatias é determinado pelo número ou percentagem/proporção
de observações nas categorias, i.e., pelas frequências absolutas ou pelas relativas.

Fonte: ICNF, 2013. IFN6 – Áreas dos usos do solo e das espécies florestais de
Portugal continental. Resultados preliminares. [pdf], 34 pp, Instituto
da Conservação da Natureza e das Florestas. Lisboa.

AIB & AIC <MGP> 2022/2023 32


Representações Gráficas de dados Univariados:

Gráfico de barras – diagrama de barras, sendo cada barra associada a cada uma das
categorias da variável. A altura das barras é determinada pelas frequências absolutas ou
relativas.

AIB & AIC <MGP> 2022/2023 33


Representações Gráficas de dados Univariados:
Gráfico de frequências acumuladas – gráfico de linhas onde são representadas as
frequências absolutas ou relativas acumuladas.

AIB & AIC <MGP> 2022/2023 34


Representações Gráficas de dados Univariados:
Histograma – gráfico de barras adjacentes, com uma barra associada a cada uma das
classes da variável. A base de cada barra é proporcional à amplitude da respectiva classe e
a área é proporcional às frequências absolutas ou relativas.

AIB & AIC <MGP> 2022/2023 35


Representações Gráficas de dados Univariados:
Polígono de frequências – gráfico de linhas onde são representadas as frequências
absolutas ou relativas, nos pontos médias das classes.

AIB & AIC <MGP> 2022/2023 36


Representações Gráficas de dados Univariados:

Polígono de frequências acumuladas – gráficos de linhas onde são representadas


frequências absolutas ou relativas acumuladas.

AIB & AIC <MGP> 2022/2023 37


Representações Gráficas de dados Bivariados:

AIB & AIC <MGP> 2022/2023 38


Medidas descritivas

Sumariam características importantes das amostras.

Medidas de tendência central


Medidas de Localização
Medidas de tendência não central

Medidas descritivas Medidas de dispersão

Medidas de assimetria

AIB & AIC <MGP> 2022/2023 39


Medidas descritivas
As Medidas de tendência central tratam-se de medidas de localização, pois informam sobre a
localização de alguns valores importantes da distribuição, e representam os fenómenos pelos seus
valores médios, em torno dos quais tendem a concentrar-se os valores observados.

Média

Medidas de tendência central Moda

Mediana

AIB & AIC <MGP> 2022/2023 40


Média:
n

åx i
x1 + x2 + ... + xn
x= i =1
=
Ø Vantagens: n n

– Facilidade de interpretação e cálculo;

– Utiliza toda a informação disponível e pode ser calculada com precisão matemática.

Ø Desvantagens:

– É influenciada por valores extremos (outliers) que tomam um peso significativo no cálculo da média;

– Pode não corresponder a um valor concreto da variável.

AIB & AIC <MGP> 2022/2023 41


MODA

Moda (Mo) é o valor da variável ao qual corresponde uma maior frequência (absoluta ou relativa). É o
valor mais comum.

Dados não agrupados

Amostra bimodal – existem dois valores com a maior frequência

Amostra amodal – todos os valores da variável têm a mesma frequência

Amostra plurimodal – existem vários valores com a frequência mais alta.

Dados agrupados

Classe modal é a classe à qual corresponde a maior frequência

AIB & AIC <MGP> 2022/2023 42


Algumas propriedades da moda:

Vantagens

§ É pouco sensível a valores extremos (outliers). Assim, é mais indicativa de valores típicos do que
a média.

Desvantagens

§ Tem pouco (ou nenhum) significado para um número pequeno de observações. Neste caso,
muito frequentemente, não existe moda, porque os valores não se repetem.

§ No caso de dados quantitativos contínuos, o cálculo da moda torna-se um processo


computacionalmente complexo;

§ O valor exacto pode não corresponder a um dado observado

§ Pode haver mais que uma moda

AIB & AIC <MGP> 2022/2023 43


MEDIANA

A mediana é o valor que divide a distribuição dos dados (ordenados por ordem crescente ou
decrescente) em duas partes iguais.

Cálculo da mediana para dados não agrupados:

𝑥 ! +𝑥 !
$ $ %&
, 𝑠𝑒 𝑛 𝑝𝑎𝑟
𝑥$ = 2

𝑥 ! , 𝑠𝑒 𝑛 í𝑚𝑝𝑎𝑟
$ %&

AIB & AIC <MGP> 2022/2023 44


Exemplo - Cálculo da mediana para dados não classificados:

Considere os seguintes conjuntos de observações. Determine, em cada caso, a mediana.

a) {5, 5, 7, 15, 16, 17, 24}

b) {18, 7, 6, 1, -6, -30}

Resolução:

a) As 7 observações deste conjunto estão em ordem crescente. A mediana é

Ou seja, o valor da observação do meio (a 4.ª das 7 observações).

a) As 6 observações deste conjunto estão em ordem decrescente. A mediana é

AIB & AIC <MGP> 2022/2023 45


Algumas propriedades da mediana:

Vantagens

§ É pouco sensível a valores extremos (outliers). Assim, é mais indicativa de valores típicos do que
a média.

Desvantagens

§ Para calcular a mediana é necessário ordenar as observações, o que se pode tornar numa
operação bastante complexa.

§ Tem pouco significado para um número pequeno de observações.

AIB & AIC <MGP> 2022/2023 46


Classificação de distribuições de frequências, comparando a média, a moda e a mediana:

Média = mediana = moda

Mediana
Moda
Média
Mediana
Média
Moda

Distribuição simétrica Distribuição assimétrica Distribuição assimétrica


positiva negativa

AIB & AIC <MGP> 2022/2023 47


Quartis

Os Quartis dividem um conjunto de dados, preparados em ordem crescente, em 4 partes iguais (com o
mesmo número de observações).

O 1.º Quartil (Q1) é o valor que divide a amostra em duas partes, de tal modo que 25% das observações
sejam inferiores ou iguais a esse valor e 75% das observações sejam superiores ou iguais a esse valor.

O 2.º Quartil (Q2) é o valor que divide a amostra em duas partes, de tal modo que 50% das observações
sejam inferiores ou iguais a esse valor e 50% das observações sejam superiores ou iguais a esse valor.

O 3.º Quartil (Q3) é o valor que divide a amostra em duas parte, de tal modo que que 75% das
observações sejam inferiores ou iguais a esse valor e 25% das observações sejam superiores ou iguais a
esse valor.

AIB & AIC <MGP> 2022/2023 48


Diagrama de Extremos e Quartis (boxplot):

Representação gráfica que permite avaliar a tendência central, dispersão e padrão de assimetria de um conjunto de
dados, com base em medidas resistentes.

Consiste:
–Numa medida de tendência central (ex: a mediana)
–Num rectângulo central para representar a dispersão das observações típicas (ex: observações entre o 1º e o 3º
quartil)
–Em duas barras verticais para representar a totalidade, ou a maioria, das observações (ex: amplitude total ou
amplitude das observações não identificadas como “outliers”)

Notas:
-O padrão de assimetria para as observações típicas pode avaliar-se comparando as distâncias dos dois limites do
rectângulo central à medida de localização.
-Valores “demasiado distantes” (ex: valores a uma distância da mediana superior a 2,5 * AIQ) do rectângulo central são
por vezes considerados como “outliers” e representados isoladamente

AIB & AIC <MGP> 2022/2023 49


Diagrama de Extremos e Quartis (boxplot):

AIB & AIC <MGP> 2022/2023 50


Outlier

Um “outlier” é uma observação anómala, i.e. uma observação cujo valor está claramente
em contradição com o padrão dominante nos restantes dados
Um outlier pode ser o resultado de erros na recolha dos dados, podendo distorcer a sua
interpretação e exercer uma influência excessiva sobre várias medidas sumárias, tais como
a média ou o desvio padrão.
Quando um outlier corresponde a um valor correctamente observado ele pode ser
particularmente importante e revelador, uma vez que ele sugere um comportamento
extremo ou uma alteração no processo gerador de dados. Por essa razão os outliers devem
ser cuidadosamente examinados antes de se recorrer à análise do conjunto completo de
dados.
Os outliers não devem ser eliminados automaticamente sem qualquer justificação.

AIB & AIC <MGP> 2022/2023 51


Outlier

Os outliers moderados encontram-se entre 1,5 e 3 amplitudes interquartis para baixo do primeiro
quartil ou para cima do terceiro quartil.

Estes outliers podem ser calculados através da seguinte expressão:

𝑄! − 3. 𝐴𝐼𝑄 ≤ 𝑥" ≤ 𝑄! − 1,5. 𝐴𝐼𝑄

𝑄# + 1,5. 𝐴𝐼𝑄 ≤ 𝑥" ≤ 𝑄# + 3. 𝐴𝐼𝑄

Onde 𝑥" é a i-ésima observação e 𝐴𝐼𝑄 é a amplitude inter-quartil.

AIB & AIC <MGP> 2022/2023 52


Outlier

Os outliers severos encontram-se para valores superiores ou iguais a 3 amplitudes inter-quartis para
baixo do primeiro quartil ou para cima do terceiro quartil.

Estes outliers podem ser calculados através da seguinte expressão:

𝑥" ≤ 𝑄! − 3. 𝐴𝐼𝑄

Ou se

𝑥" ≥ 𝑄# + 3. 𝐴𝐼𝑄

Onde 𝑥" é a i-ésima observação e 𝐴𝐼𝑄 é a amplitude inter-quartil.

No gráficos boxplot no SPSS: Os outliers moderados são representados por círculos, enquanto que os
severos são respresentados por um asterisco.

AIB & AIC <MGP> 2022/2023 53


Diagrama de Extremos e Quartis (boxplot) – Exemplo de Interpretação
gráfica
A figura seguinte contém a caixa de bigodes da variável
esperança de vida feminina em 108 países do mundo no
ano de 1995.
Podemos observar a existência de vários países com
valores de esperança de vida bastante reduzidos
(inferiores a 50 anos de idade!) e identificados como
outliers.
Uma identificação posterior destes países poderá facilitar
a deteção de causas para uma esperança de vida tão
reduzida (são países onde os níveis de pobreza são muito
elevados)

Verifica-se, também, que a mediana da esperança de vida


feminina é de 74 anos pelo que metade dos países
considerados apresentam esperanças de vida superiores a
74 anos.
Também se verifica que a esperança de vida não vai além
dos 82 anos.

AIB & AIC <MGP> 2022/2023 54


Percentis
Valores da variável que dividem a distribuição em cem partes iguais.

Interpretação:

O percentil Pp divide a amostra em duas partes iguais:

§ Na primeira parte 100 x p% dos elementos são menores ou iguais a Pp.

§ Na segunda parte 100 x (p – 1)% dos elementos são maiores ou iguais a Pp.

Observações:

1.º Q = P25

2.º Q = P50 = Mediana

3.º Q = P75

AIB & AIC <MGP> 2022/2023 55


As Medidas de dispersão descrevem a dispersão/concentração dos dados da amostra em torno dos
valores centrais. Amplitude total
Amplitude interquartil
Medidas de dispersão Variância
Desvio padrão
Coeficiente de dispersão
Coeficiente de variação

AIB & AIC <MGP> 2022/2023 56


Medidas de dispersão

Amplitude total, A, é a diferença entre a observação maior e a mais pequena:

A = máximo - mínimo

Amplitude interquartil, AIQ, é a diferença entre a o 3.º Quartil e o 1.º Quartil. Corresponde a um intervalo que
engloba 50% das observações centrais:

AIQ = Q3 - Q1

AIB & AIC <MGP> 2022/2023 57


Variância e Desvio Padrão
n n

å ( xi - x ) 2
å i
( x - x ) 2
Nota: quando a amostra
s =
2 i =1 s' =
2 i =1
é pequena deve
n n -1 calcular-se a variância
corrigida.
Variância não corrigida Variância corrigida
O Desvio Padrão (s) indica a proximidade com que os valores estão agrupados à volta da média, e ao contrário
da variância está expresso nas mesmas unidades da variável.

Um valor pequeno do desvio padrão significa que as observações estão pouco espalhadas (pouco dispersas) à
volta da média.

O Desvio Padrão é a raiz quadrada positiva da variância:

s= s 2 s ' = s '2
Desvio padrão não corrigido Desvio padrão corrigido

AIB & AIC <MGP> 2022/2023 58


Medidas descritivas (Resumo)
Escala de Medida Estatísticas Descritivas
Medidas de Tendência Central Medidas de Dispersão
Nominal 1. Moda: o valor mais frequente Não há
(sem qualquer relação de ordem) da amostra
Ordinal 1. Moda 1. Amplitude Interquartil:
(ordenável mas sem quantificar) 2. Quartis: AIQ=Q3-Q1
Q1 – valor abaixo do qual estão 2. Intervalo:
25% dos elementos da amostra I=Máximo-Mínimo
Q2 ou Mediana – valor abaixo
do qual estão 50% dos
elementos
Q3 – valor abaixo do qual estão
75% dos elementos da amostra
Quantitativa 1. Moda 1. AIQ
(ordenável sendo possível quantificar 2. Quartis 2. Intervalo
as diferenças) ! 3. Desvio Padrão:
3. Média: 𝑥̅ = " ∑"#$! 𝑋#
!
𝑆% = )
∑"#$!(𝑋# − 𝑋)
"&!
Adaptado de pág. 27 João Maroco (2011). Análise Estatística com o SPSS Statistics, ReportNumber, Pero59Pinheiro.
AIB & AIC <MGP> 2022/2023
Medidas descritivas no SPSS

Medidas de
Tendência
Central
Quartis e
Percentis

e
e l ad s
Tab ência Medidas de Dispersão
u
freq
Analyse → Descriptive Statistics → Frequencies → Statistics (e selecionar)
60
AIB & AIC <MGP> 2022/2023
Output
frequências
Tabela de

Nota: Esta tabela não é informativa nem sintetiza


informação. Não deve ser apresentada num relatório,
basta dizer que há um indivíduo de cada idade.
61
AIB & AIC <MGP> 2022/2023
Estatísticas de Distribuição no SPSS

Distribuição
Assimetria
Curtose ou achatamento
Analyse → Descriptive Statistics → Frequencies → Statistics (e selecionar)
62
AIB & AIC <MGP> 2022/2023
Medida de assimetria

As medidas de localização central e as medidas de dispersão embora forneçam informação importante, são
insuficientes para uma caracterização da distribuição de frequências.

A medida de assimetria sintetiza até que ponto uma distribuição de frequências é enviesada ou assimétrica
(sem necessitar de calcular a média, a moda e a mediana) e permite comparar distribuições diferentes.

Duas Distribuições com a


mesma média e desvio padrão,
mas com formatos diferentes.

AIB & AIC <MGP> 2022/2023 63


Medida de assimetria – Exemplo de Interpretação gráfica
A figura seguinte contém as caixas de bigodes
paralelas (ou comparativas) das variáveis
esperança de vida feminina e masculina em 108
países do mundo no ano de 1995.
Verifica-se que a esperança de vida masculina
tende a ser inferior à esperança de vida
feminina (a caixa de bigodes encontra-se abaixo
da feminina).
Em ambos os casos deteta-se uma assimetria
negativa, havendo assim uma maior
concentração de valores elevados.

AIB & AIC <MGP> 2022/2023 64


Assimetria e Curtose
Comparação entre medidas

• Distribuições simétricas: média = mediana = moda


• Distribuições enviesadas à direita (assimétrica positiva):
média > mediana > moda
• Distribuições enviesadas à esquerda (assimétrica negativa):
média < mediana < moda

65
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Distribuições de dados aproximadamente simétricas
(ou distribuições aproximadamente normais)

68% dos dados situam-se no intervalo


[média – desvio-padrão; média + desvio-padrão]

95% dos dados situam-se no intervalo


[média – 2 desvio-padrão; média + 2 desvio-padrão]

66
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Assimetria (Skewness)
É uma medida que caracteriza a assimetria da função de
probabilidade.
12345366
𝐺 = 178. :;;<; <= 12345366

-1,96 < G < 1,96 – distribuição simétrica


G > 1,96 – distribuição assimétrica positiva
G < -1,96 – distribuição assimétrica negativa

AIB & AIC <MGP> 2022/2023 67


Assimetria e Curtose
Curtose (Kurtosis)
É uma medida de dispersão que caracteriza o "achatamento" da
função de probabilidade.

+,-./010
𝐾 =
2.3.5--/- /6 +,-./010

-1,96 < K < 1,96 – distribuição mesocúrtica


K < -1,96 – distribuição platicúrtica
K > 1,96 – distribuição leptocúrtica

68
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose

distribuição leptocúrtica
distribuição mesocúrtica
distribuição platicúrtica

69
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Para que uma distribuição se possa assumir como normal, os valores dos coeficientes
descritos devem ser próximos de zero, i. e., dentro de um intervalo ]-0,5;0,5[ (ver por
exemplo Runyon et. al., 1996).
Sempre que os valores absolutos destes coeficientes sejam superiores a 1, pode assumir-se
que a distribuição em causa não é do tipo normal.
Contudo, Kline (1998) refere estudos, de simulação de Monte Carlo, segundo os quais valores
absolutos de assimetria e achatamento inferiores a 3 e a 7 respetivamente, não são
problemáticos em análise de modelos lineares generalizados (como por exemplo a ANOVA ou
Regressão Linear) que apresentam como pressuposto a distribuição normal dos resíduos dos
modelos.
In Página 22

João Maroco (2011). Análise Estatística com o SPSS Statistics, ReportNumber, Pero Pinheiro.

Kline, R. B. (1998). Principles and Practice of Structural Equation Modeling, Guilford Press, New York.

Runyon, R. P., Haber, A., Pittenger, D. J. & Coleman, K. A. (1996). Fundamentals of Behavioral Statistics, McGraw-Hill, New-York.

70
AIB & AIC <MGP> 2022/2023
Assimetria e Curtose
Coeficiente de assimetria
𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
𝐺 =
𝑆𝑡𝑑. 𝐸𝑟𝑟𝑜𝑟 𝑜𝑓 𝑆𝑘𝑒𝑤𝑛𝑒𝑠𝑠
',)*'
= ≈0,823
',+&+

Como −1,96 < 𝐺 < 1,96 a distribuição


é simétrica.

Coeficiente de Curtose

𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
𝐾 =
𝑆𝑡𝑑. 𝐸𝑟𝑟𝑜𝑟 𝑜𝑓 𝐾𝑢𝑟𝑡𝑜𝑠𝑖𝑠
',),*
= ≈0,41
&,-

Como 𝐾 > 1,96 a distribuição é mesocúrtica.

71
AIB & AIC <MGP> 2022/2023
Análise descritiva

-Frequências
-Medidas descritivas
-Explorador de dados
-Tabelas de referência
cruzada
- QQPlots

Analyse → Descriptive Statistics …


72
AIB & AIC <MGP> 2022/2023
Explorador de dados

Analyse → Descriptive Statistics → Explore


73
AIB & AIC <MGP> 2022/2023
Gráficos
O software SPSS permite a elaboração de
gráficos por duas formas distintas:
- através do chart builder (caixa
interactiva);
- ou usando um dos tipos de gráficos da
galeria de gráficos.

- ou na prática…

Graphs → Legacy dialogs…

74
AIB & AIC <MGP> 2022/2023
Gráficos

75
AIB & AIC <MGP> 2022/2023
Valores Omissos (Missing Values)
Os dados omissos podem ser problemáticos para os investigadores e resultam
principalmente de erros na recolha ou entrada de dados ou da omissão de
respostas pelos entrevistados.
A classificação dos dados ausentes e os motivos subjacentes à sua presença são
abordados por meio de uma série de etapas que não apenas identificam os
impactos dos dados omissos, mas também fornecem soluções para lidar com
eles na análise.
O desafio do investigador é abordar as questões levantadas pela falta de dados
que afetam a generalização dos resultados.

Imputação Múltipla -> O propósito de imputação múltipla é gerar valores


possíveis para valores omissos, criando, portanto, vários conjuntos de dados
"completos".

76
AIB & AIC <MGP> 2022/2023
Valores Omissos (Missing Values)
Principais tipos de mecanismos de dados omissos:
- MCAR (missing completely at random): a omissão não está relacionada às
variáveis (dependentes ou independentes). Isso significa que a causa que
levou aos dados omissos é um evento aleatório. Por exemplo, quando a
falta da informação se deveu à perda de acompanhamento do paciente em
virtude de ele ter mudado de residência por motivos totalmente alheios ao
estudo;
- MAR (missing at random): a omissão pode depender do que é observado
(variáveis dependentes ou independentes), mas ela não depende dos
valores que faltam. Neste caso os dados omissos são causados por alguma
variável observada, disponível para análise e correlacionada com a variável
que possui dados omissos.
- MNAR (missing not at random): a omissão depende também do que não é
observado. Nesse caso, as variáveis observadas não explicam
completamente a omissão dos dados.

77
AIB & AIC <MGP> 2022/2023
Valores Omissos (Missing Values)

In: Veroneze, R. (2011). Tratamento de dados faltantes empregando biclusterização


com imputação múltipla.

78
AIB & AIC <MGP> 2022/2023

Você também pode gostar