Você está na página 1de 15

Análise de Dados

Conceitos fundamentais

Uma análise estatística estuda uma ou várias variáveis, mas analisa sempre conjuntos de
elementos (que podem ser amostras ou populações).

Cada variável tem um conjunto de valores/categorias possíveis. Por exemplo, a variável


“idade” pode ter valores que vão dos zero anos até mais de 100 anos. A variável “ter votado
ou não” tem apenas duas categorias possíveis (sim e não).

Basicamente, a variável corresponde a uma “pergunta”, enquanto as categorias, ou valores


de uma variável, correspondem às “respostas” possíveis.

Numa variável, as suas categorias/valores são exaustivas (têm de incluir todos os valores
possíveis) e são mutuamente exclusivas (a resposta de cada indivíduo só pode ser uma).

Tipos de variável
↙ ↓ ↘
Univariada Bivariada Multivariada
-Uma variável ou um conjunto - Duas variáveis - Mais de duas variáveis
de variáveis analisados em separados

Conceitos:

Elementos (objeto de análise)


- Nas ciências sociais é muito frequente os elementos serem pessoas, empresas,
documentos, países…
Amostra
-É um subconjunto da população, que não contém todos os elementos, mas apenas uma
parte.

↙ ↘
Estatística indutiva Estatística descritiva
-Amostra é representativa (conhecem-se todos - Amostra não é representativa (não se
os valores). conhecem todos os valores).
-É possível fazer extrapolações para a população -Não é possível fazer extrapolações para
com base na amostra. a população .

Tipos de variável
↙ ↓ ↘
Quantitativa Nominal Qualitativa Ordinal Quantitativa
-Não medem quantidades -Não medem quantidades -Medem quantidades
-Não apresentam ordem entre si -Apresentam ordem entre si -Apresentam uma ordem
Exemplo: Exemplo: -São representados por nº
-Género; Preferência partidária -Grau de satisfação; Exemplo :
-idade; peso; salário

↙ ↘
Contínuas Discretas
-nº de valores –nº de valores
é limitado é ilimitado
-As décimas são -Não existem
possíveis. décimas.
Ex: Tempo Ex: nº filhos

Variáveis quantitativas

- Um aspeto importante na compreensão deste tipo de variável é a diferença entre as


variáveis quantitativas com “poucos valores possíveis” e com “muitos valores possíveis” (o
que muitas vezes obriga à necessidade da apresentação dos resultados em classes).
Frequências, Percentagens (absolutas e acumuladas)

- Nas variáveis quantitativas com “poucos valores”, é possível apresentar uma tabela de
frequências e percentagens com todos os valores possíveis.

-Nas variáveis quantitativas com “muitos valores”, é usual apresentar tabelas de frequências
e percentagens, com valores agregados em classes.

- Nesta situação, os resultados são apresentados em classes, definidas a partir dos limites
inferior e superior. Os cálculos a efetuar (média, desvio padrão…) devem usar o centro de
classe (ou seja de 501 a 770 é representado por 600)

Medidas de tendência central


↙ ↓ ↘
Moda Mediana Média

Moda
-Indica o valor mais comum da amostra
-Pode ser calculada por todas as variáveis
-Identifica-se através da freq. simples ou da % simples
Problemas da Moda

-Pode existir mais do que uma moda (bimodal)


-Pode não existir moda (amodal)
- A moda é muito sensível a pequenas diferenças → A moda é muito pouco usada
(duas categorias podem ter quase a mesma frequência
basta 1 caso para alterar a moda);

Mediana
- Aponta para a posição central da distribuição (50%/50%)
- Calculada pelas variáveis quantitativas e qualitativas ordinais.

Vantagens da mediana

- Não é afetada pela assimetria nem pela existência de valores extremos (outliers)
- Quando a distribuição é assimétrica, aponta melhor o centro da distribuição, porque não é
sensível aos enviesamentos.

nº ímpar nº par
- É o nº central - Média dos nº centrais
Exemplo: 3 elementos (med=2) Exemplo: 4 elementos (med=2.5)

Média
- Indica o centro da distribuição
-Calculada pela variável quantitativa
- É medida mais usada nas variáveis quantitativas
- Pode ter um valor abstrato (3,4)

Dados Agregados Dados não Agregados

Dados agregados por classes


Vantagens da Média: Desvantagens da Média:

-Usa toda a informação disponível -Pode ser muito influenciada pela


-As suas propriedades permitem fazer assimetria das distribuições;
inferência estatística; - Pode ser influenciada por valores
extremos (se estes forem muito
afastados ou se a dimensão do
grupo for pequena;

Medidas de dispersão

↙ ↓ ↓ ↘
AIV AIQ DP CV
(amplitude do intervalo (amplitude do intervalo (variância e desvio (coeficiente
de variação) interquartil) padrão) de variação)

↘ Medidas de dispersão absolutas ↙ ↓


, Medida de
dispersão dispersão
c relativa

Medidas de dispersão
-Servem para verificar a heterogeneidade ou a homogeneidade do grupo.
-Quanto mais elevadas são as medidas de dispersão maior é a heterogeneidade
(diversidade) e quanto mais baixa a dispersão maior a homogeneidade do grupo.

AIV (amplitude do intervalo de variação)


-Muito instável visto que a diferença de um valor altera significativamente a amostra

Cálculo:

(valor mais alto) - (valor mais baixo)
Exemplo:
maior dispersão ← AIV= (15-6)= 13 AIV=(19-9)= 10 → menor dispersão
AIQ ( amplitude do intervalo interquartil)
-É a medida de dispersão face à mediana, ou seja, utiliza-se quando se usa a mediana como
medida de tendência central para caracterizar o centro de uma distribuição.

Cálculo:

Q3 - Q1
Exemplo:

AIQ = 13 - 11 = 2 valores AIQ = 14 - 10 = 4 valores

- Analisamos que o grupo central da distribuição se concentra numa amplitude de 2 valores


ou numa amplitude de 4 valores.

DP ( variância e desvio padrão)


- Quando se utiliza a média como medida de tendência central, deve ser usada como
medida de dispersão o desvio-padrão.

Cálculo:

Exemplo:
- Assim, no primeiro caso a variância é de 2 valores e o desvio padrão de 1.4 valores,
enquanto no segundo caso a dispersão é maior: a variância é de 7.36 valores e o
desvio-padrão de 2.7 valores.

Vantagens DP: Desvantagens DP:


- É expresso na mesma unidade de medida que -Tal como a média, é muito
média - é fácil de interpretar em termos comparativos influenciado pelos valores
extremos

CV ( coeficiente de variação)
-Deve-se usar quando as variáveis têm valores muito diferentes uma da outra( por exemplo,
se se comparar a dispersão dos salários ou da dimensão das casas) ou quando as médias são
muito diferentes (por exemplo, o peso de bebês e de adultos).
- O coeficiente de variação relativiza o Desvio-Padrão face à Média e é expresso em %.

Cálculo:
↘ S = Desvio Padrão
X= Média
Exemplo:

CV (azul) = (1.4/12) x 100 = 11.7%


CV (verde) = (2.7/12)x100 = 22.5%

- O CV varia entre zero (se o desvio padrão fosse zero, o que só aconteceria se a variável
não tivesse dispersão num grupo) mas não tem um limite superior máximo. Geralmente,
aponta-se os 50%, como indicando uma dispersão muito elevada.

Conclusão:
- Na análise de uma variável quantitativa é necessário combinar uma medida de tendência
central e uma medida de dispersão.

- a mediana deve ser combinada com a amplitude interquartil


-a média deve ser combinada com o desvio-padrão (e o coeficiente de variação)

- A escolha entre a fundamentar a análise na média (e DP) ou na mediana (e AIQ) depende,


da variável ter um maior ou menor grau de assimetria

- Se a variável for muito assimétrica, pode ser preferível utilizar a mediana como base de
análise, por apontar para o centro da distribuição. No entanto, se a distribuição tiver poucos
valores é possível também utilizar a média como base de análise.
Gráficos para as variáveis quantitativas:

Gráfico de Barras e Histograma

-Um gráfico habitual é o gráfico de barras, que no caso de uma variável quantitativa é,
usualmente, um histograma.
-Este tipo de gráficos, permite ver a forma da distribuição, mas não representa pontos
específicos desta distribuição, como acontece com o gráfico de extremos e quartis.

Gráfico de Extremos e Quartis

-Os gráficos de Extremos e Quartis permitem representar para um, ou para vários grupos,
diversas medidas de ordem da distribuição.
Estes gráficos representam:

-os quartis (Q1, Q2=Me e Q3)


- os valores mínimo e máximo (sem considerar os outliers)
- se existirem, são também representados os outliers (moderados ou severos)

- Os dois gráficos seguintes representam a mesma variável idade, mas agora apenas a partir
do mínimo, máximo, mediana e quartis (neste caso não existem outliers)
Outliers

- Os outliers são valores que se afastam muito do conjunto de valores centrais (as que
estão dentro dos limites da AIQ).
- Estes valores podem afetar a média, e, por consequência, o desvio-padrão. O seu efeito
sobre estas medidas depende de serem mais ou menos afastados, e da dimensão da
amostra.

SPSS
-Sinaliza os outliers a partir de círculos ou asteriscos:

Círculos – correspondem a outliers moderados


Asteriscos – correspondem a outliers severos

O afastamento é medido a partir dos limites da Amplitude Interquartil (AIQ 3 )

- São outliers moderados quando se afastam mais de 1,5 AIQ do 3º quartil ou do 1º quartil
- São outliers severos quando se afastam mais de 3 AIQ do 3º quartil ou do 1º quartil

Medidas de Assimetria
↙ ↘
Distribuição Simétrica Distribuição Assimétrica

↙ ↘
Positiva Negativa
Distribuição simétrica
-Numa distribuição simétrica unimodal todas as medidas de tendência central são iguais.

X = Me = Mo

Distribuição Assimétrica

Positiva
- As três medidas de tendência central são diferentes

(Mo < Me < 𝑋̅)

- A moda tem o valor mais baixo


- A mediana tem o valor intermédio
- A média tem o valor mais elevado
- A distância entre o Q1 e a Mediana é menor do que a da Mediana ao Q3
- Quanto maiores as diferenças entre estas medidas maior a assimetria da distribuição

Negativa
- As três medidas de tendência central são diferentes

(Mo > Me > 𝑋̅)

- a moda tem o valor mais alto


- a mediana tem o valor intermédio
- a média tem o valor mais baixo
- A distância entre o Q1 e a Mediana é maior do que a da Mediana ao Q3
- Quanto maiores as diferenças entre estas medidas maior a assimetria da distribuição
Positiva Negativa

Skewness (indicador de simetria SPSS)

O tipo de assimetria :
- próximo de zero se a distribuição for simétrica
- negativo significa que a assimetria é negativa
- positivo significa que a distribuição é assimétrica positiva

a intensidade da assimetria:
-Refere-se apenas ao grupo analisado (amostra ou população)

Até l0,5l – assimetria pouco acentuada


Mais de l1l – assimetria acentuada

Análise Bivariada

- Na análise bivariada com variáveis quantitativas podem encontrar-se diversas situações, as


mais habituais correspondem a análises comparativas de uma variável quantitativa em
diversos grupos definidos por uma variável nominal ou a relação entre duas variáveis
quantitativas.
- Nesta análise deve comparar-se a tendência de terem valores mais altos ou mais baixos (a
partir da tendência central) e a tendência para terem valores mais homogêneos ou mais
heterogéneos (a partir das medidas de dispersão) e ainda é possível calcular um coeficiente
de associação (o Eta).

Análise entre uma variável quantitativa e uma variável nominal

Medida de associação (Eta)

- Utiliza-se o eta quando analisamos a relação entre uma variável nominal e uma variável
quantitativa.
- Este coeficiente é utilizado quando se considera que a variável quantitativa tem o estatuto
de variável dependente (sempre que não seja evidente qual das variáveis é independente e
qual é dependente, deve evitar-se este indicador).

Valor do Eta
-Tal como no caso do V de Cramer, o coeficiente Eta varia entre 0 e 1.

Coeficiente de determinação (Eta2 ou η2)

- O seu valor indica a proporção da variável dependente que é explicada pela variável
independente.
-Esta variável varia entre 0 e 1 (quanto mais próximo de 1 mais variabilidade é explicada).

Por exemplo:

- Se numa análise entre os Salários e as Habilitações (tratada como qualitativa nominal) o


η=0.500 então o η2=0.250. Isto significaria que a associação entre os salários e as
habilitações é forte (η = 0.500) e que a variação dos salários depende em 25% das
habilitações (η2 = 0.25).
Análise entre duas variáveis quantitativas

- No caso de duas variáveis serem quantitativas, não faz sentido colocar uma tabela com
medidas comparativas por grupos, porque nenhuma das variáveis forma grupos, mas deve
ser dada indicação sobre cada uma das variáveis como por exemplo pode ser colocada uma
tabela que indique os valores mínimo e máximo, a média e o desvio-padrão.

- É usual apresentar um gráfico específico designado por diagrama de dispersão, em que se


pode visualizar a variação conjunta das duas variáveis e, por fim, é calculada também uma
medida de associação: o coeficiente de correlação r de Pearson.

Diagrama de dispersão

- O diagrama de dispersão é um gráfico em que cada uma das variáveis é representada num
eixo (se uma das variáveis tiver o estatuto causa e outra de efeito, a primeira fica no eixo
horizontal e a segunda no vertical) e os pontos representam a posição de cada uma das
observações nas duas variáveis.

Exemplo de análise:

-Nestes dois casos é perceptível a existência de uma relação entre as duas variáveis. No
primeiro caso pode considerar-se que existe uma relação em sentido directo/positivo (isto
é: quando uma das variáveis aumenta, a outra também), enquanto no segundo caso existe
uma relação inversa/negativa (quando uma variável aumenta a outra diminui).
Coeficiente de Correlação de Pearson (r)

-Tal como o coeficiente de correlação de Spearman, este coeficiente de Pearson varia entre
-1 e +1 e permite conhecer o sentido e medir a intensidade da relação entre as variáveis.
-O sentido da correlação é dado pela orientação da nuvem de pontos e pelo sinal do
coeficiente de correlação.

Exemplo de análise:

-Ao primeiro gráfico corresponde a um sinal positivo do coeficiente de correlação


(a nuvem de pontos é ascendente) e ao segundo um coeficiente negativo ( a nuvem de
pontos é descendente).

- Mas a intensidade da relação é dada pelo valor absoluto do coeficiente de correlação:


quanto mais próximo de zero menor a intensidade da relação e quanto mais próximo de 1
(ou de -1) mais forte a relação.

Coeficiente de determinação (r2)

-Indica a proporção da variável dependente que é explicada pela variável independente.


-Varia entre 0 e 1 (quanto mais próximo de 1 mais variabilidade é explicada).
Variável
↙ ↘
Independente Dependente
O seu valor não depende de nenhuma o valor depende da causa (variável
outra variável. independente).

Exemplo:
Ao realizar um trabalho, o António recebe 5€ por cada tarefa que completa.

Variável dependente: é a quantia em dinheiro que recebe porque esta quantia depende do
número de tarefas que completa.

Variável independente:é o número de tarefas que completa porque esta é a variável sobre a
qual tem controlo.

Você também pode gostar