Você está na página 1de 16

Relatório de Análise de Dados Univariados

Unidade Curricular: Análise de Dados Univariados


Docente: Belén Rando

Grupo 6

David Franch nº 234257


Joana Santos nº 234216
Laura Branco nº 234222

Administração Pública 2021/2022


Índice

Introdução ................................................................................................................................ 2
Objetivo .................................................................................................................................... 2
Metodologia ............................................................................................................................. 2
Análise Descritiva Univariada .................................................................................................... 3
Inferência Estatística e Análise de Associação ........................................................................... 5
Questão 1 ............................................................................................................................. 5
Questão 2 ............................................................................................................................. 6
Questão 3 ............................................................................................................................. 8
Conclusão ................................................................................................................................. 9
Referências bibliográficas ....................................................................................................... 10
Anexos .................................................................................................................................... 11
Anexo 1............................................................................................................................... 11
Anexo 3............................................................................................................................... 12
Anexo 4............................................................................................................................... 13
Anexo 5 – Proporção de Inércia ........................................................................................... 13
Anexo 6, 7 e 8 ..................................................................................................................... 14

1
Introdução

No âmbito da unidade curricular “Análise de Dados Univariados”, lecionada no Instituto Superior


de Ciências Sociais e Políticas, foi-nos proposto que elaborássemos um relatório de análise de
dados, tendo em conta o método de avaliação escolhido.

Desta forma, nós, alunos da licenciatura de Administração Pública, depreendemos que o tema
do nosso trabalho é bastante pertinente visto que poderia, de facto, encaixar-se no mote da
nossa futura profissão. Tema este que consiste no Emprego e Trabalho em Espanha.

Assim sendo, pretendemos apurar respostas às seguintes questões:

1. Será que o número médio de horas normalmente trabalhadas por semana no emprego
principal, incluindo as horas extraordinárias (wkhtot) é de 40 horas?
2. Será que o número médio de horas normalmente trabalhadas por semana no emprego
principal, incluindo as horas extraordinárias (wkhtot) é igual nos diferentes tipos de
organizações (tporgwk)?
3. Será possível identificar associações específicas entre o tipo de organização de trabalho
(tporgwk) e o interesse na política (polintr)?

Objetivo
Na elaboração deste trabalho, temos como principal objetivo, analisar e compreender de forma
concreta os dados disponibilizados, com a finalidade de obter as respostas desejadas para a
resolução das questões que nos são pedidas.

Deste modo, pretendemos concluir a relação que existe entre todas as variáveis e se de alguma
forma, poderão influenciar os resultados obtidos e que posteriormente, contextualizaremos.

Metodologia
O método estatístico de análise que utilizámos ao longo de todo este relatório, foi o programa
“SPSS”, como forma de auxílio para uma melhor análise desta base de dados e por sua vez,
alcançarmos o objetivo pretendido com este trabalho.

Através do site da European Social Survey (https://www.europeansocialsurvey.org), foi extraído


um ficheiro de dados onde inclui 4 variáveis (cntry, wkhtot, tporgwk e polintr), infra classificadas:

• Cntry (country) é uma variável qualitativa nominal.

2
• Wkhtot (total hours normally worked per week in main job overtime included) é uma
variável quantitativa discreta.
• Tporgwk (what type of organisation work/worked for) é uma variável qualitativa
nominal.
• Polintr (how interested in politics) é uma variável qualitativa ordinal.

De forma as irmos de encontro a este intuito, recorremos a algumas técnicas estatísticas que ao
longo do relatório destacamos, em especial nas secções: Análise Descritiva Univariada e
Inferência estatística e Análise de associação. O período de estudo analisado, de acordo com a
nossa fonte (European Social Survey) foi em 2018, sendo que foi nesse ano que foram revelados
dados sobre os países.

Análise Descritiva Univariada


De acordo com as questões que nos foram propostas, iremos então apresentar neste tópico a
análise descritiva das variáveis necessárias, de forma a obter uma conclusão sobre a técnica a
aplicar em cada pergunta. Como auxiliar na utilização do SPSS, tivemos por base algumas
bibliografias sugeridas pela docente que leciona a unidade curricular (Marroco, J. (2007) Análise
Estatística: Com utilização do SPSS); (Ramos Pinto, R. (2012). Introdução à Análise de Dados:
Com recurso ao SPSS).

• Cntry (country) - Variável qualitativa nominal, visto que as categorias não possuem uma
ordem natural.
• Wkhtot (total hours normally worked per week in main job overtime included) - Tendo
em conta que a variável em questão é uma variável quantitativa discreta, a forma mais
adequada de análise é através de uma tabela de frequências e histograma (anexo 1).

Através da análise desses dados podemos


depreender que a média de horas é
efetivamente 40 horas semanais, e através do
box-plot podemos aferir que existem diversos
outliers e através da linha da mediana
• Tporgwk (What type of organisation
conseguimos perceber que os dados são
work/worked for)
assimétricos e neste caso, devido a estar mais
próxima do Q1 os dados são positivamente
assimétricos, que tornam evidente o principal
pressuposto da análise: distribuição irregular.

3
Esta é uma variável qualitativa nominal, visto que as
categorias não possuem uma ordem natural. Tendo
esta natureza, podemos analisar esta variável através
de uma tabela de frequências, um gráfico de barras
ou circular e através da moda, onde podemos
observar o valor que ocorreu com mais frequência.
Neste contexto, a forma mais relevante de análise
desta variável é a tabela de frequências.

Nesta variável, existem 6 categorias: Central or local government, Other public sector (such as
education and health), A state owned enterprise, A private firm, Self employed e Other. Por outro
lado, as restantes categorias não são contabilizadas na contagem anterior, por serem
consideradas valores omissos (Not applicable, Refusal, Don’t know e No answer), sendo que a
última categoria, respetivamente, classificada como valor 99 (SPSS) não é apresentada na tabela,
por não haver nenhum indivíduo da população-alvo que corresponda a esta categoria.

• Polintr (how interested in politics) é uma variável qualitativa ordinal.

Esta é uma variável qualitativa ordinal dado que as


categorias possuem uma ordem natural. Tendo
esta natureza, podemos analisar esta variável com
uma tabela de frequências, um gráfico de barras
ou circular e a moda, onde podemos observar o
valor que ocorreu com mais frequência. Neste
contexto, a forma mais relevante de análise desta
variável é a tabela de frequências.

Nesta variável, existem 4 categorias: Very interested, Quite interested, Hardly interested e Not
at all interested.

Em contrapartida, as restantes categorias não são contabilizadas na contagem anterior, por


serem consideradas valores omissos (Refusal, Don’t know e No answer), sendo que as duas
últimas categorias, classificadas como valor 8 e 9, respetivamente (SPSS) não são apresentadas
na tabela, por não haver nenhum indivíduo da população-alvo que corresponda a estas
categorias.

Por fim, observando a tabela, podemos concluir que a moda é Hardly interested, ou seja, a
população-alvo é pouco interessada em política.

4
Inferência Estatística e Análise de Associação

Questão 1
Para a resolução desta primeira questão, aplicámos o Teste de hipóteses para a média
populacional, sendo este teste utilizado para testar se uma média populacional é, ou não, igual
a um determinado valor a partir da estimativa obtida de uma amostra aleatória.

Teste de hipóteses para a média populacional

Formulação de hipóteses:

• Hipótese nula (H0): µ = 40 o número médio de horas é equivalente a 40.


• Hipótese alternativa (H1): µ < 40 o número médio de horas é inferior a 40.

De acordo com o objetivo da análise, definimos este teste sendo unilateral à esquerda, visto que
o valor t da estatística de teste é negativo (-0,005) e por isso, encontra-se do lado esquerdo da
curva.

Como nada foi dito em contrário, fixámos o nível de significância para 5%.

P- Valor = 0,996
0,996 > 0,05 aceitamos H0

Dado que não existem evidências estatísticas que nos levem a rejeitar H0, aceitamos H0. Logo,
o número médio de horas trabalhadas semanalmente, incluindo horas extraordinárias é de 40
horas.

De forma a verificar se a distribuição de dados é normal e por sua vez, verificar a existência do
pressuposto, realizámos também um teste de normalidade. Uma vez que a nossa base de dados
tem mais do que 50 amostras, depreendemos que o teste mais adequado é o de Kolmogorov-
Smirnov.

Teste de Kolmogorov-Smirnov

• Hipótese nula (H0): A variável “wkhtot” segue uma distribuição normal.

5
• Hipótese alternativa (H1): A variável “wkhtot” não segue uma distribuição normal.

P – Valor = 0,01 < 0,05 – Rejeitamos H0

Sendo que existem evidências estatísticas que nos levam a rejeitar H0 (aceitar H1), a variável
“wkhtot” não segue uma distribuição normal e valida-se assim o pressuposto.

Questão 2
Para obtermos a resposta a esta questão, é necessário recorrer a vários testes. Em primeiro
lugar, o Teste ANOVA que é utilizado para testar se as médias de três ou mais populações são
ou não significativamente diferentes.

O Teste ANOVA tem sempre que ser anteriorizado de dois testes: Teste da Normalidade (anexo
2, uma vez que utilizámos o mesmo método da questão 1) e Teste de Homocedasticidade ou
igualdade das variâncias.

Teste de Homocedasticidade ou igualdade das variâncias

• Hipótese nula (H0): As amostras provêm de populações com variância idêntica.


• Hipótese alternativa (H1): As amostras provêm de populações com variância diferente.

Como podemos verificar, o valor p (< 0,001) é menor que 0,05 (α). Desta forma, rejeitamos a
hipótese nula e aceitamos a hipótese alternativa o que significa que as amostras provêm de
populações com variância heterogénea.

Por conseguinte, como ambos os pressupostos falharam, podemos concluir que não é possível
aplicar o Teste ANOVA. Assim sendo, teremos de recorrer a um teste não-paramétrico para
solucionar esta questão (Teste não-paramétrico Kruskal-Wallis).

6
Teste não-paramétrico Kruskal-Wallis

• Hipótese nula (H0): O número médio de horas normalmente trabalhadas por semana
no emprego principal, incluindo as horas extraordinárias é igual entre as seis
organizações.
• Hipótese alternativa (H1): O número médio de horas normalmente trabalhadas por
semana no emprego principal, incluindo as horas extraordinárias é diferente em pelo
menos um par das organizações.

Como podemos constatar, o valor p (< 0,001) é menor que (α). Deste modo, rejeitamos a
hipótese nula e aceitamos a hipótese alternativa, o que significa que o número médio de horas
normalmente trabalhadas por semana no emprego principal, incluindo as horas extraordinárias
é diferente em pelo menos um par das organizações.

No entanto, sempre que se rejeita a hipótese nula neste teste, para verificar entre que par de
instituições ocorrem as diferenças significativas, é necessário realizar o teste de comparação
múltipla de médias de ordens (ver anexo 3 e 4). Este teste compara a distribuição da variável
dependente entre todos os pares de grupos, através do teste de Dunn efetuado pelo SPSS (não
chega a ser executado).

Através da análise da tabela de comparações múltiplas (anexo 3) podemos observar, que o valor
p é menor que 0,05 para os seguintes pares: Other – A private firm; Other – Self employed; Other
public sector (such as education and health) – A private firm; Other public sector (such as
education and health) – Self employed, Central or local government – A private firm; Central or
local government – Self employed; A state owned enterprise – A private firm e A state owned
enterprise – Self employed. Desta forma, rejeitamos a hipótese nula e aceitamos a hipótese
alternativa, o que significa que o número médio de horas normalmente trabalhadas por semana
no emprego principal, incluindo as horas extraordinárias é diferente em pelo menos um par das
organizações.

7
Por fim, podemos concluir que a organização que apresenta um número de horas
extraordinárias ligeiramente superior é Other relativamente às outras organizações.

Questão 3
De forma a compreender melhor as associações específicas entre o tipo de organização e o
interesse na política, decidimos desenvolver outro teste não-paramétrico (teste do Qui-
quadrado), sendo este teste utilizado para medir a diferença entre as frequências obtidas na
amostra e as frequências esperadas.

Teste do Qui-quadrado

Definição de hipóteses:

• Hipótese nula (H0): O interesse na política é independente do tipo de organização de


trabalho.
• Hipótese alternativa (H1): O interesse na política é dependente do tipo de organização
de trabalho.

Definição do nível de significância: α= 0.05

Verificação dos pressupostos:

1. 0,0% < 20%


2. 5.04 > 1
3. Número total de casos - 1439

Valor p – 0,01 < 0,05 (α). Existem evidências estatísticas que nos levam a rejeitar H0 e aceitar
H1, logo, o interesse na política é dependente do tipo de organização de trabalho.

Como o valor da significância assintótica é menor do que 0,05, confirma-se que existe uma
dependência entre as variáveis, porém é possível verificar a intensidade da sua dependência.

Visto que o V de Cramer é de 0,100,


podemos afirmar que a intensidade da
dependência é fraca.

Segundo estes resultados, podemos depreender que existem evidências estatísticas suficientes
que nos levem a crer que apesar de ser fraca, existe dependência entre as variáveis e é possível
identificar associações específicas entre o tipo de organização de trabalho e o interesse na

8
política. Porém, ainda é possível aprofundar mais esta relação de dependência, através da
análise de correspondência. O procedimento que a permite, designa-se por ANACOR.

ANACOR

Após a sumarização e tendo em conta o gráfico da proporção de inércia (anexo 5), escolhemos
considerar 4 dimensões.
As categorias que estabelecem afinidade entre si
são “Hardly interested” e “Not at all interested”
com o tipo de organização “Other” e “Self
employed”, ou seja, as pessoas que apresentam
pouco/nenhum interesse pela política,
trabalham/trabalharam numa outra organização
ou são trabalhadores por conta própria.

Além disso, noutro ponto de vista, as categorias que também estabelecem afinidade entre si são
“Very interested” e “Quite interested” com o tipo de organização” A state owned enterp”, “Other
public sector”, ou seja, as pessoas que apresentam grande interesse ou ligeiro interesse pela
política, trabalham/trabalharam numa empresa pública ou noutro setor público.

Tendo em conta que escolhemos 4 dimensões e que existem várias correlações entre as
mesmas, demos principal atenção às que estão representadas graficamente (anexo 6, 7 e 8) para
validar as afinidades acima referidas, sendo estas 1-2, 1-3 e 1-4.

Assim sendo, as únicas afinidades válidas são “Other” e “Not at all interested” e por fim, “Very
interested” e “Quite interested” com “A state owned enterprise”.

Conclusão

Após uma análise detalhada elaborada pelo grupo, com recurso ao SPSS e à matéria lecionada
em aula, conseguimos responder a todas as questões propostas, através da aplicação dos vários
testes que ao longo deste relatório, mencionámos.

Com isto, podemos depreender que em primeiro lugar, o número médio de horas normalmente
trabalhadas por semana no emprego principal, incluindo as horas extraordinárias é de 40 horas.
No entanto, não são distribuídas de igual forma em cada tipo de organização, tal como podemos
verificar na questão 2, em que há tipos de organizações que se destacam em relação às

9
restantes, constatando que há organizações que apresentam o número médio superior ou
inferior a 40 horas.

Além disso, também foi possível concluir que o interesse na política difere consoante o tipo de
organização que cada indivíduo trabalha ou trabalhou. Neste caso, tal como referimos na
conclusão do teste ANACOR, as pessoas que apresentam grande interesse/ligeiro, interesse pela
política, trabalham/trabalharam numa empresa pública ou noutro setor público enquanto que,
as pessoas que apresentam pouco/nenhum interesse pela política, trabalham/trabalharam
numa outra organização ou são trabalhadores por conta própria.

Referências bibliográficas

• Marroco, J. (2007) Análise Estatística: Com utilização do SPSS (3ª ed.). Lisboa: Edições
Sílabo
• Hair, J. F., Black, W. C., Babin, B. J. & Anderson, R. E. (2018). Multivariate Data Analysis
(8th ed.). Edinburg Gate: Pearson Prentice Hall.
• Ramos Pinto, R. (2012). Introdução à Análise de Dados: Com recurso ao SPSS (2ª ed.).
Lisboa: Edições Sílabo.

Referências bibliográficas eletrónicas:

http://sweet.ua.pt/gladys/ME/Acetatos/Aula6-TH-1.pdf

https://elearning.iscsp.ulisboa.pt/pluginfile.php/59698/mod_resource/content/3/TestesHipot
eses_MediaPopulacional_Normalidade_20220217.pdf

https://elearning.iscsp.ulisboa.pt/pluginfile.php/62701/mod_resource/content/1/TestesHipot
eses_IgualdadeDuasMedias_IgualdadeVariasMedias_20220305.pdf

https://elearning.iscsp.ulisboa.pt/pluginfile.php/67727/mod_resource/content/2/AnaliseBivar
iadaDadosCategoricos_ANACOR_20220419b.pdf

10
Anexos

Anexo 1 – Análise descritiva variável “wkhtot”

Anexo 2 – Teste da Normalidade (questão 2)

• Hipótese nula (H0): O número médio de horas normalmente trabalhadas por semana
no emprego principal, incluindo as horas extraordinárias provém de uma população com
distribuição normal.
• Hipótese alternativa (H1): O número médio de horas normalmente trabalhadas por
semana no emprego principal, incluindo as horas extraordinárias não provém de uma
população com distribuição normal.

11
Como podemos observar, no teste Kolmogorov-Smirnov, o valor p (< a 0,001) é menor que 0,05
(α). Deste modo, rejeitamos a hipótese nula e aceitamos a hipótese alternativa, o que significa
que a variável em análise não segue uma distribuição normal em todas as categorias, exceto a
última categoria em que o valor p é superior a 0,05. Sendo o valor p superior a 0,05, aceitamos
a hipótese nula, o que torna impossível validar este pressuposto.

Anexo 3 – Amostras independentes do teste de Kruskal - Wallis

12
Anexo 4 – Tabela de comparações múltiplas

Anexo 5 – Proporção de Inércia

13
Anexo 6, 7 e 8 – Pontos de Linha e Coluna, Simétrico Normalização

14
15

Você também pode gostar