Você está na página 1de 7

Universidade de São Paulo

Faculdade de Economia, Administração, Contabilidade e Atuária


Departamento de Contabilidade e Atuária
EAC0579 – Análise de Dados para Tomada de Decisão (2023)
Prof.: Drª Tatiana Albanez

Lista 2 - Inferência Estatística e Análise de Clusters


Exercício 1 - O arquivo “500MM.sav” fornece informações financeiras das 50 maiores empresas do ranking
da Revista Exame Melhores & Maiores de 2005. As variáveis que constam da base são:

▪ Vendas (em US$ mil);


▪ Rentabilidade (%) do PL (Patrimônio Líquido);
▪ Índice de Liquidez Geral (em %)
▪ Índice de Endividamento Geral (%).

➢ Com base nas informações fornecidas, aplique a técnica de análise de conglomerados hierárquicos,
utilizando a distância quadrática euclidiana e o método between-groups. Padronize as variáveis pelo
método Z scores.
➢ Analise as saídas do processamento (hierarchical cluster e k-means) e responda:

a) Quantos clusters poderiam ser formados? Justifique com base no esquema de aglomeração e
dendrograma.

b) Quais variáveis são significativas para formar os clusters?

c) Refaça a análise, porém, agora excluindo os outliers da amostra. Para verificar os outliers, utilize o menu:
>Analyze >Descriptive Statistics >Explore (Plots: Boxplot).

d) Quantos clusters poderiam ser formados (sem os outliers)? Justifique;

e) Quais variáveis permanecem significativas para formar os clusters (sem os outliers)?

Exercício 2 - Uma amostra de 15 elementos foi coletada para analisar o tempo médio de atendimento de
determinado serviço em três bancos A, B e C. Verifique se há diferença no tempo médio de atendimento dos
bancos, a um nível de significância de 5%.

Para direcionar a resolução:

1) A amostra obedece aos pressupostos dos Testes Paramétricos?


→ Normalidade e Homogeneidade de Variâncias nos Grupos

2) Amostra independente ou emparelhada?

3) Qual a quantidade de grupos?

4) Escolher um Teste Paramétrico ou Não Paramétrico.

Autor: Matheus Borges Souza


Nº USP: 12625354
Universidade de São Paulo
Faculdade de Economia, Administração, Contabilidade e Atuária
Departamento de Contabilidade e Atuária
EAC0579 – Análise de Dados para Tomada de Decisão (2023)
Prof.: Drª Tatiana Albanez

Resoluções

Exercício 1

a) Com base no esquema de aglomeração abaixo, podemos afirmar que poderiam ser formados 4 clusters,
que são identificados quando se observa um salto grande de valor entre 2 linhas quando temos como
referência a coluna “coefficients”. Em minha visão, tal salto ocorre entre as linhas 46 e 47, quando o
coeficiente salta de 8,714 para 11,507. Essa formação fica bem clara se imaginarmos justamente uma
linha que separa tal salto, ou seja, uma linha entre as linhas 46 e 47 indicando a formação de três clusters
abaixo de onde ocorreu o salto e, portanto, da linha 47 a 49 e uma acima, linha 46. Assim, claramente
vemos a indicação do software de que 4 clusters podem ser formados.

Se analisarmos, ao invés do esquema de aglomeração, o Dendrograma, poderemos chegar a uma mesma


conclusão. Neste gráfico, vemos a disposição dos grupos a partir de um diagrama de árvore que, para
identificar o números de clusters, basta verificar em qual ramificação ocorre um grande salto, como
fazíamos no esquema de aglomeração. Em minha análise, verifiquei tal salto quando surgiu a terceira
ramificação, pois a distância desse terceiro galho da árvore é maior que a do segundo e, portanto,
verifiquei tal salto. Assim, conforme indicado na imagem abaixo, observei a formação de 4 clusters. Um
observação que faria na análise do Dendrograma é a de que facilmente notamos potenciais outliers, pois
há 2 dos 4 clusters identificados com apenas 1 empresa, a Fiat e a Petrobrás, o que eventualmente
prejudica a análise.

Autor: Matheus Borges Souza


Nº USP: 12625354
Universidade de São Paulo
Faculdade de Economia, Administração, Contabilidade e Atuária
Departamento de Contabilidade e Atuária
EAC0579 – Análise de Dados para Tomada de Decisão (2023)
Prof.: Drª Tatiana Albanez

Autor: Matheus Borges Souza


Nº USP: 12625354
Universidade de São Paulo
Faculdade de Economia, Administração, Contabilidade e Atuária
Departamento de Contabilidade e Atuária
EAC0579 – Análise de Dados para Tomada de Decisão (2023)
Prof.: Drª Tatiana Albanez

b) Todas as variáveis em análise, isto é, Vendas (em US$ mil), Rentabilidade do PL (em %), Índice de Liquidez
Geral (em %) e Índice de Endividamento Geral (%) são relevantes para a formação dos clusters. Chegamos
a esta conclusão quando normalizamos os dados (identificando o Z score das variáveis) e realizamos o
teste ANOVA que irá nos indicar se alguma variável é (H1 – Hipótese Alternativa) ou não (H0 – Hipótese Nula)
relevante para a análise das companhias. No nosso caso, assumindo um nível de significância (p-value)
de 5%, temos que para todas as variáveis o sigma do teste é menor que 5%, ou seja, a hipótese nula de
que as variáveis não são significativas deve ser rejeitada, isto é, estamos na região de H1 que indica que
todas as variáveis são relevantes.

c) Realizando a exclusão dos outliers identificados (Fiat e Petrobrás), podemos afirmar que poderiam ser
formados 3 clusters, que são identificados quando se observa um salto grande de valor entre 2 linhas
quando temos como referência a coluna “coefficients”. Em minha visão, tal salto ocorre entre as linhas
44 e 45, quando o coeficiente salta de 8,97 para 12,007. Essa formação fica bem clara se imaginarmos
justamente uma linha que separa tal salto, ou seja, uma linha entre as linhas 44 e 45 indicando a
formação dois clusters abaixo de onde ocorreu o salto e, portanto, da linha 45 e 46 e uma acima, linha
44. Assim, claramente vemos a indicação do software de que 3 clusters podem ser formados.

Autor: Matheus Borges Souza


Nº USP: 12625354
Universidade de São Paulo
Faculdade de Economia, Administração, Contabilidade e Atuária
Departamento de Contabilidade e Atuária
EAC0579 – Análise de Dados para Tomada de Decisão (2023)
Prof.: Drª Tatiana Albanez

Analisado agora o Dendrograma, poderemos chegar a uma mesma conclusão. Neste gráfico, vemos a
disposição dos grupos a partir de um diagrama de árvore que, para identificar o número de clusters,
basta verificar em qual ramificação ocorre um grande salto, como fazíamos no esquema de aglomeração.
Em minha análise, verifiquei tal salto quando surgiu a segunda ramificação, pois a distância desse
segundo galho da árvore é maior que a do primeiro e, portanto, verifiquei tal salto. Assim, conforme
indicado na imagem abaixo, observei a formação de 3 clusters, desta vez sem a presença dos outliers,
pois não vemos a formação de cluster com apenas 1 empresa.

Autor: Matheus Borges Souza


Nº USP: 12625354
Universidade de São Paulo
Faculdade de Economia, Administração, Contabilidade e Atuária
Departamento de Contabilidade e Atuária
EAC0579 – Análise de Dados para Tomada de Decisão (2023)
Prof.: Drª Tatiana Albanez

d) Sem a presença de outliers, a questão de variáveis relevantes ou não relevantes para a análise das
empresas muda, pois a resposta do teste ANOVA difere da primeira. A lógica do teste segue a mesma,
ou seja, vamos verificar se alguma variável é (H1 – Hipótese Alternativa) ou não (H0 – Hipótese Nula) relevante,
assumindo o mesmo nível de significância (p-value) de 5% do teste anterior. Verificando o resultado
temos que todas as variáveis, à exceção da variável Vendas em US$ mil, apresentam sigma do teste que
5%, ou seja, significa que a hipótese nula de que essas variáveis não são significativas deve ser rejeitada,
isto é, estamos na região de H1 que indicam sua relevância. No entanto, quando verificamos
especificamente a variável Vendas em US$ mil notamos que o seu sigma é muito maior que 5%, atingindo
57,1% e portanto, nesse caso, estamos na região de H0 (onde sigma é maior que 5%) e, dessa maneira,
não há evidências na amostra que indiquem a significância da variável e dessa maneira podemos excluí-
la da análise já que ela perde em relevância na formação dos clusters.

Exercício 2

a) Para que os dados obedeçam aos pressupostos dos testes paramétrios é preciso que dois itens sejam
contemplados: a normalidade e a homogeneidade de variâncias nos grupos. Para verificarmos a
normalidade dos dados realizamos o teste de Kolmogorov-Smirnov assumindo como hipótese alternativa
do teste uma distribuição qualquer e como hipótese alternativa a normalidade, além de um nível de
significância (p-value) de 5%. Realizando o teste temos que para todos os bancos o sigma do teste foi de
20%, o que indica normalidade, já que o sigma é maior que o p-value adotado. Caso não estejamos
satisfeitos com o que indica o teste de Kolmogorov-Smirnov, poderemos também testar a hipótese pelo
teste de Shapiro-Wilk e veremos que o resultado é o mesmo, pois em todos os casos o sigma observado
é maior que 5%, sendo 22,5%, 9,03% e 24% respectivamente para o tempo médio dos Bancos A, B e C,
respectivamente.

Autor: Matheus Borges Souza


Nº USP: 12625354
Universidade de São Paulo
Faculdade de Economia, Administração, Contabilidade e Atuária
Departamento de Contabilidade e Atuária
EAC0579 – Análise de Dados para Tomada de Decisão (2023)
Prof.: Drª Tatiana Albanez

Já para o teste de homogeneidade de variâncias utilizarmos o teste de Homogeneidade de Variâncias


de Levene no qual adotamos como hipótese nula (H0) a não homogeneidade das variâncias enquanto
(H1) adota o oposto, isto é, a homogeneidade das variâncias. Adotamos para o teste, como fizemos
nos anteriores, um nível de significância (p-value) de 5%. Realizado o teste verificamos que em
qualquer que seja a base do teste (média, mediana, mediana ajustada ou a média aparada) o sigma é
inferior a 5% o que indica que estamos na região de H1 e, portanto, não há indícios na amostra que
indiquem homogeneidade de variâncias na amostra.

b) Amostra em análise é independente e não emparelhada, pois não se vê nenhuma relação do tipo “antes”
e “depois” nos dados e no enunciado. A amostra seria emparelhada caso o objetivo da estatística fosse
testar se, realizado algum esforço por parte dos bancos, ver-se-ia uma redução do tempo médio de
atendimento do serviço analisado.

c) A quantidade de grupos analisados são 3, devido ao fato de termos 3 bancos em análise, o A, o B e o C.

d) Como a amostra mostrou não seguir os pressupostos dos Testes Paramétricos, não por não seguir a
distribuição normal, mas sim por não ter homogeneidade nas variâncias dos grupos, somos obrigados a
realizar um teste não paramétrico e, neste caso, vamos utilizar o Kruskal-Wallis para verificar se há
diferenças relevantes entre as amostras de tempo médio de atendimento nos bancos. Para isso, vamos
assumir como nível de significância (p-value) 5% e as hipóteses serão as seguintes: H0 - hipótese nula:
não há diferenças significativas; H1 – hipótese alternativa: há diferenças significativas. Realizado o teste
chegamos à conclusão de que o sigma do teste é de 10,9% e, portanto, estamos na região da hipótese
nula (já que 10,9% é maior que 5%), o que indica não haver diferenças significativas no tempo médio de
atendimento nos bancos A, B e C.

Autor: Matheus Borges Souza


Nº USP: 12625354

Você também pode gostar