Escolar Documentos
Profissional Documentos
Cultura Documentos
➢ Com base nas informações fornecidas, aplique a técnica de análise de conglomerados hierárquicos,
utilizando a distância quadrática euclidiana e o método between-groups. Padronize as variáveis pelo
método Z scores.
➢ Analise as saídas do processamento (hierarchical cluster e k-means) e responda:
a) Quantos clusters poderiam ser formados? Justifique com base no esquema de aglomeração e
dendrograma.
c) Refaça a análise, porém, agora excluindo os outliers da amostra. Para verificar os outliers, utilize o menu:
>Analyze >Descriptive Statistics >Explore (Plots: Boxplot).
Exercício 2 - Uma amostra de 15 elementos foi coletada para analisar o tempo médio de atendimento de
determinado serviço em três bancos A, B e C. Verifique se há diferença no tempo médio de atendimento dos
bancos, a um nível de significância de 5%.
Resoluções
Exercício 1
a) Com base no esquema de aglomeração abaixo, podemos afirmar que poderiam ser formados 4 clusters,
que são identificados quando se observa um salto grande de valor entre 2 linhas quando temos como
referência a coluna “coefficients”. Em minha visão, tal salto ocorre entre as linhas 46 e 47, quando o
coeficiente salta de 8,714 para 11,507. Essa formação fica bem clara se imaginarmos justamente uma
linha que separa tal salto, ou seja, uma linha entre as linhas 46 e 47 indicando a formação de três clusters
abaixo de onde ocorreu o salto e, portanto, da linha 47 a 49 e uma acima, linha 46. Assim, claramente
vemos a indicação do software de que 4 clusters podem ser formados.
b) Todas as variáveis em análise, isto é, Vendas (em US$ mil), Rentabilidade do PL (em %), Índice de Liquidez
Geral (em %) e Índice de Endividamento Geral (%) são relevantes para a formação dos clusters. Chegamos
a esta conclusão quando normalizamos os dados (identificando o Z score das variáveis) e realizamos o
teste ANOVA que irá nos indicar se alguma variável é (H1 – Hipótese Alternativa) ou não (H0 – Hipótese Nula)
relevante para a análise das companhias. No nosso caso, assumindo um nível de significância (p-value)
de 5%, temos que para todas as variáveis o sigma do teste é menor que 5%, ou seja, a hipótese nula de
que as variáveis não são significativas deve ser rejeitada, isto é, estamos na região de H1 que indica que
todas as variáveis são relevantes.
c) Realizando a exclusão dos outliers identificados (Fiat e Petrobrás), podemos afirmar que poderiam ser
formados 3 clusters, que são identificados quando se observa um salto grande de valor entre 2 linhas
quando temos como referência a coluna “coefficients”. Em minha visão, tal salto ocorre entre as linhas
44 e 45, quando o coeficiente salta de 8,97 para 12,007. Essa formação fica bem clara se imaginarmos
justamente uma linha que separa tal salto, ou seja, uma linha entre as linhas 44 e 45 indicando a
formação dois clusters abaixo de onde ocorreu o salto e, portanto, da linha 45 e 46 e uma acima, linha
44. Assim, claramente vemos a indicação do software de que 3 clusters podem ser formados.
Analisado agora o Dendrograma, poderemos chegar a uma mesma conclusão. Neste gráfico, vemos a
disposição dos grupos a partir de um diagrama de árvore que, para identificar o número de clusters,
basta verificar em qual ramificação ocorre um grande salto, como fazíamos no esquema de aglomeração.
Em minha análise, verifiquei tal salto quando surgiu a segunda ramificação, pois a distância desse
segundo galho da árvore é maior que a do primeiro e, portanto, verifiquei tal salto. Assim, conforme
indicado na imagem abaixo, observei a formação de 3 clusters, desta vez sem a presença dos outliers,
pois não vemos a formação de cluster com apenas 1 empresa.
d) Sem a presença de outliers, a questão de variáveis relevantes ou não relevantes para a análise das
empresas muda, pois a resposta do teste ANOVA difere da primeira. A lógica do teste segue a mesma,
ou seja, vamos verificar se alguma variável é (H1 – Hipótese Alternativa) ou não (H0 – Hipótese Nula) relevante,
assumindo o mesmo nível de significância (p-value) de 5% do teste anterior. Verificando o resultado
temos que todas as variáveis, à exceção da variável Vendas em US$ mil, apresentam sigma do teste que
5%, ou seja, significa que a hipótese nula de que essas variáveis não são significativas deve ser rejeitada,
isto é, estamos na região de H1 que indicam sua relevância. No entanto, quando verificamos
especificamente a variável Vendas em US$ mil notamos que o seu sigma é muito maior que 5%, atingindo
57,1% e portanto, nesse caso, estamos na região de H0 (onde sigma é maior que 5%) e, dessa maneira,
não há evidências na amostra que indiquem a significância da variável e dessa maneira podemos excluí-
la da análise já que ela perde em relevância na formação dos clusters.
Exercício 2
a) Para que os dados obedeçam aos pressupostos dos testes paramétrios é preciso que dois itens sejam
contemplados: a normalidade e a homogeneidade de variâncias nos grupos. Para verificarmos a
normalidade dos dados realizamos o teste de Kolmogorov-Smirnov assumindo como hipótese alternativa
do teste uma distribuição qualquer e como hipótese alternativa a normalidade, além de um nível de
significância (p-value) de 5%. Realizando o teste temos que para todos os bancos o sigma do teste foi de
20%, o que indica normalidade, já que o sigma é maior que o p-value adotado. Caso não estejamos
satisfeitos com o que indica o teste de Kolmogorov-Smirnov, poderemos também testar a hipótese pelo
teste de Shapiro-Wilk e veremos que o resultado é o mesmo, pois em todos os casos o sigma observado
é maior que 5%, sendo 22,5%, 9,03% e 24% respectivamente para o tempo médio dos Bancos A, B e C,
respectivamente.
b) Amostra em análise é independente e não emparelhada, pois não se vê nenhuma relação do tipo “antes”
e “depois” nos dados e no enunciado. A amostra seria emparelhada caso o objetivo da estatística fosse
testar se, realizado algum esforço por parte dos bancos, ver-se-ia uma redução do tempo médio de
atendimento do serviço analisado.
d) Como a amostra mostrou não seguir os pressupostos dos Testes Paramétricos, não por não seguir a
distribuição normal, mas sim por não ter homogeneidade nas variâncias dos grupos, somos obrigados a
realizar um teste não paramétrico e, neste caso, vamos utilizar o Kruskal-Wallis para verificar se há
diferenças relevantes entre as amostras de tempo médio de atendimento nos bancos. Para isso, vamos
assumir como nível de significância (p-value) 5% e as hipóteses serão as seguintes: H0 - hipótese nula:
não há diferenças significativas; H1 – hipótese alternativa: há diferenças significativas. Realizado o teste
chegamos à conclusão de que o sigma do teste é de 10,9% e, portanto, estamos na região da hipótese
nula (já que 10,9% é maior que 5%), o que indica não haver diferenças significativas no tempo médio de
atendimento nos bancos A, B e C.