Universidade do Minho – Campus Azurém – Portugal

www.uminho.pt
Análise Exploratória de Dados
Chamadas Telefónicas
Trabalho elaborado por:
Autor X
Autor Y
no âmbito da disciplina de Oficina I (http://www3.dsi.uminho.pt/pimenta/eaoficina-i/) do 1º ano do
curso de Estatística Aplicada (http://www.mct.uminho.pt/leap/).
Guimarães, 04 de Fevereiro de 2008
Análise Exploratória de Dados – Chamadas Telefónicas
Sumário
Este trabalho foi proposto no âmbito da Unidade Curricular de Oficina I do 1º ano do
curso de Estatística Aplicada, conjuntamente pelos docentes Arminda Manuela
Gonçalves e Pedro Pimenta, e com o objectivo de proceder a uma análise exploratória
de dados recorrendo a diferentes ferramentas de cálculo.
Para efectuarmos a implementação das estratégias de análise exploratória dos dados
facultados utilizamos três ferramentas de cálculo distintas – o Excel, o SPSS e a
calculadora gráfica Texas (modelo TI-83). Quando não foi possível efectuar os cálculos
recorrendo às ferramentas indicadas, efectuámo-los com papel e lápis e transcrevemo-
los para o presente relatório. Em simultâneo fizemos uma leitura e interpretação dos
resultados obtidos.
A análise dos dados permitiu-nos, principalmente, adquirir competências para manipular
com mais à vontade as três ferramentas de cálculo acima apontadas.
Este relatório está organizado da seguinte forma: optamos, inicialmente, por dividir a
análise exploratória dos dados em duas partes – a análise dos dados em bruto e a análise
dos dados agrupados – em que em cada uma delas se apresenta o estudo dos dados
recorrendo às três ferramentas de cálculo. Posteriormente formamos outras duas partes
– uma para apresentar os dados através da caixa com 5 letras – resumo, já que esta não
pode ser efectuada recorrendo a nenhuma das ferramentas de cálculo utilizadas; outra
parte para realizar uma análise aos dados sem os valores que viemos a constatar serem
discordantes. Por fim criamos outra parte para fazer a discussão dos resultados.
Relativamente ao estudo efectuado, os dados facultados dizem respeito a custos de
chamadas telefónicas regionais, efectuadas por um departamento de uma faculdade ao
longo de três anos. Como principais resultados obtivemos, por exemplo, o cálculo da
média e a determinação da assimetria da amostra (que revelou ser enviesada à esquerda)
e que portanto mostrou que, tirando alguns meses excepcionais, os custos com as
chamadas telefónicas se concentraram em volta de um valor. Dado que o objectivo de
qualquer estudo estatístico envolvendo custos é sempre a tomada de decisões para a
diminuição e controlo dos mesmos, recomendamos por exemplo, que se criem limites
máximos mensais para os gastos com essas chamadas telefónicas, limite a partir do qual
essas chamadas terão de ser justificadas. Sugerimos que esse limite máximo seja o valor
do 3º quartil determinado à frente neste relatório.
ii
Análise Exploratória de Dados – Chamadas Telefónicas
Summary
This essay was proposed concerning the curricular unit Oficina I of the first year
colleage certificate of Applicated Statistics, by the group of teachers Arminda Manuela
Gonçalves and Pedro Pimenta, and with the purpose of proceeding to an exploratory
analysis of data, using different calculation tools.
To make the exploratory analysis of strategies implementation of the given data, it was
used three distinct calculation tools – Excel, SPSS and Texas graphic calculators (TI-83
model). When the calculations were not possible to do using the referred tools, they
were made using paper and pencil, and enclosed in the present report. Simultaneously a
reading and interpretation of the obtained results was made.
The data analysis allowed us to, mainly, acquire the skills to manipulate easily the three
calculation tools mentioned previously.
This report is organised as follows: initially we chose to divide the exploratory data
analysis in two parts – the rough data analysis and the grouped data analysis – in each of
them a data study is presented using the here calculation tools. Later, another two parts
were formed, one to present the data through a five letter box – summary, as this one
cannot be made using none of the calculation tools; the other part to perform a non
valued data analysis that we realised being non-agreeable. Finally we created another
part to discuss the results.
According to this investigation, the provided data concerns costs of regional phone
calls, made by an academic department for three years. As main results we got, for
example, the arithmetical mean estimate and the asymmetry resolution of the sample
(that showed to be inclined to the left), therefore, revealed that, except for some unusual
months, the costs of the phone calls were focussed on one value. As the goal of any
statistic study, implying costs, is to reduce and to control them, it is recommended, for
instance, that maximum monthly limits should be established as far as expenses are
concerned, a limit through which those calls must be justified. We suggest that the limit
should be the value of the 3rd quartil which will subsequently be determined in this
report.
iii
Análise Exploratória de Dados – Chamadas Telefónicas
Índice de Conteúdos
Sumário ............................................................................................................................. ii
Summary .......................................................................................................................... iii
Índice de Conteúdos ......................................................................................................... iv
Enunciado .......................................................................................................................... 1
Análise Exploratória dos Dados ........................................................................................ 2
Dados em Bruto ............................................................................................................. 3
Introdução dos Dados ................................................................................................ 3
Ordenação dos Dados ................................................................................................ 5
Limpeza e Análise dos Dados .................................................................................... 8
Tabelas de Frequências .............................................................................................. 8
Representações gráficas ........................................................................................... 14
Medidas de Localização .......................................................................................... 15
Medidas de Dispersão .............................................................................................. 19
Coeficiente de Variação ........................................................................................... 22
Coeficiente de Assimetria ........................................................................................ 22
Coeficiente de Achatamento .................................................................................... 23
Diagrama de Caule – e – Folhas .............................................................................. 24
Caixa com Bigodes .................................................................................................. 26
Dados Agrupados ......................................................................................................... 30
Tabelas de Frequências ............................................................................................ 32
Representações gráficas ........................................................................................... 33
Medidas de Localização .......................................................................................... 39
Medidas de Dispersão .............................................................................................. 41
Coeficiente de Variação ........................................................................................... 42
Coeficiente de Assimetria ........................................................................................ 42
Coeficiente de Achatamento .................................................................................... 43
Caixa com 5 Letras – Resumo ......................................................................................... 44
Análise de Valores Discordantes (Outliers) .................................................................... 47
Discussão dos resultados ................................................................................................. 48
Comparação das ferramentas de cálculo utilizadas ..................................................... 48
Facilidade de resolução ........................................................................................... 48
Comparação dos resultados obtidos ........................................................................ 48
Outros aspectos ........................................................................................................ 48
Recomendações ........................................................................................................... 49
Conclusões ....................................................................................................................... 50
Reflexão sobre o trabalho de grupo ............................................................................. 50
Reflexão do Grupo ................................................................................................... 50
Reflexões Individuais .............................................................................................. 50
Índice Remissivo ............................................................................................................. 52
Anexos ............................................................................................................................. 53
Anexo I – Análise dos dados sem outliers (Excel e SPSS) ......................................... 54
Anexo II – Definições .................................................................................................. 61
iv
Análise Exploratória de Dados – Chamadas Telefónicas
Enunciado
Considere os seguintes dados correspondentes aos gastos com chamadas telefónicas
regionais de um departamento de uma faculdade ao longo de três anos (1996/1998):
Tabela 1. Dados Originais
4,0 3,7 3,8 3,4 9,0 4,6 4,3 5,5 3,8 4,4 3,6 5,4
3,9 3,9 3,5 3,9 4,6 3,5 3,8 7,7 3,9 5,1 5,2 5,1
5,4 6,3 5,1 4,0 3,8 3,9 3,8 4,9 7,7 4,2 3,8 3,5
Proceda ao tratamento exploratório dos dados, com o objectivo de “ganhar”
sensibilidade à forma da população subjacente. Organize e analise os dados, começando
por pensar nas estratégias que deve adoptar. Explique as suas opções e o modo como
proceder.
Apenas com recurso a técnicas exploratórias que utilizou, teça comentários que lhe
pareçam apropriados acerca das metodologias e “ferramentas de cálculo” utilizados.
1
Análise Exploratória de Dados – Chamadas Telefónicas
Análise Exploratória dos Dados
A informação estatística que foi facultada é constituída por dados numéricos (dados
estatísticos) que representam custos de chamadas telefónicas regionais numa moeda que
é desconhecida e que portanto passaremos a denominar por “<unidades>”. Também é
desconhecida a forma como os dados foram obtidos.
Os custos das chamadas telefónicas regionais definem uma variável estatística, que
passaremos a denominar por
x
. Essa variável estatística pode classificar-se de
quantitativa contínua pois além de tomar valores numéricos esses valores podem situar-
se dentro de um qualquer intervalo de números reais.
2
Análise Exploratória de Dados – Chamadas Telefónicas
Dados em Bruto
Apesar da nossa variável ser quantitativa continua fizemos a análise dos dados em bruto
como se de uma variável discreta se tratasse.
Introdução dos Dados
• Excel
No Excel os dados podem ser introduzidos de formas diferentes. Uma das formas, e a
que utilizamos, foi escrevê-los directamente numa coluna (coluna C no nosso caso -ver
tabela 3). No entanto também o poderíamos ter feito numa linha ou então, caso
tivéssemos os dados guardados num outro tipo de ficheiro de texto (na Web ou no Word)
seria possível importá-los.
Em simultâneo foi criada outra coluna (B) para a contagem dos dados. Nesta coluna
bastou escrever alguns números, seleccioná-los e arrastar a alça de preenchimento
(pequeno quadrado preto no canto inferior direito da selecção) – procedimento adoptado
em todos os passos de copia de fórmulas em Excel apresentados doravante.
Podemos então concluir que tínhamos em mãos um total de 36 dados ( 36 n · ) –
correspondendo, certamente, a cada um dos 36 meses dos anos de 1996, 1997 e 1998
sobre os quais incide a nossa análise.
• SPSS
Em SPSS podem ser introduzidos os dados em bruto na primeira coluna da janela Data
View (note-se que cada coluna desta janela representa uma variável em estudo e onde
cada célula desta coluna contém um valor da variável, ou seja, cada linha representa um
caso). No entanto não foi assim que o fizemos já que possuíamos os dados em Excel e o
SPSS permite importar dados de diversos formatos. Bastou para tal fazer um
copy/paste.
3
Análise Exploratória de Dados – Chamadas Telefónicas
Tabela 2. Dados em Bruto (SPSS)
De seguida, na janela Variable View, podemos observar e/ou modificar a descrição da
nossa variável (ver Figura 1), passo importante para a prossecução da análise dos dados.
Desta forma, introduzimos em name “Custos” e em Label “Custos das chamadas
telefónicas” já que neste último é possível a introdução de um nome mais extenso e que
inclua espaços entre palavras. Em Measure, optamos por “Scale” já que se trata de uma
variável quantitativa. Em Decimal, alteramos para 1 já que os nossos dados originais
têm uma casa decimal. Nas restantes descrições mantivemos as que foram determinadas
de forma automática.
(…)
Figura 1. Janela Variable View (SPSS)
4
Análise Exploratória de Dados – Chamadas Telefónicas
• Calculadora
Para introduzir dados na calculadora adoptamos os seguir passos:
- Digitamos
- Digitamos para escolher 1: EDIT
Figura 2. Menu STAT (Calculadora).
De seguida:
- Digitamos 4 Enter
3.9 Enter
5.4 Enter
...
Os números digitados (os nossos dados originais) aparecem em L1.
Figura 3. Visualização dos dados na lista L1
Ordenação dos Dados
Depois de introduzir os dados estes devem ser ordenados (fizemo-lo por ordem
ascendente). Esta organização não é mais do que uma análise inicial dos mesmos e que
auxilia o esclarecimento de modelos e aspectos de regularidade. Torna os dados mais
facilmente assimiláveis e foca características úteis e importantes. Também pensamos
que os nossos dados, representando custos de chamadas telefónicas, não têm uma
estrutura sequencial e/ou lógica que possa ficar destruída com essa ordenação e que
possa comprometer a sua análise exploratória. O rank inicial apenas nos indica o mês no
qual se obteve o respectivo custo das chamadas telefónicas regionais.
5
Análise Exploratória de Dados – Chamadas Telefónicas
• Excel
Em Excel a ordenação foi feita seleccionando os dados (previamente copiados para uma
outra coluna D) e utilizando o comando Ordenar do menu Dados.
Tabela 3. Dados em Bruto/Ordenados (SPSS)
N.º dados Dados em bruto Dados Ordenados
1 4 3,4
2 3,9 3,5
3 5,4 3,5
4 3,7 3,5
5 3,9 3,6
6 6,3 3,7
7 3,8 3,8
8 3,5 3,8
9 5,1 3,8
10 3,4 3,8
11 3,9 3,8
12 4 3,8
13 9 3,9
14 4,6 3,9
15 3,8 3,9
16 4,6 3,9
17 3,5 3,9
18 3,9 4
19 4,3 4
20 3,8 4,2
21 3,8 4,3
22 5,5 4,4
23 7,7 4,6
24 4,9 4,6
25 3,8 4,9
26 3,9 5,1
27 7,7 5,1
28 4,4 5,1
29 5,1 5,2
30 4,2 5,4
31 3,6 5,4
32 5,2 5,5
33 3,8 6,3
34 5,4 7,7
35 5,1 7,7
36 3,5 9
6
Análise Exploratória de Dados – Chamadas Telefónicas
No entanto, caso alteremos algum dos dados iniciais o Excel não actualiza a ordenação
dos dados! Para que isso não aconteça seriam necessários conceitos de programação,
conceitos esses que pensamos saírem fora do propósito deste trabalho.
Após esta ordenação podemos concluir que o menor valor dos dados – o mínimo – é 3,4
e o maior valor – o máximo – é 9. A sua interpretação é simples: durante os três anos em
análise o menor custo em chamadas telefónicas regionais no departamento da
Universidade foi de 3,4 <unidades> e o maior custo foi de 9 <unidades>.
• SPSS
Com a opção Sort Cases do menu Data podemos ordenar os dados por ordem
ascendente (ou descendente), obtendo:
Tabela 4. Dados Ordenados (SPSS)
• Calculadora
Para ordenar os dados na
calculadora seguimos os
passos seguintes:
- Digitamos e
obtivemos, no ecrã principal,
SortA(
- Digitamos L1 e
obtivemos:
Figura 4. Ordenação dos Dados (Calculadora)
7
Análise Exploratória de Dados – Chamadas Telefónicas
Ao acedermos novamente às listas verificamos que os dados foram ordenados por
ordem crescente.
Figura 5. Dados Ordenados (Calculadora)
Limpeza e Análise dos Dados
Após a ordenação dos dados é mais simples proceder a uma inspecção e limpeza dos
mesmos, ou seja, analisar cuidadosamente os dados de forma a detectar eventuais erros
ou enganos. Esta fase é de extrema importância já que toda a análise posterior poderá
ficar comprometida por dados incorrectos.
No nosso caso não nos pareceu existir dados fora de contexto. Parecem-nos estar todos
dentro de um padrão de normalidade.
Tabelas de Frequências
No caso das chamadas telefónicas, e como na maioria das amostras estatísticas, alguns
(muitos!) dos dados são repetidos, o que torna fastidiosa a nossa análise. Para que tal
não aconteça reunimos toda a informação inicial numa tabela de frequências.
• Excel
Para fazer a contagem dos elementos repetidos criamos uma coluna na tabela para aí
colocar as frequências absolutas (coluna E –ni – ver Figura 5). Para tal, introduzimos a
seguinte fórmula na célula relativa à frequência absoluta do valor mínimo, que foi
posteriormente copiada para a restante coluna:
=CONTAR.SE($C$14:$C$49;D55)
Ou seja, fomos contar todos os valores iguais a um certo valor nos nossos dados iniciais
e fizemos a apresentação dessa contagem na célula pretendida.
No final dessa coluna acrescentamos uma célula com o total para, por um lado controlar
se a contagem tinha sido feita correctamente e por outro lado para ter uma célula com o
8
Análise Exploratória de Dados – Chamadas Telefónicas
total de observações. Bastou portanto fazer um somatório de todos os valores dessa
coluna:
=SOMA(E55:E73)
Constatamos que apesar de termos inicialmente um total de 36 casos, esses na sua
maioria são diferentes. Ou seja, temos 19 valores diferentes num universo de 36 o que
reforça ainda mais a ideia de que estes dados têm mais lógica ser analisados agrupados
em classes (não esqueçamos que estamos na presença de uma variável quantitativa
contínua!).
No entanto, apenas com esta informação não poderíamos afirmar se um certo valor era
ou não muito frequente no conjunto de dados inicial. Fizemos então uso das frequências
relativas (coluna G - fi). Para tal, bastou dividir a primeira frequência absoluta pelo total
de observações, introduzindo a seguinte fórmula na primeira célula da coluna da
frequência relativa:
=E55/$E$74
e copiá-la para a restante coluna. Da mesma forma no final dessa coluna acrescentamos
uma célula com o total para controlar se as frequências relativas tinham sido feitas
correctamente. Bastou portanto fazer:
=SOMA(G55:G73)
Para além das frequências absolutas e das frequências relativas muitas vezes temos
interesse considerar a frequência absoluta acumulada (coluna F - Ni) e a frequência
relativa acumulada (coluna H -Fi), isto se estivermos interessados em saber o número
de observações inferiores ou iguais a um certo valor (para o primeiro caso) e a
percentagem de observações inferiores ou iguais a um certo valor (para o segundo
caso).
Para tal, e no que diz respeito à coluna das frequências absolutas acumuladas, a primeira
célula é copiada da primeira célula das frequências absolutas. A restante coluna basta
fazer a soma da célula adjacente superior com a célula adjacente esquerda. Por exemplo
para a frequência absoluta da segunda observação, foi calculada através da seguinte
fórmula:
=F55+E56
A construção da coluna das frequências relativas acumuladas é feita de forma análoga à
coluna das frequências relativas.
Tabela 5. Tabela de Frequências (Excel)
9
Análise Exploratória de Dados – Chamadas Telefónicas
Gastos nas chamadas telefónicas
i xi ni Ni fi Fi
1 3,4 1 1 0,028 0,028
2 3,5 3 4 0,083 0,111
3 3,6 1 5 0,028 0,139
4 3,7 1 6 0,028 0,167
5 3,8 6 12 0,167 0,333
6 3,9 5 17 0,139 0,472
7 4 2 19 0,056 0,528
8 4,2 1 20 0,028 0,556
9 4,3 1 21 0,028 0,583
10 4,4 1 22 0,028 0,611
11 4,6 2 24 0,056 0,667
12 4,9 1 25 0,028 0,694
13 5,1 3 28 0,083 0,778
14 5,2 1 29 0,028 0,806
15 5,4 2 31 0,056 0,861
16 5,5 1 32 0,028 0,889
17 6,3 1 33 0,028 0,917
18 7,7 2 35 0,056 0,972
19 9 1 36 0,028 1,000
Total: 36 1,000
Note-se que caso tivéssemos efectuado os cálculos manualmente, estes não teriam sido
exactamente iguais – torna-se mais difícil manualmente o cálculo exacto de todas as
estatísticas mantendo todas as casas decimais.
Assim, através de uma leitura atenta da tabela 5 podemos concluir, por exemplo, que
durante os 3 anos da nossa análise, houve um registo em 6 meses de um custo de 3,8
<unidades> (ver linha 5 coluna ni); que em 29 meses o custo das chamadas telefónicas
regionais não ultrapassou as 5,2 <unidades> (ver linha 14 coluna Ni); que em 13,9%
dos meses houve registo de um custo, em chamadas telefónicas regionais, de 3,9
<unidades> (ver linha 6 coluna fi) e que nos 97,2% dos meses o custo das chamadas não
ultrapassou as 7,7 <unidades> (ver linha 18 coluna Fi).
• SPSS
Para criar a tabela de frequências foi necessário aceder ao menu Analyse, seleccionar a
opção Descriptive Statistics e dentro desta, Frequencies. Na janela que surge, por
defeito, aparece seleccionado a opção “Display frequency tables” pelo que bastará fazer
OK. Desta forma é aberta uma janela de resultados – janela Output – dos comandos
efectuados pelo SPSS na forma de uma tabela que foi posteriormente editada de forma a
ficar como a seguinte:
10
Análise Exploratória de Dados – Chamadas Telefónicas
Tabela 6. Tabela de Frequências Completa (SPSS)
Custos das Chamadas Telefónicas
1 2,8 2,8 2,8
3 8,3 8,3 11,1
1 2,8 2,8 13,9
1 2,8 2,8 16,7
6 16,7 16,7 33,3
5 13,9 13,9 47,2
2 5,6 5,6 52,8
1 2,8 2,8 55,6
1 2,8 2,8 58,3
1 2,8 2,8 61,1
2 5,6 5,6 66,7
1 2,8 2,8 69,4
3 8,3 8,3 77,8
1 2,8 2,8 80,6
2 5,6 5,6 86,1
1 2,8 2,8 88,9
1 2,8 2,8 91,7
2 5,6 5,6 97,2
1 2,8 2,8 100,0
36 100,0 100,0
3,4
3,5
3,6
3,7
3,8
3,9
4,0
4,2
4,3
4,4
4,6
4,9
5,1
5,2
5,4
5,5
6,3
7,7
9,0
Total
Válidos
Frequência
Absoluta Percentagem
Percentagem
de Válidos
Percentagem
Acumulada
Note-se que esta tabela não traz incluída qualquer coluna com as frequências absolutas
acumuladas.
Por outro lado, esta tabela inclui uma estatística “Válidos” (e noutras ocasiões
“Desconhecidos”) que é usada com o seguinte fim: caso estivéssemos na presença dados
recolhidos por um inquérito em que alguns deles, no que respeita a esta variável, tinham
sido deixados em branco, o SPSS determina as estatísticas com e sem esses casos.
Como neste trabalho, isso não acontece, o cálculo coincide para os casos válidos e para
a totalidade dos casos. Assim, podemos eliminar a coluna “Percentagem de Válidos”, já
que é igual à anterior, obtendo:
Tabela 7. Tabela de Frequências (SPSS)
11
Análise Exploratória de Dados – Chamadas Telefónicas
Custos das Chamadas Telefónicas
1 2,8 2,8
3 8,3 11,1
1 2,8 13,9
1 2,8 16,7
6 16,7 33,3
5 13,9 47,2
2 5,6 52,8
1 2,8 55,6
1 2,8 58,3
1 2,8 61,1
2 5,6 66,7
1 2,8 69,4
3 8,3 77,8
1 2,8 80,6
2 5,6 86,1
1 2,8 88,9
1 2,8 91,7
2 5,6 97,2
1 2,8 100,0
36 100,0
3,4
3,5
3,6
3,7
3,8
3,9
4,0
4,2
4,3
4,4
4,6
4,9
5,1
5,2
5,4
5,5
6,3
7,7
9,0
Total
Válidos
Frequência
Absoluta Percentagem
Percentagem
Acumulada
• Calculadora
Para obter as frequências absolutas:
Para fazer uma coluna de frequências absolutas, tivemos de previamente ter o cuidado
de não repetir dados na primeira lista, introduzindo, então, na coluna seguinte, as
frequências absolutas correspondentes a cada valor da variável – na lista L2.
Para construirmos a coluna das frequências absolutas acumuladas, com o cursor em
cima do nome da lista teclamos List para OPS e em seguida 6:ComSum(.
Figura 6. Menu Opções das Listas (Calculadora)
Digitamos, a seguir, LIST e seleccionamos L2. Obtivemos:
12
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 7. Frequências Absolutas (Calculadora)
Digitamos , e obtivemos:
Figura 8. Frequências Absolutas Acumuladas (Calculadora)
Para obter as frequências relativas:
Colocamos o cursor sobre uma nova lista, L4. Em baixo, a seguir a L4= teclamos
LIST L2
÷
36 e obtivemos os valores das frequências relativas.
Figura 9. Frequências Relativas (Calculadora)
Obtivemos também uma coluna de frequências relativas acumuladas adoptando desta
vez um procedimento idêntico ao que permitiu obter as frequências absolutas
acumuladas. Neste caso, começamos por usar uma nova lista L5. Com o cursor em cima
do nome da lista L5, teclamos LIST OPS 6:ComSum( e, em seguida, ComSum(
LIST L5 e .
13
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 10. Frequências Relativas Acumuladas (Calculadora)
Representações gráficas
Dado que a nossa variável em estudo é quantitativa contínua, a representação mais
adequada não é o gráfico de barras mas sim o histograma. No entanto, dada a sua
simplicidade também o construímos fazendo uso da frequência absoluta das
observações.
• Excel
A Construção deste tipo de gráfico recorrendo ao Excel foi bastante simples. Bastou
fazer Inserir, depois Gráfico e seleccionar o tipo de gráfico (Colunas). Seguidamente
bastou inserir no intervalo de dados as colunas contendo os dados e as respectivas
frequências absolutas:
=Resolução!$D$55:$E$73
Fazendo umas alterações às legendas o resultado foi:
Gráfico de Barras
0
1
2
3
4
5
6
7
3,4 3,5 3,6 3,7 3,8 3,9 4 4,2 4,3 4,4 4,6 4,9 5,1 5,2 5,4 5,5 6,3 7,7 9
Custos das Chamadas Telefónicas
n
i
Figura 11. Gráfico de Barras (Excel)
14
Análise Exploratória de Dados – Chamadas Telefónicas
Mais uma vez podemos concluir que esta não é a melhor forma de representar os dados
pois o gráfico apresenta-se muito extenso e com muitas barras todas da mesma altura.
Pela observação do gráfico também podemos concluir, por exemplo, que houve um
registo em 6 meses de um custo, de chamadas telefónicas regionais, de 3,8 <unidades>.
• SPSS
Para obter o gráfico de barras recorrendo ao SPSS foi necessário aceder novamente ao
menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta, Frequencies.
Na janela que surge, devemos aceder a Charts e de seguida seleccionar Bar Charts.
Novamente surge uma janela Output com o gráfico pretendido, que também foi editado
para ficar como o seguinte:
Figura 12. Gráfico de Barras (SPSS)
• Calculadora
Não é possível fazer a representação deste gráfico recorrendo a esta ferramenta de
cálculo.
Medidas de Localização
É usual haver vantagem em determinar valores numéricos que possam “representar” a
diversidade dos valores que constituem uma distribuição com uma variável quantitativa,
dando, por si só uma indicação sugestiva da ordem de grandeza daqueles valores. É esse
o papel das medidas de localização central que calculamos e apresentamos de seguida: a
15
Análise Exploratória de Dados – Chamadas Telefónicas
média, a moda e a mediana. Das três medidas a média é a mais usual – pois tem um
significado muito importante – ela funciona para a distribuição de dados um ponto de
equilíbrio. No entanto a média tem uma grande desvantagem – a sua grande
sensibilidade a valores extremos. Diz-se que é pouco resistente.
Quanto a medidas de localização extremal temos o máximo e o mínimo, já destacados
anteriormente neste relatório.
Outras medidas de localização com bastante interesse para o conhecimento da
distribuição são os quantis. Assim como a mediana separa a distribuição ordenada em
duas partes com igual efectivo também se pode considerar a distribuição subdividida em
quatro partes – com os quartis, ou em dez partes – com os décis, ou em cem partes –
com os percentis, ou nas partes que entendermos e julgamos ser necessário.
• Excel
Para determinar a média, bastou utilizar a função MEDIA do Excel, que não é mais do
que uma fórmula predefinida que executa o cálculo pretendido. No nosso caso foi
suficiente introduzir a seguinte fórmula fazendo referência aos dados originais:
=MÉDIA(C14:C49)
Para determinar a mediana bastou fazer uso da função MED do Excel:
=MED(C14:C49)
Para determinar a moda bastou fazer uso da função MODA do Excel:
=MODA(C14:C49)
No que concerne ao máximo e ao mínimo dos dados, já os destacamos anteriormente.
No entanto podemos fazer uso das funções MÁXIMO e MÍNIMO do Excel,
respectivamente:
=MÁXIMO(C14:C49)
e
=MÍNIMO(C14:C49)
Quanto ao quartis, sabe-se que o 2º coincide com a mediana. Quanto aos 1º e 3º
calculam-se no Excel recorrendo à função QUARTIL. Para o primeiro bastou fazer:
=QUARTIL(C14:C49;1)
e para o terceiro:
=QUARTIL(C14:C49;3)
Note-se que a diferença é o algarismo assinalado a vermelho que indica se se trata de
um ou de outro.
16
Análise Exploratória de Dados – Chamadas Telefónicas
Dado que o cálculo de todos os décis e de todos os percentis seria muito enfadonho,
calculamos apenas, a título de exemplo, os 2º e 6º décis e os 26º e 77º percentis. Em
ambos os casos foi utilizada a função PERCENTIL e mais uma vez o algarismo
colocado em último lugar (agora necessariamente compreendido entre 0 e 1) é que
diferenciou a medida a calcular:
Para o 2º décil:· =PERCENTIL (C14:C49;0,2)
Para o 6º décil:· =PERCENTIL (C14:C49;0,6)
Para o 26º percentil:· =PERCENTIL (C14:C49;0,26)
Para o 77º percentil:· =PERCENTIL (C14:C49;0,77)
Por fim para determinar a amplitude interquartil (AIQ) bastou calcular a diferença entre
o 1º e o 3º quartis:
=E119-E118
Todas estas estatísticas estão determinadas na seguinte tabela:
Tabela 8. Estatísticas (Excel)
N.º de Observações 36
Mínimo 3,4
Máximo 9 Decis
Amplitude Amostral 5,6 2º Decil 3,8
Média 4,61 6º Decil 4,4
Moda 3,80
Mediana 4,00
Percentis
Variância 1,68
Desvio Padrão 1,30 26º Percentil 3,8
Coef. Variação 28,14% 77º Percentil 5,1
Curtose Não se aplica
Skewness 1,90
1º Quartil 3,8
3º Quartil 5,1
AIQ 1,3
Assim podemos interpretar os resultados da seguinte forma: no departamento da
faculdade são gastos em média 4,61 <unidades> com chamadas telefónicas regionais
por mês; o mais usual é haver um custo de 3,8 <unidades>; em 50% dos meses em
estudo houve um gasto inferior ou igual a 4 <unidades>; por exemplo em 20% dos
17
Análise Exploratória de Dados – Chamadas Telefónicas
meses em estudo houve um gasto inferior a 3,8 <unidades> e em 77% dos meses houve
um custo inferior ou igual a 5,1 <unidades>.
• SPSS
Para determinar as medidas de tendência central recorrendo ao SPSS foi necessário
aceder, mais uma vez ao menu Analyse, seleccionar a opção Descriptive Statistics e
dentro desta, Frequencies. Na janela que surgiu, devemos acedemos a Statistics e na
janela que aparece posteriormente seleccionamos as medidas que pretendíamos
determinar. Neste caso Mean (para a média), Median (para a mediana) e Mode (para a
moda) do grupo Central Tendency; e Quartiles (para os quartis) do grupo Percentiles
Group.
Novamente surge uma janela Output com a tabela pretendida, que também foi editada
para ficar como a seguinte:
Tabela 9. Medidas de Localização (SPSS)
Estatísticas
Custos das Chamadas Telefónicas
36
0
4,611
4,000
3,8
3,800
4,000
5,100
Válidos
Desconhecidos
N
Média
Mediana
Moda
25
50
75
Quartis
Para calcular os percentis, na janela referida acima seleccionamos Percentiles e de
seguida inserimos os desejados; no nosso caso, o 26º e o 77º. Refira-se ainda que caso
quiséssemos calcular os 2º e 6º décis (por exemplo), estes coincidem com os percentis
20º e 60º respectivamente. Obteríamos então, da mesma forma:
Tabela 10. Percentis (SPSS)
Estatísticas
Custos das Chamadas Telefónicas
36
0
3,800
3,800
4,440
5,149
Válidos
Desconhecidos
N
20
26
60
77
Percentis
• Calculadora
Introduzidos os dados nas colunas, vamos “informar” a calculadora do tipo de
distribuição a considerar.
18
Análise Exploratória de Dados – Chamadas Telefónicas
Digitamos e, em seguida, para seleccionar CALC.
Figura 13. Menu Cálculo de Estatísticas (Calculadora)
Digitamos para escolher 1:1 – Var Stats – a calculadora copia esta instrução para o
ecrã principal. Teclamos LIST L1, LIST L2
Figura 14. Instrução Cálculo das Estatísticas (Calculadora)
e confirmamos com .
Obtivemos, de uma vez só, todas as medidas pretendidas:
Figura 15. Estatísticas (Calculadora)
Teclando obtivemos mais informações:
Figura 16. Estatísticas – continuação (Calculadora)
Medidas de Dispersão
Verifica-se que, sendo a média uma medida que se utiliza para representar toda uma
distribuição, não é por vezes, suficiente para a caracterizar. Desta forma, para avaliar o
grau de variabilidade ou de dispersão dos valores de uma distribuição, usam-se outras
19
Análise Exploratória de Dados – Chamadas Telefónicas
medidas que nos proporcionam melhor conhecimento da amostra e que permitem até
fazer comparações entre amostras da mesma natureza – a amplitude, a variância e o
desvio padrão (esta última é a mais utilizada). No entanto a amplitude, apesar de ser a
mais simples, há forte restrição ao seu uso por apenas considerar apenas os valores
extremos, não atendendo aos valores intermédios.
• Excel
Para determinar a amplitude bastou fazer a diferença entre os valores máximo e mínimo
encontrados:
=E105-E104
Em Excel a variância foi calculada através da função VAR, à semelhança das medidas
anteriores:
=VAR(C14:C49)
Quanto ao desvio padrão amostral este foi calculado de forma idêntica recorrendo à
função DESVPAD:
=DESVPAD(C14:C49)
Podemos observar os valores das medidas de dispersão através da visualização da tabela
8.
Podemos desta forma concluir que a amplitude total dos custos das chamadas
telefónicas regionais verificada foi de 5,6 <unidades>;
• SPSS
Para determinar as medidas de dispersão recorrendo ao SPSS foi suficiente aceder,
novamente ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta,
Frequencies. Na janela que surgiu, devemos aceder a Statistics e na janela que aparece
seleccionamos as medidas que pretendíamos determinar. Neste caso, Std deviation (para
o desvio padrão), Variance (para a variância), Range (para a amplitude), Minimum
(para mínimo) e Maximum (para máximo) do grupo Disperson.
Novamente surge uma janela Output com a tabela pretendida, que também foi editada
para ficar como a seguinte:
20
Análise Exploratória de Dados – Chamadas Telefónicas
Tabela 11. Medidas de Dispersão (SPSS)
Estatísticas
Custos das Chamadas Telefónicas
36
0
1,2976
1,684
5,6
3,4
9,0
Válidos
Desconhecidos
N
Desvio Padrão
Variância
Amplitude
Mínimo
Máximo
Refira-se ainda o seguinte: todas as medidas de tendência central bem como as medidas
de dispersão (e outros coeficientes que iremos focar de seguida) poderiam ter sido
calculadas de uma só vez, caso seleccionássemos ao mesmo tempo todas as opções
expostas. Só não o fizemos para simplificar a sua explicação no presente relatório. No
entanto, parece-nos mais simples adoptar o processo singular para obter, num único
passo o seguinte:
Tabela 12. Estatísticas (SPSS)
Estatísticas
Custos das Chamadas Telefónicas
36
0
4,611
4,000
3,8
1,2976
1,684
5,6
3,4
9,0
3,800
3,800
3,800
4,000
4,440
5,100
5,149
Válidos
Desconhecidos
N
Média
Mediana
Moda
Desvio Padrão
Variância
Amplitude
Mínimo
Máximo
20
25
26
50
60
75
77
Quantis
• Calculadora
As medidas de dispersão determinadas na calculadora foram já incluídas na exposição
do cálculo das medidas de localização.
21
Análise Exploratória de Dados – Chamadas Telefónicas
Coeficiente de Variação
Para solucionar o problema da comparação de duas amostras diferentes com grandezas
também diferentes aplica-se o conceito de Coeficiente de Variação, que não é mais do
que uma medida adimensional.
• Excel
Dado que desconhecemos a existência de uma função predefinida no Excel que calcule
esta medida, recorremos à sua definição (ver anexo II) e aplicámo-la directamente na
célula pretendida, ou seja, fizemos:
=E112/E107
formatando a respectiva célula como número em percentagem e fazendo referência às
células contendo o desvio padrão e a média.
Dado que estamos apenas a analisar uma única amostra não faz qualquer sentido
interpretar isoladamente esta medida.
• SPSS
Não é determinado recorrendo a esta ferramenta de cálculo.
• Calculadora
Não é determinado recorrendo a esta ferramenta de cálculo.
Coeficiente de Assimetria
O Coeficiente de Assimetria ou Skewness, como o próprio nome indica, avalia a
simetria da amostra. É uma medida muito trabalhosa se tiver de ser calculada sem
recurso a ferramentas de cálculo e indica-nos uma de três situações: se der um número
negativo a distribuição é enviesada à direita; se der zero, a distribuição é simétrica; se
der um número positivo a distribuição é enviesada à esquerda.
• Excel
Com esta ferramenta de cálculo bastou-nos usar a função DISTORÇÃO para
rapidamente ter a informação desejada:
=DISTORÇÃO(C14:C49)
22
Análise Exploratória de Dados – Chamadas Telefónicas
Dado que o resultado foi 1,9 (ver tabela 8) podemos concluir que estamos na presença
de uma distribuição enviesada à esquerda. Também se pode constatar este facto através
da observação do histograma (que se apresenta mais à frente – Figura 30) ou então
através da comparação das medidas de localização central:
3, 8 4 4, 61
o
M Med x · s · s ·
Isto quer dizer que, durante os 3 anos em estudo, houve uma tendência nos gastos em
chamadas telefónicas regionais abaixo das 4 <unidades>.
- SPSS
Para determinar o coeficiente de assimetria recorrendo ao SPSS foi suficiente aceder,
mais uma vez ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro
desta, Frequencies. Na janela que surgiu, acedemos a Statistics e depois seleccionamos
Skewness. Novamente surge uma janela Output com a tabela pretendida, que também
foi editada para ficar como a seguinte:
Tabela 13. Skewness (SPSS)
Estatisticas
Custos das Chamadas Telefónicas
36
0
1,901
,393
Válidos
Desconhecidos
N
Coeficiente de Assimetria(Enviesamento)
Erro padrão do Enviesamento
- Calculadora
Não é determinado recorrendo a esta ferramenta de cálculo.
Coeficiente de Achatamento
O Coeficiente de Achatamento ou Curtose avalia o achatamento da distribuição ou a
intensidade das observações em torno de valores centrais. No entanto, só tem
importância ser calculada quando previamente se concluiu, através do coeficiente de
assimetria, que a distribuição é simétrica (devido ao termo de comparação ser a curva da
Distribuição Normal e esta ser simétrica).
23
Análise Exploratória de Dados – Chamadas Telefónicas
Como concluímos anteriormente que a distribuição em estudo é enviesada à esquerda,
não faz qualquer sentido calcular esta medida.
Diagrama de Caule – e – Folhas
Para além da tabela de frequências existe este diagrama – em inglês Stem and Leaf –
que é outra forma de organizar os dados estatísticos muito útil e de fácil construção
quando não temos apoio computacional. Este diagrama permite ao observador uma
percepção do aspecto global da distribuição dos dados sem que, ao mesmo tempo, se
perca a informação contida na colecção inicial dos dados. Permite salientar aspectos
como a simetria, a dispersão, a coexistência de valores muito diferentes, a concentração
de dados em torno de um valor e a existência de lacunas entre os diferentes valores dos
dados.
- Excel
Esta ferramenta não permite a construção deste diagrama.
- SPSS
Para representar o diagrama de caule – e – folhas recorrendo ao SPSS foi necessário
aceder ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta,
Explore. Na janela que surgiu, em Display seleccionamos Plots e de seguida acedemos
a Plots (do lado direito). Na janela que aparece seleccionamos unicamente Stem and
Leaf. Novamente surge uma janela Output com a representação pretendida:
Custos das Chamadas Telefónicas Stem-and-Leaf Plot
Frequência Caule & Folhas
1,00 3 . 4
16,00 3 . 5556788888899999
5,00 4 . 00234
3,00 4 . 669
6,00 5 . 111244
1,00 5 . 5
1,00 6 . 3
3,00 Outliers (>=7,7)
Tamanho do Caule: 1,0
Casos por folha: 1 caso
Figura 17. Diagrama Caule – e – Folhas (SPSS)
24
Análise Exploratória de Dados – Chamadas Telefónicas
Repare-se que apesar do objectivo inicial ser a organização dos dados, obtivemos
também uma representação gráfica. Através de uma observação atenta do diagrama
podemos concluir que a distribuição é assimétrica à esquerda (ver curva a vermelho da
Figura 17).
Esta representação gráfica apresenta algumas diferenças comparativamente com a
mesma efectuada com papel e lápis e que se transcreve seguidamente:
0
1
36; 10
2
×
1
17
(5)
14
11
5
4
3
1

3
3*
4
4*
5
5*
6
7*
9
4
5556788888899999
00234
669
111244
5
3
7)7)
0)
Figura 18. Diagrama Caule – e – Folhas
Ou seja, manualmente é usual completar a informação indicando por cima a dimensão
amostra (neste caso 36 n · ) e a potência de 10 por que deve ser multiplicado o caule
para reconstruir a observação da amostra (neste caso
0
10
, indicando por exemplo que o
primeiro valor 3 4 representa
0 1
3 10 4 10 3, 4

× + × · ). Já o valor
1
2
significa que
consideramos semi-caules de amplitude 0,5. O símbolo * indica-nos o segundo semi-
caule.
Também é usual escrever-se a profundidade das linhas do diagrama à esquerda de cada
linha com a excepção da linha mediana na qual se regista, dentro de parêntesis, o
número de elementos dessa linha (neste caso 5).
No diagrama de caule e folhas, acima representado em SPSS, apresenta à esquerda de
cada linha não as profundidades mas sim o número de elementos dessa linha (a
25
Análise Exploratória de Dados – Chamadas Telefónicas
frequência); em baixo indica-nos o tamanho do caule (neste caso
0
1 10 ·
) e o número
de casos por folha.
No caso das chamadas telefónicas, basta olharmos para o diagrama de caule – e – folhas
para concluirmos, por exemplo, que apesar de temos muitos meses com custos
diferentes, estes se concentram em torno dos valores 3,5 e 3,9 <unidades>.
- Calculadora
Não é possível fazer a representação deste diagrama recorrendo a esta ferramenta de
cálculo.
Caixa com Bigodes
Dispondo os valores da mediana e dos quartis ordenados sobre um segmento de recta
cujos extremos são o mínimo e o máximo obtém-se um diagrama a que se chama caixa
de bigodes (BoxPlot). Este diagrama fornece informações sobre a distribuição dos
valores da variável no seu domínio.
Esta representação é particularmente útil quando se pretende comparar amostras.
- Excel
Esta ferramenta não permite a construção desta caixa.
- SPSS
Para representar a caixa com bigodes recorrendo ao SPSS acedemos novamente ao
menu Analyse, seleccionamos a opção Descriptive Statistics e dentro desta, Explore.
Na janela que surgiu, em Display seleccionamos Plots e de seguida acedemos a Plots
(do lado direito). Na janela que apareceu seleccionamos unicamente Boxplots.
Novamente surge uma janela Output com a representação pretendida, que depois de
editada ficou como a seguinte:
26
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 19. Caixa de Bigodes (SPSS)
Através de uma leitura atenta desta representação podemos concluir várias coisas.
Destacamos os círculos à direita do diagrama que representam valores aberrantes da
maioria – os Outliers. Conseguimos perceber que um desses valores é 9 <unidades>
enquanto que os outros dois se situam perto dos 7,5 <unidades> (na realidade sabemos
que são custos iguais a 7,7 <unidades>). Estes três valores podem interpretar-se da
seguinte forma: durante os três anos de sobre os quais incide o nosso estudo, existiram
três meses cujos gastos em chamadas telefónicas foram muito acima/diferentes dos
restantes meses chegando mesmo a atingir um valor de 9 <unidades>.
• Calculadora
A calculadora também faz a caixa de bigodes. Depois de introduzirmos os dados (as
observações em L1 e as frequências absolutas em L2):
27
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 20. Observações e respectivas frequências absolutas (Calculadora)
seguimos os seguintes passos:
- Digitamos STATPLOT
- Digitamos para escolher 1:PLOT 1
- Digitamos para confirmar ON
- Digitamos para escolher a Caixa de Bigodes ( )
- Digitamos LIST e seleccionamos a lista L1
- Digitamos LIST e seleccionamos a lista L2
Figura 21. Menu Gráficos Estatísticos (Calculadora)
- Digitamos e seleccionamos 9:ZOOM STAT
Figura 22. Janela Zoom (Calculadora)
A calculadora traçou a caixa de bigodes no cimo do ecrã.
Figura 23. Caixa de bigodes (Calculadora)
28
Análise Exploratória de Dados – Chamadas Telefónicas
Ao digitarmos e deslocarmos o cursor vimos aparecer no ecrã o valor mínimo da
distribuição, o valor máximo, a mediana, o 1º e o 3º quartis. A título de exemplo
apresentamos o mínimo e a mediana:
Figura 24. Determinação do mínimo através da Caixa de bigodes (Calculadora)
Figura 25. Determinação da mediana através da Caixa de bigodes (Calculadora)
29
Análise Exploratória de Dados – Chamadas Telefónicas
Dados Agrupados
Como foi referido anteriormente, por várias vezes, faz mais sentido, no caso dos nossos
dados das chamadas telefónicas, trabalhar com os dados agrupados em classes pois além
da nossa variável ser quantitativa contínua, esta assume um grande número de valores
diferentes. A organização feita de seguida permite sintetizar os dados, no entanto todo o
processo é um pouco mais trabalhoso dado que é necessário proceder à definição de
classes de valores e a uma nova contagem/cálculo das frequências.
Este é pois o procedimento característico a realizar no caso das variáveis em estudo
serem quantitativas contínuas, no entanto não quer dizer que não possa ser aplicado ao
caso de variáveis quantitativas discretas quando estas são em grande número e quando
nos deparamos com problemas idênticos aos apontados anteriormente.
• Excel
Para determinar o número de classes utilizamos a Regra de Surges (ver anexo II).
Inserimos a sua fórmula num célula qualquer, fazendo referência à célula que contém a
totalidade dos dados ( 36 n · ):
=INT(LN(E74)/LN(2))+1
Obtivemos 6.
Para determinar a amplitude das classes também utilizamos a fórmula que a define (ver
anexo II). Inserimos então a fórmula numa célula qualquer:
=ARRED.PARA.CIMA((E105-E104)/D129;2)
Obtivemos 0,94.
A utilização da função “ARRED.PARA.CIMA” do Excel na fórmula anterior deve-se ao
facto de que, caso seja necessário proceder a uma aproximação do valor da amplitude da
classe, esta deve ser feita por excesso, sendo este excesso – ε – redistribuído
uniformemente por todas as classes e calculado da seguinte forma (ver anexo II):
=D129*D130-(E105-E104)
Obtivemos 0,04.
Por convenção a primeira classe deverá começar em:
(1)
2
x
r

enquanto que a última classe deverá terminar em:
30
Análise Exploratória de Dados – Chamadas Telefónicas
( )
2
n
x
r
+
Fazendo referência de novo às classes que contêm os valores máximos e mínimos e
utilizando as fórmulas anteriores obtêm-se os valores pretendidos.
No primeiro caso utilizamos a fórmula:
=E104-D131/2
enquanto que no segundo caso:
=E105+D131/2
Com todos estes dados foi fácil o cálculo dos limites inferiores e superiores das classes.
Destaca-se também o zero que aparece na célula E137. Estes foi propositadamente lá
colocado a fim de auxiliar a construção do histograma que se apresentará mais à frente e
o seu objectivo será explicado mais adiante.
Tabela 14. Agrupamento dos Dados (Excel)
N=N.º de Classes 6
h=amplitude das classes 0,94
ε
=excesso 0,04
A primeira classe deverá começar em: 3,38
A última classe deverá terminar em: 9,02
Limites Inferiores das Classes Limites Superiores das Classes
0
3,38 4,32
4,32 5,26
5,26 6,2
6,2 7,14
7,14 8,08
8,08 9,02
Existem outros valores muito importantes que são os pontos médios de cada classe.
Estes são a média aritmética dos limites superior e inferior respectivamente de cada
classe. São os representantes lógicos de cada classe. Para os calcular bastou portanto
inserir, por exemplo, a seguinte fórmula para a primeira classe:
=(B138+E138)/2
• SPSS
Esta ferramenta de cálculo não agrupa os dados em classes.
• Calculadora
Esta ferramenta de cálculo não agrupa os dados em classes.
31
Análise Exploratória de Dados – Chamadas Telefónicas
Tabelas de Frequências
• Excel
Uma vez definidas as classes, o cálculo das frequências é análogo ao anteriormente
exposto para os dados em bruto. Apenas destacamos uma diferença. Para determinarmos
agora a frequência absoluta de cada classe, utilizamos a função Frequência do Excel
pois esta calcula a frequência que os valores ocorrem dentro de um intervalo de valores
e devolve uma matriz vertical de números. Esta função é da forma:
Frequência (matriz_dados ; matriz_bin)
onde em matriz_dados inserimos todos os nossos dados originais e em matriz_bin
inserimos os limites superiores das classes. Ou seja formulamos:
=FREQUÊNCIA($C$14:$C$49;E138:E144)
No entanto, para que toda a coluna aparecesse preenchida, depois de a seleccionar
colocamos o cursor em frente da fórmula anterior e fizemos CTRL+SHIFT+ENTER.
Tabela 15. Tabela de frequências com dados agrupados (Excel)
Classe i Intervalo Ponto médio xi* ni Ni fi(%) Fi(%)
2,44 0 0
1 ]3,38;4,32] 3,85 21 21 58,33% 58,33%
2 ]4,32;5,26] 4,79 8 29 22,22% 80,56%
3 ]5,26;6,2] 5,73 3 32 8,33% 88,89%
4 ]6,2;7,14] 6,67 1 33 2,78% 91,67%
5 ]7,14;8,08] 7,61 2 35 5,56% 97,22%
6 ]8,08;9,02] 8,55 1 36 2,78% 100,00%
0 0 0
Total 36 100,00%
Salientamos ainda o seguinte: durante a realização de toda a análise dos dados em Excel
tivemos a preocupação de o fazer com o cuidado de que se fosse necessário alterar um
dado inicial, todo o trabalho feito até então sofresse uma actualização automática. Para
tal, a coluna construída com os intervalos foi elaborada fazendo referência às colunas
anteriormente calculadas com os limites superiores e os limites inferiores. Assim, por
exemplo para a primeira classe foi introduzida na célula a seguinte fórmula:
="]"&B138&";"&E138&"]"
que foi seguidamente copiada para a restante coluna.
Outro aspecto a realçar são os zeros que aparecem em algumas células, ou o valor 2,44
que aparece na célula C153. Mais uma vez, estes foram propositadamente lá colocados
a fim de auxiliarem a construção do histograma que se apresentará mais à frente.
• SPSS
32
Análise Exploratória de Dados – Chamadas Telefónicas
Esta ferramenta de cálculo não constrói tabelas com os dados agrupados em classes.
• Calculadora
Esta ferramenta de cálculo não constrói tabelas com os dados agrupados em classes.
Representações gráficas
Como foi referido anteriormente, quando estamos na presença de dados agrupados, a
representação gráfica mais usual é o histograma que pode construído através da tabela
de frequências anterior.
• Excel
Para fazermos a construção do histograma no Excel foi necessário proceder, em
primeiro lugar, à activação do suplemento da “Análise de Dados”, que por defeito não
se encontra instalado. Para isso, acedemos ao comando Suplementos do menu
Ferramentas e seleccionamos a opção Analysis ToolPack.
A construção do histograma através deste suplemento foi bastante morosa e
trabalhosa.
Para começar acedemos ao menu Ferramentas, seleccionamos a opção activa
Análise de Dados e seguidamente Histograma.
Figura 26. Janela “Analisar dados” (Excel)
Aparece uma janela como a seguinte:
33
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 27. Janela “Histograma” (Excel)
No intervalo de entrada devemos colocar os nossos dados originais, no intervalo de
bloco os limites superiores das classes (aqui é necessário seleccionar um zero em
primeiro lugar – célula E137 – para que a primeira barra não apareça encostada ao eixo
das ordenadas), no intervalo de saída colocamos a célula onde queremos que o
histograma seja apresentado, e não nos podemos esquecer de activar “Resultado de
Gráfico” (caso contrário só aparece uma tabela). Isto é:
Figura 28. Preenchimento da janela “Histograma” (Excel)
No entanto o resultado é:
34
Análise Exploratória de Dados – Chamadas Telefónicas
Histograma
0
20
40
0
4
,
3
2
5
,
2
6
6
,
2
7
,
1
4
8
,
0
8
9
,
0
2
M
a
i
s
Bloco
F
r
e
q
u
ê
n
c
i
a
Frequência
Figura 29. Histograma por editar (Excel)
Ou seja, há uma série de procedimentos a seguir para corrigir o histograma construído.
As incorrecções mais graves prendem-se com as barras aparecer separadas e as classes
estarem omissas.
Para colocar as barras juntas, basta clicar no meio de uma barra (aparecem uns
quadradinhos) e com o botão direito do rato seleccionar “Formatar Série de Dados”.
Em “Opções” alterar a largura do intervalo para zero.
De seguida acedemos ao botão “Assistente de Gráficos” ( ), fazer “seguinte” e no
separador “Séries” inserir o intervalo das classes nos rótulos do eixo dos xx’s. Nesta
fase é necessário seleccionar também o valor 2,44 que aparece antes da primeira classe
(célula C153) para que uma posterior construção do polígono de frequências e da ogiva
seja facilitada:
=Resolução!$C$153:$C$159
Para o histograma ficar com o aspecto da figura seguinte bastou editá-lo com algumas
alterações simples, tais como alterar a legenda (intervalos de 3 em três), alterar os
nomes dos títulos, diminuir a letra das legendas dos eixos, activar as linhas principais no
eixo dos yy’s e mudar o alinhamento das legenda. Tudo isto foi efectuado recorrendo ao
botão “Assistente de Gráficos”.
35
Análise Exploratória de Dados – Chamadas Telefónicas
Histograma/Polígono de frequências/Ogiva
0
3
6
9
12
15
18
21
24
27
30
33
36
39
2,44 ]3,38;4,32] ]4,32;5,26] ]5,26;6,2] ]6,2;7,14] ]7,14;8,08] ]8,08;9,02]
Custos das Chamadas
ni
Figura 30. Histograma/ Polígono de Frequências/ Ogiva (Excel)
No entanto, nesta última figura estão também incluídos o Polígono de Frequências e a
Ogiva. Para os construir foi necessário, mais uma vez, recorrer ao “Assistente de
Gráficos” depois de seleccionar o histograma, fazer “Seguinte” e no separador “Série”
adicionar uma 2ª série cujos valores são as frequências absolutas para construir o
polígono de frequências (na figura a cor de rosa) e uma 3ª série cujos valores são as
frequências absolutas acumuladas para construir a ogiva (na figura a amarelo). Foi
também necessário mudar o tipo de gráfico do polígono de frequências já que aparecia
em forma de colunas e não uma linha como o que se pretende.
Nesta fase foi também crucial a presença dos zeros das células E153 e E160 para que o
polígono de frequências começasse e terminasse no eixo dos xx’s. Da mesma forma,
para a construção da ogiva foi necessário o zero da célula F153.
Voltando ao nosso estudo dos custos das chamadas telefónicas regionais, através da
visualização do histograma concluímos que, por exemplo, em 21 dos 36 meses os custos
com as chamadas telefónicas estiveram compreendidos entre 3,38 e 4,42 <unidades>.
• SPSS
Para efectuar a construção deste gráfico em SPSS seleccionamos do menu Analyse, a
opção Descriptive Statistics e dentro desta, Explore. Na janela que surgiu, em Display
seleccionamos Plots e de seguida acedemos a Plots (do lado direito). Na janela que
apareceu seleccionamos unicamente Histogram. Novamente surge uma janela Output
com a representação pretendida, que depois de editada ficou como a seguinte:
36
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 31. Histograma (SPSS)
• Calculadora
A calculadora também faz a representação do histograma. Depois de introduzirmos os
dados (as observações em L1 e as frequências absolutas em L2):
Figura 32. Introdução dos dados (Calculadora)
seguimos os seguintes passos:
- Digitamos STATPLOT
- Digitamos para escolher 1:PLOT 1
- Digitamos para confirmar ON
37
Análise Exploratória de Dados – Chamadas Telefónicas
- Digitamos para escolher o histograma ( )
- Digitamos LIST e seleccionamos a lista L1
- Digitamos LIST e seleccionamos a lista L2
Figura 33. Menu Gráficos Estatísticos (Calculadora)
- Digitamos e seleccionamos 9:ZOOM STAT
Figura 34. Menu ZOOM (Calculadora)
A calculadora traçou a seguinte representação no ecrã.
Figura 35. Histograma (Calculadora)
Ao digitarmos obtivemos relativamente a cada coluna, o número de dados, o limite
superior e o limite inferior. A título de exemplo apresentamos aqui a visualização para a
3ª coluna:
Figura 36. Determinação de Estatísticas usando o Histograma (Calculadora)
38
Análise Exploratória de Dados – Chamadas Telefónicas
Medidas de Localização
Para determinar as medidas de localização procede-se de forma idêntica à que referimos
no caso dos dados estarem em bruto (com os dados não agrupados), tomando o ponto
médio de cada classe (
*
i
x
) como representante de todos os valores pertencentes à
classe.
• Excel
Para determinar a média dos dados, utilizamos a função SOMARPRODUTO do Excel
pois este não tem funções predefinidas para calcular medidas de localização com os
dados agrupados em classes. Desta forma fizemos referência aos pontos médios de cada
classe bem como às respectivas frequências relativas, ou seja:
=SOMARPRODUTO(D154:D159;G154:G159)
Para determinar a mediana, começamos por identificar em primeiro lugar a classe que a
contém. Para tal bastou observar a tabela de frequências(ver tabela 15) e localizar a
primeira classe cuja frequência absoluta acumulada seja maior ou igual a 50%. De
seguida, para localizar a mediana dentro dessa classe utilizou-se a sua definição (ver
anexo II) que teve de ser formulada em Excel.
Ou seja:
=B138+((0,5-H153)/G154)*D130
Para determinar a moda procedeu-se de forma idêntica à mediana, começando por
identificar a classe modal – classe com maior frequência – e aplicando a sua definição
(ver anexo II).
Ou seja, em Excel:
=B138+((G154-G153)/((G154-G153)+(G154-G155)))*D130
Quanto ao quantis, estes foram calculados de forma idêntica à mediana sendo que
o

variava conforme a estatística a calcular.
Para o primeiro quartil (
0, 25 o ·
) foi formulado:
=B138+((0,25-H153)/G154)*D130
Para o terceiro quartil (
0, 75 o ·
):
=B139+((0,75-H154)/G155)*D130
Para o 2º décil (
0, 2 o ·
):
=B138+(0,2/G154)*D130
Para o 6º décil (
0, 6 o ·
):
39
Análise Exploratória de Dados – Chamadas Telefónicas
=B139+((0,6-H154)/G155)*D130
Para o 26º percentil (
0, 26 o ·
):
=B138+(0,26/G154)*D130
Para o 77º percentil (
0, 77 o ·
):
=B139+((0,77-H154)/G155)*D130
Por fim para determinar a amplitude interquartil (AIQ) bastou calcular a diferença entre
o 1º e o 3º quartis:
=E206-E205
Tabela 16. Estatísticas com dados agrupados (Excel)
Média 4,63
Clas. Modal ]3,38;4,32] Moda 3,96
Clas. Mediana ]3,38;4,32] Mediana 4,19
Amplitude Amostral 4,7
Variância 1,54
Desvio Padrão 1,24
Coeficiente de Variação 26,78%
Quartis:
Clas.1ºQ ]3,38;4,32] 1º Quartil 3,78
Clas.3ºQ ]4,32;5,26] 3º Quartil 5,03
AIQ 1,24
Momento centrado de ordem 3 3,20
Skewness 1,82
Décis
Classe 2º Decil ]3,38;4,32] 2º Décil 3,70
Classe 6º Decil ]4,32;5,26] 6º Décil 4,39
Percentis
Classe 26º Percentil ]3,38;4,32] 26º Percentil 3,80
Classe 77º Percentil ]4,32;5,26] 77º Percentil 5,11
- SPSS
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
- Calculadora
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
40
Análise Exploratória de Dados – Chamadas Telefónicas
Medidas de Dispersão
Mais uma vez, para determinar as medidas de dispersão procede-se de forma idêntica à
que referimos no caso dos dados estarem em bruto tomando o ponto médio de cada
classe (
*
i
x
) como representante de todos os valores pertencentes à classe.
• Excel
Para determinar a amplitude bastou fazer a diferença entre o ponto central da classe com
o valor máximo e o ponto central da classe com o valor mínimo:
=D159-D154
Para determinar a variância foi necessário, em primeiro lugar, criar uma coluna auxiliar
com os quadrados das diferenças entre os pontos médios das classes e a média amostral:
Tabela 17. Coluna auxiliar ao cálculo da variância (Excel)
Colunas Auxiliares
(xi*-média)^2
0,613611
0,024544
1,202678
4,148011
8,860544
15,34028
e em seguida formular:
=SOMARPRODUTO(E154:E159;H195:H200)/(SOMA(E154:E159)-1)
Quanto ao desvio padrão amostral bastou aplicar a raiz quadrada ao resultado anterior,
ou seja:
=RAIZQ(D199)
• SPSS
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
• Calculadora
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
41
Análise Exploratória de Dados – Chamadas Telefónicas
Coeficiente de Variação
• Excel
Para calcular o Coeficiente de Variação, tal como fizemos com os dados em bruto,
recorreremos à sua definição (ver anexo II), formulando:
=D200/C193
utilizando agora o desvio padrão e a média calculadas anteriormente com os dados
agrupados.
• SPSS
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
• Calculadora
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
Coeficiente de Assimetria
• Excel
Infelizmente e mais uma vez o Excel não possui uma fórmula predefinida para o cálculo
deste coeficiente e é com certeza uma das medidas mais trabalhosas de determinar pois
a sua enunciação recorre a um outro conceito que é o de momento empírico centrado de
ordem 2 e 3.
O momento empírico centrado de ordem 2 coincide com a variância sendo que já se
encontra calculado. Quanto ao momento empírico centrado de ordem 3 teve de ser
totalmente formulado por um processo análogo ao do cálculo da variância e também
recorrendo a uma coluna auxiliar:
Tabela 18. Coluna auxiliar ao cálculo do momento empírico centrado de ordem 3
(Excel)
(xi*-média)^3
-0,48066
0,003845
1,318937
8,448116
26,37489
60,08275
42
Análise Exploratória de Dados – Chamadas Telefónicas
e a respectiva formulação foi:
=SOMARPRODUTO(J195:J200;E154:E159)/SOMA(E154:E159)
Finalmente para o cálculo do coeficiente de assimetria ou Skewness pretendido
recorremos à sua definição (ver anexo II), sendo que foi formulado da seguinte forma:
=((E161^2)/((E161-1)*(E161-2)))*(E209/RAIZQ(D199^3))
Dado que o resultado foi 1,82 podemos reafirmar que estamos na presença de uma
distribuição enviesada à esquerda, ou pelo facto de que:
3, 96 4,19 4, 63
o
M Med x · s · s ·
- SPSS
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
- Calculadora
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
Coeficiente de Achatamento
Não se aplica.
Antes de terminarmos esta análise dos dados em classes queremos apenas lembrar que
os cálculos destas últimas estatísticas foram muito próximos dos dados trabalhados em
bruto pelo que pensamos que o agrupamento dos dados foi realizado com boa
qualidade.
43
Análise Exploratória de Dados – Chamadas Telefónicas
Caixa com 5 Letras – Resumo
Esta caixa é quase sempre satisfatória para dar uma primeira ideia sobre a forma de
onde a população foi extraída. E mais: indica-nos a amplitude da amostra, a amplitude
dos 50% valores centrais, o intervalo onde se situam os primeiros 25% e os últimos
25% e dá-nos uma ideia da simetria.
• Excel, SPSS, Calculadora
Estas ferramentas não permitem a construção desta caixa.
Uma vez que nenhuma das ferramentas utilizadas neste trabalho permite a construção
desta caixa, apresentamos de seguida uma transcrição da mesma, efectuada com papel e
lápis, bem como uma sucinta explicação da sua construção.
Uma caixa com 5 letras – resumo (Caixa com 5 L-R) é da forma:
5 Caixa com L R


1
n M
F
(1) ( )



L U
n
M
F F
x x
( )
( )
1
prof M
prof F
......
:......;.......
F
d
Barreiras
·
Figura 37. Forma da caixa com 5 L-R
onde
n
é a dimensão da amostra, M é a mediana,
L
F
e
U
F
são respectivamente o 1º e
o 3º quartis (em inglês “Lower Fourth” e “Upper Fourth”),
(1)
x
e
( ) n
x
são
respectivamente o mínimo e o máximo da amostra,
( ) prof M
e
( ) prof F
as
profundidades da mediana e dos quartis, respectivamente. Quanto a
F
d representa a
dispersão quartal que é a diferença entre os 3º e 1º quartis e que fornece a amplitude de
metade da amostra. Relativamente às barreiras (periféricas) estas tomam os seguintes
valores
1, 5
L F
F d ×
e
1, 5
U F
F d + ×
. Podem ainda ser calculadas as barreiras exteriores
que tomam os valores
3
L F
F d ×
e
3
U F
F d + ×
. Estas barreiras servem para determinar
44
Análise Exploratória de Dados – Chamadas Telefónicas
os outliers da amostra, ou seja os elementos que se afastam do padrão dos dados e que
já os tínhamos referido na representação da caixa de bigodes. Caso certos valores da
amostra estejam fora das barreiras periféricas são considerados outliers “normais” no
entanto se estiverem fora das barreiras exteriores são considerados outliers severos.
No nosso caso começamos por calcular o seguinte, tendo em conta que o 1º quartil
calculado com os dados em bruto é 3,8 e o 3º quartil determinado da mesma forma é
5,1:
1 36 1
( ) 18, 5
2 2
( ( )) 1 (18, 5) 1 19
( ) 9, 5
2 2 2
5,1 3, 8 1, 3
F U L
n
prof M
I prof M I
prof F
d F F
+ +
· · ·
+ +
· · · ·
· · ·
Seguidamente, calculamos as barreiras. Para as periféricas obtivemos:
1, 5 3,8 1, 5 1, 3 1,85
L F
F d × · × ·
e
1, 5 5,1 1, 5 1, 3 7, 05
U F
F d + × · + × ·
pelo que concluímos o seguinte: dado que o mínimo da amostra é 3,4 e o máximo é 9, a
amostra tem três outliers (7,7; 7,7 e 9).
Quanto às barreiras exteriores, obtivemos:
3 3, 8 3 1, 3 0,1
L F
F d × · × ·
e
3 5,1 3 1, 3 9
U F
F d + × · + × ·
pelo que não existem outliers severos (apesar do máximo estar no limite!).
Desta forma a caixa com 5 L-R tomou a forma seguinte:
5 Caixa com L R
36

1
M
F
4
3,8 5,1
3, 4 9
18,5
9,5
1
1,3
:1,85 ; 7, 05
F
d
Barreiras
·
Figura 38. Caixa com 5 L-R
45
Análise Exploratória de Dados – Chamadas Telefónicas
46
Análise Exploratória de Dados – Chamadas Telefónicas
Análise de Valores Discordantes (Outliers)
A análise dos outliers foi efectuada recorrendo ao Excel e ao SPSS. Em anexo (anexo 1)
apresenta-se toda a nova análise efectuada nessas ferramentas, que foi realizada da
mesma forma anteriormente apresentada com os outliers inclusos, e que, portanto,
dispensamos de a explicitar.
Obviamente que, retirando os outliers da amostra (recorde-se que são os últimos três
dados), ficamos com uma amostra de dimensão mais pequena e portanto já estávamos à
espera que a amplitude sofresse modificações. Na verdade, a amplitude sofreu uma
diminuição para cerca de metade do seu valor! Quanto às medidas de localização estas
permaneceram sensivelmente iguais, apesar de por exemplo a média, como já o
referimos, ser uma medida muito sensível a valores extremos. Destacamos também que,
como consequência do valor dos quartis não ter sofrido alterações significativas,
continuamos a ter uma amplitude inter-quartil semelhante e como resultado os 50% dos
valores centrais continuam no mesmo intervalo.
Quanto às medidas de dispersão estas também foram alteradas por força da diminuição
da amplitude da amostra (obviamente a dispersão dos dados diminuiu).
Uma diferença a nosso ver mais significativa tem a ver com o cálculo do coeficiente de
assimetria. Neste novo estudo revelou-se bastante mais pequeno (diminui de cerca de
1,91 para cerca de 0,97), num valor mais próximo de zero, pelo que, apesar da
distribuição continuar enviesada à esquerda, este enviesamento já não é tão notório. A
distribuição ficou mais próxima de uma distribuição simétrica.
Por fim, saliente-se que o novo agrupamento dos dados também não trouxe muitas
surpresas já que esse agrupamento foi efectuado com o mesmo número de classes
(apesar de ter diminuído significativamente as suas amplitudes!). Quanto às estatísticas
determinadas com os dados classificados, as diferenças são em tudo iguais à análise dos
dados em bruto.
Em conclusão pensamos que neste caso não é conveniente tirar os outliers, já que eles
não influenciam de forma significativa o cálculo das estatísticas e portanto a
interpretação dos resultados não sofre mudanças significantes.
47
Análise Exploratória de Dados – Chamadas Telefónicas
Discussão dos resultados
Iremos de seguida apontar alguns aspectos relativamente às ferramentas de cálculo
utilizadas.
Comparação das ferramentas de cálculo utilizadas
Comparativamente, podemos destacar os seguintes aspectos:
Facilidade de resolução
No que diz respeito à facilidade de resolução, elegemos o SPSS. Nesta ferramenta basta
introduzir os dados, seleccionar as estatísticas/representações pretendidas e, no mesmo
instante, obter tudo. No entanto, reconhecemos que todas as ferramentas são de fácil
manipulação, com a excepção de algumas etapas em Excel que têm de ser,
necessariamente formuladas e/ou pensadas ao pormenor (como é o caso da construção
do histograma).
Comparação dos resultados obtidos
No que respeita aos resultados obtidos estes foram todos muito semelhantes em todas as
ferramentas de cálculo utilizadas. As diferenças sentidas foram ao nível dos
arredondamentos e das casas decimais utilizadas, que obviamente, são mantidas nas
ferramentas de cálculo utilizadas e que manualmente se torna difícil (às vezes
impossível!) de fazer.
Podemos ainda afirmar que teoricamente o estudo efectuado em Excel é o melhor já que
é o mais parecido com o efectuado manualmente (veja-se por exemplo o caso da
construção dos histogramas).
Outros aspectos
Por fim vamos apontar vantagens e desvantagens (a nosso ver) das ferramentas
utilizadas.
Quanto ao Excel pensamos ter, como grande vantagem, ser uma ferramenta de fácil
acesso, capaz de importar/exportar dados de/para ficheiros de texto da/para web e
do/para o Word. Em contrapartida é uma ferramenta, não específica para estudos
48
Análise Exploratória de Dados – Chamadas Telefónicas
estatísticos, que exige mais tempo para efectuar análises como a deste trabalho já que é
necessário, por exemplo, formular todas as colunas das tabelas de frequências e (pior do
que isso!) que não tem fórmulas predefinidas para calcular estatísticas com os dados
agrupados em classes. Uma outra grande desvantagem é a não permissão para efectuar
representações como a caixa de bigodes ou o diagrama de caule e folhas.
Relativamente ao SPSS, este tem como grande vantagem ser uma ferramenta pensada
para este tipo de estudos e ser uma ferramenta muito mais rápida a efectuar cálculos de
estatísticas e/ou representações gráficas. Em contrapartida apresenta algumas diferenças
comparativamente com os cálculos/representações efectuadas com papel e lápis. São
exemplo disso as classes que aparecem de forma automática no histograma ou a
ausência das frequências absolutas acumuladas nas tabelas de frequência. Outra
desvantagem é a impossibilidade do SPSS não agrupar os dados em classes.
No tocante à calculadora gráfica, a principal vantagem é a de permitir efectuar grande
parte da análise com um instrumento de porte simples, facilmente transportável para
qualquer aula. A desvantagem é não efectuar a classificação dos dados bem como não
produzir o diagrama de caule-e-folhas nem determina os coeficiente de
assimetria/achatamento e de variação.
Uma desvantagem de todas as ferramentas utilizadas é a impossibilidade de calcular de
forma automática as barreiras bem como de representar a caixa com 5 L-R.
Recomendações
A discussão dos aspectos mais críticos deste trabalho conduziu à elaboração de
recomendações que procuram apontar caminhos para que, futuramente, trabalhos deste
género sejam elaborados de outra forma, nomeadamente:
- A análise dos dados deverá ser feita nas diferentes ferramentas antes do início da
narração do relatório, para simplificar a comparação dos resultados e para dar
uma ideia geral da população em estudo.
- A construção do índice remissivo pareceu-nos mais fácil se fosse efectuada ao
mesmo tempo do relatório, o que não aconteceu (foi elaborado no final);
- Idem para o numerar e legendar das figuras e tabelas;
49
Análise Exploratória de Dados – Chamadas Telefónicas
Conclusões
A realização deste trabalho teve uma dupla motivação: por um lado efectuar uma análise
de dados e mais concretamente lidar com as ferramentas de cálculo e por outro
dinamizar a reflexão e a discussão em grupo.
No respeitante ao estudo efectuado, qualquer pessoa diria que os dados facultados
inicialmente são normais e que não escondem nada de especial. No entanto, depois de
toda a análise feita aos mesmos e recorrendo às variadíssimas técnicas exploratórias e às
diferentes ferramentas de cálculo podemos concluir que afinal até escondiam alguns
valores aberrantes (outliers). Isto porque os dados ainda não tinham sido lidos por
“olhos estatísticos”.
Em termos pessoais, foi muito bom termos aprendido a trabalhar com diferentes
ferramentas de cálculo pois em qualquer sítio temos acesso a pelo menos uma delas e
agora sabemos manipulá-las, com menos ou mais dificuldade.
Reflexão sobre o trabalho de grupo
Reflexão do Grupo
Relativamente ao desafio do trabalho de grupo é sempre bom conhecermos pessoas
diferentes de nós e aprendermos a lidar com opiniões diferentes – faz-nos crescer,
alargar os horizontes e pensar de maneira diferente. Pensamos ter sido uma experiência
muito positiva já que pudemos trocar impressões e aprender uma com a outra.
Pensamos que os trabalhos de grupo são bons no sentido que nos ajudam a perspectivar
um futuro ingresso num ambiente de trabalho mais específico.
Reflexões Individuais
“Este trabalho ilustrou-me de uma forma mais aprofundada o que realmente é a
estatística, os seus métodos (ferramentas de cálculo), e os seus objectivos. Penso que o
grau de exigência formulada pelos professores era muito acentuada visto os poucos
conhecimentos que tinha em estatística e nas suas ferramentas de cálculo.
Acho que o balanço foi positivo apesar de ser muito trabalhoso e ocupar muito tempo,
principalmente da minha colega de grupo que é trabalhadora – estudante e que ajudou
50
Análise Exploratória de Dados – Chamadas Telefónicas
muito a facilitar o trabalho graças aos seus conhecimentos e muita disponibilidade para
ajudar.
As aulas de Oficina foram fulcrais para acertar pormenores importantes e agradeço a
disposição dos professores.
Houve maior dificuldade em utilizar algumas funções dos programas utilizados que
desconhecia por completo e que eram exigidas para a resolução do trabalho. Contudo o
trabalho está feito e espero atenciosamente a sua avaliação.”
Autor X
“Faço um balanço muito positivo deste trabalho pois conseguimos alcançar os
objectivos a que nos propusemos. Penso ter sido uma experiência bastante positiva pois
fui obrigada a trabalhar, para o mesmo fim, com uma pessoa bastante mais nova, o que
não tenho memória de ter acontecido! Pelo menos aprendemos a ter mais paciência e a
ver as coisas debaixo de outra perspectiva.
No entanto penso que o trabalho demorou muito a ser iniciado. Isto deve-se a uma
panóplia de motivos que passo a descrever sucintamente.
O maior desses entraves foi a inclusão no grupo de mais dois elementos que se veio a
constatar, muito posteriormente, não estarem interessados em efectuar o trabalho – e
nunca nos terem dado uma satisfação a esse respeito. Isso veio sobrecarregar o trabalho
a efectuar – o que deveria ser feito, em auto-ajuda, por quatro elementos, foi realizado
por dois – e mais grave ainda porque nunca sabíamos com o que contávamos.
Depois confrontamo-nos com o ponto de partida do relatório. Andamos um bocadinho
“perdidas” porque não tínhamos percebido os verdadeiros objectivos do trabalho.
Outra dificuldade teve que ver com o tempo para realizar o trabalho: o tempo facultado
nas aulas apresentava-se sempre insuficiente com a agravante de que sou trabalhadora
estudante e, portanto, o tempo durante a semana era quase nenhum.”
Autor Y
51
Análise Exploratória de Dados – Chamadas Telefónicas
Índice Remissivo
A
Amplitude................................... ...........20, 41, 44, 47
Amplitude de Classes..................... ...................30, 61
Amplitude InterQuartil................................17, 40, 47
B
Barreiras Exteriores.............................. .............44, 45
Barreiras Periféricas..................... .....................44, 45
BoxPlot........................................................... ...26, 28
C
Caixa com 5 L-R......................................... .44, 45, 49
Caixa de bigodes........................26, 27, 28, 29, 49, 60
Classe Mediana................................. ......................39
Classe Modal................................................. ..........39
Coeficiente de Achatamento............... ...............23, 43
Coeficiente de Assimetria.....22, 23, 42, 43, 47, 49, 62
Coeficiente de Variação............ ...................22, 42, 61
Curtose..................................................... ...............23
D
Dados Estatísticos.............................. .......................2
de 21
Décis........................................................ ....16, 17, 39
Desvio Padrão................................. .......20, 22, 41, 42
Diagrama de Caule – e – Folhas............ .24, 25, 49, 59
Dispersão Quartal......................................... ...........44
Distorção................................................... ..............22
Distribuição...................................... 19, 25, 26, 29, 47
E
Enviesamento......................... .....................22, 23, 47
Excesso........................................................... ...30, 61
F
Frequência Absoluta................................8, 12, 14, 32
Frequência Absoluta Acumulada........9, 12, 13, 39, 49
Frequência Relativa................................. ............9, 13
Frequência Relativa Acumulada....................9, 13, 14
G
Gráfico de Barras......................... ..........14, 15, 54, 58
H
Histograma. .14, 23, 33, 34, 35, 36, 37, 38, 48, 49, 56,
59
L
Lower Fourth...................................................... .....44
M
Máximo.................................... ....7, 16, 20, 26, 29, 44
Média............ .................16, 18, 19, 22, 39, 41, 42, 47
Mediana......................... .16, 18, 25, 26, 29, 39, 44, 61
Medidas de Dispersão................. ...........19, 21, 41, 47
Medidas de Localização.................... .....15, 16, 39, 47
Medidas de Tendência Central.....................15, 18, 21
Mínimo..................... ...................7, 16, 20, 26, 29, 44
Moda.................................................... ..16, 18, 39, 62
Momento................................................... ..............42
O
Outliers............................................. ...........27, 45, 47
Outliers Severos.................................. ....................45
P
Percentis............................ ....................16, 17, 18, 40
Polígono de frequências................... .......................36
Pontos Médios............................................... ..........31
Profundidade.......................................... .................44
Q
Quantis............................................ ..................16, 39
Quartis....................... .....16, 18, 26, 29, 39, 44, 45, 47
R
Regra de Sturges......................................... .......30, 61
S
Skewness............................. ..................22, 23, 43, 62
Stem-and-Leaf................................................. ........24
T
Tabela de Frequências..............8, 9, 10, 24, 32, 39, 49
U
Upper Fourth............................................. ..............44
V
Variabilidade..................................... ......................19
Variância............................................... .......20, 41, 42
Variáveis Discretas................................. .................30
Variável Contínua................................ ..............2, 3, 9
Variável Discreta...................................... .................3
Variável Estatística.................................... ................2
Variável Quantitativa.............................3, 4, 9, 14, 30
 
Mediana............................................................... ...39
52
Análise Exploratória de Dados – Chamadas Telefónicas
Anexos
53
Análise Exploratória de Dados – Chamadas Telefónicas
Anexo I – Análise dos dados sem outliers (Excel e SPSS)
• Excel
Análise dos dados em bruto:
Tabela 19. Tabela de Frequências sem Outliers (Excel)
i xi ni Ni fi Fi
1 3,4 1 1 0,030 0,030
2 3,5 3 4 0,091 0,121
3 3,6 1 5 0,030 0,152
4 3,7 1 6 0,030 0,182
5 3,8 6 12 0,182 0,364
6 3,9 5 17 0,152 0,515
7 4 2 19 0,061 0,576
8 4,2 1 20 0,030 0,606
9 4,3 1 21 0,030 0,636
10 4,4 1 22 0,030 0,667
11 4,6 2 24 0,061 0,727
12 4,9 1 25 0,030 0,758
13 5,1 3 28 0,091 0,848
14 5,2 1 29 0,030 0,879
15 5,4 2 31 0,061 0,939
16 5,5 1 32 0,030 0,970
17 6,3 1 33 0,030 1,000
Total 33 1
Gráfico de Barras
0
1
2
3
4
5
6
7
3,4 3,5 3,6 3,7 3,8 3,9 4 4,2 4,3 4,4 4,6 4,9 5,1 5,2 5,4 5,5 6,3
Custos das Chamadas Telefónicas
n
i
Figura 39. Gráfico de Barras sem Outliers (Excel)
54
Análise Exploratória de Dados – Chamadas Telefónicas
Tabela 20. Estatísticas sem Outliers (Excel)
N.º de Observações 33
Decis
Mínimo 3,4 2º Decil 3,8
Máximo 6,3 6º Decil 4,22
Amplitude Amostral 2,9
Média 4,29
Moda 3,8 Percentis
Mediana 3,9
26º Percentil 3,8
Variância 0,54 77º Percentil 5,028
Desvio Padrão 0,73
Coef. Variação 17,09%
Curtose Não se aplica
Skewness 0,97
1º Quartil 3,8
3º Quartil 4,9
Análise dos dados agrupados:
Tabela 21. Agrupamento dos dados sem Outliers (Excel)
N=N.º de Classes 6
h=amplitude das classes 0,49
ε
=excesso 0,04
A primeira classe deverá começar em: 3,38
A última classe deverá terminar em: 6,32
Tabela 22. Tabela de Frequências com os dados agrupados e sem Outliers (Excel)
Classe i Intervalo Ponto médio xi* ni Ni fi(%) Fi(%)
2,89 0 0
1 ]3,38;3,87] 3,63 12 12 0,36 0,36
2 ]3,87;4,36] 4,12 9 21 0,27 0,64
3 ]4,36;4,85] 4,61 3 24 0,09 0,73
4 ]4,85;5,34] 5,10 5 29 0,15 0,88
5 ]5,34;5,83] 5,59 3 32 0,09 0,97
6 ]5,83;6,32] 6,08 1 33 0,03 1,00
0 0 0
Total 33 1
55
Análise Exploratória de Dados – Chamadas Telefónicas
Histograma
0
3
6
9
12
15
18
21
24
27
30
33
36
2,89 ]3,38;3,87] ]3,87;4,36] ]4,36;4,85] ]4,85;5,34] ]5,34;5,83] ]5,83;6,32]
Custos das Chamadas Telefónicas
ni
Figura 40. Histograma/ Polígono de Frequências/ Ogiva sem Outliers (Excel)
Tabela 23. Estatísticas com os dados agrupados e sem Outliers (Excel)
Média 4,32
Clas. Modal ]3,38;3,87] Moda 3,91
Clas. Mediana ]3,87;4,36] Mediana 4,12
Amplitude Amostral 2,45
Variância 0,54
Desvio Padrão 0,74
Coeficiente de Variação 17,01%
Quartis:
Clas.1ºQ ]3,38;3,87] 1º Quartil 3,72
Clas.3ºQ ]4,85;5,34] 3º Quartil 4,92
AIQ 1,21
Momento centrado de ordem 3 0,29
Skewness 0,80
Décis
Classe 2º Decil ]3,38;3,87] 2º Décil 3,65
Classe 6º Decil ]3,87;4,36] 6º Décil 4,29
Percentis
Classe 26º Percentil ]3,38;3,87] 26º Percentil 3,73
Classe 77º Percentil ]4,85;5,34] 77º Percentil 4,99
56
Análise Exploratória de Dados – Chamadas Telefónicas
• SPSS
Tabela 24. Estatísticas sem Outliers (SPSS)
Estatísticas
Custos das Chamadas Telefónicas (Sem Outliers)
33
0
4,291
3,900
3,8
,7333
,538
,966
,409
2,9
3,4
6,3
3,780
3,800
3,800
3,900
4,240
5,000
Válidos
Desconhecidos
N
Média
Mediana
Moda
Desvio Padrão
Variância
Coeficiente de Assimetria (Skewness)
Erro Padrão da Skewness
Amplitude
Mínimo
Máximo
20
25
26
50
60
75
Percentis
57
Análise Exploratória de Dados – Chamadas Telefónicas
Tabela 25. Tabela de Frequências sem Outliers (SPSS)
Custos das Chamadas Telefónicas (Sem Outliers)
1 3,0 3,0
3 9,1 12,1
1 3,0 15,2
1 3,0 18,2
6 18,2 36,4
5 15,2 51,5
2 6,1 57,6
1 3,0 60,6
1 3,0 63,6
1 3,0 66,7
2 6,1 72,7
1 3,0 75,8
3 9,1 84,8
1 3,0 87,9
2 6,1 93,9
1 3,0 97,0
1 3,0 100,0
33 100,0
3,4
3,5
3,6
3,7
3,8
3,9
4,0
4,2
4,3
4,4
4,6
4,9
5,1
5,2
5,4
5,5
6,3
Total
Válidos
Frequência
Absoluta
Frequência
Relativa
Frequência
Relativa
Acumulada
Figura 41. Gráfico de Barras sem Outliers (SPSS)
58
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 42. Histograma/ Polígono de Frequências sem Outliers (SPSS)
Frequência Caule & Folhas
1,00 3 . 4
16,00 3 . 5556788888899999
5,00 4 . 00234
3,00 4 . 669
6,00 5 . 111244
1,00 5 . 5
1,00 6 . 3
Tamanho do Caule: 1,0
Casos por Folha: 1 caso
Figura 43. Diagrama de Caule - e – Folhas sem Outliers (SPSS)
59
Análise Exploratória de Dados – Chamadas Telefónicas
Figura 44. Caixa de Bigodes sem Outliers (SPSS)
60
Análise Exploratória de Dados – Chamadas Telefónicas
Anexo II – Definições
Coeficiente de variação:
100%
s
CV
x
· ×
Regra de Surges
2
º (log ) 1 N n de classes I n · · +
onde a função
( ) I x
representa a parte inteira de x e n representa a dimensão da amostra.
Amplitude de Classes
( ) (1)

º
n
x x
h amplitude da classe
n de classes

· ·
onde
( ) n
x
é o máximo da amostra e
(1)
x
é o mínimo.
Excesso – ε –
( ) (1)
( )
n
excesso N h x x r · · ×
Mediana para dados agrupados:
.
med
med med
med
F
Med LI
f
o

e + A
onde:
0, 5 o ·
(por se tratar da mediana)
med
LI
é o limite inferior da classe mediana
med
F

é a frequência relativa acumulada da classe anterior à classe mediana
med
f
é a frequência relativa da classe mediana
med
A
é a amplitude da classe mediana
61
Análise Exploratória de Dados – Chamadas Telefónicas
Moda para dados agrupados:
mod mod
1
.
1 2
d
Mod LI
d d
e + A
+
onde:
mod
LI
é o limite inferior da classe modal
1 d é a diferença entre a frequência relativa da classe modal e a frequência
relativa da classe anterior
2 d é a diferença entre a frequência relativa da classe modal e a frequência
relativa da classe seguinte
mod
A
é a amplitude da classe modal
Coeficiente de assimetria ou Skewness
2
3
1
3
2
( 1)( 2)
m n
g
n n
m
· ×

onde:
n
é a dimensão da amostra
2
m
é o momento empírico centrado de ordem 2
3
m
é o momento empírico centrado de ordem 3
62

Sign up to vote on this title
UsefulNot useful