Escolar Documentos
Profissional Documentos
Cultura Documentos
www.uminho.pt
Autor X
Autor Y
Sumário
Este trabalho foi proposto no âmbito da Unidade Curricular de Oficina I do 1º ano do
curso de Estatística Aplicada, conjuntamente pelos docentes Arminda Manuela
Gonçalves e Pedro Pimenta, e com o objectivo de proceder a uma análise exploratória
de dados recorrendo a diferentes ferramentas de cálculo.
Para efectuarmos a implementação das estratégias de análise exploratória dos dados
facultados utilizamos três ferramentas de cálculo distintas – o Excel, o SPSS e a
calculadora gráfica Texas (modelo TI-83). Quando não foi possível efectuar os cálculos
recorrendo às ferramentas indicadas, efectuámo-los com papel e lápis e transcrevemo-
los para o presente relatório. Em simultâneo fizemos uma leitura e interpretação dos
resultados obtidos.
A análise dos dados permitiu-nos, principalmente, adquirir competências para manipular
com mais à vontade as três ferramentas de cálculo acima apontadas.
Este relatório está organizado da seguinte forma: optamos, inicialmente, por dividir a
análise exploratória dos dados em duas partes – a análise dos dados em bruto e a análise
dos dados agrupados – em que em cada uma delas se apresenta o estudo dos dados
recorrendo às três ferramentas de cálculo. Posteriormente formamos outras duas partes
– uma para apresentar os dados através da caixa com 5 letras – resumo, já que esta não
pode ser efectuada recorrendo a nenhuma das ferramentas de cálculo utilizadas; outra
parte para realizar uma análise aos dados sem os valores que viemos a constatar serem
discordantes. Por fim criamos outra parte para fazer a discussão dos resultados.
Relativamente ao estudo efectuado, os dados facultados dizem respeito a custos de
chamadas telefónicas regionais, efectuadas por um departamento de uma faculdade ao
longo de três anos. Como principais resultados obtivemos, por exemplo, o cálculo da
média e a determinação da assimetria da amostra (que revelou ser enviesada à esquerda)
e que portanto mostrou que, tirando alguns meses excepcionais, os custos com as
chamadas telefónicas se concentraram em volta de um valor. Dado que o objectivo de
qualquer estudo estatístico envolvendo custos é sempre a tomada de decisões para a
diminuição e controlo dos mesmos, recomendamos por exemplo, que se criem limites
máximos mensais para os gastos com essas chamadas telefónicas, limite a partir do qual
essas chamadas terão de ser justificadas. Sugerimos que esse limite máximo seja o valor
do 3º quartil determinado à frente neste relatório.
ii
Análise Exploratória de Dados – Chamadas Telefónicas
Summary
This essay was proposed concerning the curricular unit Oficina I of the first year
colleage certificate of Applicated Statistics, by the group of teachers Arminda Manuela
Gonçalves and Pedro Pimenta, and with the purpose of proceeding to an exploratory
analysis of data, using different calculation tools.
To make the exploratory analysis of strategies implementation of the given data, it was
used three distinct calculation tools – Excel, SPSS and Texas graphic calculators (TI-83
model). When the calculations were not possible to do using the referred tools, they
were made using paper and pencil, and enclosed in the present report. Simultaneously a
reading and interpretation of the obtained results was made.
The data analysis allowed us to, mainly, acquire the skills to manipulate easily the three
calculation tools mentioned previously.
This report is organised as follows: initially we chose to divide the exploratory data
analysis in two parts – the rough data analysis and the grouped data analysis – in each of
them a data study is presented using the here calculation tools. Later, another two parts
were formed, one to present the data through a five letter box – summary, as this one
cannot be made using none of the calculation tools; the other part to perform a non
valued data analysis that we realised being non-agreeable. Finally we created another
part to discuss the results.
According to this investigation, the provided data concerns costs of regional phone
calls, made by an academic department for three years. As main results we got, for
example, the arithmetical mean estimate and the asymmetry resolution of the sample
(that showed to be inclined to the left), therefore, revealed that, except for some unusual
months, the costs of the phone calls were focussed on one value. As the goal of any
statistic study, implying costs, is to reduce and to control them, it is recommended, for
instance, that maximum monthly limits should be established as far as expenses are
concerned, a limit through which those calls must be justified. We suggest that the limit
should be the value of the 3rd quartil which will subsequently be determined in this
report.
iii
Análise Exploratória de Dados – Chamadas Telefónicas
Índice de Conteúdos
Sumário.............................................................................................................................ii
Summary..........................................................................................................................iii
Índice de Conteúdos.........................................................................................................iv
Enunciado..........................................................................................................................1
Análise Exploratória dos Dados........................................................................................2
Dados em Bruto.............................................................................................................3
Introdução dos Dados................................................................................................3
Ordenação dos Dados................................................................................................5
Limpeza e Análise dos Dados....................................................................................8
Tabelas de Frequências..............................................................................................8
Representações gráficas...........................................................................................14
Medidas de Localização..........................................................................................15
Medidas de Dispersão..............................................................................................19
Coeficiente de Variação...........................................................................................22
Coeficiente de Assimetria........................................................................................22
Coeficiente de Achatamento....................................................................................23
Diagrama de Caule – e – Folhas..............................................................................24
Caixa com Bigodes..................................................................................................26
Dados Agrupados.........................................................................................................30
Tabelas de Frequências............................................................................................32
Representações gráficas...........................................................................................33
Medidas de Localização..........................................................................................39
Medidas de Dispersão..............................................................................................41
Coeficiente de Variação...........................................................................................42
Coeficiente de Assimetria........................................................................................42
Coeficiente de Achatamento....................................................................................43
Caixa com 5 Letras – Resumo.........................................................................................44
Análise de Valores Discordantes (Outliers) ....................................................................47
Discussão dos resultados.................................................................................................48
Comparação das ferramentas de cálculo utilizadas.....................................................48
Facilidade de resolução...........................................................................................48
Comparação dos resultados obtidos........................................................................48
Outros aspectos........................................................................................................48
Recomendações...........................................................................................................49
Conclusões.......................................................................................................................50
Reflexão sobre o trabalho de grupo.............................................................................50
Reflexão do Grupo...................................................................................................50
Reflexões Individuais..............................................................................................50
Índice Remissivo.............................................................................................................52
Anexos.............................................................................................................................53
Anexo I – Análise dos dados sem outliers (Excel e SPSS).........................................54
Anexo II – Definições..................................................................................................61
iv
Análise Exploratória de Dados – Chamadas Telefónicas
Enunciado
Considere os seguintes dados correspondentes aos gastos com chamadas telefónicas
regionais de um departamento de uma faculdade ao longo de três anos (1996/1998):
Apenas com recurso a técnicas exploratórias que utilizou, teça comentários que lhe
pareçam apropriados acerca das metodologias e “ferramentas de cálculo” utilizados.
1
Análise Exploratória de Dados – Chamadas Telefónicas
2
Análise Exploratória de Dados – Chamadas Telefónicas
Dados em Bruto
Apesar da nossa variável ser quantitativa continua fizemos a análise dos dados em bruto
como se de uma variável discreta se tratasse.
No Excel os dados podem ser introduzidos de formas diferentes. Uma das formas, e a
que utilizamos, foi escrevê-los directamente numa coluna (coluna C no nosso caso -ver
tabela 3). No entanto também o poderíamos ter feito numa linha ou então, caso
tivéssemos os dados guardados num outro tipo de ficheiro de texto (na Web ou no Word)
seria possível importá-los.
Em simultâneo foi criada outra coluna (B) para a contagem dos dados. Nesta coluna
bastou escrever alguns números, seleccioná-los e arrastar a alça de preenchimento
(pequeno quadrado preto no canto inferior direito da selecção) – procedimento adoptado
em todos os passos de copia de fórmulas em Excel apresentados doravante.
Podemos então concluir que tínhamos em mãos um total de 36 dados ( n 36 ) –
correspondendo, certamente, a cada um dos 36 meses dos anos de 1996, 1997 e 1998
sobre os quais incide a nossa análise.
• SPSS
Em SPSS podem ser introduzidos os dados em bruto na primeira coluna da janela Data
View (note-se que cada coluna desta janela representa uma variável em estudo e onde
cada célula desta coluna contém um valor da variável, ou seja, cada linha representa um
caso). No entanto não foi assim que o fizemos já que possuíamos os dados em Excel e o
SPSS permite importar dados de diversos formatos. Bastou para tal fazer um
copy/paste.
3
Análise Exploratória de Dados – Chamadas Telefónicas
(…)
4
Análise Exploratória de Dados – Chamadas Telefónicas
• Calculadora
Para introduzir dados na calculadora adoptamos os seguir passos:
- Digitamos
- Digitamos para escolher 1: EDIT
De seguida:
- Digitamos 4 Enter
3.9 Enter
5.4 Enter
...
Depois de introduzir os dados estes devem ser ordenados (fizemo-lo por ordem
ascendente). Esta organização não é mais do que uma análise inicial dos mesmos e que
auxilia o esclarecimento de modelos e aspectos de regularidade. Torna os dados mais
facilmente assimiláveis e foca características úteis e importantes. Também pensamos
que os nossos dados, representando custos de chamadas telefónicas, não têm uma
estrutura sequencial e/ou lógica que possa ficar destruída com essa ordenação e que
possa comprometer a sua análise exploratória. O rank inicial apenas nos indica o mês no
qual se obteve o respectivo custo das chamadas telefónicas regionais.
5
Análise Exploratória de Dados – Chamadas Telefónicas
• Excel
Em Excel a ordenação foi feita seleccionando os dados (previamente copiados para uma
outra coluna D) e utilizando o comando Ordenar do menu Dados.
6
Análise Exploratória de Dados – Chamadas Telefónicas
No entanto, caso alteremos algum dos dados iniciais o Excel não actualiza a ordenação
dos dados! Para que isso não aconteça seriam necessários conceitos de programação,
conceitos esses que pensamos saírem fora do propósito deste trabalho.
Após esta ordenação podemos concluir que o menor valor dos dados – o mínimo – é 3,4
e o maior valor – o máximo – é 9. A sua interpretação é simples: durante os três anos em
análise o menor custo em chamadas telefónicas regionais no departamento da
Universidade foi de 3,4 <unidades> e o maior custo foi de 9 <unidades>.
• SPSS
Com a opção Sort Cases do menu Data podemos ordenar os dados por ordem
ascendente (ou descendente), obtendo:
• Calculadora
Para ordenar os dados na
calculadora seguimos os
passos seguintes:
- Digitamos e
obtivemos, no ecrã principal,
SortA(
- Digitamos L1 e
obtivemos:
7
Análise Exploratória de Dados – Chamadas Telefónicas
Tabelas de Frequências
No caso das chamadas telefónicas, e como na maioria das amostras estatísticas, alguns
(muitos!) dos dados são repetidos, o que torna fastidiosa a nossa análise. Para que tal
não aconteça reunimos toda a informação inicial numa tabela de frequências.
• Excel
Para fazer a contagem dos elementos repetidos criamos uma coluna na tabela para aí
colocar as frequências absolutas (coluna E –ni – ver Figura 5). Para tal, introduzimos a
seguinte fórmula na célula relativa à frequência absoluta do valor mínimo, que foi
posteriormente copiada para a restante coluna:
=CONTAR.SE($C$14:$C$49;D55)
Ou seja, fomos contar todos os valores iguais a um certo valor nos nossos dados iniciais
e fizemos a apresentação dessa contagem na célula pretendida.
No final dessa coluna acrescentamos uma célula com o total para, por um lado controlar
se a contagem tinha sido feita correctamente e por outro lado para ter uma célula com o
8
Análise Exploratória de Dados – Chamadas Telefónicas
9
Análise Exploratória de Dados – Chamadas Telefónicas
Note-se que caso tivéssemos efectuado os cálculos manualmente, estes não teriam sido
exactamente iguais – torna-se mais difícil manualmente o cálculo exacto de todas as
estatísticas mantendo todas as casas decimais.
Assim, através de uma leitura atenta da tabela 5 podemos concluir, por exemplo, que
durante os 3 anos da nossa análise, houve um registo em 6 meses de um custo de 3,8
<unidades> (ver linha 5 coluna ni); que em 29 meses o custo das chamadas telefónicas
regionais não ultrapassou as 5,2 <unidades> (ver linha 14 coluna Ni); que em 13,9%
dos meses houve registo de um custo, em chamadas telefónicas regionais, de 3,9
<unidades> (ver linha 6 coluna fi) e que nos 97,2% dos meses o custo das chamadas não
ultrapassou as 7,7 <unidades> (ver linha 18 coluna Fi).
• SPSS
Para criar a tabela de frequências foi necessário aceder ao menu Analyse, seleccionar a
opção Descriptive Statistics e dentro desta, Frequencies. Na janela que surge, por
defeito, aparece seleccionado a opção “Display frequency tables” pelo que bastará fazer
OK. Desta forma é aberta uma janela de resultados – janela Output – dos comandos
efectuados pelo SPSS na forma de uma tabela que foi posteriormente editada de forma a
ficar como a seguinte:
10
Análise Exploratória de Dados – Chamadas Telefónicas
Note-se que esta tabela não traz incluída qualquer coluna com as frequências absolutas
acumuladas.
Por outro lado, esta tabela inclui uma estatística “Válidos” (e noutras ocasiões
“Desconhecidos”) que é usada com o seguinte fim: caso estivéssemos na presença dados
recolhidos por um inquérito em que alguns deles, no que respeita a esta variável, tinham
sido deixados em branco, o SPSS determina as estatísticas com e sem esses casos.
Como neste trabalho, isso não acontece, o cálculo coincide para os casos válidos e para
a totalidade dos casos. Assim, podemos eliminar a coluna “Percentagem de Válidos”, já
que é igual à anterior, obtendo:
Tabela 7. Tabela de Frequências (SPSS)
11
Análise Exploratória de Dados – Chamadas Telefónicas
Frequência Percentagem
Absoluta Percentagem Acumulada
Válidos 3,4 1 2,8 2,8
3,5 3 8,3 11,1
3,6 1 2,8 13,9
3,7 1 2,8 16,7
3,8 6 16,7 33,3
3,9 5 13,9 47,2
4,0 2 5,6 52,8
4,2 1 2,8 55,6
4,3 1 2,8 58,3
4,4 1 2,8 61,1
4,6 2 5,6 66,7
4,9 1 2,8 69,4
5,1 3 8,3 77,8
5,2 1 2,8 80,6
5,4 2 5,6 86,1
5,5 1 2,8 88,9
6,3 1 2,8 91,7
7,7 2 5,6 97,2
9,0 1 2,8 100,0
Total 36 100,0
• Calculadora
Para obter as frequências absolutas:
Para fazer uma coluna de frequências absolutas, tivemos de previamente ter o cuidado
de não repetir dados na primeira lista, introduzindo, então, na coluna seguinte, as
frequências absolutas correspondentes a cada valor da variável – na lista L2.
Para construirmos a coluna das frequências absolutas acumuladas, com o cursor em
cima do nome da lista teclamos List para OPS e em seguida 6:ComSum(.
12
Análise Exploratória de Dados – Chamadas Telefónicas
Digitamos , e obtivemos:
13
Análise Exploratória de Dados – Chamadas Telefónicas
Representações gráficas
Dado que a nossa variável em estudo é quantitativa contínua, a representação mais
adequada não é o gráfico de barras mas sim o histograma. No entanto, dada a sua
simplicidade também o construímos fazendo uso da frequência absoluta das
observações.
• Excel
A Construção deste tipo de gráfico recorrendo ao Excel foi bastante simples. Bastou
fazer Inserir, depois Gráfico e seleccionar o tipo de gráfico (Colunas). Seguidamente
bastou inserir no intervalo de dados as colunas contendo os dados e as respectivas
frequências absolutas:
=Resolução!$D$55:$E$73
Fazendo umas alterações às legendas o resultado foi:
Gráfico de Barras
7
6
5
4
ni
3
2
1
0
3,4 3,5 3,6 3,7 3,8 3,9 4 4,2 4,3 4,4 4,6 4,9 5,1 5,2 5,4 5,5 6,3 7,7 9
Custos das Chamadas Telefónicas
14
Análise Exploratória de Dados – Chamadas Telefónicas
Mais uma vez podemos concluir que esta não é a melhor forma de representar os dados
pois o gráfico apresenta-se muito extenso e com muitas barras todas da mesma altura.
Pela observação do gráfico também podemos concluir, por exemplo, que houve um
registo em 6 meses de um custo, de chamadas telefónicas regionais, de 3,8 <unidades>.
• SPSS
Para obter o gráfico de barras recorrendo ao SPSS foi necessário aceder novamente ao
menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta, Frequencies.
Na janela que surge, devemos aceder a Charts e de seguida seleccionar Bar Charts.
Novamente surge uma janela Output com o gráfico pretendido, que também foi editado
para ficar como o seguinte:
• Calculadora
Não é possível fazer a representação deste gráfico recorrendo a esta ferramenta de
cálculo.
Medidas de Localização
É usual haver vantagem em determinar valores numéricos que possam “representar” a
diversidade dos valores que constituem uma distribuição com uma variável quantitativa,
dando, por si só uma indicação sugestiva da ordem de grandeza daqueles valores. É esse
o papel das medidas de localização central que calculamos e apresentamos de seguida: a
15
Análise Exploratória de Dados – Chamadas Telefónicas
média, a moda e a mediana. Das três medidas a média é a mais usual – pois tem um
significado muito importante – ela funciona para a distribuição de dados um ponto de
equilíbrio. No entanto a média tem uma grande desvantagem – a sua grande
sensibilidade a valores extremos. Diz-se que é pouco resistente.
Quanto a medidas de localização extremal temos o máximo e o mínimo, já destacados
anteriormente neste relatório.
Outras medidas de localização com bastante interesse para o conhecimento da
distribuição são os quantis. Assim como a mediana separa a distribuição ordenada em
duas partes com igual efectivo também se pode considerar a distribuição subdividida em
quatro partes – com os quartis, ou em dez partes – com os décis, ou em cem partes –
com os percentis, ou nas partes que entendermos e julgamos ser necessário.
• Excel
Para determinar a média, bastou utilizar a função MEDIA do Excel, que não é mais do
que uma fórmula predefinida que executa o cálculo pretendido. No nosso caso foi
suficiente introduzir a seguinte fórmula fazendo referência aos dados originais:
=MÉDIA(C14:C49)
Para determinar a mediana bastou fazer uso da função MED do Excel:
=MED(C14:C49)
Para determinar a moda bastou fazer uso da função MODA do Excel:
=MODA(C14:C49)
No que concerne ao máximo e ao mínimo dos dados, já os destacamos anteriormente.
No entanto podemos fazer uso das funções MÁXIMO e MÍNIMO do Excel,
respectivamente:
=MÁXIMO(C14:C49)
e
=MÍNIMO(C14:C49)
Quanto ao quartis, sabe-se que o 2º coincide com a mediana. Quanto aos 1º e 3º
calculam-se no Excel recorrendo à função QUARTIL. Para o primeiro bastou fazer:
=QUARTIL(C14:C49;1)
e para o terceiro:
=QUARTIL(C14:C49;3)
Note-se que a diferença é o algarismo assinalado a vermelho que indica se se trata de
um ou de outro.
16
Análise Exploratória de Dados – Chamadas Telefónicas
Dado que o cálculo de todos os décis e de todos os percentis seria muito enfadonho,
calculamos apenas, a título de exemplo, os 2º e 6º décis e os 26º e 77º percentis. Em
ambos os casos foi utilizada a função PERCENTIL e mais uma vez o algarismo
colocado em último lugar (agora necessariamente compreendido entre 0 e 1) é que
diferenciou a medida a calcular:
Para o 2º décil:· =PERCENTIL (C14:C49;0,2)
Para o 6º décil:· =PERCENTIL (C14:C49;0,6)
Para o 26º percentil:· =PERCENTIL (C14:C49;0,26)
Para o 77º percentil:· =PERCENTIL (C14:C49;0,77)
Por fim para determinar a amplitude interquartil (AIQ) bastou calcular a diferença entre
o 1º e o 3º quartis:
=E119-E118
Todas estas estatísticas estão determinadas na seguinte tabela:
Mínimo 3,4
Máximo 9 Decis
Amplitude Amostral 5,6 2º Decil 3,8
Média 4,61 6º Decil 4,4
Moda 3,80
Mediana 4,00
Percentis
Variância 1,68
Desvio Padrão 1,30 26º Percentil 3,8
Coef. Variação 28,14% 77º Percentil 5,1
1º Quartil 3,8
3º Quartil 5,1
AIQ 1,3
17
Análise Exploratória de Dados – Chamadas Telefónicas
meses em estudo houve um gasto inferior a 3,8 <unidades> e em 77% dos meses houve
um custo inferior ou igual a 5,1 <unidades>.
• SPSS
Para determinar as medidas de tendência central recorrendo ao SPSS foi necessário
aceder, mais uma vez ao menu Analyse, seleccionar a opção Descriptive Statistics e
dentro desta, Frequencies. Na janela que surgiu, devemos acedemos a Statistics e na
janela que aparece posteriormente seleccionamos as medidas que pretendíamos
determinar. Neste caso Mean (para a média), Median (para a mediana) e Mode (para a
moda) do grupo Central Tendency; e Quartiles (para os quartis) do grupo Percentiles
Group.
Novamente surge uma janela Output com a tabela pretendida, que também foi editada
para ficar como a seguinte:
Tabela 9. Medidas de Localização (SPSS)
Estatísticas
• Calculadora
Introduzidos os dados nas colunas, vamos “informar” a calculadora do tipo de
distribuição a considerar.
18
Análise Exploratória de Dados – Chamadas Telefónicas
Digitamos para escolher 1:1 – Var Stats – a calculadora copia esta instrução para o
ecrã principal. Teclamos LIST L1, LIST L2
e confirmamos com .
Obtivemos, de uma vez só, todas as medidas pretendidas:
Medidas de Dispersão
Verifica-se que, sendo a média uma medida que se utiliza para representar toda uma
distribuição, não é por vezes, suficiente para a caracterizar. Desta forma, para avaliar o
grau de variabilidade ou de dispersão dos valores de uma distribuição, usam-se outras
19
Análise Exploratória de Dados – Chamadas Telefónicas
medidas que nos proporcionam melhor conhecimento da amostra e que permitem até
fazer comparações entre amostras da mesma natureza – a amplitude, a variância e o
desvio padrão (esta última é a mais utilizada). No entanto a amplitude, apesar de ser a
mais simples, há forte restrição ao seu uso por apenas considerar apenas os valores
extremos, não atendendo aos valores intermédios.
• Excel
Para determinar a amplitude bastou fazer a diferença entre os valores máximo e mínimo
encontrados:
=E105-E104
Em Excel a variância foi calculada através da função VAR, à semelhança das medidas
anteriores:
=VAR(C14:C49)
Quanto ao desvio padrão amostral este foi calculado de forma idêntica recorrendo à
função DESVPAD:
=DESVPAD(C14:C49)
Podemos observar os valores das medidas de dispersão através da visualização da tabela
8.
Podemos desta forma concluir que a amplitude total dos custos das chamadas
telefónicas regionais verificada foi de 5,6 <unidades>;
• SPSS
Para determinar as medidas de dispersão recorrendo ao SPSS foi suficiente aceder,
novamente ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta,
Frequencies. Na janela que surgiu, devemos aceder a Statistics e na janela que aparece
seleccionamos as medidas que pretendíamos determinar. Neste caso, Std deviation (para
o desvio padrão), Variance (para a variância), Range (para a amplitude), Minimum
(para mínimo) e Maximum (para máximo) do grupo Disperson.
Novamente surge uma janela Output com a tabela pretendida, que também foi editada
para ficar como a seguinte:
20
Análise Exploratória de Dados – Chamadas Telefónicas
Refira-se ainda o seguinte: todas as medidas de tendência central bem como as medidas
de dispersão (e outros coeficientes que iremos focar de seguida) poderiam ter sido
calculadas de uma só vez, caso seleccionássemos ao mesmo tempo todas as opções
expostas. Só não o fizemos para simplificar a sua explicação no presente relatório. No
entanto, parece-nos mais simples adoptar o processo singular para obter, num único
passo o seguinte:
• Calculadora
As medidas de dispersão determinadas na calculadora foram já incluídas na exposição
do cálculo das medidas de localização.
21
Análise Exploratória de Dados – Chamadas Telefónicas
Coeficiente de Variação
Para solucionar o problema da comparação de duas amostras diferentes com grandezas
também diferentes aplica-se o conceito de Coeficiente de Variação, que não é mais do
que uma medida adimensional.
• Excel
Dado que desconhecemos a existência de uma função predefinida no Excel que calcule
esta medida, recorremos à sua definição (ver anexo II) e aplicámo-la directamente na
célula pretendida, ou seja, fizemos:
=E112/E107
formatando a respectiva célula como número em percentagem e fazendo referência às
células contendo o desvio padrão e a média.
Dado que estamos apenas a analisar uma única amostra não faz qualquer sentido
interpretar isoladamente esta medida.
• SPSS
Não é determinado recorrendo a esta ferramenta de cálculo.
• Calculadora
Não é determinado recorrendo a esta ferramenta de cálculo.
Coeficiente de Assimetria
O Coeficiente de Assimetria ou Skewness, como o próprio nome indica, avalia a
simetria da amostra. É uma medida muito trabalhosa se tiver de ser calculada sem
recurso a ferramentas de cálculo e indica-nos uma de três situações: se der um número
negativo a distribuição é enviesada à direita; se der zero, a distribuição é simétrica; se
der um número positivo a distribuição é enviesada à esquerda.
• Excel
Com esta ferramenta de cálculo bastou-nos usar a função DISTORÇÃO para
rapidamente ter a informação desejada:
=DISTORÇÃO(C14:C49)
22
Análise Exploratória de Dados – Chamadas Telefónicas
Dado que o resultado foi 1,9 (ver tabela 8) podemos concluir que estamos na presença
de uma distribuição enviesada à esquerda. Também se pode constatar este facto através
da observação do histograma (que se apresenta mais à frente – Figura 30) ou então
através da comparação das medidas de localização central:
M o 3,8 Med 4 x 4, 61
Isto quer dizer que, durante os 3 anos em estudo, houve uma tendência nos gastos em
chamadas telefónicas regionais abaixo das 4 <unidades>.
SPSS
Para determinar o coeficiente de assimetria recorrendo ao SPSS foi suficiente aceder,
mais uma vez ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro
desta, Frequencies. Na janela que surgiu, acedemos a Statistics e depois seleccionamos
Skewness. Novamente surge uma janela Output com a tabela pretendida, que também
foi editada para ficar como a seguinte:
TabelaEstatisticas
13. Skewness (SPSS)
Custos das Chamadas Telefónicas
N Válidos 36
Desconhecidos 0
Coeficiente de Assimetria(Enviesamento)
1,901
Calculadora
Não é determinado recorrendo a esta ferramenta de cálculo.
Coeficiente de Achatamento
O Coeficiente de Achatamento ou Curtose avalia o achatamento da distribuição ou a
intensidade das observações em torno de valores centrais. No entanto, só tem
importância ser calculada quando previamente se concluiu, através do coeficiente de
assimetria, que a distribuição é simétrica (devido ao termo de comparação ser a curva da
Distribuição Normal e esta ser simétrica).
23
Análise Exploratória de Dados – Chamadas Telefónicas
Excel
Esta ferramenta não permite a construção deste diagrama.
SPSS
Para representar o diagrama de caule – e – folhas recorrendo ao SPSS foi necessário
aceder ao menu Analyse, seleccionar a opção Descriptive Statistics e dentro desta,
Explore. Na janela que surgiu, em Display seleccionamos Plots e de seguida acedemos
a Plots (do lado direito). Na janela que aparece seleccionamos unicamente Stem and
Leaf. Novamente surge uma janela Output com a representação pretendida:
1,00 3 . 4
16,00 3 . 5556788888899999
5,00 4 . 00234
3,00 4 . 669
6,00 5 . 111244
1,00 5 . 5
1,00 6 . 3
24
Análise Exploratória de Dados – Chamadas Telefónicas
Repare-se que apesar do objectivo inicial ser a organização dos dados, obtivemos
também uma representação gráfica. Através de uma observação atenta do diagrama
podemos concluir que a distribuição é assimétrica à esquerda (ver curva a vermelho da
Figura 17).
Esta representação gráfica apresenta algumas diferenças comparativamente com a
mesma efectuada com papel e lápis e que se transcreve seguidamente:
1
36; 100
2
1 3 4
17 3* 5556788888899999
(5) 4 00234
14 4* 669
11 5 111244
5 5* 5
4 6 3
3 7* 7)7)
1 9 0)
para reconstruir a observação da amostra (neste caso 100 , indicando por exemplo que o
1
primeiro valor 3 4 representa 3 100 4 101 3,4 ). Já o valor significa que
2
consideramos semi-caules de amplitude 0,5. O símbolo * indica-nos o segundo semi-
caule.
Também é usual escrever-se a profundidade das linhas do diagrama à esquerda de cada
linha com a excepção da linha mediana na qual se regista, dentro de parêntesis, o
número de elementos dessa linha (neste caso 5).
No diagrama de caule e folhas, acima representado em SPSS, apresenta à esquerda de
cada linha não as profundidades mas sim o número de elementos dessa linha (a
25
Análise Exploratória de Dados – Chamadas Telefónicas
No caso das chamadas telefónicas, basta olharmos para o diagrama de caule – e – folhas
para concluirmos, por exemplo, que apesar de temos muitos meses com custos
diferentes, estes se concentram em torno dos valores 3,5 e 3,9 <unidades>.
Calculadora
Não é possível fazer a representação deste diagrama recorrendo a esta ferramenta de
cálculo.
Excel
Esta ferramenta não permite a construção desta caixa.
SPSS
26
Análise Exploratória de Dados – Chamadas Telefónicas
Através de uma leitura atenta desta representação podemos concluir várias coisas.
Destacamos os círculos à direita do diagrama que representam valores aberrantes da
maioria – os Outliers. Conseguimos perceber que um desses valores é 9 <unidades>
enquanto que os outros dois se situam perto dos 7,5 <unidades> (na realidade sabemos
que são custos iguais a 7,7 <unidades>). Estes três valores podem interpretar-se da
seguinte forma: durante os três anos de sobre os quais incide o nosso estudo, existiram
três meses cujos gastos em chamadas telefónicas foram muito acima/diferentes dos
restantes meses chegando mesmo a atingir um valor de 9 <unidades>.
• Calculadora
27
Análise Exploratória de Dados – Chamadas Telefónicas
28
Análise Exploratória de Dados – Chamadas Telefónicas
29
Análise Exploratória de Dados – Chamadas Telefónicas
Dados Agrupados
Como foi referido anteriormente, por várias vezes, faz mais sentido, no caso dos nossos
dados das chamadas telefónicas, trabalhar com os dados agrupados em classes pois além
da nossa variável ser quantitativa contínua, esta assume um grande número de valores
diferentes. A organização feita de seguida permite sintetizar os dados, no entanto todo o
processo é um pouco mais trabalhoso dado que é necessário proceder à definição de
classes de valores e a uma nova contagem/cálculo das frequências.
Este é pois o procedimento característico a realizar no caso das variáveis em estudo
serem quantitativas contínuas, no entanto não quer dizer que não possa ser aplicado ao
caso de variáveis quantitativas discretas quando estas são em grande número e quando
nos deparamos com problemas idênticos aos apontados anteriormente.
• Excel
Para determinar o número de classes utilizamos a Regra de Surges (ver anexo II).
Inserimos a sua fórmula num célula qualquer, fazendo referência à célula que contém a
totalidade dos dados ( n 36 ):
=INT(LN(E74)/LN(2))+1
Obtivemos 6.
Para determinar a amplitude das classes também utilizamos a fórmula que a define (ver
anexo II). Inserimos então a fórmula numa célula qualquer:
=ARRED.PARA.CIMA((E105-E104)/D129;2)
Obtivemos 0,94.
A utilização da função “ARRED.PARA.CIMA” do Excel na fórmula anterior deve-se ao
facto de que, caso seja necessário proceder a uma aproximação do valor da amplitude da
classe, esta deve ser feita por excesso, sendo este excesso – ε – redistribuído
uniformemente por todas as classes e calculado da seguinte forma (ver anexo II):
=D129*D130-(E105-E104)
Obtivemos 0,04.
Por convenção a primeira classe deverá começar em:
x(1)
2
enquanto que a última classe deverá terminar em:
30
Análise Exploratória de Dados – Chamadas Telefónicas
x( n )
2
Fazendo referência de novo às classes que contêm os valores máximos e mínimos e
utilizando as fórmulas anteriores obtêm-se os valores pretendidos.
No primeiro caso utilizamos a fórmula:
=E104-D131/2
enquanto que no segundo caso:
=E105+D131/2
Com todos estes dados foi fácil o cálculo dos limites inferiores e superiores das classes.
Destaca-se também o zero que aparece na célula E137. Estes foi propositadamente lá
colocado a fim de auxiliar a construção do histograma que se apresentará mais à frente e
o seu objectivo será explicado mais adiante.
• Calculadora
Esta ferramenta de cálculo não agrupa os dados em classes.
31
Análise Exploratória de Dados – Chamadas Telefónicas
Tabelas de Frequências
• Excel
Uma vez definidas as classes, o cálculo das frequências é análogo ao anteriormente
exposto para os dados em bruto. Apenas destacamos uma diferença. Para determinarmos
agora a frequência absoluta de cada classe, utilizamos a função Frequência do Excel
pois esta calcula a frequência que os valores ocorrem dentro de um intervalo de valores
e devolve uma matriz vertical de números. Esta função é da forma:
Frequência (matriz_dados ; matriz_bin)
onde em matriz_dados inserimos todos os nossos dados originais e em matriz_bin
inserimos os limites superiores das classes. Ou seja formulamos:
=FREQUÊNCIA($C$14:$C$49;E138:E144)
No entanto, para que toda a coluna aparecesse preenchida, depois de a seleccionar
colocamos o cursor em frente da fórmula anterior e fizemos CTRL+SHIFT+ENTER.
32
Análise Exploratória de Dados – Chamadas Telefónicas
Esta ferramenta de cálculo não constrói tabelas com os dados agrupados em classes.
• Calculadora
Esta ferramenta de cálculo não constrói tabelas com os dados agrupados em classes.
Representações gráficas
Como foi referido anteriormente, quando estamos na presença de dados agrupados, a
representação gráfica mais usual é o histograma que pode construído através da tabela
de frequências anterior.
• Excel
Para fazermos a construção do histograma no Excel foi necessário proceder, em
primeiro lugar, à activação do suplemento da “Análise de Dados”, que por defeito não
se encontra instalado. Para isso, acedemos ao comando Suplementos do menu
Ferramentas e seleccionamos a opção Analysis ToolPack.
A construção do histograma através deste suplemento foi bastante morosa e
trabalhosa.
Para começar acedemos ao menu Ferramentas, seleccionamos a opção activa
Análise de Dados e seguidamente Histograma.
33
Análise Exploratória de Dados – Chamadas Telefónicas
No entanto o resultado é:
34
Análise Exploratória de Dados – Chamadas Telefónicas
Histograma
Frequência
40
20 Frequência
0
2
32
26
14
08
02
s
ai
6,
5,
8,
9,
4,
7,
M
Bloco
estarem omissas.
Para colocar as barras juntas, basta clicar no meio de uma barra (aparecem uns
separador “Séries” inserir o intervalo das classes nos rótulos do eixo dos xx’s. Nesta
fase é necessário seleccionar também o valor 2,44 que aparece antes da primeira classe
(célula C153) para que uma posterior construção do polígono de frequências e da ogiva
seja facilitada:
=Resolução!$C$153:$C$159
Para o histograma ficar com o aspecto da figura seguinte bastou editá-lo com algumas
nomes dos títulos, diminuir a letra das legendas dos eixos, activar as linhas principais no
eixo dos yy’s e mudar o alinhamento das legenda. Tudo isto foi efectuado recorrendo ao
35
Análise Exploratória de Dados – Chamadas Telefónicas
Histograma/Polígono de frequências/Ogiva
ni 39
36
33
30
27
24
21
18
15
12
9
6
3
0
2,44 ]3,38;4,32] ]4,32;5,26] ]5,26;6,2] ]6,2;7,14] ]7,14;8,08] ]8,08;9,02]
Voltando ao nosso estudo dos custos das chamadas telefónicas regionais, através da
visualização do histograma concluímos que, por exemplo, em 21 dos 36 meses os custos
com as chamadas telefónicas estiveram compreendidos entre 3,38 e 4,42 <unidades>.
• SPSS
36
Análise Exploratória de Dados – Chamadas Telefónicas
• Calculadora
A calculadora também faz a representação do histograma. Depois de introduzirmos os
dados (as observações em L1 e as frequências absolutas em L2):
37
Análise Exploratória de Dados – Chamadas Telefónicas
38
Análise Exploratória de Dados – Chamadas Telefónicas
Medidas de Localização
Para determinar as medidas de localização procede-se de forma idêntica à que referimos
no caso dos dados estarem em bruto (com os dados não agrupados), tomando o ponto
• Excel
Para determinar a média dos dados, utilizamos a função SOMARPRODUTO do Excel
pois este não tem funções predefinidas para calcular medidas de localização com os
dados agrupados em classes. Desta forma fizemos referência aos pontos médios de cada
classe bem como às respectivas frequências relativas, ou seja:
=SOMARPRODUTO(D154:D159;G154:G159)
Para determinar a mediana, começamos por identificar em primeiro lugar a classe que a
contém. Para tal bastou observar a tabela de frequências(ver tabela 15) e localizar a
primeira classe cuja frequência absoluta acumulada seja maior ou igual a 50%. De
seguida, para localizar a mediana dentro dessa classe utilizou-se a sua definição (ver
anexo II) que teve de ser formulada em Excel.
Ou seja:
=B138+((0,5-H153)/G154)*D130
Para determinar a moda procedeu-se de forma idêntica à mediana, começando por
identificar a classe modal – classe com maior frequência – e aplicando a sua definição
(ver anexo II).
Ou seja, em Excel:
=B138+((G154-G153)/((G154-G153)+(G154-G155)))*D130
Quanto ao quantis, estes foram calculados de forma idêntica à mediana sendo que
variava conforme a estatística a calcular.
Para o primeiro quartil ( 0, 25 ) foi formulado:
=B138+((0,25-H153)/G154)*D130
Para o terceiro quartil ( 0, 75 ):
=B139+((0,75-H154)/G155)*D130
Para o 2º décil ( 0, 2 ):
=B138+(0,2/G154)*D130
Para o 6º décil ( 0, 6 ):
39
Análise Exploratória de Dados – Chamadas Telefónicas
=B139+((0,6-H154)/G155)*D130
Para o 26º percentil ( 0, 26 ):
=B138+(0,26/G154)*D130
Para o 77º percentil ( 0, 77 ):
=B139+((0,77-H154)/G155)*D130
Por fim para determinar a amplitude interquartil (AIQ) bastou calcular a diferença entre
o 1º e o 3º quartis:
=E206-E205
Variância 1,54
Desvio Padrão 1,24
Coeficiente de Variação 26,78%
Quartis:
Clas.1ºQ ]3,38;4,32] 1º Quartil 3,78
Clas.3ºQ ]4,32;5,26] 3º Quartil 5,03
AIQ 1,24
Percentis
Classe 26º Percentil ]3,38;4,32] 26º Percentil 3,80
Classe 77º Percentil ]4,32;5,26] 77º Percentil 5,11
SPSS
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
Calculadora
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
40
Análise Exploratória de Dados – Chamadas Telefónicas
Medidas de Dispersão
Mais uma vez, para determinar as medidas de dispersão procede-se de forma idêntica à
que referimos no caso dos dados estarem em bruto tomando o ponto médio de cada
• Excel
Para determinar a amplitude bastou fazer a diferença entre o ponto central da classe com
o valor máximo e o ponto central da classe com o valor mínimo:
=D159-D154
Para determinar a variância foi necessário, em primeiro lugar, criar uma coluna auxiliar
com os quadrados das diferenças entre os pontos médios das classes e a média amostral:
e em seguida formular:
=SOMARPRODUTO(E154:E159;H195:H200)/(SOMA(E154:E159)-1)
Quanto ao desvio padrão amostral bastou aplicar a raiz quadrada ao resultado anterior,
ou seja:
=RAIZQ(D199)
• SPSS
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
• Calculadora
Esta ferramenta de cálculo não calcula estas medidas com os dados agrupados em
classes.
41
Análise Exploratória de Dados – Chamadas Telefónicas
Coeficiente de Variação
• Excel
Para calcular o Coeficiente de Variação, tal como fizemos com os dados em bruto,
recorreremos à sua definição (ver anexo II), formulando:
=D200/C193
utilizando agora o desvio padrão e a média calculadas anteriormente com os dados
agrupados.
• SPSS
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
• Calculadora
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
Coeficiente de Assimetria
• Excel
Infelizmente e mais uma vez o Excel não possui uma fórmula predefinida para o cálculo
deste coeficiente e é com certeza uma das medidas mais trabalhosas de determinar pois
a sua enunciação recorre a um outro conceito que é o de momento empírico centrado de
ordem 2 e 3.
O momento empírico centrado de ordem 2 coincide com a variância sendo que já se
encontra calculado. Quanto ao momento empírico centrado de ordem 3 teve de ser
totalmente formulado por um processo análogo ao do cálculo da variância e também
recorrendo a uma coluna auxiliar:
42
Análise Exploratória de Dados – Chamadas Telefónicas
SPSS
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
Calculadora
Esta ferramenta de cálculo não calcula este coeficiente com os dados agrupados em
classes.
Coeficiente de Achatamento
Não se aplica.
Antes de terminarmos esta análise dos dados em classes queremos apenas lembrar que
os cálculos destas últimas estatísticas foram muito próximos dos dados trabalhados em
bruto pelo que pensamos que o agrupamento dos dados foi realizado com boa
qualidade.
43
Análise Exploratória de Dados – Chamadas Telefónicas
Uma vez que nenhuma das ferramentas utilizadas neste trabalho permite a construção
desta caixa, apresentamos de seguida uma transcrição da mesma, efectuada com papel e
lápis, bem como uma sucinta explicação da sua construção.
Uma caixa com 5 letras – resumo (Caixa com 5 L-R) é da forma:
Caixa com 5 L R
n M M prof ( M )
F FL FU prof ( F )
1 x(1) x( n ) 1
d F ......
Barreiras :......;.......
Figura 37. Forma da caixa com 5 L-R
44
Análise Exploratória de Dados – Chamadas Telefónicas
os outliers da amostra, ou seja os elementos que se afastam do padrão dos dados e que
já os tínhamos referido na representação da caixa de bigodes. Caso certos valores da
amostra estejam fora das barreiras periféricas são considerados outliers “normais” no
entanto se estiverem fora das barreiras exteriores são considerados outliers severos.
No nosso caso começamos por calcular o seguinte, tendo em conta que o 1º quartil
calculado com os dados em bruto é 3,8 e o 3º quartil determinado da mesma forma é
5,1:
n 1 36 1
prof ( M ) 18,5
2 2
I ( prof ( M )) 1 I (18,5) 1 19
prof ( F ) 9,5
2 2 2
d F FU FL 5,1 3,8 1,3
Seguidamente, calculamos as barreiras. Para as periféricas obtivemos:
FL 1,5 d F 3,8 1,5 1,3 1,85
e
FU 1,5 d F 5,1 1,5 1,3 7, 05
pelo que concluímos o seguinte: dado que o mínimo da amostra é 3,4 e o máximo é 9, a
amostra tem três outliers (7,7; 7,7 e 9).
Quanto às barreiras exteriores, obtivemos:
FL 3 d F 3,8 3 1,3 0,1
e
FU 3 d F 5,1 3 1,3 9
pelo que não existem outliers severos (apesar do máximo estar no limite!).
Desta forma a caixa com 5 L-R tomou a forma seguinte:
Caixa com 5 L R
36 M 4 18,5
F 3,8 5,1 9,5
1 3,4 91
d F 1,3
Barreiras :1,85 ; 7,05
Figura 38. Caixa com 5 L-R
45
Análise Exploratória de Dados – Chamadas Telefónicas
46
Análise Exploratória de Dados – Chamadas Telefónicas
47
Análise Exploratória de Dados – Chamadas Telefónicas
Facilidade de resolução
No que diz respeito à facilidade de resolução, elegemos o SPSS. Nesta ferramenta basta
introduzir os dados, seleccionar as estatísticas/representações pretendidas e, no mesmo
instante, obter tudo. No entanto, reconhecemos que todas as ferramentas são de fácil
manipulação, com a excepção de algumas etapas em Excel que têm de ser,
necessariamente formuladas e/ou pensadas ao pormenor (como é o caso da construção
do histograma).
Outros aspectos
Por fim vamos apontar vantagens e desvantagens (a nosso ver) das ferramentas
utilizadas.
Quanto ao Excel pensamos ter, como grande vantagem, ser uma ferramenta de fácil
acesso, capaz de importar/exportar dados de/para ficheiros de texto da/para web e
do/para o Word. Em contrapartida é uma ferramenta, não específica para estudos
48
Análise Exploratória de Dados – Chamadas Telefónicas
estatísticos, que exige mais tempo para efectuar análises como a deste trabalho já que é
necessário, por exemplo, formular todas as colunas das tabelas de frequências e (pior do
que isso!) que não tem fórmulas predefinidas para calcular estatísticas com os dados
agrupados em classes. Uma outra grande desvantagem é a não permissão para efectuar
representações como a caixa de bigodes ou o diagrama de caule e folhas.
Relativamente ao SPSS, este tem como grande vantagem ser uma ferramenta pensada
para este tipo de estudos e ser uma ferramenta muito mais rápida a efectuar cálculos de
estatísticas e/ou representações gráficas. Em contrapartida apresenta algumas diferenças
comparativamente com os cálculos/representações efectuadas com papel e lápis. São
exemplo disso as classes que aparecem de forma automática no histograma ou a
ausência das frequências absolutas acumuladas nas tabelas de frequência. Outra
desvantagem é a impossibilidade do SPSS não agrupar os dados em classes.
No tocante à calculadora gráfica, a principal vantagem é a de permitir efectuar grande
parte da análise com um instrumento de porte simples, facilmente transportável para
qualquer aula. A desvantagem é não efectuar a classificação dos dados bem como não
produzir o diagrama de caule-e-folhas nem determina os coeficiente de
assimetria/achatamento e de variação.
Uma desvantagem de todas as ferramentas utilizadas é a impossibilidade de calcular de
forma automática as barreiras bem como de representar a caixa com 5 L-R.
Recomendações
A discussão dos aspectos mais críticos deste trabalho conduziu à elaboração de
recomendações que procuram apontar caminhos para que, futuramente, trabalhos deste
género sejam elaborados de outra forma, nomeadamente:
A análise dos dados deverá ser feita nas diferentes ferramentas antes do início da
narração do relatório, para simplificar a comparação dos resultados e para dar
uma ideia geral da população em estudo.
A construção do índice remissivo pareceu-nos mais fácil se fosse efectuada ao
mesmo tempo do relatório, o que não aconteceu (foi elaborado no final);
Idem para o numerar e legendar das figuras e tabelas;
49
Análise Exploratória de Dados – Chamadas Telefónicas
Conclusões
A realização deste trabalho teve uma dupla motivação: por um lado efectuar uma análise
de dados e mais concretamente lidar com as ferramentas de cálculo e por outro
dinamizar a reflexão e a discussão em grupo.
No respeitante ao estudo efectuado, qualquer pessoa diria que os dados facultados
inicialmente são normais e que não escondem nada de especial. No entanto, depois de
toda a análise feita aos mesmos e recorrendo às variadíssimas técnicas exploratórias e às
diferentes ferramentas de cálculo podemos concluir que afinal até escondiam alguns
valores aberrantes (outliers). Isto porque os dados ainda não tinham sido lidos por
“olhos estatísticos”.
Em termos pessoais, foi muito bom termos aprendido a trabalhar com diferentes
ferramentas de cálculo pois em qualquer sítio temos acesso a pelo menos uma delas e
agora sabemos manipulá-las, com menos ou mais dificuldade.
Reflexão do Grupo
Relativamente ao desafio do trabalho de grupo é sempre bom conhecermos pessoas
diferentes de nós e aprendermos a lidar com opiniões diferentes – faz-nos crescer,
alargar os horizontes e pensar de maneira diferente. Pensamos ter sido uma experiência
muito positiva já que pudemos trocar impressões e aprender uma com a outra.
Pensamos que os trabalhos de grupo são bons no sentido que nos ajudam a perspectivar
um futuro ingresso num ambiente de trabalho mais específico.
Reflexões Individuais
“Este trabalho ilustrou-me de uma forma mais aprofundada o que realmente é a
estatística, os seus métodos (ferramentas de cálculo), e os seus objectivos. Penso que o
grau de exigência formulada pelos professores era muito acentuada visto os poucos
conhecimentos que tinha em estatística e nas suas ferramentas de cálculo.
Acho que o balanço foi positivo apesar de ser muito trabalhoso e ocupar muito tempo,
principalmente da minha colega de grupo que é trabalhadora – estudante e que ajudou
50
Análise Exploratória de Dados – Chamadas Telefónicas
muito a facilitar o trabalho graças aos seus conhecimentos e muita disponibilidade para
ajudar.
As aulas de Oficina foram fulcrais para acertar pormenores importantes e agradeço a
disposição dos professores.
Houve maior dificuldade em utilizar algumas funções dos programas utilizados que
desconhecia por completo e que eram exigidas para a resolução do trabalho. Contudo o
trabalho está feito e espero atenciosamente a sua avaliação.”
Autor X
51
Análise Exploratória de Dados – Chamadas Telefónicas
52
Análise Exploratória de Dados – Chamadas Telefónicas
Anexos
53
Análise Exploratória de Dados – Chamadas Telefónicas
• Excel
Total 33 1
Gráfico de Barras
7
6
5
4
ni
3
2
1
0
3,4 3,5 3,6 3,7 3,8 3,9 4 4,2 4,3 4,4 4,6 4,9 5,1 5,2 5,4 5,5 6,3
Custos das Chamadas Telefónicas
54
Análise Exploratória de Dados – Chamadas Telefónicas
1º Quartil 3,8
3º Quartil 4,9
Tabela 22. Tabela de Frequências com os dados agrupados e sem Outliers (Excel)
Classe i Intervalo Ponto médio xi* ni Ni fi(%) Fi(%)
2,89 0 0
1 ]3,38;3,87] 3,63 12 12 0,36 0,36
2 ]3,87;4,36] 4,12 9 21 0,27 0,64
3 ]4,36;4,85] 4,61 3 24 0,09 0,73
4 ]4,85;5,34] 5,10 5 29 0,15 0,88
5 ]5,34;5,83] 5,59 3 32 0,09 0,97
6 ]5,83;6,32] 6,08 1 33 0,03 1,00
0 0 0
Total 33 1
55
Análise Exploratória de Dados – Chamadas Telefónicas
Histograma
36
ni 33
30
27
24
21
18
15
12
9
6
3
0
2,89 ]3,38;3,87] ]3,87;4,36] ]4,36;4,85] ]4,85;5,34] ]5,34;5,83] ]5,83;6,32]
Variância 0,54
Desvio Padrão 0,74
Coeficiente de Variação 17,01%
Quartis:
Clas.1ºQ ]3,38;3,87] 1º Quartil 3,72
Clas.3ºQ ]4,85;5,34] 3º Quartil 4,92
AIQ 1,21
Percentis
Classe 26º Percentil ]3,38;3,87] 26º Percentil 3,73
Classe 77º Percentil ]4,85;5,34] 77º Percentil 4,99
56
Análise Exploratória de Dados – Chamadas Telefónicas
• SPSS
57
Análise Exploratória de Dados – Chamadas Telefónicas
Frequência
Frequência Frequência Relativa
Absoluta Relativa Acumulada
Válidos 3,4 1 3,0 3,0
3,5 3 9,1 12,1
3,6 1 3,0 15,2
3,7 1 3,0 18,2
3,8 6 18,2 36,4
3,9 5 15,2 51,5
4,0 2 6,1 57,6
4,2 1 3,0 60,6
4,3 1 3,0 63,6
4,4 1 3,0 66,7
4,6 2 6,1 72,7
4,9 1 3,0 75,8
5,1 3 9,1 84,8
5,2 1 3,0 87,9
5,4 2 6,1 93,9
5,5 1 3,0 97,0
6,3 1 3,0 100,0
Total 33 100,0
58
Análise Exploratória de Dados – Chamadas Telefónicas
1,00 3 . 4
16,00 3 . 5556788888899999
5,00 4 . 00234
3,00 4 . 669
6,00 5 . 111244
1,00 5 . 5
1,00 6 . 3
59
Análise Exploratória de Dados – Chamadas Telefónicas
60
Análise Exploratória de Dados – Chamadas Telefónicas
Anexo II – Definições
Coeficiente de variação:
s
CV 100%
x
Regra de Surges
N nº de classes I (log 2 n) 1
Amplitude de Classes
x( n ) x(1)
h amplitude da classe
n º de classes
onde x( n ) é o máximo da amostra e x(1) é o mínimo.
Excesso – ε –
excesso N h ( x( n ) x(1) )
61
Análise Exploratória de Dados – Chamadas Telefónicas
62