Escolar Documentos
Profissional Documentos
Cultura Documentos
1 Introdução 2
2 Metodologia 2
2.1 Referencial Teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.1 Ciência de Dados . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
2.1.2 ETL . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4
2.1.3 Machine Learning . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
3 Resultados 10
4 Conclusões 24
5 Referências 25
1 INTRODUÇÃO
O modelo de avião comercial transformou‐de em um dos principais meios de transporte de
passageiros e cargas, quando se trata de médias distâncias. Governos e analistas apontam o setor
de transporte aéreo como estratégico para o país (Pasin e Lacerda, 2003). No brasil, que possui
grandes dimensões territoriais, o uso deste meio de transporte se destaca como elemento de
integração entre seus mais longínquos pontos. Sua importância pode ser mensurada devido as
proporções do mercado brasileiro, como o maior da américa latina, sendo responsável por cerca
de 3% do produto interno Bruto (PIB) (Araújo et al., 2006).
Diante desse cenário, objetivo principal do projeto é utilizar os dados de 2021 para prever qual o
tempo ideal de resolução de cada categoria de problema. Com isso, as companhias aéreas possuirão
informações suficientes para aprimorar e redimensionar o seu atendimento, na busca de obter
melhores resultados nas avaliações dos clientes. O tempo de resolução ideal obtido deverá garantir
uma nota média para as empresas de no mínimo 3.
2 METODOLOGIA
O termo Ciência de Dados, em inglês, Data Science, foi cunhado há, aproximadamente, 15 anos.
Os dados são um ativo crítico e a Ciência de Dados é o núcleo interdisciplinar que tem atraído cada
vez mais atenção e debate nas áreas de estatística, análise, computação, Ciências Sociais e outros
domínios e disciplinas científicas (CAO, 2016a).
Conforme afirmado por Cao (2016a) existem diferentes definições e interpretações, da Ciência de
Dados. Como campo científico, que desenvolve metodologias, teorias, tecnologias e aplicativos
relevantes para dados, desde a captura, criação, representação, armazenamento, pesquisa,
compartilhamento, privacidade, segurança, modelagem, análise, aprendizagem, apresentação e
visualização, até a integração de recursos complexos, heterogêneos e interdependentes para a
tomada de decisões em tempo real, colaboração, criação de valor e suporte à decisão.
Sobre a definição Ciência dos Dados, Cao (2017b) apresenta uma proposta que, de acordo com a
Figura 1, é centrada na transdisciplinaridade: “A ciência de dados é um novo campo transdisciplinar
que constrói e sintetiza várias disciplinas e corpos de conhecimento relevantes, incluindo estatística,
informática, computação, comunicação, gerenciamento e sociologia”.
Wang também trabalhou o conceito de Ciência dos Dados por meio da exposição de diversos outros
conceitos elaborados por diferentes autores e de acordo com Wang (2018) “parece haver algum
consenso de que a ciência de dados é um campo interdisciplinar que diz respeito à identificação e
Ainda se baseando em Wang (2018), que apresenta as contribuições de suma importância da Ciência
da Informação para a Ciência de ados como: Conceito de Dados, Controle de qualidade de dados,
Bibliotecário de dados e Teoria dos documentos.
2.1.2 ETL
• Área de Apresentação de Dados – esta área responde pela interface onde o usuário
realiza consultas, gera relatórios e outras aplicações gerenciais de análise sobre os dados
devidamente organizados.
Um processo ETL concebido de maneira adequada realiza a extração de dados das mais diversas
fontes e tipos de valores, dos sistemas que são denominados como fonte de dados (Data Sources)
executando assim a primeira de sua importante tarefa. O objetivo deve estar sempre voltado
para dar a devida coerência e conformidade, sempre visando a sua adequabilidade às informações
associadas à futura apresentação da informação.
Como primeiro passo tem‐se a de extração na qual os dados brutos provenientes de diversos
sistemas de origem são usualmente carregados diretamente para a base do DW, como visto
na figura 2. A partir daí esses dados se apresentam com pouca reestruturação e por vezes são
epresentados de maneira incoerente, ou se sobrepõem ou se contradizem entre múltiplas fontes
A próxima etapa se trata da xtração, os valores, que neste instante estão no data staging area, são
submetidos ao passo de limpeza, isto é, as transformações dos incoerentes para dados confiáveis
(sujos e limpos respectivamente). Como “dados sujos” se entende que são aqueles que apresentam
erros ortográficos, redundantes em diferentes representações ou mesmo valores inválidos para
determinado tipo de dado. Em suma, a abordagem de limpeza trata diretamente do aumento da
qualidade dos dados.
• Padronização – nesta etapa se apresenta a aplicação de formato padrão para cada elemento
previamente separado;
• House holding – como o próprio nome sugere trata da economia de dados, identificando
grupos de elementos que possuam características em comum;
E a última etapa é o carregamento, onde Integração de dados trata da estruturação dos dados
no esquema de, conciliando‐se as dimensões e buscando a padronização da tabela de fatos
(GONÇALVES, 2003). A integração deve ser feita para evitar‐se que um mesmo elemento em
tabelas diferentes tenha nomes distintos. Nesse momento os ados precisam estar na mesma
escala, ou nomenclatura. Na Figura 3 apresenta‐se um caso típico de integração de dados. O
caso mostra a integração de dados entre 5 aplicações diferentes, em cada uma dessas aplicações
o atributo “Sexo” é referido de uma forma, cabe a integração de dados definir qual deverá ser o
adrão de saída destes dados para o ambiente de DW, além de interpretar cada dado de origem.
Sistemas de machine learning ou aprendizado de máquina são sistemas que aprendem a partir dos
dados e que deseja tomar decisão com a menor intervenção humana possível, uma opção muito
poderosa e muito utilizada do aprendizado de máquina cresceu exponencialmente por toda a ciência
da computação e outras áreas. Machine learning é usado em diferentes áreas, em pesquisa na web,
filtro de spam de e‐mails, sistemas de recomendação, anúncios, detecção de fraude, classificação
de imagens e muitos outras aplicações.
A aprendizagem é uma característica própria dos seres humanos. Graças a isso, enquanto executam
tarefas semelhantes, adquirem a capacidade de melhorar seu desempenho. Essa habilidade, quando
aplicada a sistemas computacionais, é chamada de aprendizado de máquina. (KONAR, 1999, p 788).
Para entender como o aprendizado e máquina gera conhecimento e aprende de padrões e dados,
precisamos entender sobre a hierarquia do aprendizado de sistema, que seria o processo de
indução, a forma de inferir lógica para obter conclusões genéricas sobre um conjunto particular de
Os dados podem ser treinados como uma ou mais entradas chamadas de atributos de entrada e
na qual a saída chamada por classe desejada é conhecida. Por exemplo, pode ser o histórico do
streaming de filmes que uma pessoa use.
O algoritmo supervisionado busca através do espaço de hipóteses possíveis (classes) por aquele
que terá melhor desempenho para o dado, isso acontece também para conjuntos que não fazem
parte do conjunto de treinamento. Com um conjunto de testes de exemplos que são distintos
do conjunto de treinamento ou com novos exemplos com diferentes valores, podemos medir a
precisão de uma hipótese de um modelo gerado. Dizemos que uma hipótese generalizada bem se
prevê corretamente o valor de saída para novos exemplos. (NORVIG; RUSSELL, 2013).
Métodos supervisionados são apenas uma hipótese, dentro de todas as possibilidades possíveis,
o aprendizado não supervisionado tende a selecionar uma coleção inteira ou um agrupamento de
hipóteses. O agrupamento identifica grupos nos dados conforme suas similaridades. (NORVIG;
RUSSELL, 2013).
Nos dados de entrada não apresenta um ponto de saída, ponto de conclusão, não tem uma resposta
100% correta rotulada de saída. Cabe ao algoritmo descobrir semelhanças entre os dados e agrupá‐
los adequadamente. O objetivo é explorar os dados e encontrar alguma estrutura dentro deles.
O prendizado não‐supervisionado funciona bem com dados transacionais. Por exemplo, ele pode
identificar segmentos de clientes com atributos similares que podem, então, ser tratados de modo
Uma das vantagens de usar o Random Forest retorna de maneira muito compreensiva a importância
atribuída para cada variável independente na hora de realizar as previsões. Com isso, é possível
medir o impacto de cada questão no resultado final. Entretanto, a desvantagem é que por ser um
algoritmo de aprendizado supervisionado, é preciso que seja fornecida uma variável resposta, ou
seja, uma única variável pode ser prevista.
O algoritmo escolherá aleatoriamente duas ou mais variáveis, e realizará os cálculos com base
nas amostras selecionadas, para definir qual dessas variáveis será utilizada no primeiro nó. Para
escolha da variável do próximo nó, novamente serão escolhidas duas ou mais variáveis, excluindo
as já selecionadas anteriormente, e o processo de escolha se repetirá. Desta forma a árvore será
construída até o último nó. A quantidade de variáveis a serem escolhidas pode ser definida na
criação do modelo.
2.1.3.4 Árvore de Decisão “Uma árvore de decisão representa uma função que toma como
entrada um vetor de valores de atributos e retorna uma”decisão” — um valor de saída único.”
(RUSSEL e NORVIG, 2014) É um algoritmo muito simples para a construção em cima de dados,
tem como base a estratégia de ser guloso de dividir para conquistar e sempre testar o atributo
mais importante em primeiro lugar, que vai ter maior diferença na classificação.
a divisão e dizer qual será o próximo nó dado um certo valor, exemplo: pode existir um nó com
teste condicional de idade, se a idade for maior que 18 é direcionado para um nó subsequente e
se for menor para outro nó subsequente. Já o nó folha é com o rótulo, com os valores das classes
do conjunto de dados, esse nó fica na ponta das árvores. (CARVALHO et al., 2011).
A representação da árvore se torna mais natural de entender para o ser humanos, pois são nós
encadeados com funções de decisão, então dado certo valor de entrada com seus atributos vai se
percorrendo a árvore pelos os nós, e em cada nó decidindo pelo atributo qual será o próximo nó,
até chegar no nó folha que terá o resultado desta entrada.
Em alguns problemas utilizando aprendizagem com árvore de decisão gera‐se árvores muito
grandes quando não se identificar algum padrão. A aprendizagem vai identificar os padrões que
estão apresentados nos dados, e ocorrer o problema de super adaptação (overfitting), e talvez
gerando nós redundantes e sem valor. (NORVIG; RUSSELL, 2013) Existe a técnica de poda, que
consiste em eliminar ruídos e o overfitting. Através de aprendizado genérico de uma hipótese
no conjunto de treinamento de forma a melhorar o desempenho da árvore, forma para reduzir
folhas redundantes e a profundidade da árvore gerada. Existem 2 formas a pré‐poda e pós‐poda,
a pré‐poda acontece durante a geração das hipóteses, alguns exemplos nos treinamentos serão
ignorados; e a pós‐poda criasse primeiramente as hipóteses no treinamento então é generalizando
as hipóteses e removendo partes, como o corte de alguns ramos em uma árvore de decisão.
(MONARD; BARANAUSKAS, 2003).
As primeira informações que podemos obter através da análise de dados são as chamadas totais
ocorridas mensalmente em um periodo anual. pela representação da figura 5 é possivel observar
uma sazonalidade de chamados, onde os meses finais do ano há uma quantidade muito maior de
ocorrências.
30000 30765
25998
23808 23235
21183 21105
20000 19875
1922719521
10000
0
Jan Fev Mar Abr Mai Jun Jul Ago Set Out Nov Dez
Mês
2e+05
1e+05
Outro dado que podemos observar é a quantidades de aberturas de chamadas de acordo com a
faixa etária, que pela figura 7 os chamados ocorrem majoritariamente pela a faixa etaria de 31‐40
anos.
Uma relação explorada tambem foi a de chamadas de acordo com sexo do cliente, onde cerca de
56% das ocorrências foram feitas pelo sexo masculino, como representado pela figura 8.
44.06% F
55.90% M
O
Outra informação extraida do banco de dados da ANAC foi a quantidade de reclamções de acordo
com a companhia aérea. Segundo a figura 9, a empresa GOL Linhas Aéreas foi a que obteve a maior
quantidade de chamados.
Alitalia
Copa Airlines
Aeromexico
A maiorira dos atendimentos realizados não recebem nota, como é possivel observar pela figura
10, cerca de 40% dos chamados não receberam nota pelo consumidor em relação ao atendimento
fornecido .
1e+05
70887 68451
5e+04
22245
17799
9822
0e+00
5 4 3 2 1 NA
O tempo de atendimento dos chamados pelos clientes pode ser observado pelas curvas da figura
11, onde a curva preta representa a quantidade atendida de acordo com o tempo e a curva azul é
a tendêcia da distribuição da curva preta de modo acentuado.
40000
30000 30783
29748 29796
28794
25239 24270
23667
21438 21993
20000
10000
6873
4032 4785447640235451
0 5 10 15
TempoResposta
Em relação as notas dos clientes dividos por estado, segundo a figura 12, de maneira geral a média
das notas foi 4, com excessão dos estado do amazonas, Rio de Janeiro, Rio Grande do Sul, Santa
Catarina e São Paulo que obtiveram nota média igual a 3, alem do estado de Roraima que alcançou
média 5, entratanto foi observado que o estado de Roraima, em particular, não teve notas inferiores
a 2.
4
NotaDoConsumidor
1
AC AL AMAP BA CE DF ESGOMAMGMSMT PA PB PE PI PR RJ RNRORRRSSC SE SP TO
Para a realização dos teste dos modelos, inicialmente, definiu‐se os dados que serão utilizados
nos métodos de previsão. Neles foram incluídos: região, gestor, horários e datas de abertura
e finalização da reclamação, companhias aéreas, grupo problema, prazo de resposta, tempo de
resposta e nota do consumidor. A partir disso, foi filtrado pelas faixas etárias mais presentes no
banco de dados e plataforma mais utilizada, fazendo com que os modelos fossem otimizados. Além
disso, para atender ao objetivo filtrou‐se para analisar apenas as reclamações com notas iguais ou
maiores que 3.
set.seed(1234)
datadf_split <- initial_split(datadf, strata=TempoResposta)
collect_metrics(lm_rs)%>%
kable(caption = "resultados Machine learning")
collect_metrics(tree_rs)%>%
kable(caption = "resultados árvores de decisões")
collect_metrics(rf_rs)%>%
kable(caption = "resultados random forest")
Tabelaresultado%>%
kable(caption = "resultados total")
Graficoresultado
0.2 0.2
0.2
Randon Forest
Regressão Linear
Árvore de Decisão
Randon Forest
Regressão Linear
Árvore de Decisão
Randon Forest
Regressão Linear
Diante do cenário exposto pelos resultados, através dos parametros descritos pela figura 13,
destaca‐se que o melhor resultado obtido foi pelo modelo de Random Forest, pois possui menor
MAE, menor RMSE e maior R2 quando comparado com os demais.
Métrica Estimativa
RMSE 0.6054770
RSQ 0.6547368
A partir do modelo funcionando corretamente de acordo com o objetivo preestabelecido, foi feita
a apresentação dos principais fatores que afetam nessa previsão. Onde ficou claro o peso relevante
que a companhia aérea possui, além disso também se destacam as variáveis de Data de Finalização,
Data de Abertura e o Prazo de resposta como apresentado a pela figura 14.
datadf_wf %>%
add_model(imp_spec) %>%
fit(datadf_train) %>%
pull_workflow_fit() %>%
vip(aesthetics = list(alpha = 0.8, fill = "green"))
DataFinalizacao
DataAbertura
PrazoResposta
NomeFantasia_Azul.Linhas.Aéreas
NomeFantasia_Latam.Airlines..Tam.
HorarioAbertura
HorarioFinalizacao
NomeFantasia_TAP.Air.Portugal
MesAbertura_X2
4 CONCLUSÕES
A partir da análise exploratória, podemos verificar que embora haja informações de 43 companhias,
a grande maioria das reclamações são referentes a Gol, Latam e Azul. Isso era esperado tendo em
vista que são as que possuem o maior volume de voos operando no Brasil.
Relacionad as Notas do Consumidor, verificou‐se que grande parte dos atendimentos não são
avaliados pelo consumidor. Os avaliados ficaram com notas mais concentradas em 5 ou 1, ou seja,
pode‐se inferir que os clientes sentiram‐se estimulados a avaliar mais quando houve um ótimo ou
péssimo atendimento. Logo, quando serviço prestado não despertou indignação e nem apreciação,
acredita‐se que muitos não avaliaram.
Também ressalta‐se que há certa sazonalidade nas reclamações, as quais são maiores no final do ano,
podendo ser culpa de uma maior demanda dos serviços de transporte aéreo nessa época de férias,
datas comemorativas e viagens de lazer e negócios. Logo, os canais de atendimento e resolução de
problemas tendem a variar consideravelmente ao longo do ano e dependo da região e companhia.
Diante dos resultados apresentados pelos modelos, pode‐se concluir que o modelo de machine
learning supervisionado criado com Randon Forest atingir o objetivo principal. Logo, o método
consegue realizar previsões do tempo de resposta que ajudam a garantir uma avaliação do
consumidor com nota 3 ou maior.
Por fim, ressalta‐se que seria benéfico alimentar o modelo com dados de outros anos para que seja
aprimorado e resulte em melhores previsões para cada uma das companhias.
CARVALHO, André et al. Inteligência Artificial: Uma abordagem de Aprendizado de Máquina. Rio
de Janeiro: Ltc, 2011.
EVANGELHO, F., HUSE, C. e LINHARES, A., Market entry of a low cost airline and impacts on the
Brazilian business travelers, Journal of Air Transport Management, 11, 99‐105. 2005.
KIMBALL R., REEVES L., ROOS M. e THORNTHWAITE W., THE DATA WAREHOUSE LIFECYCLE
TOOLKIT, New York, USA: JOHN WILEY & SONS, 1998.
PASIN, J. A. B., LACERDA, S. M., A Reestruturação do Setor Aéreo e as Alternativas de Política para
a Aviação Civil no Brasil. Revista do BNDES, Rio de Janeiro, v.10, n. 19, junho 2003.
NORVIG, Peter; RUSSELL, Stuart. Inteligência artificial: Tradução da 3a Edição. 3. ed. Rio de
Janeiro: Elsevier Editora, 2013.
SOARES de Mello, J. C. C. B., ANGULO‐Meza, L., GOMES, E. G., SERAPIÃO, B. P. e Lins, M. P. E.,
Análise de envoltória de dados no estudo da eficiência e dos benchmarks para companhias aéreas
brasileiras, Pesquisa Operacional, 23(2), 325‐345. 2003