Você está na página 1de 3

DATA MINING

Com o objetivo de manter um padrão de qualidade e atender às demandas da


sociedade em relação às novas competências necessárias, a Universidade XPTO
decidiu reavaliar seus cursos oferecidos. Dada a grande quantidade de cursos e
disciplinas envolvidas, será necessário realizar um processo de mineração de
dados. Esse processo permitirá a extração de informações relevantes e insights a
partir dos dados disponíveis, visando aprimorar a oferta educacional da instituição.

A colaboradora Ana Cláudia e sua equipe têm com objetivo filtrar as informações
relevantes enviadas através de 39 planilhas eletrônicas que contém os dados do
curso das disciplinas do curso de Análise e Desenvolvimento de Sistemas além de
informações em bando de dados relacional e banco de dados não estruturados.
Para esse processo serão necessárias as seguintes etapas:

A primeira etapa deve ser a de pré-processamento de dados, onde será realizada a


limpeza dos dados, removendo valores ausentes ou inconsistentes, padronização
de formatos e correção de erros, para esta etapa pode ser utilizado o Open Refine,
uma ferramenta de código aberto amplamente utilizada para a limpeza e
transformação de dados

Após a etapa de pré-processamento, segue a etapa de exploração e transformação


dos dados, utilizando técnica de visualização com o Power BI e análise exploratória
dos dados com o Python, ambos para identificação de padrões, tendências ou
anomalias. Através dessa etapa pode ser gerado dados estatísticos, gráficos ou
aplicação de algoritmos para identificar disciplinas semelhantes.

A seleção de atributos relevantes é uma etapa crucial para garantir que apenas as
informações mais importantes sejam consideradas. Técnicas como análise de
correlação e algoritmos de seleção de atributos, disponíveis em bibliotecas de
aprendizado de máquina como Scikit-learn em Python, podem ser aplicadas para
identificar quais variáveis (nome, carga horária, objetivo da disciplina e ementa) são
mais relevantes para a consistência dos cursos. Isso ajudará na tomada de decisão
sobre quais aspectos devem ser priorizados na análise.

Na etapa de modelagem e análise de dados, pode ser utilizado algoritmos de


aprendizagem de máquinas, como regressão linear, com o foco de construir
modelos que permitam prever a carga horária necessária das disciplinas. Esses
modelos podem fornecer insights sobre os dados e auxiliar na identificação de
disciplinas que possam ter sofrido alteração.

Por último, a avaliação e interpretação dos resultados é a etapa que vai auxiliar na
tomada de decisão, a equipe irá avaliar os resultados e identificar quais disciplinas
apresentam desvios em relação às outras unidades. Métricas de desempenho e
análises estatísticas, utilizando ferramentas como Scikit-learn e Pandas em Python,
podem ser aplicadas para avaliar a qualidade dos modelos construídos e interpretar
os resultados. Com base nesses insights, a equipe poderá tomar ações corretivas e
melhorar os processos da Instituição XPTO.

REFERÊNCIA BIBLIOGRÁFICAS

DEVMEDIA (ed.). Conceitos e Técnicas sobre Data Mining. [S. l.], 2011.
Disponível em: https://www.devmedia.com.br/conceitos-e-tecnicas-sobre-data-
mining/19342. Acesso em: 12 jun. 2023.

DISTRITO (ed.). Data mining e a importância da mineração de dados para a sua


empresa. [S. l.], 15 dez. 2022. Disponível em: https://distrito.me/blog/data-mining/.
Acesso em: 13 jun. 2023.

VAN HOOLAND, Seth; VERBORGH, Ruben; DE WILDE, Max. Limpar dados com
o OpenRefine. [S. l.], 5 ago. 2013. Disponível em:
https://programminghistorian.org/pt/licoes/limpar-dados-openrefine. Acesso em: 9
jun. 2023.

CATUNDA, Heitor. ANÁLISE EXPLORATÓRIA EM PYTHON – COMO ANALISAR


SEUS DADOS?. [S. l.], 4 abr. 2022. Disponível em:
https://www.hashtagtreinamentos.com/analise-exploratoria-em-python-ciencia-
dados. Acesso em: 9 jun. 2023

DIDATICA TECH (ed.). A biblioteca scikit-learn – Python: o que é, para que


serve. [S. l.], 2022. Disponível em: https://didatica.tech/a-biblioteca-scikit-learn-
pyhton-para-machine-learning/. Acesso em: 12 jun. 2023.

DUARTE, Guilherme. DataFrame e análise estatística em Python: usando o


pandas. [S. l.], 11 dez. 2013. Disponível em:
https://sociaisemetodos.wordpress.com/2013/12/11/dataframe-e-analise-estatistica-
em-python-usando-o-pandas/. Acesso em: 12 jun. 2023.

Você também pode gostar