Escolar Documentos
Profissional Documentos
Cultura Documentos
recuperação da informação e
machine learning
Luís Roberto Albano Bueno da Silva
BIG DATA
Big data pode ser entendida como a condição em que um
determinado conjunto de dados necessita de tratamento especial
dado seu volume e complexidade, variedade, e necessidade de
recuperação em tempo ágil, a fim de agregar valor e
conhecimento ao usuário ou organização, de forma simples e
apresentável.
Volume
Visualização Velocidade
7V’s do
Big Data
Variabilidade Valor
Variedade Veracidade
METADADOS,
XML
(IDEALMENTE)
Fonte: https://twitter.com/lorilewis
VELOCIDADE
Fonte: https://www.triscal.com.br/2015/10/base-unica-de-clientes-crm-mdm/
variabilidade
Fonte: https://mundopd.wordpress.com/2009/04/15/pesquisa-do-ibge-mapeira-a-fome-no-brasil/
visualização
Fonte: https://powerbi.microsoft.com/pt-br/
Valor e veracidade
Fonte: https://www.forbes.com/sites/cartoonoftheday/2018/03/25/how-cambridge-analytica-used-big-sleaze-to-mine-big-data-facebook-zuckerberg/#281f01c4411f
BIG DATA
§ Recuperar informação em dados do tipo Big Data envolve
processos mais complexos do que sistemas baseados em
busca por palavras-chave, muitas vezes envolvendo
inteligência artificial e sistemas de bancos de dados não
relacionais;
Organização dos dados
Nosql
sql
Fonte: https://www.scylladb.com/resources/nosql-vs-sql/
Machine learning
§ Machine learning é o termo utilizado para definir sistemas de
inteligência artificial que “aprendem” para tomada de decisões
futuras. Podem ser utilizados para agrupar, separar, organizar e
apresentar dados não estruturados de forma a dar sentido aos
mesmos;
§ Os métodos de machine learning são os mais utilizados, em
especial as árvores de decisão e as redes neurais.
ÁRVORES DE DECISÃO
Fonte: https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
Árvores de classificação (variáveis categóricas)
Jogam tênis?
Fonte: https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
Árvores de classificação (variáveis categóricas)
Quem sobreviveu?
Entrada 2 Saídas
Entrada 3
Pesos
CHIHUAHUA MUFFIN
Redes neurais artificiais de aprendizagem por reforço
SAÍDA
E1
SIM/NÃO
SAÍDA
E2 RN-AR TUTOR
E3
AJUSTE DE PESOS
ALGORÍTMO DE
APRENDIZADO
Recuperação da informação (Kdt e KDD)
Preparação dos
Identificação do Dados Mineração de Pós
Problema Dados Processamento
(Banco de Dados)
Primeiras iterações
Análise Cálculo de
Preparação
Seleção • Análise estatística dos Dados Indexação e relevância Seleção Análise dos
dos Textos e(ou) Normalização dos dos Termos Resultados
• Análise Semântica (Manual) Termos
Iterações Futuras
Análise
Preparação Indexação e Cálculo de Seleção Análise
Seleção • Análise estatística dos Dados relevância
dos Textos e(ou) Normalizaçã dos dos dos
• Análise Semântica (Automático) o Termos Termos Resultados
ARTERO, Almir Olivette. Inteligência Artificial: Teórica e Prática. São Paulo: Livraria da
Física, 2009.
DOMINGUE, John; LANZONI, Mattia; MOTTA, Enrico; SHUM, Simon Buckingham; VARGAS-
VERA, Maria. Knowledge Extraction by using an Ontology-based Annotation Tool.
Disponível em: <
https://www.researchgate.net/publication/228801195_Knowledge_Extraction_by_using_an_Ont
ology-based_Annotation_Tool.>. Acesso em: 10 abr. 2019.
INGWERSEN, Peter. The Turn: Integration of Information Seeking and Retrieval in Context:
Dordrecht: Springer, 2005.
MORAIS, Edison; AMBRÓSIO, Ana Paula. Mineração de Textos. Goiás: Instituto de
Informática Universidade Federal de Goiás, 2007.
WILCOCK, Graham. Introduction to Linguistic Annotation and Text Analytics. Morgan &
Claypool: Williston, 2009.