Big Data Mach Lear Recup Inf Luis Albano Nusp11167417

Big data, estratégias de
recuperação da informação e
machine learning
Luís Roberto Albano Bueno da Silva
BIG DATA
Big data pode ser entendida como a condição em que um
determinado conjunto de dados necessita de tratamento especial
dado seu volume e complexidade, variedade, e necessidade de
recuperação em tempo ágil, a fim de agregar valor e
conhecimento ao usuário ou organização, de forma simples e
apresentável.
Volume
Visualização Velocidade
7V’s do
Big Data
Variabilidade Valor
Variedade Veracidade
Fonte: Elaborado pelo autor.

volume
Bit 0/1 – Dados Binários

Nibble 4 Bits
Byte 8 Bits (1 caractere)
Kilobyte (KB) 1024 Bytes (3 parágrafos de texto)
Megabyte (MB) 1024 Kilobytes (4 livros de 200 páginas)
Gigabyte (GB) 1024 Megabytes (4500 livros de 200 páginas)
Terabyte (TB) 1024 Gigabytes (350000 de fotos)
Petabyte (PB) 1024 Terabytes (4 bilhões de livros / 600 milhões de sites)
Exabyte (EB) 1024 Petabytes (4 trilhões de livros / 300 bilhões de fotos)
Zettabyte (ZB) 1024 Exabytes (500 trilhões de documentos em geral)
BIG DATA Yottabyte (YB) 1024 Zettabytes (1 sectilhão de documentos em geral)

variedade
METADADOS,
XML
(IDEALMENTE)

VELOCIDADE
Fonte: https://twitter.com/lorilewis
VELOCIDADE
Fonte: https://www.triscal.com.br/2015/10/base-unica-de-clientes-crm-mdm/
variabilidade
Mais distante da média
Fonte: https://mundopd.wordpress.com/2009/04/15/pesquisa-do-ibge-mapeira-a-fome-no-brasil/
visualização

visualização

Valor e veracidade
Fonte: https://powerbi.microsoft.com/pt-br/
Valor e veracidade
Fonte: https://www.forbes.com/sites/cartoonoftheday/2018/03/25/how-cambridge-analytica-used-big-sleaze-to-mine-big-data-facebook-zuckerberg/#281f01c4411f
BIG DATA
§ Recuperar informação em dados do tipo Big Data envolve
processos mais complexos do que sistemas baseados em
busca por palavras-chave, muitas vezes envolvendo
inteligência artificial e sistemas de bancos de dados não
relacionais;
Organização dos dados
Nosql
sql
Fonte: Acervo do autor.

Machine learning
Organização dos dados
Fonte: https://www.scylladb.com/resources/nosql-vs-sql/
Machine learning
§ Machine learning é o termo utilizado para definir sistemas de
inteligência artificial que “aprendem” para tomada de decisões
futuras. Podem ser utilizados para agrupar, separar, organizar e
apresentar dados não estruturados de forma a dar sentido aos
mesmos;
§ Os métodos de machine learning são os mais utilizados, em
especial as árvores de decisão e as redes neurais.
ÁRVORES DE DECISÃO
§ Árvores de decisão são sistemas de aprendizado

supervisionado que podem ser treinados para classificar e
organizar dados para que sejam apresentados e organizados
de forma a gerar algum tipo de informação;
§ O treinamento é feito de forma prévia com dados de controle a
fim de possibilitar o seu uso em dados não previamente
testados, mas similares;
ÁRVORES DE DECISÃO
Fonte: https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
Árvores de classificação (variáveis categóricas)
Jogam tênis?
Fonte: https://www.vooo.pro/insights/um-tutorial-completo-sobre-a-modelagem-baseada-em-tree-arvore-do-zero-em-r-python/
Árvores de classificação (variáveis categóricas)
Quem sobreviveu?

Redes neurais artificiais
Sinapses
Nodo
(função de disparo)
Nodo
Pesos (função de disparo)
Entrada 1
Entrada 2 Saídas
Entrada 3
Pesos
CHIHUAHUA MUFFIN
Redes neurais artificiais de aprendizagem por reforço
SAÍDA
E1
SIM/NÃO
SAÍDA
E2 RN-AR TUTOR
E3
AJUSTE DE PESOS
ALGORÍTMO DE
APRENDIZADO
Recuperação da informação (Kdt e KDD)
§ “Descobrir conhecimento significa identificar, receber informações relevantes, e poder

processá-las e agregá-las ao conhecimento prévio de seu usuário, mudando o estado de
seu conhecimento atual, a fim de que determinada situação ou problema possa ser
resolvido. Neste sentido, observa-se que a o processo de descoberta de conhecimento
está fortemente relacionado à forma pela qual a informação é processada.” (MORAIS;
AMBRÓSIO, 2005, p.2);
§ Normalmente a descoberta de conhecimento em dados estruturados é chamada KDD
(Knowledge Discovery in Databases) e a descoberta em dados não estruturados -
normalmente em textos -, é chamada de KDT (Knowledge Discovery from Text). Ambas
têm processos específicos de trabalho, dependente do modo como os dados estão
organizados. Textos com encoding definido e armazenados em padrão SGML podem
produzir resultados mais completos e interessantes, dependendo do caso.
KDD (Knowledge Discovery in databases)
§ No KDD os dados estão organizados em um banco de dados, armazenados
de modo a possibilitar a identificação de relacionamentos entre palavras ou
conjunto de palavras. Nesse sentido, como se trata de busca em banco de
dados, os dados não necessariamente estão armazenados em forma de
texto, por vezes organizados em tabulações, listas ou tuplas. As relações
existentes são normalmente comparativas, onde identifica-se o aparecimento
de determinados dados em determinados conjuntos em um determinado
número de vezes;
§ O método de descoberta de conhecimento KDD envolve Data Mining
(Mineração de Dados), onde os dados são escolhidos, limpos, organizados e
apresentados de forma a construir a informação e o conhecimento.
KDD (Knowledge Discovery in databases)
Preparação dos
Identificação do Dados Mineração de Pós
Problema Dados Processamento
(Banco de Dados)

KDT (Knowledge Discovery in TEXTS)
§ A extração de conhecimento de textos é o processo de construir a informação e utilizá-la a partir de
dados não estruturados em textos, considerando não somente o levantamento quantitativo de
palavras mas também associação de palavras, semântica, contexto dentro de uma base de
linguagem natural;
§ “As principais contribuiçoe
̃ s desta área estão relacionadas à busca de informaçoe
̃ s específicas em
documentos, à análise qualitativa e quantitativa de grandes volumes de textos, e à melhor
compreensão de textos disponíveis em documentos. Textos estes que podem estar representados
das mais diversas formas, dentre elas: e-mails; arquivos em diferentes formatos (pdf, doc, txt, por
exemplo); páginas Web; campos textuais em bancos de dados; textos eletrônicos digitalizados a
partir de papéis.” (MORAIS; AMBRÓSIO, 2005, p.6);
§ Textos com metadados alocados internamente, especialmente os que com estrutura XML, ou
páginas web, que possuem a tecnologia HTML, potencializam a capacidade de gerar relações
entre documentos e seu texto interno, pois são mais facilmente indexáveis;
KDT (Knowledge Discovery in TEXTS)
Primeiras iterações
Análise Cálculo de
Preparação
Seleção • Análise estatística dos Dados Indexação e relevância Seleção Análise dos
dos Textos e(ou) Normalização dos dos Termos Resultados
• Análise Semântica (Manual) Termos
Iterações Futuras
Análise
Preparação Indexação e Cálculo de Seleção Análise
Seleção • Análise estatística dos Dados relevância
dos Textos e(ou) Normalizaçã dos dos dos
• Análise Semântica (Automático) o Termos Termos Resultados

Problemas na recuperação da informação
(ingwersen, 2005)
§ Carência do usuário e das tarefas;
§ Carência de interação e requisições dinâmicas;
§ Carência de variabilidade tática;
§ Carência da expectativa de incerteza;
§ Carência de relevância orientada ao usuário;
§ Carência de variedade dos bancos de dados;
§ Premissa de independência documental e negligência de sobreposição documental;
§ Insuficiência de recordação para precisão;
§ Excesso de média nas buscas;
§ Apenas recuperação documental.
referências
ARTERO, Almir Olivette. Inteligência Artificial: Teórica e Prática. São Paulo: Livraria da
Física, 2009.
DOMINGUE, John; LANZONI, Mattia; MOTTA, Enrico; SHUM, Simon Buckingham; VARGAS-
VERA, Maria. Knowledge Extraction by using an Ontology-based Annotation Tool.
Disponível em: <
https://www.researchgate.net/publication/228801195_Knowledge_Extraction_by_using_an_Ont
ology-based_Annotation_Tool.>. Acesso em: 10 abr. 2019.
INGWERSEN, Peter. The Turn: Integration of Information Seeking and Retrieval in Context:
Dordrecht: Springer, 2005.
MORAIS, Edison; AMBRÓSIO, Ana Paula. Mineração de Textos. Goiás: Instituto de
Informática Universidade Federal de Goiás, 2007.
WILCOCK, Graham. Introduction to Linguistic Annotation and Text Analytics. Morgan &
Claypool: Williston, 2009.

Big Data Mach Lear Recup Inf Luis Albano Nusp11167417

Enviado por

Dados do documento

Descrição original:

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Big Data Mach Lear Recup Inf Luis Albano Nusp11167417

Enviado por

Direitos autorais:

Formatos disponíveis

Big data, estratégias de

Fonte: Elaborado pelo autor.

Bit 0/1 – Dados Binários

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

Mais distante da média

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

Fonte: Acervo do autor.

§ Árvores de decisão são sistemas de aprendizado

Fonte: Elaborado pelo autor.

§ “Descobrir conhecimento significa identificar, receber informações relevantes, e poder

Fonte: Elaborado pelo autor.

Fonte: Elaborado pelo autor.

Você também pode gostar