Você está na página 1de 18

APRENDIZADO DE MÁQUINA

Prof. Leonel da Rocha

UNIDADE VII – RECUPERAÇÃO DE INFORMAÇÃO

SUMÁRIO

OBJETIVOS DE APRENDIZAGEM
INTRODUÇÃO...........................................................................................................................
1 COLETA DE DADOS.............................................................................................................
2 PRÉ-PROCESSAMENTO.....................................................................................................
2.1 Limpeza de dados
2.2 Transformação de dados
2.3 Redução de dados
3 INDEXAÇÃO E NORMALIZAÇÃO.....................................................................................
CONSIDERAÇÕES FINAIS.....................................................................................................
UNIDADE VII – RECUPERAÇÃO DE INFORMAÇÃO

OBJETIVOS DE APRENDIZAGEM

Mostrar ao aluno os conceitos básicos das técnicas de recuperação de


informações e sua proximidade com a linguagem natural. Oportunizar técnicas de
recuperação da informação usando o processamento de linguagem natural, além de
métodos de coleta de dados e de como tratar as informações antes da sua utilização
com técnicas de pré-processamento. Por fim, trazer paraapresentar ao aluno
métodos de indexação e normalização das informações coletadas e processadas.
INTRODUÇÃO
Com a popularização e evolução da Tecnologia da Informação e
Comunicação, ocorreu o desenvolvimento das técnicas de recuperação de
informações, tornando-as mais eficientes, além de aproximar a linguagem
computacional da linguagem natural. Existem técnicas de recuperação da
informação que usam processamento de linguagem natural, ; como exemplo, é
possívelpodemos citar o Question Answering e a Web Semântica, que juntos podem
ser usados para melhorar e aprimorar a recuperação das informações dos usuários.
No âmbito da Web Semântica, as ontologias, que são modelos de dados que
representam um conjunto de conceitos dentro de um domínio e os relacionamentos
entre estes. Uma ontologia é utilizada para realizar inferências sobre os objetos do
domínio, e o Linked Data podem ser usados como uma importante fonte de
informações, por contemplarem saberes de diversas áreas do conhecimento. Outro
ponto que deve ser considerado na área de recuperação de informações é a
dificuldade dos usuários de em usarem sistemas de recuperação da informação que
não utilizam a sua linguagem natural e nem a semântica dos termos de busca,
tampouco a relação do texto em relação aos dados das fontes informacionais.
Estsa Uunidade tratará da recuperação da informação e sua aproximação
da linguagem computacional com a linguagem natural, mostrando os princípios da
representação da informação, o significado e o contexto dos dados para que fiquem
disponíveis para ao processo da busca, usando para isso os princípios da
Inteligência Artificial, o processamento de linguagem natural e as ferramentas da
Web Semântica.
Nessa unidade sSerá contemplado o modelo de recuperação da informação,
relacionado ao contexto semântico e na aplicação da Inteligência Artificial,
possibilitando a utilização da linguagem natural como base do processo do processo
de recuperação informações, além de considerar o contexto e o significado dos
termos para o usuário final. Esse modelo possibilita melhorar a satisfação das
necessidades informacionais dos usuários, usando as ontologias para contextualizar
as informações, fornecer dados estruturados com o Linked Data e possibilitar a
aproximação da linguagem computacional da linguagem natural. Um modelo de
recuperação da informação, utilizando usando a linguagem natural como padrão e
apoiado pela Web Semântica e aprendizagem de máquina, deixa o processo natural,
eficaz e acessível, possibilitando aos usuários a utilização dos mecanismos de
busca e recuperação.
1 COLETA DE DADOS

A falta de dados é um problema para os projetos de ciência de dados.


Porém, saber selecionar os dados para um projeto é uma habilidade importantíssima
que um cientista de dados precisa ter. Para isso, é preciso usar técnicas de coleta
de dados para a fim de adquirir mais dados para algoritmos de treinamento. Pois os
algoritmos de aprendizado de máquina dependem dos dados para se tornarem mais
precisos e preditivos. Eles são treinados usando dados, aprendem e, depois,
identificam ocorrências semelhantes.
As ocorrências ou objetos de treinamento são dados que um algoritmo de
aprendizado de máquina dedicado lê. Esse conjunto de dados é denominado de
“conjunto de treinamento”; quanto mais dados, mais o algoritmo aprende e mais ele
se torna preciso. Isso Ssignificando que, se não há dados suficientes para treinar o
algoritmo, ele poderá não obter o resultado correto e esperado em virtude de a
máquina não ter dados suficientes para o aprendizado. É necessário, portanto, a
obternção de dados adequados e suficientes para melhorar a precisão do resultado.
A seguir, será mostrado mostramos algumas maneiras para a coleta de
dados:

 Extração de dados de uma página da web

Web scraping Scraping é uma maneira automática de coletar dados da web.


Ele pode copiar e colar os elementos de um site em um arquivo local. É possível
também desenvolver scripts especiais ou utilizar ferramentas para copiar dados de
uma página da web diretamente. Com o Web Scraping possibilita pode-se fazer
coleta de dados mais profundas, usando interfaces de programação de aplicativos
(APIs) como o Serpstack.

 Extração de dados via formulários da web

Outra possibilidade para ade obtenção de dados são os formulários on-line


para coleta de dados. Embora eEssa alternativa é é mais útil quando se tem um
grupo-alvo de pessoas de quem se deseja coletar dados. Os formulários apresentam
uma desvantagem, que é a restrição do volume de coleta, pois eles se mostram
uteis úteis para projetos pequenos de ciência de dados.
Existem várias opções de formulários da web para a coleta dados. Um
exemplo é o Google Formulários, que pode ser acessado em: forms.google.com.
Depois da criação do formulário, é preciso enviar o link para ao público-alvo para o
preenchimento. É possível, também, coletar dados por meio das mídias sociais,
como Tik Tok, LinkedIn, Instagram, Facebook e Twitter. A obtenção de dados das
redes sociais tem características mais técnicas do que outros métodos. , Ppois é
totalmente automatizado automatizada e envolve a utilização de diferentes
ferramentas de API. A coleta de dados dessas mídias sociais pode ser útil em
projetos de ciência de dados que envolvam análise de sentimentos e de saúde, além
de análise de tendências de consumo, de mercado e branding, – que é a relação do
cliente com a marca de um produto ou empresa.
O Twitter pode ser citado comoé um exemplo de fonte de dados de mídia
social, onde é possível coletar dados com o Tweepy Pacote de API Python. O
Facebook se destaca como uma plataforma de mídia social poderosa para coleta de
dados. , Oonde é usado um terminal de API especial, chamado Facebook Graph
API. Esta Essa API permite a coleta de dados sobre o comportamento de usuários
específicos do Facebookdessa rede social. Para maiores informações, é possível
acessar a documentação da API Graph do Facebook em: developers.facebook.com.

 Extração de dados de fontes oficiais


Outra opção de extração de dados é a coleta de dados pré-eexistentes de
fontes oficiais, que é a visita a órgãos governamentais e seus bancos de dados
verificados e validados. Esta Essa opção é mais rápida e requer pouco
conhecimento técnico. Os dados nesses tipos de fontes estão disponíveis em vários
formatos, entre eles CSV, JSON, HTML ou até mesmo em planilhas de cálculo.
Algumas fontes de dados oficiais são: Banco Mundial, UNdata, IPEA Data, IBGE,
Portal brasileiro Brasileiro de dados Dados abertosAbertos, Kaggle, FiveThirtyEight e
Reddit.
Combinar as técnicas modernas com os métodos antigos para obter
melhores resultados é uma ótima opção. A coleta de dados pode ser difícil quando
as ferramentas para a tarefa são limitadas ou difíceis de compreender e utilizar. Os
métodos mais antigos e convencionais funcionam bem e são imprescindíveis em
alguns casos, enquanto os métodos modernos são mais rápidos e confiáveis.
Entretanto, é aconselhável não depender de um único método, ; a combinação das
formas modernas de coleta de dados tem o potencial de produzir melhores
resultados.
2 PRÉ-PROCESSAMENTO

O trabalho com dados, seja com ferramentas de análise ou de machine


learning, exige uma intensa atividade de pré-processamento. Embora seja uma
etapa sem o devido reconhecimento, é nela que se gasta a maior parte do tempo. É
estimado algo em torno de 80% do tempo de um projeto de análise de dados. Essa
A etapa do de pré-processamento é um conjunto de atividades envolvendo a
preparação, organização e estruturação dos dados. É É uma etapa fundamental,
que é realizada antes da análise dos dados e das predições. Ela se Sendo torna
determinante para a qualidade final dos dados que serão analisados, podendo,
inclusive, impactar no modelo de previsão, que é gerado a partir dos dados.

Antes do início do pré-processamento, é importante conhecer as principais


estruturas dos dados. Elas podem ser classificadas em três categorias:

 Dados estruturados: possuem uma organização fixa e previamente planejada.


São disponibilizados em linhas e colunas que identificam suas características.
Podem ser organizados em blocos semânticos (relações) e definição de
descrições para dados de um mesmo grupo (atributo). Como exemplos, podem
ser citados os Bancos de Dados relacionais, as planilhas de cálculo e os
arquivos CSV.
 Dados semiestruturados: possuem uma estrutura, mas são mais flexíveis que
as estruturas formais dos modelos de bancos de dados relacionais. Eles
possuem marcadores, como tags, para separar elementos semânticos e criar
hierarquias para os registros e campos. São exemplos de dados
semiestruturados os arquivos XML, JSON e HTML.

 Dados não estruturados: não possuem uma organização estrutural muito clara.
Para gerar insights sobre estes esses dados, é preciso realizar um intenso pré-
processamento para recuperar a informação. Pode ser citados comoSão
exemplos de dados não estruturados os documentos de texto, áudio e
imagens.
O pré-processamento de dados são as técnicas de mineração de dados
usadas para transformar dados brutos em formatos úteis e eficientes. É necessário
em qualquer uma das três estruturas de dados vistas anteriormente. Existem três
passos envolvidos neste nesse processo: limpeza, transformação e redução de
dados., e Ccada um dos três passosdeles envolve diversas atividades. Esses três
passos estão descritos a seguir:r.

2.11. Limpeza de dados

Os dados originais podem conter muitas partes sem importância ou


ausentes. Por isso, a limpeza de dados é essencial, envolvendo o manuseio de
dados ausentes e o seu preenchimento quando necessário, a redução de ruídos, a
identificação e remoção de valores fora do padrão e a resolução de possíveis
inconsistências.

Dados ausentes ocorrem quando alguns dados não estão presentes. Para
resolver essa situação, é possível remover os registros com atributos nulos, calcular
a média ou então a mediana com os valores do mesmo atributo, preencher o atributo
faltante com os valores que mais ocorrem no banco de dados. Para os dados
ruidosos, que são os dados “sem sentido”, que não podem ser interpretados pelas
máquinas de aprendizado, que os quais podem ser gerados devido a falhas na
coleta de dados, erros de entrada de dados, entre outras situações difíceis de
prever, poderão ser tratados utilizando-se as seguintes técnicas: Método de
Binning, regressão, e agrupamento.
2.2 Transformação de Dadosdados

Essa etapa é executada para transformar os dados originais em formatos


mais apropriados e adequados para o processo de mineração e envolve as
seguintes atividades: normalização, seleção de atributos, discretização e geração de
hierarquia de conceitos. A seguir, estão descritas a descrição des essas quatro
atividades:

 Normalização: é realizada para dimensionar os valores dos dados em um


intervalo especificado, como: -1,0 a 1,0 ou 0 a 10;

 Seleção de Atributos: novos atributos são gerados a partir do conjunto de


atributos fornecido para ajudar no processo de mineração;

 Discretização: é a atividade de transferência de funções contínuas, modelos,
variáveis e equações em contrapartes discretas. Alguns algoritmos só
trabalham com entradas de valores discretos, sem a possibilidade de prever
valores contínuos. A discretização cria um número limitado de estados
possíveis;

 Geração de hierarquia de conceitos: atividade de conversão dos atributos para
um nível superior na hierarquia. Como exemplo, pode ser citado citada a
conversão do atributo “cidade” para o atributo “país”.
2.3. Redução de dados

A mineração de dados é usada para tratar com um grande volume de dados.


, o que Ttornando o processamento computacional cada vez mais complexo. Para a
redução dos custos e o aumento da eficiência, é utilizado o processo de redução de
dados. As principais etapas da redução de dados são: agregação de cubo de dados,
seleção de subconjunto de atributos, redução da numerosidade e redução de
dimensionalidade.

A agregação de cubo de dados é a de construção de um cubo de dados, um


formato multidimensional que gera uma maior necessidade de armazenamento,
porém permite um processamento mais rápido, pois não precisa ler toda a base de
dados em busca de um determinado valor.

Seleção de subconjunto de atributos é a opção por utilizar os atributos


altamente relevantes em detrimento dos menos relevantes. Para realizar a seleção
de atributos, é possível utilizar o nível de significância e o valor p do atributo. –
Oonde o atributo que possui o valor p maior que o nível de significância pode ser
descartado.

A redução da numerosidade possibilita que os dados sejam substituídos ou


estimados por alternativas de representação de dados menores. Isso pode ser visto
nos modelos paramétricos que armazenam apenas os parâmetros do modelo, em
vez dos dados reais. , Ee nos métodos não paramétricos, tais como agrupamento,
amostragem e o uso de histogramas.

A redução de dimensionalidade possibilita reduzir o tamanho dos dados por


mecanismos de codificação. Se, após a reconstrução a partir dos dados
compactados, os dados originais puderem ser recuperados, essa redução será
chamada de “redução sem perdas”. Os dois métodos de redução de
dimensionalidade são a transformação de Wavelet e o PCA (Principal Component
Analysis).

Embora seja considerada uma atividade não muito interessante e muito


onerosa, o pré-processamento de dados é essencial para qualquer tipo de análise.
Quando o pré-processamento não é realizado, a base contará com dados
imprecisos no modelo. Com isso, nem o algoritmo mais bem projetado conseguirá
acertar as previsões sem dados de qualidade.
3 INDEXAÇÃO E NORMALIZAÇÃO

A indexação é a atividade de classificar os registros pelos campos (colunas)


de uma tabela. Criar um índice significa criar outra estrutura de dados ordenada que
contém o valor do campo e um ponteiro para o registro original ao com o qual ele se
relaciona. A desvantagem da indexação é que os índices precisam de espaço
adicional de armazenamento, podendo crescer rapidamente se muitos campos da
mesma tabela forem indexados.

Quando os dados são armazenados em dispositivos de armazenamento


baseados em disco, eles são armazenados como blocos de dados em uma
sequência. Esses blocos são acessados de uma forma total, sendo essa operação
de acesso ao disco feita de forma atômica. Os blocos de disco são estruturados da
mesma maneira que as listas vinculadas; os dois possuem uma seção para dados,
um ponteiro para o local do próximo nó (ou bloco) e não precisam ser armazenados
contiguamente.

Vários registros só podem ser classificados em um único campo,. dDevido a


esse fato, é possível afirmar que a pesquisa em um campo não classificado exige
uma pesquisa linear que requer N/2 acesso a blocos (em média), onde N é o
número de blocos em que a mesmaela é realizada. Se esse campo for um campo
não-chave, que significa que ele não contém entradas exclusivas, todo o espaço de
tabela deve ser pesquisado nos N acessos de bloco.

Ao passo que com um campo classificado, uma pesquisa binária pode ser
utilizada, com log 2 N acesso aos blocos. E como os dados são classificados com
um campo sem chave, o restante da tabela não precisa ser pesquisado em busca de
valores duplicados, uma vez que o maior valor é encontrado. Dessa maneira, o
aumento de desempenho é substancial.
A normalização é uma técnica aplicada como parte da preparação de dados
para o aprendizado de máquina. Seu objetivo é mudar os valores das colunas
numéricas na base de dados para usar uma escala comum, sem distorcer as
diferenças nos intervalos de valores e nem perder informações. A normalização é
necessária para a certos algoritmos para modelarem corretamente os dados.

Como exemplo, é possível imaginar um conjunto de dados de entrada que


possui uma coluna com valores variando entre 0 e 1 e outra coluna com valores
variação variando entre 100.000 e 1.000.000. Essa diferença grande na escala dos
números tende a causar problemas ao se tentar combinar os valores como recursos
durante a modelagem. A normalização evitará esses tais problemas, gerando novos
valores que mantêm a distribuição geral e as proporções nos dados de origem,
mantendo os valores em uma escala aplicada em todas as colunas numéricas
usadas no modelo.

Esse componente oferece várias opções para a transformação de dados


numéricos:

 É possível mudar os valores para uma escala de 0–1 ou transformar os


valores, representando-os como classificações percentuais em vez de valores
absolutos;
 Pode-se aplicar a normalização para uma única coluna ou em várias colunas
em um mesmo conjunto de dados;
 Se for necessário repetir o pipeline ou aplicar as mesmas etapas de
normalização a outros dados, é possível salvar as etapas como uma
transformação de normalização e aplicá-la a outros conjuntos de dados que
tenham o mesmo esquema.
CONSIDERAÇÕES FINAIS

Nesta unidade Unidade foram vistas técnicas de recuperação de


informações para a implementação no aprendizado de máquina, onde em que é
preciso usar técnicas procedimentos de coleta de dados para adquirir mais dados
para aos algoritmos de treinamento, sabendo que os algoritmos de aprendizado de
máquina dependem dos desses dados para se tornarem mais precisos e preditivos.
Eles são treinados usando esses dados, aprendem e, depois, identificam
ocorrências semelhantes. Além de métodos de coleta de dados e de, foi abordado
como tratar as informações antes da sua utilização com as técnicas de pré-
processamento. A etapa do pré-processamento é um conjunto de atividades
envolvendo a preparação, organização e estruturação dos dados. Portanto, é etapa
fundamental, realizada antes da análise dos dados e das predições. , Ssendo
determinante para a qualidade final dos dados que serão analisados, podendo,
inclusive, impactar no modelo de previsão, que é gerado a partir desses dados.

Finalizando a uUnidade, foi tratado sobre a indexação, que é a atividade de


classificar os registros pelos campos (colunas) de uma tabela. , Oonnde a criação de
um índice significa criar outra estrutura de dados ordenada que contém o valor do
campo e um ponteiro para o registro original ao com o qual ele se relaciona. Foram
vistos os métodos de normalização das informações coletadas e processadas, que a
qual é uma técnica aplicada como parte da preparação de dados para o aprendizado
de máquina. ,T tendo como objetivo a mudança dos valores das colunas numéricas
na base de dados para o uso de uma escala comum, sem distorcer as diferenças
nos intervalos de valores e nem perder informações.

Você também pode gostar