Você está na página 1de 6

TERCEIRA ATIVIDADE AVALIATIVA – SISTEMA DE

SUPORTE À DECISÃO

ALUNO: ISAQUE TEIXEIRA PORTES

Capítulo 5

Questões 1 e 2 da seção 5.2

1) O que é análise de texto? O que a distingue da mineração de texto?

Embora o sentido básico da análise de texto e da mineração de texto seja transformar


dados textuais não estruturados em informações de caráter prático pela aplicação de
processamento de linguagem natural (PLN) e análise de texto, suas definições são
ligeiramente distintas, ao menos para alguns especialistas da área. Segundo eles, a
análise de texto é um conceito mais abrangente, que inclui recuperação de informações
(como a busca e identificação de documentos relevantes para um determinado conjunto
de termos-chave), bem como extração de informações, mineração de dados e
mineração da Web, ao passo que a mineração de texto tem como foco primordial a
descoberta de conhecimentos novos e úteis a partir de fontes de dados textuais.

2) O que é mineração de texto? O que a distingue da mineração de dados?

Mineração de texto (também conhecida como mineração de dados textuais ou


descoberta de conhecimento em bases de dados textuais) é o processo
semiautomatizado de extração de padrões (informações e conhecimentos úteis) junto a
vastas quantidades de fontes de dados não estruturados. Enquanto que mineração de
dados é o processo de identificação de padrões válidos, novos, potencialmente úteis e
definitivamente compreensíveis em dados armazenados em bases de dados
estruturados, onde os dados encontram-se organizados em registros estruturados por
variáveis categóricas, ordinais ou contínuas. A diferença é que no caso da mineração
de texto a entrada ao processo é uma coleção de arquivos de dados não estruturados
(ou menos estruturados), como documentos em Word, arquivos em PDF, trechos de
textos, arquivos XML, e assim por diante. Fundamentalmente, a mineração de texto
pode ser encarada como um processo (em duas etapas principais) que começa pela
imposição da estrutura a fontes de dados baseados em texto e é seguido pela extração
de informações e conhecimentos relevantes desses dados baseados em texto usando-
se técnicas e ferramentas de mineração de dados.

Questões 1, 2 e 3 da seção 5.3

1) O que é PLN?

O processamento de linguagem natural (PLN) é um componente importante


da mineração de texto e é um subdomínio da inteligência artificial e da linguística
computacional. Ele estuda o problema da “compreensão” da linguagem humana natural,
com a visão de converter retratos da linguagem humana (como documentos textuais)
em representações mais formais (na forma de dados numéricos e simbólicos) que
sejam mais fáceis de manipular em programas de computador. A meta do PLN é ir além
da manipulação textual embasada em sintaxe (que muitas vezes é chamada de
“contagem de palavras”) e alcançar uma verdadeira compreensão e processamento da
linguagem natural que leve em consideração restrições gramaticais e semânticas, bem
como o contexto.

2) Qual a relação entre PLN e mineração de texto?

O Processamento de Linguagem Natural (PLN) tem papel fundamental na mineração de


textos, sendo utilizado no estágio inicial da etapa de pré-processamento, na qual sua
principal função é fornecer um primeiro nível de estruturação da informação textual,
como o reconhecimento de início e fim de sentenças e classificação de palavras quanto
a sua função sintática. Sendo assim, técnicas automatizadas (como mineração de texto)
precisam buscar maneiras de ir além da interpretação do saco de palavras e incorporar
cada vez mais estrutura semântica em suas operações. A tendência atual na mineração
de texto é rumo à inclusão dos elementos avançados que podem ser obtidos usando-se
PLN.

3) Quais são alguns dos benefícios e desafios do PLN?

Um dos benefícios é fazer com que dispositivos tecnológicos entendam a linguagem do


ser humano de maneira a responder suas demandas, ou seja, é a capacidade de
computadores de entender e compor textos. “Entender” um texto significa reconhecer o
contexto, fazer análise sintática, semântica, léxica e morfológica, criar resumos, extrair
informação, interpretar os sentidos, analisar sentimentos e até aprender conceitos com
os textos processados.

Abaixo estão listados alguns dos desafios do PLN:

Marcação de classes gramaticais: É difícil identificar a quais classes gramaticais


pertencem os diversos termos de um texto (como substantivos, verbos, adjetivos ou
advérbios), já que essa determinação depende não apenas da definição de cada termo,
mas também do contexto em que ele é usado.

Segmentação textual: Algumas línguas escritas, como chinês, japonês e tailandês, não
apresentam fronteiras entre cada palavra. Nesses casos, a tarefa de segmentação
textual exige a identificação de limites entre palavras, o que costuma ser uma tarefa
difícil. Desafios similares em segmentação de discurso emergem quando se analisa a
linguagem falada, já que os sons que representam letras e palavras sucessivas se
fundem entre si.

Desambiguação dos sentidos das palavras: Muitas palavras possuem mais de um


significado. A seleção do significado que mais faz sentido só pode ser realizada ao se
levar em consideração o contexto em que a palavra é usada.

Ambiguidade sintática: A gramática das línguas naturais é ambígua, ou seja, muitas


vezes múltiplas estruturas frasais possíveis precisam ser consideradas. A escolha da
estrutura mais apropriada geralmente exige a fusão de informações semânticas e
contextuais.

Entrada imperfeita ou irregular: Sotaques estrangeiros ou regionais e problemas vocais


na fala, além de erros tipográficos ou gramaticais em textos, dificultam ainda mais a
tarefa de processamento de uma língua.

Atos de fala: Uma frase muitas vezes pode ser considerada pelo falante como uma
ação. Por si só, a estrutura frasal pode não conter informação suficiente para definir
essa ação. Por exemplo: “Você pode ir hoje à noite?” exige uma simples resposta
sim/não, enquanto “Você pode abrir a janela?” é a solicitação da realização de uma
ação física.

Questões 1, 2 e 4 da seção 5.5


.
1) Quais são as principais etapas no processo da mineração de texto?

Estabelecer o corpus: Consiste em coletar todos os documentos relacionados ao


contexto (área de interesse) que está sendo estudado.

Criar a matriz termos-documentos: Nesta etapa, os documentos digitalizados e


organizados (o corpus) são usados para criar a matriz termos-documentos.

Extrair o conhecimento: A partir de uma TDM bem estruturada, e potencialmente


ampliada por outros elementos de dados estruturados, novos padrões são extraídos no
contexto do problema específico sendo abordado

2) Para que serve a normalização de frequências de palavras? Quais são os


métodos comuns para normalização de frequências de palavras?

O processo de normalização no Processamento de Linguagem Natural trata de colocar


todas as palavras em caixa baixa, retirando os acentos ou cedilha. Isto faz com que os
algoritmos de análise não tratem palavras iguais como sendo diferentes apenas por
apresentarem a letra inicial como maiúscula, ou um erro de acentuação, por exemplo.

Stemização: Consiste em reduzir palavras flexionadas ou derivadas a sua base. Neste


processo a tarefa é transformar palavras próximas em uma só, como ficar apenas com
o radical dos verbos ou transformar todos os substantivos para o singular.
Um exemplo da aplicação da técnica de stemização é reduzir as palavras “estudar,
estudou, estudo e estudando” ao termo “estud”, que representa a base de todas as
variações citadas.

Stop words: As “palavras de parada” (stop words) são palavras que não adicionam
sentido ao texto, pois são usadas para coesão e dar contexto, mas não fazem sentido
específico quando olhadas individualmente. Portanto, este método consiste em eliminar
as palavras vazias (stop words), que são extremamente comuns no idioma, mas que
servem apenas para fazer a ligação entre frases ou palavras. As stop words não trazem
um significado adicional para o texto.

4) Quais são os principais métodos de extração de conhecimento de um


corpus?

Classificação, agrupamento, associação e análise de tendências.


Questões 1, 3 e 4 da seção 5.6

1) O que é análise de sentimentos? Qual sua relação com a mineração de


texto?

A análise de sentimentos está intimamente relacionada com linguística computacional,


PLN e mineração de texto. Ela é muitas vezes referida como mineração de opiniões,
análise de subjetividade e extração de apreciações, com algumas conexões com
computação afetiva (reconhecimento e expressão computacional de emoções).
A análise de sentimentos está tentando responder à pergunta “O que as pessoas
acham de certo tópico?”, ao escavar opiniões de muitas pessoas usando uma
variedade de ferramentas automatizadas. Reunindo entre si pesquisadores e
praticantes de negócios, ciência da computação, linguística computacional, mineração
de dados, mineração de texto, psicologia e até mesmo sociologia, a análise de
sentimentos visa expandir a tradicional análise textual baseada em fatos e instaurar
sistemas de informação orientados por opiniões. Portanto, a análise de sentimento vem
sendo utilizada por algumas empresas para descobrir se as opiniões dos clientes em
posts nas redes sociais são positivas ou negativas em relação a determinados
produtos. Isso é importante porque, muitas vezes, mensagens e comentários na internet
não contêm termos que deixam explícito o que a pessoa está sentindo.

3) Quais seriam os benefícios e os beneficiários esperados da análise de


sentimentos na política?

Como todos sabemos, as opiniões têm grande peso em se tratando de política. Como
as discussões políticas são dominadas por citações, sarcasmo e referências complexas
a pessoas, organizações e ideias, a política é uma das arenas onde é mais difícil, e
potencialmente mais produtiva, a aplicação de análise de sentimentos. Ao analisar os
sentimentos a respeito de fóruns eleitorais, é possível prever quem tem mais chances
de ganhar ou perder. A análise de sentimentos pode ajudar a entender o que os
eleitores estão pensando e pode esclarecer a posição dos candidatos acerca de certas
questões. A análise de sentimentos pode ajudar organizações políticas, campanhas
eleitorais e analistas políticos a melhor entender quais questões e posições mais
importam para a maioria dos eleitores. Essa tecnologia foi aplicada com sucesso por
ambos partidos nas campanhas eleitorais a presidente dos Estados Unidos em 2008 e
2012.

4) Quais são as principais etapas na condução de projetos de análise de


sentimentos?

ETAPA 1 – DETECÇÃO DE SENTIMENTOS: Após a recuperação e preparação dos


documentos textuais, a primeira tarefa principal na análise de sensibilidade é a
detecção de objetividade. Nela, a meta é distinguir entre fatos e opiniões, o que pode
ser visto como uma classificação do texto como objetivo ou subjetivo.
ETAPA 2 - CLASSIFICAÇÃO DE POLARIDADE N-P: A segunda tarefa principal é
aquela da classificação de polaridade. Considerando-se um texto opiniático, a meta é
classificar a opinião em uma dentre duas polaridades opostas de sentimento, ou
localizar sua posição no espectro entre essas duas polaridades.
ETAPA 3 - IDENTIFICAÇÃO DE ALVOS: O objetivo desta etapa é identificar com
precisão o alvo do sentimento expresso (como uma pessoa, um produto, um evento).
ETAPA 4 - COLEÇÃO E COMPACTAÇÃO: Assim que os sentimentos de todos os
pontos de dados textuais em um documento estiverem identificados e calculados, nesta
etapa eles serão compactados e convertidos numa única medida de sentimento para o
documento inteiro.

Questões para discussão: 1, 2, 4, 6, 7 e 8.


1) Explique a relação entre mineração de dados, mineração de texto e análise
de sentimentos.
A análise de sentimentos ou mineração de opiniões é uma subárea da mineração de
dados que utiliza processamento de linguagem (PLN) e técnicas de mineração de
textos para obter a polaridade de opinião. A mineração de textos é uma extensão da
mineração de dados.
2) Em suas próprias palavras, defina mineração de texto, e discuta suas
aplicações mais populares.
A mineração de textos é uma extensão da mineração de dados e pode ser definida
como um processo de extração de informações desconhecidas e úteis de documentos
textuais escritos em linguagem natural.
A mineração de textos pode ser utilizada para a análise de sentimentos em pesquisas
de opinião pública. Muitas vezes estas pesquisas são feitas com questionários com
perguntas fechadas, ou seja, os entrevistados podem escolher somente opções pré-
determinadas. O problema é que muitas vezes isto não reflete a realidade, pois as
perguntas podem exigir uma resposta mais elaborada. Se em vez deste tipo de
questionário for utilizada uma entrevista com respostas abertas, de modo que o
entrevistado possa escrever sua resposta em linguagem natural, é possível analisar os
resultados com uma ferramenta de mineração de textos.
Outro exemplo de aplicação de mineração de textos é a sua utilização para ajudar
empresas grandes que trabalham com atendimento ao cliente. Muitas vezes, um
produto ou serviço apresenta algum defeito e o cliente precisa entrar em contato com
algum especialista da empresa para resolver o seu problema. É comum nestes casos a
requisição do cliente ser transferida de setor para setor e demorar muito tempo até
chegar ao seu destino final. A proposta da mineração de textos para solucionar este
problema é analisar textualmente a requisição do cliente e enviá-la de maneira
automática diretamente para o especialista no assunto, removendo a intervenção
humana do processo e reduzindo o tempo de atendimento.
4) Qual é o papel do PLN na mineração de texto? Discuta as capacidades e
limitações do PLN no contexto de mineração de texto.
O Processamento de Linguagem Natural tem papel fundamental na Mineração de
Textos, sendo utilizado no estágio inicial da etapa de pré-processamento, aonde sua
principal função é fornecer um primeiro nível de estruturação da informação textual,
como o reconhecimento de início e fim de sentenças e classificação de palavras quanto
a sua função sintática. Entretanto, é necessário salientar que muitos dos problemas
aonde são aplicadas técnicas de PLN não fazem parte de MT, como traduções
automáticas de texto e corretores ortográficos. São utilizados diversos algoritmos e
estruturas de dados para examinar os seguintes tópicos: identificação de estruturas das
frases, modelagem do conhecimento e raciocínio, e como usar a linguagem para
realizar determinadas tarefas.
6) O que é análise de sentimentos? Qual sua relação com a mineração de
texto?

A Análise de Sentimento ou Mineração de Opinião é uma subárea da mineração de


texto que tem como objetivo detectar as opiniões, sentimentos ou emoções expressas
em um texto. Ela é uma área multidisciplinar que engloba desde técnicas simples de
Processamento de Linguagem Natural até algoritmos sofisticados de Aprendizagem de
Máquina. Ela necessita de bases de treinamento ou léxicos que contemplem as
peculiaridades do contexto em que é aplicada.
7) Quais são os desafios comuns que a análise de sentimentos precisa
superar?
Um dos grandes desafios à análise de sentimentos está em torno da precisão de seus
resultados, pois o exame se torna complexo quando se leva em conta fatores de
extrema importância para o pleno entendimento, como é observado ao se deparar com
frases e/ou palavras com significados ambíguos ou irônicos (tendo significados
diferentes de acordo com o contexto em que foi dita), sarcasmos, além das gírias ou
dialetos. Outros desafios são: Uso de pronomes para referenciar itens pode dificultar a
identificação de sentenças que mencionam o item de interesse; textos com palavras
escritas erradas e com sentenças sintaticamente mal formadas (o que é bastante
comum nos Blogs e redes sociais atualmente) dificultam a busca e classificação dos
mesmos; uso de abreviações comuns da internet, como por exemplo “vc”, “fds” e “:)”,
devem ser considerados no vocabulário;
8) Quais são as áreas de aplicação mais populares para análise de
sentimentos? Por quê?
A aplicação para a análise de sentimentos em pesquisas de opinião pública é uma das
áreas mais populares. Pois muitas vezes estas pesquisas são feitas com questionários
com perguntas fechadas, ou seja, os entrevistados podem escolher somente opções
pré-determinadas. O problema é que muitas vezes isto não reflete a realidade, pois as
perguntas podem exigir uma resposta mais elaborada. Se em vez deste tipo de
questionário for utilizada uma entrevista com respostas abertas, de modo que o
entrevistado possa escrever sua resposta em linguagem natural, é possível analisar os
resultados com uma ferramenta de mineração de textos.
Além disso, outra área de aplicação bastante popular é a sua utilização para ajudar
empresas grandes que trabalham com atendimento ao cliente. Muitas vezes, um
produto ou serviço apresenta algum defeito e o cliente precisa entrar em contato com
algum especialista da empresa para resolver o seu problema. É comum nestes casos a
requisição do cliente ser transferida de setor para setor e demorar muito tempo até
chegar ao seu destino final. A proposta da mineração de textos para solucionar este
problema é analisar textualmente a requisição do cliente e enviá-la de maneira
automática diretamente para o especialista no assunto, removendo a intervenção
humana do processo e reduzindo o tempo de atendimento.

Você também pode gostar