Escolar Documentos
Profissional Documentos
Cultura Documentos
Estatística
Material Teórico
Estudo de Caso
Revisão Textual:
Prof.ª Dr.ª Luciene Oliveira da Costa Granadeiro
Estudo de Caso
• Introdução;
• Trabalhando com Dados não Estruturados – Texto;
• Analise Exploratória.
OBJETIVO DE APRENDIZADO
• Permitir que o aluno tenha uma experiência simulada com problemas reais, utilizando a
linguagem R.
Orientações de estudo
Para que o conteúdo desta Disciplina seja bem
aproveitado e haja maior aplicabilidade na sua
formação acadêmica e atuação profissional, siga
algumas recomendações básicas:
Conserve seu
material e local de
estudos sempre
organizados.
Aproveite as
Procure manter indicações
contato com seus de Material
colegas e tutores Complementar.
para trocar ideias!
Determine um Isso amplia a
horário fixo aprendizagem.
para estudar.
Mantenha o foco!
Evite se distrair com
as redes sociais.
Seja original!
Nunca plagie
trabalhos.
Não se esqueça
de se alimentar
Assim: e de se manter
Organize seus estudos de maneira que passem a fazer parte hidratado.
da sua rotina. Por exemplo, você poderá determinar um dia e
horário fixos como seu “momento do estudo”;
No material de cada Unidade, há leituras indicadas e, entre elas, artigos científicos, livros, vídeos
e sites para aprofundar os conhecimentos adquiridos ao longo da Unidade. Além disso, você tam-
bém encontrará sugestões de conteúdo extra no item Material Complementar, que ampliarão sua
interpretação e auxiliarão no pleno entendimento dos temas abordados;
Após o contato com o conteúdo proposto, participe dos debates mediados em fóruns de discus-
são, pois irão auxiliar a verificar o quanto você absorveu de conhecimento, além de propiciar o
contato com seus colegas e tutores, o que se apresenta como rico espaço de troca de ideias e
de aprendizagem.
UNIDADE Estudo de Caso
Introdução
Um estudo de caso existe para facilitar na investigação e compreensão de fenô-
menos cotidianos, que, algumas vezes, podem não estar tão evidentes no dia a dia
(YIN, 2015).
Neste documento, iremos trabalhar com dois problemas comuns quando se tra-
balha com ciência de dados ou estatística. O primeiro deles é a necessidade de criar
uma base de dados partindo de uma fonte de dados não estruturada.
Você deve estar se perguntando como pegar um texto, como, por exemplo, este
material e fazer uma máquina entender seu conteúdo? Primeiramente, devemos
entender que, por mais sofisticados que os algoritmos de PLN possam ser, eles não
recebem como entrada um texto como este, “cru”.
em: https://bit.ly/31XNi9y
8
Algumas vezes, a criação do conjunto de dados necessários por meio de dados
não estruturados ou semiestruturados levará certa quantidade de tempo e empe-
nho, que pode ou não ajudar a alcançar os resultados desejados.
Aparentemente, nosso objetivo não é tão ambicioso, mas já adiantamos que será
divertido e trabalhoso.
O arquivo utilizado é uma pesquisa realizada pela OXFAM Brasil, chamada nós
e as desigualdades1. Neste momento, não vamos explicar sobre do que trata o rela-
tório, mas vamos ver se descobrimos ao olhar as nuvens de palavras.
Caso queira dados específicos de algumas páginas, pode realizar isso facilmente
indicando a página desejada e realizando as ações necessárias, como, por exemplo,
retirar do texto somente aqueles elementos, realizando uma busca pelas palavras-
-chaves de início e fim do trecho necessário.
1
https://bit.ly/2D6Wz57
9
9
UNIDADE Estudo de Caso
Na Figura 1, foi utilizada a função “cat()” para visualizar o valor do objeto txt, em
forma de texto, livre da estrutura de vetor. Faça um teste: visualize o objeto txt ds
em duas formas e tente notar a diferença.
Agora, vamos extrair o texto de cada índice do vetor que não está em branco (“ ”)
ou nulo, colocando tudo em um objeto String, para manipular os dados em um único
nível de hierarquia.
10
necessário indicar como irá separar uma String da outra. Nesse caso, foi utilizado
o símbolo de quebra de linha “\n”.
Visualize o objeto valor, note que ele possui apenas uma posição contendo so-
mente o texto e suas marcações de quebra de linha, tabulação, alinhamento.
Agora vamos começar a manipular o texto, a primeira coisa que vamos fazer é
separar cada linha do texto em uma posição do vetor. Pode parecer absurdo juntar
as páginas e agora separar as linhas. Mas não é. Primeiro, juntar todo o documento
pode facilitar a realização de buscas nele por palavras chaves e termos.
Para partir uma String, utilizaremos a função “str_split()”, passando a ela o ob-
jeto e o critério de separação; nesse caso, será a marcação “\n”. O resultado será
uma lista com cada posição, um “pedaço” da String.
Pré-processamento de Texto
Após a manipulação do arquivo texto, deixando na estrutura o que lhe for mais
conveniente, vamos iniciar a fase de pré-processamento de texto. Nessa fase, va-
mos retirar do texto aquilo que é considerado sujeira ou ruído, como, por exemplo,
as marcas de formatação: “\n,” “\r”, “\t”.
11
11
UNIDADE Estudo de Caso
Após a remoção das palavras, iremos reduzir as palavras em seu radical, por
exemplo: emprego, empregado, empregador, todas as palavras possuem o radical
“empreg” e são relacionadas ao mesmo assunto. Essa fase não é obrigatória na
contagem das palavras, mas pode ser que o resultado final fique interessante, ao
agrupar as palavras com o mesmo radical.
Figura 5 – Eliminação de conectores, redução das palavras ao radical e o cálculo da frequência das palavras
12
Visualização
A primeira visualização realizada é a nuvens de palavras, que nada mais é que
uma representação gráfica contendo os termos mais relevantes da lista. O tamanho
das palavras está relacionado à sua frequência, quanto maior for a frequência da
palavra, maior será o seu tamanho no diagrama.
Figura 6 – Contagem da frequência das palavras na matriz e cria duas nuvens de palavras
13
13
UNIDADE Estudo de Caso
Como a contagem para a nuvem de palavras passou por algumas funções es-
pecíficas de mineração de texto, essa tinha alguns ruídos para o ggplot2, por isso
foi necessário criar um data frame chamado bd e depois selecionar somente as 10
primeiras linhas, conforme mostrado na Figura 8.
Figura 8 – Organização dos dados e plotagem do gráfico das 10 palavras mais frequentes
Apesar de poder verificar esse problema durante todo o processo, quando visu-
alizamos os dados no corpus, ou na matriz de frequência, deixamos esse detalhe
de lado, pois pretendíamos mostrar que esse tipo de coisa pode ocorrer, mesmo
quando tomamos todo o cuidado no trabalho com texto.
14
as desigualdades no Brasil em renda e acessos a recursos básicos, como saúde, edu-
cação, saneamento básico etc.
Analise Exploratória
No dia a dia, normalmente, nós nos deparamos com um conjunto desconhecido,
no qual não há menor ideia para que foi criado e o que pode ser feito com ele, no
sentido de estática ou complementação da base.
Nesses casos, o que deve ser feito é uma análise exploratória dos dados, tanto
de forma matemática quanto gráfica. Para essa tarefa, vamos utilizar os pacotes:
“mlbench”, “e1071”, “lattice”, “Amelia”, “corrplot”, “caret”, “ggplot2”. E a base de
dados “PimaIndiansDiabetes”.
A primeira coisa a ser feita é conhecer a estrutura da base de dados, por exemplo,
dimensão da base, tipo de dados, cabeçalhos, conforme mostrado na Figura 10.
A função “head()” irá listar um data frame com um o cabeçalho. Nesse caso,
colocamos o parâmetro “n=3”, para exibir somente as três primeiras linhas.
A função “dim()” retorna à quantidade de linhas e colunas do objeto. A função
“sapply(PimaIndiansDiabetes, class)” está aplicando a função “class” para cada
coluna do objeto, por isso temos o retorno do tipo de casa um.
Explor
apply, lapply, sapply, tapply, mapply… Como é mesmo? Disponível em: https://bit.ly/2TSUHUN
15
15
UNIDADE Estudo de Caso
16
A Figura 12 mostra a codificação para os gráficos histogramas, densidade e
boxplot, em que irá mostrar o valor de cada coluna num grupo; porém, elas são
consideradas de maneira independentes (uni variadas).
Na Figura 13, temos o código para o gráfico de correlação multivariado, ou seja, va-
mos verificar de forma gráfica, quais variáveis interagem entre si. O gráfico foi montado
como uma matriz, onde o cabeçalho e as linhas são as variáveis. O quadrado de en-
contro entre cada variável terá uma cor correspondente ao valor do teste de correlação.
Conforme mostra a Figura 14, as correlações mais fortes foram o encontro das
variáveis com elas mesmas, na diagonal em azul escuro. O segundo valor significa-
tivo foi o encontro das variáveis idade (age) e gravidez (pregnant), resultando 0.54.
17
17
UNIDADE Estudo de Caso
Material Complementar
Indicações para saber mais sobre os assuntos abordados nesta Unidade:
Sites
Análise exploratória de dados
ECOR. Análise exploratória de dados.
https://bit.ly/2pUyxFy
WordCloud no R
FILGUEIRA, L. – WordCloud no R- SER.
https://bit.ly/2MAtqp1
Análise exploratória de dados Com R
MOURA, W. Análise exploratória de dados Com R.
https://bit.ly/31YSudb
Produção Animal dicas sobre o software R para zootecnistas. Entendendo o uso das funções apply, lapply, sapply,
tapply, mapply
PRODUÇÃO A – Produção Animal dicas sobre o software R para zootecnistas.
Entendendo o uso das funções apply, lapply, sapply, tapply, mapply.
https://bit.ly/2KP02cU
Qual a importância da analise exploratória de dados?
RAMOS, R. Qual a importância da analise exploratória de dados?
https://bit.ly/2kukNzV
18
Referências
CRAN. The Comprehensive R Archive Network. Site: <https://cran.r-project.
org>. Acesso em: 05/2019.
19
19