Escolar Documentos
Profissional Documentos
Cultura Documentos
ARTIGO
Scott NICHOLSON2
R E S U M O
1
Os termos bibliomineração, repositório de dados e mineração de dados são neologismos aqui utilizados, respectivamente, para
traduzir bibliomining, data warehousing e data mining (Nota do tradutor).
2
Ph.D., Syracuse University School of Information Studies, Center for Science and Technology, Syracuse, NY 13026. E-mail:
<srnichol@syr.edu> ou <http://bibliomining.org>.
Tradução, adaptação e resumo: Prof. Dr. Ulf Gregor BARANOW, Departamento de Ciência e Gestão da Informação,
Universidade Federal do Paraná. Av. Prefeito Lothário Meissner, 3400, Campus III, Jardim Botânico, 80210-170, Curitiba,
PR, Brasil. E-mail: <ugb@ufpr.br>.
Recebido para publicação em 21/9/2004.
ABSTRACT
3
Destaque em negrito do tradutor.
forem descobertos, surgem novas questões, -direcionada só deveria ser utilizada, quando
reinicializando o processo. Quanto mais áreas houver à disposição um repositório de dados bem
da biblioteca forem sendo analisadas, mais estruturados.
completo se tornará o repositório de dados,
possibilitando análises com novos enfoques.
IDENTIFICANDO AS
FONTES DOS DADOS
DETERMINANDO AS ÁREAS
DE INTERESSE Após determinar as áreas de interesse,
o passo seguinte é identificar as fontes de dados
O primeiro passo no processo da apropriadas. No processo da bibliomineração,
bibliomineração consiste em determinar a área trabalha-se com dados transacionais, não-
de interesse para a análise. Este interesse pode -agregados, de baixo nível. Isto pode tornar-se
decorrer de um problema na biblioteca ou da muito difícil, senão impossível, nas instituições
necessidade de informação para servir nas em que os bibliotecários habitualmente apagam
tomadas de decisão. A primeira determinação os registros operacionais, no afã de proteger a
refere-se à escolha entre uma mineração de privacidade dos usuários. O jornal New York
dados direcionada e outra não-direcionada Times de 4 de abril de 2003 relatou a eliminação
(BERRY; LINOFF 1997). Quando direcionada, a diária dos registros referentes à freqüência de
mineração refere-se a problemas. Normalmente, bibliotecas públicas (“Bibliotecários utilizam
trata-se de um problema específico que motivou picotador de papel para demonstrar sua oposição
a análise (por exemplo, “qual o tipo de procedi- aos novos poderes do FBI). Entretanto, a técnica
mento a ser adotado, quando um usuário se do repositório de dados poderia ser utilizada para
atrasa 10 dias na devolução de um livro?”) Por o próprio histórico da biblioteca, baseado em
sua vez, a mineração de dados não-direcionada dados concretos, respeitando-se, ao mesmo
se aplica quando, por exemplo, o diretor de uma tempo, a privacidade dos seus usuários. Consi-
biblioteca necessita obter uma visão mais nítida derando que a alocação de verbas para serviços
de um assunto de caráter geral (“Como é que as públicos continua a sofrer cortes, é importante
diferentes repartições de bibliotecas e os aproveitar a possibilidade de comprovar e
diversos tipos de usuários estão utilizando as defender a existência dos serviços prestados
revistas eletrônicas?” pelas bibliotecas.
É preciso tomar certos cuidados com a Existem dois tipos de fontes de dados a
mineração de dados não-direcionada. A minera- serem consideradas: internas e externas. As
ção como tal é uma técnica probabilística, sendo primeiras são aquelas já integradas ao sistema
que algumas técnicas desse tipo fornecerão adotado. Considerando que a maior parte dos
melhores padrões, mesmo que os dados não sistemas de bibliotecas tem seus dados
sejam muito consistentes. Todos os padrões armazenados em diferentes silos eletrônicos,
encontrados devem ser analisados para assegu- espalhados pela organização (base de usuários,
rar sua validade; não serão triviais, mas devem dados transacionais, servidores de acesso à
fazer sentido para os profissionais envolvidos. Web), a descoberta e extração de dados internos
Na modalidade da interação de dados não- da instituição pode constituir-se realmente num
-direcionada, eventualmente, pode surgir um desafio.
número excessivo de padrões para a análise. No caso de fontes externas, trata-se de
Considerando o tempo necessário para coletar dados não localizados no sistema da biblioteca.
e depurar esses dados, a mineração não- Num ambiente acadêmico, isto pode incluir a
4
O autor se refere à situação nos EUA, onde os dados do Censo são utilizados no âmbito público, com estrita observância da
preservação da identidade das pessoas, consoante a legislação em vigor (Nota do tradutor).
servir para a identificação posterior de pessoas. individuais, utilizados para acessar esses
Observa-se que, quando um item emprestado é serviços. A informação importante do PI, no
devolvido, muitas bibliotecas apagam todas as presente caso, não é de onde vem a pessoa,
informações referentes a essa transação. Entre- mas quais as páginas que ela visitou numa
tanto, dessa maneira são perdidas informações determinada sessão de consulta. Em vez de
preciosas para tomadas de decisão. Sendo o deletar os conteúdos desses campos, algum tipo
sistema operacional uma fonte de dados de código deveria ser utilizado para substituir
centrada no usuário, o repositório de dados cada endereço de PI acessado. Uma maneira
constitui uma fonte sobre os itens de empréstimo. de também preservar a privacidade seria a
Por isso, antes de deletar a informação substituição de todos os endereços de PI
idênticos, acessados numa mesma janela, por
transacional, deverá ser criado um arquivo no
um código gerado a partir da data e hora de
repositório de dados, que combine a informação
entrada, associado ao PI. Alguns arquivos de
referente ao item com a informação estatística
transação preservam informações sobre a
referente ao usuário. Com esta combinação será
entrada do usuário. Assim como no caso dos
captada a informação importante sobre a
arquivos de circulação, a informação sobre a
transação, sem identificar o usuário envolvido.
entrada do usuário deverá ser substituída, no
Permitir-se-á a descoberta de padrões acerca
repositório de dados, pela correspondente
dos usuários, mas sem comprometer a informa-
informação estatística (Quadro 2).
ção referente à identificação pessoal (Quadro 1).
Os campos sombreados referem-se ao processo Sempre que forem captadas informações
da substituição dos dados. estatísticas, deverá ficar assegurado que
nenhuma combinação de variáveis seja capaz
O arquivo de transações do servidor
de levar à identificação do usuário. No desenvolvi-
contém informações valiosas sobre a utilização
mento das ferramentas de captação, os grupos
dos serviços da biblioteca baseados na Web. estatísticos devem ser combinados ou omitidos
Esses arquivos de registro de acesso contêm até que todas as combinações de dados
os protocolos da Internet (PI´s), que podem ser estatísticos salvos apontem para os agrupa-
utilizados para chegar aos computadores mentos e não para indivíduos (Tabela 1).
Inglês 27 5 8
Computação 14 3 7
Matemática 33 1 6
Psicologia 24 6 7
Administração 24 14 5
Inglês 27 5 8
Computação/Matemática 47 4 13
Psicologia 24 6 7
Administração 24 14 5
5
A correspondente legislação brasileira é baseada na Constituição de 1988 (Nota do tradutor).
6
OLAP é a sigla inglesa para On-line analytical processing system, que acabou por ser adotada também entre profissionais
brasileiros (Nota do tradutor).
O usuário escolherá, por exemplo, uma presentes. Os padrões descobertos são utiliza-
das muitas variáveis constantes de uma lista, dos para formar “agrupamentos de afinidade” e
digamos acerca do uso de periódicos eletrô- variáveis comuns a diferentes usuários ou
nicos. Podem-se, então, selecionar dimensões agrupamentos estatísticos com determinadas
básicas, tais como data/hora e assunto. O características. A prospeção, por outro lado, pode
sistema OLAP vai permitir uma visão desses ser destinada a fundamentar afirmações sobre o
dados, em alto nível, por exemplo, como relatório desconhecido, baseadas sobre o que é conhe-
sob forma tabulada, por ano e classificação. O cido. Pode ser utilizada para predizer o futuro ou
usuário poderá então clicar uma das dimensões para fazer afirmações sobre o presente. A
para expandir o relatório. No presente caso, se prospecção oferece dois tipos de recursos, a
o usuário clicar o campo “ano”, a ferramenta saber: a classificação, cuja finalidade é colocar
poderá expandir esse campo em trimestres, sob um item numa categoria, e a estimativa, cujo
o mesmo título, mas recalculando os dados. Em objetivo é produzir um valor numérico para uma
seguida, o usuário poderá clicar um outro campo, variável desconhecida. A tarefa inicialmente
para analisar sob outro aspecto os dados escolhida determinará a escolha da modalidade
disponíveis. As ferramentas de OLAP trabalham do respectivo recurso prospectivo.
com dados organizados em repositórios, sendo
que todos os campos devem estar definidos,
antes que o sistema seja liberado para uso. As Pacotes de software de mineração de
respostas oferecidas pela ferramenta ao dados
administrador são instantâneas, favorecendo a
Atualmente, existem numerosos pacotes
análise e durante o processo da análise;
de software, possibilitando o uso de diferentes
administrador poderá captar diferentes aspectos
ferramentas de mineração de dados. Na maioria
dos dados, incorporando-os num relatório regular.
desses pacotes, os dados são importados para
um arquivo bidimensional, ou para um arquivo
Mineração de dados comum de dados de outro formato. Após importar
os dados, o analista poderá selecionar as ferra-
Outra maneira de analisar os dados, e mentas e visualizar os resultados. Os pacotes
que deu origem ao termo bibliomineração, é por estatísticos SAS e SPSS dispõem ambos de
meio da mineração de dados propriamente dita. ferramentas opcionais de mineração, mas são
Trata-se da descoberta de padrões de dados em bastante caras. A ferramenta de mineração de
nível inferior, utilizando ferramentas estatísticas dados WEKA (WITTEN; FRANK 1999) é um
e de inteligência artificial. A mineração de dados software livre, que contém muitas opções
surgiu na área empresarial americana, no início idênticas às daqueles pacotes, mas a custo
da década de 1990, depois da popularização dos menor; porém, o uso desta ferramenta não é tão
repositórios de dados. Estes haviam possibilitado amigável como o daquelas.
a armazenagem de grandes quantidades de Apesar da simplicidade de aplicação
dados, o que motivou as corporações a se desses modelos, eles apresentam um inconve-
interessarem por instrumentos capazes de tirar niente: muitas das ferramentas disponíveis são
vantagens desses repositórios. baseadas em métodos estatísticos ou probabilís-
Existem dois tipos principais de tarefas ticos. Esses métodos requerem um certo tipo
a serem desempenhadas pela mineração de de dados, por exemplo, provenientes de uma
dados: descrição e prospecção. Na descrição, distribuição normal, a fim de produzir, por sua
trata-se de compreender dados passados e vez, dados confiáveis. A inconveniência decorre
do fato de que tais ferramentas não dispõem de concordar com o padrão encontrado, será preciso
nenhum mecanismo para checar se essas re-analisar cuidadosamente os fluxos de dados.
condições dos dados a serem processados Esse tipo de discordância, em geral, se origina
foram satisfeitas ou não. Assim, um usuário de uma distorção dos dados ou da aplicação
desprevenido poderá aplicar essas ferramentas errônea de uma ferramenta.
e, no caso de os dados não terem sido O último passo consiste em implementar
enquadrados em determinadas condições o modelo ou tipo de relatório, devendo ser monito-
prévias, vir a produzir respostas que não fazem radas as variáveis que determinam os modelos
sentido, Para saber mais sobre algoritmos utilizados ao longo do tempo. Quando a média
específicos em pacotes de mineração de dados, de uma variável se afasta demasiadamente por
recomendam-se os trabalhos de Berry e Linoff causa de mudanças na biblioteca, eventual-
(1997; 2000) ou o texto de Witten e Frank (1999), mente, o próprio modelo terá de ser reavaliado.
este último referente ao já mencionado software
livre de mineração de dados WEKA.
CONCLUSÃO
REFERÊNCIAS
BUCKLAND, M. Five grand challenges for library NICHOLSON, S.; STANTON, J. Gaining strategic
research. Library Trends, v. 51, n.4. Available from: advantage through bibliomining: data mining
< h t t p : / / w w w. s i m s . b e r k e l e y. e d u / ~ b u c k l a n d / for management decisions in corporate, special,
trends03.pdf>. Acess: 27 June 2003. digital, and traditional libraries. In : NEMATI, H.;
BERRY, M.; LINOFF, G. Data mining techniques for BARKO, C. (Ed.). Organizational data mining :
marketing, sales, and customer support. New York: leveraging enterprise data resources for
John Wiley, 1997. optimal performance. Hershey, PA: Idea Group,
BERRY, M.; LINOFF, G. Mastering data mining. New 2003.
York: John Wiley, 2000. WITTEN, I.; FRANK, E. Practical machine learning
INMON, W. Building the data warehouse. 3.ed. New tools and techniques with Java implementations.
York: John Wiley, 2002. San Francisco, CA: Morgan Kaufmann, 1999.