Você está na página 1de 34

issn

0034-7612

Gesto do conhecimento usando data mining: estudo


de caso na Universidade Federal de Lavras*

Olinda Nogueira Paes Cardoso**


Rosa Teresa Moreira Machado***

S u m r i o : 1. Introduo; 2. Gesto do conhecimento; 3. Gesto de cincia, tecnologia


e inovao e sua importncia; 4. Gesto de universidades; 5. Metodologia; 6. O estudo
emprico: gesto de cincia, tecnologia e inovao na Ufla; 7. Concluso.

S u m m a r y : 1. Introduction; 2. Knowledge management; 3. Science, technol-


ogy, and innovation management and its importance; 4. University management;
5. Methodology; 6. Empirical study: science, technology and innovation manage-
ment at Ufla; 7. Conclusion.

P a l av r a s - c h av e : gesto do conhecimento; descoberta de conhecimento em bancos


de dados; data mining; plataforma Lattes.

K e y w o r d s : knowledge management; knowledge discovery in database; data min-


ing; Lattes platform.

A gesto do conhecimento abrange toda a forma de gerar, armazenar, distribuir e


utilizar o conhecimento, tornando necessria a utilizao de tecnologias de informa-
o para facilitar esse processo, devido ao grande aumento no volume de dados. A
descoberta de conhecimento em banco de dados uma metodologia que tenta solu-
cionar esse problema e o data mining uma tcnica que faz parte dessa metodologia.
Este artigo desenvolve, aplica e analisa uma ferramenta de data mining, para extrair
conhecimento referente produo cientfica das pessoas envolvidas com a pesquisa

* Artigo recebido em fev. 2005 e aceito em mar. 2007.


** Graduada em informtica pela Universidade Catlica de Salvador (UCSal), mestre em admi-
nistrao pela Universidade Federal de Lavras (Ufla), professora assistente do Departamento de
Cincia da Computao da Ufla. Endereo: Caixa Postal, 3037 CEP 37200-000, Lavras, MG,
Brasil. E-mail: olinda@dcc.ufla.br.
*** Economista pela Universidade Federal de Minas Gerais, doutora em administrao pela Fa-
culdade de Economia, Administrao e Contabilidade da Universidade de So Paulo (FEA/USP).
Professora associada do Departamento de Administrao e Economia da Universidade Federal de
Lavras e editora da revista Organizaes Rurais & Agroindustriais. Endereo: Caixa Postal, 3037
CEP 37200-000, Lavras, MG, Brasil. E-mail: rosaflor@ufla.br.

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


496 olinda nogueira paes cardoso rosa teresa moreira machado

na Universidade Federal de Lavras. A metodologia utilizada envolveu a pesquisa


bibliogrfica, a pesquisa documental e o mtodo do estudo de caso. As limitaes
encontradas na anlise dos resultados indicam que ainda preciso padronizar o
modo do preenchimento dos currculos Lattes para refinar as anlises e, com isso,
estabelecer indicadores. A contribuio foi gerar um banco de dados estruturado,
que faz parte de um processo maior de desenvolvimento de indicadores de cincia
e tecnologia, para auxiliar na elaborao de novas polticas de gesto cientfica e
tecnolgica e aperfeioamento do sistema de ensino superior brasileiro.

Knowledge management using data mining: a case study of the Federal Uni-
versity of Lavras
The management of knowledge embraces every form of production, storage, distribu-
tion and use of the knowledge, making necessary the use of information technologies
to facilitate the process, due to the great increase in the volume of data. An emergent
methodology that tries to solve the problem of the analysis of great amounts of data
is the knowledge discovery in database (KDD) and data mining, a technique that is
part of this methodology. This article aims to develop, apply and analyze a tool of
data mining, to extract knowledge regarding peoples scientific production involved
with the research at the Federal University of Lavras (Ufla). The methodology used
involved bibliographical research, documental research, and method of case study.
Once it was just used referring data to the scientific production of Ufla. The limitations
found in the analysis of the results indicate that it is still necessary to standardize
the completion of the Lattes curricula to refine the analyses, and establish indica-
tors. The result was the creation of a structured database, which is part of a larger
process of development of science and technology indicators, with the objective of
aiding the elaboration of new policies of scientific and technological management
and improvement of the superior education system in Brazil.

1. Introduo

O conhecimento tem sido reconhecido como um dos mais importantes recursos


de uma organizao, tornando possveis aes inteligentes nos planos organi-
zacional e individual, induzindo a inovaes e capacidade de continuamente
criar produtos e servios excelentes em termos de complexidade, flexibilidade
e criatividade. O processo de gesto do conhecimento abrange toda a forma
de gerar, armazenar, distribuir e utilizar o conhecimento, tornando necessria
a utilizao de tecnologias de informao para facilitar o processo, devido ao
grande aumento no volume de dados.
Ao longo do tempo, percebeu-se que a velocidade de coleta de informa-
es era muito maior do que a velocidade de processamento ou anlise das
mesmas, o que gera um problema e uma contradio, pois as organizaes,

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 497

por possurem uma grande quantidade de dados, possuem uma falsa sensao
de que esto bem informadas; porm essas informaes de nada servem se
no forem analisadas de forma correta e em tempo hbil.
Em outras palavras, a coleta e o armazenamento de dados, por si s, no
contribuem para melhorar a estratgia da organizao. necessrio que sejam
feitas anlises sobre essa grande quantidade de dados, estabelecendo-se indi-
cadores para descobrir padres de comportamento implcitos nos dados, assim
como relaes de causa e efeito. Processar e analisar as informaes geradas
pelas enormes bases de dados atuais de forma correta esto entre os requisitos
essenciais para uma boa tomada de deciso.
Num ambiente extremamente mutvel, como o das organizaes na
atualidade, torna-se necessria a aplicao de tcnicas e ferramentas autom-
ticas que agilizem o processo de extrao de informaes relevantes de grandes
volumes de dados. Uma metodologia emergente, que tenta solucionar o proble-
ma da anlise de grandes quantidades de dados e ultrapassa a habilidade e a
capacidade humanas, a descoberta de conhecimento em banco de dados.
Data mining, ou minerao de dados, uma tcnica que faz parte de uma
das etapas da descoberta de conhecimento em banco de dados. Ela capaz de
revelar, automaticamente, o conhecimento que est implcito em grandes quan-
tidades de informaes armazenadas nos bancos de dados de uma organizao.
Essa tcnica pode fazer, entre outras, uma anlise antecipada dos eventos, possi-
bilitando prever tendncias e comportamentos futuros, permitindo aos gestores
a tomada de decises baseada em fatos e no em suposies.
possvel extrair, por exemplo, um grande nmero de informaes teis
a partir da anlise da produo cientfica, tecnolgica e bibliogrfica desenvol-
vida na Universidade Federal de Lavras (Ufla). Para isso, foi criado um banco
de dados gerado a partir de arquivos extrados da plataforma Lattes e, poste-
riormente, foi desenvolvida uma ferramenta de data mining, utilizando os re-
cursos de um sistema gerenciador de banco de dados, para identificar padres
e tendncias, gerando base para a gesto do conhecimento na instituio.
As instituies de ensino superior (IES) so organizaes voltadas para
o conhecimento. Ao longo dos ltimos anos, diversos autores vm discutindo
como avaliar a qualidade dos servios prestados por essas instituies e nunca
se questionou tanto a qualidade e os valores cobrados por esses servios. Tem-
se acentuado a necessidade de reflexo sobre a gesto das IES, preparando-as
para as transformaes que esto ocorrendo no ambiente em que operam.
Cabe s prprias IES gerarem solues para gesto de polticas de cincia, tec-
nologia e inovao, que tenham um horizonte maior de planejamento a partir
dessa enorme massa de dados ainda subutilizados.

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


498 olinda nogueira paes cardoso rosa teresa moreira machado

Levando-se em considerao os problemas enfrentados pelas universi-


dades com o gerenciamento dos dados, alm de diversas limitaes encontra-
das na gesto dos sistemas de informao, o presente trabalho utilizou a tc-
nica de data mining, extraindo conhecimento e contribuindo para a melhoria
do preenchimento dos dados na plataforma Lattes.
Como parte do processo de descoberta de conhecimento em banco de
dados, este artigo tem como objetivo geral desenvolver, aplicar e analisar uma
ferramenta de data mining, para extrair conhecimento referente produo
cientfica dos professores da Ufla. Como objetivos especficos, temos:
t selecionar e tratar os dados disponveis na plataforma Lattes referentes
pesquisa cientfica na Ufla;
t implementar um programa para transformar os dados selecionados num
banco de dados;
t desenvolver uma ferramenta automtica de descoberta de conhecimento,
utilizando a tcnica de data mining e descrev-la;
t descrever as informaes geradas e analis-las.

Este artigo uma etapa do processo de desenvolvimento do conheci-


mento, que pode servir de apoio tomada de deciso, possibilitando, no fu-
turo, a criao de indicadores para efeito comparativo entre instituies de
ensino superior e de apoio gesto da poltica cientfica e tecnolgica e aper-
feioamento do sistema de ensino superior do pas.

2. Gesto do conhecimento

De acordo com Tarapanoff (2001), as mudanas que vm ocorrendo nas orga-


nizaes atualmente convergem para a quebra de um paradigma histrico e,
por meio dele, entramos na era sociedade da informao e do conhecimento.
A informao como principal matria-prima das organizaes um insumo
comparvel energia que alimenta um sistema; o conhecimento utilizado na
agregao de valor a produtos e servios; a tecnologia constitui um elemento
vital para as mudanas, em especial o emprego da tecnologia sobre acervos de
informao. A rapidez, a efetividade e a qualidade constituem fatores decisi-
vos de competitividade.
As organizaes esto buscando alguma vantagem sustentvel que as
diferencie das outras em seu ambiente de negcio, utilizando para isso seu

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 499

conhecimento, que considerado um dos mais importantes recursos de uma


organizao. O conceito de conhecimento, com base em inmeras definies,
envolve estruturas cognitivas que representam determinada realidade. Se-
gundo Krogh, Ichijo e Nonaka (2001), citados por Alvarenga e colaboradores
(2002), conhecimento como uma crena verdadeira e justificada que signifi-
ca que as pessoas interpretam as informaes conforme sua viso de mundo,
tambm pode ser visto como a experincia, o entendimento e o know-how
prtico que o ser humano possui e que guiam suas decises e aes.
Assim, a gesto do conhecimento a rea que estuda o modo como as
organizaes entendem o que elas conhecem, o que elas necessitam conhe-
cer e como elas podem tirar o mximo proveito do conhecimento (Carvalho,
2000). Como o processo de gesto do conhecimento abrangente e comple-
xo, torna-se necessria a utilizao de tecnologias da informao, principal-
mente no que se refere anlise da grande quantidade de informao que
armazenada.
Antes de chegar a uma definio do que seja gerenciar o conhecimento,
necessrio conceituar conhecimento. Diversos autores (Adriaans e Zantin-
ge, 1996; Fayyad et al., 1996; Elmasri e Navathe, 2002; Navega, 2002; Amo,
2003; Moxton, 2004) fazem uma distino ascendente entre os termos: dado,
informao e conhecimento. Dados so fatos, imagens ou sons que podem
ou no ser teis ou pertinentes para uma atividade particular. So abstra-
es formais quantificadas, que podem ser armazenadas e processadas por
computador. Informaes so dados contextualizados, com forma e contedo
apropriados para um uso particular. So abstraes informais (no podem
ser formalizadas segundo uma teoria matemtica ou lgica) que represen-
tam, por meio de palavras, sons ou imagens, algum significado para algum.
Conhecimento uma combinao de instintos, idias, informaes, regras e
procedimentos que guiam aes e decises; tem embutido em si valores como
sabedoria e insights. a inteligncia obtida pela experincia. Como exemplo,
pode-se citar a experincia que um funcionrio possui por ter trabalhado em
determinadas atividades numa organizao por muito tempo.
Como um organismo vivo, as organizaes recebem informao do meio
ambiente e tambm atuam sobre ele. Segundo Navega (2002), durante essas
atividades, necessrio distinguir vrios nveis de informao. O fundamental
a se perceber nesse processo de transformao dos dados ao conhecimento
a sensvel reduo de volume de dados que ocorre cada vez que se sobe de
nvel. Essa reduo de volume uma natural conseqncia do processo de
abstrao. Abstrair, aqui, representar uma informao por meio de corres-
pondentes simblicos e genricos. A importncia disso perceber que, para

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


500 olinda nogueira paes cardoso rosa teresa moreira machado

ser genrico, necessrio perder um pouco dos dados, para s conservar a


essncia da informao.

Tipos de conhecimento

Segundo Tarapanoff (2001), o conhecimento organizacional pode ser clas-


sificado em dois tipos. O primeiro o conhecimento explcito, que pode ser
articulado na linguagem formal, sobretudo em afirmaes gramaticais, ex-
presses matemticas, especificaes, manuais e assim por diante. Esse tipo
de conhecimento pode ser ento transmitido, formal e facilmente, entre os
indivduos.
O segundo tipo, o conhecimento tcito, difcil de ser articulado na
linguagem formal. o conhecimento pessoal, incorporado experincia in-
dividual e envolve fatores intangveis como, por exemplo, crenas pessoais,
perspectivas e sistemas de valor. O conhecimento tcito foi deixado de lado
como componente crtico do comportamento humano coletivo. A dimenso
cognitiva do conhecimento tcito reflete nossa imagem da realidade o que
e nossa viso do futuro o que deveria ser. Apesar de no poderem ser
articulados muito facilmente, esses modelos implcitos moldam a forma com
que percebemos o mundo nossa volta (Tarapanoff, 2001).
Considera-se os conhecimentos explcito e o tcito unidades estruturais
bsicas que se complementam. Mais importante, a interao entre essas duas
formas de conhecimento a principal dinmica da criao do conhecimento
em uma organizao. A criao do conhecimento organizacional um proces-
so em espiral em que a interao ocorre repetidamente (Tarapanoff, 2001).
Na medida em que o conhecimento, tanto o tcito quanto o explcito,
se torna um ativo central, produtivo e estratgico, o sucesso da organizao
depende cada vez mais da sua habilidade em coletar, produzir, manter e dis-
tribuir conhecimento.
Desenvolver procedimentos e rotinas para otimizar a criao, o fluxo,
o aprendizado e o compartilhamento de conhecimento e informao numa
organizao torna-se uma responsabilidade gerencial central. O processo de,
ativa e sistematicamente, gerenciar e alavancar o armazenamento de conhe-
cimento numa organizao chamado de gesto do conhecimento (Laudon e
Jane, 1999).
A gesto do conhecimento pode ser vista, ento, como o conjunto de ati-
vidades que busca desenvolver e controlar todo tipo de conhecimento em uma
organizao, visando utilizao na consecuo de seus objetivos. Esse con-

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 501

junto de atividades deve ter, como principal meta, o apoio ao processo decis-
rio em todos os nveis. Para isso, preciso estabelecer polticas, procedimentos
e tecnologias que sejam capazes de coletar, distribuir e utilizar efetivamente
o conhecimento, bem como representar fator de mudana no comportamento
organizacional (Tarapanoff, 2001).

Criando conhecimento

De acordo com Tarapanoff (2001), a criao de conhecimento organizacio-


nal pode ser definida como a capacidade que uma instituio tem de criar co-
nhecimento, dissemin-lo na organizao e incorpor-lo a produtos, servios
e sistemas. Criar novos conhecimentos tambm no apenas uma questo
de aprender com os outros ou adquiri-los externamente. O conhecimento
deve ser construdo por si mesmo, muitas vezes exigindo uma interao in-
tensiva e laboriosa entre diversos membros da organizao. Assim, diz res-
peito tambm tanto aos ideais como s idias. Ele tambm pode ser definido
na hora com base na experincia direta e por meio da tentativa e erro, o que
exige intensa e trabalhosa interao entre os membros da equipe (Tarapa-
noff, 2001).
As formas de interao entre o conhecimento tcito e o explcito, e entre
o indivduo e a organizao, acontecem por meio de quatro processos prin-
cipais da converso do conhecimento que, juntos, constituem a criao do
conhecimento, segundo a afirmao de Tarapanoff (2001), ao citar Nonaka e
Takeuchi (1997). So quatro processos:
t do tcito para o explcito (externalizao), que um processo de articula-
o do conhecimento tcito em conceitos explcitos, ou seja, de criao do
conhecimento perfeito, medida que o conhecimento tcito se torna expl-
cito, expresso na forma de analogias, conceitos, hipteses ou modelos;
t do explcito para o explcito (combinao), cujo modo de converso do co-
nhecimento envolve a combinao de conjuntos diferentes de conhecimen-
to explcito;
t do explcito para o tcito (internalizao), que o processo de incorporao
do conhecimento explcito no conhecimento tcito;
t do tcito para o tcito (socializao), que um processo de compartilha-
mento de experincias e, a partir da, de criao do conhecimento tcito,
como modelos mentais ou habilidades tcnicas compartilhadas.

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


502 olinda nogueira paes cardoso rosa teresa moreira machado

Para a criao de conhecimento explcito, diversas tcnicas de descober-


ta de conhecimento podem ser utilizadas pelas organizaes. Um dos maiores
problemas enfrentados atualmente o grande volume das bases de dados que
as organizaes possuem. A descoberta de conhecimento em banco de dados
pode ser utilizada como soluo para este problema.

Descoberta de conhecimento em banco de dados

A necessidade de informaes disponveis vem crescendo assustadoramente


nos ltimos anos e vrios fatores contriburam para esse incrvel aumento. O
baixo custo de armazenagem pode ser visto como a principal causa do sur-
gimento dessas enormes bases de dados. Outro fator a disponibilidade de
computadores de alto desempenho a um custo razovel. Como conseqncia,
bancos de dados passam a conter verdadeiros tesouros de informao e, de-
vido ao seu volume, ultrapassam a habilidade tcnica e a capacidade humana
na sua captao e interpretao.
O sucesso das organizaes depende basicamente das decises tomadas
por seus gestores, antes mesmo de apresentar ao mercado seus produtos ou
servios. Tais decises tm se tornado necessrias em prazos cada vez mais
curtos, exigindo dos gestores responsveis uma ateno redobrada aos am-
bientes interno e externo da organizao. Muitas vezes, ms decises so de-
finidas, no pela inexistncia do conhecimento para se escolher melhor, e sim
porque o conhecimento no estava disponvel para ser utilizado no tempo e
lugares certos.
Para que o conhecimento seja extrado de forma eficiente, realiza-
do um processo chamado descoberta de conhecimento em banco de dados
(DCBD ou KDD do ingls knowledge discovery in databases), processo este que
possui o data mining como principal etapa (Amo, 2003). Ou seja, para que o
conhecimento seja descoberto, tcnicas de data mining (minerao de dados)
devem ser aplicadas.
Uma definio formal que DCBD o processo no trivial de identifica-
o de padres em um conjunto de dados com as seguintes caractersticas:
t validade a descoberta de padres deve ser vlida em novos dados com
algum grau de certeza ou probabilidade;
t novidade os padres so novos, ou seja, ainda no foram detectados por
nenhuma abordagem;
t utilidade potencial os padres devem poder ser utilizados para a tomada
de decises teis, medidas por alguma funo;

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 503

t assimilveis um dos objetivos do DCBD tornar os padres assimilveis


ao conhecimento humano.

De acordo com Adriaans e Zantinge (1996), existe uma confuso entre


os termos data mining e descoberta de conhecimento em banco de dados. O
termo DCBD empregado para descrever o processo de extrao de conhe-
cimento de um conjunto de dados. Nesse contexto, conhecimento significa
relaes e padres entre os elementos dos conjuntos de dados. O termo data
mining, segundo os autores, deve ser usado exclusivamente para o estgio de
descoberta do processo de DCBD, que se divide em sete estgios: (1) definio
do problema; (2) seleo dos dados; (3) eliminao de incongruncias/erros
dos dados (filtragem dos dados); (4) enriquecimento dos dados; (5) codifica-
o dos dados; (6) data mining; e (7) relatrios. Em outras palavras, a mine-
rao de dados seria uma etapa do processo de DCBD.

Data mining

Talvez a definio mais importante de data mining tenha sido elaborada por
Fayyad e colaboradores (1996:4): ...o processo no-trivial de identificar, em
dados, padres vlidos, novos, potencialmente teis e ultimamente compre-
ensveis.
Data mining, ou minerao de dados, uma rea de pesquisa multidis-
ciplinar, incluindo principalmente as tecnologias de bancos de dados, inteli-
gncia artificial, estatstica, reconhecimento de padres, sistemas baseados em
conhecimento, recuperao da informao, computao de alto desempenho
e visualizao de dados. Embora muita informao j exista sobre o tema, no
existe uma padronizao e classificao universalmente aceita sobre o assun-
to, de maneira a facilitar os interessados da rea na conduo de seus projetos
de pesquisa. Uma das justificativas justamente essa dimenso de novidade
do tema e sua relevncia na soluo para anlise de grandes volumes de da-
dos. Alm disso, o material existente sobre data mining possui abordagens
heterogneas, dependendo da origem ou do pblico-alvo a que se destina. O
tema estudado e abordado por profissionais de diversas reas e cada uma
possui abordagens especficas, adequadas para as suas necessidades.
Os seguintes pontos so algumas das razes pelas quais o data mining
vem se tornando necessrio para uma boa gesto organizacional: os volumes
de dados so muito importantes para um tratamento utilizando somente tc-
nicas clssicas de anlise; o usurio final no necessariamente um estatsti-

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


504 olinda nogueira paes cardoso rosa teresa moreira machado

co; e a intensificao do trfego de dados (navegao na internet, catlogos


online etc.) aumenta a possibilidade de acesso aos dados.
Segundo Amo (2003), vale ressaltar que importante distinguir o que
uma tarefa e o que uma tcnica de minerao de dados. A tarefa consiste na
especificao do que se deseja buscar nos dados, que tipo de regularidades
ou categorias de padres, ou que tipo de padres poderiam surpreender. J
a tcnica de minerao consiste na especificao de mtodos que garantam
como descobrir os padres que interessam. Entre as principais tcnicas utili-
zadas em minerao de dados esto as tcnicas estatsticas e as de inteligncia
artificial.
Segundo King (2003), data mining um modo de procurar relaes
interessantes escondidas em um grande conjunto de dados, tais como padres
de clustering (agrupamentos) e aproximaes de funes. Raramente um
processo completamente automatizado, com uma grande interveno do ana-
lista que conduz o estudo. A aplicao tpica de data mining comea com um
grande conjunto de dados e poucas definies. A maioria dos algoritmos trata
os dados iniciais como uma caixa-preta, com nenhuma informao dispon-
vel sobre o que os dados descrevem, quais relaes existem entre os dados e se
contm erros. Ao examinar os dados, um algoritmo pode explorar milhares de
provveis regras, utilizando diversas tcnicas para escolher entre elas.
Decker e Focardi (1995) definem data mining como uma metodologia
que procura uma descrio lgica ou matemtica, eventualmente de natureza
complexa, de padres e regularidades em um conjunto de dados. Grossman,
Hornick e Meyer (2002) definem data mining como a descoberta de padres,
associaes, mudanas, anomalias e estruturas estatsticas e eventos em da-
dos. A anlise de dados tradicional baseada na suposio, em que uma hi-
ptese formada e validada por meio dos dados. Por outro lado, as tcnicas
de data mining so baseadas na descoberta, na medida em que os padres so
automaticamente extrados do conjunto de dados.
De acordo com Moxton (2004), data mining um conjunto de tcnicas
utilizadas para explorar exaustivamente e trazer superfcie relaes com-
plexas em um conjunto grande de dados. Uma diferena significante entre as
tcnicas de data mining e outras ferramentas analticas a abordagem utili-
zada para explorar as inter-relaes entre os dados, semelhante abordagem
dada por Grossman, Hornick e Meyer (2002), que tambm diferenciam as
tcnicas de data mining com relao s tcnicas analticas entre as abordagens
de suposio e de descoberta. Segundo esses autores, discordando de outros
pesquisadores, as tcnicas de data mining no pressupem que as relaes

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 505

entre os dados devam ser conhecidas a priori. Ao ser aplicada a tcnica, novas
relaes entre os dados iro surgir.
A anlise automatizada e antecipada oferecida pelo data mining vai
muito alm da simples anlise de eventos passados, que fornecida pelas
ferramentas de retrospectiva tpicas de sistemas de apoio deciso. Com a
utilizao da tcnica, novas informaes de cunho explcito podem ser ge-
radas e podem fazer parte do conjunto de conhecimentos explcitos de uma
organizao, podendo servir de subsdio para gerar insights e elementos para
conhecimento tcito.
O objetivo do data mining descobrir, de forma automtica ou semi-
automtica, o conhecimento que est escondido nas grandes quantidades de
informaes armazenadas nos bancos de dados da organizao, permitindo
agilidade na tomada de deciso. Uma organizao que emprega o data mining
capaz de: criar parmetros para entender o comportamento dos dados, que
podem ser referentes a pessoas envolvidas com a organizao; identificar afi-
nidades entre dados que podem ser, por exemplo, entre pessoas e produtos e
ou servios; prever hbitos ou comportamentos das pessoas e analisar hbitos
para se detectar comportamentos fora do padro entre outros.
Em termos gerais, segundo Elmasri e Navathe (2002), a tcnica de data
mining compreende os seguintes propsitos:
t previso pode mostrar como certos atributos dentro dos dados iro com-
portar-se no futuro;
t identificao padres de dados podem ser utilizados para identificar a
existncia de um item, um evento ou uma atividade;
t classificao pode repartir os dados de modo que diferentes classes ou
categorias possam ser identificadas com base em combinaes de parme-
tros;
t otimizao do uso de recursos limitados, como tempo, espao, dinheiro ou
matria-prima e maximizar variveis de resultado como vendas ou lucros
sob um determinado conjunto de restries.

Segundo Tarapanoff (2001), Elmasri e Navathe (2002) e Amo (2003), o


conhecimento descoberto durante a fase de data mining pode ser descrito de
acordo com cinco tarefas:
t anlise de regras de associao uma regra de associao um padro
da forma X Y, em que X e Y so conjuntos de valores, ou seja, encontrar
itens que determinem a presena de outros em uma mesma transao e
estabelecer regras que correlacionam a presena de um conjunto de itens

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


506 olinda nogueira paes cardoso rosa teresa moreira machado

com outro intervalo de valores para outro conjunto de variveis. Exem-


plo: sempre que se orienta um aluno de doutorado, publicado algum
documento; descobrir regras de associao entre alunos de doutorado
e nmero de publicaes pode ser til para melhorar a distribuio de
orientados por professor;
t classificao e predio o processo de criar modelos (funes) que des-
crevem e distinguem classes ou conceitos, baseados em dados conhecidos,
com o propsito de utilizar esse modelo para predizer a classe de objetos
que ainda no foram classificados. O modelo construdo baseia-se na an-
lise prvia de um conjunto de dados de amostragem ou de treinamento,
contendo objetos corretamente classificados. Exemplo: grupos de pesquisas
j definidos contendo alguns professores e, a partir da anlise de dados das
pesquisas de outros professores que no pertencem a esses grupos, sugerir
a sua entrada;
t anlise de padres seqenciais um padro seqencial uma expresso
da forma <I1, ...In>, em que cada Ii um conjunto de itens. A ordem em
que esto alinhados os conjuntos reflete a cronologia com que acontece-
ram os fatos representados por eles. Encontrar padres previsveis em um
perodo de tempo significa que um comportamento particular em um dado
momento pode ter como conseqncia outro comportamento ou seqncia
de comportamentos dentro de um mesmo perodo de tempo. Exemplo: uma
pessoa que cursou mestrado provavelmente far doutorado em um certo
perodo de tempo;
t anlise de clusters (agrupamentos) diferentemente da classificao e
predio, em que os dados esto previamente classificados, a anlise de
clusters trabalha sobre dados em que as classes no esto definidas. A tarefa
consiste em identificar novos agrupamentos, que contenham caractersticas
similares e agrupar os registros, ou seja, particionar (segmentar) uma dada
populao de eventos ou itens em conjuntos. Exemplo: professores de de-
partamentos diferentes, que trabalham em grupos de pesquisas distintos,
poderiam estar trabalhando com o mesmo objeto e, dessa forma, seria suge-
rida a formao de um novo agrupamento dessas pessoas, podendo surgir
assim um novo grupo de pesquisa ou reclassific-lo;
t anlise de outliers um banco de dados pode conter dados que no apre-
sentam o comportamento geral da maioria. Eles so denominados outliers
(excees). Muitos mtodos de minerao descartam esses outliers como
rudo indesejado. Entretanto, em algumas aplicaes, tais eventos raros

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 507

podem ser mais interessantes do que os que ocorrem regularmente. Exem-


plo: descobrir padres de comportamento de professores que publicam
um nmero muito grande de artigos e que fogem ao padro dos demais
professores.

O data mining usa ferramentas de anlise estatstica, assim como tcni-


cas da rea de inteligncia artificial, ou tcnicas baseadas em regras e outras
tcnicas inteligentes. A minerao dos dados pode dar-se sobre um banco de
dados operacional, ou sobre um data warehouse, constituindo um sistema de
suporte deciso.

3. Gesto de cincia, tecnologia e inovao e sua importncia

A gesto de cincia, tecnologia e inovao (CT&I) diz respeito administra-


o e desenvolvimento de estratgias e instrumentos organizacionais, envol-
vendo aspectos estruturais, culturais, polticos, tecnolgicos, gerenciais e de
servios, de forma a promover a pesquisa vivel e relevante (Hayashi et al.,
2004).
A tomada de decises no campo da CT&I uma tarefa complexa, que
tem sido simplificada a partir do desenvolvimento de indicadores de cincia e
tecnologia (C&T), propostos como ferramentas para auxiliar no planejamen-
to, monitoramento e avaliao de resultados cientficos das naes.
Hayashi (2002) afirma que analisar atividades de CT&I um desafio
para a definio de polticas pblicas. O avano do conhecimento produ-
zido por pesquisadores tem de ser transformado em informao acessvel
para a sociedade, o que coloca os indicadores das atividades de CT&I no
centro dos debates.
Na gesto de C&T devem ser consideradas: a escolha de linhas de pes-
quisa prioritrias quanto relevncia para o desenvolvimento socioeconmico
e cultural; e a execuo mais eficiente das pesquisas e a converso mais rpi-
da de resultados obtidos em contribuies para a comunidade. Tais aspectos
devem ser considerados em trs nveis de gesto: o das polticas pblicas, o
institucional (universidades, institutos de pesquisa, empresas etc.) e o de pro-
gramas e projetos especficos de pesquisa (Coelho, 2002).
No entanto, Hayashi (2002) afirma que as principais questes envolvi-
das nesse mbito dizem respeito caracterizao e construo de indicado-
res que devem ser discutidos e analisados a partir do contexto de produo
das atividades cientficas, sem deixar de considerar as limitaes e dificuldades

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


508 olinda nogueira paes cardoso rosa teresa moreira machado

para o seu desenvolvimento. O objetivo do trabalho dessa autora foi desen-


volver uma metodologia de produo de indicadores para a anlise de ativi-
dades de CT&I na Universidade Federal de So Carlos (UFSCar). Dessa forma,
tais indicadores podem constituir instrumentos para a definio de polticas
de C&T nas instituies federais de ensino superior, uma vez que retratam a
estrutura, a situao e a performance das atividades de pesquisa cientfica e
tecnolgica, tanto para reproduo e gerao de conhecimentos, quanto para
criao de novos produtos e processos.
A sua metodologia inclui: reviso de literatura em CT&I e sociedade da
informao; caracterizao do local; coleta de dados na plataforma Lattes; e
produo de indicadores de CT&I do local, com o auxlio de ferramentas esta-
tsticas automatizadas (Hayashi, 2002).
A pesquisa da autora indica que, se acompanhados ao longo dos anos,
os indicadores de C&T permitiro s instituies: desenvolver mecanismos
para planejar, monitorar e avaliar as atividades de pesquisa institucional; esta-
belecer diretrizes para o desenvolvimento de uma poltica de C&T sintonizada
com os avanos do conhecimento na sociedade da informao; servir de ins-
trumento para conhecimento do perfil do pesquisador, dos programas de ps-
graduao e dos grupos de pesquisas institucionais; estabelecer critrios sobre
a alocao de recursos humanos, fsicos, de equipamentos e material, financei-
ros e oramentrios, disponveis e ou mobilizados pela instituio; preservar
a memria da atividade cientfica e tecnolgica desenvolvida na instituio;
analisar os padres de publicao cientfica e tecnolgica da instituio; for-
talecer e direcionar as aes de organismos de fomento ps-graduao e
pesquisa, entre outros (Hayashi, 2002).

Indicadores de cincia, tecnologia e inovao

Um modelo linear tem sido utilizado para explicar o vnculo entre conheci-
mento e desempenho econmico e, a partir dele, os governos comearam a
articular polticas pblicas em relao cincia. Essa viso deu origem ao mo-
delo linear de C&T ou modelo linear de inovao, desenhado a partir de dois
aforismos: a pesquisa bsica (o conhecimento geral e um entendimento da
natureza e de suas leis) deve ser conduzida sem a preocupao com fins pr-
ticos; e a pesquisa aplicada converte as descobertas da pesquisa bsica em
inovaes tecnolgicas que vo ao encontro das necessidades da sociedade.
Ao longo de vrios anos, esse modelo influenciou largamente universidades,
porm, atualmente vem sendo questionado.

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 509

Um novo modelo atribui s pesquisas duas coordenadas: uma que di-


mensiona o avano do conhecimento que a pesquisa propicia e outra que di-
mensiona a aplicao que dela decorre. Assim, uma pesquisa pode, ao mesmo
tempo, contribuir significativamente para o avano do conhecimento e ter
grandes perspectivas de aplicaes prticas.
Segundo Hayashi e colaboradores (2004), existe uma relao entre a
capacidade de produzir indicadores de C&T e a de realizar investimentos em
C&T por parte de governos e instituies do setor pblico e privado. Nos l-
timos anos, o desenvolvimento de polticas e estratgias para execuo de
metas institucionais conduziu os organismos de cincia e tecnologia e setores
pblicos a elaborarem instrumentos de medio que possibilitem uma gesto
otimizada e racional de seus recursos.
A temtica e a produo de indicadores de CT&I fazem parte da agenda
cientfica de organismos e instituies, demonstrando a importncia do tema.
O uso desses indicadores como subsdio para a construo de polticas em
C&T, com foco na informao, um dos exemplos da importncia de trabalhos
nessa rea (Ferraz e Basso, 2003; Brisolla, 1998, citados por Hayashi et al.,
2004).
No contexto nacional, o Conselho Nacional de Desenvolvimento Cien-
tfico e Tecnolgico (CNPq), criado em 1951, foi a primeira instituio que
realizou esforos para gerar indicadores de C&T. Outras iniciativas de constru-
o de indicadores provm do Instituto Brasileiro de Informao em Cincia e
Tecnologia (Ibict), do Ministrio da Cincia e Tecnologia (MCT) e, no campo
do ensino superior, da Capes. Segundo informaes divulgadas pelo MCT em
seu site, esse ministrio passou a assumir, de forma centralizada, a responsabi-
lidade pela organizao e divulgao das informaes de C&T do pas.
Os indicadores construdos pelo MCT passaram por duas fases: no in-
cio, concentravam-se no que passou a se denominar indicadores de insumo,
isto , no dimensionamento dos recursos financeiros e humanos investidos em
C&T. A mensurao se limitava identificao dos recursos aplicados pesqui-
sa, permitindo a construo do que se chamou de dispndio interno em P&D,
e aos recursos humanos e sua capacitao dedicados a tais atividades.
Esses indicadores de insumo, seguindo a tendncia daqueles dos demais pa-
ses, possuem as sries mais longas e detalhadas (MCT, 2001).
Como menciona o MCT na apresentao dos indicadores de C&T, tra-
dicionalmente esses indicadores de insumo so desagregados segundo trs
dimenses:
t a natureza da pesquisa bsica, aplicada e atividades cientficas e tcnicas
correlatas;

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


510 olinda nogueira paes cardoso rosa teresa moreira machado

t os setores que executam ou financiam essas atividades governo, institui-


es de ensino superior e empresas;
t a classificao dos recursos de cada um destes setores, obedecendo a cri-
trios especficos para o governo (segundo objetivos socioeconmicos), as
instituies de ensino superior (segundo reas de conhecimento) e as em-
presas (segundo setores de atividade econmica).

Mais recentemente, foram desenvolvidos os chamados indicadores de


resultados, de incio limitados produo cientfica e, posteriormente, incor-
porados produo de patentes e a transferncia de tecnologia entre pases.
A constituio e a implantao da plataforma Lattes foram iniciativas
conjuntas do MCT, CNPq, Capes e Finep. A plataforma integrada pelos siste-
mas currculo Lattes e diretrio de grupos de pesquisa no Brasil, que apresen-
tam a opo indicadores de produo de C&T e fornecem uma viso quanti-
tativa dos itens de produo cientfica e tecnolgica cadastrados no currculo
e diretrio, permitindo consultar as distribuies das diferentes variveis ca-
dastradas.

A plataforma Lattes

um conjunto de sistemas de informao, bases de dados e portais da inter-


net, concebido para integrar os sistemas de informao das agncias federais,
racionalizando o processo de gesto de C&T. Lanada em 16 de agosto de
1999, proporcionou um aumento significativo do nmero de currculos en-
viados ao CNPq, que chegou a mais de 100 por dia. Segundo dados do Grupo
Stela (2002), a plataforma Lattes possui aproximadamente 480 mil currculos
cadastrados.
Os investimentos feitos pelo CNPq so direcionados para a formao e
absoro de recursos humanos e financiamento de projetos de pesquisa que
contribuem para o aumento da produo de conhecimento e gerao de novas
oportunidades de crescimento para o pas. A funo de fomento a principal
ao desenvolvida pelo CNPq, com vistas promoo do desenvolvimento
cientfico e tecnolgico do pas. Como linha de trabalho mais tradicional e
identificadora da misso do rgo, o fomento dirigido essencialmente para a
formao de recursos humanos e para o apoio realizao de pesquisas.
Para que esses objetivos possam ser alcanados de forma plena, o CNPq
decidiu que, a partir de 2002, todos os bolsistas de pesquisa, de mestrado, de

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 511

doutorado e de iniciao cientfica, orientadores credenciados e outros clien-


tes do conselho teriam de ter seu currculo cadastrado na plataforma Lattes
do CNPq. A inexistncia do currculo impediria pagamentos e renovaes. O
currculo tambm seria obrigatrio para todos os pesquisadores e estudantes
que participam do diretrio de grupos de pesquisa no Brasil. Apesar disso, a
obrigatoriedade no se estabeleceu at os dias atuais, mas, a qualquer mo-
mento, os interessados (bolsistas, pesquisadores e estudantes) podem criar ou
atualizar seus currculos e envi-los ao CNPq.
A plataforma Lattes integra, atualmente, quatro sistemas: o primeiro
deles se refere a um sistema eletrnico de currculos, que registra a vida pre-
gressa e atual dos pesquisadores. O segundo sistema o diretrio dos grupos
de pesquisa no Brasil, uma base de dados que registra todos os grupos de
pesquisa em atividade no pas. O terceiro sistema o diretrio de instituies,
estas demandam fomento ao CNPq e, finalmente, o quarto sistema chama-se
sistema gerencial de fomento, cujo objetivo possibilitar uma gesto estrat-
gica para dar mais qualidade s atividades de fomento do CNPq. Esses quatro
sistemas de informao integrados, articulados com outras bases de dados,
localizadas fora da agncia a base de patentes do Instituto Nacional de Pro-
priedade Industrial (Inpi), os bancos de dissertaes e teses das universidades
constituem a plataforma Lattes.
O Lattes extrator o instrumento de extrao das informaes dispo-
nibilizadas na plataforma Lattes. Inicialmente, est sendo disponibilizada
a extrao dos currculos Lattes e, posteriormente, das demais unidades de
anlise da plataforma. Atualmente, as instituies licenciadas podem extrair
diretamente do banco de currculos Lattes do CNPq os dados curriculares de
seus pesquisadores, professores, alunos e colaboradores. O Lattes extrator est
limitado a extrair do banco de dados do CNPq os currculos de interesse da
instituio, por meio de arquivos no formato XML. Com isto, as instituies
podem criar seu prprio banco de currculos Lattes e, para tal, podem contar
com o modelo e dicionrio disponibilizados pelo CNPq (Grupo Stela, 2002).
A hierarquizao dos grupos de pesquisa realizada pelo CNPq coloca em
evidncia as concentraes geogrfica e institucional da pesquisa desenvolvida
no mbito das IES; ordena as instituies sob a tica da pesquisa cientfica por
grande rea de conhecimento, tendo em conta os quantitativos de grupos de
pesquisa classificados nos diferentes estratos, em termos absolutos e relativos;
e, ao final, confere a existncia de correlao entre o grau de qualificao e a
produtividade tcnico-cientfica de tais grupos. O indicador de produtividade
considera a produo de C&T (artigos, livros e captulos de livros publicados,
produo tecnolgica desenvolvida, teses e dissertaes defendidas sob orien-

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


512 olinda nogueira paes cardoso rosa teresa moreira machado

tao de pesquisadores pertencentes ao grupo) dos pesquisadores doutores,


cadastrada com o auxlio do sistema de currculo Lattes.
Segundo Macias-Chapula (1998), o foco da produo de indicadores de
CT&I esteve, por muitos anos, voltado para a medio dos insumos e, apenas
recentemente, aumentou o interesse em medir os resultados das atividades
cientficas e tecnolgicas. A produo de indicadores tambm tem se concen-
trado em mbito nacional, institucional ou com enfoque em reas do conheci-
mento especficas e ainda so escassos os indicadores das atividades de CT&I
em nveis regionais e locais. Ainda segundo os autores, essa uma lacuna que
precisa ser preenchida.
A partir dessa realidade, Hayashi (2002) optou por construir os indi-
cadores de produo cientfica institucionais, divididos basicamente em dois
grupos: os indicadores de produo cientfica e tecnolgica associada ps-
graduao (que envolve as produes caracterizadas como bibliogrficas, as
formas de divulgao restrita da produo cientfica e trabalhos publicados
em eventos cientficos, entre outros) e os indicadores de produo cientfica e
tecnolgica associada aos grupos de pesquisa (alm da produo bibliogrfica,
inclui a produo tcnica e as orientaes concludas).

4. Gesto de universidades

A gesto de uma instituio de ensino tpica formada por um conjunto de


decises assumidas a fim de obter um equilbrio dinmico entre misso, obje-
tivos, meios e atividades acadmicas e administrativas (Tachizawa e Andrade,
2002). O trabalho desses autores visa estabelecer um modelo de gesto apli-
cvel s instituies de ensino superior (IES).
Segundo Alvarenga e colaboradores (2002), o foco da gesto estratgi-
ca do conhecimento em IES est pautado em:
t diferenciao diferencia os produtos e os servios ofertados pela organi-
zao, visando criar algo que seja considerado nico no setor de atuao;
t concentrao capacidade de satisfazer o pblico-alvo, com o estabeleci-
mento de uma poltica funcional voltada para o segmento.

O trabalho desenvolvido por Alvarenga e colaboradores (2002) apre-


senta uma viso do modelo de gesto do conhecimento proposto para ensino e
pesquisa na Universidade Catlica de Braslia (UCB), elaborado para suportar
necessidades de informao e orientar o processo de gesto das atividades da

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 513

universidade, por meio da administrao do conhecimento gerado interna-


mente. Tem o propsito de apropriar conhecimento, dissemin-lo e garantir
sua incorporao aos servios e processos de deciso, com foco no desenvol-
vimento humano.
A compreenso da instituio de ensino e da sua inter-relao com os
demais agentes do ramo de atividades, o setor educacional ao qual pertence,
essencial para se desenvolver uma proposta de ferramenta de auxlio gesto
do conhecimento, objetivo deste artigo. Faz-se necessrio analisar finalidades
e misso, bem como identificar produtos, mercados, fornecedores, concorren-
tes e rgos normativos oficiais.
Tal compreenso permitir estabelecer traos comuns a uma IES e deli-
near estratgias genricas inerentes a uma instituio de ensino tpica. Tachi-
zawa e Andrade (2002) fazem um questionamento acerca da viso das IES.
Citando Fernandes (1998), a universidade uma organizao prestadora de
servio que oferece produtos, que so os profissionais formados, capazes de se
inserir no mbito de trabalho e na sociedade em geral.
Vale ressaltar que cada instituio do sistema deve acoplar-se em nvel
de gesto das polticas pblicas e, para que isso ocorra, necessrio que cada
uma defina sua poltica prpria e clara quanto a projetos cientfica e tecnolo-
gicamente viveis e relevantes (Hayashi et al., 2004). Para isso, necessrio
identificar suas capacidades especficas e combinaes de recursos e compe-
tncias, aproveitando bem suas caractersticas prprias, alm de contextuais e
estabelecer formas de parcerias com outras instituies do sistema de C&T.
Por parceiros, entendem-se as entidades/agentes que fornecem recursos
s IES na forma de bens, capital, materiais, equipamentos e demais recursos
que, por sua natureza, constituem os insumos necessrios s atividades in-
ternas das instituies de ensino. Nesse contexto, a figura do professor surge
como o principal parceiro (colaborador ou fornecedor) da IES (Tachizawa e
Andrade, 2002).
Considerando que o produto final de uma IES o aluno formado, capa-
citado e habilitado a exercer a profisso para a qual se preparou, o cliente a
organizao empregadora desse profissional colocado no mercado. Mercado
compreende o conjunto de clientes, constitudo das organizaes que poten-
cialmente iro absorver os profissionais formados e colocados disponveis pe-
las instituies de ensino.
medida que o gestor de IES tem xito em integrar o cliente e unir os
interesses deste aos objetivos preestabelecidos no plano estratgico (projeto
pedaggico) da instituio de ensino, refluiriam os resultados que assegura-

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


514 olinda nogueira paes cardoso rosa teresa moreira machado

riam o cumprimento da misso e, sobretudo, a sobrevivncia (continuidade).


So esses resultados que de fato importam comunidade como um todo e ao
gestor da IES em particular (Tachizawa e Andrade, 2002).

Gesto do conhecimento nas relaes universidade x empresa:


prioridades distintas

Apesar da existncia de uma analogia entre universidades e organizaes mer-


cadolgicas (empresas), elas possuem algumas diferenas que devem ser con-
sideradas. As universidades esto voltadas para a criao e a disseminao do
conhecimento. Algumas metas existem, porm, raramente so feitos projetos
de pesquisas onde se definem claramente prazos finais. J com respeito s
empresas, h a preocupao com cronogramas, com o cumprimento de metas
e outras atividades em curto prazo, no contexto de um ambiente altamente
competitivo.
As universidades e as empresas empregam linguagens distintas; enquan-
to a primeira se preocupa com a codificao do conhecimento, a segunda est
voltada ao conhecimento direcionado gerao de produtos. Por exemplo: hi-
pteses, modelos e variveis, termos importantes no idioma dos pesquisadores
da universidade no possuem a menor importncia no vocabulrio da maior
parte dos representantes das empresas.
Os ambientes de trabalho na universidade e na empresa so bastante di-
ferentes. Para os pesquisadores da universidade, a reputao no meio intelec-
tual a maior fora motivacional, ficando assim o foco de referncia situado
do lado de fora da organizao, em seu grupo de referncia profissional.
A universidade no entende as foras de mercado, as demandas de tem-
po e as estruturas de incentivo da empresa. J na empresa, para a maioria dos
gerentes envolvidos com pesquisa e desenvolvimento, o superior hierrquico
o referencial crtico. As avaliaes de desempenho vm desta fonte e levam em
conta resultados especficos provenientes de sua atuao no trabalho. Da mes-
ma forma, a empresa no entende como tal o trabalho realizado nas universi-
dades, nem so familiarizados com os investimentos em recursos humanos e
capital fsico, que precederam sua relao com a universidade (Alvarenga et
al., 2002).
Outro ponto crucial que os interesses dos pesquisadores da universida-
de podem mudar e a universidade os deixa relativamente livres para abando-
nar determinados projetos e ingressar em outros mais motivadores.

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 515

Os objetivos das duas organizaes mercadolgicas so bastante dife-


rentes. A maioria das empresas quer aplicaes concretas, quando estabelecem
parcerias ou convnios com universidades, visam ao acesso a procedimentos
inovadores, solues de seus problemas, novo conhecimento cientfico, novas
ferramentas e metodologias e novos produtos e servios. A natureza da pes-
quisa tecnolgica, porm, complexa, ambgua e abstrata. Muito do conheci-
mento gerado pode ser tcito, significando que seus princpios subjacentes so
difceis de identificar e articular. Alm disso, provavelmente existiro longos
espaos de tempo entre o incio do projeto e a criao de produtos. Todas essas
caractersticas podem criar crises, enganos e dificuldades na transferncia do
conhecimento.
J as universidades trabalham para a obteno de um produto muito
diferente, que pode ser caracterizado a partir de contribuies para o conheci-
mento, na forma de novos conceitos, modelos, solues empricas, tcnicas de
medidas e outras contribuies tecnolgicas.

5. Metodologia

Para este artigo foram utilizadas as pesquisas bibliogrfica e documental e a


metodologia de estudo de caso. Alm disso, foi aplicado todo o processo de
descoberta de conhecimento em bancos de dados.
A pesquisa bibliogrfica deu base para a aquisio de conhecimento
acerca dos temas envolvidos no projeto, como gesto do conhecimento, me-
canismos de descoberta de conhecimento em bancos de dados e tcnicas para
a construo do sistema de minerao de dados. Envolveu, basicamente, con-
sultas a livros de referncia, teses e artigos cientficos.
A pesquisa documental foi realizada em documentos referentes pes-
quisa cientfica na Ufla, obtidos a partir do Lattes extrator, que proporcionaram
informaes teis para as anlises, comparaes e para o desenvolvimento da
ferramenta de data mining. Tambm foram pesquisados documentos da Ufla
referentes s polticas de incentivo ao desenvolvimento de CT&I.
O mtodo do estudo de caso considerado um tipo de anlise qualita-
tiva. No uma tcnica especfica; um meio de organizar dados sociais pre-
servando o carter unitrio do objeto social estudado (Goode e Hatt, 1969).
Bonoma (1985) coloca que o estudo de caso uma descrio de uma situao
gerencial. Esse mtodo, assim como os mtodos qualitativos, so teis quando
o fenmeno a ser estudado amplo e complexo, quando o corpo de conheci-
mentos existente insuficiente para suportar a proposio de questes causais

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


516 olinda nogueira paes cardoso rosa teresa moreira machado

e nos casos em que o fenmeno no pode ser estudado fora do contexto onde
naturalmente ocorre.
Yin (1989) afirma que o estudo de caso uma inquirio emprica que
investiga um fenmeno contemporneo dentro de um contexto da vida real.
De acordo com Yin (1989), a preferncia pelo uso do estudo de caso deve ser
dada quando do estudo de eventos contemporneos, em situaes nas quais
os comportamentos relevantes no podem ser manipulados, mas possvel se
fazer observaes diretas e sistemticas.
O estudo de caso de que trata este artigo foi realizado na Universidade
Federal de Lavras (Ufla), mais especificamente nos setores envolvidos com
o desenvolvimento de pesquisa cientfica. O estudo utilizou dados de fontes
secundrias como base para as anlises, extrados dos currculos de pessoas
ligadas, de forma direta e indireta, pesquisa cientfica da Ufla. Os dados fo-
ram disponibilizados pelo uso da ferramenta Lattes extrator, que faz parte da
plataforma Lattes.
Entre as etapas predefinidas da tcnica de descoberta de conhecimento
em bancos de dados (DCBD) foram realizadas:
t seleo dos dados por meio do Lattes extrator, foram selecionados e
extrados, inicialmente, mais de mil documentos da plataforma Lattes, que
continham os registros de toda a produo cientfica dos docentes, de alu-
nos, ex-alunos, mestrandos e doutorandos da Ufla, entre outras pessoas.
Em seguida, foram selecionados 575 currculos que continham dados es-
pecficos referentes s produes cientfica, tecnolgica e bibliogrfica dos
mesmos, principalmente dos professores;
t pr-processamento dos dados realizado a partir da eliminao de in-
congruncias e/ou erros dos dados (filtragem). Os dados selecionados na
etapa anterior ainda continham algumas inconsistncias, como ausncia de
especificao de campos importantes e duplicao de outras especificaes.
Filtrando-se essas informaes, o banco de dados resultante passou a conter
28.389 linhas. Nessa etapa do processo de DCBD no foi realizado o enri-
quecimento dos dados pelo fato de eles serem referentes a outras pessoas,
extrados dos documentos disponveis na plataforma Lattes, que j continha
as informaes necessrias descoberta de conhecimento proposta;
t transformao dos dados foram feitos dois tipos de codificao de dados.
O primeiro consistiu na transformao dos documentos obtidos no formato
XML (dados semi-estruturados) em documentos SQL (BD relacional), con-
tendo o cdigo de insero e os dados a serem inseridos no banco de dados.
O segundo tipo foi, basicamente, a execuo desses cdigos SQL, gerados

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 517

na codificao anterior, no sistema gerenciador de bancos de dados (SGBD)


da Oracle;
t data mining a etapa consistiu na elaborao de algumas tarefas de data
mining, pela implementao de tcnicas especficas para esse fim, realizan-
do-se o cruzamento e a comparao de consultas e funes definidas na
linguagem de programao PL/SQL, prpria do SGBD Oracle;
t interpretao a interpretao dos resultados obtidos, que gera o conhe-
cimento, demonstrada a partir da criao de relatrios. O principal rela-
trio desenvolvido foi uma dissertao de mestrado apresentada ao Depar-
tamento de Administrao e Economia da Ufla, que contm, alm de todo o
referencial terico acerca do tema, os resultados apresentados de diversas
formas, desde grficos resumidos at a descrio dos principais resultados.

6. O estudo emprico: gesto de cincia, tecnologia e inovao


na Ufla

A Ufla uma instituio federal de ensino superior, localizada na cidade de


Lavras, ao sul do estado de Minas Gerais. uma universidade com 95 anos
de histria dedicada manuteno da alta qualidade do ensino, da pesquisa e
da extenso. Atualmente, oferece 10 cursos de graduao e 28 cursos de ps-
graduao presenciais. Diretamente ligados s atividades de pesquisa da Ufla
esto 302 professores, 2.342 estudantes de graduao e 786 ps-graduandos
(PRP, 2004).
Os mais de 200 doutores pesquisadores da Ufla, alm de inmeros mes-
tres, ps-graduados, bolsistas de iniciao cientfica e tcnicos de laboratrio
desenvolvem suas pesquisas em cerca de 60 laboratrios especializados, bem
equipados e estruturados para pesquisa cientfica e ou tecnolgica, alm de
contarem com vrios setores temticos. Desenvolvem, em parcerias com em-
presas estatais e privadas, inmeros projetos e programas de cooperao tc-
nico-cientfico (PRP, 2004).
A Ufla conta com aproximadamente 65 grupos, que desenvolvem 350
linhas de pesquisa, que compem os projetos isolados e programas especiais.
A universidade bastante competitiva na captao de recursos nas agncias
de fomento para as atividades de C&T e disponibiliza seus recursos humanos
e infra-estrutura para projetos em cooperao e consultorias nas mais diversas
reas de atuao. Em seu planejamento estratgico, aes esto sendo imple-
mentadas para viabilizar um modelo de gesto eficiente da pesquisa, visando

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


518 olinda nogueira paes cardoso rosa teresa moreira machado

maximizar recursos materiais, humanos e financeiros, de modo a ampliar essa


atividade e aumentar sua aplicabilidade e insero na sociedade.
Desenvolver pesquisa a grande motivao e incentivo dos docentes,
devido valorizao pessoal e profissional; complementaridade da atividade
universitria, uma vez que a pesquisa parte de sua misso; contribuio
atividade didtico-pedaggica, pois evita repasse copiado de informaes;
progresso funcional da carreira do docente; ao incentivo financeiro; s pos-
sibilidades de assessoria/consultoria, como tarefas de extenso; ao reforo
financeiro para o sistema, advindo de auxlios externos; e facilitao de in-
sero na comunidade, que misso social da universidade.
A contribuio cientfica e tecnolgica da Ufla tem como principais obje-
tivos resgatar os principais resultados da pesquisa na universidade, fazer uma
anlise crtica da contribuio e do impacto destes para C&T, difundir e am-
pliar a sua participao no discurso cientfico e tecnolgico nacional. Diversas
aes esto sendo implementadas nesse sentido. O controle das atividades de
pesquisa feito pela Pr-Reitoria de Pesquisa, que verifica se os projetos esto
sendo apreciados e aprovados em assemblia departamental, se os departa-
mentos esto estabelecendo um banco de projetos, entre outros.

Resultados e discusses

O pressuposto inicial de que h uma grande quantidade de informao e co-


nhecimento escondidos nos registros da pesquisa cientfica da Ufla bastan-
te vlido, uma vez que a riqueza de informaes obtidas a partir das respostas
alcanadas com as consultas poderia ser mais aproveitada pelos rgos de
direo da universidade envolvidos na pesquisa cientfica.
Verificou-se que os dados presentes nos currculos extrados da plata-
forma no estavam atualizados, o que foi uma limitao para este artigo. At
o presente momento, as informaes disponveis no site oficial do CNPq so
de que a verso do Lattes extrator que est disponvel extrai apenas currculos
atualizados at julho de 2002. De acordo com o site, est sendo desenvolvida
uma nova verso que permitir a extrao de currculos mais atualizados,
logo que estiver disponvel (Grupo Stela, 2002). Logo, apesar da limitao,
uma vez disponibilizados novos dados, o mesmo trabalho poder ser realiza-
do, apenas executando-se as funes j criadas para gerar conhecimento mais
atualizado.
Um dos grandes problemas encontrados para realizar a anlise dos da-
dos a falta de padronizao dos valores cadastrados. Por exemplo, existem 72

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 519

cargos diferentes, 46 rgos diferentes e 172 unidades distintas cadastrados


nos currculos de pessoas ligadas Ufla. Muitos desses dados, na realidade,
representam um mesmo objeto, tal como o Departamento de Administrao e
Economia que pode, ao mesmo tempo, ser cadastrado como um rgo ou uni-
dade. E mais, esse mesmo departamento poderia ser novamente cadastrado
pela sigla DAE. Todas as diferentes formas de cadastrar esse objeto deveriam
ser representadas de forma nica. H tambm casos em que um mesmo objeto
cadastrado de forma redundante em tabelas diferentes, como o caso de
rgos e unidades.
Outro problema refere-se ao prprio formato do currculo Lattes, que
no deixa claro qual a funo de cada pessoa ligada Ufla. Por exemplo, os
dados referentes ao vnculo profissional das pessoas podem ser de seis tipos:
celetista, colaborador, livre, outro, professor visitante e servidor pblico. Ob-
serva-se que no h o vnculo definido como professor, o que torna difcil
afirmar com segurana quais so os professores da Ufla, pois existem professo-
res cadastrados como servidor pblico, livre ou outro. Considerou-se que uma
pessoa professor na Ufla quando possui atividades de ensino cadastradas
em cursos oferecidos pela instituio. Porm, no se pode afirmar com exati-
do quem so as pessoas que no so professores na Ufla, pois podem existir
casos de professores que no cadastraram suas atividades de ensino em seus
currculos.
Alm dessas limitaes, outro fato que prejudicou a anlise dos resul-
tados gerados que poucas pessoas atualizam seus currculos Lattes periodi-
camente e, quando o fazem, a maioria o faz de forma parcial. Um resultado
crtico que advm desse fato que, dos 575 currculos inseridos no banco de
dados, mais de 90% no contm atividades cadastradas. As atividades po-
dem ser de ensino, pesquisa, direo e extenso, alm de servios tcnicos e
treinamentos ministrados, que ocorreram ao longo dos anos, ou seja, uma s
pessoa pode possuir, por exemplo, diversas atividades de direo cadastradas
ao longo de toda a sua carreira. Os menos de 10% das pessoas, exatamente
55 pessoas, que incluram suas atuaes profissionais em seus currculos, tm
entre duas e 61 atuaes, demonstrando uma variedade muito grande de n-
mero de atividades, chegando ao nmero total de 792 atuaes distintas.
O que se pde observar que apenas 39 pessoas, aproximadamente 6%
do total de currculos cadastrados no banco de dados, realizaram entre uma
e 16 atividades de ensino, de um total de 119 atividades cadastradas. Uma
observao importante que essas atividades de ensino erroneamente inclu-
am atividades de direo como, por exemplo, a gerncia de organizaes. Dos
primeiros resultados, apenas observando-se os nmeros de atividades cadas-

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


520 olinda nogueira paes cardoso rosa teresa moreira machado

tradas pelas pessoas, interessante analisar que as mesmas, ao preencherem


seus currculos na plataforma Lattes, do maior prioridade s atividades de
ensino e pesquisa do que s demais.
Por outro lado, analisando-se as produes bibliogrficas, observou-se
que foram publicados 573 artigos de 1968 at o princpio de 2004, a maior
parte deles publicada em 2001. Vale ressaltar que como o banco de dados
oficialmente atualizado at julho de 2002, estranha-se o fato de haver publi-
caes cadastradas at o princpio de 2004. Entre esses artigos, 6,4% foram
publicados no exterior e a maioria possui de trs a cinco autores, com alguns
possuindo at oito autores. No caso da Ufla, dos 573 artigos publicados, 77%
pertencem rea de cincias agrrias; 13% de cincias biolgicas; 2,3%
de cincias da sade; 5,4% de cincias exatas; 0,3% de cincias humanas;
1,7% de cincias sociais aplicadas; e 0,3% s reas de engenharias. Esses
foram alguns dos primeiros resultados obtidos com a aplicao do processo de
descoberta de conhecimento em banco de dados.
Com a utilizao das tcnicas de data mining, foram criadas funes es-
pecficas para descobrir padres de comportamento mais relevantes nos dados
disponveis. Esses resultados so enquadrados nas categorias de conhecimen-
to que podem ser geradas pela tcnica de data mining.

Anlises de regras de associao

Um primeiro exemplo mostra a associao entre a quantidade de publicaes


realizadas por pessoas que trabalham na Ufla e as que no trabalham. Essa fun-
o envolveu um total de 11 tabelas do banco de dados, das quais sete so re-
lacionadas s atuaes e quatro relacionadas s diversas formas de publicaes.
Foram obtidas 1.977 publicaes; destas, 55% foram publicadas por pessoas que
no estavam atuando na Ufla na poca da publicao e 45% por pessoas que
atuavam na Ufla na poca da publicao. Vale analisar nesse exemplo que uma
pessoa, ao receber afastamento total para treinamento, fazer ps-graduao,
por exemplo, no est atuando na Ufla durante o perodo do afastamento. Isso
poderia explicar o resultado encontrado, j que no mestrado e ou doutorado,
realiza-se mais pesquisa e publica-se mais. Isto tambm poderia refletir o fato
de que, ao estar atuando na Ufla em atividades de ensino e direo, as pessoas
podem ficar com a sua carga horria sobrecarregada e, conseqentemente, aca-
bem por realizar um nmero menor de pesquisas e publicaes.
Outro exemplo explora um pouco mais os resultados obtidos no exem-
plo anterior. Refere-se aos 55% das pessoas que no estavam atuando na Ufla,

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 521

associados quantidade de suas publicaes nesse perodo de ausncia. Essa


funo envolveu um total de sete tabelas do banco de dados, sendo trs rela-
cionadas s atuaes e quatro relacionadas s diversas formas de publicaes.
No total foram realizadas 1.062 publicaes por pessoas que no estavam
atuando na Ufla no momento da publicao.
Mais um exemplo de regra de associao mostra a relao entre todas
as publicaes cadastradas e o tempo de servio de seus autores na Ufla. Essa
funo envolveu um total de 11 tabelas do banco de dados, sendo sete delas
relacionadas s atuaes e quatro tabelas relacionadas s diversas formas de
publicaes. No total, foram obtidas 915 publicaes relacionadas ao tempo
de servio de seus autores com a Ufla. Analisando-se o exemplo, percebe-se
que a maioria das publicaes feitas por pessoas que atuam na Ufla foi realiza-
da depois que elas comearam a trabalhar na universidade.
Os dois prximos exemplos de regras de associao buscam mostrar a
relao existente entre o fato das pessoas terem realizado ps-graduao no
exterior ou no Brasil e o fato de essas pessoas terem publicado no exterior.
A relao entre o local onde foi realizada a ps-graduao e o nmero
de publicaes no exterior envolveu duas tabelas relacionadas ps-gradua-
o e quatro relacionadas aos tipos de publicaes. No total, foram 74 publi-
caes realizadas no exterior por 42 pessoas, com a maioria delas escrita por
pessoas que fizeram ps-graduao no Brasil.
Esse resultado deve-se ao fato de que, nesse banco de dados, o nmero
de pessoas que cursaram ps-graduao no Brasil (34 pessoas) ser muito maior
do que o das que cursaram no exterior (oito pessoas). Assim, natural que o
nmero de publicaes no exterior seja maior para o grupo de 34 pessoas do
que para o outro. Porm, esse resultado est ligado a outra medida que trata
da mdia de publicaes no exterior por cada pessoa. A mdia de publicaes no
exterior de pessoas que cursaram a ps-graduao fora do Brasil maior numa
razo de 2,71 com relao s pessoas que cursaram ps-graduao no Brasil. A
funo que chegou a esse resultado envolveu um total de seis tabelas, sendo duas
relacionadas a ps-graduao e quatro relacionadas a publicaes. Essa relao
indica que quem faz ps-graduao no exterior tende a ter maior visibilidade fora
do Brasil, em termos de publicaes, do que quem faz ps-graduao no Brasil.

Anlises de regras de associao e outliers

Um exemplo tentou verificar a relao existente entre as atividades de pesqui-


sa e o nmero de linhas de pesquisa nela envolvidas. Nos resultados obtidos

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


522 olinda nogueira paes cardoso rosa teresa moreira machado

foram analisadas a regra de associao e a ocorrncia de outlier. Pelo resultado


percebe-se a presena de trs pessoas com um nmero muito superior de linhas
de pesquisa para suas atividades de pesquisa, podendo ser considerados outliers.
Essa funo envolveu tabelas relacionadas s linhas de pesquisa, grande rea,
rea e subrea, e tabelas relacionadas s atividades de pesquisa desempenha-
das. No total, foram obtidas 84 pesquisas e 186 linhas de pesquisa.
Vale esclarecer, para esse banco de dados, a distino que existe entre os
termos linha de pesquisa e atividade de pesquisa. No currculo Lattes, cada
atividade de pesquisa na qual uma pessoa est envolvida durante um certo
perodo (por exemplo, qualquer projeto de pesquisa envolvendo um grupo de
pessoas ou isolado) pode estar ligada a uma ou mais linhas de pesquisa. As
linhas de pesquisa para cada atividade so definidas pelas pessoas ao preen-
cherem seu currculo.
O mesmo fato ocorre com as grandes reas, reas e subreas ligadas s
atividades de pesquisa. Uma atividade de pesquisa deve possuir uma grande
rea e pode possuir uma ou mais reas e subreas associadas a ela. Uma pes-
soa no pode criar uma nova grande rea e inclu-la em seu currculo. Porm,
as reas e subreas no so predefinidas, ou seja, uma pessoa pode criar uma
nova rea ou subrea para enquadrar sua atividade de pesquisa. Como esses
campos so abertos no banco de dados, a tarefa de comparar esses dados
bastante complexa.

Anlises de regras de associao e de padro seqencial

O objetivo da consulta era avaliar se havia uma relao entre o tempo de con-
cluso do mestrado e o tempo de incio do doutorado. Pela imagem percebe-se
um padro de comportamento, pois a maioria das pessoas leva entre zero e
trs anos de intervalo entre esses dois tipos de ps-graduao. Nessa mesma
consulta pde-se observar a presena de outliers como pessoas que levaram
mais de 20 anos entre o mestrado e o doutorado. Essa funo envolveu a ta-
bela contendo dados gerais das pessoas e duas tabelas sobre ps-graduao.
No total, o resultado envolve 483 pessoas do banco de dados que cursaram
mestrado e doutorado.

Anlises de padres seqenciais

Os exemplos a seguir mostram padres de comportamento seqencial dos da-


dos com relao ao tempo. Uma consulta avalia se h uma relao entre o

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 523

tempo de cadastramento do currculo e o tempo de vnculo profissional com a


Ufla. Pelo resultado, percebe-se um padro de comportamento, pois a grande
maioria das pessoas cadastrou seu vnculo profissional com a Ufla a partir dos
anos 1990. Nessa consulta, a funo elaborada envolveu as tabelas de dados
gerais das pessoas, as tabelas de atuaes e a de vnculo profissional, num
total de 82 ocorrncias.
Outra consulta avalia se h uma relao temporal entre o tempo de ser-
vio das pessoas ligadas Ufla e o ano de incio de suas pesquisas cadastradas.
Pelo resultado percebe-se um padro de comportamento, pois a maioria das
pessoas cadastrou suas pesquisas mais recentes nos seus currculos. A funo
elaborada envolveu as tabelas de dados gerais das pessoas, as de atuaes e a
de atividades de pesquisa, num total de 79 pesquisas.

Anlises de clusters

O exemplo a seguir faz a anlise de um agrupamento (cluster) que inicialmen-


te era desconhecido e surgiu a partir da consulta para verificar a durao, em
anos, das pesquisas realizadas por pessoas da Ufla. Alm das pesquisas que
esto em andamento e no se pode afirmar a sua durao exata, a maioria das
pesquisas dura entre dois e trs anos.

Anlise de classificao e predio

A anlise de classificao difere do agrupamento porque parte de grupos pre-


definidos dos dados. Como as caractersticas dos dados extrados da platafor-
ma Lattes no tm padro definido, a tarefa de analisar os grupos j existentes
tornou-se muito complexa, uma vez que faltava conhecimento da pesquisado-
ra em agrupar, por exemplo, linhas ou reas de pesquisa. Por isso, apenas um
exemplo ser apresentado.
A consulta dividiu as atividades realizadas pelas pessoas da Ufla em trs
grupos: pesquisa, ensino e direo. O objetivo foi observar, entre os currculos
cadastrados, como foi a distribuio das publicaes realizadas por pessoas
enquanto estavam exercendo cada uma dessas atividades. De um total de 101
publicaes. Essa funo envolveu trs tabelas relacionadas s atividades e
quatro tabelas relacionadas aos diversos tipos de publicaes.
O resultado mostra que a maioria das publicaes foi realizada enquan-
to as pessoas exerciam atividades de pesquisa; outra parte do total foi quan-

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


524 olinda nogueira paes cardoso rosa teresa moreira machado

do as pessoas exerciam atividades de ensino e, em menor nmero, enquanto


exerciam atividades de direo. Porm, os agrupamentos no so disjuntos, ou
seja, uma pessoa poderia estar ao mesmo tempo realizando diferentes tipos de
atividades no momento da publicao. Mesmo assim, esse um resultado sig-
nificativo, pois mostra claramente que, dependendo do tipo de atividade em
que a pessoa est envolvida, a quantidade de publicaes que ela ir realizar
sofrer influncia.

7. Concluso

O objetivo deste artigo foi construir e analisar uma ferramenta de data mi-
ning, como parte do processo de descoberta de conhecimento em banco de
dados, para extrair conhecimento referente produo cientfica das pessoas
envolvidas com a Ufla, por meio dos dados extrados da plataforma Lattes.
Para tanto, foi implementado um programa para transformar os dados semi-
estruturados selecionados dessa plataforma num banco de dados estruturado
criado no Oracle. A partir da, foi desenvolvida uma ferramenta automtica
de descoberta de conhecimento, utilizando a tcnica de data mining, cujos
resultados gerados foram analisados. Entende-se, portanto, que os objetivos
foram alcanados.
Os resultados considerados mais expressivos e sua anlise podem ser
assim sintetizados. Com relao s limitaes e aos problemas envolvendo os
dados extrados da plataforma Lattes:
t um dos grandes problemas encontrados para realizar a anlise dos dados
a falta de padronizao dos valores cadastrados;
t outro problema refere-se ao prprio formato do currculo Lattes, que no
deixa claro qual a funo de cada pessoa ligada instituio;
t poucas pessoas atualizam seus currculos Lattes periodicamente e, quando
atualizam, a maioria dos currculos preenchida de forma parcial.

Dos primeiros resultados apresentados observando-se os nmeros de


atividades cadastradas, interessante perceber que, ao preencherem seus cur-
rculos na plataforma Lattes, d-se maior prioridade s atividades de ensino e
pesquisa do que s demais.
Com relao s publicaes:
t percebe-se que a grande maioria delas pertence grande rea de cincias
agrrias;

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 525

t pessoas que no esto atuando na Ufla publicam mais do que quando esto;
o fato de no estar atuando pode significar que possa estar fazendo ps-
graduao e, por isso, tende a uma maior quantidade de produo e, con-
seqentemente, de publicao. Por outro lado, ao estarem atuando na Ufla
em atividades de ensino e direo, as pessoas tm menor disponibilidade de
tempo para a produo de trabalhos em pesquisa, conseqentemente, um
nmero menor de pesquisas e publicaes;
t a mdia de publicaes no exterior por pessoa maior para aquelas que
cursaram ps-graduao fora do Brasil;
t a maioria das publicaes foi realizada enquanto as pessoas exerciam ativi-
dades de pesquisa, seguidas pelas pessoas que exerciam atividades de ensi-
no e, por fim, enquanto exerciam atividades de direo.

clara a importncia dos indicadores de CT&I nas IES. Um esforo deve


ser realizado para criar tais indicadores para a Ufla.
A plataforma Lattes, uma vez devidamente atualizada, uma enorme fonte
de informao para a gerao de conhecimento til para a gesto das IES.
Diante dos resultados apresentados, pode-se perceber que, com essa
ferramenta, possvel obter-se uma viso mais abrangente dos dados insti-
tucionais, pelo fato de ter sido disponibilizada uma grande quantidade de
informaes sobre a pesquisa cientfica da Ufla. Portanto, possvel iniciar
uma melhoria na gesto do conhecimento dessa instituio fazendo uso dessas
informaes, pois exatamente essa a base da gesto do conhecimento: dados
integrados, gerando informaes analticas e abrangentes.
Alguns exemplos prticos da aplicabilidade desses resultados na Ufla
poderiam ser:
t a partir da verificao da distribuio das atividades de ensino, de pesquisa
e de direo, decises poderiam ser tomadas para tentar no sobrecarregar
as pessoas alocadas em determinados rgos ou unidades, em detrimento
de outros;
t analisar os diversos casos de pessoas que fogem ao padro (outliers) dos de-
mais, tentando verificar se esse ou no um bom comportamento, e se esse
deveria ser seguido, formando um novo padro ou, ao contrrio, ser evitado;
t a partir dos agrupamentos de pessoas que inicialmente no esto direta-
mente ligadas a nenhum departamento ou grupo de pesquisa, criar novas
linhas ou reas de pesquisas, que poderiam ser potencialmente melhor
aproveitadas;

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


526 olinda nogueira paes cardoso rosa teresa moreira machado

t a partir dos diversos padres de comportamento observados nas informa-


es que foram apresentadas, decises podem ser tomadas no somente a
curto prazo, mas tambm a longo prazo, pois possvel prever de forma
segura provveis comportamentos futuros;
t as diversas regras de associao que foram apresentadas mostram que da-
dos que aparentemente no esto relacionados, na realidade, possuem as-
pectos em comum, que podem ser explorados etc.

Apesar de ter sido aplicada em uma rea especfica, a pesquisa cientfica


na Ufla, o trabalho demonstrou como possvel tambm utilizar tecnologias
da informao para auxiliar na gesto de conhecimento disponvel nas insti-
tuies de ensino superior. Diversos padres e associaes foram identificados
por meio da aplicao da descoberta de conhecimento em banco de dados; po-
rm, h muitas outras descobertas que ainda podem ser feitas aproveitando-se
o banco de dados criado.
Por fim, pode-se dizer que o projeto foi apenas um passo para o desen-
volvimento de um grande trabalho de mudana na gesto do conhecimento
nas atividades gerenciais da Ufla e, quem sabe, futuramente, de outras uni-
versidades. O sistema desenvolvido poder ser incrementado e utilizado em
trabalhos futuros, como: atualizao da base de dados a partir da nova verso
do Lattes extrator; entrevistas com pessoas-chave para estabelecer novos cri-
trios de explorao dos dados, gerando descoberta de novas informaes e
novo conhecimento, trazendo melhorias para a ferramenta desenvolvida; cria-
o de uma comisso que elabore normas para o preenchimento e atualizao
dos currculos Lattes das pessoas envolvidas com a pesquisa cientfica na Ufla;
criao de indicadores de CT&I para a Ufla, com o objetivo de auxiliar a ela-
borao de novas polticas de gesto; a aplicao da ferramenta desenvolvida
nos currculos atualizados, assim que eles estejam disponveis na plataforma
Lattes, e comparao dos novos resultados obtidos com os resultados obtidos
neste artigo; e aplicao dessa ferramenta em outras instituies de ensino
superior, com o objetivo de comparar seus resultados com os obtidos na Ufla.

Referncias bibliogrficas

ADRIAANS, P.; ZANTINGE, D. Data mining. Harlow: Addison-Wesley, 1996. 158p.


ALVARENGA, R. et al. Gesto de conhecimento para ensino e pesquisa: o modelo
da UCB. In: CONGRESSO ANUAL DA SOCIEDADE BRASILEIRA DE GESTO DO

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


Gesto do conhecimento usando data mining 527

CONHECIMENTO. Anais... So Paulo, 2002. Disponvel em: <www.cori.rei.unicamp.


br>. Acesso em: 10 out. 2004.
AMO, S. Curso de data mining: programa de mestrado em cincia da computao.
Uberlndia: Universidade Federal de Uberlndia, 2003. Disponvel em: <www.
deamo.prof.ufu.br/CursoDM.html>. Acesso em: 5 jul. 2004.
BONOMA, T. V. Case research in marketing: opportunities, problems, and process.
Journal of Marketing Research, v. 22, maio 1985.
CARVALHO, R. B. Aplicaes de softwares de gesto do conhecimento: tipologia e
usos. 2000. Dissertao (Mestrado em Cincia da Computao ) Universidade
Federal de Minas Gerais, Belo Horizonte.
COELHO, M. I .M. Gesto de C&T: o que . In: ______. Gesto de C&T: planejamento
de pesquisa e captao de recursos. 2002. Disponvel em: <http://netpage.em.com.
br/mines>. Acesso em: 4 out. 2004.
DECKER, K.; FOCARDI, S. Technological overview: a report on data mining. CSCS
Swiss National Supercomputing Center, Technical Report, Zurique, 1995. Dis-
ponvel em: <ftp://ftp.cscs.ch/pub/CSCS/>. Acesso em: 17 mar. 2004.
ELMASRI, R.; NAVATHE, S. B. Sistemas de banco de dados: fundamentos e aplicaes.
3. ed. Rio de Janeiro: LTC, 2002.
FAYYAD, U. M. et al. From data mining to knowledge discovery: an overview. In:
Advances in knowledge discovery and data mining. California: AAAI/The MIT, 1996.
p.1-34.
FERNANDES, C. V. Qualidade total no ensino superior. Rio de Janeiro: Universidade
Gama Filho, 1998.
GOODE, W. J.; HATT, P. K. Mtodos em pesquisa social. 3. ed. So Paulo: Cia. Editora
Nacional, 1969.
GRUPO STELA. Lattes extrator. Florianpolis: Universidade Federal de Santa Ca-
tarina, 2002. Disponvel em: <http://lattes.cnpq.br/lattesextrator/>. Acesso em:
7 out. 2004.
GROSSMAN, R. L.; HORNICK, M.; MEYER G. Emerging KDD Standards. In: Com-
munications of the ACM, 2002. (Special issue on data mining).
HAYASHI, M. C. P. I. Os indicadores de C&T como ferramenta de gesto da infor-
mao cientfica e tecnolgica no contexto universitrio. In: CONGRESSO ANUAL
DA SOCIEDADE BRASILEIRA DE GESTO DO CONHECIMENTO. So Paulo, 2002.
Anais... So Paulo: SBGC, 2002. 16p.

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008


528 olinda nogueira paes cardoso rosa teresa moreira machado

______ et al. Cincia, tecnologia e inovao no plo tecnolgico de So Carlos.


So Carlos: Universidade Federal de So Carlos/Departamento de Cincia da In-
formao, 2004. Disponvel em: <www.cori.rei.unicamp.br/IAU>. Acesso em: 2
out. 2004.
KING, D. Numerical machine learning. Georgia: Tech College of Computing, 2003.
Disponvel em: <www.cc.gatech.edu/kingd/datamine/datamine.html>. Acesso
em: 22 mar. 2004.
KROGH, G. V.; ICHIJO, K.; NONAKA, I. Facilitando a criao de conhecimento. Rio
de Janeiro: Campus, 2001.
LAUDON, K. C.; JANE, P. Gerenciamento de sistema de informao. 3. ed. Rio de
Janeiro: LTC, 1999.
MACIAS-CHAPULA, C. A. O papel da infometria e da cienciometria e sua perspectiva
nacional e internacional. Cincia da Informao, Braslia, v. 27, n. 2, p. 134-140,
maio/ago. 1998.
MOXTON, B. Defining data mining. DBMS Data warehouse supplement site,
2004. Disponvel em: <www.dbms.mfi.com/9608d53.html>. Acesso em: 20 mar.
2004.
NAVEGA, S. Princpios essenciais do data mining. In: INFOIMAGEM. 2002. Anais...
Cenadem, nov. 2002. Disponvel em: <www.intelliwise.com/snavega>. Acesso
em: 14 mar. 2004.
UNIVERSIDADE FEDERAL DE LAVRAS. Pr-Reitoria de Pesquisa da Ufla apresenta
informaes sobre a ps-graduao da Ufla. Disponvel em: <www.prp.ufla.br>.
Acesso em: 20 mar. 2004.
TACHIZAWA, T.; ANDRADE, R. O. B. Gesto de instituies de ensino. 3. ed. Rio de
Janeiro: FGV, 2002.
TARAPANOFF, K. (Org.). Inteligncia organizacional e competitiva. Braslia: Univer-
sidade de Braslia, 2001.
YIN, R. K. Case study research: design and methods. USA: Sage, 1989.

rap Rio de Janeiro 42(3):495-528, maio/jun. 2008