Você está na página 1de 17

2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

2º Contecsi – Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação /


Internacional Conference on Information Systems and Technology Management
01-03 de Junho de 2005 São Paulo/SP Brasil

Clustering Informado: agregação de semântica ao processo de agrupamento

Wagner Francisco Castilho (Universidade Católica de Brasília e Embrapa Agroindústria de


Alimentos) - castilhowagner@uol.com.br
Hércules Antônio do Prado (Universidade Católica de Brasília e Embrapa Agroindústria de
Alimentos)
Gentil Lucena Filho (Universidade Católica de Brasília e Embrapa Agroindústria de Alimentos)
Edilson Ferneda (Universidade Católica de Brasília e Embrapa Agroindústria de Alimentos)

A Descoberta de Conhecimento em Base de Dados, numa abordagem descritiva, utiliza a Análise de


Agrupamento para descobrir como um conjunto de objetos está organizado no espaço de suas
dimensões, explorando-o com o propósito de encontrar grupos interessantes. Uma cota de
conhecimento prévio é necessária como requisito da aplicação do processo de agrupamento, que
não é, assim, uma “iniciativa cega” nem tampouco um processo fortemente direcionado.
Considerando essas estruturas de conhecimento prévio no processo de definição dos grupos,
constata-se sua influência nos resultados. A partir de um meta-esquema baseado em conhecimento
prévio, traduzindo também a coesão de variáveis em uma teoria de domínio, propõe-se um processo
de Análise de Agrupamento que pode conduzir a resultados semanticamente mais satisfatórios.
Duas abordagens complementares foram utilizadas: uma tecnológica e computacional; outra,
ontológica e epistemológica. Num estudo de caso, utilizaram-se as Companhias Estaduais de
Saneamento Básico, que foram divididas em três grupos segundo o desempenho econômico,
financeiro e operacional, verificando também o efeito da ponderação das variáveis sobre os
resultados. Nove indicadores e dois índices compostos de desempenho foram utilizados como
variáveis de agrupamento. Constatou-se que, de um modo geral, o índice de valor econômico
adicionado (EVA) acompanha o desempenho de gestão: uma boa gestão agrega riqueza, enquanto
que uma má gestão a destrói. Constatou-se ainda que a compreensão da influência do conhecimento
prévio e seu manejo consciente no processo de agrupamento podem conduzir a resultados
semanticamente mais satisfatórios.

Palavras-chave: descoberta de conhecimento em bases de dados, análise de agrupamento, gestão do


conhecimento, ontologia da linguagem, saneamento.

1. INTRODUÇÃO
No processo de Descoberta de Conhecimento em Bases de Dados (DCBD), as
relações entre os dados são geradas semi-automaticamente, a partir de exemplos em
uma base de dados, e representadas de forma compreensível para seres humanos. A
essência da descoberta de conhecimento é, inicialmente, a extração da informação
potencialmente útil dos dados para, a partir daí, buscar a extração (não trivial) do
conhecimento implícito na fonte dados original. O enfoque principal do processo de DCBD
é, portanto, trabalhar com as bases de dados existentes e delas extrair informações
desconhecidas a priori, que se encontram "escondidas" nos dados.
Segundo Fayyad (1996), DCBD é “o processo não trivial de identificar padrões em
dados que sejam válidos, novos, potencialmente úteis e fundamentalmente
compreensíveis”.
A mineração de dados (MD) é uma etapa dentro do processo de DCBD, onde os
dados, que já foram pré-processados, são agora explorados por algum algoritmo que irá

1
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

descobrir relacionamentos presentes na base de dados. Entre as tarefas primárias da MD,


está a Análise de Agrupamento (AA) ou clustering, juntamente com os seguintes
processos: classificação, regressão, modelagem de dependências, entre outros
(AGRAWAL et al, 1996 e AGRAWAL, 1998).
A partir de uma coleção disponível de entidades, a AA procura descobrir uma
estrutura de categorias que lhes seja apropriada. O propósito é o de encontrar
agrupamentos naturais das entidades baseado em algum critério interno, classificando-as
em grupos tais que o grau de associação natural seja maior no âmbito do mesmo grupo e
menor entre membros de grupos diferentes. As premissas fundamentais são, portanto, da
maior coesão interna entre os objetos de um grupo e o máximo isolamento externo entre
os grupos.
Embora num processo de agrupamento a estrutura dos grupos não possa ser
determinada a priori, o analista de DCBD pode ter uma cota de conhecimento prévio em
relação às características desejáveis e indesejáveis para um esquema de agrupamento.
Ele tem informação prévia suficiente para escolher uma estrutura de agrupamento
aceitável entre as maneiras diferentes de segmentar uma população. O que torna este
procedimento impraticável, mesmo com o alto poder computacional de processamento
disponível, é a ordem de grandeza do número de agrupamentos alternativos que teriam
que ser avaliados para encontrar-se a solução ótima. A solução do problema está, assim,
na heurística, embora esta não garanta estritamente uma convergência para uma solução
ótima, pois avalia apenas um subconjunto das possibilidades de agrupamentos
alternativos. Uma alternativa interessante seria também a utilização de mais
conhecimento prévio sobre o domínio da aplicação para melhor direcionar o processo e
restringir o algoritmo rumo a resultados semanticamente mais satisfatórios.
Este trabalho apresenta uma proposta de modelo de agrupamento informado,
incluindo mais conhecimento prévio da estrutura dos dados e do domínio da aplicação no
processo de agregação.

1.1 Conhecimento prévio no processo de agrupamento


Segundo Hanson (1990), o conhecimento prévio do analista influencia no processo
de agrupamento, que envolve uma série de decisões complexas, dentre as quais se
destacam as seguintes: definição dos objetivos da análise, seleção de variáveis
relevantes e discriminantes no domínio estudado, definição do número de grupos, escolha
do algoritmo ou técnica de agrupamento, padronização e ponderação de variáveis,
decisão quanto à satisfatoriedade do agrupamento alcançado. As decisões do analista
levam, portanto, em consideração estruturas de conhecimento pré-existentes. Com base
nessas idéias, pode-se imaginar essas estruturas, adequadamente representadas
interagindo com o processo de agrupamento. Pode-se, assim, construir um meta-
esquema baseado em conhecimento prévio que possa condicionar de forma favorável os
resultados de um processo de AA. Uma escala de graduação de relevância ou interesse
dos atributos em relação à configuração desejada para o agrupamento poderá também
ser utilizada, para incluir mais conhecimento prévio da estrutura ou domínio dos dados no
algoritmo de agregação.

1.2 Análise de Agrupamento


O propósito básico da AA consiste em segmentar um conjunto de N elementos em
um número k de subconjuntos, designados então como grupos ou clusters. Estes grupos
em geral são sugeridos pela própria coleção de dados, em vez de serem definidos a
priori. A homogeneidade dos grupos se expressa por meio de uma medida de similaridade
ou dissimilaridade entre as entidades.
Agrupamento (cluster) é um subconjunto de elementos de uma população E cuja
imagem em um espaço euclidiano p-dimensional Ip é formada por um conjunto de pontos

2
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

de alta densidade, separado de outros conjuntos por regiões Ip de baixa densidade de


pontos. Johnson (1997) destaca, no entanto, que a restrição para que os elementos de E
sejam representados por pontos em um espaço euclidiano pode, para alguns dos
algoritmos, ser desnecessária, em especial para aqueles que utilizam medidas de
similaridade em vez de medidas de distância.

1.2.1 Coeficiente de homogeneidade dos grupos


A população E de objetos sobre a qual se pretende aplicar a AA, definida por um
o
conjunto de vetores x i ( xi1 , xi 2 ,..., xip ) , onde i 1, n , é representada por uma matriz X(N x
P), conhecida como matriz de dados. Esta matriz representa os valores das variáveis
para cada um dos objetos da população E. Convenciona-se, de um modo geral, indicar os
objetos ou instâncias nas linhas e as variáveis ou atributos nas colunas.
As variáveis de um problema de agrupamento são um conjunto dos descritores
dos objetos. São selecionadas a priori a partir do discernimento do analista quanto à
relevância delas para o problema de agrupamento considerado.

§ x11 x12  x1 p ·
A matriz de dados tem a seguinte forma:
¨ ¸
¨ x21 x22  x2 p ¸
X(N x P) ¨
   ¸
¨ ¸
¨x ¸

© n 1 xn 2  x np ¹
onde n é o número de objetos ou instâncias de uma população E;
e p é o número das variáveis discriminantes selecionadas para a tarefa de
agrupamento.
A AA resulta numa estrutura de categorias, perfis ou classes definidas a partir do
coeficiente de homogeneidade ou função de agrupamento. Aplicando-se à matriz de
dados o coeficiente de homogeneidade entre os elementos da população E, obtém-se a
matriz de distâncias ou similaridades, de uma forma geral nominada matriz de distâncias
Z(N x N), que é uma matriz quadrada triangular, cujos elementos da diagonal principal são
nulos.
A matriz de distâncias ou similaridades tem a seguinte forma:
§ 0 d12  d1n ·
¨ ¸
¨ d 21 0  d 2 n ¸
Z(N x N) ¨
   ¸
¨ ¸
¨d ¸

© n1 d n 2  0 ¹
onde n é o número de objetos ou instâncias de uma população E;
dij é o resultado do cálculo do coeficiente de homogeneidade entre os elementos xi
e xj.

1.2.2 Categorias do coeficiente de homogeneidade


É intuitivo que para a formação de agrupamentos a partir de uma coleção de
observações é necessário discernir quanto à similaridade ou dissimilaridade dos
elementos para reuni-los em grupos os mais homogêneos possíveis. Este critério de
agrupamento é o coeficiente de homogeneidade. Também nominado coeficiente de
parecença, pode ser dividido, a princípio, em duas categorias, conforme apresentado no
quadro 1 a seguir.

QUADRO 1: Categorias do coeficiente de homogeneidade


Categorias do coeficiente de homogeneidade
Medidas Descrição Proporcionalidade Exemplos
3
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

Similaridade Quantifica o quanto os Quanto maior o valor, Coeficiente de


objetos são parecidos mais parecidos são os correlação
objetos
Dissimilaridade Mensura a distância Quanto maior o valor Distância
entre dois objetos menos parecidos são os euclidiana
objetos
Fonte: CASTILHO, 2005.

As medidas de similaridade assumem valores entre 0 e 1, enquanto as medidas de


dissimilaridade ou distância podem assumir qualquer valor positivo. Essa é, portanto, a
principal diferença entre as duas categorias de medida do coeficiente de homogeneidade.

1.3 Matriz de informação e função de agrupamento


Dentro do contexto do processo de DCBD, a partir das informações sobre a
estrutura dos dados e o domínio da aplicação, com a participação do especialista, é feita
a seleção dos atributos considerados relevantes e discriminantes para a AA.
Adotando como função de agrupamento a medida de dissimilaridade,
particularmente a distância euclidiana, que será utilizada no algoritmo de agrupamento, a
primeira preocupação é a padronização dos atributos ou variáveis, o que pode ser feito
adotando-se a fórmula 1, considerando-se dois objetos identificados por p e q, onde V (i2 ) é
a variância do atributo.

¦
n
( x pi  x qi ) 2
V (2i )
d ( p, q ) (1)
i 1

Adotando-se a idéia de ponderação que vem da distância de Mahalanobis, a


função de agrupamento traduz-se na fórmula 2.
d ( p, q ) ( x( P )  x (Q)) ' M ( x ( P )  x(Q )) (2)

P e Q são, respectivamente, a matriz de atributos de um objeto p e q. M é a Matriz


de Informação definida na fórmula 3, onde į é a matriz calculada a partir do vetor de
graduação de relevância dos atributos e do mapa de implicação e correlação dos
mesmos. į é, então, uma matriz PxP, onde P é o número de variáveis discriminantes
selecionadas para o processo de AA, cuja diagonal principal é constituída pelo vetor de
graduação de relevância dos atributos. V é a matriz de variâncias dos atributos e C é a

M >G (V  C )@1
matriz de covariância.
(3)
Em função de ij apresentam-se as seguintes particularidades na função de

ƒ M >V @1 , onde V é a matriz de variâncias, ou seja, V >diag V 12 , V 22 ,, V n2 @, tem-


agrupamento descrita anteriormente na fórmula 2:

se o caso de padronização pela variância, descrito anteriormente na fórmula


1;

M >C @1 , onde C é a matriz de covariância, tem-se a distância de


ƒ

ƒ M
Mahalanobis propriamente dita;
I , onde I é a Matriz Identidade, tem-se a distância euclidiana padrão.
Segundo Castilho, Prado e Ladeira (2003), uma fase importante do processo é a
seleção do conjunto de variáveis ou atributos dos objetos que sejam relevantes e
discriminantes dentro do problema de agrupamento considerado. Na construção da matriz
de informação, podem ser consideradas graduações de interesse ou relevância para os
atributos, assim como o mapa de implicação e correlação entre eles. Informações de

4
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

regras de produção podem também influir no coeficiente de homogeneidade, assim como


orientar a definição de classes prévias como hipóteses a serem trabalhadas na fase de
realocação do algoritmo na procura da melhor configuração (para o caso da utilização do
algoritmo k-means).
A figura 1, a seguir, apresenta um esquema geral do processo de agrupamento
informado.

FIGURA 1: Processo de Agrupamento Informado


Fonte: (CASTILHO; PRADO; LADEIRA; 2004).

1.4 Perspectiva dual e complementar de abordagem ao conhecimento prévio


Até agora foi apresentada um proposta matemática e computacional de
consideração de conhecimento prévio no processo de agregação de objetos. Ao processo
do agrupamento informado não está, no entanto, afeta apenas essa abordagem
tecnológica e computacional de restrição do algoritmo de agregação, pois, além de
considerar a relação entre variáveis em uma teoria de domínio é importante considerar o
relacionamento entre os agentes envolvidos com o processo de agrupamento. O
conhecimento prévio dos analistas e dos especialistas de domínio influenciam as
avaliações e tomadas de decisão que permeiam todo o processo.
Os julgamentos e decisões das pessoas envolvidas com o processo e a maneira
como se comunicam na elaboração desses juízos e se coordenam para tomar decisões,
executar ações e procedimentos é, portanto, de influência decisiva no ciclo de
planejamento, execução e avaliação dos resultados da AA.
Numa introdução aos domínios da Gestão do Conhecimento (GC), Nonaka e
Takeuchi (1997: 61-63), preocupados em definir o que é o conhecimento e como ele

5
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

surge, estabelecem duas dimensões de abordagem para o problema: a epistemológica e


a ontológica.
Segundo Nonaka e Takeuchi (1997: 23), “o estudo dos fundamentos filosóficos do
conhecimento é conhecido como epistemologia”. Nonaka e Takeuchi (1997: 62)
estabelecem também o conceito de níveis ontológicos de criação do conhecimento:
individual, grupal, organizacional e interorganizacional.
Nonaka e Takeuchi (1997: 61) ratificam ainda que qualquer abordagem ao
conhecimento terá sempre a sua epistemologia (teoria do conhecimento) e a sua
ontologia.
Este trabalho adotou, então, além de uma abordagem tecnológica e computacional
do conhecimento prévio em AA, uma abordagem que define duas dimensões para a
consideração da criação do conhecimento, a dimensão epistemológica e a dimensão
ontológica.
A figura 2, a seguir, ilustra a perspectiva dual e complementar de abordagem ao
conhecimento prévio no processo de agrupamento adotada neste trabalho. Nas páginas
anteriores, apresentou-se, resumidamente, parte dessa perspectiva: a abordagem
tecnológica e computacional. Nas páginas seguintes, será apresentada a parte
complementar: a abordagem ontológica e epistemológica.

FIGURA 2: Abordagens complementares ao conhecimento prévio


Fonte: CASTILHO, 2005.

1.5 Abordagem ontológica e epistemológica na consideração de conhecimento


prévio

Na abordagem ontológica e epistemológica, apoiada no modelo de Gestão do


Conhecimento (GC) de Nonaka e Takeuchi (1997), a preocupação se dirige para dois
enfoques: o ontológico e o epistemológico. O primeiro, conforme as palavras de
Echeverría (1997), considera o tipo do observador, ou seja, o sujeito observador na ação
de conhecer. O segundo, considera não aquele que conhece, o sujeito, ou o que é
conhecido, o objeto, mas o conhecimento que se tem deles, ou seja, os fundamentos
filosóficos do conhecimento, conforme palavras de Nonaka e Takeuchi (1997: 23).
Nessa direção, os conhecimentos relativos a essa abordagem são pressupostos
indispensáveis para mudar o tipo de sujeito observador envolvido com o processo de

6
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

agrupamento informado no sentido de agregar-lhe mais semântica, ou seja, criar mais


conhecimento novo a partir da consideração de mais conhecimento prévio. Há distinções
cognitivas e linguísticas que são indispensáveis a esse propósito na medida em que
possam orientar uma coordenação de ações e uma gestão de conversas efetivas no
processo de agrupamento. Maturana e Varela (2001: 35) dizem que conhecimento é ação
efetiva. Nessa direção, serão introduzidos, então, alguns desses fundamentos teóricos
ressaltando o papel dos agentes envolvidos na AA, a influência de seus modelos mentais
no processo de tomada de decisão e interpretação de resultados, o determinante da
efetivadade das conversas e da qualidade da coordenação de ações no processo de AA.

1.5.1 Concepção relativística do conhecimento em função do observador


Kofman (2002, Vol. 1: 47), aludindo à crítica de Kant à razão e sua teoria do
conhecimento, reconhece que a concepção do conhecimento sob a perspectiva do
observador não é nova e que a observação está condicionada pelos “conhecimentos
prévios” do sujeito observador: “Há mais de 200 anos Kant provou definitivamente que
aquilo que chamamos de percepção objetiva está condicionado por nossas categorias
cognitivas”.
Pode-se, então, considerar, parafraseando Maturana (citado por KOFMAN, 2002,
vol. I: 31), que se “tudo o que é dito é dito por alguém”, então tudo o que é conhecido é
conhecido por alguém, destacando o papel do observador no processo de concepção do
conhecimento. A concepção de conhecimento como verdade absoluta, um reflexo objetivo
e independente da realidade, é deslocada, portanto, para uma concepção relativística do
conhecimento em função do observador.
Nonaka e Takeuchi (1997: 65) destacam a origem e a aplicação do conhecimento
na mente dos agentes conhecedores com as palavras a seguir: “Em termos restritos, o
conhecimento só é criado por indivíduos. Uma organização não pode criar conhecimento
sem indivíduos”. Da mesma forma, a discussão do problema de AA não pode deixar de
considerar a abordagem do conhecimento que permeia todo o processo na perspectiva
das pessoas envolvidas.
Segundo Berger e Luckmann (2001), o conhecimento é uma criação histórica e
social, pois se dá num determinado contexto e a partir da interação entre indivíduos com
ações coordenadas dentro de uma situação particular.
Todo processo de criação de conhecimento partindo das informações geradas
pelos algoritmos de agrupamento não pode prescindir, assim, da intervenção dos seres
humanos, sendo resultado de interpretações feitas por determinados observadores num
certo contexto e das decisões e ações decorrentes.

1.5.2 Modelos mentais e conhecimento prévio


O sujeito observador não pode ser absolutamente autônomo e imparcial em
relação à experiência, pois o objeto de observação não pode ser alcançado como coisa-
em-si, mas tão somente como representações, que são projetadas pelo próprio
observador sob o filtro de toda sorte de interpretações, influenciadas inclusive pela cultura
e pelos determinantes sociais, históricos e étnico-geográficos que, de certo modo, fazem
do observador um reflexo do seu tempo e do seu espaço sócio-geográfico. (GALTUNG,
1981) (BRAGA, 1991)
Há, portanto, uma influência do “conhecimento prévio” sobre “o conhecimento
novo”, ou seja, uma dependência do mecanismo de interpretação em relação a própria
história pessoal do sujeito, suas vivências, crenças, valores e conhecimentos. Senge
(2000 e 2002) se refere a esse “conhecimento prévio” como modelos mentais, dizendo
que “são pressupostos profundamente arraigados, generalizações, ilustrações, imagens
ou histórias que influem na nossa maneira de compreender o mundo e nele agir”.

7
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

Esses modelos mentais são, assim, o conjunto de experiências, conhecimentos,


regras de raciocínio, inferências, entre outros, que influem na interpretação que se faz em
qualquer situação em que a mente é desafiada a ajuizar e a agir, nas mais diversas
situações. Kofman (2002, Vol. I: 250) comenta que esses modelos mentais operam
também de um modo subconsciente, permeando todas as dimensões da vida da pessoa,
condicionando interpretações e ações, inclusive nos domínios técnicos, profissionais e
científicos: daí a importância de se estudá-los e de se tomar consciência da influência
deles.
A AA está longe de ser um processo puramente “objetivo”, que possa ser
equacionado apenas por um algoritmo computacional. O processo possui uma margem
de subjetividade muito grande que se resolve com base no conhecimento prévio, como
não poderia deixar de ser. Sugere-se, então, que se considere esse conhecimento prévio
no processo de uma forma, tanto quanto possível, coordenada e consciente. Esse
conhecimento prévio é isso que Kofman (2002) nomina modelos mentais, sendo o
conjunto dos conhecimentos tácitos e explícitos que os seres humanos trazem consigo,
originados de fatores pessoais, biológicos, culturais e lingüísticos.
No terreno da AA, o “conhecimento prévio”, além de tudo o que foi dito, mais
particularmente seria também o conhecimento da estrutura dos dados e do domínio da
aplicação que têm os especialistas de domínio e os analistas envolvidos com o processo
de descoberta. Por outro lado, o “conhecimento descoberto” seriam todos os
componentes tácitos e explícitos de conhecimento adquiridos a partir do processo de AA,
que uma vez validados e fundamentados, passariam a funcionar como conhecimento
prévio nas seguidas iterações que o processo pode ter.

1.5.3 Linguagem e coordenação de ações


Segundo Echeverría (1997), em qualquer ser humano, enquanto observador,
podem ser identificados três domínios constitutivos: a corporalidade, a emocionalidade e a
linguagem.
A dimensão da corporalidade está relacionada com a biologia do ser humano e a
sua expressão corporal. Já no que se refere à emocionalidade, segundo Kofman (2002,
Vol III: 61 e 65), são as emoções que guiam o processo de focalização da atenção diante
da diversidade de experiências sensoriais no funcionamento do filtro pré-consciente da
percepção. É por isso que certas experiências sensoriais são relevantes num determinado
estado emocional e deixam de ser relevantes em outro estado emocional.
Discorrendo sobre o papel da linguagem no processo de construção conhecimento
sobre si e sobre o mundo em que se vive, Echeverría (1997: 31-37) estabelece os

x Os seres humanos são seres lingüísticos. É a linguagem, portanto, que faz do ser
pressupostos de uma Ontologia da Linguagem que podem ser assim resumidos:

x A linguagem possui um caráter criador. Ela não só descreve como cria realidades.
humano o tipo particular de ser que é.

A linguagem é, assim, ação, modelando o futuro, a identidade e o mundo em que

x O ser humano constrói a si mesmo na dinâmica da linguagem. O ser humano não


se vive.

é, então, uma forma de ser determinada e permanente: é um espaço de


possibilidades que se cria e recria por meio da linguagem.
Segundo Echeverría (1997: 51), “sempre que vemos os membros de uma espécie
coordenando ações comuns, falamos em comunicação”. A linguagem se manifesta
apenas num tipo particular de coordenação de ações: quando há uma coordenação
consensual de coordenação de ações, ou seja, os membros que integram uma ação
coordenam a forma com a qual coordenam juntos a ação. A linguagem é, portanto, uma
coordenação recursiva do comportamento. A linguagem humana tem uma capacidade
recursiva que é a base da reflexão e da razão humana.

8
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

Echeverría (1997: 237) comenta que “no mundo de hoje não é possível viver em
completa autosuficiência. Somos dependentes uns dos outros. Temos que aprender,
portanto, a colaborar com os outros, apoiando-nos mutuamente, a coordenar ações
juntos.
As organizações são fenômenos linguísticos, sendo construídas a partir de
conversacões específicas, que estão baseadas na capacidade dos seres humanos para
efetuar compromissos. Kofman (2002, Vol II: 186) diz que “a capacidade de receber e
fazer compromissos é uma das características que definem uma pessoa”. Os
compromissos são também a chave para a coordenação de ações. Uma rede extensa e
complexa de compromissos está na base de qualquer sistema de produção e também na
construção e disseminação do conhecimento. (FLORES, 1988, 1989 e 1996)
A AA pode também ser interpretada como um ciclo de coordenação de ações entre
analista e especialista de domínio no processo de construção de conhecimento em
agrupamento. É importante, portanto, cuidar da gestão das conversas que permeiam o
processo de AA como fator de agregação de maior semântica no esforço de criação de
conhecimento partindo da base de dados e do conhecimento prévio do analista e do
especialista de domínio.

2. METODOLOGIA
2.1 Caso de aplicação
Um caso de aplicação empregando o modelo de agrupamento informado foi
desenvolvido. O domínio da aplicação está constituído pelos conhecimentos
compreendidos na setor de Saneamento e a estrutura de prestação desse serviço no
Brasil, a partir de informações do Ministério das Cidades (2004). O contexto refere-se às
informações vinculadas ao campo de atuação da Secretaria Nacional de Saneamento
Ambiental (SNSA) do Ministério das Cidades, assim como aquelas relacionadas com o
Programa de Modernização do Setor Saneamento (PMSS).
A prestação dos serviços de saneamento no Brasil é feita pelas Companhias
Estaduais de Saneamento Básico (CESBs). Segundo Abicalil (2004), cerca de 95,1
milhões de pessoas são abastecidas pelas CESBs, representando 77% da população
urbana abastecida.
Existem 26 CESBs que oferecem serviços de abastecimento de água, a partir de
concessões. Segundo Abicalil (2004), essas concessões ocorrem em 3.835 municípios,
que são 69,6% do total de municípios do país, cuja população urbana representa 73,7%
da população urbana brasileira. A administração municipal é responsável pela prestação
dos serviços no restante dos municípios brasileiros, sendo a grande maioria organizada
na forma de autarquias.
A definição dos objetivos da aplicação foi realizada a partir da interação entre
especialista e analista no transcurso de algumas reuniões. Os objetivos para a AA que por

x Particionar as CESBs em três grupos com base no desempenho econômico,


fim foram definidos, em comum acordo, foram os seguintes:

x Verificar os efeitos da ponderação das variáveis sobre os resultados do processo


financeiro e operacional.

x Agregar conhecimento de domínio e da estrutura dos dados.


de agrupamento.

2.2 Plano de coleta de dados


2.2.1 Origem dos dados
Os dados foram extraídos do Sistema Nacional de Informações sobre Saneamento
(SNIS), administrado pela SNSA, em parceria com o Instituto de Pesquisa Econômica
Aplicada (IPEA). Dados complementares sobre os componentes do índice Valor
Econômico Adicionado (Economic Value Added) – EVA - também foram utilizados, sendo

9
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

extraídos dos demonstrativos financeiros publicados por cada Companhia Estadual de


Saneamento Básico (CESB). Estes conjuntos de dados se referem ao desempenho
econômico, financeiro e operacional das CESBs.

2.2.2 Descrição dos dados selecionados


Os dados disponíveis no SNIS (2004) a respeito desempenho econômico,
financeiro e operacional das CESBs compreendem cerca de oitenta e três indicadores
relativos a coleta de informações dos anos de 1995 a 2002. A partir da interação com o
especialista de domínio que colaborou com esta pesquisa seis desses indicadores foram
selecionados.
O critério de seleção desses indicadores foi determinado pelo objetivo da AA
definido com o especialista. Esse critério foi o da sua relação discriminante e relevante
com o desempenho operacional e financeiro, assim como o vínculo com o EVA, entendido
esse vínculo como um modo de explicar o comportamento da riqueza do setor de
saneamento.
Os dados para a experimentação são, então, constituídos por um conjunto de nove
indicadores de desempenho das CESBs, agrupados por finalidade conforme as duas

ƒComponentes para a construção do índice de desempenho econômico, financeiro e


classes a seguir:

ƒComponentes para o cálculo do EVA – três indicadores de desempenho financeiro;


operacional – seis indicadores.

Os dados atualmente disponíveis sobre o EVA para todas essas CESBs vão
apenas de 1998 a 2001, segundo a Gerência Nacional de Saneamento (GESAN), órgão
da Superintendência Nacional de Saneamento e Infra-estrutura (SUSAN), responsável
pelo acompanhamento do setor saneamento na Caixa Econômica Federal (CAIXA).
Foram utilizados, assim, para a AA os dados relativos às 26 CESBs no período de
1998 à 2001, reunindo os nove indicadores que serão detalhados a seguir:
1. Margem operacional com depreciação (MOL);
2. Margem de despesa de exploração(MDEX);
3. Grau de endividamento (GE);
4. Índice de perda de faturamento (IPF);
5. Índice de evasão de receita (IEVR);
6. Índice de produtividade (IPROD);
7. Lucro operacional líquido (LOL);
8. Despesas financeiras líquidas (DFL);
9. Custo de capital próprio (CCP).

O quadro 2, a seguir, apresenta as 26 CESBs que serão objeto dessa pesquisa,


apresentando sigla e nome de cada uma.
QUADRO 2: Companhias Estaduais de Saneamento Básico
AGESPISA/PI Companhia de Águas e Esgotos do Piauí;
CAERD/RO Companhia de Águas e Esgotos de Rondônia;
CAESB/DF Companhia de Saneamento do Distrito Federal;
CASAL/AL Companhia de Abastecimento D’Água e Saneamento do Estado
de Alagoas;
CESAN/ES Companhia Espírito-Santense de Saneamento;
CORSAN/RS Companhia Riograndense de Saneamento;
EMBASA/BA Empresa Baiana de Águas e Saneamento;
COSAMPA/PA Companhia de Saneamento do Pará;
SANEATINS/TO Companhia de Saneamento do Tocantins;
CAEMA/MA Companhia de Águas e Esgotos do Maranhão;
CAERN/RN Companhia de Águas e Esgotos do Rio Grande do Norte;

10
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

CAGECE/CE Companhia de Água e Esgoto do Ceará;


CASAN/SC Companhia Catarinense de Águas e Saneamento;
COMPESA/PE Companhia Pernambucana de Saneamento;
COSAMA/AM Companhia de Saneamento do Estado do Amazonas;
SABESP/SP Companhia de Saneamento Básico do Estado de São Paulo;
SANEPAR/PR Companhia de Saneamento do Paraná;
CAER/RR Companhia de Águas e Esgotos de Roraima;
CAESA/AP Companhia de Águas e Esgotos do Amapá;
CAGEPA/PB Companhia de Águas e Esgotos da Paraíba;
CEDAE/RJ Companhia Estadual de Águas e Esgotos;
DESO/SE Companhia de Saneamento de Sergipe;
SANEAGO/GO Companhia de Saneamento do Paraná;
SANACRE/AC Companhia de Saneamento do Estado do Acre;
SANESUL/MS Empresa de Saneamento de Mato Grosso do Sul.
Fonte: CASTILHO, 2005.

2.3 Plano de análise dos dados


2.3.1 Algoritmo de agrupamento utilizado
No caso de aplicação, foi utilizado o algoritmo de agrupamento das k-médias (k-
means), aperfeiçoado, para trabalhar com uma ponderação das variáveis por meio de
uma matriz de informação, conforme explicado no item 1.3. Essa ferramenta foi
construída na linguagem Java e foi utilizada a versão livre do banco de dados MySQL.
Para que houvesse um controle experimental da sensibilidade do algoritmo às
condições iniciais, foi utilizada a opção de definição manual das sementes. Foram
escolhidas previamente, de forma aleatória, três sementes: objetos com os identificadores
3, 50 e 76 na ordem de apresentação dos dados da tabela 8 do apêndice C, que é a
mesma ordem da tabela 9 do apêndice D. Essas sementes foram mantidas para todos os
experimentos para permitir uma comparação equilibrada dos resultados. O número de
iterações para a fase de realocação foi configurada para o seu valor total, deixando o
algoritmo trabalhar com uma taxa de confiança de cem por cento.

2.3.2 Sujeitos envolvidos na Análise de Agrupamento


O analista e o especialista que participaram do caso de aplicação foram,
respectivamente, um dos autores deste trabalho (Wagner Castilho) e o funcionário da
CAIXA, Francisco Alencar Filho, que ocupa o cargo de especialista na Gerência Nacional
de Saneamento (GESAN), vinculada à Superintendência Nacional de Saneamento e Infra-
estrutura (SUSAN). Para efeito desses relatórios, será usado apenas o termo analista
para falar do primeiro e especialista para se referir ao segundo.

2.4 Modelagem dos experimentos


Foram realizados três experimentos, em duas etapas. Na primeira, efetuou-se dois
experimentos. O experimento 1 utilizou os indicadores de gestão, funcionando sem os
fatores de ponderação, enquanto que o experimento 2 utilizou os mesmos indicadores,
com fatores de ponderação. Foram utilizados, então, os nove indicadores de desempenho
para particionar as CESBs em três grupos de desempenho setorial. Os resultados foram
comparados entre si.
Na segunda etapa, foi realizado um terceiro experimento. Nesse experimento foi
utilizada uma composição de índice de desempenho composto. O primeiro desses índices
agregados reflete os seis indicadores de desempenho econômico, financeiro e
operacional. O segundo é o índice de valor econômico adicionado (EVA), que reflete os
outros três indicadores de desempenho econômico, que compõem o seu cálculo. Os

11
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

resultados do experimento 3 foram comparados com os resultados dos experimentos


anteriores.
A partir de estudos e discussões entre analista e especialista, aplicando as
competências conversacionais, os esquemas e os conhecimentos explorados na
abordagem ontológica e epistemológica, introduzida no item 1.5, foram definidos os pesos
para cada experimento conforme indicado no quadro 3 a seguir:

QUADRO 3: Vetores de ponderação


Experimento MOL MDEX GE IPF IEVR IPROD LOL DFL CCP
1 1 1 1 1 1 1 1 1 1
2 0,094 0,102 0,049 0,105 0,097 0,099 0,147 0,153 0,155
3 1 1 1 1 1 1 1 1 1
Fonte: CASTILHO, 2005.

2.5 Hipótese do trabalho


A compreensão da influência do conhecimento prévio e seu manejo consciente no
processo de AA podem conduzir a resultados semanticamente mais satisfatórios.

3. RESULTADOS
3.1 Grupos de desempenho das CESBs
O especialista e o analista consideraram, a partir da comparação dos resultados,
que o experimento 2, realizado com a ponderação das variáveis, foi mais consentâneo
com os objetivos da aplicação.
Os resultados sugerem que o melhor desempenho do setor saneamento é
realmente o da SABESP porque é a de maior faturamento e com maior margem para
investimento. Detém a maior participação no mercado: 24,43%, segundo dados da
SUSAN (2004). A SANACRE, por outro lado, é a que apresenta a menor margem para
investimento, com baixo faturamento e elevados custos operacionais. O desempenho de
gestão no setor é, no entanto, negativo, pois a única empresa que consegue manter um
patamar ligeiramente positivo é a SABESP.
Os resultados sugerem ainda que as CESBs estão destruindo valor econômico, o
que implica em diminuição de patrimônio. O fato da SABESP ter sido a que mais destruiu
decorre do seu tamanho e da sua expressiva participação no setor saneamento. Embora
seu desempenho não seja negativo não foi suficiente para gerar um EVA positivo. Ela
investe muito, no entanto, existem perdas acumuladas decorrentes dos encargos de
capital (despesas financeiras e custo de capital próprio). O custo operacional das
empresas de saneamento, que inclui, por exemplo, pagamento de empregados e ligações
da rede de água e esgoto são muito altos o que pode tornar o desempenho econômico
muito sensível aos problemas de gestão.
A figura 3, a seguir, ilustra essa configuração de grupos, onde as vinte e seis
CESBs são identificadas pelas cores indicadas na legenda. São apresentados círculos
concêntricos, onde cada raio representa a pertinência em relação a um determinado
grupo. Junto aos identificadores dos grupos 1, 2 e 3, respectivamente, de cima para
baixo, são apresentados o número de empresas e a porcentagem delas para cada grupo.
Para cada ano, corresponde um gráfico em disco. Dessa forma, os círculos e suas fatias
refletem o padrão de distribuição das CESBs ao ano por grupos.

12
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

FIGURA 3: Resultado de distribuição dos grupos


Fonte: CASTILHO, 2005.

3.2 Relação entre o EVA e o índice de desempenho de gestão


As discussões entre analista e especialista de domínio partiram da hipótese de que
o desempenho econômico acompanha o desempenho de gestão tendo em vista a análise
comparativa das curvas de evolução de desempenho em função de cada CESB. O gráfico
da figura 4, a seguir, ilustra em relação a cada CESBs o quanto o EVA foi diferente do
índice de desempenho de gestão. Essa dispersão é mais acentuada em relação a alguns
anos na SABESP e na SANACRE. De um modo geral, na outras CESBs essa dispersão é
pequena, sugerindo que realmente o desempenho econômico, refletido pelo EVA,
acompanha o desempenho de gestão.

13
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

FIGURA 4: Dispersão entre o EVA e o índice de desempenho de gestão


Fonte: CASTILHO, 2005.

A partir da figura 4, observa-se que na SABESP, apesar do desempenho de gestão


ter melhorado um pouco, o EVA é ainda muito baixo. Isso provocou uma dispersão maior
na comparação entre o índice de gestão e o EVA. A EMBASA, embora o desempenho
bem abaixo da SABESP, se comportou nesse caso de forma semelhante.

4. CONCLUSÕES
No caso de aplicação, trabalhou-se o domínio do setor saneamento, analisando o
desempenho econômico, financeiro, operacional e de gestão da totalidade de
Companhias Estaduais de Saneamento Básico (CESBs). A partir das experiências
realizadas, foram construídos conhecimentos diversos, dos quais se destacam os
seguintes:
ƒO setor saneamento no Brasil tem uma importância fundamental em relação à
saúde da população e à preservação do meio ambiente.
ƒO setor saneamento tem um déficit muito grande em relação a investimentos com o
objetivo da universalização do atendimento e a qualidade dos serviços prestados.
ƒAs CESBs apresentam indicadores de desempenho de gestão que no período de
1998 a 2001, de uma maneira geral, refletiram, por meio de um índice de
desempenho composto, uma curva de desenvolvimento que foi acompanhada pelo
índice de valor econômico adicionado (EVA).
Verificou-se também a hipótese de que, a partir do desdobramento das pesquisas
em AA, a importância da consideração do conhecimento prévio como propiciador e
condicionante do conhecimento descoberto seja cada vez mais destacada. Os

14
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

experimentos sugeriram que o modelo de ponderação de variáveis, por meio de uma


matriz de informação construída com base em conhecimento prévio explicitado e
representado, pode ser uma forma interessante de conduzir a resultados semanticamente
mais satisfatórios. Por outro lado, os estudos e as experimentações sugerem que sem
uma abordagem integrada do problema de AA, que envolva também, além dos aspectos
tecnológicos e computacionais envolvidos, os aspectos ontológicos e epistemológicos
relacionados com a descoberta de conhecimento por meio dessas técnicas, deixa-se de
fora o principal fator de agregação de significado, de criação de semântica, de produção
de conhecimento: os sujeitos observadores, ou seja, as pessoas envolvidas com o
processo. O fator principal na consideração do conhecimento prévio é, enfim, o próprio
sujeito que conhece. Não há, portanto, conhecimento independente do observador, do
sujeito que conhece.

5. RECOMENDAÇÕES
Sobre algumas questões e problemas, levantados, mas não plenamente
resolvidos, tendo em vista os limites da pesquisa, estudos e experimentações vêm sendo
desdobrados. Por questão de oportunidade e conveniência, serão, no entanto, tratados
em outra ocasião e contexto. Entre esses problemas se encontram os seguintes:
ƒDesenvolver modelo de um algoritmo de agregação que trabalhe com uma base de
conhecimento, que pode estar representada sob a forma de regras de decisão.
Sugere-se um modelo que lança mão de idéias das teorias de grafos e de algumas
técnicas utilizadas em econometria, que serão oportunamente apresentadas para a
discussão em futuros trabalhos.
ƒOutra idéia interessante é a utilização de algoritmos de inteligência artificial para
trabalhar com o agrupamento informado, auxiliando na determinação dos fatores
de ponderação que irão compor a matriz de informação.
ƒEstender a aplicação do algoritmo informado às redes SOM ou redes de Kohonen
(1989).
ƒAperfeiçoar o Sistema de agrupamento informado que foi desenvolvido para
abranger diferentes técnicas em um mesmo framework.
ƒOutra idéia que já está em fase avançada consiste em apresentar um modelo que
possibilite trabalhar com uma base de dados de tipos mistos (quantitativos e
qualitativos). A novidade consistiria em estender o mecanismo de ponderação
também a dados qualitativos.
ƒUtilizar o interessante protocolo de aprendizagem sugerido por Ferneda (2002)
numa possível aplicação ao domínio do agrupamento informado.
ƒAprofundar os estudos da Ontologia da Linguagem para aperfeiçoar o modelo de
coordenação de ações e gestão de conversas em AA que foram neste trabalho de
pesquisa apenas esboçados.
ƒPor fim, os resultados deste trabalho de pesquisa em torno da consideração do
conhecimento prévio em AA poderiam ser desdobrados na construção de um
modelo mais genérico que pudesse ser aplicado à DCBD, complementando as
metodologias atuais.

REFERÊNCIAS

ABICALIL, Marcos Thadeu. Uma Nova Agenda para o Saneamento. O pensamento do


setor saneamento no brasil: perspectivas futuras. Brasília: SEDU/PR, p. 115-135,
2004.

15
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

AGRAWAL et al. Automatic Subspace Clustering of High-Dimensional Data for Data


Mining Applications. In: Proceedings of ACM SIGMOD 98 International Conference
on Management of Data, 27., 1998, Seatle, Washington, USA.

AGRAWAL, R. et al. The QUEST Data Mining System, Proc. Int. Conf. Data Mining and
Knowledge Discovery (KDD '96), p. 244-249, Portland, Ore., Aug. 1996.

BERGER, Peter L.; LUCKMANN, Thomas. A construção social da realidade: tratado


de sociologia do conhecimento. 20. ed Petrópolis: Editora Vozes, 2001.

BRAGA, Rubem. A apercepção originária de Kant na Física do século XX. Brasília:


UNB, 1991.

CASTILHO, Wagner F. Clustering Informado: agregando semântica ao processo de


geração de agrupamento. Brasília, 2005. 259 f. Dissertação (Mestrado em Gestão
do Conhecimento e Tecnologia da Informação) – Universidade Católica de Brasília,
Brasília, 2005.

CASTILHO, W. F.; PRADO, H. A.; LADEIRA, M. Informed k-means: a clustering process


biased by prior knowledge. In: Conference Procceedings - 6th International
Conference on Enterprise Information Systems (ICEIS), 2004. p. 469 – 475.

________. Introducing prior knowledge into the clustering process. In: Conference
Procceedings - Fourth International Conference on DATA MINING, 2003. p. 171 –
181.

ECHEVERRÍA, Rafael. Ontologia del Lenguaje. 4ª ed. Santiago, Chile: Dolmen


Ediciones, 1997.

FAYYAD, U. M. et al. From data mining to knowledge discovery: an overview. In:


FAYYAD, U. M. et al. Advances in Knowledge discovery and data mining. Menlo
Park, CA: AAAI Press, 1996.

FERNEDA, Edílson. Conception d’un agent rationnel et examen de son raisonnement


em géométrie. Université Montpellier II, 1992.

FLORES, F.; GRAVES, M.; HARTFIELD, B.; WINOGRAD, T. Computer systems and the
design of organizational interaction. ACM Transactions on Office Information
Systems, V. 6, N. 2, P. 157-172, ABR. 1988.

FLORES, F. Inventando la empresa del siglo XXI. Hachette, 1989.

________. Creando organizaciones para el futuro. Santiago (Chile): Dólmen, 1996.

GALTUNG, Johan. Social Science Formation. (SAGE, London and Beverly Hills), 20, 6
(1981), p. 817-856.

16
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação

HANSON, S. J. Conceptual Clustering and Categorization: Bridging The Gap Between


Induction and Causal Models. In: KODRATOFF, Y., MICHALSKI, R. (Eds.). Machine
Learning: An Artificial Intelligence Approach. San Mateo, CA, Morgan, 1990.

JOHNSON, S. C. Hierarchical Clustering Schemes. Psychometria, vol. 32, nº 3, p. 241-


254, 1997.

KOFMAN, Fredy. Metamanagement – a nova consciência dos negócios. São Paulo:


Antakarana Cultura Arte Ciência, 2002.

KOHONEN T. Self-Organization and Associate Memory. 3ª ed, ED Springer-Verlag,


1989.

MATURANA, H. R.; VARELA, F. J. A Árvore do Conhecimento – as Bases Biológicas


da Compreensão Humana, Editora Palas Athena, São Paulo, Brasil, 2001.

MINISTÉRIO DAS CIDADES. Diagnóstico dos Serviços de Água e Esgotos – 2002.


Brasília:Secretaria Nacional de Saneamento Ambiental (SNSA) e Instituto de Pesquisa
Econômica Aplicada (IPEA), 2004.

NONAKA, Ikujiro; TAKEUCHI, Hirotaka. Criação de Conhecimento Na Empresa: Como


as empresas japonesas geram a dinâmica da inovação. 2.ed. Rio de Janeiro:
Campus, 1997.

SENGE, Peter. A quinta disciplina. São Paulo: Editora Nova Cultura, 2002.

________. A quinta disciplina: caderno de campo – estratégias para construir uma


organização que aprende. Rio de Janeiro: Qualitymark, 2000.

SNIS. Sistema Nacional de Informações sobre Saneamento. Brasília: Ministério das


Cidades, Secretaria Nacional de Saneamento Ambiental, 2004.

SUSAN. Superintendência Nacional de Saneamento e Infra-estrutura. Brasília: Caixa


Econômica Federal, 2004.

17