Escolar Documentos
Profissional Documentos
Cultura Documentos
1. INTRODUÇÃO
No processo de Descoberta de Conhecimento em Bases de Dados (DCBD), as
relações entre os dados são geradas semi-automaticamente, a partir de exemplos em
uma base de dados, e representadas de forma compreensível para seres humanos. A
essência da descoberta de conhecimento é, inicialmente, a extração da informação
potencialmente útil dos dados para, a partir daí, buscar a extração (não trivial) do
conhecimento implícito na fonte dados original. O enfoque principal do processo de DCBD
é, portanto, trabalhar com as bases de dados existentes e delas extrair informações
desconhecidas a priori, que se encontram "escondidas" nos dados.
Segundo Fayyad (1996), DCBD é “o processo não trivial de identificar padrões em
dados que sejam válidos, novos, potencialmente úteis e fundamentalmente
compreensíveis”.
A mineração de dados (MD) é uma etapa dentro do processo de DCBD, onde os
dados, que já foram pré-processados, são agora explorados por algum algoritmo que irá
1
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
2
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
§ x11 x12 x1 p ·
A matriz de dados tem a seguinte forma:
¨ ¸
¨ x21 x22 x2 p ¸
X(N x P) ¨
¸
¨ ¸
¨x ¸
© n 1 xn 2 x np ¹
onde n é o número de objetos ou instâncias de uma população E;
e p é o número das variáveis discriminantes selecionadas para a tarefa de
agrupamento.
A AA resulta numa estrutura de categorias, perfis ou classes definidas a partir do
coeficiente de homogeneidade ou função de agrupamento. Aplicando-se à matriz de
dados o coeficiente de homogeneidade entre os elementos da população E, obtém-se a
matriz de distâncias ou similaridades, de uma forma geral nominada matriz de distâncias
Z(N x N), que é uma matriz quadrada triangular, cujos elementos da diagonal principal são
nulos.
A matriz de distâncias ou similaridades tem a seguinte forma:
§ 0 d12 d1n ·
¨ ¸
¨ d 21 0 d 2 n ¸
Z(N x N) ¨
¸
¨ ¸
¨d ¸
© n1 d n 2 0 ¹
onde n é o número de objetos ou instâncias de uma população E;
dij é o resultado do cálculo do coeficiente de homogeneidade entre os elementos xi
e xj.
¦
n
( x pi x qi ) 2
V (2i )
d ( p, q ) (1)
i 1
M >G (V C )@1
matriz de covariância.
(3)
Em função de ij apresentam-se as seguintes particularidades na função de
M
Mahalanobis propriamente dita;
I , onde I é a Matriz Identidade, tem-se a distância euclidiana padrão.
Segundo Castilho, Prado e Ladeira (2003), uma fase importante do processo é a
seleção do conjunto de variáveis ou atributos dos objetos que sejam relevantes e
discriminantes dentro do problema de agrupamento considerado. Na construção da matriz
de informação, podem ser consideradas graduações de interesse ou relevância para os
atributos, assim como o mapa de implicação e correlação entre eles. Informações de
4
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
5
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
6
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
7
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
x Os seres humanos são seres lingüísticos. É a linguagem, portanto, que faz do ser
pressupostos de uma Ontologia da Linguagem que podem ser assim resumidos:
x A linguagem possui um caráter criador. Ela não só descreve como cria realidades.
humano o tipo particular de ser que é.
8
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
Echeverría (1997: 237) comenta que “no mundo de hoje não é possível viver em
completa autosuficiência. Somos dependentes uns dos outros. Temos que aprender,
portanto, a colaborar com os outros, apoiando-nos mutuamente, a coordenar ações
juntos.
As organizações são fenômenos linguísticos, sendo construídas a partir de
conversacões específicas, que estão baseadas na capacidade dos seres humanos para
efetuar compromissos. Kofman (2002, Vol II: 186) diz que “a capacidade de receber e
fazer compromissos é uma das características que definem uma pessoa”. Os
compromissos são também a chave para a coordenação de ações. Uma rede extensa e
complexa de compromissos está na base de qualquer sistema de produção e também na
construção e disseminação do conhecimento. (FLORES, 1988, 1989 e 1996)
A AA pode também ser interpretada como um ciclo de coordenação de ações entre
analista e especialista de domínio no processo de construção de conhecimento em
agrupamento. É importante, portanto, cuidar da gestão das conversas que permeiam o
processo de AA como fator de agregação de maior semântica no esforço de criação de
conhecimento partindo da base de dados e do conhecimento prévio do analista e do
especialista de domínio.
2. METODOLOGIA
2.1 Caso de aplicação
Um caso de aplicação empregando o modelo de agrupamento informado foi
desenvolvido. O domínio da aplicação está constituído pelos conhecimentos
compreendidos na setor de Saneamento e a estrutura de prestação desse serviço no
Brasil, a partir de informações do Ministério das Cidades (2004). O contexto refere-se às
informações vinculadas ao campo de atuação da Secretaria Nacional de Saneamento
Ambiental (SNSA) do Ministério das Cidades, assim como aquelas relacionadas com o
Programa de Modernização do Setor Saneamento (PMSS).
A prestação dos serviços de saneamento no Brasil é feita pelas Companhias
Estaduais de Saneamento Básico (CESBs). Segundo Abicalil (2004), cerca de 95,1
milhões de pessoas são abastecidas pelas CESBs, representando 77% da população
urbana abastecida.
Existem 26 CESBs que oferecem serviços de abastecimento de água, a partir de
concessões. Segundo Abicalil (2004), essas concessões ocorrem em 3.835 municípios,
que são 69,6% do total de municípios do país, cuja população urbana representa 73,7%
da população urbana brasileira. A administração municipal é responsável pela prestação
dos serviços no restante dos municípios brasileiros, sendo a grande maioria organizada
na forma de autarquias.
A definição dos objetivos da aplicação foi realizada a partir da interação entre
especialista e analista no transcurso de algumas reuniões. Os objetivos para a AA que por
9
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
Os dados atualmente disponíveis sobre o EVA para todas essas CESBs vão
apenas de 1998 a 2001, segundo a Gerência Nacional de Saneamento (GESAN), órgão
da Superintendência Nacional de Saneamento e Infra-estrutura (SUSAN), responsável
pelo acompanhamento do setor saneamento na Caixa Econômica Federal (CAIXA).
Foram utilizados, assim, para a AA os dados relativos às 26 CESBs no período de
1998 à 2001, reunindo os nove indicadores que serão detalhados a seguir:
1. Margem operacional com depreciação (MOL);
2. Margem de despesa de exploração(MDEX);
3. Grau de endividamento (GE);
4. Índice de perda de faturamento (IPF);
5. Índice de evasão de receita (IEVR);
6. Índice de produtividade (IPROD);
7. Lucro operacional líquido (LOL);
8. Despesas financeiras líquidas (DFL);
9. Custo de capital próprio (CCP).
10
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
11
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
3. RESULTADOS
3.1 Grupos de desempenho das CESBs
O especialista e o analista consideraram, a partir da comparação dos resultados,
que o experimento 2, realizado com a ponderação das variáveis, foi mais consentâneo
com os objetivos da aplicação.
Os resultados sugerem que o melhor desempenho do setor saneamento é
realmente o da SABESP porque é a de maior faturamento e com maior margem para
investimento. Detém a maior participação no mercado: 24,43%, segundo dados da
SUSAN (2004). A SANACRE, por outro lado, é a que apresenta a menor margem para
investimento, com baixo faturamento e elevados custos operacionais. O desempenho de
gestão no setor é, no entanto, negativo, pois a única empresa que consegue manter um
patamar ligeiramente positivo é a SABESP.
Os resultados sugerem ainda que as CESBs estão destruindo valor econômico, o
que implica em diminuição de patrimônio. O fato da SABESP ter sido a que mais destruiu
decorre do seu tamanho e da sua expressiva participação no setor saneamento. Embora
seu desempenho não seja negativo não foi suficiente para gerar um EVA positivo. Ela
investe muito, no entanto, existem perdas acumuladas decorrentes dos encargos de
capital (despesas financeiras e custo de capital próprio). O custo operacional das
empresas de saneamento, que inclui, por exemplo, pagamento de empregados e ligações
da rede de água e esgoto são muito altos o que pode tornar o desempenho econômico
muito sensível aos problemas de gestão.
A figura 3, a seguir, ilustra essa configuração de grupos, onde as vinte e seis
CESBs são identificadas pelas cores indicadas na legenda. São apresentados círculos
concêntricos, onde cada raio representa a pertinência em relação a um determinado
grupo. Junto aos identificadores dos grupos 1, 2 e 3, respectivamente, de cima para
baixo, são apresentados o número de empresas e a porcentagem delas para cada grupo.
Para cada ano, corresponde um gráfico em disco. Dessa forma, os círculos e suas fatias
refletem o padrão de distribuição das CESBs ao ano por grupos.
12
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
13
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
4. CONCLUSÕES
No caso de aplicação, trabalhou-se o domínio do setor saneamento, analisando o
desempenho econômico, financeiro, operacional e de gestão da totalidade de
Companhias Estaduais de Saneamento Básico (CESBs). A partir das experiências
realizadas, foram construídos conhecimentos diversos, dos quais se destacam os
seguintes:
O setor saneamento no Brasil tem uma importância fundamental em relação à
saúde da população e à preservação do meio ambiente.
O setor saneamento tem um déficit muito grande em relação a investimentos com o
objetivo da universalização do atendimento e a qualidade dos serviços prestados.
As CESBs apresentam indicadores de desempenho de gestão que no período de
1998 a 2001, de uma maneira geral, refletiram, por meio de um índice de
desempenho composto, uma curva de desenvolvimento que foi acompanhada pelo
índice de valor econômico adicionado (EVA).
Verificou-se também a hipótese de que, a partir do desdobramento das pesquisas
em AA, a importância da consideração do conhecimento prévio como propiciador e
condicionante do conhecimento descoberto seja cada vez mais destacada. Os
14
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
5. RECOMENDAÇÕES
Sobre algumas questões e problemas, levantados, mas não plenamente
resolvidos, tendo em vista os limites da pesquisa, estudos e experimentações vêm sendo
desdobrados. Por questão de oportunidade e conveniência, serão, no entanto, tratados
em outra ocasião e contexto. Entre esses problemas se encontram os seguintes:
Desenvolver modelo de um algoritmo de agregação que trabalhe com uma base de
conhecimento, que pode estar representada sob a forma de regras de decisão.
Sugere-se um modelo que lança mão de idéias das teorias de grafos e de algumas
técnicas utilizadas em econometria, que serão oportunamente apresentadas para a
discussão em futuros trabalhos.
Outra idéia interessante é a utilização de algoritmos de inteligência artificial para
trabalhar com o agrupamento informado, auxiliando na determinação dos fatores
de ponderação que irão compor a matriz de informação.
Estender a aplicação do algoritmo informado às redes SOM ou redes de Kohonen
(1989).
Aperfeiçoar o Sistema de agrupamento informado que foi desenvolvido para
abranger diferentes técnicas em um mesmo framework.
Outra idéia que já está em fase avançada consiste em apresentar um modelo que
possibilite trabalhar com uma base de dados de tipos mistos (quantitativos e
qualitativos). A novidade consistiria em estender o mecanismo de ponderação
também a dados qualitativos.
Utilizar o interessante protocolo de aprendizagem sugerido por Ferneda (2002)
numa possível aplicação ao domínio do agrupamento informado.
Aprofundar os estudos da Ontologia da Linguagem para aperfeiçoar o modelo de
coordenação de ações e gestão de conversas em AA que foram neste trabalho de
pesquisa apenas esboçados.
Por fim, os resultados deste trabalho de pesquisa em torno da consideração do
conhecimento prévio em AA poderiam ser desdobrados na construção de um
modelo mais genérico que pudesse ser aplicado à DCBD, complementando as
metodologias atuais.
REFERÊNCIAS
15
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
AGRAWAL, R. et al. The QUEST Data Mining System, Proc. Int. Conf. Data Mining and
Knowledge Discovery (KDD '96), p. 244-249, Portland, Ore., Aug. 1996.
________. Introducing prior knowledge into the clustering process. In: Conference
Procceedings - Fourth International Conference on DATA MINING, 2003. p. 171 –
181.
FLORES, F.; GRAVES, M.; HARTFIELD, B.; WINOGRAD, T. Computer systems and the
design of organizational interaction. ACM Transactions on Office Information
Systems, V. 6, N. 2, P. 157-172, ABR. 1988.
GALTUNG, Johan. Social Science Formation. (SAGE, London and Beverly Hills), 20, 6
(1981), p. 817-856.
16
2º Congresso Internacional de Gestão da Tecnologia e Sistemas de Informação
SENGE, Peter. A quinta disciplina. São Paulo: Editora Nova Cultura, 2002.
17