Você está na página 1de 52

Seminrio

Bancos de Dados: De onde vieram? Onde esto? Para onde vo?


Marco A. Casanova

5/3/2006

(c) Dept. Informtica - PUC-Rio

Paul Gauguin, French, 18481903 Where Do We Come From? What Are We? Where Are We Going? 18971898 Oil on canvas Image: 139.1 x 374.6 cm (54 3/4 x 147 1/2 in.) Framed: 171.5 x 406.4 x 8.9 cm (67 1/2 x 160 x 3 1/2 in.) Wildenstein 561 Museum of Fine Arts, Boston: Tompkins Collection 36.270 http://www.mfa.org/artemis/fullrecord.asp?oid=32558&did=500

Description: In 1891, Gauguin left France for Tahiti, seeking in the South Seas a society that was simpler and more elemental than that of his homeland. In Tahiti, he created paintings that express a highly personal mythology. He considered this workcreated in 1897, at a time of great personal crisisto be his masterpiece and the summation of his ideas. Gauguin's letters suggest that the fresco-like painting should be read from right to left, beginning with the sleeping infant. He describes the various figures as pondering the questions of human existence given in the title; the blue idol represents "the Beyond." The old woman at the far left, "close to death," accepts her fate with resignation.

5/3/2006

(c) Dept. Informtica - PUC-Rio

Cicero Dias, Brasil 2003 Eu vi o mundo Ele comeava no Recife Rio de Janeiro, 1926-1929 Guache e tcnica mista s/ papel, colado em tela, 1,94 x 12m Coleo do artista, Paris http://www.estadao.com.br/divirtaseonline/galeria/ cicerodias/painel/index.frm

O Painel do Escndalo (Salo de 1931) ...Na arte de vanguarda brasileira no fora feita at ento obra similar. Nem no porte, nem na ousadia da concepo. Media quinze metros de largura, por dois e meio de altura. Estava impregnada das foras incontrolveis e misteriosas do inconsciente. Ccero Dias fez uma composio telrica, cheia de desvarios e animada de uma convulso subjetiva de enorme intensidade. Figuras voam no alto. Mostrou o universo visto a partir de Pernambuco ou do Brasil. Tanto que seu ttulo era este: Eu vi o mundo...ele comeava no Recife. Uma denominao ao mesmo tempo regional, nacional e internacional. A capital pernambucana estava representada. E igualmente o Rio de Janeiro.

5/3/2006

(c) Dept. Informtica - PUC-Rio

Referncias
www.inf.puc-rio.br/~casanova/
Database Systems: Achievements and Opportunities. 'Lagunita-I' NSF Invitational Workshop on the Future of Database Systems Research, Palo Alto, CA (Feb. 1990) SIGMOD Record and IEEE Data Engineering Bulletin, 19:4 (Dec. 1990), pp. 6-22. Communications ACM, 43:10, (Oct. 1991), pp. 110-120. http://www-db.stanford.edu/~hector/lagi.ps Database Research: Achievements and Opportunities into the 21st Century. Lagunita II NSF Workshop on the Future of Database Systems Research. San Jose, CA (May 1995) SIGMOD Record, 25(1): March 1996 http://www-db.stanford.edu/pub/papers/lagii.ps The Asilomar Report on Database Research. SIGMOD Record, 27(4): 74-80 (Dec. 1998) http://www.acm.org/sigmod/record/issues/9812/asilomar.html The Lowell Database Research Self Assessment (June 2003) http://www-rocq.inria.fr/~abitebou/pub/LowellDatabaseResearchSelfAssessment.pdf http://research.microsoft.com/~gray/lowell/
5/3/2006 (c) Dept. Informtica - PUC-Rio 4

Tpicos
De onde vieram?
Dcada de 60 - Primrdios Dcada de 70 - Gnesis Dcada de 80 - Desenvolvimento Dcada de 90 - Maturidade

Onde esto?
O que aprendemos? Onde estamos?

Para onde vo?


The 1998 Asilomar Report The 2003 Lowell Report Resumo

5/3/2006

(c) Dept. Informtica - PUC-Rio

Dcada de 60 - Primrdios
Incio da Dcada:
dados armazenados diretamente em arquivos problemas:
redundncias e inconsistncias dificuldade de acesso integridade lgica atomicidade das transaes segurana

5/3/2006

(c) Dept. Informtica - PUC-Rio

Dcada de 60 - Primrdios
Final da Dcada:
sistemas de gerncia de bancos de dados (SGBDs) pioneiros:
IMS TOTAL

problemas parcialmente endereados:


redundncia e inconsistncias atomicidade das transaes segurana

problemas em aberto:
dificuldade de acesso integridade lgica
5/3/2006 (c) Dept. Informtica - PUC-Rio 7

Dcada de 70 - Gnesis
Incio da Dcada:
CODASYL DBTG Report [1971] e ANSI/SPARC Report [1975]

EE

EE

Esquema Externo

EC

Esquema Conceitual

EI

Esquema Interno

5/3/2006

(c) Dept. Informtica - PUC-Rio

Dcada de 70 - Gnesis
Incio da Dcada:
Modelo Relacional [1970]
uma nica estrutura de dados - relaes lgebra relacional clculo relacional formas normais: 1NF, 2NF, 3NF

B-trees [1972]
ndices em memria secundria para grandes volumes de chaves

5/3/2006

(c) Dept. Informtica - PUC-Rio

Communications of the ACM, Vol. 13, No. 6, June 1970, pp. 377-387.

A Relational Model of Data for Large Shared Data Banks E. F. Codd


Abstract Future users of large data banks must be protected from having to know how the data is organized in the machine (the internal representation). A prompting service which supplies such information is not a satisfactory solution. Activities of users at terminals and most application programs should remain unaffected when the internal representation of data is changed and even when some aspects of the external representation are changed. Changes in data representation will often be needed as' a result of changes in query, update, and report traffic and natural growth in the types of stored information. Existing non inferential, formatted data systems provide users with tree-structured files or slightly more general network models of the data. In Section 1, inadequacies of these models are discussed. A model based on n-ary relations, a normal form for data base relations, and the concept of a universal data sub language are introduced. In Section 2, certain operations on relations (other than logical inference) are discussed and applied to the problems of redundancy and consistency in the user's model. Key Words and Phrases data bank, data base, data structure, data organization;, hierarchies of data, network of data, relations, derivability, redundancy, consistency, composition, join, retrieval language, predicate calculus, security, data integrity CR Categories 3.70, 3.73, 3.75, 4 20, 4.22, 4.29

5/3/2006

(c) Dept. Informtica - PUC-Rio

10

Dcada de 70 - Gnesis
Metade da Dcada:
SGBDs relacionais pioneiros (SGBD-Rs):
System R [1976] e Ingres [1976] introduo da maior parte da tecnologia utilizada nos SGBDs atuais, incluindo a linguagem SQL [1974]

problemas endereados:
redundncia e inconsistncias atomicidade das transaes segurana dificuldade de acesso

problemas parcialmente endereados:


integridade lgica
5/3/2006 (c) Dept. Informtica - PUC-Rio 11

Dcada de 80 - Desenvolvimento
Incio da Dcada:
Codd recebe o ACM Turing Award em 1981

5/3/2006

(c) Dept. Informtica - PUC-Rio

12

Dcada de 80 - Desenvolvimento
Incio da Dcada:
SGBD-Rs distribudos pioneiros (SGBDD-R):
System R* e Ingres Distribudo

extenses da tecnologia relacional para tratar BDDs


exemplo: otimizao de consultas distribudas

desenvolvimento de novas tecnologias para tratar de novos problemas


exemplo: 2PC protocol para terminao de transaes

5/3/2006

(c) Dept. Informtica - PUC-Rio

13

Dcada de 80 - Desenvolvimento
Metade da Dcada:
SGBDs Orientados a Objeto (SGBD-OO):
baseiam-se no paradigma de orientao a objeto (OO), como as linguagens de programao OO (LP-OO)
SGBD-OO x LP-OO persistente

endeream requisitos de aplicaes no-convencionais:


objetos complexos encapsulamento transaes longas

SGDB-OOs pioneiros:
O2 [1988] Exodus [1986] ORION [1986]
5/3/2006 (c) Dept. Informtica - PUC-Rio 14

Dcada de 80 - Desenvolvimento
Metade da Dcada:
"Prxima gerao" de SGBD-Rs:
combinam caractersticas de OO com o modelo relacional expandem a arquitetura de SGBDs com novas possibilidades exemplo: otimizadores de consultas configurveis

Exemplos:
POSTGRES [1986] STARBURST

5/3/2006

(c) Dept. Informtica - PUC-Rio

15

Dcada de 80 - Desenvolvimento
Final da Dcada:
Maturidade da tecnologia de SGBDs:
vrios SGBD-Rs com desempenho aceitvel
DB2, Ingres, Oracle, Sybase, Informix

padronizao do SQL [1986, 1989]

5/3/2006

(c) Dept. Informtica - PUC-Rio

16

Dcada de 90 - Maturidade
Incio da Dcada:
Maturidade da tecnologia de SGBDs:
primeiros SGBD-OOs comerciais SGDBs paralelos / dedutivos / ativos / tempo real / ... avanos em padronizao de interfaces e interoperabilidade

5/3/2006

(c) Dept. Informtica - PUC-Rio

17

Dcada de 90 - Maturidade
Metade da Dcada:
novas classes de aplicaes:
Data Mining Bibliotecas Digitais

Vdeo-sob-demanda Animao Hipermdia e Multimdia em geral

GIS Meteorologia Fsica de Alta Energia (HEP)

5/3/2006

(c) Dept. Informtica - PUC-Rio

18

Earth Observation System Data and Information System


EDOS - EOS Data and Oper. System FOS - Flight Operations Segment DAAC - Distributed Active Archive Center SCF - Scientific Computing Facility CSMS - Comm. and System Mng System

s a t l i t e s

EDOS FOS

DAAC SCF CSMS EOS Network

o u t r o s

5/3/2006

(c) Dept. Informtica - PUC-Rio

19

Dcada de 90 - Maturidade
Final da Dcada:
WIIS - Web Information Integration System:
sistema para tratar dados oriundos de vrios Web sites WIIS devem lidar com:
um grande nmero de Web sites maior autonomia dos componentes dados semi-estruturados

Enfoque de Data Warehouse:


dados so extrados das fontes e armazenados em uma warehouse

Enfoque de Multi-SGBD:
dados so mantidos nos Web sites consultas so decompostas e enviadas aos vrios Web sites
5/3/2006 (c) Dept. Informtica - PUC-Rio 20

Dcada de 90 - Maturidade
Final da Dcada:
Jim Gray recebe o ACM Turing Award em 1998

5/3/2006

(c) Dept. Informtica - PUC-Rio

21

Tpicos
De onde vieram?
Dcada de 60 - Primrdios Dcada de 70 - Gnesis Dcada de 80 - Desenvolvimento Dcada de 90 - Maturidade

Onde esto?
O que aprendemos? Onde estamos?

Para onde vo?


The 1998 Asilomar Report The 2003 Lowell Report Resumo

5/3/2006

(c) Dept. Informtica - PUC-Rio

22

O qu aprendemos?
Otimizao de Consultas
otimizao de consultas declarativas (select-from-where) variaes, dependendo de
modelo de dados arquitetura

Processamento de Transaes
processamento de transaes ACID variaes, dependendo de
necessidades das aplicaes arquitetura
5/3/2006 (c) Dept. Informtica - PUC-Rio 23

Onde estamos?
Market Share Fornecedor IBM+Informix Oracle Microsoft Sistema Operacional Linux Unix Windows TOTAL 2002 35.7% 33.4% 17.7% Vendas 2002 0.116B 2.48B 2.69B 6.6B 2003 0.299B 2.34B 2.79B 6.93B 2003 35.7% 32.6% 18.7% Crescimento das vendas (2002-2003) +4.9% +2,4% +11.0% Crescimento das vendas* (2002-2003) +257.7% -5.9% +3.8% +5.1%

(*) Vendas de licenas novas

5/3/2006

(c) Dept. Informtica - PUC-Rio

24

Onde estamos?
Dados sobre dados em 2002:
5 milhes de terabytes, ou 5 exabytes, de informao nova 92% da informao armazenada em meio digital 0,4 milhes de terabytes enviados por e-mail
[http://www.sims.berkeley.edu/research/projects/how-much-info-2003/]

5/3/2006

(c) Dept. Informtica - PUC-Rio

25

Onde estamos?

2005 Google - Pesquisando 8.058.044.651 pginas na Web

5/3/2006

(c) Dept. Informtica - PUC-Rio

26

Onde estamos?

Oracle compra a PeopleSoft por 7.7B USD (outubro de 2004) IBM compra a Informix por 1B USD (abril de 2001)

5/3/2006

(c) Dept. Informtica - PUC-Rio

27

Onde estamos?
Microsoft Announces 2006 Target Date for Broad Availability Of Windows "Longhorn" Client Operating System

5/3/2006

(c) Dept. Informtica - PUC-Rio

28

Onde estamos?
Vem a o Estado policial-informtico (Elio Gaspari O Globo 17/04/05) LexisNexis e ChoicePoint (2001)
contas de 3 bilhes de cartes de crdito 139 milhes de nmeros de telefones 200 milhes de pleitos de seguradoras mais 100 milhes de fichas criminais

ChoicePoint (2001)
nome e endereo dos eleitores mexicanos passaportes dos cidados da Costa Rica RG e telefone de todos os argentinos registro civil de todos os colombianos

5/3/2006

(c) Dept. Informtica - PUC-Rio

29

Onde estamos?
Trivializao do uso da tecnologia de BDs (!) Proliferao de produtores e consumidores de dados (!!) Aplicaes armazenando da ordem de petabytes (!!!)

5/3/2006

(c) Dept. Informtica - PUC-Rio

30

5/3/2006

(c) Dept. Informtica - PUC-Rio

31

Tpicos
De onde vieram?
Dcada de 60 - Primrdios Dcada de 70 - Gnesis Dcada de 80 - Desenvolvimento Dcada de 90 - Maturidade

Onde esto?
O que aprendemos? Onde estamos?

Para onde vo?


The 1998 Asilomar Report The 2003 Lowell Report Resumo

5/3/2006

(c) Dept. Informtica - PUC-Rio

32

The 1998 Asilomar Report - Research Agenda


SGBD Plug and Play
bancos de dados sem necessidade de administrao descoberta automtica de informao baseada em metadados capturando a semntica dos dados temas de pesquisa:
bancos de dados auto-configurveis bancos de dados ricos em metadados

5/3/2006

(c) Dept. Informtica - PUC-Rio

33

The 1998 Asilomar Report - Research Agenda


Federaes de bancos de dados em larga escala
a Web um grande sistema federado
bilhes de clientes Web acessam milhes de bancos

temas de pesquisa:
otimizadores de consultas para federaes com milhares de bancos execuo de consultas baseada em acumulao de evidncia integrao assistida por ferramentas

5/3/2006

(c) Dept. Informtica - PUC-Rio

34

The 1998 Asilomar Report - Research Agenda


Reviso da arquitetura tradicional de SGBDs
necessidade de operao contnua necessidade de armazenar grandes volumes de dados
sensoriamento remoto, TV digital,

tema de pesquisa:
reviso da maioria dos componentes de um SGBD

5/3/2006

(c) Dept. Informtica - PUC-Rio

35

The 1998 Asilomar Report - Research Agenda


Integrao de dados estruturados e semi-estruturados
XML = dados organizados hierarquicamente tema de pesquisa:
unificao das tecnologias de banco de dados e da Web

5/3/2006

(c) Dept. Informtica - PUC-Rio

36

The 2003 Lowell Report - Research Agenda

Lowell Workshop = Asilomar Workshop revisited

(same old people)

5/3/2006

(c) Dept. Informtica - PUC-Rio

37

The 2003 Lowell Report - Research Agenda


Tpicos cobertos
Integration of Text, Data, Code and Streams Information Fusion Sensor Data and Sensor Networks Multimedia Queries Reasoning about Uncertain Data Personalization Data Mining Self Adaptation Privacy Trustworthy Systems New User Interfaces - Semantic Web? One Hundred Year Storage Query Optimization
5/3/2006 (c) Dept. Informtica - PUC-Rio 38

The 2003 Lowell Report - Research Agenda


Integrao de texto, dados, cdigo e seqncias
novas classes de aplicaes geram dados de vrios tipos:
aplicaes cientficas ou de engenharia geram grande volume de dados exticos

repensar SGBDs para tratar uniformemente dados exticos


armazenamento e consulta a dados exticos pipelining de dados produzidos por processos de anlise integrao de dados em um grid na Web

5/3/2006

(c) Dept. Informtica - PUC-Rio

39

The 2003 Lowell Report - Research Agenda


Integrao de texto, dados, cdigo e seqncias
observaes:
formatos de dados auto-descritivos (i.e., XML) podem ser teis para transferncia de dados, mas no para armazenamento novas arquiteturas no devem ter compromissos com o passado, embora fornecedores devam manter a estratgia de desenvolver extenses incrementais de SQL e XML

5/3/2006

(c) Dept. Informtica - PUC-Rio

40

The 2003 Lowell Report - Research Agenda


Fuso de Informao
a Web facilita o desenvolvimento de aplicaes envolvendo vrias empresas
empresas interessadas em interagir com fornecedores e clientes, trocando dados, para fornecer melhores produtos e servios

repensar SGBDs para integrar milhes de fontes de informao em tempo real


a questo espinhosa de heterogeneidade semntica permanece

5/3/2006

(c) Dept. Informtica - PUC-Rio

41

The 2003 Lowell Report - Research Agenda


Redes de Sensores
redes de sensores possibilitam uma nova classe de aplicaes de monitoramento que geram seqncias de dados repensar SGBDs para tratar redes de sensores
processamento de consultas sobre seqncias de dados:
necessitam adaptao a perfis de gerao de dados rapidamente mutveis plano de execuo deve acompanhar modificaes no perfil

gerncia de redes de sensores requer formas mais sofisticadas de integrao de dados

5/3/2006

(c) Dept. Informtica - PUC-Rio

42

The 2003 Lowell Report - Research Agenda


Tratamento de incerteza
incerteza ou impreciso nos dados ocorrem em medies cientficas, posio de objetos mveis, repensar SGBDs para tratar incerteza ou impreciso nos dados
rastreabilidade dos dados processamento de consultas deve passar...
de um modelo determinstico, onde consultas possuem resultado exato para um modelo estocstico, onde o processador de consultas acumula evidncia para prover respostas cada vez mais precisas

5/3/2006

(c) Dept. Informtica - PUC-Rio

43

The 2003 Lowell Report - Research Agenda


Personalizao
resposta de consulta deve depender de perfil do usurio repensar SGBDs para oferecer personalizao baseada em modelos do usurio e em metadados
personalizao e tratamento de incerteza requer verificar se o sistema est produzindo a resposta correta

5/3/2006

(c) Dept. Informtica - PUC-Rio

44

The 2003 Lowell Report - Research Agenda


Armazenamento secular
informao arquivada pode desaparecer repensar SGBDs para oferecer armazenamento perene dos dados
migrar contedo para novos formatos e manter hardware e software para processar os dados gerenciar metadados junto com os documentos

5/3/2006

(c) Dept. Informtica - PUC-Rio

45

Resumo
Modelos flexveis de consultas
suposio do mundo aberto
resultados incompletos ou imprecisos

consultas a fontes autnomas pelo melhor esforo rastreabilidade + explicao + personalizao

5/3/2006

(c) Dept. Informtica - PUC-Rio

46

Resumo
Modelos transacionais flexveis
non ACID transactions
aes compensatrias / aes alternativas

transaes sobre fontes autnomas pelo melhor esforo rastreabilidade + explicao + personalizao

5/3/2006

(c) Dept. Informtica - PUC-Rio

47

Resumo
Projeto baseado em padres e reuso de especificaes
padres para tudo domnios, metadados, padres estruturais interoperabilidade deve se tornar um no-problema (ou continuar a ser um problema insolvel)
RO RO

O1 O1

O2 O2

DB1 DB1
IIR R

DB2 DB2

II1 1

II2 2

5/3/2006

(c) Dept. Informtica - PUC-Rio

48

E o futuro ?

5/3/2006

(c) Dept. Informtica - PUC-Rio

49

O futuro previsvel ?
Consider a future device for individual use, which is a sort of mechanized private file and library. It needs a name, and, to coin one at random, "memex" will do. A memex is a device in which an individual stores all his books, records, and communications, and which is mechanized so that it may be consulted with exceeding speed and flexibility. It is an enlarged intimate supplement to his memory. ... The process of tying two items together is the important thing. When the user is building a trail, he names it, inserts the name in his code book, and taps it out on his keyboard. ... Thereafter, at any time, when one of these items is in view, the other can be instantly recalled merely by tapping a button below the corresponding code space. Moreover, when numerous items have been thus joined together to form a trail, they can be reviewed in turn, rapidly or slowly, by deflecting a lever like that used for turning the pages of a book. ... Wholly new forms of encyclopedias will appear, ready made with a mesh of associative trails running through them, ready to be dropped into the memex and there amplified.... by Vannevar Bush The Atlantic Monthly; July, 1945; As We May Think; Volume 176, No. 1; pages 101-108.

5/3/2006

(c) Dept. Informtica - PUC-Rio

50

O futuro imprevisvel !

5/3/2006

(c) Dept. Informtica - PUC-Rio

51

www.inf.puc-rio.br/~casanova/

5/3/2006

(c) Dept. Informtica - PUC-Rio

52

Você também pode gostar