Você está na página 1de 7

O que big data1 Introduo

Voc j parou para pensar na quantidade e variedade de dados que geramos e armazenamos a cada dia? Bancos compan!ias areas operadoras de te"e#onia servio de busca on$"ine e redes de varejistas so apenas a"guns dos in%meros e&emp"os de empresas que convivem diariamente com grandes vo"umes de in#ormao' ( questo que apenas ter dados no basta) importante conseguir e saber us$"os' * a+ que o conceito de Big Data entra em cena' ,este te&to voc ver o que Big -ata entender o porqu de este nome estar cada vez mais presente no vocabu"rio dos ambientes de .ecno"ogia da In#ormao e compreender os motivos que "evam o conceito a contribuir para o cotidiano de empresas governos e demais institui/es'

O conceito de Big -ata


( princ+pio podemos de#inir o conceito de Big -ata como sendo conjuntos de dados e&tremamente grandes e que por este motivo necessitam de #erramentas especia"mente preparadas para "idar com grandes vo"umes de #orma que toda e qua"quer in#ormao nestes meios possa ser encontrada ana"isada e aproveitada em tempo !bi"' ,o di#+ci" entender este cenrio) trocamos mi"!/es de e$mai"s por dia0 mi"!ares de transa/es bancrias acontecem no mundo a cada segundo0 so"u/es so#isticadas gerenciam a cadeia de suprimentos de vrias #bricas neste e&ato momento0 operadoras registram a todo instante c!amadas e tr#ego de dados do crescente n%mero de "in!as ce"u"ares no mundo todo0 sistemas de 123coordenam os setores de in%meras compan!ias0 en#im e&emp"os no #a"tam $ se te perguntarem voc certamente ser capaz de apontar outros sem #azer es#oro' In#ormao poder "ogo se uma empresa souber como uti"izar os dados que tem em mos poder saber como me"!orar um produto como criar uma estratgia de mar4eting mais e#iciente como cortar gastos como produzir mais como evitar o desperd+cio de recursos como superar um concorrente como disponibi"izar um servio a um c"iente de maneira satis#at5ria e assim por diante'

http://www.infowester.com/big-data.php

3erceba estamos #a"ando de #atores que podem inc"usive ser decisivos para o #uturo de uma compan!ia' 6as Big -ata um nome re"ativamente recente 7ou ao menos comeou a aparecer na m+dia recentemente8' Isso signi#ica que somente nos %"timos anos que as empresas descobriram a necessidade de #azer me"!or uso de seus grandes bancos de dados? 3ode ter certeza que no' 9 tempos que os departamentos de .I contemp"am ap"ica/es deData Mining Business Intelligence e CRM 7Customer Relationship Management 8 por e&emp"o para tratar justamente de an"ise de dados tomadas de decis/es e outros aspectos re"acionados ao neg5cio' ( proposta de uma so"uo de Big -ata a de o#erecer uma abordagem amp"a no tratamento do aspecto cada vez mais :ca5tico: dos dados para tornar as re#eridas ap"ica/es e todas as outras mais e#icientes e precisas' 3ara tanto o conceito considera no somente grandes quantidades de dados a ve"ocidade de an"ise e a disponibi"izao destes como tambm a re"ao com e entre os vo"umes'

O ;aceboo4 um e&emp"o de empresa que se bene#icia de Big -ata) as bases de dados do servio aumentam todo dia e so uti"izadas para determinar re"a/es pre#erncias e comportamentos dos usurios

3or que Big -ata to importante? <idamos com dados desde os prim5rdios da !umanidade' (contece que nos tempos atuais os avanos computacionais nos permitem guardar organizar e ana"isar dados muito mais #aci"mente e com #requncia muito maior' 1ste cenrio est "onge de dei&ar de ser crescente' Basta imaginar por e&emp"o que vrios dispositivos em nossas casas $ ge"adeiras .Vs "avadoras de roupa ca#eteiras entre outros $ devero estar conectados = internet em um #uturo no muito distante' 1sta previso est dentro do que se con!ece como Internet das Coisas'

>e o"!armos para o que temos agora j veremos uma grande mudana em re"ao =s dcadas anteriores) tomando como base apenas a internet pense na quantidade de dados que so gerados diariamente somente nas redes sociais0 repare na imensa quantidade de sites na ?eb0 perceba que voc capaz de #azer compras on$"ine por meio at do seu ce"u"ar quando o m&imo de in#ormatizao que as "ojas tin!am em um passado no muito distante eram sistemas iso"ados para gerenciar os seus estabe"ecimentos #+sicos' (s tecno"ogias atuais nos permitiram $ e permitem $ aumentar e&ponencia"mente a quantidade de in#orma/es no mundo e agora empresas governos e outras institui/es precisam saber "idar com esta :e&p"oso: de dados' O Big -ata se prop/e a ajudar nesta tare#a uma vez que as #erramentas computacionais usadas at ento para gesto de dados por si s5 j no podem #az$"o satis#atoriamente' ( quantidade de dados gerada e armazenada diariamente c!egou a ta" ponto que !oje uma estrutura centra"izada de processamento de dados j no #az mais sentido para a maioria abso"uta das grandes entidades' O @oog"e por e&emp"o possui vrios data centers para dar conta de suas opera/es mas trata todos de maneira integrada' 1ste :particionamento estrutura": bom destacar no uma barreira para o Big -ata $ em tempos de computao nas nuvens nada mas trivia"'

Os AVsA do Big -ata) vo"ume ve"ocidade variedade veracidade e va"or ,o intuito de dei&ar a ideia de Big -ata mais c"ara a"guns especia"istas passaram a resumir o assunto em aspectos que conseguem descrever satis#atoriamente a base do conceito) os cincos AVsA $ vo"ume ve"ocidade e variedade com os #atores veracidade e va"or aparecendo posteriormente' O aspecto do volume 7volume8 voc j con!ece' 1stamos #a"ando de quantidades de dados rea"mente grandes que crescem e&ponencia"mente e que no raramente so subuti"izados justamente por estarem nestas condi/es' Velocidade 7velocity8 outro ponto que voc j assimi"ou' 3ara dar conta de determinados prob"emas o tratamento dos dados 7obteno gravao atua"izao en#im8 deve ser #eito em tempo !bi" $ muitas vezes em tempo rea"' >e o taman!o do banco de dados #or um #ator "imitante o neg5cio pode ser prejudicado) imagine por e&emp"o o transtorno que uma operadora de carto de crdito teria $ e causaria $ se demorasse !oras para aprovar um transao de um c"iente pe"o #ato de o seu sistema de segurana no conseguir ana"isar rapidamente todos os dados que podem indicar uma #raude' Variedade 7variety8 outro aspecto importante' Os vo"ume de dados que temos !oje so consequncia tambm da diversidade de in#orma/es' .emos dados em #ormato estruturados isto armazenados em bancos como 3ostgre>B< e Orac"e e dados no estruturados oriundos de in%meras #ontes como documentos imagens udios v+deos e assim por diante' * necessrio saber tratar a variedade como parte de um todo $ um tipo de dado pode ser in%ti" se no #or associado a outros' O ponto de vista da veracidade 7veracity8 tambm pode ser considerado pois no adianta muita coisa "idar com a combinao :vo"ume C ve"ocidade C variedade: se !ouver dados no con#iveis' * necessrio que !aja processos que garantam o m&imo poss+ve" a consistncia dos dados' Vo"tando ao e&emp"o da operadora de carto de crdito imagine o prob"ema que a

empresa teria se o seu sistema b"oqueasse uma transao genu+na por ana"isar dados no condizentes com a rea"idade' In#ormao poder in#ormao patrimDnio' ( combinao :vo"ume C ve"ocidade C variedade C veracidade: a"m de todo e qua"quer outro aspecto que caracteriza uma so"uo de Big -ata se mostrar invive" se o resu"tado no trou&er bene#+cios signi#icativos e que compensem o investimento' 1ste o aspecto do valor 7value8' * c"aro que estes cinco aspectos no precisam ser tomados como a de#inio per#eita' 9 quem acredite por e&emp"o que a combinao :vo"ume C ve"ocidade C variedade: seja su#iciente para transmitir uma noo aceitve" do Big -ata' >ob esta 5ptica os aspectos da veracidade e do va"or seriam desnecessrios porque j esto imp"+citos no neg5cio $ qua"quer entidade sria sabe que precisa de dados consistentes0 nen!uma entidade toma decis/es e investe se no !ouver e&pectativa de retorno' O destaque para estes dois pontos ta"vez seja mesmo desnecessrio por #azer re#erncia ao que parece 5bvio' 3or outro "ado a sua considerao pode ser re"evante porque re#ora os cuidados necessrios a estes aspectos) uma empresa pode estar ana"isando redes sociais para obter uma ava"iao da imagem que os c"ientes tm de seus produtos mas ser que estas in#orma/es so con#iveis ao ponto de no ser necessrio a adoo de procedimentos mais criteriosos? >er que no se #az necessrio um estudo mais pro#undo para diminuir os riscos de um investimento antes de e#etu$"o? -e qua"quer #orma os trs primeiros AVsA $ vo"ume ve"ocidade e variedade $ podem at no o#erecer a me"!or de#inio do conceito mas no esto "onge de #az$"o' 1ntende$se que Big -ata trata apenas de enormes quantidades de dados todavia voc pode ter um vo"ume no muito grande mas que ainda se encai&a no conte&to por causa dos #atores ve"ocidade e variedade'

>o"u/es de Big -ata ("m de "idar com vo"umes e&tremamente grandes de dados dos mais variados tipos so"u/es de Big -ata tambm precisam traba"!ar com distribuio de processamento e elasticidade isto suportar ap"ica/es com vo"umes de dados que crescem substancia"mente em pouco tempo' O prob"ema que os bancos de dados :tradicionais: especia"mente aque"es que e&p"oram o mode"o re"aciona" como o 6E>B< o 3ostgre>B< e o Orac"e no se mostram adequados a estes requisitos j que so menos #"e&+veis' Isso acontece porque bancos de dados re"acionais norma"mente se baseiam em quatro propriedades que tornam a sua adoo segura e e#iciente razo pe"a qua" so"u/es do tipo so to popu"ares) (tomicidade Fonsistncia Iso"amento e -urabi"idade' 1sta combinao con!ecida como ACID sig"a para o uso destes termos em ing"s) Atomicity Consistency Isolation e Durability' Vejamos uma breve descrio de cada uma) (tomicidade) toda transao deve ser atDmica isto s5 pode ser considerada e#etivada se e&ecutada comp"etamente0 Fonsistncia) todas as regras ap"icadas ao banco de dados devem ser seguidas0 Iso"amento) nen!uma transao pode inter#erir em outra que esteja em andamento ao mesmo tempo0

-urabi"idade) uma vez que a transao esteja conc"u+da os dados consequentes no podem ser perdidos' O prob"ema que este conjunto de propriedades por demais restritivo para uma so"uo de Big -ata' ( e"asticidade por e&emp"o pode ser inviabi"izada pe"a atomicidade e pe"a consistncia' * neste ponto que entra em cena o conceito de NoSQL denominao que muitos atribuem = e&presso em ing"s :Not only SQL: que em traduo "ivre signi#ica :,o apenas >B<: 7SQL $ Structured Query Language $ em poucas pa"avras uma "inguagem pr5pria para se traba"!ar com bancos de dados re"acionais8' O ,o>B< #az re#erncia =s so"u/es de bancos de dados que possibi"itam armazenamento de diversas #ormas no se "imitando ao mode"o re"aciona" tradiciona"' Bancos do tipo so mais #"e&+veis sendo inc"usive compat+veis com um grupo de premissas que :compete: com as propriedades (FI-) a BAS 7Basically Available So!t state ventually consistency $ Basicamente dispon+ve" 1stado <eve 1ventua"mente consistente8' ,o que bancos de dados re"acionais ten!am #icado u"trapassados $ e"es so e continuaro por muito tempo sendo %teis a uma srie de ap"ica/es' O que acontece que gera"mente quanto maior um banco de dados se torna mais custoso e traba"!oso e"e #ica) preciso otimizar acrescentar novos servidores empregar mais especia"istas em sua manuteno en#im' Via de regra esca"ar 7torn$"o maior8 um bancos de dados ,o>B< mais #ci" e menos custoso' Isso poss+ve" porque a"m de contar com propriedades mais #"e&+veis bancos do tipo j so otimizados para traba"!ar com processamento para"e"o distribuio g"oba" 7vrios data centers8 aumento imediato de sua capacidade e outros' ("m disso ! mais de uma categoria de banco de dados ,o>B< #azendo com que so"u/es do tipo possam atender = grande variedade de dados que e&iste tanto estrurados quanto no estruturados) bancos de dados orientados a documentos bancos de dados c!aveGva"or bancos de dados de gra#os en#im' 1&emp"os de bancos de dado ,o>B< so o Fassandra o 6ongo-B o 9Base o Fouc!-B e o2edis' 6as quando o assunto Big -ata apenas um banco de dados do tipo no basta' * necessrio tambm contar com #erramentas que permitam o tratamento dos vo"umes' ,este ponto o 9adoop de "onge a principa" re#erncia'

1&emp"os de bancos de dados no>B<) Fassandra 6ongo-B 9Base Fouc!-B e 2edis

O que 9adoop? O Hadoop uma p"ata#orma open source desenvo"vida especia"mente para processamento e an"ise de grandes vo"umes de dados sejam e"es estruturados ou no estruturados' O projeto mantido pe"a (pac!e ;oundation mas conta com a co"aborao de vrias empresas como Ha!ooI ;aceboo4 @oog"e e IB6' 3ode$se dizer que o projeto teve in+cio em meados de JKKL quando o @oog"e criou um mode"o de programao que distribui o processamento a ser rea"izado entre vrios computadores para ajudar o seu mecanismo de busca a #icar mais rpido e "ivre da necessidades de servidores poderosos 7e caros8' 1sta tecno"ogia recebeu o nome de MapReduce' ("guns meses depois o @oog"e apresentou o "oogle #ile System 7"#S8 um Msistema de arquivos especia"mente preparado para "idar com processamento distribu+do e como no poderia dei&ar de ser no caso de uma empresa como esta grandes vo"umes de dados 7em grandezas de terabEtes ou mesmo petabEtes8' $ m poucas palavras% o sistema de ar&uivos ' um con(unto de instru)*es &ue determina como os dados devem ser guardados% acessados% copiados% alterados% nomeados% eliminados e assim por diante+ 1m JKKN uma imp"ementao open source do @;> #oi incorporada ao Nutch um projeto de motor de busca para a ?eb' O ,utc! en#rentava prob"emas de esca"a $ no conseguia "idar com um vo"ume grande de pginas $ e a variao do @;> que recebeu o nome Nutch Distributed #ilesystem 7ND#S8 se mostrou como uma so"uo' ,o ano seguinte o ,utc! j contava tambm com uma imp"ementao do 6ap2educe' ,a verdade o ,utc! #azia parte de um projeto maior) uma bib"ioteca para inde&ao de pginas c!amada <ucene' Os responsveis por estes traba"!os "ogo viram que o que tin!am em mos tambm poderia ser usado em ap"ica/es di#erentes das buscas na ?eb' 1sta percepo motivou a criao de outro projeto que eng"oba caracter+sticas do ,utc! e do <ucene) o 9adoop cuja imp"ementao do sistema de arquivos recebeu o nome de ,adoop Distributed #ile System -,D#S.' O 9adoop tido como uma so"uo adequada para Big -ata por vrios motivos) $ * um projeto open source como j in#ormado #ato que permite a sua modi#icao para #ins de customizao e o torna suscet+ve" a me"!orias constantes graas = sua rede de co"aborao' 3or causa carcter+stica vrios projetos derivados ou comp"ementares #oram $ e ainda so $ criados0 $ 3roporciona economia j que no e&ige o pagamento de "icenas e suporta !ardOare convenciona" permitindo a criao de projetos com mquinas considerave"mente mais baratas0 $ O 9adoop conta por padro com recursos de to"erPncia a #a"!as como rep"icao de dados0 $ O 9adoop esca"ve") !avendo a necessidade de processamento para suportar uma quantidade maior de dados poss+ve" acrescentar computadores sem necessidade de rea"izar recon#igura/es comp"e&as no sistema' * c"aro que o 9adoop pode ser usado em conjunto com bancos de dados ,o>B<' ( pr5pria (pac!e ;oundation mantm uma so"uo do tipo que uma espcie de subprojeto do 9adoop) o j mencionado banco de dados 9Base que #unciona atre"ado ao 9-;>'

( denominao 9adoop tem uma origem inusitada) este o nome que o #i"!o de -oug Futting principa" nome por trs do projeto deu ao seu e"e#ante de pe"%cia amare"o

O 9adoop bom #risar a opo de maior destaque mas no a %nica' * poss+ve" encontrar outras so"u/es compat+veis com ,o>B< ou que so baseadas em Massively /arallel /rocessing7M//8 por e&emp"o'

;ina"izando ,o podemos considerar as so"u/es de Big -ata como um arsena" computaciona" per#eito) sistemas do tipo so comp"e&os ainda descon!ecidos por muitos gestores e pro#issionais de .I e a sua pr5pria de#inio ainda pass+ve" de discusso' O #ato que a ideia de Big -ata re#"ete um cenrio rea") ! cada vez mais vo"umes de dados gigantescos e que portanto e&igem uma abordagem capaz de aproveit$"os ao m&imo' (penas para dar uma noo deste desa#io a IB6 divu"gou no #ina" de JK1J que de acordo com as suas estimativas QKR dos dados dispon+veis no mundo #oram gerados apenas nos dois anos anteriores' -iante deste ponto de vista um tanto quanto precipitado encarar a e&presso :Big -ata: como uma mero :termo da moda:' 3ara saber mais sobre o assunto voc pode consu"tar os "in4s que serviram de re#erncia para este te&to)

data.ime.usp.br/sbbd2012/artigos/pdfs/sbbd_min_01.pdf ; www.edge.org/conversation/reinventing-society-in-the-wake-of-bigdata; papers.ssrn.com/sol /papers.cfm!abstract_id"220#1$#; www.ibm.com/software/data/bigdata; strata.oreilly.com/2012/01/what-is-big-data.html ; www.insidecounsel.com/...-data-why-a-bigger-is-better-mentality-ma; www.mckinsey.com/.../%ig_data_&he_ne't_frontier_for_innovation .

Escrito por Emerson Alecrim - Escrito em 13_03_2013 - Atualizado em 13_03_2013

Você também pode gostar