Você está na página 1de 10

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

LEANDRO WANDERLEY COUTO DA SILVA

BIG DATA ANLISE DE UM SERVIDOR WEB COM A FERRAMENTA SPLUNK

Macei AL Julho/2013

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

Sumrio

1. Introduo ............................................................................................................................... 3 2. Justificativa ............................................................................................................................. 5 3. Objetivos................................................................................................................................. 6 3.1 Objetivo Geral .................................................................................................................. 6 3.2 Objetivos Especficos ....................................................................................................... 6 4. Reviso da Literatura .............................................................................................................. 7 5. Cronograma ............................................................................................................................ 9 Referncias ............................................................................................................................... 10

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

1. Introduo
Desde o incio do sculo 21 especula-se muito sobre os rumos que a tecnologia est seguindo e tudo que ela est proporcionando e ainda ir proporcionar, a quantidade de informao gerada hoje em todo o planeta extremamente maior do que qualquer uma gerada nos dois ltimos milnios juntos, segundo TAURION (2011), estima-se que diariamente, so gerados 15 petabytes de informaes (financeiras, redes sociais, dispositivos mveis, etc.) em todo mundo, advindas das mais diversas plataformas. Com esse cenrio de total mudana e com a velocidade que as coisas vm acontecendo necessrio rever a forma como administramos e tratamos os dados. Big Data foi o termo adotado quase dois anos para descrever esse volume de dados gerados de forma descontrolada. ZIKOPOULOS (2011) afirma que o grande desafio transformar estes dados em conhecimento. A partir da, inmeras empresas buscam encontrar uma maneira de sair na frente e transformar esses dados em informaes valiosas para serem vendidos, e a preo de ouro, porm KRUG (2013) ressalta que mais da metade das empresas no consegue efetuar tal anlise, ou seja, tem a capacidade de capturar e armazenar grande volume de dados e, no entanto, enfrentam dificuldades no momento de process-los de forma rpida e eficiente. De acordo com VIEIRA, M. R et. al. (2012), o conceito Big Data pode ser resumidamente definido como uma coleo de bases de dados to complexa e volumosa que se torna muito difcil (ou impossvel) e complexa fazer algumas operaes simples (e.g., remoo, ordenao, sumarizao) de forma eficiente utilizando Sistemas Gerenciadores de Bases de Dados (SGBD) tradicionais. Nesse processo, os dados passaram de estruturados (tabelas, nomes, padres) para serem dados semiestruturados ou at no estruturados. E para que eles possam ser utilizados de forma eficiente nas tomadas de deciso e/ou planejamento estratgico, por exemplo, precisam estar disponveis em tempo real. Isto porque o valor de muitos dados tem vida curta, dado o dinamismo com que so produzidos (ZIKOPOULOS, 2011). Entre eles destacamos as postagens constantes de contedos nas redes sociais. Uma das tendncias apresentadas para solucionar os problemas e desafios gerados pelo contexto Big Data conhecido como NoSQL (Not only SQL), que trouxe novas vises de soluo para esse estudo. Atualmente, existe uma grande adoo e difuso de tecnologias

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

NoSQL nos mais diversos domnios de aplicao no contexto de Big Data. Esses domnios envolvem, em sua maioria, os quais os SBGD tradicionais ainda so fortemente dominantes como, por exemplo, instituies financeiras, agncias governamentais, e comercio de produtos de varejo. Isto pode ser explicado pelo fato que existe uma demanda muito grande para solues que tenham alta flexibilidade, escalabilidade, performance, e suporte a diferentes modelos de dados complexos. Atravs deste trabalho tentarei apresentar as caractersticas da Big Data, suas vantagens, oportunidades e desafios, qual a sua influncia e quais as mudanas sero necessrias nos softwares e sistemas de anlise para compreender o que est por vir. Para isso ser necessrio rever os conceitos sobre Data Warehouse e das tcnicas de Data Mining atuais que auxiliaro nos trabalhos futuros. Ser explorada tambm a aplicao da ferramenta Splunk, com foco na anlise do fluxo de dados e registros de contedo num servidor de hospedagem para web, atravs dos seus arquivos de log.

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

2. Justificativa
De acordo com pesquisas recentes a IBM afirmou que 90% dos dados existentes na web foram gerados nos ltimos dois anos, dessa forma, muito do que produzido nem se quer passa por uma anlise. Usando ferramentas ideais e realizando um bom trabalho de minerao de dados ser possvel extrair informaes valiosas dentro do domnio estabelecido e com isso uma srie de melhorias e oportunidades podem surgir. Com a necessidade de converter todo e/ou qualquer dado em informao faz com que as tcnicas sejam aprimoradas e ao mesmo tempo colocadas em prtica a fim de alcanar os objetivos desejados. Seja para a rea social, poltica, industrial, econmica ou qualquer outra seria possvel apresentar valor, atrair investimento ou ainda descobrir tendncias. E com isso torna-se possvel realizar aes mais focadas na melhoria dos servios.

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

3. Objetivos
A seguir sero apresentados o objetivo geral e os especficos que nortearo a conduo deste projeto.

3.1 Objetivo Geral


O objetivo geral caracterizar e exemplificar o termo Big Data com intuito de compreender o seu surgimento e aplicao no atual cenrio de dados gerados de forma continua e aleatria na internet.

3.2 Objetivos Especficos


Junto com a pesquisa tentarei atingir os seguintes objetivos especficos: Objetivo especfico 1: Apresentar o Data Warehouse e o Data Mining como tcnicas que auxiliam o Big Data e no o contrario; Objetivo especfico 2: Promover o entendimento sobre dados estruturados e no estruturados; Objetivo especfico 3: Usar a ferramenta Splunk para exemplificar a anlise de dados no estruturados num servidor web.

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

4. Reviso da Literatura
Com o passar dos anos os dados gerados diariamente ao redor do mundo tornaram-se to grandes que se inviabilizam de ser analisado com as tcnicas atuais, Joe Hellerstein, cientista da computao na University of California, em Berkeley (USA), chama isso de a revoluo industrial do dado. O efeito est sendo sentido em todos os lugares, desde os negcios at a cincia, do governo a artes. Cientistas e engenheiros da computao cunharam um novo termo para o fenmeno: big data. De acordo com LIMA JUNIOR (2011) Big data refere-se ao conjunto de dados (dataset) cujo tamanho est alm da habilidade de ferramentas tpicas de banco de capturar, gerenciar e analisar. A definio intencionalmente subjetiva e incorpora uma definio mvel de como um grande conjunto de dados necessita a fim de ser considerada Big data. No definimos Big data em termos de ser maior do que certo nmero de Terabytes (milhares de Gigabytes). Porm essa mudana no ocorreu de forma repentina e desde a dcada de 80 surgiram os primeiros conceitos sobre Data Warehouse que segundo OLIVEIRA (2008) um sistema de computao utilizado para armazenar informaes relativas s atividades de uma organizao em bancos de dados, de forma consolidada. O Data Warehouse possibilita a anlise de grandes volumes de dados coletados dos sistemas transacionais (OLTP). Com o volume de dados armazenados crescendo diariamente, responder uma questo tornou-se crucial: O que fazer com os dados armazenados? As tcnicas tradicionais de explorao de dados no so mais adequadas para tratar a grande maioria dos repositrios. Com a finalidade de responder a esta questo, foi proposta, no final da dcada de 80, a Minerao de Dados, do ingls Data Mining. Segundo Fayyad (1996), o modelo tradicional para transformao dos dados em informao (conhecimento) consiste em um processamento manual de todas essas informaes por especialistas que, ento, produzem relatrios que devero ser analisados. Na grande maioria das situaes, devido ao grande volume de dados, esse processo manual tornase impraticvel. Ainda segundo Fayyad (1996), o KDD (Knowledge Discovery in Databases ou Descoberta de Conhecimento nas Bases de Dados) uma tentativa de solucionar o problema

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

causado pela chamada "era da informao": a sobrecarga de dados. O KDD refere-se a todo o processo de descoberta de conhecimento, e a Minerao de Dados a uma das atividades do processo. A partir da irei trabalhar conceitos importantes sobre dados estruturados e no estruturados, segundo CLARO (2012), os dados mantidos em um SGBD so chamados de dados estruturados por manterem a mesma estrutura de representao (rgida), previamente projetada (esquema), j os dados que no possuem uma estrutura definida e que normalmente so caracterizados por serem documentos de textos, imagens, vdeos, etc. So ditos dados no estruturados. Atualmente esses formam a maioria dos dados nas empresas e na internet. Para exemplificar todo esse quadro de anlise de dados que existe atualmente irei fazer uso da ferramenta de anlise de dados SPLUNK, escolhida por ser simples e fcil de ser configurada e administrada, tambm trata-se de um software livre e com isso no precisa ser comprada para uso, a mesma apresenta uma verso mais robusta que paga, mas no ser usada na pesquisa. Sero analisados logs de um servidor web a fim de encontrar padres e informaes teis dos acessos realizados pelos usurios.

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

5. Cronograma

ATIVIDADES PARA 2013.2 Reviso da literatura Criao e configurao de cenrio para anlise Captao dos resultados Entrega e apresentao do projeto

AGO

SET

OUT

NOV

DEZ

JAN

FEV

INSTITUTO FEDERAL DE ALAGOAS - IFAL Bacharelado em Sistemas de Informao Disciplina: Tpicos Especiais em Sistemas de Informao 1

Referncias
KRUG, Daniel. Hadoop: Processando Grande Volume de Dados. Universidade Feevale, Novo Hamburgo, 2013. ZIKOPOULOS, Paul C., et al. Understanding Big Data: Analytics for Enterprise Class Hadoop and Streaming Data. 1.ed. New York, NY. McGraw-Hill, 2011. TAURION, Cezar. Big Data: nova fronteira em gerenciamento de dados. developerWorks Brasil, 2011. Disponvel em <https://www.ibm.com/developerworks/mydeveloperworks/blogs/ctaurion/entry/big_data_no va_fronteira_em_gerenciamento_de_dados?lang=pt_br>. Acesso em: 14/07/2013. VIEIRA, M. R; FIGUEIREDO, J. M; LIBERATTI, G; VIEBRANTZ, A. F. M. Bancos de Dados NoSQL: Conceitos, Ferramentas, Linguagens e Estudos de Casos no Contexto de Big Data. IBM Research Laboratory Brasil, Instituto de Computao Universidade Federal de Mato Grosso (UFMT). Simpsio Brasileiro de Bancos de Dados - SBBD 2012. OLIVEIRA, M. Data Warehouse. Disponvel <http://www.datawarehouse.inf.br/academicos.htm>. Acesso em: 15/07/2013. em:

LIMA JUNIOR, W. T. Jornalismo Computacional em funo da Era do Big Data. SBPJor Associao Brasileira de Pesquisadores em Jornalismo. 9. Encontro Nacional de Pesquisadores em Jornalismo. Rio de Janeiro, ECO- Universidade Federal do Rio de Janeiro, novembro de 2011. CLARO, D. B. Tpicos Avanados em Banco de Dados (Contedo Programtico: Dados Estruturados, Dados Semi-Estruturados e Dados no-estruturados. Cincia da Computao - Ufba Unifacs. 2012. FAYYAD, U; PIATETSKY-SHAPIRO, G; SMYTH, P. From Data Mining to Knowledge Discovery in Databases. American Association for Artificial Intelligence, 1996. CAMILO, C. O; SILVA, J. C. Minerao de Dados: Conceitos, Tarefas, Mtodos e Ferramentas. Instituto de Informtica. Universidade Federal de Gois. Agosto 2009