Você está na página 1de 37
soora%6 Daa Science | Ciéncia ¢ Dados » Inicio » Aop » Sobre » Slide Share » Contato Tag Archives: Data Science CERTIFICACOES EM DATA SCIENCE E BIG DATA Este é um excelente momento para se tornar um profissional de dados. A explosao do Big Data e revolucao dos dados, esté criando um novo mercado profissional. Profissées novas esto surgindo, enquanto outras est4o sendo redesenhadas. A contratacdo de profissionais de dados comeca a chamar a atengao do mercado e prograi rriculo. de certificagdo podem fazer a diferenca no set As certificagdes profissionais sao um diferencial importante, pois elas atestam um determinado grau de proficiéncia em uma drea especifica, permitindo que os profissionais demonstrem suas habilidades, asm de adquirir forte experiéncia durante a jornada para a certificacao, hitplwwwcloncisedados. com agldeta- science! 37 soor2016 Daa Science | Ciéncia ¢ Dados Mesmo relativamente recentes, as dreas de Big Data e Data Science possuem certificagdes poderosas. Como toda certificagao que ainda esté em sua fase inicial, muitos néo dao a devida atengio, perdendo assim a oportunidade de adquirir a certificagao ainda cedo na carreira e se destacar no mercado. A certificagdo profissional € um marcador de qualidade que ajuda o empregador a avaliar a eficdcia e as qualificagdes de um potencial candidato. A certificagao reduz 0 risco e simplifica a procura através da validacao do conhecimento, fornecendo uma base de contratacao. Quando a certificacao profissional é uma exigéncia em um antincio de trabalho, o volume de candidatos ¢ incrivelmente menor. A lista a seguir contém algumas das principais certificagdes em Data Science e Big Data existentes atualmente Microsoft Certified Solutions Expert ~ Data Platform Cloudera Certified Professional - Data Scientist Cloudera Certified Professional - Data Engineer Cloudera Certified Associate ~ Spark and Hadoop Developer Certified Analytics Professional (CAP) HDP Certified Developer HDP Certified Administrator HDP Certified Java Developer EMC Data Scientist SAS Certified Data Scientist SAS Certified Big Data Professional SAS Certified Advanced Analytics Professional Teradata 12 Certified Enterprise Architect © portal de treinamento online Data Science Academy, teré programas de preparacao (em portugués), para algumas destas certificacdes. David Matos hitptwww cloncisedados.com agitate science! 287 soora%6 Observe bem este ntimero: pesquisas mostram que s6 nos EUA, as fraudes sao responsaveis por prejutzos na ordem de 5% do faturamento em pelo menos 30% cas empresas. Pense nas empresas biliondrias que existem por ld e fica facil imaginar 0 tamanho do problema, E no Brasil, esse ntimero talver seja ainda maior. O fato é que a fraude sempre esteve entre nds, Organizagdes criminosas ou mesmo a aco isolada de uma ou duas pessoas, podem levar a prejuizos financeiros, desvios orcamentarios, contratos fraudulentos e etc... Nao, este artigo nao trata da operacao Lava Jato da Policia Federal. Este artigo é sobre Data Science e como ela pode ser usada na deteccdo e previsdo de fraudes. Fraude nao é um fendmeno apenas da nossa sociedade moderna. Ao longo da histéria, a humanidade tem se especializado em acdes fraudulentas. Entretanto, nunca tivemos tantas ferramentas como hoje, para detectar € prevenir as fraudes. Mas o que é fraude? Fraude envolve uma ou mais pessoas que intencionalmente atuam secretamente para privar outro de algo de valor, para seu proprio beneficio. Fraude € um evento criminoso, incomum, imperceptivel, que requer tempo para ser concretizado e pode aparecer em muitas diferentes formas, tais como: fraude com cartéo de crécito, fraude com seguro, fraude no plano de satide, manipulacdo de sistemas, corrupcao, lavagem de dinheiro, cibercrime e a lista poderia seguir indefinidamente. A fraude ocorre por diversas razdes. Seja por um problema financeiro, que leve a buscar formas de se ganhar mais dinheiro, seja por pura falta de cardter ou apenas uma oportunidade. Como diz 0 velho ditado brasileiro: "a ocasido faz o ladrao’. Independente da raz3o que motivou a fraude, deteccdo e prevengao de fraude sic dois temas bastante abordados em eventos de Data Science pelo mundo e Cientistas de Dados capazes de lidar com este tipo de problema, estdo sendo disputados pelas maiores empresas do mundo. Os dois principais componentes no combate as fraudes, so a detecc3o e a prevenco. A deteccio de fraudes refere-se & habilidade de detectar o evento fraudulento, buscando padrdes e reconhecendo a ocorréncie do evento. Ou seja, buscamos formas de identificar se a fraude ocorreu. J4 a prevencdo, esta sim bem mais complicada, busca analisar e prever os eventos fraudulentos, antes que ocorram. Vocé assistiu o filme Minority Report, cam Tom Cruise? Pois bem, no filme, os crimes eram previstos antes da sua ocorréncia, em alguns casos, poucos segundos antes. O filme gerou discussdes éticas, pois como um criminoso poderia ser preso, se no chegou a cometer o crime? Trazendo isso para a vida real, ao detectarmos uma fraude antes da sua ocorréncia, podemos fechar a porta, antes que o criminoso tente sair. No minimo, podemos evitar o prejulzo financeiro. hitplwwwcloncisedados. com agldeta- science! 397 Dados x Fraudes A deteccao e prevengao de fraudes é um campo em crescimento. Governos, empresas, midia € o puiblico em geral, tem visto a fraude no apenas como um problema econémico, mas também social e embora muito avango tenha ocorrido na deleccdo de fraudes, através da adacio de melodologias estatislicas para a andlise de quantidades massivas de dados, ainda € dificil detectar e prever a ocorréncia de eventos fraudulentos. A fraude em si, é um fendmeno dinamico, que muda e se adapta ao longo do tempo e as pessoas que cometem fraudes, so normalmente experts naquilo que fazem, 0 que torna 0 desafio de combate & fraude ainda maior. E por isso mesmo, os métodos tradicionais de andlises de dados nao tém sido cagazes de identificar e prever as fraudes, mesmo com os dados disponiveis. € quando entra em acdo a Ciéncia de Dados, principalmente o campo de Machine Learning. © volume de dados gerado pele Big Data e as técnicas e ferramentas da Ciéncia de Dados, estdc criando um novo nicho profissional. © combate a fraude esta se tornande um departamento dentro das empresas, focado ndo apenas no combate as fraudes internas, mas externas também. Operadoras de cartao de crédito, de telefonia, bancos, indUstrias. Todos estado criando seus departamentos de combate a fraude. E esto usando Data Science para isso. Técnicas de Deteccdo de Fraudes As Lécnicas de andlise de dados Lradicionais orientadas a extrair insights dos dados, ajudam no processo de gerar conhecimento a partir dos dados. Mas ha um problema! Estas técnicas de andlise foram criadas por analistas humanos, também suscetiveis a fraude. Um sistema de anilise de dados para deteccéo e prevengio de fraudes tem de estar equipado com uma quantidade substancial de conhecimento e ser capaz de executar tarefas de raciocinio envalvendo esse conhecimento com novos dados fornecidos. No esforco para atingir esse objetivo, os Cientistas de Dados voltaram-se para o Machine Learning (Aprendizado de Maquina). Basicamente, 0 objetivo da aprendizagem de maquina € converter dados e exemplos (entrada) em conhecimento (sa‘d). Com aprendizagem de maquina, as empresas podem extrair insights para obter as informagSes que os colaca & frente do evento fraudulento por meio de acesso a tendéncias e previsdes. O aprendizado de maquina permite automatizar 0 processo de combate as fraudes, mesmo sendo este um processo dinamico. hip: cienciaedadcs.com agitate scence! 437 soora%6 Daa Science | jae Dados Algumas técnicas de Data Science, utilizadas no combate a fraude (Dé uma olhada neste post Conceitos Fundamentais de Machine Learning, caso tenha dtividas sobre alguns dos termos descritos aqui) Deteccdo baseada em técnicas de aprendizagem ndo-supervisionada - esta técnica busca encontrar comportamento que se desvia do comportamento normal, ou seja, detectar anomalias, Nesta técnica, algoritmos de Machine Learning aprendem a partir de observacées de dados histéricos e sao chamados ndo- supervisionados pois nao requerem que os dados sejam previamente marcados como sendo do tipo fraudulento ou nao fraudulento, Um exemplo é 0 comportamento que no segue o padrae normal no consumo de planos de celulares. Ligagdes entre duas cidades, seguem um determinado padrao de duragao e ligagées que fujam deste padrdo, podem ser consideradas anomalias e separadas para investigacao posterior (obviamente eu estou simplificando 0 conceito, que é bem mais amplo). Se pode parecer simples para vocé, tente imaginar quantas mithdes de ligagées sao realizadas por dia e como este processo pode ser alvo de fraude, sem que niinguém perceba, Detecco de outliers - esta técnica permite detectar uma fragdo significante de eventos fraudulentos, que sejamn diferentes do histérico de fraudes, ou seja, fraudes que utiliza um novo mecanismo, resultante de um novo padrdo. Estes novos padrées, padem ndo ser facilmente detectados por sistemas avangados de Machine Learning € um conceito basico de estatistica (outliers), pode ser empregado nos algoritmos de deteccdo de fraudes. Anélise preditiva através de aprendizagem supervisionada - nesta técnica, os dados histéricos ou observacdes slo usados para identificar padres e diferenciar comportamento normal do comportamento fraudulento. Esta técnica é usada como um alarme silencioso, para descobrir aquilo que o criminoso n3o conseguiu esconder. Esta técnica pode ser usada tanto para detectar quanto para prever agdes fraudulentas e até mesmo para estimar 0 tamanho da fraude. A principal limitag3o desta técnica, ¢ que so necessérios dados de exernplos para treinar o algoritmo, ou seja, é preciso ensinar com fraudes j4 concretizadas. Isso reduz e muito a possibilidade de detectar novos mecanismos de fraude. Anélise de redes sociais - aqui o Big Data entra em ac3o. A coleta de movimentos nas redes sociais das pessoas e empresas que paderiam ser potenciais fraudadores, em conjunto com os dados internos da empresa efetuando a andlise, ajuda a criar um algoritmo paderoso de combate as fraudes. A andlise de redes sociais & uma das novas tendéncias no cambate & fraude. Estas técnicas se complementam e podem focar em diferentes aspectos de uma fraude. Um sistema eficiente de combate a fraude, combina estas técnicas, que juntas se tornam ainda mais poderosas. Eu considero este assunto fascinante e gostaria de ouvir sua opinido. Deixe seu comentario. Voltaremos 2 este tema em breve! David Matos hitplwwwcloncisedados. com agldeta- science! 597 soora%6 Daa Science | Ciéncia ¢ Dados Referéncias: Association of Certified Fraud Examin; Cientista de Dados na Andlise de Crimes 10 HABILIDADES DE UM CIENTISTA DE DADOS »fissiio de Cientista de Dados continua crescendo na mesma velocidade em que os dados sao gerados pela e. Conceitos como Big Data e Ciéncia de Dados ganham cada vez mais importanc’ 's80, buscam e' dentro das humana: empresas. Profissionais ate tender como aproveitar © conhecimento que jé mérica do Norte e Europa (veja fe ie A od « @ Mas afinal, que habilidades deve ter 0 Cientista de sional to buscad ? Que conhecimentos o fazem um pro! jtualmente? Tenho visto al € um Cientista de Dados. Definicées co 0 “Cientista de Dados é um estatistico que sabe program: ista de Dados é um programador que sabe estatistica" ndo poderiam ser mais equivacadas e demonsiram como as habilidades necessérias para se tornar Cientista sto claras. Dados ainda n& Para ajudar os profissionais, 0 site Analytics Week tem realizado diversas pesquisas entre os profissionais que j trabalham como Cientista de Dados, com 0 objetivo de mapear e entender quais s4o suas habilidades. Eles chegaram a uma conclusao interessante: 05 Cientistas de Dados ndo possuem a mesma formacio e conjunto dat iferem em relay de habilidades. Ou seja, os profissionai as competéncias que possuem. Por exemplo, alguns profissionais sdo proficientes em habilidades estatisticas e matematicas, enquanto ot hitplwwwcloncisedados. com agldeta- science! ea7 sore Data Science |Cincia« Dados proficientes em habilidades de ciéncia da computacao. Outros ainda tém uma forte visio de negécios, enquanto outros so mais focados em desenvolvimento de produtos. A analise tentou determinar a amplitude do talento que 0s profissionais de dados possuem, para entender melhor a possibilidade de encontrar um nico Cientista de Dados que seja especializado em todas as éreas (0 chamado profissional Unicémio). A conclusio clara: O profissional que conseguir reunir todas as habilidades, seré definitivamente Gnico no mercado, mas serd imo de encontrar (e por isso mesmo, muito bem remunerado}. A Ciéncia de Dados é na verdade um rte coletivo, em que cada membro da equipe possui habilidades analiticas que se complementam. Veremos vez mais, Data Science Teams, sendo formados dentro das empresas, exatamente pela inviabilidade se Atrar um Unico profissional que retina todas as habilidades necessdrias de Ciéncia de Dados. Essa lusdo é bem animadora, pois significa que haverd ainda mais espaco para profissionais com habilidades sicas € conhecimento em Ciéncia de Dados. Mas quais sao as habilidades necessarias a um Cientista de Dados? A pesquisa inicialmente levou a estas 25 habilidades divididas por area de especializacao’ Design e Desenvolvimento de Produto Gestdo de Projetos Business: Desenvolvimento de Negdcios Governanga e Compliance Finangas Gestio de dados estruturados (RDBMS, SQL, XML) Gestéo de dados néo-estruturados (Bancos de dados NoSQL) Tecnologia _Processamento de Linguagem Natural (NLP) ‘Machine Learning (arvores de decisio, redes neurais, cluste Big Data (Hadoop, MapReduce, Spark) Otimizags0 Matematica Matemética® odelos arficos lage ‘Aigoritmos Estatistica Bayesiana Administracdo de Sistemas ProgramagSoe — Administrac3o de Banco de Dados Administragiode Cloud Sistemas Programacao Back-end Programacdo Front-end Gestdo de dados Data Mining e Visualizacao Estatistica __ Modelagem estatistica Design de experimentos Apés realizar a pesquisa com profissionais de Ciéncia de Dados e busca em perfis no LinkedIn, estas foram as 10 habilidades mais encontradas nos profissionais que trabalham como Cientistas de Dados: hitplwwwcloncisedados. com agldeta- science! 737 soora%6 Daa Science | Ciéncia ¢ Dados » Comunicacao » Gestéo de Dados Estruturados » Matematica » Gestéo de Projetos » Data Mining e Visualizacao » Design de Experimentos » Gestio de Dados » Design e Desenvolvimento de Produtos » Modelagem estatistica » Desenvolvimento de negécios A lista das principais habilidades de Ciéncia de Dados depende do tipo de Cientistas de Dados que se esté considerando. Enquanto algumas habilidaces de Ciéncia Dados parecem ser comuns entre os diferentes tipos de profissionais de dados (ou seja, Comunicacéo, Gerenciamento de dados estruturados, matemética, mineragao de dados e ferramentas de visualizacao, gestdo de dados e design e desenvolvimento de produto), outras habilidades s80 Gnicas para determinadas fungées, sejam elas de Analista de Dados, Cientista de Dados, Engenheiro de Dados, Analista de Marketing, etc... (Clique aqui para acessar o posto sobre carreiras em Data Science). Um outro artigo também interessante, escrito por DJ Patil, (talvez hoje um dos Cientistas de Dados mais famosos do mundo, nomeado recentemente pelo Presidente dos EUA como U.S. Chief Data Scientist da Casa Branca) ¢ publicado na Harvard Business Review, afirma que as habilidades do Cientista de Dados dependem da fungao que ele exerce, sejam elas mais técnicas ou mais voltadas para a criacdo de produtos ou apps de anlise de dados. Segundo o artigo, estas seriam as habilidades necessarias para se tornar um Cientista de Dados: » Conhecimento em linguagens de programacao de andlise de dados (R, Python e SQL » Comunicagao » Visualizago de Dados » Data Mining » Estatistica » Infraestrutura de Big Data (Hadoop, MapReduce e Spark) » Machine Learning » Engenharia de Software » Algebra Linear » Foco em soluco de problemas Ha ainda um artigo escrito por Ferris Jumah, Cientista de Dados bastante atuante na comunidade internacional, que listou estas como sende as habilidades principais de quem trabalha como Cientista de Dados: hitplwwwcloncisedados. com agldeta- science! as7 soora%6 Daa Science | Ciéncia ¢ Dados “Data Mining “Machine Learning R Python Data Analysis _ Statistics sQk j Java Matlab | Algorithms Perceba que extraimos as habilidades do Cientistas de Dados de 3 fontes diferentes e que chegamos basicamente a0 mesmo resultado. A verdade € que os profssionais que forem capazes de adquirir esses conhecimentos, estarao no radar dos recrutadores e das empresas e fardo parte de equipes de Ciéncia de Dados. Eu concordo plenamente com todas as habilidades listadas e acrescentaria ainda a habilidade de ser Contador de Historias (leia aaui o post sobre isso) © Cientista de Dados deve focar no apenas nas habilidades técnicas, mas também nas suas habilidades pessoais, principalmente Comunicacao. O objetivo final de qualquer andlise de dados é gerar suporte para a tomada de decisées e isso precisa ser comunicado de forma eficiente ou todo o trabalho de anélise no fara muito sentido, David Matos Referéncias: Analytics Week Investigating Data Scientists, their Skills and Team Makeup Data Scientists and the practice of Data Science Carreiras em Data Science ACIENCIA DE DADOS EM 2016 bs A Ciéncia de Dados em 2016 hitplwwwcloncisedados. com agldeta- science! 997 soora%6 Daa Science | jae Dados © ano de 2015 vai chegando ao fim, © ano que parecia no acabar nunca, vai dando seus iltimos suspiros e 2016 vem ai trazendo mais 365 oportunidades. E fazer previsdes é sempre algo arriscado. Se vocé acerta, comeca a pressao para que acerte sempre. Se vocé erra, comecam a dizer que vocé nao sabe 0 que esta falando, Mas vou me arriscar, com base em tudo que vi ao longo de 2015 e fazer algumas previsdes. A Ciéncia de Dados em 2016. E para comecar, a frase de Michael Dell, fundador e presidente da Dell: " Big Data Analytics é 0 proximo mercado de 1 trilhio de délares!* Esta frase foi proferida por Michael Dell, em um artigo recente na revista Forbes, uma das mais respeitadas no mundo. E se parece otimista demais ou nao, © tempo vai dizer, mas uma das coisas que mais me charmou atencao ao longo de 2015, foi exatamente o movimento dos gigantes da tecnologia: IBM, Microsoft, Oracle, Dell, Google, etc....em direcao a Ciéncia de Dados e todas as tecnologias que cercam este conceito, como Big Data, Analytics, Internet das Coisas e muito mais. Estas empresas investem bilhdes de délares em pesquisa e desenvolvimento € se elas estdo se movimentando para criar solucdes relacionadas a Data Science, é bem provavel que elas estejam seguindo na direcao certa Mas nao so apenas as gigantes da tecnologia que esto atentas ao volume de dados gerado no planeta. Muitas Startups foram lancadas em 2015, ligadas a Data Science, Big Data ¢ principalmente a Internet das Coisas. No Brasil o movimento ainda é pequeno, mas na América do Norte e na Europa, as startups avancam de forma espantosa, Jé existe startup de Internet das Coisas, criada em Israel, vendendo solugées no Brasil. E como as startups so mais ageis, inovadoras e em seu DNA esté a esséncia da experimentacéo e riscos, elas conseguem gerar em pouco tempo, solugdes que jé estio fazendo diferenca na vida das pessoas. E esta disrup¢ao provocada pela transformago digital afetaré de forma mais intensa ¢ bem mais rapido a maioria das empresas, muitas das quais ainda esto um pouco relutantes em reconhecer este cenatio. ANALYTICS © Analytics convencional exige que os analistas primeiro forme uma hipstese - uma pergunta - ¢, em seguida, consultem os dados em busca da resposta para essa pergunta. A fim de chegar a resultados precisos, este modelo pressupde que 1) 0 analista sabe as perguntas certas que precisam ser feitas e 2) a hipdtese e os insights resultantes sdo livres de preconceito. Mas, € claro, ambos os objetivos so impossiveis de alcangar. Os seres humanos ndo podem saber todas as perguntas certas e, por nossa propria natureza, essas perguntas so carregadas com viés, influenciadas por nossas presungées, selegdes e aquilo que intuilivamente esperamos ver. Em 2016, veremos uma forte mudanca no conceito de Analytics, pois a aprendizagem de maquina vem avancando rapidamente e em breve poderé substituir 0 ser humano na tarefa de descobrir padres nos dados, elaborando as questées corretas, sem limitagdes ou viés. Segundo as principais publicacdes ligadas a Data Science, havera uma explosao de solugdes analiticas baseadas em nuvem projetados para alcancar 0 mercado de médias e pequenas empresas Ip se cincinodades eartayste scence! 1007 soora%6 ‘APRENDIZADO DE MAQUINA © aprendizado de maquina (Machine Learning), vai revolucionar 0 mercado de solugdes de analytics. Mas 0 proprio aprendizado de maquina passeré por mudancas significativas no préximo ano. No aprendizado avancado da maquina, as Redes Neurais Profundas (DNN) se movimentam além da computago classica e da gestdo da informacdo, criando assim sistemas que podem se tornar capazes de perceber 0 mundo de maneira auténoma. Quando as multiplas fontes de dados e a complexidade da informaco se tornam invidveis e nao rentaveis para a classificago e andlise manual, as DNNs acabam automatizando essas tarefas e possibilitando a abordagem de desafos-chave relacionados com as tendéncias. As DNNs séo uma forma avancada de aprendizado de maquina, que é particularmente aplicével a conjuntos de dados grandes e complexos, fazendo com que equipamentos inteligentes parecam inteligentes de fato. Elas também permitem que sistemas de hardware, ou baseados em software, aprendam sozinhos todos os recursos disponiveis em seu ambiente, desde os menores detalhes até classes abstratas. Esta drea esté em constante evolucao as organizacdes precisam aprender a aplicar as tecnalogias para obter uma vantage competitiva, BIG DATA © Big Data foi usado nos ultimos anos como um apelo de venda, para que grandes pacotes de software pudessem ser vendidos, mesmo sem a tecnologia e conceito estarem devidamente maduros. As empresas foram informadas de que tudo que elas precisavam fazer é comprar e implementar esta ou aquela nova tecnologia e magicamente, elas teriam surpreendentes novos resultados de seus negécios. Infelizmente, como qualquer inovacao tecnolégica que o precedeu, Big Data é apenas um facilitador, intensificador ¢ amplificador, Se os seus processos de negécio ou abordagens de gestdo so ruins, Big Data ird tornd-los muito piores. Em 2015 comecau © movimento das empresas saindo do mundo de ilusdo e percebendo que para colher os frutos de uma solugao de Big Data, seria necessario primeiro arrumar a casa e compreender 0 conceito de Big Data, Big Data nao € apenas a criagdo de relatério ou dashboards visualmente atrativos, Big Data é a oportunidade de organizar as fontes de dados e utilizé-las para obter insights que permitam mudangas substancials na forma como a empresa opera seu negécio, Agora que 0 conceito de Big Data amadureceu, ji podemos ver como ele esté mudando e imoactando positivamente a vida das pessoas. No fim, é para isso que toda tecnologia deveria ser usada. E 2016 ser o ano da consolidac3o do Big Data. Por que? A competitividade é cada vez maior e a empresa precisa olhar seus processos por outras perspectivas. Precisa compreender 0 que os dados estSo dizendo, cruzar as informagSes, personalizar a experiéncia do cliente e continuar gerando lucros. Métodos tradicionais jé no funcionam mais. © Big Data vai permitir uma revoluc3o ma forma como uma empresa opera 0 negécio no diaadia A prova que o Big Data comeca a se consolidar, foi a criag3o do primeiro padrao para a tecnologia. A Uni8o Internacional de Telecomunicagdes (UIT), agéncia das Nacdes Unidas que trabalha para promover a cooperacao global em uma variedade de reas técnicas, anunciou recentemente seu primeiro padrao para Big Data. hitplwwwcloncisedados. com agldeta- science! 87 soora%6 Daa Science | jae Dados Big Data vai continuar a estar no topo das prioridades para os lideres de Tl, em 2016. INTERNET DAS COISAS A Internet das Coisas € 0 buzz do momento. Depois de alguns anos falando sobre isso, as empresas comecar a se mexer. A Oracle lancou um portal de IoT (Internet of Things), a IBM criou um centro de desenvolvimento de novos negécios em IcT e muitas startups estdo sendo lancadas com solugdes nesta érea. A Internet das Coises surgiu no momento que a tecnologia est preparada para coletar, armazenar e analisar os dados gerados pelas coisas. Que coisas? Seu carro, geladeira, relégio, cachorro (sim, seu cachorro ndo € ume coisa, mas quando ele receber uma coleira com chip, ser possivel conhecer melhor seu comportamento J). O conceito de Big Data ser§ multiplicado alguns milhares ou milhdes de vezes, quando todas as coisas comecarem a gerar dados. Casas inieligentes j& so realidade, carros com mais de 100 sensores geram dados sobre vida util de seus componentes € comportamento de seus motoristas. Com o advento da conectividade (Wi-Fi, celular, Bluetooth, etc), as maquinas podem transmitir seus dados e informacdes de operago para outras maquinas, que por sua vez podem ser outros equipamentos que trabalham em conjunto com esta méquina, ou computadores que analisam os dados e tomam decisdes de controle, as vezes auxiliadas por interac3o do ser humano. Até 2020 serao 50 bilhdes de coisas conectadas. Em 2016 as empresas terao que olhar para a Internet das Coisas, no mais como uma tecnologia distante, mas como uma forma de criar novos produtos ¢ mudar a experiéncia com o cliente. Sabemos até onde chegaremos com IoT? F dificil imaginar. © proprio Tim Barnes-Lee, o inventor da Internet, disse: "Fu jamais imagine’ o que jria ser criado devido a invencao da Internet’. E, se 0 que veio depois da invengao da Internet, que objetivava um sistema simples de troca de e-mails e documentos, é uma previsio do que vai vir apés a defnicio & padronizacao de sistemas IoT, teremos que nos preparar para uma revolucao nunca vista no universo digital. ‘CIENCIA DE DADOS A Ciéncia de dados vai finalmente chegar no setor bancério, prevé Mike Weston, CEO da Profusao, consultoria em Data Science. "O setor financeiro € um dos pianeiros de técnicas de ciénci de dados’, escreve ele. "No enlanto, a adocao de ciéncia de dados esta longe de ser uniforme em todos os servigos bancarios. Em 2016 eu espero que essa imagem posse mudar. Melhor utilizagao de dados e personalizacao de servicos vai passar de mercados financeiros até as redes de varejo. Ela terd um profundo impacto sobre marketing, atendimento ao cliente e desenvolvimento de produtos. ". Eu concorde plenamente com Mike. Ainda no vimos 2 Ciéncia de Dados aplicada ao setor bancério, érea com grande volume de dados, que permitirao personalizar a experiéncia do cliente, Analises em tempo real é outro tema quente no préximo ano. O Apache Kafka (do ecossistema Hadoop) vai se tomar um ponto de integracéo de infraestrutura de dados da empresa, facilitando a criacdo de sistemas inieligentes, distribuldos. Kafka e outros sistemas de streaming como Spark e Storm irdo complementar bancos de dados como pecas criticas para o gerenciamento de dados entre aplicativos e data centers. Percebeu? Tecnologias que nao existiam poucos anos atrés, agora estarao no centra de tomadas de decisées das empresas. hitplwwwcloncisedados. com agldeta- science! on7 soora%6 Daa Science | Ciéncia ¢ Dados ‘CARREIRA, A revista CIO publicou um artigo (clique aqui) com as 7 carreiras mais quentes na drea de TI até 2020, sendo 4 ligadas 8 Ciéncia de Dados, Big Data, Analytics ¢ Internet das Coisas © IDC projeta que 40 zettabytes (28) de dados terdo sido gerados em 2020. Cada setor da indlistria agora reconhece o potencial de ambos os dados no estruturados e estruturados. © IDC projeta ainda, que em 2015 as organizacdes terdo aumentado seus gastos com Big Data em US $ 16,9 bilhdes. Se o mercado continuard aquecido em 2016, os nlimeros sero ainda mais impressionantes. Para a maioria das organizagées, Big Data Analytics vai emergir como uma pratica core business. Sem a ajuda de insights apoiados em dados, prevé-se que as empresas vo comecar a perder sua vantagem ¢ poder dentro do mercado. Como os dados continuam a crescer a uma taxa to grande e assume tal valor dentro das empresas, é possivel prever que muito em breve haverd algum tipo de anélise de dados em qualquer func3o dentro da empresa. Isto significa que para aqueles que tém habilidades de analise de dados, o seu crescimento no mercado de trabalho, sera praticamente ilimitado. Ja em 2015, previa-se a falta de profissionais qualificados em Ciéncia de Dados. Se todas as previsdes se confirmarem, poderé haver simplesmente um colapso. Muitas empresas buscando profissionais e poucos profissionais qualificados disponiveis. ‘CONCLUSAO Nés ainda ndo vimos nada. As mudangas estdo apenas comecando e jé mostrando seus impactos, Nos préximos anos nao reconheceremos muitas das empresas atuais e muitas delas simplesmente deixarao de existir. A questo para seus executivos € decidir hoje se querem ser sobreviventes ou nao. E vocé, de que lado quer estar? Dos profissionais que seréo responsdveis por estas mudancas ou do outro lado? Pense nisso! E Feliz 2016! David Matos JULIA - A PRINCESINHA DO CIENTISTA DE DADOS 1 Quando de trata de linguagens de programacdo para Ciéncia de Dados, duas linguagens surgem imediatamente nna frente de batalha: R e Python, Mas a Ciéncia de Dados vem crescendo de forma exponencial e ja est claro, que uma unica solugéo no irs atender a todos os requisites dos projetos de dados. Novas linguagens ¢ hitplwwwcloncisedados. com agldeta- science! 1387 sore Data Science |Clnciae Datos solugdes tém surgido como boas opcdes. Vivemos um momento incrivel na drea de tecnologia, que ver buscando novas formas de analisarmos o imenso volume de dados que aumenta a cada dia, Criada por Jeff Bezanson, Stefan Karpinski, Viral B. Shah e Alan Edelman em 2012 e, portanto, nascida na era do Big Data, a linguagem de programacéo Julia vem ganhando popularidade entre os Cientistas de Dados. Julia & uma linguagem de programacdo de alto nivel, dinamica e de alto desempenho para computacao cientifica, com uma sintaxe facil de escrever, similar ao Python. Ela fornece um compilador sofisticado, execucao paralela distribuida, preciso numérica e uma extensa biblioteca de funcdes matemiticas € estatisticas. Apesar de bastante nova e existir hd poucos anos, Julia esta rapidamente ganhando popularidade entre os Cientistas de Dados devido sua flexibilidade e facilidade de uso. Embora tenha sido projetada como uma linguagem genérica, Julia € capaz de lidar com qualquer tipo de aplicagdo e foi pensada para ser particularmente eficiente em utilizar o poder de sistemas distribuidos, como Hadoop, frequentemente utilizados em Big Data. Julia fol inspirada em diversas linguagens de programac3o come: C, LISP, Fortran, Python, Perl, Lua, R, Ruby € Matlab, Dai vem o fato da linguagem ter sido pensada para ser genérica, Abaixo algumas das principals caracteristicas da linguagem, relacionadas a Data Science: E uma linguagem de bom desempenho, que se aproxima de linguagens estaticamente compiladas como C Possui um gerenciador de pacotes para tornar a vida mais facil Permite fazer a chamada direta de fungdes escritas em C Permite fazer a chamada de fungées escritas em Python, usando © pacote PyCall Pacotes adicionais Julia estéo lentamente se aproximando das funcionalidades do SciPy, incluindo Stats. Distributions, Optim,jl e JuMP,jl. DataFrames;l fornece ferramentas para trabalhar com dados tabulares que seré familiar para os usuarios de Rou pandas, yurryy Y Foi projetada para paralelismo e computacdo distribulda Tipos definidos pelo usuario sao tao rapidos e compactos como tipos built-ins Permite geracdo automitica e eficiente de cédigo, especializado para diferentes tipos de argumentos vr? Gadfly fornece um pacote de visualizagdo similar 20 geplot2, enquanto PyPlotj| oferece uma interface completa para matplollib. Graphsjl fornece algumas das funcionalidades de pacotes como IGRAPH ou NetworkX. » Licenciamento MIT: livre € open source Julia também possui uma extensa lista de bibliotecas € pacotes prontos para uso, totalmente voltadas para anilises estatisticas e Ciéncia de Dados. No site https://github.com/JuliaStats € possivel encontrar muitos destes pacotes. hitplwwwcloncisedados. com agldeta- science! 1437 soora%6 Daa Science | Ciéncia ¢ Dados as No site da linguagem, hd um benchmark interessante, que demonstra que Julia € uma linguagem bem rapida. Acesse o Julia Benchmark aqui: http:/julialang.org/benchmarks A principal IDE da linguagem € 0 Juno, Mas é possivel testar a linguagem 100% online via browser, usando 0 Julia Box, Hé ainda 0 Wulia (similar ao iPython). Julia tem um crescendo rapidamente, mas ainda possui um ecossistema de pacotes, muito jovern. Se voce quer ser produtivo, Julia precisa fazer parte de um ambiente de varias linguagens como R ou Python. Quanto de seu trabalho pode ser feito usando apenas Julia, depende de suas necessidades espectficas. Os profissionais que pretendem construir novos modelos do zero utilizando algoritmos de otimizacao, vao achar que Julia jé est’ quase completa de recursos. As pessoas que dependem de grande colegao de pacotes estatisticos classicos {como a linguager R possui) vao achar que Julia ainda precisa evoluir e adquirir mais funcionalidades. Por fim, mais e mais da funcionalidades de estatistica em R serdo portadas para Julia, Em breve, podemos esperar que 2 maioria das tarefas de ciéncia de dados poderdo ser feitas em Julia com a mesma facilidade com que agora pode ser feito em Python ou R. David Matos Aproveito para deixar aqui uma simples e singela homenagem a minha sobrinha, recém nascida, Uma princesinha. O nome dela? Julia! & Links uteis: Site Oficial htto:/julialang.org/ IDE Juno: htto-//junolab.org/ Uulia: https://github.com/JuliaLang/(Julia.jl hitplwwwcloncisedados. com agldeta- science! 1597 soora%6 JuliaBox: https: /juliabox.ore/ DATA SCIENCE COM SCALA - SCALABLE LANGUAGE Reply Tem havido ultimamente, muita discussao sobre linguagens de programacio utilizadas em Data Science. Python e R so as mais populares entre os Cientistas de Dados, enquanto o Java tem sido a linguagem usada para aplicativos e desenvolvimento sobre Hadoop. Mas existem outras opgées que merecem ser consideradas. Uma destas opgies é a linguagem Scala (Scalable Language), que vem crescendo recentemente e apesar de algumas limitagées, € uma boa linguagem para criar uma plataforma de computacao estatistica eficiente e escalavel Com 0 crescimento de frameworks de Big Data, como Apache Spark e Apache Kafka, estamos vendo a adoc3o da linguagem Scala ganhando espaco entre os projetos de Rig Data e Ciéncia de Dados. De certa forma, a e ‘olha de uma linguagem de programaco para Data Science é bastante pessoal e existem vantagens e desvantagens em todas elas (clique aqui para ler o post com @ comparagao entre R e Python). Mas vamos falar um pouco sobre a Scala (pagina oficial aqui), Scala é uma linguagem de programacao para aplicacées de software em geral, que combina os paradigmas de programacao orientada a objetos e funcional, utilizando uma sintaxe concisa que € totalmente compativel com Java e é executado na JVM (méauina virtual Java). A linguagem foi originalmente desenvolvida por Martin Odersky cerca de 15 anos atrs, muito antes de surgir 0 conceito de Big Data. Os defensores da linguagem costumam citar a sua velocidade e expressividade como principais vantagens sobre outras linguagens de uso geral. Isso permite que programas escritos em Scala sejam concisos e, portanto, menor em tamanho do que outras linguagens de programacao. Muitas das decisées de design do Scala foram inspiradas pelas criticas as deficiéncias do Java, A linguagem tem sido fortemente adotada pelas empresas de midia social, tais como Foursquare Twitter, que em 2009 migrou de Ruby para Scala na maioria de seus sistemas de back-end. Vale mencionar ainda, que empresas como Linkedin, The Guardian © até mesmo a Sony, usam Scala em sua infraestrutura. Um dos grandes atrativos da linguagem, que & percebido logo de cara por programadores que j tenham experiencia em outras linguagens orientadas a objelos, é a quantidade de cédigo gerado. © tamanho de cédigo é normalmente reduzido pela metade ou a um tergo em relacdo a ume aplicagio Java equivalente. Mas uma das grandes vantagens em utilizar Scala em projetos de Big Data (que envolvam o Spark), ¢ a possibilidade de trabalhar todas as camadas na mesma linguagem. Isso traz diversas ventagens, tals como: maior velocidade de processamento, suporte para novas funcionalidades de forma instantanea (Spark é escrito 6 Scala} e melhor compreensao do funcionamento do Spark, permitindo extrair 0 maximo da ferramenta. Scala tem uma grande variedade de bibliotecas. Abaixo, algumas das principais bibliotecas Scala para uso em andlise de dados: hitplwwwcloncisedados. com agldeta- science! 1897 soora%6 Daa Science | Ciéncia ¢ Dados Saddle - biblioteca de manipulagao de dados de alta performance para Scala (similar a0 Pandas para Python), que permite a utilizacao de estrutura de dados dimensionais, ‘MLlib - framework de Machine Learning. Apache Zeppelin - Scala e Spark Noteback (similar ao iPython Notebook). Spire - biblioteca numérica para Scala, criada para ser genérica, rapida e precisa. Algebird - élgebra abstrata. Esta biblioteca tem como objetivo a construcao de sistemas de agregacdo. Axl ~ biblioteca open source para computagéo cientifica Chalk - biblioteca para processamento de linguagem natural Breeze - biblioteca para processamento numérico e Algebra linear. Factorie - toolkit para modelagem probabilistica. Squants - API para medidas de unidade e andlise dimensional PredictionlO - framework open source de Machine Learning, para desenvolvedores e Cientistas de Dados. Eigaro - linguagem de programacao probabillstica, Scalding - biblioteca para especificacao de jobs Hadoop e MapReduce. Epic - framework para andlise preditiva Puck - processador de linguagem natural. ScalaNLP - suite de bibliotecas de Machine Learning que inclui o Breeze, Epic ¢ Puck Caso tenha interesse em conhecer um pouco mais a Scala ou mesmo experimentar, vocé pode fazer 0 download do IDE aqui, A linguagem de programacio Scala permite criar uma base solida para construir uma plataforma de computacao estatistica escalavel e eficiente. Embora R e Python sejam as linguagens mais utilizadas em Ciéncia de Dados, vale a pena conhecer um pouco mais sobre outras opcées para o desenvolvimento de algoritmos. Espera-se que no longo prazo, Scala possa se tornar uma estrutura completa para estatisticas e Data Science. David Matos hitplwwwcloncisedados. com agldeta- science! 787 soora%6 Com a explosio da andlise de dacos e do Big Data, a busca por profissionais capazes de extrair, analisar e gerar insights dos dados, nao para de crescer. Veja este grafico do site de empregos Indeed, E como se 0 mercado tivesse acordado de um sono profundo e percebido que o mundo nunca gerou tantos dados quanto agora. Job Trend fom inseed com "baa sinus 5 pe TRO eee ee fw Fw aN a aS A explosio na busca por profissionais de dados tem levado a criagao de novas carreiras, bem como a reinvencao de outras. Por mais que os conceitos de dados existam a séculos, as tecnologias que surgiram recentemente, permitem fazer coisas que nao eram possiveis antes, sem falar no fato que o volume de dados pela humanidade nunca foi téo grande. Na prética, todos as profissdes envolvem a coleta ¢ andlise de dados, mas gostaria de descrever aqui as carreiras que mais estao sendo requisitadas, principalmente pelas empresas que jé comecaram seus projetos de Big Data. ANALISTA DE NEGOCIO No alual complexo ambiente de negécios de uma organizaco, adaplabilidade, agilidade e capacidade de gerir 2 mudanga constante através da inovagdo, pode ser a chave para 0 sucesso. Os métodos tradicionais ja nao podem conduzir 3 consecugao dos objetivos quando as condigdes econdmicas sd0 desfavordvels. E af que vern em andlise de negécios. As corporacdes alcangam metas por meio de projetos que traduzem as necessidades dos clientes em novos produtos, servigos € lucro. Os analistas de negécios podem fazer tudo acontecer de forma mais eficiente e eficaz. O principal objetivo do analista de negécios é ajudar as empresas a implementar solugbes de tecnologia de uma forma efcaz em termos de custos, através da determinacdo dos requisitos de um projeto ou programa € comunicé-las claramente aos interessados, facilitadores e parceiros. Entre as principais responsabilidades dos Analistas de Negécio, podemos listar: > Estabelecer os objetivos e o Ambito de sistemas de negécios e de Tl hitplwwwcloncisedados. com agldeta- science! 1997 soora%6 Daa Science | jae Dados » Identificar problemas organizacionais € conceber solucées orientadas a dados » Realizar andlises estatisticas, pesquisas, oficinas de formagao e testes » Recomendar mudangas nos processos, pessoal ou ofertas de produtos para tornar os departamentos internos mais eficientes » Inventar novos sistemas (por exemplo, controle de estoque) ou alterar os existentes » Fazer recomendagées espectficas de TI e apoiar a sua implementago » Agir como um elo de ligaco entre os gestores e equipes técnicas ANALISTA DE DADOS Analistas de dados coletam, processam e realizam andlises estatisticas de dados. Suas habilidades podem nao ser to avangadas quanto os cientisias de dados (por exemplo, eles podem no ser cepazes de criar novos algoritmos), mas seus objetivos s3o os mesmos - descobrir como os dados podem ser usados para responder a perguntas e resolver problemas. Entre suas principais responsabilidades esto: » Trabalham com as equipes de Tl, gestéo e / ou cientistas de dados para determinar os objetivos organizacionais, » Coletar dados de fontes primérias e secundaria > Realizar limpeza nos dados e descartar informagoes irrelevantes > Analisar e interpretar os resultados utilizando ferramentas estatisticas e técnicas convencionais » Identificar tendéncias, correlacdes e padres em conjuntos de dados complexos » Identificar novas oportunidades para melhoria de processos » Fornecer relatérios de dados concisos e visualizagdes de dados claros para a esto > Concepcao, criagao € manutencao de bancos de dadios relacionais e sistemas de dados » Resolver problemas de cédigo e questdes relacionadas a dados Analistas de dados as vezes so chamados “cientistas de dados junior” ou “cientistas de dados em formac: Em vez de ser livre para criar seus préprios projetos de Big Data, eles podem ser limitados a enfrentar as tarefas especificas de negécios usando ferramentes existentes, sistemas e conjuntos de dados. No entanto, existe muitas empresas que nao fazem uma distingSo clara entre os dois papéis. ARQUITETO DE DADOS Arquitetos de dados criam projetos para sistemas de gestdo de dados. Depois de avaliar potenciais fontes de dados da empresa (interna e externa}, os arquitetos projetam um plano para integrar, centralizar, proteger e manté-los, Isso permite que os funcionarios acessem informacdes criticas no lugar certo, na hora certa, Entre suas principais responsabilidades estao. » Colaborar com as equipes de TI e gestao de elaborar uma estratégia de dados que atenda os requisitos da industria » Criar um inventario de dados necessérios para implementar a arquitetura » Pesquisar novas oportunidades de aquisicao de dados hitplwwwcloncisedados. com agldeta- science! 1997 soora%6 Daa Science | jae Dados » Identificar e avaliar as atuais tecnologias de gerenciamento de dados » Criar um fluxo de dados dentro da empresa » Desenvolver modelos de dados » Projetar, documentar, construire implantar arquiteturas e aplicagdes de banco de dados (por exemplo, grandes bancos de dados relacionais) » Integrar a funcionalidade técnica (por exemplo, escalabilidade, seguranca, desempenho, recuperacdo de dados, confiabilidade, etc.) » Implementar medidas para assegurar a precisao dos dados e acessibilidade » Monitorar constantemente, aperfeicoar e apresentar um relatério sobre o desempenho dos sistemas de gerenclamento de dados » Produzir e fazer cumprir as normas de desenvolvimento de banco de dados » Manter um reposit6rio corporativo de todos os artefatos e procedimentos de arquitetura de dados Vocé nao vai se surpreender ao saber que este € um trabalho dificil. Algumas empresas precisam de arquitetos de dados que sejam ninjas em técnicas de modelagem de dados; outras querem especialistas em armazenamento de dados, ferramentas de ETL, bancos de dados SQL au administragdo de dados, A maioria dos arquitetos de dados so funcion 15 de nivel sénior com anos em business intelligence em sua bagagem. ENGENHEIRO DEDADOS Engenheiros de dados constroem enormes reservatérios para Big Data. Eles desenvolver, constroem, testam & mantém arquiteturas, tais como bancos de dados e sistemas de processamento de dados em grande escale. Uma vez que estes imensos reservatérios de dados estejam criados, cientistas de dados pode puxar conjuntos de dados relevantes para suas anilises. Entre suas principais responsabilidades estao: » Projetar, construir, instalar, testar e manter sistemas de gerenciamento de dados altamente escalaveis » Construir algoritmos de alto desempenho, protétipos, modelos presitivos e provas de conceito » Pesquisar a aquisicao de dados e novos usos para os dados existentes » Desenvolver processos de conjunto de dados para modelagem de dados, mineracao e producao » Integrar novas tecnologias de gerenciamento de dados e ferramentas de engenharia de software nas estruturas existentes » Criar componentes personalizados de software ¢ aplicagoes analiticas » Empreger uma variedade de linguagens ¢ ferramentas > Instalar e atualizar os procedimentos de recuperaco de desastres » Recomendar formas de melhorar a confiabilidade dos dados, eficiéncia e qualidade » Colaborar com arquitetos de dados, modeladores e membros da equipe de TI sobre os abjetivos do projeto » Dominar tecnologias como Hadoop, Spark e Cassandra Engenheiros de dados podem trabalhar em estreita colaboracdo com arquitetos de dados (para determinar se 08 sistemas de gerenciamento de dados s4o apropriados) e cientistas de dados (para determinar quais dados so necessarios para anélise). Eles muitas vezes precisam lidar com os problemas associados & integragéo de hitplwwwcloncisedados. com agldeta- science! 2087 soora%6 Daa Science | jae Dados banco de dados e conjuntos de dados nao estruturados. Seu objetivo final é fornecer dados utilizdveis € impos para quem necessitar deles. CIENTISTAS DE DADOS Cientistas de dados so os grandes mineradores de dados. Eles recebem uma enorme massa de dados desorganizados (estruturados € ndo estruturedos) e usar suas habilidades em matemética, estatistica programaco para limpar, tratar e organizé-los. Em seguida, eles aplicam suas capacidades aneliticas - conhecimento da industria, comoreensdo contextual, ceticismo de suposi¢ées existentes - para descobrir solucGes para os desafios de negécios ocultos. Entre suas orincipais responsabilidades esto: » Realizar pesquisas sem diregdo e formular perguntas abertas 20s dedos » Extrair grandes volumes de dados de miltiolas fontes internas e externas > Empreger os programas de andlise sofisticadas, aprendizado de méquina e métodos estatisticos para preparar os dados para uso em modelagem preditiva e prescritiva » Explorar e analisar dados de uma variedade de Angulos para determinar fraquezas escondidas, tendéncias e / ou oportunidades > Conceber solugdes orientades a dados para os desafios mais prementes > Inventar novos algoritmos para resolver problemas e criar novas ferramentas para automatizer o trabalho > Comunicar previsdes e resultados para a gestdo € os departamentos de Tl através de visualizacdes de dados eficazes > Recomendar mudancas econémicas aos procedimentos e estratégias existentes Cada empresa tera uma posicao diferente sobre tarefas de trabalho. Alguns cientistas trata os seus dados como analistas de dados ou combinam suas fungdes com os engenheiros de dados; outros possuem qualificago de alto nivel em aprendizado de maquina e visualizago de dados Como os cientistas de dados podem alcancar novos niveis de experiéncia ou mudangas de emprego, as suas responsabilidades invariavelmente mudam. Por exemplo, uma pessoa que trabalha sozinho em uma empresa de médio porte pode gastar uma boa parte do dia na limpeza de dados, enquanto que grandes empresas podem ter uma divisdo mais clara entre os perfs de profissionais que trabalham com dados. ANALISTAS DE MARKETING Analistas de marketing ajudam as empresas e organizagées a decidir quais os produtos e servicos vender, para quais clientes € a que preco. Eles obtém suas conclusées ao estudar as condicées de mercado, atividades dos concorrentes e comportamento do consumidor. Entre suas principais responsabilidades estao: » Recolher dados sobre as taticas dos concorrentes, condi¢ées de mercado e demografia do consumidor » Investigar opinides dos clientes, habitos de compra, preferéncias e desejos / necessidades » Estudar os precos, 05 niimeros e os métodos de comercializagao e distribuicao de vendas da concorréncia hitplwwwcloncisedados. com agldeta- science! 2187 soora%6 Daa Science | iaeDaios » Criar @ avaliar métodos para acumular dados, incluindo pesquisas, entrevistas, questionérios e pesquisas de opiniso » Analisar dados usando programas de estatisticas, andlise preditiva e outras ferramentas orientadas a dados » Desenvolver taticas e métricas para avaliar a eficacla dos programas de marketing, publicidade e comunicacio existentes » Monitorar e fazer previsio de marketing / vendas; tendéncias identificar oportunidades para novas iniciativas e promocées » Converter conclusées de dados complexos em texto, tabelas, gréficos e visualizagdes de dados » Trabalhar com departamentos internos para apresentar relatérios claros para os clientes e gestéo » Colaborar com os pesquisadores, cientistas de cados, estatisticos e outros profissionals de marketing Analistas de pesquisa de mercado sio os olhos © ouvidos de suas organizacées, fornecendo insights psicolégicos valiosas sobre 0 comportamento do consumidor. Suas descobertas podem ter um efeito significativo sobre a forma como as empresas optam por projetar, comercializar e distribuir os seus produtos e servicos. EsTATISTICO Deixei o Estatistico por ultimo por uma simples razdo: este profissional talvez seja o Unico habilitado 2 seguir qualquer uma das carreiras listadas acima. Toda a tecnologia criada para Big Data, Data Science ¢ Analytics, foram fundamentadas nos conceitos estatisticos Os estatisticos aplicam as teorias e métodos estatisticos para coletar, analisar © interpretar os dados. Eles trabalham para empresas envolvidas em pesquisa de mercado e opiniae publica, para as indiistrias relacionadas com areas como controle de qualidade e desenvolvimento do produto, e - com frequéncia - para governos municipais, estaduais e federais. Entre suas principais responsabilidades esto’ » Aplicar teorias e métodos estatisticos para resolver problemas praticos de negécios, engenharia, ciéncias ou outras areas de conhecimento Decidir quais dados so necessarios para responder a perguntas ou problemas especificos Determinar métodos para encontrar ou a coletar dados Realizar pesquisas de opiniao para coletar dados Coletar dados ou treinar outras pessoas a fazé-lo Analisar ¢ interpretar dados Relatar conclusdes a partir de suas andlises Enfrentar os desafios relacionados a dados atribuidos pela geréncia Decidir sobre uma estratégia adequada para coletar dados yvurvryryr ry Extrair dados de fontes existentes ou instigar novos procedimentos (por exemplo, pesquisas cam clientes, experiéncias cientificas, sondagens de opinigo, etc.) » Analisar © interpretar dados usando ferramentas, algoritmos, modelos estatisticos e software (por exemplo R, SAS, SPSS, etc.) » Projetar novos modelos estatisticos e ferramentas de coleta de dados, se necessério hitplwwwcloncisedados. com agldeta- science! 287 soora%6 Daa Science | Ciéncia ¢ Dados » Identificar padrées, tendéncias e relacionamentos dentro de dados » Apresentar relatérios estatisticos e visualizagées dle dados para diversos ptiblicos » Fornecer recomendacées estratégicas / previsdes e destacar as limitacbes dos dados » Desenvolver e manter ferramentas estatisticas, bases de dados e programas » Acompanhar regularmente a qualidade dos dados » Trabalhar em estreita colaborag3o com os principais membros da equipe e especialistas no assunto (por exemplo engenheiros, cientistas, suporte de TI, etc.) David Matos O PAPEL DA ESTATISTICA NA CIENCIA DE DADOS A American Statistical Association (ASA) divulgou semana passada uma declaracdo sobre o papel da Estatistica na Ciéncia de Dados. O Presidente da ASA, David Morganstein, deu esta declaracao no seu comunicado de imprensa ‘Através desta declaracdo, @ ASA e seus membros reconhecem que a ciéncia dados abrange mais do que estatisticas, mas a0 mesmo tempo também reconhece que a ciéncia estatistica desempenha um papel fundamental no rapido crescimento deste campo. E nossa esperanca que esta declaracdo possa reforcar a relacio de estatisticas para a ciéncia de dados e ainda fomentar relacionamentos mituos de colaboragao entre todos os contribuintes na ciéncia de dados." Veja 0 artigo completo, aaui.) A declaracao evidencia que Estatistica € fundamental para a Ciéncia de Dados, juntamente com gestdo de banco de dados e sistemas distribuidos e paralelos. A sua utilizacdo neste campo emergente, capacita pesquisadores para extrair conhecimento e obter melhores resultados de grandes projetos. A declaracao também incentiva a colaboragdo maxima e multifacetada entre estatisticos e cientistas de dados para maximizar 0 potencial da ciéncia de dados, © comunicado conclui com esta frase: ‘A American Statistical Association (ASA) estd bem posicionada para ajudar a formular discussdo em torno do papel das estatisticas na ciéncia de dados, para navegar o caminho a seguir neste ambiente em répida evolucso @ para fornecer féruns para comunicacao e colaboragao entre cientistas de dados, incluindo os estatisticos néo-estatisticos. A ASA tem como objetivo facilitar a colaboragao entre estatisticos e outros cientistas de dados e, assim, permitir-Ihes atingir mais do que poderiam por conta propria.” Veja a lista de esforcos da ASA pare facilitar a colaboracao entre estatisticos ¢ cientistas de dados: hitplwwwcloncisedados. com agldeta- science! 2387 soora%6 Daa Science | jae Dados » Incorporacdo de discussdes de ciéncia de dados na Conferéncia de Boas Praticas de Estatistica (CSP em inglés. O préximo evento ocorrer em Fevereiro de 2016 em San Diego, Califérnia), incluindo uma reunigo com lideres empresariais ¢ do setor para discutir questdes em estatisticas e dados cientificos. » Linguagern mais inclusive nas publicacdes sobre ciéncia de dados » Um workshop de bioestatistica © estatistica para melhor equipa-los em lidar com os muitos desafios e oportunidades do surgimento da ciéncia de dados, » Garantir 0 financiamento para preparar alunos de graduaco que vao trabalhar em ciéncia dados, com boa formacao em estatistica. » Um workshop para discutir curriculos de ciéncias dados para faculdades comunitarias ncia de dados, > Oficinas de professores (estatisticas do segundo grau) para desenvolver a compreensic da cié » Um novo prémio chamado “Statistical Analysis and Data Mining: The ASA Data Science Journal’, foi criado ser amplamente divulgado. » A Conferéncia “Mulheres em Estatistica" vai se tornar "Mulheres em Estatistica e Ciéncia de Dados’, » Noticias com novos programas de graduacdo em ciéncia de dados » Reunides com funcionarios-chave no National Institutes of Health, a Fundagdo Nacional de Ciéncia e escritério da Casa Branca para politicas de Ciéncia e Tecnologia, sobre o papel das estatisticas na ciéncia de dados e sobre os beneficios de um maior envolvimento dos estatisticos. » Reunides com lideres da industria de Ciéncia de Dados. Ainda resta alguma duvida sobre a importancia da Ciéncia de Dados? Deixe seu comentério. Adoraria ouvir sua opi Até a préxima. David Matos hitplwwwcloncisedados. com agldeta- science! 2487 soora%6 Business Intelligence e Data Science tem muita coisa em comum e Cientistas de Dados focados em negécios Analistas de Negécios que trabalham com Business Intelligence sao como primos. Ambos usam dados para trabalhar para 0 mesmo objetivo, mas a sua abordagem, tecnologia € funcao diferem de diversas maneiras. Vamos definir, comparar e diferenciar Business Intelligence de Data Science. Business Intelligence © objetivo do Business Intelligence (BI) € converter dados brutos em insights de negécio que os lideres empresariais © gestores possam usar para tomar decisées. Os analistas de negécios usam ferramentas de Bl para criar produtos de apoio tomada de decisdo e gestdo. Se vocé quer construir dashboards de suporte & decisdo, visualizacdes ou relatérios a partir de conjuntos médios de dados estruturados de negécio, entao vocé pode usar ferramentas de Bl e métodos para isso. Business Intelligence 6 composto basicamente de: Dados internos - dados coletados dentro da organizacao, gerados por colaboradores, gestores, sistemas e stakeholders em geral. Tecnologias e ferramentas - OLAP (online analytical process), ETL (extract, transforming and loading), Data Warehousing, business applications. TIPOS DE DADOS USADOS EM BUSINESS INTELLIGENCE Insights que sao gerados em Business Intelligence so derivados de conjuntos de tamanho padrdo de dados de negocio estruturados, Solugées de Bl so principalmente construidas & parte de dados transacionais - dados que séo gerados durante 0 curso de um evento de transacéo, como dados gerados durante uma venda, ou durante uma transferéncia de dinheiro entre contas bancérias, por exemplo. Dado transacional é um subproduto natural de atividades empresariais que ocorrem em toda 2 organizac3o, e todos os tipos de inferéncias podem ser derivadas dela. Vocé pode usar 0 BI para obter os seguintes tipos de informacao: Customer service data - respondendo a questdo: “ Que éreas de negécio estao causando maior tempo de espera de nossos usuarios? * Sales and marketing data ~ respondendo a questo: " Que estratégias de marketing so mais efetivas e porque? Operational data ~ respondendo questo: " Qual o nivel de eficiéncia da operacao de help-desk? " Employee performance data - respondendo a questo: " Que colaboradores so mais produtivos? ” hitplwwwcloncisedados. com agldeta- science! 2587 soora%6 Daa Science | ‘TECNOLOGIAS E SKILLS USADOS EM BUSINESS INTELLIGENCE Para agilizar o trabalho da area de Bl, as empresas precisam se certificar que os dados estejam orgenizados para facilidade de acesso e apresentagdo. Pode-se usar bancos de dados multidimensionais para isso. Ao contrario de bancos de dados relacionais, bancos de dados multidimensionais organizam os dados em cubos que $40 armazenados como matrizes multi-dimensionais. Para que as equipes de BI possam ser capazes de trabalhar com os dados 0 mais rapido facil possivel, pode-se usar bancos de dados multidimensionais para armazenar dados em um cubo, em vez de armazenar os dados em varios bancos de dados relacionais que podem ou nao ser compativeis uns com os outros, Esta estrutura de dados em cubo, permite a utilizac3o de Online Analytical Processing (OLAP) - uma tecnologia através da qual vocé pode rapidamente e facilmente acessar e usar seus dados para todos os tipos de diferentes operagdes e anilises. Para ilustrar 0 conceito de OLAP, imagine que vocé tern um cubo de dados de vendas que tem trés dimensdes ~ tempo, regigo e unidade de negécio. Vocé pode dividir os dados para ver apenas um quadrado - para ver uma regio de vendas, por exemplo. Vocé pode cortar os dados para ver um cubo menor composto de um subconjunto de tempo, uma regio e uma unidade de negécio. Vocé pode pesquisar para baixo ou para cima para ver os dados, de forma altamente detathada ou muito resumida, respectivamente. E vocé pode totalizar, os nimeros ao longo de uma dimensio - para nimeros totais em unidades de negécio, por exemplo, ou para ver as vendas através do tempo e regido apenas. OLAP 6 apenas um tipo de sistema de armazenamento de dados - um repositério centralizado de dados que vocé pode usar para armazenar e acessar seus dados. Um sistema de armazenamento de dados mais tradicional comumente empregado em solucdes de BI é uma Data Mart - um sistema de armazenamento de dados que vocé pode usar para armazenar uma érea de foco particular de dados, pertencente a uma Unica linha de negocios na empresa. ETL (extrair, transformar e carregar) 6 0 processo usado para extrair dados, transformé-lo e carregé-lo em seu banco de dados ou Data Warehouse. Os analistas de negdcios geralmente tém habilidades @ treinamento em negécios e tecnologia da informagéo. Como uma disciplina, BI depende de tecnologias tradicionais de Tle habilidades especificas. Data Science Dentro da empresa, a ciéncia de dados tem a mesma finalidade que © Business Intelligence - converter dados brutos em insights de negécios que os lideres empresariais e gestores podem usar para tomar decisées baseadas em dados. Se vocé tem grandes conjuntos de fontes de dados estruturados e nao estruturados que podem ou nao estar completos © vocé deseja converter essas fontes em informacées valiosas para apoio & decisio em toda a empresa, recorra a um cientista de dados. Ciéncia de dados centrada em negécio é multidisciplinar e integra os seguintes elementos: Quantitative analysis - modelagem matematica, an lise estatistica, previsdes e simulacdes. Programming skills - habilidades em programacao para analisar dados brutos e torna-los acessiveis aos usuarios de negocio. hitplwwwcloncisedados. com agldeta- science! 2887 soora%6 Daa Science | jae Dados Business knowledge - conhecimento do ambiente de negécio, para melhor compreender a relevancia dos resultados encontrados. Ciéncia de Dados € uma disciplina pioneira, Cientistas de dados muitas vezes empregam 0 método cientifico para a exploracdo de dados, formacio de hipéteses e testes de hipdteses (através de simulacio e madelagem estatistica). Cientistas de dados com foco de negécios geram conhecimentos valiosos, muitas vezes, exolorando padres © anomalias em dados de negécios. Ciéncia dados em um contexto de negécios é comumente composta de: Conjuntos de dados internos e externos - Ciéncia de dados flexivel. Vocé pode criar dados corporativos mashups a partir de fontes internas e externas de dados estruturados e nao estruturados com bastante facilidade (dados mashup € uma combinag3o de duas ou mais fontes de dados, que so anelisadas em conjunto, a fim de fornecer aos usuarios uma visao mais completa da situacao em foco), Tecnologias e ferramentas - Exemplos aqui poderiam envolver o uso de plataformas baseadas em nuver, programacao matemética, estatistica e de aprendizado de maquina, de anélise de dados utilizando Python e Re de visualizagao de dados avangados. Como analistas de negécios, cientistas de dados centrados no negécio produzem produtos de apoio & decisio para os gerentes de negécios e lideres orgenizacionais. Estes produtos incluem analytics dashboards e visualizagées de dados, relatérios nao tabulares e tabelas. TIPOS DE DADOS USADOS EM DATA SCIENCE Vocé pode usar a ciéncia de dados para obter insights de negécios a partir de conjuntos de tamanho padrao de dados de negécios estruturados (assim como Bl) ou a partir de conjuntos estruturados, semi-estruturados, ndo estruturados e Big Data, Solugées de ciéncias dados nao se limitam aos dados transacionais; vocé pode usar a ciéncia para criar valiosos insights de todas as fontes de dados disponive's. Essas fontes de dados incluem: Transactional business dala - Uma fonle de dados de negécio transacional é 0 mesmo tipo de dados estruturados utilizados em Bl tradicional e inclui dados de gerenciamento, atendimento ao cliente, vendas € dados de marketing, dados operacionais e dados de desempenho do empregado. Social and related to the brand or business - dados no estruturados gerados a partir de e-mails, instant messaging (Skype) e redes sociais Twitter, Facebook, Linkedin, Pinterest e Instagram. Machine data from business operations - dados ndo estruturados gerados automaticamente por maquinas, tal camo dados de sensores de automéveis, por exemplo, Audio, video, image e pdf file data - fontes de dados comuns e bem estabelecidas. ‘TECNOLOGIAS E SKILLS USADOS EM DATA SCIENCE hitplwwwcloncisedados. com agldeta- science! 287 soora%6 Daa Science | jae Dados Uma vez que os produtos da ciéncia de dados muitas vezes sio gerados a partir de Big Data, solucdes de plataforma de dados baseado em nuvem so comuns neste campo. Os dados que so usados na ciéncia dados sdo frequentemente derivados de solugdes como Hadoop, MapReduce e processamento paralelo. Cientistas de dados devem possuir visio de inovadora e devem pensar fora da caixa, a fim de exigir soluces para os problemas que resolvem. Muitos cientistas de dados tendem para solugées de cédigo aberto quando disponiveis. A partir de uma perspectiva de custo, esta abordagem beneficia as organizagées que empregam esses cientistas. Cientistas de dades com foco em negécios podem usar técnicas de aprendizado de maquina (Machine Learning) para encontrar padrées e obter insights de grandes conjuntos de dados que esto relacionados com uma linha de negécio especifica ou 0 negécio em geral. Eles so qualificados em matematica, estatistica e programacao, ¢ eles as vezes usam essas habilidades para gerar modelos preditivos. Eles geralmente sabem como programar em Python ou R. A maioria deles sabe como usar SQL para consultar dados relevantes, Resumindo ‘As semelhancas entre Ble Ciéncia de Dados focada nos negécios so bastante claras. © objetivo de ambos, BI e Ciéncia centrada em dados para os negécios, é converter dados brutos em insights que os gerentes ¢ lideres podem usar para apoio na tomada de decisao de negécios. Business Intelligence x Data Science diferem no que diz respeito a utilizag3o dos dados. Apesar de BI poder utilizar métodos para previsdo de futuro, esses métodos so gerados para fazer inferéncias simples a partir de dados histéricos ou atuais. Desta forma, BI extrapala 0 passado € o presente para inferir previsées sobre 0 futuro. Apresenta-se dados passados para informacées relevantes para ajudar no monitoramento das operagdes de negécio e para auxiliar os gestores na tomada de decisdes de curto a médio prazo. hitplwwwcloncisedados. com agldeta- science! 2887 soora%6 Daa Science | Ciéncia ¢ Dados Em contraste, os praticantes da ciéncia centrada em dados para os negécios procuram fazer novas descobertas usando métodos matematicos ou estatfsticos avancados para analisar e gerar previs6es de grandes quantidades de dados empresariais. Esses insights preditivos so geralmente relevantes para o futuro a longo prazo do negocio. Os cientistas de dados centrados nos negocios tentam descobrir novos paradigmas ¢ novas maneiras de olhar para os dados para fornecer uma nova perspectiva sobre a organizacao, as suas operacdes © suas relagdes com clientes, fornecedores e concorrentes. Portanto, os cientistas de dados centrados nos negécios devem conhecer do negécio e seu meio ambiente. Eles devem ter conhecimento do negécio para determinar se uma descoberta é relevante para uma linha de negécios ou para a organizago como um todo. David Matos A INTERNET A Internet das Coisas (IoT - Internet of Things) é um cenario em que os objetos, animais e pessoas possuem identificadores Unicos e a capacidade de transferir dados através de uma rede sem a necessidade de interagio humana. IoT é uma rede para conectar pessoas, coisas, aplicagdes e dados através da Internet para permitir 0 controle remoto, gestio € integracao de servicos interativos. Estima-se que haverdo 50 bilhdes de ‘coisas’ conectadas a internet até 2020. A “coisa, na Internet das coisas, pode ser uma pessoa com o implante de um monitor cardiaco, um animal de fazenda com um biochip transponder, um automével que foi construido com sensores para alertar o condutor quando a presso do pneu esta baixa - ou qualquer outro objeto, natural ou feito pelo homem, que possa ter atribuido um endereco IP e que tenha a capacidade de transferéncia de dados através de uma rede. Até agora, a Internet das coisas tem sido mais estreitamente associada a comunicacdo maquina a maquina (M2M) na fabricacdo e energia, petroleo € servigos pliblicos de gas. Produtos construidos com recursos de comunicaco M2M sao muitas vezes referidos como sendo inteligentes. Embora o conceito "Internet of Things" ndo tenha sido usado até 1999, a Intemet das coisas tem estado em desenvolvimento hi décadas. O primeiro aparelho de Internet, por exemplo, era urna maquina de Coca-Cola na Universidade Carnegie Mellon no inicio de 1980. Os programadores podiam se conectar & maquina através da Internet, verificar o estado da maquina e determinar se havia ou ndo uma bebida gelada esperando por eles, caso decidissem fazer a viagem até a maquina. Kevin Ashton, co-fundador e diretor executive do Centro de Auto-ID no MIT, foi quem mencionou pele primeira vez a Internet das Coisas em uma apresentac3o que ele fez para a Procter & Gamble. Veja como Ashton explica o potencial da Internet das Coisas: ‘Os computadores de hoje - ¢, portanto, a Internet - sdo quase totalmente dependentes de seres humanos para informago. Quase todos os cerca de 50 petabytes (um petabyte ¢ 1.024 terabytes) de dados disponiveis hitplwwwcloncisedados. com agldeta- science! 2397 soora%6 Daa Science | jae Dados na internet foram capturados e criados por seres humanos, digitando, pressionando um botdo de gravacéo. tirando uma foto digital ou digitalizando um cédigo de barras. O problema é, as pessoas tém tempo, atengio € precisdo limitados - © que significa que eles nao so muito bons em captar dados sobre as coisas no mundo real, Se tivéssemos computadores que soubessem de tudo que se pode saber sobre as coisas, os dados poderiam ser reunidos sem qualquer ajuda de nés - isso seria capaz de monitorar e contar tudo e reduzir significativamente o desperdicio, perda e custo. Gostarfamos de saber quando as coisas precisarem de substituicao ou reparacao ou registrar se algo estd fresco ou pronto para consumo.” Influéncia da Internet of Things: » Pessoas: mais ‘coisas’ podem ser monitoradas e controladas. As pessoas vao se tornar mais capazes. » Processo: mais usudrios e maquinas podem colaborar em tempo real e tarefas mais complexas podem ser realizadas em menor tempo. » Dados: coleta de dados de forma confidvel e na mais frequéncia e tomada de decisées mais precisas. » Coisas: Os dispositivos méve's se tornam mais controlaveis e ‘coisas’ se tornam mais valiosas, Aplicagées da Internet das coisas: » Seguranca: aplicacées de vigilancia, alarmes, rastreamento @ monitoramento em tempo real abjeto / pessoas » Transportes: gestdo da frota, seguranca rodovisria, controle de emissio de poluentes, pagamento de pedégio, monitoramento de tréfego em tempo real © muitos mais aplicagdes ITS (Sistemas Inteligentes de Transporte) » Satide: e-saiide, seguranca pessoal, corpo-sensor com sistemas de sade personalizados » Utilitérios: mensuracio, provisionamento e faturamento de utilitérios (por exemplo, gas, Agua, eletricidade, etc.) » Produgo industrial: monitoramento e automagao de uma cadeia de producao » Logistica: fornecimento de frete, distribui¢do monitoramento e maquinas de venda automaticas E 0 que tudo isso tem a ver com Big Data e Data Science? F possivel imaginar 2 massa de dados gerada quando tivermos 50 bilhdes de “coisas” conectadas em rede. Todos esses dados terdo que ser armazenados, classificados e deles serao extrafdas informagées que mudarao a forma de vida dos seres humanos, David Matos QUE E DATA SCIENCE? hitplwwwcloncisedados. com agldeta- science! 3087 soora%6 Daa Science | jae Dados Talvez vocé nao saiba, mas seu negécio ja faz parte do mercado de dados e informacées. Enquanto nossas vidas continuam migrando para a internet, produzimos um fluxo constante e exaustivo de informacio digital Estima-se que 90% dos dados armazenados no mundo foram produzidos apenas nos ultimos dois anos € os rastros desses dados continuam duplicando a cada ano. E como a Ciéncia de Dados esté relacionada com isso? O resultado dessa rapida expansao que estamos testemunhando, de fate seré a préxima onda, Sua empresa inevitavelmente faz parte desse ecossistema de dados e sem um método que aproveite essas informacées voce nao poderd tomar decisées inteligentes a favor do seu negocio, J8 dizia o cliché: “dados so 0 nove ouro’. O mundo gera informagao exponencial e ao mesmo tempo, todos querem uma fatia desse bolo. Intuicdo, feeling ou regras do senso comum sao Uiteis, mas ndo suficientes. E preciso saber que os dados permitem as empresas e organizagées enlenderem seus clientes, produtos € processos muito melhor. Por exemplo, a Rolls Royce possui cientistas de dados que analisam informagdes de engenharia dos avies a fim de determinar a programagao da manutengdo das naves, jd os cientistas da LOreal estudam os efeitos de cosméticos em varios tipos de pele. Nao importa qual nivel de conhecimento vocé tenha sobre o assunto, lidar com Big Data pode ser uma tarefa assustadora, 0 que torna importante contratar pessoal qualificado. A sua equipe atual de andlise de dados atende ao que vocé precisa? termo “ciéncia de dado: " tem sido muito usado em noticias recentes sobre a industria e por uma boa razo; 6 uma das disciplinas académicas € novas profissées que esto mais em alta. Porém, 0 que realmente isso significa? © que isso significa para a sua companhia? ‘CIENCIA DE DADOS VERSUS ANALISES ESTATISTICAS Acciéncia de dads difere das analises estatisticas e da ciéncia da computacaio em seu método que € aplicado a dados colelados usando principios cientificos, A razao para a necessidade crescente desta nova abordagem est relacionada ao Big Data, que demanda o uso de diferentes tecnologias a andlise estatistica. Em outras palavras, os estatisticos de 20 anos atras nao poderiam ser usados para analisar dados em massa em uma escalabilidade quase em tempo real frequentemente demandada pelas aplicacdes dos negécios hoje em dia, Resumindo esta é a ciferenca entre ser capaz de explicar 0 que os dados significam agora e prever o que os dados podem representar no futuro. A andlise de dados tradicional nas empresas tém sido tipicamente implantada para explicar tendéncias em extraindo modelos interessantes dos dados individuals estabelecidos a partir de questées bem-formuladas. No entanto, a ciéncia de dados esta procurando descobrir conhecimento a partir de uma quantidade grande e pesada de dados que podem ser usadas para tomar decisdes ¢ fazer previsées, ¢ ndo simplesmente a interpretac3o de nimeros. hitplwwwcloncisedados. com agldeta- science! 3187 soora%6 Daa Science | jae Dados Se vocé quer comegar a tomar mais decisdes a longo-prazo e fazer estimativas a partir dos dados gerados pela sua empresa entéo precisa considerar a inclusao da ciéncia de dados no seu mix. QUEM PRECISA DE UM CIENTISTA DE DADOS? Enquanto a carreira de um analista de dacos e um estatfstico tradicional so bem desenvolvidas, a carreira do cientista de dados ainda ¢ incerta. A profissdo est em alta, entao é importante saber o que procurer antes de contratar um profissional como este. Enquanto nem todas as universidades oferecem graduacées especificas em ciéncia de dados, um requisito comum por tras de um cientista de dados é 2 engenharia, € 0 Ph.D também é frequentemente um pré- requisito. Como habilidade central, a ciéncia de dados ¢ uma interseco da ciéncia da computagio e da estatistica, mas 0s candidatos também podem ter habilidades de ciéncia da computacao - incluindo estrutura de dados, algoritmos, sistemas e linguagens de script - bem como um conhecimento s6lido de correlaco, causalidade e conceitos relacionados que sao essenciais para modelar exercicios envolvendo dados. Por Ultimo, por se tratar de um desafio de entendimento de um negécio, ento efetivamente os cientistas de dados também poderiam ter perspicacia para negécios, habilidades de colaboracao e criatividade, Parecida com a computacao, a ciéncia de dados pode ser aplicada a diferentes dominios do conhecimento e nao restrita a uma Unica indiistria, como a analise tradicional tende a ser. Enquanto 0 dominio da expertise imperativa para identificar problemas especificos para a sua indtistria e empresa, o entendimento e experiéncia em extrair conhecimento de diferentes dominios oferece com frequéncia um étimo escopo para insight. Enquanto 0 Big Data continuar se expandindo, os cientistas de dados vo continuar crescendo familiarizados com 0 uso da inteligéncia artificial, particularmente com 0 machine learning, ao invés de fazer o que os seres humanos nao fazem, A profissdo demanda tipicamente cinco tipos diferentes de tarefa: limpeza de dados, perguntas frequentes, anilise 2 partir do uso de dados estatisticos € modelos de machine learning, resultados visualizados e a melhoria de modelos e algorit mos para melhores rendimentos, resultados e execucao, No entanto, enquanto 0 Big Data é inviével para humanos analisarem em tempo habil, computadores s30 incapazes de prover a compreens3o sutil e analisar 0 que um profissional treinado pode. £ importante contratar um cientista de dados com expertise em dominio no seu negécio que pode efetivamente usar o machine learning para identifcar pontos em comum através de desafios diversos. Este trabalho nao deve ser feito apenas com inteligéncia humana ou artificial funcionando separadamente. A beleza desta profissio é que ela demanda ambos - e 0 profissional que pode fazer isso é justamente o que vocé procure: um cientista de dados. hitplwwwcloncisedados. com agldeta- science! 2287 soora%6 Daa Science | Ciéncia ¢ Dados Como nossa vida continua a ser digital, é crucial para a sua empresa abracar uma filosofia baseada na ciéncia para tomar decisées direcionadas. Conforme 9 Big Data continua crescendo, vocé esta constantemente lidando com o negécio de dados, quer vocé queira ou nao. Neste Blog vamos explorar as tecnologias, processos e técnicas da ciéncia de dados, Uma aventura fascinante onde fazer a pergunta certa, é a chave para obter a resposta que faré toda a ciferenca! David Matos SIGA RECEBA AS NOVIDADES DO BLOG! Nome Email FACEBOOK Contact Us Be the first of your friends to lke this AS <2 ‘TWITTER Tweets por @cienciaedados hitpwww cloncisedados.comagldeta- science! 3367 sou72016 Data Science |Cincia e Dados Cisncia © Dados Retweetou ian] Biconnections @biconnections #Data Scientist Core Skills bitly/298xsgq, fy DATA 0 PaCKAG Mello cre: Ciencia ¢ Dados Retwestou Data Science Academy @dsacademybr Big Data Analytics com R e Azure youtu.belv8AAeaYGAYY #BigData #Azure Di routube @vourabe Ciéncia e Dados @cienciaedados Machine Leaming of the Next Decade: The Promises and the Pitfalls dataversity.net/machine-learni... #DataScience #MachineLearning 28 il hitpwww cloncisedados.comagldeta- science! 3487 soora%6 Daa Science | Ciéncia ¢ Dados Ciéncia © Dados Retweetou cugs OracleBigData @OracleBigdata 4 strategic issues to address before embarking on a #BigData journey ora.cl/Xj7I via @forbes 28 jul Ciencia e Dados @cienciaedados How machine learning will affect your business computerworld.com/article/300705... via @computerworld #MachineLearning How machine learning will affect your business In the past, successful use of machine leaming algorithms required bespoke algorithms and huge R&D budgets, butall that is changing. IBM Watson, Microsoft Azure, Amazon and computerwortd.com 27 jul Incorporar Verno Twitter BUSCAR POSTS RECENTES » Microsoft Azure Machine Learning » Oracle R Enterprise » IBM Watson Analytics hitpwww cloncisedados.comagldeta- science! 3887 soora%6 Daa Science | Ciéncia ¢ Dados » Apache Kafka e Big Data » Certificacdes em Data Science e Big Data ARQUIVOS » julho 2016 (1) » junho 2016 (1) » maio 2016 (1) » abril 2016 (1) » marco 2016 (1) » fevereiro 2016 (1) » janeiro 2016 (4) dezembro 2015 (4) novembro 2015 (9) outubro 2015 (11) setembro 2015 (10) agosto 2015 (10) ‘CATEGORIAS » Andlise de Negécios » Analytics » Banco de Dados » Big Data » Business Intelligence » Carreira » Ciencia de Dados » Cientista de Dados Engenheiro de Dados Estatistica Hadoop loT - Internet of Things Linguagem R- Machine Learning » Python » Scala > > > > > > hitpwww cloncisedados.comagldeta- science! soora%6 Daa Science | Ciéncia ¢ Dados POSTS RECENTES CATEGORIAS SIGA = Microsoft Azure Machine = Anélise de Negécios Learning = Analytics = Oracle R Enterprise = Banco de Dados = IBM Watson Analytics = Big Data = Apache Katka e Big Data — Business Intelligence = Certificagées em Data = Carreira Science e Big Data = Ciéncia de Dados = Usando Data Scienceno = Cientista de Dados Combate a Fraudes = Engenheiro de Dados = Enterprise Data Hub = Estatistica = As 10 Habilidades deum = Hadoop Cientista de Dados = lof - Internet of Things = Do Data Warehouse parao = Linguagem R Data Lake = Machine Learning = Aprendendo Internet of | — Python Things com Raspberry Pi = Scala © 2016 Ciencia e Dados. All rights reserved. hitplwwwcloncisedados. com agldeta- science! 3787

Você também pode gostar