Você está na página 1de 12
UNIDADE 1 - INTRODUGAO A CIENCIA DE DADOS Nesta unidade, exploramos os conceitos fundamentais da Ciéncia de Dados, um campo que tem ganado destaque globalmente entre empregadores ¢ aspirantes a profissionais. Nosso objetivo 6 oferecer um panorama completo do mundo profissional da Ciéneia de Dados, desde conceitos biisicos até questées éticas e regulamentares. Comegamos na subsegiin LL, ubordando a Cigneia de Dados como uma juncio de wirias disciplinas com énfase em estat ee ima. sequéncia de etapas que inclit importacdo, organizagio, modificagio, visualizacio, neia da computacdo. Aqui, também introduzimos 0 ciclo dos dados, modelagem ¢ comunicaciio, essencial para orientar futuros profissionais. Na subsegiio 1.2, focamos no eoraciio da Ciéneia de Daclos: os préprios dados. Analisamos sua eriagho, destruigio, recuperacho ¢ qualidade sempre referenciando trabalhos Lideres na area. A subsegio 1.3 di especial atengao As questiies éticas ¢ regulamentares, com um olhar voltado para a Lei Geral de Protegao ile Dados (LGPD). Finali na subsegio 1.4, onde abordamos temas como Machine Learning ¢ Inteligencia Artificial, ressaltande rio da Administragao Piiblica, anos sua relevancia no process de 1.1 O que é Ciéncia de Dados: entendendo o ciclo dos dados As empolgantes frases “O trabalho mais sexy do século 21” © *O melhor emprego na América” referem se A Ciencia de Dados. Elas iniciam o livro Build a Career in Data Science (em tradugio livre. Construindo uma Carreira em Ciencia de Dados) das autoras Nolis and Robinson (2020) em sua narrativa para explicar o que ¢ esta nova profissio que ven crescendo de maneira acelerada nos tiltimos anos. agora a posigio que os empregadores imais pro ocupar” (Nolis and Robinson 2020, pag 3). Este também ser o ponto de partida destas notas de aula: tentar entender a Ciéneia de Dados ¢ quais as razdes para tamanho faseinio por este eampo de conhecimento por parte de profissionais e empresas. Com efeito, a seguir serio apresentadas respostas mnamentos: \s palavras das antoras “Cientista de dados, um titulo que nem existia antes de 2008, a emprego desejam os seguintes questi i, O que & Ciencia de Dados? fi, De fato trata.se se uma nova drea de conhecimento? iii, Como fimeiona em um sentido pratico? Fora do ambiente formal téenico e A. palayras-chaves que parecem gra ne diagrama apresentado pela Figura 1. De fato, 0 termos como Softwares, Inteligéncia Artificial tific, uma primeira busea pela temstica de dado pernote ar em tore do termo Ciéncia de Dados, conforme ilustrado © Machine Learning esto intrinsicamente conectados a esse campo, mas nio sfio suficientes. para estrnturar um definigio formal dele. Embora nao seja dada aqui uma conceituagio, para possibilitar umn entendimento acurado da direa, apresentamn-se a seguir caracterizagdes e insghits encontrados na literatura, Artificial Storytelling With Data Figura 1: Diagrama da Ciéneia de Dados De acordo com Zumel and Mount (2014) “A ciéneia de dados é uma prétiea interdiseiplinar que se baseia em métodos de engenharia de dados, estatistica descritiva, mineragio de dados, aprendizado de maquina ¢ andlise preditiva."(Zumel and Mount 2014, pag. 3). Em seu livro Think Like a Data Seientist (em tradugio livre, pensando como um cientista de dados) Godsey (2017) pontua que “A cioncia de dados como campo de estucdo ou voeagao encontra-se entre a estatfstica ¢ o desenvolvimento de software, A estatfstien podem ser vista como 0 desenho esquemitico e 0 software como a maquina, coin dades fluindo por ambos” (Godsey 2017, pag 5). «14 para Nolis and Robinson (2020), “Ciencia de dados 6a pratica de usar dados para tentar entender e resolver problemas do mundo real. Bste concel nao é exatamente novo; as pessoas tém analisado néimeros de vendas ¢ tendéncias desde a invengio do zero. Na tiltima déeada, no entanto, tivemos acesso a exponencialmente mais dados do que antes.” (Nolis and Robinson 2020, pag 5). Por fim, mencionamese os autores Singer and Morettin (2022), que ponderam “Atnalmente, os termos Data Science (Ciéncia de Dados) ¢ Big Data (Megadados) sio utilizados em profusio, como se envolvessem conecitos novos, distintos daqueles que estatisticos lidam ha cerea de dois séculos” Estas ideas também so compartilhadas por Donoho (2017), que usa © acrinimo DSI (Data Science Initiative - Iniciativa de Ciéncia de Dados) para referirse A Ciéncia de Dados. Em seu artigo 40 Years of Data Science (que conta com mais de 500 citagdes no momento em que estas notas sao escritas) apresenta ideias consoantes com aquelas apresentadas por Singer and Morettin (2022): “Para os estatisticos, o fendmeno DSI pode parecer confuso. Os estatisticos veem administradores promovendo, como novidade, atividades que os estatisticos jé vém realizando diariamonte, ao longo de suas earreiras inteiras; ¢ que jé4 eram consideradas padrao quando esses estatisticos ainda estavam na pés-graduacao,” (Donoho 2017, pag. 746). Com base na revistio da literatura apresentada, depreendem-se duas conclusdes importantes sobre a Cieneia de Dados i. Os dados figuram como 0 personagem central. O objetivo 6 extrair destes toda informagic possivel para que se possam tomar decisdes e antecipar resultados de maneira precisa. i, Nao parece se tratar de um campo de conliecimento alheio a outras ciéncias. Parece, ao contrétio. que se trata de uma combinagao de instrumentos fornecidos por diversos campos do saber, eom Jestaque para a Estatistiea e a Ciéncia da Computacio, Este tiltimo t6pico encontra respaldo intuitivo e pritico, De fato, a Estatistica fornece o instrumental adequado para organizar, resumir, visualizar e modelar dados, permitindo a obtengao de inferéncias . Um diagrama esquemitico da Bstatfstica apresentado na Figura 2. Por sua vez, a Ciéneia da Computagao amplia de forma exponencial o aleance e uso do instrumental estatistico, possibilitando o estudo de dados que seriam impossiveis de examinar sem o suporte de miquinas. Nao obstante, duas ontras expertises neces da Cid (ou domain knowledge), emam os dados em andlise, e da robustas com base nas informagoes amostrais disponivel ias ao entendimento amplo nncia de Dados aparecem como consenso na literatura, Tratam-se do chamado business knowledge termos que referem-se ao entendimento sobre a Area de conhecimento do qual munieagio de resultados. Sobre estes aspectos, Godsey (2017) pontua qne “Além de estatistica © software, muitas pessoas afirmam que a eiéncia de dados possui um terceiro, pal, que seria algo ma linha de expertise em determinado assninto on conhecimento ."(Godsey 2017, pag. 5). Ainda, Nolis and Robinson (2020) enfatizam que “Quando muitas pessoas comecam a se dedicar & ciéncia de dados, um desafio que enfrentam 6 ficar sobrecarregadas com a quantidade de coisas que precisam aprender, eomo codificagio (inas qual Tinguagem?), estatfstica (inas quais métodos so mais importantes na prética ¢ quais sao em grande parte académico?), aprendizado de maquina (mas como o aprendizado Je méquina é diferente de estatistica on TA?) ¢ 0 conhecimento de dominio de qualquer setor em que desejam trabalhar (mas e se vocé nao souber onde deseja trabalhar?). Além disso. sles precisam aprender habilidades de negéefos, como comunicar resnltadas de mane! sficaz:a piiblicos que vao desde outros cfentistas de dados até 0 CEO*(Nolis and Robinson 20020, pag. 5) Apesar de parecer bastante desafiador adquirir conhecimentos sobre priticas, jargoes e funciona mento de diversas dreas, a literatura ressalva que com o tempo, o profissional de dados ser capaz de adaptar-se ao longo do tempo, aprendendo que o dominio de conhecimento pode ser alterado con- forme necessirio. Iss ocorre porque nao 6 Imprescindivel ser um perito em cada Area espeeftica de dados que analisa, mas tio somente as nuances prineipais para o entendimento do contexto. Além disso, a experiéncia mostra que manter contato com um profissional da érea de origem dos dados pode ser bastante proveitosa ao cientista de dados. Ainda, é importante pontuar que nmitas empresas de grande porte segmentam a atuagio des uma equipe multidiseiplinar de inteligéneia de dados, 's profissionais, mantendo nao apenas um funcionéirio, mas Nao obstante a importéneia da narrativa até aqui desenvolvida, o enfoqne destas notas é a pritica da Ciencia de Dados em Softwares livres/gratuitos. Com eleito, énfase serd dada ao que é descrito na literatura como Cielo da Ciéneia de Dados, que, em sfntese, refere-se a todas as etapas prinefpais de um projeto de daclos, que cobre desde a coleta ¢ tratamento destes até a. comnnicagio de resultados. referido ciclo nao possui uma estrutura rigida. Ao contrério, é permeado de nuances caractertsti- cas de cada profissional, Entretanto, alguns tracos formam uma espinha dorsal consensual entre os s. Este manuscrito passaré a apresentar nas linhas que se seguem as ctapas de projetos de dados tais como deseritas por Wiekham and Grolemund (2019), para os quais, 0 ciclo pode ser oe —_ ~w ; ie Dao Esattca Destin / 4 Aprendizado > Estatitea Popilago ates de ‘Hipsteses Eating de, Paris Amostragem Figura 2: Diagrama da Estatistica descrito como a composicio das seguintes etapas: importar, organizar, modificar, visualizar, modelar comunicar, O diagrama apresentado na Figura 3. A seguir, apresenta-se um resumo das etapas aeima elencadas, segundo Wickham and Grolemund (2019). Para mais detalhes, recomenda-se a leitura do livro R for Data Science, disponivel gratuita: mente! em https://rids.had.co.nz/index.html, Segundo Wickham and Grolemund (2019), as etapas de um projeto de dados podem ser elencadas na forma que se segue. Para cada ctapa sera apresentada uma breve descrigio, consoante em grande parte com o que é descrito pelos autores anteriormente mencionados. i, Importar: Sem dados nao hé ciéneia de dados, de modo que 0 primeiro passo 6 importar o conjunto de dados para a ferramenta computacional selecionada pelo usnério. Em geral, iste requer que o usuario lide com arquives, banco de dados ou interface de programagio de aplicativos (API) da web, dentre ontros, nos quais 08 dados estéio loealizados originalmente e maneje a sua transiglo na forma de uma estrutura tabular para a ferramenta computacional de trabalho. Mais sobre este t6pico seré abordado no Capitulo 2. ii, Organizar: Frequentemente os dados de interesse no estiio na forma que propicia a obtencic das formagies desejadas ¢ insights necessirios. Por esta razio, é preciso deixar os dados em forma “adequada”, A forma considerada organizada para uma base de dados 6 aquela que atende hf trés requisitos: 1. Cada coluna corresponde a uma variével (Item de dados), 2. Cade li refere-se a uma tinica unidade de dados ¢ 3. Cada eélula possui um valor numérico para uma observacéio. Mais sobre este tépico seré abordado no Capitulo 2. ha iii, Modificar/Transformar: Ontra etapa comum consiste na alteragio de uma varidvel existente ou criagio de novas variiveis. Por exemplo, em modelagens envolvendo renda é comum proveder ist xiste a traduglo ent portugu vida de forma comercial através do titulo R para Data Seience Figura 3: Diagrama do Ciclo da Ciéneia de Dados com uma transform: a performar melhor quando essa alteragio é feita, Mais sobre este topico sera abordado ne Capitulo 2. iv. Visualizar: Nesta etapa, entra em cena o que s¢ convencionou chamar de Storytelling with Data (Narrativa com Dados) on ainda Data-Driven Culture (Cultura Orientadla a Dados) que. apesar de nao serem sindnimos e sim conceitos complementares, ambos sao usados para referir-s¢ ao processo de extrair informacies ¢ insights de dados brutos de forma simples ¢ atraente, de litar o processo de tomada de decisio. Segundo Wickham and Grolemund (2019) “Uma boa visualizagio mostraré coisas que vocé nao esperava on levantard novas ques wwerir que voc esti fazendo a pergunta errada ou que precisa coletar dados diferentes” (Wickham and Grolemund 2019, pag. xiv). Mais sobre este topico seré abordado no Capitulo 2. oe considerar o logaritmo desta varidvel. Via de regra, modelos tendem modo a fi ss sobre os dados. Uma boa visualizagio também pode v. Modelar: Modelos sto simplificacies da realidade. Com efeito, sio permeados de hipsteses simplificadoras que permitem-no ater-s ciéncia de dados, modelos referem+ qual busea-se elucidar sitnagdes pr abordado no Capitulo 3. aos aspects mais relevantes de um dado problema, Em jea e/ou computacional ‘as comt 0 tis0 de dados. Mais sobre este t6pico sera uma estrutura matemities-estat vi, Comunicar: A comunicagii ¢ essencial, estabelecendo a ponte entre o cliente ¢ o resultado final gerado pelo profissional de dados. Integra o Storytelling with Data, com a narrativa adequada para, juntamente com os gréficos, contar a historia por trés dos dados. Segundo Wiekham and Grolemund (2019), trata-se de *..uuma, parte absolutamente critica de qualquer projeto de andlise Je dados. Nao importa quio bem seus modelos e visualizacio o levaram a compreender os dados, menos que vor? também poss commnicar sens resultados a outras pessoas.” (Wickham and Grolemund 2019, pag. xiv). Mai sobre este tépico seré abordado no Capitulo 4. Além desta introdugio, as Segdes a seguir complementam aspectos gerais bisicos sobre a ciéncia de dados, ineluindo: criagdo e destruigio de dados, aspeetos éticos ¢ legais relativos ao uso de dados, aléin a aplicagio da ciéncia de dados, machine learning ¢ Inteligénefa Artificial (IA) no émbito da Administrago Piiblica. O restante do livro tem enfoque prético sobre as etapas do ciclo de dados. No Capitulo 2 sfio abordadas as etapas de importagio, arrumagao, transformagio ¢ visualizagao de dados, Este 0 Capitulo mais denso em termos de conterido, por abordar desde a escolha e primeiros passos Com a ferramenta computacional livre/gratuita até a visualizagio de dados. No Capitulo 3 8 modelagem de dados & diseutida com énfase em aspectos pra Comunicacao de resultados ¢ apresentada no Capitulo 4, também com enfoque nas aplicagoes pritieas em plataformas que privilegiam a liberdade criativa e acesso gratuito, jcos em softwares livres/ gratuites 1.2 Criagao, destruigdo, qualidade e recuperaciio de dados Conforme meneionado na segio anterior, os dados siio a ia da Ciéneia de Dados, e sem eles, es rea do conhecimento torna-se inoperante, Portanto, antes de avangarmos na discussao sobre a eriagic e destru > de dados, é crucial conceitnar ¢ earacterizar © que entendemos por “dados’. Segundo ¢ ervagbes coletadas como fonte de infor- magio, Bxistem virios tipos diferentes de dados ¢ diferentes maneicas de representé-los.”(weja https: / /www.abs.gov.an/statistics/ understanding. statisties/statistieal-terms-and-concepts/data), Esta en- tidade estatistiea governamental cuida ainda de conceituar Unidade de dados, Item de dados. Observagao ¢ Conjunto de dados. A Unidade de dados, tambin é chamnada de registro ow re- xistro de unidade, refere-se a carla unidade popuacional que estat sendo estudada, Por sua vez, Them Australian Bureau of Statistics ‘Dados siio medigdes on ob: 10 de dados é em estudo, As Observagao é o registro de uma varidvel associado a um item de dados, sendo 0 conjunto completo de todas as observagies © que se nomeia como Conjunto de dados, ‘ada. caracteristica (ou atributo ou varidvel Nao obstante as definigies anteriores ¢ ao fato de cada termo a seguir ter significado particular ne Ambito da ciéncia de dados, neste livro consideram-se sinénimos Dados, Base de Dados, Dataset Dataframe e Tibble. Essa conveneao 6 consoante 4 adotada tanto em textos voltados para pro- fissionais de dados quanto no vocabulirio did mencionar que os dados podem ser clasificados sob diferentes prisinas. Para os propésitos deste material didético releva duas abordagens: classifieagio de dados por sua qualidade e por nivel de destruigie. io utilizaclo por esses profissionais. Isto posto, cumpre Classificagao dos dados segundo sua qualidade Esta caracterizagio seguir. a mesina apresentada por Fiirber (2016), que em sua pesquisa considera ( bibliogréfica para listar, dle maneira consoante com autoridades no tema, os principais aspectos referentes i. qualidade dos dados. Para tanto, quatro categorias: intrinseca, contextual, representacional ¢ acessibilidade, tuna exaustiva revis 3 predicados sao separados segundo 1. Intrinseca + Credibilidade: Diz respeito ao grau de crenga de que os dados sejam um reflexo verdadeirc do mundo real, a menos no qne diz respeito ao problema em anslise, Estit relacionada a Reputagiio dos dados, uma vez que esta iiltima refere-se 4 fonte dos dados. Quanto maior a credibilidade, maior a qualidade. * Precisao: Uma medida é precisa se, ao ser repetida, produz resultados préximos. E relacionada A acundeia, uma vex que esta versa sobre A proxiinidade entre o valor inedido € © valor de referéncia, Relaciona com a credibilidade na medida em que dados mais precisos ¢ acurados so mais confiiveis. Quanto maior a preciso ¢ acurdcia, maior a qualidade, + Objetividade: Remete ao distanciamento entre observagiio e observador, Nao ha interferéneia do pesquisador no processo de seleciio dos dados. Hii imparcialidade. IL Contextual + Valor agregado ¢ Relevanci: informacao para resolugio do problema e estio circunstanciados a este. Critérios segundo os qnais os dados agregam como fonte de + Tempestividade: Refere-se ao oportunisino de usar os dados para determinado fim dentro do prazo de validade destes. + Completude: Repres a resolugfio da questo. aita a qualidasle ¢ profundidade mas que os dados apresentam para + Quantidade: Consoante com a completnde, ac para solucio do problema. objetiva-se a quantidade de dados adequada I. Representacional + Interpretabilidade e Facilidade de entendimento: Harmon le medida, codificagie e significado das variveis. Nao hi ambi lécil compreensao, gio entre idioma, unidades dades; ao contririo, existe it + Consisténcia e concisao representacional: Referem-se a consisténcia na forma de apresem taco dos dados, que deve ser de formato compativel com versdes anteriores, Além disso, deve haver resumo, no sentido em que o nivel de desagregacio nao seja demasiado. IV. Acessibilidade + Acessibilidade e Seguranga de acesso: Os dados devem ser de fil acesso, ao mesmo tempc em que certa restricao veja desejfvel como forma de seguranca e protecio das informagdes. Agora que © leitor conhece um pouco mais sobre dados e shia classificagio quanto & qualidade. apresenta-se a segnir uma andlise sobre a criagio, destruicho € reeuperagio de dados. No qne diz respeito a criagio de dados, a literatura especializada da relevo a trés aspectos: i, Dados pervasivos e dados como reflexo da vida cotidiana: Aqui encontram-se dados que refletem padrdes de comportamento humano, estilos de vida e preferdneias, dentre ontros que sao coletados durante atividade online dos usuarios (sites de compras ¢ aplicativos, redes is, Gps, ete.). Esses dados sto frequentemente coletados de maneira pervasiva, muitas vezes sein 0 conhecimento explicito on o consentimento informado dos individuos aos quais se referem. Por exemplo, embora tacitamente se imagine que a coleta de dados ocorre, usuitrios podem nao estar totalmente cientes da extensio e profundidade desta. Em geral, a coleta de dados é feita por grandes corporagies usando mecanistos autométicos, como webserapping (ane ¢ abordado no Capitulo 2), com o intuito de compreender padraes de comportamento dos uusuirios, 0 que, por sua vez, pode ser utilizado para impulsionar neg6cios criar estratéyins de mercado mais eficientes ¢ direcionadas. Naturalmente, questoes éticas podem estar sendo afetadas neste processo, sendo necesséria a regnlamentagio, como ser debatido na Segio La. es fi, Agio humana deliberada: Também caracteriza-se por estar atrelada a atividades comerciais. assim como ocorre com dados pervasivos, diferindo destes tiltimos pelo fato de haver consenti- mento por ¢ voluntarisino por parte dos usuérios. Outro fator de distingao importante & que tal forma de coleta de dados frequentemente & conduzida por pequenas empresas ¢ em escal menor. Por exemplo, um usuario contribni para a geragio de dados na medida em que preenche voluntariamente um cadastro em determinada. empresa. iii, Dados simulados: Em geral est associado A um proceso estocistico geracional, com ocorrén cias geradas de forma aleatéria. Ideal quando se deseja estudar aspectos especificos em censirios controlados, com tamanhos amostrais ¢ parfimetros pré-fixados. Mais sobre este tGpico seré apresentado no Capitulo 2. Todas as formas de geracio de dados acima descritas sho wilidas ¢ apliciveis segundo cada contexto. Entretanto, qualquer que seja a estratégia adotada deve ser observadas as earacteristicas quallificadoras dos dados. Passando a destruigio ¢ recuperagio de dados, apresentam-se a seguir conceitos debatidos por Cantrell and Runs Through (2019), que elencam a destruigio € recuperagio de dados segundc quatro nivel + NIVEL 1: RECICLAGEM: Sistemas operacionais possuem geréneia sobre um sistema de arquivos, que por sna vez, guardam arquivos ¢ metadados dos arquives, que consistem em con juntos de dados que propiciam informagies yerais sobre outros daclos: nome do arquivo, datas relacionadas, tamanho do arquivo, dentre outras, Neste easo, a destruigio de dades em primeire nivel ocorre apenas no sistema operacional, mas niio no sistema de arquivos, de podo que a recuperagio destas informacdes ¢ viabilizada por meio de um procedimento para recuperacic 2 Je dados neste nivel 6 chamado de recielagem, Ne recuperagio completa do arquivo, Para um usuario Windows, por exemplo, & eliminagao do dos Jados aqui corresponde a enviar o arquivo de dados para lixeira. }¢ nivel de exclusiio existe a possibilidade de + NIVEL 2: EXCLUIDO: Neste nivel de destruigio de dados, nio apenas hd a exclusio em Ambito do sistema operacional. Aqui, o sistema de arquivos é comprometido e ao menos parte Jos metadados 6 perdida. Neste caso, a possibilidade de recuperagio da informagio depende bastante do sistema operacional e do respectivo sistema de arquivos. Para um usuario Windows, por exemplo, a eliminago do dos dados aqui corresponde @ enviar o arquivo de dados para lixeira e, em seuida, esvaziar a lixeira, exeluindo o arquivo definitivamente, + NIVEL 3: METADADOS DESTRU{DOS: Neste nivel de destruigio de dados, todos os metadados do sistema de arquivos, como nome, data, localizagdo, dentre outros, so destruidos, O nivel de recuperacio @ de alta complexidade © conta com téenieas avancadas. A exemplo. ciam um arquivo em um base bruta de dados binaries. No- vamente, 0 sucesso de recuperagio depende varios fatores, como por exemplo, do método de recuperagio emprogado, nivel de fragmentagio do arquivo (quanto maior a fragmentagao, mi dificil a recuperagio). Para um ustiirio Windows, por exemplo, # eliminagio do dos dados aqui corresponde mandar o arquivo de dados para lixeira. Para um ususirio Windows, por exemplo. a climinagao do dos dados aqui corresponde a formatar a unidade de armazenamento que contém » arquivo de dades. cita-se a busea por valores que + NIVEL 4: LIMPEZA: Nao existe em situagées pritieas recuperagio neste nivel de exelusio, tio obstante existam debates te6ricos sobre como isso poderia ser feito. Em resumo, trata-se Je um estgio para o qual nio hé. possibilidade de recuperagio. Agni as arquivos binsri exeluidos on sobrescritos, Para um usuario Windows, por exemplo, a climinacdo do dos dados aqui corresponde @ usar um programa de limpeza que sobresereve a uinidade de armazenamento Je dados virias vezes com dados aleatérios. + NIVEL 5: DESTRU{DO FISICAMENTE: Nivel de destrnigao de dados para o qual tame bém nao hi chance de recuperagio, a menos que seja possivel reparar o dano fisieo (0 que contradiz a destrnigao, uma vez que pressupde-se a aniquilacao completa dos materiais usados para armazenar as informagdes os dados). Equivale, por exemplo, a destruir um disco rigido ou qualquer unidade de armazenamento de dados usando uma ferramenta que cause danos fisicos irreparaveis. Alguinas ponderagdes sobre destrnigfo ¢ recuperagio de dados: i, O ato de destruir dados nao necessariamente remete a algo rnim. Naturalmente, todo cientista Je dados tem aprego pelos dados, posto que este 6 seu principal insumo de trabalho. Entretanto, existem dados que precisam ser realmente destruidos. Considere-se a situacio hipotética na qual uum cientista de dados recebe um conjunto de dados de um cliente para uma anélise. Apés a execugtio do trabalho, é esperado que o profissional elimine os dados que Ihe foram confiados € que o faca de maneira segura, i. De maneira aniloga, o processo de recuperagio de dados deve ser conduzido com cuidado, Em geral, esta nfo é uma tarefa cabivel ao cientista de dados. Seja como for, espera-se, por exemplo que a recuperacio se dé nos termos firmados entre cliente e profissional. Para além das ponderagdes acima, ressalta-se que a nfo observancia dessas questies, mais que uma in pratica pode se configurar em ataque a preceitos éticos e/ou legais. Tais aspectos serao abordados Na Seco I a sei 1B 1.3 Etica, privacidade, seguranga ¢ lei geral de protegao de dados ‘omo debatido na Secio anterior, os dados além de serem os principais insumos de um projeto de ciéncia de dados, podem também ser a principal fonte de problemas para profissionais seus clientes quando nfo administrados da maneira correta, A criagio de dados pervasivos e como reflexo da vida, cotidiana podem conter informagdes sensiveis como nome, endereco, urimero de documentos € afins que permitem a. identificagfio parcial ou completa dos individnos aos quais se referem. A recuperacio de arquivos também enseja debates no que diz respeito a lisura por parte do profissional, esperando que este respeite acordos firmados com os clientes. Estes exemplos transcendem a mera adogio de uma mé condnta profissional, chegando a eonfigurar atentados & laches vigentes, Para disciplinar as partes envolvidas nas atividades envolvendo dados os paises ao redor do munde esto eriando dispositivos regulatdrios legals, Essas leis geralmente definem prineipios fundamentals responsabilidades das partes envolvidas © sangdes para os que descumprem a legislagho, além de direitos conferidos aos dos titulares dos dados. Um exemplo notério ¢ 0 retratado pela Unite Europeia com 0 estabelecimento de seu Regulamento Geral sobre a Protegio de Dados (RGPD). 0 regulamento, que entrou em vigor em 24 de maio de 2016 e 6 aplicavel deste 25 de maio de 2018. trata da protecio das pessoas singulares no que diz respeito ao tratamento de dados pessoais ¢ & livre cirenlagio desses dados. Maiores informagées podem ser obtidas em https://commission.curopa.eu/ law /law-topie/data-protection, fea e ley No Brasil, a legislagiio que regula as atividades de tratamento de dados pessoais ¢ a Let Geral de Protecio de Dados Pessoais (LGPD), n® 13.709/2018. Como o proprio nome sugere, a lei regulamenta 0 tratamento de dados no Brasil, sejam eles digitais ou nao, sendo aplicével a qualquer tratamento de dados em territ6rio nacional. A LDPG busea ser abrangente, contemplanido por exemple excepcionalidades conferidas ao tratamento de dados realizado para fins académicos, jornalisticos ¢ defesa nacional, dentre outros. Além disco, apresentarm-se dispositivos para diseiplinar 0 tratamento de dados sensiveis, daclos pessoais de criangas ¢ de adolescentes, tratamento de dados por organistos governamentais ¢ transferéncia internacional de dados, dentre outros. ‘A seguir, cita-se o Artigo VI, das disposig6es preliminares que apresentam principios e priticas de boa-té que devem ser levadas em consideragio ao realizar-se tratamento de dados pessoais. Art. 6° As atividades de tratamento qo dados pessoais deverio ohservar ® bon-fé.© 0s segnintes principios: I~ finalidade: realizagio do tratamente para propésitos legitimos, especificos, explicitos e informados ao titular, sem possibilidade de tratamento posterior de forma incompativel com essas finalidades; IT- adequagi: compatibilidade do tratamento com as fiualidades informadas ao titular, de acordo com 0 contexto do tratamento; IL = necessidade: limitacao do tratamento ao minimo necessirio para a realizacio de suas finalidades, com abrangéncia dos dados pertinentes, proporcionais ¢ nio excessivos em. relagio as finalidades do tratamento de dados; LV - livre acesso: garantia, aos titulares, de consulta fnciitada e gratuita sobre a forma e a duracio do tratamento, bem como sobre a V - qualidade dos dados: garantia, aos titulares, de exatidao, clareza, relevancia ¢ atualizagfio dos dados, de acordo comn a necessidade e para 0 cumprimento da finalidade de seu tratamento: VI - transparéncia: garantia, aos titulares, Je informagoes claras, precisas e facilnente acessiveis sobre a realizacio do tratamento e os respectivos agentes de tratamento, observados os segredos comercial ¢ industrial; VIL + seguranga: utilizagao de medidas téenicas ¢ administrativas aptas a proteger os dados pessoais de acess nacdes acidentais ou ilicitas de destruigio, perda, alteragio, comunicagiio ou difusio; VII - prevengio: adogio de medidas para prevenir a de danos em virtnde do tratamento de dades pessoai impossibilidade de realizagao do tratamento para fins discri integralidade de seus dados pesso nao autorizados e de {thrios ilfcitos ou abusivos: u X - responsabilizagio e prestagio de contas: demonstragio, pelo agente, da adogin de medidas efieazes e capazes de comprovar a observancia ¢ 0 cumprimento das normas de protecio de dados pessoais e, inclusive, da eficéeia dessas medidas. Ao profissional de dados em formagao, ressalta-se a recomendagéo para a leitura da integra da lei disponfvel para consulta em https:/ /www.planalto.gov.br/ecivil_003/_ato2015-2018/2018 /lei/I1:3709. htm. 1.4 Ciéneia de dados, Machine learning, IA e processo decisério no Ambito da Administragao Publica: aplicagdes praticas e limitagdes Nesta Secio aborda-se a temitica da Ciéneia de dados, Machine Learning, Inteligéncia Arti- ficial (IA) ¢ suas respectivas importancias no processo decissrio considerando o ambito da Adminis tragio Pribliea. Para tanto, inieia-se com uma conceituac » destas reas de conhecimento, avalia-se a interrelacdo entre estas e, por fim, aplicacies préticas @ limitacoes. + Ciéneia de Dados: Conforme debatido em SegSes anteriores, em 11m Je daclos consiste na conjugagio dos se itido pratico, a eiéneia ntes verbos: Inportar, Organizar, Modificar, Visualizar © Modelar dados, além de Comunicar resultados + Inteligéncia Artificial: Campo do conhecimente que estuda a. criagio maquinas (que néc nnecessariamente sito robs no sentido clissico), que podem executar tarefas hnmanas que reque- tem habilidades cognitivas. Neste contexto, a miquina é treinada para desenvolver racioct percepcio visual, reconhecimento de fala, dentre outros. + Machine Learning: Conforme conceitua Géron (2019), Aprendizado de Maquina (Muchine Learning) é a ciénein de programar computadores de modo que estes posso aprender com dados. Subdivide-se em Aprendizado Supervisionado, Aprendizado Nao Supervisionado ¢ Aprendizado por Reforco, Notadamente, trata-se de uma subérea da LA. Com base no disposto acima, cla- rificasse a relagio entre as trés Areas de conhecimento. A ciéncia de dados inclui dados que nao necessariamente envolvem planithas convencionais. Os dados podem ser estruturados, se apresentados na forma de uma tabela ou, easo contrario, dados nao estruturadas, como textos © imagens por exemplo. Ainda, a etapa de modelagem requer a criagio de modelos preditivos robustos. Neste contexto, a LA ¢ Aprendizado de Méquina surgem como ferramentas essenciais. Dado o grande potencial de aplicabilidade, A Ciéneia de Dados, 0 Aprendizado de Maquina ¢ a 1A podem e devem ser adotados no ambito da administragao piiblica, com vistas a melhorar eficiéneia na des orientar politicas pri- ‘Ao pratica no Ambito da inagio do recurso piblico, melhorar a eficiéneia de unidades ge: blicas baseadas em evidéncias, dentre outras. Alg administragio piblica sio: i) Gestao de Saride Publica: A ciéncia de dado: ¢ @ IA podem auxiliar na ansilise de dados e predicao de surte de doengas, antecipando sua ocorréncia e dimensionande 0 potencial de acometimento da populacio, de modo que seja possivel antecipar estratégias de mitigacio de impactos, Na crise pandémica do Coronavirus que acometen a populagao mundial, diversos paises adotaram com éxito estratégias governamentais baseadas cm anilises de dados ¢ modelos preditivos. ii) Protegao do meio Ambiente: A defesa ¢ couservagio do meio ambiente tem importancia singular, especialmente nos iiltimos anos em que a humanidade tem experimentarlo revezes ad- vindos de alteragies climéticas. Nao obstante o mapeamento, conservagio e protegai d freas ambientais pode requerer recursos para além das possibilidades do poder piiblico, Issc porque, para alguns paises as reas ambientais compreendem vastos territ6rios que muitas vezes sii de dificil acesso. A coleta e tratamento de dados na forma de imagens de satélite tem side amplamente utilizada por diversos paises do mundo para abastecer modelos preditivos que sic capazes de prever desmnatamentos, freas de maior propensio a esgotamento de eertos recursos naturais, projegio de indicadores de polui 1, dentre outros, ILL) Transparéncia e Governanga: O conceito de dados piiblicos tem se propagado e vém sende aplicado por governos de diversoe paises. No Brasil, destacam-se o Portal Brasileiro de Dados Abertos (https://dados.gov.br/home), 0 Instituto Brasileiro de Geografia e Es- tatistica (https://www.ibge.gov.br/), o Instituto de Pesquisa Econémica Aplicada (http //www.ipeadata.gov.br/Defaultaspx), e DataSUS (https:/ /datasus.saude.gov.br/), dentre ou ros. Juntos, estes organismos fornecem dados sobre diferentes setores da administracio pitbliea, como satide, educagio, economia, meio ambiente, pesquisas, censos, mapas, séries histéricas ¢ indicadores econdmicos, sociais, demogréficos e regionals, dentre outras, Importante destacar que pesqnisas reprodutiveis com dados piiblicos ¢ abertos devem ser sempre encorajadas. Estas pesquisas nio apenas relevam pelos avancos cientificos que propeiam, mas também belo impacto social que geram na medida em que poupam recursos ptiblicos ¢ promovem melhor aloeaciio dos mesmos. Exercicios 1. Com base na revisiie da literatura apresentada nestas notas de aula, como voce desereveria a hatureza interdiseiplinar e 0 eseopo da Ciéneia de Dados? Justifique sia resposta. 2, De acordo com o contetido disponivel na Wikipédia sobre Ciéncia de Dados, disponfvel no link https://pt.wikipedia.org/wiki/Ci%C3%AAncia_de_dados, observamos diversas aplicagies da Ciéneia de Dados em diferentes setores. Particularmente, a Subsecio 1.4 destaca as aplicagies da Ciéneia de Dados, Machine Learning, Inteligéncia Artificial e tomada de decisfio na Adminis- tragio Publica. Colocando-se na posigin de um gestor piblico, familiarizado com esses earnpos do saber, elabore duas propostas ficticias que utilizem essa tecnologins para otimizar a alocacic de recursos na sua repartigio. Essas propostas devern demonstrar como a Ciéneia de Dados pode conduir a decisdes mais informadas e eficazes na gestdio piiblica. 3. Pundada nos anos 80, a TED, uma fundagao sem fins lucrativos focada em Tecnologia, Entre- tenimento e Design, iniciou as “TED Talks” para disseminar ideias globalmente. Muitas dessa palestras tornaram-se virais devido A sua abordagem envolvente. Em 2006, 0 professor Hane Rosling apresentou “The best stats you've ever seen”, disponivel aqui com legendas em por- tngués. Considerando o conteridlo desta unidade © a palestra de Rosling, de que maneira os problemas por ele diseutidos se relacionam com a ciéncia de dados? Justifique sua resposta. 4, Bm Ja ciéncia de dados ¢ em que medida a inobserv egativas no Ambito da administracao priblica’ sentido aspectos éticos ¢ regulamentares devem ser levaclos em consideragio na prética aspectos pode trazer consequén 15

Você também pode gostar