Escolar Documentos
Profissional Documentos
Cultura Documentos
MONOUSUÁRIOS DISTRIBUIÇÕES
Cópia modificada do Linux e
✓ Para que outro usuário inicie a compartilhada.
sessão, é preciso deslogar o No site da distrowatch – existe mais
ativo. de 300 distribuições.
Ex: Debian, RedHal, Suse, mandarle,
SOFTWARE DE ESCRITÓRIO conectiva.
• Chave Candidata
d - Não devem ser usadas chaves No dicionário de dados, vamos passar
externas. (Atributos sobre os quais também a identificar qual atributo é a
você não tem controle. Ex: CPF) chave primária. Por isso, marcaremos
com um PK ao lado do campo.
e - Cada atributo identificador da Para abranger mais a nossa análise,
chave deve possui um tamanho colocamos uma coluna chamada
reduzido ATRIBUTOS. Nela faremos
observações referente ao campo, no
f - Não deve conter informação volátil. exemplo, estamos afirmando que
alguns campos são de preenchimento
• Chave Alternativa obrigatório.
Quando há várias chaves
candidatas, uma é escolhida 9.6 NOÇÕES DE MINERAÇÃO DE
para ser a chave primária, e as DADOS: CONCEITUAÇÃO E
restantes são chamadas de CARACTERÍSTICAS.
chaves alternativas. Em palavras simples, a mineração de
Exemplo: Clientes(CPF, dados é definida como um processo
identidade, Nome, Endereco, usado para extrair dados utilizáveis de
LimCre) um conjunto maior de dados brutos.
No caso CPF é a chave Isso implica na análise de padrões de
primária e identidade é a chave dados em grandes lotes usando um
alternativa. Pode haver mais de ou mais softwares.
uma chave alternativa em uma A mineração de dados tem aplicações
tabela. em vários campos, como ciência e
pesquisa. Como uma aplicação de
• Chave Estrangeira mineração de dados, as empresas
Um atributo ou grupo de podem aprender mais sobre seus
atributos de uma entidade que é clientes e desenvolver estratégias
chave primária de outra entidade. mais eficazes relacionadas a várias
Exemplo: funções de negócios. E, portanto,
Departamento (CodDep, alavancar recursos de uma maneira
NomeDepto) mais otimizada e perspicaz. Afinal,
Empregado(CodEmp, isso ajuda as empresas a estarem
NomeEmp, CodDepto, mais próximas de seus objetivos e
CatFunc) tomarem melhores decisões.
Exemplo de um dicionário de Ou seja, a mineração de dados
dados da tabela cursos. envolve coleta e armazenamento de
dados eficazes, além do
Dicionário de dados da tabela processamento de computadores.
CURSO Para segmentar os dados e avaliar a
probabilidade de eventos futuros, a
NOME DO CAMPO TIPO DO CAMPO mineração de dados usa algoritmos
TAMANHO ATRIBUTOS matemáticos sofisticados. A
Codigodocurso (PK) integer mineração de dados também é
Nomedocurso Varchar 50 Not null conhecida como descoberta de
Duracaodocurso integer Not null conhecimento em dados (KDD).
datadepublicacao date Principais recursos da mineração
de dados
• Predições
automáticas de padrões
com base na análise de desenvolver produtos e
tendência e promoções para atrair
comportamento; segmentos de clientes
• Previsão baseada em específicos. Tudo isso
resultados prováveis; com base em dados
• Criação de informação demográficos de
orientada para a mineração de
decisão; comentários ou cartões
• Concentre-se em de garantia.
grandes conjuntos de Mineração de dados e sua
dados e bancos de relevância para os negócios
dados para análise; Conforme explicado acima, a
• Clustering baseado em mineração de dados é um processo
encontrar e documentar de detecção de um padrão relevante
visualmente grupos de no banco de dados. Por exemplo, um
fatos não conhecidos padrão pode indicar que os clientes
anteriormente. com salários médios anuais baixos
O processo de mineração de dados têm maior probabilidade de serem
Para minerar dados é preciso contar inadimplentes em empréstimos.
com uma certa infraestrutura Essas informações podem ajudar o
tecnológica: gerente de marketing a elaborar uma
1. Tamanho do banco de estratégia de empréstimo mais eficaz
dados: para futuros clientes.
Para criar um sistema mais poderoso, A mineração de dados usa técnicas
mais dados são necessários para estatísticas e de aprendizado de
serem processados e mantidos. máquina bem estabelecidas para
2. Complexidade da prever o comportamento do cliente. O
consulta: método mais popular entre eles é a
É importante definir a complexidade técnica da árvore de decisão. Essa
de cada consulta. Afinal, quanto maior técnica pode ser usada tanto para
o número de consultas, mais análise exploratória quanto para
poderoso deve ser o sistema usado. modelagem preditiva. Existem vários
Usabilidade métodos em torno dessa técnica que
1. Técnicas de mineração podem manipular qualquer forma de
de dados são úteis em dado.
muitos projetos de Contudo, no passado, havia um
pesquisa, incluindo entendimento geral de que a
matemática, cibernética, mineração de dados não precisava de
genética e marketing; um analista estatístico para construir
2. Com a mineração de modelos preditivos. Afinal, com a
dados, um varejista automação do processo menos
pode gerenciar e usar intervenção humana é requerida. No
registros de pontos de entanto, percebeu-se posteriormente
vendas de compras de que o valor que um analista fornece
clientes para enviar não pode ser totalmente automatizado
promoções direcionadas no mecanismo de decisão. Ou seja,
com base no histórico em cada estágio, um analista é
de compras de um necessário para avaliar os resultados
indivíduo. Além disso, o do modelo e identificar o melhor para
varejista também pode a previsão que melhoraria o ROI.
Ou seja, o processo de mineração de o gerente de marketing poderia,
dados não é independente do então, alocar mídia pendente no ano
processo de negócios. Portanto, o seguinte para alcançar resultados
impacto da mineração de dados só mais eficazes.
pode ser sentido quando há um Por que a mineração de dados é tão
impacto no processo de negócios. importante?
Assim, a mineração de dados precisa A mineração de dados tornou-se uma
ter relevância para o processo de ferramenta imperativa em qualquer
negócios subjacente. processo de negócios. Afinal, a
E quando o impacto no negócio não tecnologia melhorou para armazenar
vem? grandes volumes de dados, ao
Por que uma organização precisa contrário de algumas décadas atrás.
praticar mineração de dados quando Antigamente, muitos consideraram o
essa não traz impacto para seus armazenamento de dados como um
negócios? No marketing de produtos, gasto desnecessário. Contudo, essa
o gerente de marketing deve situação mudou devido a várias
identificar o segmento da população ferramentas de mineração de dados
com maior probabilidade de disponíveis no mercado.
responder ao seu produto. Entretanto, Inclusive, muitas são capazes de
identificar esses segmentos da extrair grandes volumes de dados.
população envolve entender a Portanto, atualmente, um minerador
população em geral e implementar a de dados pode esperar grandes
técnica correta para classificá-la. perspectivas de carreira. Isso sem
Da mesma forma, na análise preditiva, mencionar grandes salários.
existem várias maneiras de interagir Conheça 16 ferramentas para
com os clientes usando diferentes mineração de dados
canais. Estes incluem marketing A mineração de dados serve ao
direto, publicidade impressa, objetivo principal de descobrir
telemarketing, rádio, publicidade padrões entre grandes volumes de
televisiva e assim por diante. No dados e transformá-los em
entanto, é somente através da informações mais refinadas. Essa
mineração de dados que um analista técnica utiliza algoritmos específicos,
pode concluir qual é o canal ideal para análise estatística, inteligência
enviar a comunicação para os artificial e sistemas de banco de
clientes. dados. Afinal, o objetivo é extrair
Além da segmentação, a mineração informações de grandes conjuntos de
de dados também é usada dados e convertê-los em uma
popularmente para orçamentar os estrutura compreensível para uso
gastos com marketing. Afinal, a futuro.
alocação do orçamento pode ser Juntamente com os serviços
otimizada entre os direcionadores da primários, certos sistemas de
área. A análise é realizada com base mineração de dados fornecem
nos gastos do ano anterior e seu recursos avançados, incluindo
impacto nas vendas. Portanto, com as processos de armazenamento de
informações de gastos para cada dados e KDD (Knowledge Discovery
driver, como, Print, TV, Radio, Online, in Databases).
etc, pode-se determinar os ROIs de
cada um. Ou seja, fica mais fácil
identificar o impacto desses canais
nas vendas. Com base nessa análise,
infraestrutura de nuvem
pública/privada. Ele baseia-se em um
modelo cliente-servidor. Além disso,
ele vem com estruturas baseadas em
modelos que permitem uma entrega
rápida com um número reduzido de
erros.
O Rapid Miner é constituído por três
módulos:
Rapid Miner Studio:
Este módulo é para projeto de fluxo de
trabalho, prototipagem, validação, etc.
Rapid Miner Server:
Para operar modelos de dados
É importante frisar que os sistemas de preditivos criados em estúdio.
mineração de dados processam as Rapid Miner Radoop:
informações de maneiras diferentes. Executa processos diretamente no
Ou seja, o processo de tomada de cluster do Hadoop para simplificar a
decisão se torna ainda mais difícil. análise preditiva.
Para auxiliar sua escolha, escolhemos Clique em RapidMiner para visitar o
algumas soluções. Confira a seguir site oficial.
uma lista abrangente dos melhores 2) Orange
softwares de mineração de dados e Disponibilidade: Código aberto
aplicativos:Existem inúmeras A Orange é uma suíte de software
ferramentas de mineração de dados perfeita para aprendizado de máquina
disponíveis no mercado. Porém, a e mineração de dados. Afinal, ela é
escolher a melhor não é simples. um software baseado em
Afinal, vários fatores precisam ser componentes que ajuda a melhorar a
considerados antes de se fazer um visualização de dados. Sua linguagem
investimento em qualquer solução de computação é a Python.
proprietária. Como é um software baseado em
1) Rapid Miner componentes, os componentes da
Disponibilidade: Código aberto Orange são chamados de “widgets”.
O Rapid Miner é um dos melhores Esses widgets variam de visualização
sistemas de análise preditiva e pré-processamento de dados a uma
desenvolvidos pela empresa avaliação de algoritmos e modelagem
homônima. Está escrito em linguagem preditiva.
de programação JAVA e fornece um Os widgets oferecem grandes
ambiente integrado para aprendizado funcionalidades, como:
profundo. Isso inclui mineração de • Mostrar tabela de dados
texto, aprendizado de máquina e e permitir selecionar
análise preditiva. recursos;
Portanto, a ferramenta pode ser usada • Ler os dados;
em uma ampla variedade de • Contar com preditores
aplicativos, incluindo aplicativos de de treinamento e a
negócios, comerciais, treinamento, habilidade de comparar
educação, pesquisa, desenvolvimento algoritmos de
de aplicativos e aprendizado de aprendizado;
máquina. • Visualizar elementos de
O Rapid Miner oferece servidor tanto dados etc.
na infraestrutura local quanto na
Além disso, a Orange traz uma Clique em WEKA para visitar o site
vibração mais interativa e divertida oficial.
para as ferramentas analíticas 4) KNIME
maçantes. Portanto, ela é bastante Disponibilidade: Código Aberto
interessante de operar. O KNIME é a melhor plataforma de
Os dados que chegam à ferramenta integração para análise de dados e
são formatados rapidamente de relatórios desenvolvida pela
acordo com o padrão desejado. Além KNIME.com AG. Afinal, opera no
disso, podem ser facilmente movidos conceito do pipeline de dados
conforme necessário, simplesmente modulares. O KNIME constitui-se de
movendo/invertendo os widgets. vários componentes de aprendizado
Dessa forma, os usuários são de máquina e mineração de dados
bastante fascinados ela facilidade de integrados.
utilização da Orange. A Orange Ele tem sido amplamente utilizado
permite ainda que seus usuários para pesquisa farmacêutica. Além
tomem decisões mais inteligentes em disso, é excelente para análise de
pouco tempo. Afinal, ela compara e dados de clientes, financeiros e
analisa os dados rapidamente. business intelligence.
Clique em Orange para visitar o site O KNIME possui outros recursos
oficial. brilhantes. Por exemplo, a
3) Weka implantação rápida e eficiência de
Disponibilidade: Software Livre dimensionamento. Portanto, os
Também conhecido como Waikato usuários se familiarizam com o KNIME
Environment, é um software de em um tempo muito menor e torna a
aprendizado de máquina análise preditiva acessível a usuários
desenvolvido na Universidade de iniciantes. O KNIME utiliza a
Waikato, na Nova Zelândia. Contudo, montagem de nós para pré-processar
ele é mais adequado para análise de os dados para análise e visualização.
dados e modelagem preditiva. Afinal, Clique em KNIME para visitar o site
contém algoritmos e ferramentas de oficial.
visualização que suportam o 5) Sisenso
aprendizado de máquina. Disponibilidade: Licenciada
A Weka tem uma interface gráfica que O Sisense é extremamente útil e é o
facilita o acesso a todos os seus software de BI mais adequado quando
recursos. Está escrito em linguagem se trata de relatórios dentro da
de programação JAVA. organização. Afinal, conta com uma
A Weka suporta as principais tarefas capacidade de manipular e processar
de mineração de dados, incluindo dados para organizações em pequena
mineração de dados, processamento, ou grande escala.
visualização, regressão, etc. Portanto, Além disso, ele permite combinar
a ferramenta trabalha com a dados de várias fontes para criar um
suposição de que os dados estão repositório comum. Não obstante,
disponíveis na forma de um arquivo refina os dados para gerar relatórios
simples. avançados que são compartilhados
A Weka também pode fornecer entre os departamentos para geração
acesso a bancos de dados SQL de relatórios.
através de conectividade de banco de O Sisense foi premiado como melhor
dados e pode processar ainda mais os software de BI de 2016 e ainda detém
dados/resultados retornados pela uma boa posição. Afinal, ele gera
consulta. relatórios altamente visuais. Portanto,
foi especialmente projetado para lo.https://www.sisense.com/glossary/
usuários não técnicos. Ele também data-mining-basics
permite facilidades, como arrastar e Clique em SSDT para visitar o site
soltar, bem como widgets. oficial.
Diferentes widgets podem ser 7) Apache Mahout
selecionados para gerar os relatórios Disponibilidade: Código aberto
em forma de gráficos de pizza, de O Apache Mahout é um projeto
linhas, de barras, etc. com base no desenvolvido pela Apache Foundation
propósito da organização. Os que serve ao objetivo principal de criar
relatórios podem ser mais detalhados algoritmos de aprendizado de
clicando na opção de verificar máquina. Portanto, se concentra
detalhes e dados abrangentes. principalmente em agrupamento de
Clique em Sisense para visitar o site dados, classificação e filtragem
oficial. colaborativa.
6) SSDT (Ferramentas de Dados do O Mahout é escrito em JAVA e inclui
SQL Server) bibliotecas JAVA para executar
Disponibilidade: Licenciada operações matemáticas, como
O SSDT é um modelo declarativo álgebra linear e estatística. Ele vem
universal que expande todas as fases crescendo continuamente conforme
do desenvolvimento do banco de os algoritmos implementados no
dados no IDE do Visual Studio. O Apache Mahout aumentam. Afinal, os
BIDS foi o antigo ambiente algoritmos do Mahout implementaram
desenvolvido pela Microsoft para um nível acima do Hadoop através de
analisar dados e fornecer soluções de modelos de mapeamento/redução.
business intelligence. Portanto, os O Mahout conta com os seguintes
desenvolvedores usam o SSDT recursos:
transact, um recurso de design de • Ambiente de
SQL para construir, manter, depurar e programação
refatorar bancos de dados. extensível;
Nele, um usuário pode trabalhar • Algoritmos pré-
diretamente com um banco de dados fabricados;
ou trabalhar diretamente com um • Ambiente de
banco de dados conectado. Ou seja, experimentação
ele viabiliza uma instalação local ou matemática;
externa. • GPU computa para
Os usuários podem usar ferramentas melhoria de
de visual studio para desenvolvimento desempenho.
de bancos de dados, como o
IntelliSense, ferramentas de 8) Oracle Data Mining
navegação de código e suporte a Disponibilidade: Licença proprietária
programação via C #, visual basic etc. Um componente do Oracle Advance
O SSDT fornece ainda Table Designer Analytics, o software de mineração de
para criar novas tabelas e também dados da Oracle, oferece excelentes
editá-las em bancos de dados diretos algoritmos de mineração de dados
e conectados. para classificação de dados, previsão,
Derivando sua base do BIDS, que não regressão e análises especializadas.
era compatível com o Visual Estas permitem aos analistas analisar
Studio2010, o SSDT BI passou a insights, fazer previsões melhores,
substituí- segmentar clientes, identificar
oportunidades de vendas cruzadas e sistema operacional compatível com a
fraudes. JVM (Java Virtual Machine).
Os algoritmos projetados dentro do Ele conta ainda com bibliotecas
ODM aproveitam as potencialidades científicas e matemáticas.
do banco de dados Oracle. portanto, o Bibliotecas científicas:
recurso de mineração de dados do Para desenhar gráficos 2D / 3D.
SQL pode extrair dados de tabelas, Bibliotecas matemáticas:
visualizações e esquemas de bancos Para gerar números aleatórios, ajuste
de dados. de curvas, algoritmos, etc.
A GUI do minerador de dados da O DataMelt pode ser usado para
Oracle é uma versão estendida do análise de grandes volumes de dados,
Oracle SQL Developer. Portanto, mineração de dados e análise
fornece uma facilidade de “drag & estatística. Dessa forma, é
drop” direto de dados dentro do banco amplamente utilizado na análise de
de dados para os usuários, mercados financeiros, ciências
viabilizando assim uma melhor naturais e engenharia.
visualização. Clique em DataMelt para visitar o site
9) Rattle oficial.
Disponibilidade: Código aberto 11) IBM Cognos
O Rattle é uma ferramenta de Disponibilidade: Licença proprietária
mineração de dados baseada em GUI O IBM Cognos BI é um conjunto de
que usa a linguagem de programação informações de propriedade da IBM
R stats. Ele expõe o poder estatístico para relatórios e análise de dados,
de R, fornecendo funcionalidades contagem de cartões, etc. Ele consiste
consideráveis de mineração de em subcomponentes que atendem a
dados. Embora o Rattle tenha uma UI requisitos organizacionais específicos
extensa e bem desenvolvida, ele Cognos Connection, Query Studio,
possui uma aba de código de log Studio, Event Studio e Workspace
embutido que gera código duplicado Advance.
para qualquer atividade acontecendo Cognos Connection:
na GUI. Um portal da web para reunir e
O conjunto de dados gerado pelo resumir dados no placar/relatórios.
Rattle pode ser visualizado e editado. Query Studio:
Além disso, fornece a facilidade Contém consultas para formatar
adicional de revisar o código, usá-lo dados e criar diagramas.
para vários propósitos e estendê-lo Report Studio:
sem restrições. Gera relatórios de gerenciamento.
10) DataMelt Analysis Studio:
Disponibilidade: Código aberto Para processar grandes volumes de
O DataMelt, também conhecido como dados, entender e identificar
DMelt, é um ambiente de computação tendências.
e visualização que fornece uma Event Studio:
estrutura interativa para análise e Módulo de notificação para se manter
visualização de dados. Portanto, foi sincronizado com eventos.
projetado principalmente para Workspace Advanced:
engenheiros, cientistas e estudantes. Interface amigável para criar
O DMelt é escrito em JAVA e é um documentos personalizados e fáceis
utilitário multiplataforma. Portanto, de usar.
pode ser executado em qualquer Clique em Cognos para visitar o site
oficial.
12) IBM SPSS Modeler O Teradata é frequentemente
Disponibilidade: Licença proprietária chamado de banco de dados
O IBM SPSS é um conjunto de Teradata. Trata-se de um data
software pertencente à IBM usado warehouse corporativo que contém
para mineração de dados e análise de ferramentas de gerenciamento de
texto para criar modelos preditivos. dados e software de mineração de
Foi originalmente produzido pela dados. Portanto, pode ser usado para
SPSS Inc. e posteriormente adquirido análise de negócios.
pela IBM. Em geral, o Teradata é usado para ter
O SPSS Modeler possui uma interface uma visão dos dados da empresa,
visual que permite aos usuários como vendas, posicionamento do
trabalhar com algoritmos de produto, preferências do cliente etc.
mineração de dados sem a Ele também pode diferenciar dados
necessidade de programação. Além “quentes” e “frios”. Ou seja, coloca
disso, ele elimina as complexidades dados usados com menos frequência
desnecessárias enfrentadas durante em uma seção de armazenamento
as transformações de dados. Dessa lento.
forma, facilita o uso de modelos O Teradata trabalha na arquitetura
preditivos. ‘share nothing’. Afinal, possui seus
O IBM SPSS vem em duas edições, nós de servidor com capacidade de
com base em seus recursos. memória e processamento próprios.
Clique em Teradata para visitar o site
Clique em SPSS Modeler para visitar oficial.
o site oficial. 15) Board
13) Mineração de dados do SAS Disponibilidade: Licença proprietária
Disponibilidade: Licença proprietária Trata-se de um software para
O Statistical Analysis System (SAS) é Business Intelligence, análise e
um produto do SAS Institute gerenciamento de desempenho
desenvolvido para análise e corporativo. É uma das ferramentas
gerenciamento de dados. O SAS pode mais adequada para empresas que
minerar dados, alterá-los, gerenciar buscam melhorar a tomada de
dados de diferentes origens e realizar decisões. Afinal, a Board reúne dados
análises estatísticas. Além disso, de todas as fontes e simplifica-os para
fornece uma interface gráfica para gerar relatórios no formato desejado.
usuários não técnicos. A Board tem a interface mais atraente
O minerador de dados SAS permite e abrangente entre todos os softwares
que os usuários analisem dados em de BI do setor. Além disso, fornece
grande escala e recebam informações facilidade para executar análises
precisas para tomar decisões multidimensionais, controlar fluxos de
oportunas. Portanto, o SAS possui trabalho e acompanhar o
uma arquitetura de processamento de planejamento de desempenho.
memória distribuída altamente Clique em Board para visitar o site
escalável. Ou seja, é bem adequado oficial
para mineração de dados, mineração 16) Dundas BI
de texto e otimização. Disponibilidade: Licenciada
Clique em SAS para visitar o site Dundas é outro excelente painel de
oficial. controle, relatórios e ferramenta de
14) Teradata análise de dados. Afinal, é bastante
Disponibilidade: Licenciada confiável com suas integrações
rápidas e insights rápidos. Além disso,
fornece padrões ilimitados de mineração de dados deve ser
transformação de dados com tabelas, comprada, o usuário deve pesquisar
tabelas e gráficos atraentes. os requisitos de negócios. Ou seja,
O Dundas BI oferece ainda um responder a perguntas como:
recurso fantástico de acessibilidade “A ferramenta atende ao
de dados em vários dispositivos, com comportamento do cliente?”
uma proteção de documentos sem “Ela contribui para aumentar a
lacunas. eficiência?”
Portanto, o Dundas BI coloca os “Alinha-se com o sistema de
dados em estruturas bem definidas de gerenciamento?”
maneira específica, a fim de facilitar o “Trará alguns acréscimos de valor
processamento para o usuário. nunca experimentados antes?”
Constitui-se de métodos relacionais Todas essas perguntas devem ser
que facilitam a análise consideradas antes de uma decisão.
multidimensional e se concentra em Afinal, somente após encontrar
questões críticas para os negócios. respostas adequadas é que o usuário
Por gerar relatórios confiáveis, reduz deve realizar sua escolha.
custos e elimina a necessidade de
outros softwares adicionais. 9.7 NOÇÕES DE APRENDIZADO DE
Clique em Dundas BI para visitar o MÁQUINA.
site oficial. Nas duas últimas décadas,
Além das 16 ferramentas acima, o Aprendizado de Máquina tornou-
existem algumas outras ferramentas se um dos pilares da tecnologia da
que merecem ser mencionadas. informação e, com isso, uma parte
Ferramentas adicionais central, embora geralmente oculta, de
Intetsoft nossa vida. Com a crescente
O Intetsoft é um painel de análise e quantidade de dados disponíveis, há
ferramenta de relatórios que fornece boas razões para acreditar que a
um desenvolvimento interativo de análise inteligente de dados se tornará
relatórios/visualizações de dados e cada vez mais difundida como um
gera relatórios perfeitos de pixel. ingrediente necessário para o
KEEL progresso tecnológico.
É uma ferramenta JAVA para executar O objetivo deste artigo é fornecer ao
diferentes tarefas de descoberta de leitor uma visão geral sobre a vasta
dados. É baseado em GUI. gama de aplicações que têm em seu
R Data mining coração um problema de aprendizado
R é um ambiente de software livre de máquina e introduzir o leitor a um
para executar computação estatística tema tão importante.
e gráficos. Portanto, é amplamente Além de passar noções básicas
utilizado na academia, pesquisa, sobre aprendizado de máquina,
engenharia e aplicações industriais. também apresentaremos algumas
H2O das suas principais aplicações e
O H2O é outro excelente software de discutiremos algumas ferramentas
código aberto para realizar análises básicas da estatística e da teoria das
de big data. Ele é usado para executar probabilidades, já que elas formam a
a análise de dados nos dados linguagem na qual muitos problemas
mantidos em sistemas de aplicativos de aprendizado de máquina devem
de computação em nuvem. ser formulados para serem passíveis
Contudo, antes de tomar a decisão de solução.
final sobre qual ferramenta de
O assunto da aprendizagem por pouco da história do machine learning
máquinas pode ser entendido via e alguns exemplos reais:
diferentes abordagens.
Começaremos pela sua conceituação Aplicações do aprendizado de
e as suas principais aplicações! máquina
A maioria dos leitores deste blog estão
Definição de aprendizado de familiarizados com o conceito de
máquina ranking de páginas da web,
Machine Learning, termo original em popularizado pelo Google. Ou seja, o
inglês, ou o aprendizado automático, processo de envio de uma consulta a
como também é conhecido, é um um mecanismo de pesquisa, que, em
subcampo da ciência da computação. seguida, localiza páginas da web
Evoluiu do estudo de reconhecimento relevantes para a consulta e as
de padrões e da teoria do aprendizado retorna em sua ordem de relevância.
computacional em inteligência Para atingir esse objetivo, um
artificial. mecanismo de pesquisa precisa
De acordo com Arthur Samuel (1959), “saber” quais páginas são relevantes
o aprendizado de máquina é o “campo e quais páginas correspondem à
de estudo que dá aos computadores a consulta. Esse conhecimento pode
habilidade de aprender sem serem ser obtido de várias fontes: pela
explicitamente programados”. Além estrutura de links das páginas da
disso, explora a construção de Web, seu conteúdo, a frequência com
algoritmos que podem aprender com que os usuários seguirão os links
seus erros e fazer previsões sobre sugeridos em uma consulta ou a partir
dados a partir de duas abordagens de de exemplos de consultas em
aprendizagem: supervisionada, não combinação com páginas web
supervisionada e por reforço. Isso classificadas manualmente.
permite produzir decisões e Cada vez mais o aprendizado de
resultados confiáveis e repetíveis. máquina, em vez de adivinhação, é
Tais algoritmos podem fazer usado para automatizar o processo de
previsões a partir de amostras ou criação de um bom mecanismo de
tomar decisões guiadas unicamente pesquisa, como o Google. Uma
por dados, sem qualquer tipo de aplicação relacionada a isso é
programação. Embora semelhante, a filtragem colaborativa, uma técnica
em certos aspectos, da estatística utilizada por sistemas de
computacional, que faz previsões com recomendação.
o uso dos computadores, o Um Sistema de
aprendizado de máquina é usado em Recomendação combina técnicas
tarefas computacionais onde criação computacionais para selecionar itens
e programação de algoritmos personalizados com base nos
explícitos é impraticável. interesses dos usuários e conforme o
Entre os exemplos de aplicações contexto no qual estão inseridos.
temos o processsamento de Lojas online, como a Amazon, ou sites
linguagem natural, filtragem de de Streaming, como a Netflix, utilizam
SPAM, reconhecimento de fala e de esse sistema para atrair usuários a
escrita, visão computacional, comprar produtos adicionais (ou
diagnóstico médico, sistemas de assistir mais filmes).
busca, entre outros. O problema dos sistemas de
recomendação é bastante semelhante
No vídeo abaixo você encontrará um ao do ranking da página web. Como
antes, queremos obter uma lista pessoa, é possível reconhecê-la. Em
ordenada. A principal diferença é que outras palavras, o sistema precisa
uma consulta explícita está ausente e, classificar rostos a partir das muitas
em vez disso, só podemos usar o categorias (João, Camila, Felipe, …)
comportamente dos usuário para ou decidir que é um rosto
prever hábitos futuros de visualização desconhecido.
e compra. Um problema semelhante, mas
A informação chave neste caso são as conceitualmente bastante diferente, é
decisões tomadas por usuários o da verificação. Seu objetivo é
similares, daí a natureza colaborativa verificar se a pessoa em questão é
do processo. É claramente desejável quem ela afirma ser. Note que
ter um sistema automático para diferentemente de antes, esta agora é
resolver este problema, evitando uma pergunta sim ou não. Para lidar
assim adivinhação e o gasto de com diferentes condições de
tempo. iluminação, expressões faciais, se
Outro exemplo de aplicação uma pessoa está usando óculos,
do machine learning é a tradução penteado, etc., é desejável ter um
automática de documentos. Para sistema que aprende quais recursos
resolver este problema, poderíamos são relevantes para identificar um
ter como objetivo entender pessoa.
completamente um texto antes de Caso você queira se aprofundar no
traduzí-lo, usando um conjunto de tema, recentemente eu participei de
regras selecionadas, elaborado por um evento online onde apresentei
um linguista computacional bem alguns exemplos práticos de machine
versado nas duas línguas que learning. Você pode conferir a
gostaríamos de traduzir. Entretanto, gravação:
isso seria um desafio muito complexo,
uma vez que um texto nem sempre é
gramaticalmente correto e o contexto
utilizado pode gerar confusões de Métodos de aprendizagem
entendimento. Para compreender melhor o assunto
Em vez disso, poderíamos explicaremos os principais métodos
simplesmente usar exemplos de de aprendizagem.
documentos semelhantes traduzidos.
Esses documentos poderiam ser 1. Aprendizagem supervisionada
utilizados para que a máquina possa É principalmente utilizada quando o
aprender a tradução entre as duas sistema já sabe quais entradas estão
línguas. Em outras palavras, associadas com quais saídas e
poderíamos usar exemplos de precisa aprender um meio de
traduções para aprender como entender essa associação. Utiliza
traduzir. Essa abordagem de a detecção de padrões para
aprendizado de máquina mostrou-se estabelecer previsões. Um exemplo
bem-sucedida e é muito utilizada, uma de aprendizagem supervisionada é a
vez que a própria internet é uma ótima categorização de e-mails, separando
base de dados. do que é relavante e o que é SPAM.
Muitas aplicações de segurança, Caso você tenha interesse em se
como controle de acesso, usa o aprofundar no tema, eu recentemente
reconhecimento facial como um de participei de um evento onde
seus componentes. Isto é, dada uma apresentei algumas aplicações
foto (ou gravação de vídeo) de uma
práticas de machine learning, com um Durante o aprendizado de
pouco de teoria, é claro: máquina, existirá uma série de
análises feitas por algoritmos
2. Aprendizagem não-supervisionada específicos, em busca de
Já na aprendizagem não- encontrar padrões relevantes,
supervisionada, sua abordagem está porém isso não quer dizer que
na descoberta das relações implícitas estamos produzindo
em um conjunto de dados não conhecimento, na verdade,
rotulados. Nesse caso, identifica estamos agilizando parte do
padrões para rotular os dados. O processo de obtenção da
sistema de recomendação, citado informação para fins de ganhar
anteriormente, é um bom exemplo de conhecimento, porém este
aprendizagem não suprvisionada. último necessita da participação
humana para que seja
3. Aprendizagem por reforço concretizada, podendo, em
Nesse método, o computador é alguns casos, ter que rever as
estimulado a aprender com base em estratégias de treinamento
tentativas e erros. O processo é sobre os dados , incluindo a
otimizado por meio da prática direta, “calibragem” nos parâmetros
ensinando o sistema a priorizar certos aplicados nas bibliotecas que
hábitos. Entre os exemplos desse utilizam tais algoritmos.
método estão os veículos autônomos Segundo T. Michell:
e os sistemas que jogam xadrez. “O aprendizado de máquina
trata do projeto e
Conclusão desenvolvimento de algoritmos
Por fim, este é um campo muito rico e que imitam o comportamento de
que possui aplicações para resolver aprendizagem humano, com um
problemas complexos em áreas como foco principal em aprender
saúde, educação, entretenimento, automaticamente a reconhecer
tecnologia, etc. Nos próximos anos padrões complexos e tomar
veremos uma difusão cada vez maior decisões.“
dos conceitos de machine learning em Uma estratégia muito utilizada é
diferentes tipos de novos negócios. dividir a amostra de dados em
O Aprendizado de Máquina um conjunto destinado
(machine learning), além de ao treinamento e outra
ser considerada uma subárea destinada aos testes. Essa
da Inteligência Artificial (AI), partição no conjunto de dados
mantém relação com atividades tem por finalidade garantir a
realizadas na mineração de isenção na análise, de tal forma
dados, porém atuando de que os dados de testes não
forma ágil com a utilização de sejam os mesmos utilizados
algoritmos específicos durante o treinamento, que tem
e recursos que possibilitam a a finalidade de criar o modelo de
elaboração de modelos, com conhecimento. Os dados de
base no treinamento aplicado teste serão aplicados no modelo
aos dados. É equivocado de conhecimento obtido através
afirmar que o aprendizado de do treinamento.
máquina gera inteligência e por Logo abaixo, de forma
si só pode tomar decisões, não simplificada, apresento duas
é bem assim. figuras, onde a primeira divide a
amostra em um conjunto de que eles consomem, porém a
dados para treino e outro organização ainda não tem uma
para teste. Perceba que no classificação definida para os
caso do treino a amostra perfis dos clientes.
geralmente é maior do que a de Neste caso é possível fazer uso
teste, isso para que os do Aprendizado de Máquina,
algoritmos utilizados possam através de algoritmos que
extrair o máximo possível do possam inicialmente encontrar
padrões observados. grupos de dados que se
assemelhem pelas suas
características. Nestes casos,
os autores denominam esta
forma de encontrar padrões,
sem que haja valores definidos
previamente para sua
classificação, de
aprendizado Não
Supervisionado.
Um algoritmo muito conhecido
para este tipo de descoberta de
grupos (clusters) é o K-
means (K-médias). Por se tratar
Figura 1: Dividindo a amostra
de algoritmo de aprendizagem
não-supervisionada, será
informado para ele o valor de
“k“, que corresponde a
quantidade de clusters(grupos)
que se deseja encontrar. Com
base neste “k” informado, o
algoritmo irá analisar todos os
registros e agrupar em “k”
grupos, levando em
consideração a semelhança e
característica de cada registro.
Figura 2: Executando o treinamento e Para que o K-means possa
obtendo o modelo de conhecimento realizar os agrupamentos,
existe um passo de transformar
Imagine que uma organização cada registro em um número
deseje classificar dados em (como se fosse um Id), alguns
determinadas categorias, sendo autores chamam esta atribuição
que estes dados representam de “rótulo”, para que então
uma volumetria de 500 mil possam ser formados os
registros de um banco de dados clusters.
que armazena os dados de A partir da definição dos
transações de vendas on-line(e- clusters(grupos), o algoritmo irá
commerce), ou seja, um volume definir um valor médio(means)
considerável. Imagine agora em cada grupo e este ponto é
que exista uma demanda para conhecido como centróide. A
analisar os perfis dos clientes partir daí o algoritmo K-
de acordo com o tipo de produto means fará o cálculo da
distância entre cada elemento conhecer a classificação
do grupo em relação ao pretendida, os autores
centróide, afim deque todos os denominam esta atividade
elementos fiquem bem próximos de classificação
ao centróide localizado. Neste de Aprendizado
momento, possa ser que algum Supervisionado. Um algoritmo
elemento mude de grupo, muito conhecido para
devido a proximidade dele em classificação é o K-nn, que
relação ao centróide do outro veremos mais detalhes no
grupo. Vejamos abaixo uma próximo artigo que escreverei.
sequência de figuras mostrando Neste artigo apresentei alguns
estes passos. conceitos sobre o Aprendizado
de Máquina, vejamos abaixo
como esse assunto é cobrado
em questões de concursos.
LONGA DISTÂNCIA
✓ WAN – Wide Area 11.1 TERMINOLOGIA E
Network APLICAÇÕES,
✓ WANs são redes usadas TOPOLOGIAS, MODELOS DE
para a interconexão de ARQUITETURA (OSI/ISO E
redes menores (LANs TCP/IP) E PROTOCOLOS.
ou MANs) e sistemas COMUTAÇÃO DE CIRCUITOS X
computacionais dentro COMUTAÇÃO DE PACOTES
de áreas geográficas A comutação de circuitos possui
grandes (cidades, fundamento similar à telefonia
países ou até continente fixa. Nela, todo o tráfego de
✓ As WANs possuem um informação entre dois
custo de comunicação dispositivos sempre passa pelo
bastante elevado devido mesmo caminho. Tal caminho
aos circuitos para pode ser definido por um
satélites e enlaces de circuito físico, ou por
microondas. compartilhamento de um meio,
✓ São, em geral, utilizando multiplexação.
mantidas, gerenciadas e Na comutação por pacotes, por sua
de propriedade de vez, os pacotes podem seguir
grandes operadoras vários caminhos diferentes
(públicas ou privadas), e para chegar ao destinatário,
o seu acesso é público. podendo, inclusive, chegarem
✓ Por questões de fora de ordem, pois serão
confiabilidade, reordenados na máquina
caminhos alternativos destino. È o paradigma que
são oferecidos entre vigora na Internet
alguns nós. Com isso, a
topologia da rede é, FORMAS DE UTILIZAÇÃO DO MEIO
virtualmente, ilimitada. FÍSICO
Simplex – trafego de informação
apenas por um sentido. EX:
fibra ótica MODELO ISO/OSI
half-duplex – trafego nos dois Permite a comunicação entre
sentidos, mas apenas um maquinas heterogeas e
sentido de cada vez. Um par de define diretivas
Walkie-talkies genéricas para a
full-duplex – ambos sentidos, construção de redes de
simultaneamente computadores ( seja de
UNICAST X MULTICAST X curta, média ou longa
BROADCAST distancia) independente
Diz respeito ao numero de da tecnologia utilizada
destinatários de uma Divide a rede em 7 camadas
transmissão. onde cada protocolo
Unicast – um remetente e um implementa uma
receptor. Utiliza protocolos funcionalidade
HTTP, HMTP, FTP e TelNET assinalada a uma
Multicast – grupo especifico de determinada camada.
dispositivos ou clientes. Usado
em transmissões de vídeo e
boz de uma associada reunião.
Broadcast – todos os outros
endereços transmissão de
mensagem para todos os
dispositivos na rede local.
TOPOLOGIAS
Ponta a ponta – PC com outro
Barramento
Talvez o protocolo mais conhecido
para esse tipo de topologia seja
o CSMA/CD(Carrier Sense
Multiple Access with Collision
Detection)
ANEL 1- Física
ESTRELA Trata da transmissão do
ARVORE Bits brutos por um canal de
FULL MESHED - todos os comunicação.
dispositivos replicam
informações a todos. A
rede é altamente 2- Ligação de dados (link)
confiável e altamente Transforma um canal de
redundante. comunicação bruta em uma
linha que pareça livre de
erros.
Ocorre a divisão dos dados
em de entrada em quadros
de dados (frames.)
Cabe ainda destacar que a
camada de enlace de dados
subdivide-se em camada
MAC (Media Access Control Responsável pela
– Controle de Acesso ao criptografia
Meio) – (preocupa-se com o 7- Aplicação
endereçamento físico e com Promover uma interação
a conectividade de ponta-a- entre a maquina
ponta) e LLC (Logical Link destinatária e o usuário da
Control – Controle do aplicação
Enlace LÛgico) (oculta as nesta camada são: HTTP,
diferenças entre os diversos SMTP, FTP, SSH, Telnet,
tipos de redes 802, SIP, RDP, POP3, IMAP,
oferecendo a camada de enfim, os protocolos das
rede um meio transparente ( camadas finais dos
não importa o tipo de aplicativos
conexão))
3- Rede PCI – Informação de
Endereçamento dos controle de protocolo
pacotes de rede, os SDU – Unidade de dados
datagramas. Associando IP do serviço
( endereços lógicos em PDU – Unidade de dados
endereços Fisicos (MAC) de protocolo
4- Transporte
Recebe os dados da PCI + SDU = PDU, ao
camada acima dela, divide passar para outra camada
em unidades menores caso ele vira um SDU e a próxima
necessário, repassa essas camada insere PCI
unidades a cama de rede e
assegura que todos os
fragmentos cheguem
corretamente a outra
extremidade HTTP, FTP, TLS,
Na recepção, ela une os SIP, NETBIOS
segmentos e encaminha à
camada de Sessão. TCP/UDP
Realiza controle de fluxo,
ordenação de pacotes e IP, ICMP, MAT, ARP
correção de erros. –
Primeira camada fim-a-fim ETHERNET , WIFI
5- Sessão
Permite que os usuários de ✓ Na camada acesso á rede,
diferentes máquinas também conhecida como
estabeleçam sessões entre host/rede, o modelo TCP/IP
eles. não especifica nada. Apenas
Controle de diálogo, o diz que o host deve se conectar
gerenciamento do token, e ao meio físico utilizando um
a sincronização. protocolo, a fim de que seja
possível enviar pacotes IP.
6- Apresentação Este protocolo não È definido.
Preocupa-se com a síntese ✓ Quanto ao nível inter-rede
e a semântica das (internet), seu objetivo É fazer
informações transmitidas. com que pacotes enviados em
um ponto da rede cheguem ao PLACA DE REDE – TAXA DE
seu destino, independente de TRANSFERÊNCIA
falhas em partes da rede. É • Placa Ethernrt variam de:
possível que os pacotes - 10 mbps
cheguem ao destino em ordem - 100 mbps
diferente que partiram, - 1000 mbps (1gbps)
obrigando as camadas - 10000 mbps (10gbps
superiores a reorganizar tudo. • Placa token ring de 4mbps ou
✓ O protocolo definido nessa 16 16 mbps
camada para o modelo TCP/IP • Placas wifi – 11 e 54 mbps
É o protocolo IP, e o
roteamento É de grande Esta diferença é por causa dos
importância aqui. A camada de canais empregados.
transporte, por sua vez, tem
como objetivo permitir que os TIPOS DE CONECTORES
hosts de origem e destino
conversem independente da Os conectores devem ser
distância, da mesma forma que compatíveis com os cabos
o nível 4 do modelo OSI. empregados
✓ A camada de aplicação, por
fim, contém os protocolos de - cabos de par trançado –
alto nível, possuindo funções conectores RJ-45.
semelhantes às do nível de - para cabos coaxiais
aplicação do modelo OSI. conectores BNC.
✓ Observação: alguns autores - modems
reconhecem a camada de Transforma sinal difital em analógico,
enlace no modelo TCP/IP, ou vice e versa
criando uma espécie de Origem da expressão “ modulador e
“modelo híbrido”. A única demodulador
unanimidade entre os autores é Pode ser interno ou externo
a absorção das camadas de
sessão e apresentação pela
camada de aplicação. TIPOS DE MODEM
Acesso discado
11.2 INTERCONEXÃO DE Banda larga (fio)
REDES, NÍVEL DE DIFERENÇA ENTRE MODEM E
TRANSPORTE. PLACA DE REDE
Placa de rede conectam o dispositivo
ELEMENTOS DE INTERCONEXÃO a um canal compartilhado por vários
DE REDES pontos
- placa de rede Modems estabelecem conexões
Principal hardware de comunicação ponto a ponto
entre dispositivos através de Repetidores (HUB)
uma rede Repetidores ou HUB funciona como a
Funciona como interface entre o peça central em uma rede de
dispositivo de processamento e topografia estrela, ele recebe
o canal de dados. os sinais transmitidos pelas
Desempenha as funções da camada estações e retransmite-os para
de enlace. todas as demais
Trabalham no nível físico do modelo ✓ Elas funcional como uma rede
OSI. virtual, utilizada para transporte
HUB: ATIVOS OU PASSIVOS de informação somente para os
Passivo – funcionam como um dispositivos que pertencem a
aparelho, pois simplesmente ela.
refletem os sinais recebidos ✓ Como o SWITCH possui
para todas as estações que informação de endereçamento
estão conectadas a eles em sua tabela interna, o
Ativos – além de refletir, reconstitui o administrador de rede pode
sinal enfraquecido e diminuir o trafego de difusão,
retransmite-o, fazendo com criando redes virtuais para que
que a sua distância máxima partes da rede pareçam estar
duplique em relação ao HUB em diferentes redes físicas.
passivo. CLASSIFICAÇÃO DE SWITCHES
Ponto (bridge) • Cut Trough – O Switch examina
Funcionando no nível de enlace da apenas o endereço MAC do
camada OSI, tem como quadro e envia ao destinatário.
finalidade traduzir os quadros • Atrone and Forward – O switch
de diferentes tecnologias, ou armazena todo o quadro,
seja, interligar redes de examina o endereço MAC,
diferentes tecnologias. avalia o CRC e encaminha o
Outro exemplo comum é a interligação quadro para o endereço de
entre uma rede Ethernet e destino se não houver erro.
uma rede WIFI • Fragment Free – O Switch
analisa os primeiros 64 bytes
do quadro, onde as
informações de
endereçamento estão
armazenadas.
Roteador (Router)
Funcionando no nível de redes da
camada OSI, o roteador é o
dispositivo que recebe e
repassa pacotes entre redes IP
distintas.
Comutador (switch) Quando existem vários caminhos
✓ Funciona ao nível de enlace da possíveis decide qual é o
camada OSI melhor para o tráfego de
✓ É montada uma tabela informações. Sempre baseado
associando as portas do switch nos endereços lógicos (IP) de
com os endereços físicos destino dos pacotes.
(MAC) conectados. Este processo é chamado de
✓ Para cada frame é identificado roteamento
o endereço de destino, O roteador também pode executar a
consultada a tabela, o trafego é função de filtro de pacotes
direcionado somente para a selecionando e permitindo
porta de destino quais deles podem transpassa-
VLAN- VIRTUAL LOCAL AREA lo
NETWORK Utilizando listas de acesso, roteador
pode fazer filtros com as listas
de acessos, proibindo ou • Ponte (Bridge)
permitindo tráfegos específicos • HUB
tanto para dentro quando para • Comuta dor ( Switch)
fora de sua rede. • Rotead or (R out er
TABELA DE ROTEAMENTO
O roteamento segue uma regra
definida na chamada tabela de 12 NOÇÕES DE PROGRAMAÇÃO
roteamento que pode ser PYTHON E R.
configurada:
- manualmente ou através de APOSTILA
protocolos de roteamento (
RIP, OSPF, IGRP, BGP, EGP). 13 API (APPLICATION
Com base nessa tabela, o roteador PROGRAMMINGINTERFACE
analisa o endereço IP de ).
destino dos dados de entrada e ✓ Uma API (Application
direciona os dados para uma Programming Interface ou
porta de saída. Interface de Programação de
NAT (NETWORK ADDRESS Aplicativos) é um conjunto de
TRANSLATOR rotinas e padrões de
A função do roteador para realizar o programação para acesso a
NAT é utilizada para converter um aplicativo de software ou
um único endereço exclusivo plataforma baseado na Web.
da internet em vários ✓ Uma API é criada quando uma
endereços de rede privada empresa de software tem a
Ou seja, o endereço de origem, no intenção de que outros
caso uma máquina dentro da criadores de software
rede interna, é trocado pelo desenvolvam produtos
endereço externo do roteador, associados ao seu serviço.
DHCP ( DYNAMIC HOST Existem vários deles que
CONFIGURATION disponibilizam seus códigos e
PROTOCOL) instruções para serem usados
em outros sites da maneira
Cada dispositivo numa rede necessita mais conveniente para seus
ser configurado com os usuários.
seguintes informações: ✓ O Google Maps é um dos
-IP grandes exemplos na área de
-Mascara de Sub-rede APIs. Por meio de seu código
Gateway original, muitos outros sites e
DNS aplicações utilizam os dados
O protocolo DHCP é utilizado para do Google Maps adaptando-o
definir automaticamente esta da melhor forma a fim de
informações para os utilizar esse serviço.
dispositivos da rede. ✓ Através das APIs, os
Assim não é necessário configurar aplicativos podem se
seus endereços de rede comunicar uns com os outros
manualmente. sem conhecimento ou
intervenção dos usuários. Elas
Placas de R ede funcionam através da
• Modems comunicação de diversos
• Repetidores códigos, definindo
comportamentos específicos arquivos, podem conter informações
de determinado objeto em uma que não são visíveis aos usuários,
interface. expondo-se sua privacidade ou
✓ A API liga as diversas funções informação indevida. Utilizando como
em um site de maneira que exemplo um arquivo de imagem, no
possam ser utilizadas em qual sabemos que este formato de
outras aplicações. Vamos usar arquivo contém informações visíveis
um esquema para fixar as em sua propriedade, seja por:
APIs: Tamanho da imagem, Horário e data
✓ Esquema 1 – API. de criação, dentre outros. Mas, além
✓ API - Application Programming dos dados comuns quais informações
Interface ou Interface de podem conter nos metadados dos
Programação de Aplicativos arquivos?
Conjunto de rotinas e padrões Ao buscar e analisar os metadados
de programação para acesso a podemos extrair informações
um aplicativo de software ou adicionais de uma imagem, como sua
plataforma Intenção de que localização via coordenadas GPS e
outros criadores de software suas informações técnicas como
desenvolvam produtos horário de criação, tipo do
associados ao seu serviço equipamento, obturador e
Aplicativos podem se configurações da ISO.
comunicar uns com os outros Metadados, são dados que
sem conhecimento ou caracterizam outros dados, ou seja,
intervenção dos usuários. um conjunto de elementos que
Uma forma de resumir o API é que ele descrevem um dado de um arquivo
vem para fazer ligações dentro de um computador, conforme o
exemplo de imagem citado acima, ao
14 METADADOS DE ARQUIVOS. consultar as propriedades de uma
Dados sobre dados; foto, podemos extrair dela uma
Podem ser documentos, gráficos, superfície de informações de um
tabelas, imagens, vídeos, entre conjunto de metadados. Fazendo uma
tantos outros. análise mais aprofundada, com a
Pode ser considerado como uma ajuda de uma ferramenta Open
abstração do dado, Source, vamos analisar os
Explica o que é um dado, de onde vem metadados.
e suas características. Análise de metadados
Estão em bancos de dados Exiftool (Exchangeable image file
Ele processa, atualiza e consulta os format), é uma ferramenta de linha de
dados. comando de software livre, sua
Fornece recursos para entender o funcionalidade basicamente é a
dado no tempo. análise e manipulação de metadados
Um dado é nada, e ele ajuda a de arquivos como imagens, PDF,
construir uma informação. dentre outros.
Dado – informação – conhecimento e Após instalar e executar a ferramenta,
sabedoria ou inteligência utilizando o comando Exiftool
Principal componente dentro do foto.jpg os metadados serão exibidos:
armazém de dado/ data Colhendo informações da localização
warehouse de coordenadas GPS.
Arquivos como fotos pessoais,
relatórios importantes dentro outros
Após extrair as coordenadas GPS da
imagem analisada, fazemos uma
edição;
Fazendo uma rápida busca no Google
Maps com
coordenadas GPS extraídas dos
metadados, podemos encontrar a
localização exata onde a imagem foi
criada:
Um dos problemas dos metadados é o
extremo potencial que tais
informações fornecem para curiosos
ou maus intencionados, com intuito de
invadir a sua privacidade. Quando um
usuário qualquer de
um smartphone tirar uma foto de algo
que deseja vender, por exemplo, e
publica a sua imagem em alguma
espécie de site de anuncio, que não
oculte esses dados, ou até mesmo ao
publicar uma imagem em redes
sociais, ou blogs, temos uma grande
chance de que criminosos extraia os
metadados para fins maliciosos,
roubar o item, por exemplo.
Devido ao avanço da tecnologia,
houve várias evoluções que propôs
aos usuários de diversos meios
tecnológicos, o hábito de não verificar
as configurações de seus aparelhos
tais como Smartphones,
computadores, tablets, dentre outros.
Uma forma de prevenção a sua
privacidade seria, enviar arquivos sem
os metadados. Ou, no mínimo manter
sempre a permissão da localização
GPS desativada ao tirar uma foto,
tendo o cuidado com o tipo de
informação que pode estar associa às
suas fotos, evitando dados que
possam expor você.