Escolar Documentos
Profissional Documentos
Cultura Documentos
Assim, SGBDs são construídos, de forma geral, por módulos com Atualmente existem vários fornecedores de bancos de dados. Cada
funcionalidades bem definidas. Cada módulo possui uma um deles possui características e algumas peculiaridades no qual
responsabilidade no processo de gerenciamento dos dados. são necessárias análises antes de decidir qual banco utilizar, sendo
Usuários e programadores interagem com estes módulos a fim de alguns destinados a projetos menores, enquanto outros não.
obter seus resultados. A figura a seguir detalha essa estrutura: Dessa forma, o custo para realizar a implantação do SGBD deve ser
levado em conta antes da contratação.
A seguir são descritos os principais SGBDs disponíveis no mercado
e que estão sempre presentes nas questões de provas de
concursos.
2
Descreve a estrutura do banco de dados inteiro para a comunidade A representação dos dados pode estar submetida a diferentes
de usuários, ocultando detalhes das estruturas de armazenamento níveis de abstração. ELMASRI E NAVATHE (2011) dividem estes
físico e concentrando-se na descrição de: níveis em modelos conceituais, modelos lógicos ou
Entidades; representacionais e modelos físicos.
Tipos de Dados;
Relacionamentos; Modelo Conceitual
Operações de usuários;
Restrições. O modelo conceitual é um modelo de dados de alto nível, mais
próximo ao modo como o usuário vê os dados.
Nível interno (ou esquema interno): HEUSER (2009) também define que este é um modelo de dados
Também conhecido como nível de armazenamento, descreve a abstrato, que descreve a estrutura de um banco de dados de forma
estrutura de armazenamento físico do banco de dados. O esquema independente de um SGBD.
interno usa um modelo de dados físico e descreve os detalhes
completos do armazenamento de dados e caminhos de acesso para Assim, o modelo conceitual não se refere a características físicas ou
o banco de dados. de baixo nível como forma de acesso e armazenamento dos dados.
Ele está focado em ilustrar a realidade existente a partir de uma
Para uma melhor visualização, acompanhe o esquema abaixo: representação gráfica.
Independência Física de Dados: É importante destacar que o modelo lógico é iniciado somente a
É a capacidade de mudar o esquema interno sem ter de alterar o partir da estruturação do modelo conceitual. Dessa forma, o
esquema conceitual. Consequentemente, o esquema externo modelo lógico é dependente do tipo ou modelo de SGBD que será
também não precisa ser modificado. utilizado, ou seja, é levada em consideração qual abordagem será
MODELOS DE DADOS utilizada referente ao banco de dados, se Relacional, Hierárquico
Após estudarmos os principais conceitos de banco de dados, vamos ou de Rede.
nos concentrar nos diferentes tipos de modelos de dados que
possibilitam diferentes tipos de visões dos usuários. A figura a seguir ilustra um exemplo de um modelo lógico seguindo
a abordagem de Bando de Dados Relacional.
Para C. J. DATE (2003) os modelos de dados servem para
descrever a estrutura de um banco de dados, fornecendo
significado necessário para permitir a abstração de dados, uma das
características fundamentais dos bancos de dados.
3
Os modelos físicos são modelos de baixo nível que descrevem os
detalhes de como os dados serão armazenados no computador.
Geralmente, estes modelos são voltados para especialistas. Assim,
o modelo físico é construído com base no modelo definido
anteriormente (modelo lógico), com o objetivo de ser aplicado
sobre um SGBD específico.
Na construção do modelo físico, são definidas características como
tipo e tamanho do campo, relacionamento, indexação e restrições.
Dessa forma, este modelo se importa em descrever as estruturas
físicas dos bancos de dados, tais como tabelas (tables), índices
(index), gatilhos (triggers), funções (functions), visões (views), etc.
A caixa a seguir ilustra um script de banco de dados em SQL
representando a criação dos detalhes dos dados internamente ao
banco de dados (campo, tipo/domínio, restrições).
A figura a seguir ilustra o esquema geral das diferentes etapas que Projeto Físico:
serão percorridas ao longo do desenvolvimento de um novo banco Na última etapa, são especificadas as estruturas de
de dados no contexto do desenvolvimento de um novo sistema ou armazenamento internas, organizações de arquivo, índices,
aplicação. caminhos de acesso e parâmetros físicos do projeto para os
arquivos de banco de dados. Em paralelo, os programas de
aplicação são projetados e implementados como transações de
banco de dados correspondentes às especificações da transação de
alto nível. O projeto físico é um processo contínuo, que ocorre
mesmo depois de o banco de dados já estar implementado e em
funcionamento, este processo é chamado de sintonia (tunning) de
banco de dados. Aqui o modelo físico é dependente do SGBD que
será implantado, podendo ser o MySQL, Oracle, PostgreSQL ou SQL
Server, por exemplo.
Para fixar um pouco mais tudo o que vimos neste capítulo, vamos
resolver alguns exercícios de provas de concursos anteriores.
MODELAGEM CONCEITUAL
HEUSER (2009) define que o objetivo da modelagem conceitual é
obter uma descrição abstrata, independente de implementação em
computador e dos dados que serão armazenados no banco de
dados.
Temos que a abordagem Entidade-Relacionamento (ER) é a técnica
de modelagem mais utilizada na modelagem conceitual, o Modelo
Entidade-Relacionamento (MER) é modelo de dados conceitual
mais popular de alto nível e os Diagramas Entidade-
4
Relacionamento (DER) são a notação diagramática associada ao Mínima: participação ou dependência de existência.
MER.
A cardinalidade máxima, informa o número de ocorrências de
ENTIDADE instâncias de uma entidade com a outra. Para fins práticos, apenas
HEUSER (2009) define uma entidade como um conjunto de objetos duas cardinalidades máximas são representadas de cada lado dos
da realidade modelada sobre os quais se deseja manter losangos do relacionamento, as:
informações no banco de dados. Por exemplo:
De valor 1;
Existência Física: Pessoa, Carro, Casa, Empregado etc. E as de valor N.
Existência Conceitual: Empresa, Departamento, Trabalho,
Cargo, Curso etc. A cardinalidade máxima é usada para classificar os relacionamentos
Cada entidade possui um conjunto de atributos, que são as binários, aqueles nos quais os relacionamentos se dão entre duas
características que descrevem uma entidade em particular. Por entidades. São tipos de relacionamentos:
exemplo, a partir de uma entidade que representa uma pessoa, os 1:1 (um-para-um) – cada instancia de uma entidade se relaciona
atributos pertencentes a ela poderiam ser peso, altura, idade ou apenas com uma e somente uma instancia da outra entidade.
CPF.
Em um Diagrama ER, uma entidade é representada através de um Por exemplo: Na imagem abaixo temos o relacionamento que um
retângulo que contém o nome da entidade. A figura a seguir ilustra Empregado gerencia um Departamento, assim como, um
dois exemplos de entidades: Departamento é gerenciado por apenas um Empregado (Gerente).
Tipos de Entidades:
Normal;
Fraca (mais detalhes a seguir);
Associativa (mais detalhes a seguir). 1:N (um-para-muitos) – uma instância se relaciona com várias
na outra entidade, mas cada instância da outra entidade só pode
RELACIONAMENTO estar relacionada a uma única ocorrência da primeira entidade.
HEUSER (2009) define que um relacionamento é a representação
de um conjunto de associações entre as ocorrências de entidades. Por exemplo: Na imagem abaixo, um Departamento controla
Dessa forma, pode-se representar as interações que foram vários Projetos, assim como, um Projeto é controlado apenas por
identificadas no processo de análise entre as entidades. No um Departamento.
Diagrama ER um relacionamento é representado por um losango
que faz a interligação de suas respectivas entidades.
O nome do relacionamento aparece dentro do losango. A figura a
seguir apresenta um exemplo contendo duas entidades,
DEPARTAMENTO e PROJETO ligados ao relacionamento
CONTROLA.
Cardinalidade de Relacionamentos
É importante estabelecer a quantidade de ocorrências de cada um
dos relacionamentos. Esta propriedade é chamada de
cardinalidade, que se desdobra em cardinalidade máxima e
cardinalidade mínima, revelando diferentes características:
Tipos de Atributos
Existem diferentes tipos de atributos em uma entidade.
São eles:
Atributos Multivalorados:
Podem possuir vários valores para uma mesma entidade.
Por exemplo, FORMACAO_ACADEMICA é um atributo de uma
entidade do tipo Pessoa que pode não ter nenhuma formação, uma
ou várias formações.
Um atributo multivalorado pode ter um limite mínimo e um máximo
para restringir o número de valores permitidos para cada entidade
individual.
Atributos Derivados:
ATRIBUTO Os valores destes atributos podem ser derivados de outros
HEUSER (2009) define que os atributos são dados ou informações atributos ou entidades e eles relacionados.
associadas a cada ocorrência de uma entidade ou de um Por exemplo, os atributos IDADE e DATA_NASCIMENTO.
relacionamento. O atributo IDADE é derivado de DATA_NASCIMENTO, ou seja, o
Por exemplo, nome, idade, endereço, salário ou cargo do banco de dados pode calcular o valor do atributo IDADE a partir do
funcionário. Para cada entidade em particular, ela terá um valor valor que se encontra no atributo DATA_NASCIMENTO.
para cada um de seus atributos. Por fim, o atributo DATA_NASCIMENTO é chamado de atributo
No Diagrama ER, os atributos são representados graficamente por armazenado.
círculos brancos, conforme ilustrado as figuras a seguir:
Atributos Identificadores:
6
Quando o atributo permite distinguir uma ocorrência das demais
ocorrências de uma mesma entidade, ele é considerado um
atributo identificador de entidade.
Por exemplo, o atributo CPF pode ser considerado um atributo
identificador de uma entidade do tipo Pessoa, pois, para cada
pessoa, existe
um número de CPF único. Contudo, um atributo identificador pode Na figura acima, os atributos identificadores de relacionamento
corresponder a um conjunto de um ou mais atributos ou (data e hora) distinguem uma CONSULTA entre um MÉDICO e seu
relacionamentos. PACIENTE dentre as demais consultas deste médico com os seus
demais pacientes.
É importante ficar muito atento na diferença entre os atributos
compostos e os multivalorados, pois eles são bastante cobrados em Cardinalidade de Atributos
provas de concursos. HEUSER (2009) destaca que um atributo pode possuir uma
Atributo Composto: a informação é formada por várias partes, cardinalidade, de maneira análoga a uma entidade em um
com a informação completa sendo formada por todas as partes. O relacionamento. Esta cardinalidade define quantos valores deste
exemplo mais comum é o atributo ENDEREÇO. atributo podem estar associados com uma ocorrência da entidade
Atributo Multivalorado: podem possuir vários valores em um ou relacionamento ao qual ele pertence. Por exemplo, podemos ter
mesmo atributo. Um exemplo que cai bastante em prova é o as seguintes cardinalidades:
TELEFONE, no qual a pessoa pode registrar vários telefones (fixo,
celular, comercial) no mesmo atributo. Cardinalidade (1,1): obrigatória (não precisa representar a
Identificando Entidades (Atributos-Chave) cardinalidade no diagrama);
Para a maioria das entidades, estas devem possuir um Cardinalidade (0,1): opcional;
identificador. Segundo HEUSER (2009), um identificador de Cardinalidade (0,n): opcional e multivalorada;
entidade é um conjunto de um ou mais atributos e relacionamentos Cardinalidade (1,n): obrigatória e multivalorada.
cujos valores servem para distinguir uma ocorrência da entidade
das demais ocorrências da mesma entidade. Eles podem ser
representados por círculos pretos no Diagrama ER.
Para HEUSER (2009), um identificador simples (único atributo) é
suficiente para distinguir uma ocorrência da entidade das demais
ocorrências da mesma entidade.
ENTIDADE FRACA
HEUSER (2009) define que entidade fraca é uma entidade que não
possui atributos suficientes para formar uma chave primária. A
chave primária da entidade fraca é formada pela chave primária do
conjunto de entidades fortes da relação mais o identificador do
Já para um identificador composto, HEUSER (2009) menciona que conjunto de entidades fracas.
dois ou mais atributos podem ser necessários para distinguir uma Por exemplo, a entidade DEPENDENTE é uma entidade fraca, pois
ocorrência da entidade das demais ocorrências da mesma entidade. a entidade somente existe quando relacionada a outra entidade e
HEUSER (2009) destaca também que há casos em que o usa, como parte de ser identificador, entidades relacionadas.
identificador de uma entidade é composto não somente por seus A entidade fraca é representada por um retângulo com linha dupla
atributos, mas também, através de relacionamentos em que ela conforme demonstrado na figura a seguir.
participa (relacionamento identificador).
No Diagrama ER, o relacionamento usado como identificador é
indicado por uma linha dupla ou mais densa.
GENERALIZAÇÃO E ESPECIALIZAÇÃO
Por meio deste conceito é possível atribuir propriedades
particulares a um subconjunto das ocorrências especializadas de
uma entidade genérica.
Generalização: HEUSER (2009) define que a generalização é
processo inverso à especialização. Ela é resultado da união de dois
ou mais tipos entidade de nível mais baixo (subclasse), produzindo
um tipo-entidade de nível mais alto (superclasse). Assim, ela é uma
abstração de um conjunto de entidades.
Especialização: Já a especialização, HEUSER (2009) define como
o resultado da separação de um tipo-entidade de nível mais alto
(superclasse), formando vários tipos-entidade de nível mais baixo
(subclasse).
No Diagrama ER, o símbolo para representar
generalização/especialização é um triângulo isósceles.
Na figura acima, a entidade DEPENDENTE é identificada por seu
atributo “nome” e pelo relacionamento “dependeDe” com a
entidade EMPREGADO.
Identificando Relacionamentos
Um relacionamento é identificado pelas entidades dele
participantes, bem como pelos seus próprios atributos
identificadores se porventura existirem.
7
Na figura acima, a entidade PESSOA FÍSICA possui, além de seus
atributos CPF e sexo, os atributos herdados da entidade CLIENTE
(que são os atributos código e nome), bem como o relacionamento
com a entidade FILIAL.
MODELO RELACIONAL
A seguir vamos apresentar os conceitos sobre um dos modelos de
dados mais utilizados atualmente nos sistemas de gerenciamento
ENTIDADE ASSOCIATIVA de banco de dados (SGBD), o modelo relacional. O objetivo é dar
HEUSER (2009) destaca que por definição, um relacionamento é condições para que vocês compreendam os conceitos básicos e
uma associação entre entidades. Em certas oportunidades, durante resolvam o maior número de questões nas provas de concursos
a modelagem, surgem situações nas quais é desejável permitir uma públicos.
associação entre uma entidade e um relacionamento. A ideia da
entidade associativa trata um relacionamento como se ele fosse INTRODUÇÃO
uma entidade. O modelo relacional foi introduzido por Edgar Frank “Ted” Codd, da
IMB Research, em 1970. O modelo utiliza o conceito de relação
Por exemplo, deseja-se modelar a prescrição de medicamentos matemática que se parece com uma tabela de valores. As primeiras
receitados aos pacientes, com a criação da entidade Medicamentos. implementações são início da década de 1980. O modelo revelou-
A solução, então, seria transformar o relacionamento entre se o mais flexível e adequado ao solucionar os vários problemas
MÉDICO e PACIENTE em uma entidade associativa e relacioná-la que se colocaram no nível de concepção e implementação em um
com a entidade MEDICAMENTO. banco de dados.
A notação utilizada para tanto é colocar um retângulo em torno do A estrutura fundamental do modelo relacional é a relação (tabela).
relacionamento (losango), conforme pode ser visto na figura a Uma relação é constituída por um ou mais atributos (colunas) que
seguir. traduzem o tipo de dados a serem armazenados. Cada instância do
esquema é chamada de tupla (linha). A seguir, veremos em mais
detalhes cada um destes conceitos.
8
A imagem a seguir ilustra as informações presentes em uma CPF (VARCHAR(20)) – o atributo CPF deverá ser do tipo
relação do modelo relacional de banco de dados. VARCHAR (string) com um tamanho máxima de 20 caracteres.
NOME (VARCHAR(40)) – o atributo NOME deverá ser do tipo
VARCHAR (string) com um tamanho máximo de 40 caracteres.
MEDIA_NOTA (DOUBLE) – o atributo MEDIA_NOTA deverá ser
do tipo DOUBLE (número de ponto flutuante)
9
Restrições de Integridade usadas para lidar com grandes conjuntos de dados.
ELMASRI e NAVATHE (2011) definem que um estado que satisfaz a
todas as restrições no conjunto definido de restrições de QUAIS SÃO OS 5VS DO BIG DATA?
integridade é chamado de estado válido. Além disso, um estado de Inicialmente, o conceito de Big Data foi contemplado por 3 V’s. que
banco de dados que não obedece a todas as restrições de são volume, velocidade e variedade.
integridade é chamado de estado inválido. Valor e veracidade são outras duas dimensões “V” que foram
Dessa forma, ELMASRI e NAVATHE (2011) classificam os tipos de adicionadas à literatura recentemente.
restrições de integridade: Os V’s adicionais são frequentemente propostos, mas estes 5V’s
são os que mais são cobrados em provas de concursos. Vamos a
Restrição de Integridade de Entidade uma breve explicação sobre cada um a seguir:
Nenhum valor de chave primária pode ser NULL;
As Restrições de Chave e as Restrições de Integridade de Entidade Volume
são atribuídas sobre relações individuais. Refere-se à enorme quantidade de dados disponível, desde
conjuntos de dados com tamanhos de terabytes a zetabytes;
Restrição de Integridade Referencial
Restrição de Integridade Referencial é atribuída entre duas relações Velocidade
e usada para manter a consistência entre tuplas nas duas relações; Refere-se a grandes quantidades de transações com alta taxa de
Esta utiliza o conceito de Chave Estrangeira (FK) visto atualização, resultando em fluxos de dados chegando em grande
anteriormente. velocidade;
12
Limpeza de Dados: Refere-se a qualquer tratamento realizado foco é entender qual o objetivo que se deseja atingir com a
sobre os dados selecionados de forma a garantir a qualidade mineração de dados. O entendimento do negócio irá ajudar nas
(completude, veracidade e integridade) dos fatos por eles próximas etapas.
representados. Informações faltantes, erradas ou inconsistentes Data Understanding (Entendimento dos Dados)
devem ser corrigidas de forma a Nessa fase, o objetivo é estudar, organizar e documentar os dados
não comprometer a qualidade dos modelos de conhecimento a que se encontram disponíveis. Os dados mapeados são explorados
serem extraídos ao final do processo de KDD. e analisados em busca de melhor entendimento sobre os dados e
Codificação dos Dados: Nesta etapa, os dados devem ser avaliação de sua qualidade.
codificados para ficarem em uma forma que possam ser usados
como entrada dos algoritmos de Mineração de Dados. Data Preparation (Prepração dos Dados)
Enriquecimento dos Dados: Consiste em conseguir mais Nessa fase, ocorre a preparação dos dados para modelagem. Esse
informação que possa ser adicionada aos registros existentes, processo consiste, principalmente, de quatro tarefas: Data
melhorando os dados, para que estes forneçam mais informações Selection (Seleção dos Dados), Data Cleaning (Limpeza dos Dados),
para o processo de descoberta de conhecimento. Construct Data (Construção dos Dados) e Integrating Data
Na segunda etapa, a Mineração de Dados realiza a busca efetiva (Integração dos Dados).
por conhecimentos úteis no contexto da aplicação de KDD. Nela,
são definidos as técnicas e os algoritmos a serem utilizados no Modeling (Modelagem)
problema em questão. A escolha da técnica depende, muitas vezes, É nesse momento que ocorre a construção do seu modelo. Essa
do tipo de tarefa de KDD a ser realizada. Veremos mais detalhes fase consiste na aplicação de fato das técnicas de mineração de
destas técnicas e algoritmos nos tópicos seguintes. dados, tendo como base os objetivos definidos no primeiro passo.
O algoritmo é selecionado, o modelo construído e os parâmetros
A etapa de Pós-Processamento abrange o tratamento do são refinados. É interessante que seja criado diferentes modelos
conhecimento objetivo na Mineração de Dados. Tal tratamento tem para avaliação na próxima fase.
como objetivo facilitar a interpretação e a avaliação da utilidade do
conhecimento descoberto. Dentre as principais funções desta etapa Evaluation (Avaliação)
estão: elaboração e organização, podendo incluir a simplificação, É nessa fase que ocorre a avaliação dos resultados com base nos
de gráficos, diagramas, ou relatórios demonstrativos; além da critérios estabelecidos no início do projeto. Considerada uma fase
conversão da forma de representação do conhecimento obtido. crítica do processo, nesta fase é necessária a participação de
A figura a seguir apresenta um resumo das etapas operacionais especialistas nos dados, conhecedores do negócio e tomadores de
executadas em processos de KDD. decisão. Diversas ferramentas gráficas são utilizadas para a
visualização e análise dos resultados (modelos).
14
Educação: A mineração de dados beneficia os educadores para O objetivo central do aprendizado de máquina é o aprendizado e a
acessar os dados dos alunos, prever os níveis de desempenho e inferência. Em primeiro lugar, a máquina aprende por meio da
encontrar alunos ou grupos de alunos que precisam de atenção descoberta de padrões.
extra. Por exemplo, alunos que são fracos na disciplina de Essa descoberta é feita graças aos dados. Uma parte crucial do
matemática. cientista de dados é escolher cuidadosamente quais dados serão
fornecidos à máquina. A lista de atributos usada para resolver um
Investigação Criminal: A mineração de dados pode detectar problema é chamada de vetor de recursos.
anomalias em uma grande quantidade de dados. A máquina usa alguns algoritmos sofisticados para simplificar a
Os dados criminais, por exemplo, incluem todos os detalhes de um realidade e transformar essa descoberta em um modelo. Portanto,
crime. Para a polícia, a mineração de dados é útil para estudar os o estágio de aprendizagem é usado para descrever os dados e
padrões e tendências e prevê eventos futuros com melhor precisão. resumi-los em um modelo.
A partir do que foi estudado anteriormente, vamos resumir alguns Por exemplo, uma máquina poderia tentar entender a relação entre
conceitos fazendo uma comparação entre Mitos versus Realidade o salário de um indivíduo e a probabilidade de ele ir a um
sobre a mineração de dados. restaurante mais refinado. O modelo então seria a máquina
encontrar uma relação positiva entre o salário e o indivíduo ir a um
restaurante sofisticado.
NOÇÕES DE APRENDIZADO DE MÁQUINA Quando o modelo é construído, é possível testar o quão poderoso
O aprendizado de máquina é uma das tendências mais recentes da ele é em dados nunca vistos antes.
tecnologia atualmente. Do inglês Machine Learning, este é um Os novos dados são transformados em um vetor de recursos que
ramo da inteligência artificial (IA) que já está revolucionando o passam pelo modelo e dão uma previsão.
software moderno e mudando a forma como as empresas fazem Essa é a “mágica” do aprendizado de máquina. Não há necessidade
negócios. de atualizar as regras ou treinar novamente modelo. Pode-se usar
Neste capítulo, iremos aprender alguns conceitos básicos sobre o modelo previamente treinado para fazer inferências sobre novos
aprendizado de máquina e, ao final, resolveremos algumas dados.
questões de concursos públicos sobre este tema.
ABORDAGENS DE APRENDIZADO DE MÁQUINA
CONCEITO DE APRENDIZADO DE MÁQUINA O aprendizado de máquina pode ser agrupado em algumas
O aprendizado de máquina é focado na construção de aplicativos categorias, são elas:
que aprendem com os dados e melhoram sua precisão ao longo do
tempo, sem serem programados para isso. Em ciência de dados, Aprendizagem Supervisionada
um algoritmo é uma sequência de etapas de processamento Um algoritmo utiliza dados de treinamento para aprender a relação
estatístico. de determinadas entradas com uma determinada saída. Pode-se
No aprendizado de máquina, os algoritmos são “treinados” para usar o aprendizado supervisionado quando os dados de saída
encontrar padrões e recursos em grandes quantidades de dados, a forem conhecidos.
fim de tomar decisões e fazer previsões com base em novos dados. Assim, o algoritmo irá prever novos dados.
Quanto melhor for o algoritmo, mais precisas serão as decisões e
previsões à medida que ele processa mais dados. Por exemplo, se quisermos usar o aprendizado supervisionado para
O aprendizado de máquina também está intimamente relacionado à ensinar um computador a reconhecer fotos de gatos, forneceríamos
mineração de dados, pois um computador recebe dados como a ele um conjunto de imagens, algumas rotuladas como “gatos” e
entrada e utiliza um algoritmo para formular suas respostas. outras como “não são gatos”. Os algoritmos de aprendizado de
Uma tarefa típica do aprendizado de máquina é fornecer uma máquina ajudariam o sistema a aprender a generalizar os conceitos
recomendação. Para quem tem conta na Netflix, por exemplo, para que pudesse identificar gatos em imagens que não havia
todas as recomendações de filmes ou séries são baseadas nos encontrado antes.
dados históricos do usuário. Assim, as empresas de tecnologia Há duas categorias de algoritmos de aprendizagem supervisionada
utilizam o aprendizado de máquina para melhorar a experiência do que processam um conjunto de dados previamente rotulado para
usuário com recomendações personalizadas. extrapolar os comportamentos dos dados não rotulados, são os:
O aprendizado de máquina também é usado para uma variedade
de outras tarefas, como detecção de fraude, manutenção preditiva, Algoritmos de Classificação
automatização de tarefas e assim por diante. Veremos mais Como vimos no capítulo de Mineração de Dados, os algoritmos de
aplicações do aprendizado de máquina em um tópico posterior. Classificação têm o objetivo de identificar a qual classe um
determinado dado pertence.
COMO FUNCIONA O APRENDIZADO DE MÁQUINA Por exemplo, imagine que se deseja prever o gênero de um
A programação tradicional difere significativamente do aprendizado determinado cliente em uma loja online de varejo. Primeiro, será
de máquina, pois, nela, um programador codifica todas as regras necessário coletar dados do cliente sobre altura, peso, trabalho,
ou algoritmos. salário, compras realizadas etc. Sabendo que o gênero dos clientes
Cada regra é baseada em uma base lógica e a máquina executará só poderá ser masculino ou feminino, o objetivo dos algoritmos de
uma saída seguindo esta instrução. Classificação será atribuir uma probabilidade de ser homem ou
Quando o sistema se torna muito complexo, mais regras precisam mulher (ou seja, o rótulo) com base nas informações (dados que
ser escritas. Dependendo da complexidade do problema, a foram coletados). Quando o modelo aprender a reconhecer homem
manutenção pode se tornar insustentável pelo programador. ou mulher, ele poderá ser utilizado para fazer uma previsão a partir
Já o aprendizado de máquina é o cérebro onde ocorre todo o de dados coletados de novos clientes. Por exemplo, se o modelo
aprendizado. A forma como a máquina aprende é semelhante à do prediz “masculino = 70%”, significa que o algoritmo tem 70% de
ser humano. Por exemplo, os humanos aprendem com a certeza de que o novo cliente é do gênero masculino e 30% é do
experiência, correto? gênero feminino. Assim, a loja poderá exibir produtos relacionados
Quanto mais sabemos, mais facilmente podemos prever sobre algo. ao gênero com uma maior probabilidade do cliente se interessar.
Por analogia, quando enfrentamos uma situação desconhecida, a
probabilidade de sucesso é inferior a uma situação conhecida. Algoritmos de Regressão
As máquinas são treinadas da mesma forma. Para realizar uma Semelhante aos algoritmos de Classificação, a Regressão é utilizada
previsão, a máquina necessita enxergar um exemplo conhecido quando o dado é identificado por um valor numérico e não por uma
previamente. Assim, quando oferecemos à máquina um conjunto classe.
de exemplos semelhantes, ela pode descobrir um resultado de Por exemplo, um analista financeiro pode querer prever o valor de
forma mais consistente. uma ação com base em uma variedade de características como
desempenhos anteriores da ação, índices macroeconômicos etc.
15
Assim, a partir destas informações, os algoritmos irão ser treinados
para estimar o preço das ações com o menor erro possível. Marketing
Antes da era dos dados de massa (o chamado Big Data), os
Aprendizagem Não Supervisionada pesquisadores desenvolveram ferramentas matemáticas avançadas,
Na aprendizagem não supervisionada, um algoritmo explora dados como análise bayesiana, para estimar o valor de um cliente. Com o
de entrada sem receber uma variável de saída explícita. Ou seja, o crescimento dos dados, o departamento de marketing utiliza a
objetivo é que o sistema desenvolva suas próprias conclusões a inteligência artificial, como o aprendizado de máquina, para
partir de um determinado conjunto de dados. otimizar o relacionamento com o cliente e os anúncios dos
Por exemplo, se um gerente de uma loja de varejo tivesse um produtos, por exemplo.
grande conjunto de dados de vendas online, ele poderia usar o
aprendizado não supervisionado para encontrar associações entre
esses dados que poderiam ajudá-lo a melhorar o marketing dos
produtos.
O resultado dos algoritmos poderia informar algo como “As vendas
de home theater estão relacionadas às vendas de aparelhos de
televisão.”.
Uma categoria de algoritmos de aprendizagem não supervisionada
que processa um conjunto de dados para encontrar um padrão
interno, sem consultar dados prévios é o Agrupamento ou
Clustering.
Aprendizagem Semissupervisionada
O aprendizado semissupervisionado oferece um meio-termo entre o
aprendizado supervisionado e o não supervisionado. Durante o
treinamento, ele usa um menor conjunto de dados rotulados para
orientar a classificação e a extração de recursos de um conjunto de
dados maior e não rotulado.
A aprendizagem semissupervisionada pode resolver o problema de
não haver dados rotulados suficientes (ou não ser capaz de rotular
dados suficientes) para treinar um algoritmo de aprendizagem
supervisionada.
Voltando ao exemplo do gato, imagine que você tenha um grande
número de imagens, algumas das quais foram rotuladas como
“gato” e “não é gato” e outras não. Um sistema de aprendizagem
semissupervisionado usaria as imagens rotuladas para fazer
algumas suposições sobre quais das imagens não rotuladas incluem
gatos. As melhores suposições seriam então realimentadas no
sistema para ajudá-lo a melhorar suas capacidades e o ciclo
continuaria.
Automação
O aprendizado de máquina funciona de forma totalmente
autônoma em qualquer área sem a necessidade de qualquer
intervenção humana. Por exemplo, robôs executando as etapas
essenciais do processo de uma fábrica.
Indústria Financeira
O aprendizado de máquina está se tornando cada vez mais popular
no setor financeiro. Os bancos estão usando principalmente para
encontrar padrões de dados entre os clientes, mas também para
evitar fraudes.
Governo
O governo usa o aprendizado de máquina para gerenciar a
segurança pública e os serviços públicos.
Saúde
A saúde foi uma das primeiras áreas a utilizar o aprendizado de
máquina com a detecção de imagem.
16