Escolar Documentos
Profissional Documentos
Cultura Documentos
APRENDIZADO DE MÁQUINA
Análise de Dados
ANÁLISE DE DADOS
A análise das características presentes em um conjunto de dados permite a
descoberta de padrões e tendências que podem fornecer informações valiosas para
compreender o processo que gerou os dados.
Muitas dessas características podem ser obtidas por meio da aplicação de fórmulas
estatísticas simples. Outras podem ser observadas usando técnicas de visualização.
ANÁLISE DE DADOS
Conjuntos de dados são formados por objetos que podem representar um objeto
físico, como uma cadeira, ou uma noção abstrata, como os sintomas apresentados
por um paciente. Cada objeto corresponde a uma ocorrência dos dados.
Em geral, cada objeto é descrito por um conjunto de atributos, sendo que cada
atributo está associado a uma propriedade do objeto.
Exame 2 (atributo de entrada)
Fonte: Inteligência
Artificial - Uma
Abordagem de
Aprendizado de
Exame 1 (atributo de entrada) Máquina
8X10
Fonte:Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina
ANÁLISE DE DADOS
Algumas considerações em relação ao conjunto de dados:
• Em tarefas descritivas, o conjunto de dados não precisa ter um atributo alvo (não se
está fazendo uma predição).
qualitativo quantitativos
Contínuos Discretos
e.g.peso, e.g. Atributos
distância binário (1 ou 0)
ANÁLISE DE DADOS
Escala de valores dos atributos:
• Escala nominal: Nesta escala os atributos se diferenciam apenas por apresentarem nomes diferentes. Assim, as
operações mais utilizadas para manipulação de seus valores são as de igualdade e desigualdade de valores.
(e.g. { gato, cachorro, carro} ).
• Escala ordinal: Nesta escala os valores apresentam também uma ordem das categorias
apresentadas. Assim, além das operações de igualdade e desigualdade, operadores como
<,>,≤, ≥ podem ser utilizados (e.g. {frio,morno,quente}).
• Escala Intervalar: Nesta escala os atributos são representados por números que variam
dentro de um intervalo definido. A diferença em magnitude indica a distância que separa
dois valores no intervalo de possíveis valores. (e.g. horas durante o dia)
Uma grande quantidade de informações úteis pode ser extraída de um conjunto de dados
por meio de medidas de estatística descritiva. Assim, é possível obter informações sobre o
conjunto de dados, tais como:
• Frequência
• Localização ou tendência central (e.g. média)
• Dispersão ou espalhamento (e.g desvio padrão)
• Distribuição
Medidas de Localidade:
Exemplo:
{4,4,8,17,21}
Media:
(4+4+8+17+21)/5= 10,8
Exemplo:
{17, 4, 8, 21, 4}
Ordenação:
{4, 4 , 8, 17, 21}
n é impar (n = 5 => r+1=3 ) :
Mediana = 8
ANÁLISE DE DADOS
Medidas de Localidade:
Percentil: O percentil Pp% de um conjunto de n valores representa um valor x para o qual p% dos
valores do conjunto estão abaixo de x.
nxp≈3
P40% = 8
nxp=3
P30%=(8+9)/2=8,5
40% 50%
ANÁLISE DE DADOS
Medidas de Espalhamento:
• Intervalo
• Variância
• Desvio Padrão
ANÁLISE DE DADOS
Medidas de Espalhamento:
No caso de objetos de dados que possuem vários atributos, é possível verificar as relações
de proporcionalidade e dependência entre atributos (relação linear) no conjunto de dados.
Valores elevados de correlação podem variar de -1 a 1. Sendo que quanto maior a relação
linear, maior o valor absoluto da correlação. Correlações positivas corresponde a relações
de diretas de proporcionalidade e correlações negativas correspondem a relações inversas
de proporcionalidade.
ANÁLISE DE DADOS
Visualização de Dados:
A partir das medidas estatísticas é possível utilizar técnicas de visualização de dados, tais
como boxplot, scatter plot e histogramas para a análise de dados:
P75%
P50%
P25%
Min
Análise de Dados