Você está na página 1de 18

APLICAÇÕES EM

APRENDIZADO DE MÁQUINA

Análise de Dados
ANÁLISE DE DADOS
A análise das características presentes em um conjunto de dados permite a
descoberta de padrões e tendências que podem fornecer informações valiosas para
compreender o processo que gerou os dados.

Muitas dessas características podem ser obtidas por meio da aplicação de fórmulas
estatísticas simples. Outras podem ser observadas usando técnicas de visualização.
ANÁLISE DE DADOS
Conjuntos de dados são formados por objetos que podem representar um objeto
físico, como uma cadeira, ou uma noção abstrata, como os sintomas apresentados
por um paciente. Cada objeto corresponde a uma ocorrência dos dados.

Em geral, cada objeto é descrito por um conjunto de atributos, sendo que cada
atributo está associado a uma propriedade do objeto.
Exame 2 (atributo de entrada)

Diagnóstico (atributo de saída)

Fonte: Inteligência
Artificial - Uma
Abordagem de
Aprendizado de
Exame 1 (atributo de entrada) Máquina

Espaço de objetos (Conjunto de dados de pacientes de hospital).


ANÁLISE DE DADOS
Formalmente, um conjunto de dados pode ser representado por uma matriz de objetos Xnxd, em que n é o número de
objetos e d é o número de atributos de entrada de cada objeto. O valor de d define a dimensionalidade dos objetos ou
do espaço de objetos (também chamado de espaço de entradas ou espaço de atributos). Cada elemento dessa matriz,
xij , contém o valor da j-ésima característica para o i-ésimo objeto.

Conjunto de dados hospital com seus atributos Atributo alvo,


Meta ,ou saída
atributos Id. Nome Idade Sexo Peso Manchas Temp. # Int. Est. Diagnóstico

4201 João 28 M 79 Concentradas 38,0 2 SP Doente


i-ésimo Objeto
3217 Maria 18 F 67 Inexistentes 39,5 4 MG Doente

4039 Luiz 49 M 92 Espalhadas 38,0 2 RS Saudável

X= 1920 José 18 M 43 Inexistentes 38,5 8 MG Doente

4340 Cláudia 21 F 52 Uniformes 37,6 1 PE Saudável

2301 Ana 22 F 72 Inexistentes 38,0 3 RJ Doente

1322 Marta 19 F 87 Espalhadas 39,0 6 AM Doente

3027 Paulo 34 M 67 Uniformes 38,4 2 GO Saudável

8X10
Fonte:Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina
ANÁLISE DE DADOS
Algumas considerações em relação ao conjunto de dados:

• Em tarefas descritivas, o conjunto de dados não precisa ter um atributo alvo (não se
está fazendo uma predição).

• Quando os valores do atributo alvo identificam categorias ou classes às quais os


objetos pertencem, ele é denominado classe e assume valores discretos. Nesse caso
tem-se uma tarefa de classificação.

• Quando a tarefa de classificação tem apenas duas classes (e.g.


doente, saudável), ela é uma tarefa de classificação binária.

• Se as classes tiverem diferentes números de objetos, a classe com o


maior número é denominada classe majoritária, e a com menos,
minoritária.

• Se o atributo alvo contém valores numéricos contínuos, tem-se um


problema de regressão.
ANÁLISE DE DADOS
Tipos de atributos:

Os atributos quantitativos ou numéricos normalmente podem assumir valores binários,


inteiros ou reais. Por outro lado, atributos qualitativos são geralmente representados por
um número finito de símbolos ou nomes.

qualitativo quantitativos

Simbólico ou categóricos numéricos


{pequeno, médio, grande}
{12,15,20}
{gato, cachorro, pessoa}
• Operações aritméticas não podem ser aplicadas aos seus valores • Operações aritméticas podem ser aplicadas aos seus valores
• Alguns atributos qualitativos podem ter seus valores ordenados • Podem ser ordenados.

Contínuos Discretos
e.g.peso, e.g. Atributos
distância binário (1 ou 0)
ANÁLISE DE DADOS
Escala de valores dos atributos:

Em relação à escala, os atributos podem ser classificados como


• Nominais
• Ordinais
• Intervalares
• Racionais

• Escala nominal: Nesta escala os atributos se diferenciam apenas por apresentarem nomes diferentes. Assim, as
operações mais utilizadas para manipulação de seus valores são as de igualdade e desigualdade de valores.
(e.g. { gato, cachorro, carro} ).

• Escala ordinal: Nesta escala os valores apresentam também uma ordem das categorias
apresentadas. Assim, além das operações de igualdade e desigualdade, operadores como
<,>,≤, ≥ podem ser utilizados (e.g. {frio,morno,quente}).

• Escala Intervalar: Nesta escala os atributos são representados por números que variam
dentro de um intervalo definido. A diferença em magnitude indica a distância que separa
dois valores no intervalo de possíveis valores. (e.g. horas durante o dia)

• Escala racional: Os números têm um significado absoluto, ou seja, existe um zero


absoluto junto com uma unidade de medida, de forma que a razão e proporção entre
atributos tenha significado. (e.g. tamanho, valores financeiros)
ANÁLISE DE DADOS
Análise de dados utilizando estatística descritiva:

Uma grande quantidade de informações úteis pode ser extraída de um conjunto de dados
por meio de medidas de estatística descritiva. Assim, é possível obter informações sobre o
conjunto de dados, tais como:

• Frequência
• Localização ou tendência central (e.g. média)
• Dispersão ou espalhamento (e.g desvio padrão)
• Distribuição

As informações obtidas na análise de dados podem auxiliar na escolha


da técnica mais apropriada para o pré-processamento, responsável
por preparar os dados para aprendizado.
ANÁLISE DE DADOS
Frequência:

Busca medir a proporção de vezes que um atributo assume um dado valor em um


determinado conjunto de dados. Ela pode ser aplicada a valores tanto numéricos quanto
simbólicos. (e.g em um conjunto de dados médicos, 20% tem dor de cabeça)

Medidas de Localidade:

Definem pontos de referência nos dados e variam para dados


numéricos e simbólicos. Para dados simbólicos, utiliza-se geralmente a
moda, que é o valor encontrado com maior frequência para um
atributo.
Nome Idade Sexo Peso Manchas Temp.

João 28 M 79 Concentradas 38,0

Maria 18 F 67 Inexistentes 39,5

Luiz 49 M 92 Espalhadas 38,0 moda para o atributo Manchas = Inexistentes


José 18 M 43 Inexistentes 38,5

Cláudia 21 F 52 Uniformes 37,6

Ana 22 F 72 Inexistentes 38,0


ANÁLISE DE DADOS
Medidas de Localidade:

Para atributos numéricos normalmente se utiliza a média, mediana e percentil.

média: Utilizada para obtenção do valor médio de um conjunto de valores. Para um


conjunto de n valores, a média poder ser escrita como:

Exemplo:
{4,4,8,17,21}
Media:
(4+4+8+17+21)/5= 10,8

Um problema da média é a sua sensibilidade à presença de outliers,


que são valores muito diferentes dos demais valores observados para
o mesmo atributo e que podem distorcer o valor da média.

Esse problema é minimizado com o uso da mediana, que é menos


sensível a outliers.
ANÁLISE DE DADOS
Medidas de Localidade:

mediana: Para obtermos o valor da mediana de um conjunto de n valores, precisamos


primeiramente realizar a ordenação crescente do conjunto de valores. A seguir a mediana
pode ser obtida através do uso das expressões abaixo.

Exemplo:
{17, 4, 8, 21, 4}
Ordenação:
{4, 4 , 8, 17, 21}
n é impar (n = 5 => r+1=3 ) :
Mediana = 8
ANÁLISE DE DADOS
Medidas de Localidade:

Percentil: O percentil Pp% de um conjunto de n valores representa um valor x para o qual p% dos
valores do conjunto estão abaixo de x.

Para obtermos o percentil, pode ser utilizado o seguinte algoritmo:


n=6; p=0,4 (40%) n=6; p=0,5 (50%)
{17, 4, 8, 21, 9, 3} {17, 4, 8, 21, 9, 3}
{3, 4, 8, 9, 17, 21} {3, 4, 8, 9, 17, 21}
nxp=2,4 nxp=3

nxp≈3
P40% = 8

nxp=3
P30%=(8+9)/2=8,5

{3, 4, 8, 9, 17, 21}


16,67% 16,67% 16,67% 16,67% 16,67% 16,67%

40% 50%
ANÁLISE DE DADOS
Medidas de Espalhamento:

Medem a dispersão ou espalhamento de um conjunto de valores. Assim, é


possível observar como os valores se distribuem dentro do conjunto de dados. As
principais medidas de espalhamento são:

• Intervalo

• Variância

• Desvio Padrão
ANÁLISE DE DADOS
Medidas de Espalhamento:

Intervalo: Mostra o espalhamento máximo entre os valores de um conjunto de dados.

Para um conjunto de n valores , o intervalo será dado pela expressão:

Variância: A variância dá uma medida do espalhamento dos valores


(quanto maior o valor da variância, maior o espalhamento). Para um
conjunto de n valores, é dada pela equação:

Desvio Padrão: O desvio padrão é a raiz quadrada da variância.


ANÁLISE DE DADOS
Medidas de Distribuição:
Obiquidade: Permite obter informações sobre a simetria da distribuição.

Fonte:Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina

Curtose: Permite obter informações sobre a dispersão da distribuição.

Fonte:Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina


ANÁLISE DE DADOS
Correlação (medida de similaridade entre atributos)

No caso de objetos de dados que possuem vários atributos, é possível verificar as relações
de proporcionalidade e dependência entre atributos (relação linear) no conjunto de dados.

Valores elevados de correlação podem variar de -1 a 1. Sendo que quanto maior a relação
linear, maior o valor absoluto da correlação. Correlações positivas corresponde a relações
de diretas de proporcionalidade e correlações negativas correspondem a relações inversas
de proporcionalidade.
ANÁLISE DE DADOS
Visualização de Dados:

A partir das medidas estatísticas é possível utilizar técnicas de visualização de dados, tais
como boxplot, scatter plot e histogramas para a análise de dados:

Boxplot histogramas Scatter plot


Max

P75%

P50%
P25%

Min

Fonte:Inteligência Artificial - Uma Abordagem de Aprendizado de Máquina


APLICAÇÕES EM
APRENDIZADO DE MÁQUINA

Análise de Dados

Você também pode gostar