Escolar Documentos
Profissional Documentos
Cultura Documentos
Luis E. Zárate
Tipos conceituais de variáveis
Variável Escalar
Valor da medida+escala da medida (Exemplo,
velocidade 50 m/s). Podem ser Quantitativas
ou Qualitativas.
Variável Vectorial
Precisa de mais de um valor para defini-a
(Exemplo, vetor de localização [10°latitude,
30°longitude]). Cada valor da variável possui
sentido individual e em conjunto.
Tipos de variáveis
Variáveis Quantitativas
Exemplo:
Alimentos: café, aceitona, palmito;
Vestimenta: calça, camisa, blusa;
Artigos de Escritório: caneta, papel, lápis, etc.
Variável Coletada
Variável Original
Faixa etária:
Idade (em anos):
20 a 30 anos
quantitativo
31 a 40 anos
discreta
qualitativa ordinal
Convertendo variável nominal em ordinal
- A escala nominal não traz informação relevante.
- A escala ordinal traz muita informação mas não traz a magnitude da diferença
entre as categorias.
- É possível incorporar informação da magnitude de diferença para uma variável
nominal transformando a variável para variável quantitativa ordinal.
Valor da Frequencia
Variável de
ocorrência
A 1
B 2 A variável deve
C 15 ser uma constante
D 2
ou a amostra está
E 1
polarizada.
Observação de Variáveis
Esparcidade de Variáveis
As variáveis esparças podem ter insignificante valor, portanto
poderiam ser eliminadas.
Pode ser aplicada a chamada “redução dimensional” ou
“Colapso dimensional”
O minerador deverá analisar para tomar essa decisão
Grandes distâncias
Valor da
instância
Observação de Variáveis
Incremento Dimensional de uma Variável
Existem algumas circunstâncias onde a dimensão de uma
variável requer ser incrementada.
Longitude
Código CEP
Latitude
Observação de Variáveis
Numerando variáveis Categóricas
Numerar variáveis categóricas é uma atividade que exige
cuidado para não destruir informações ao listar números para
as categorias.
Deve ser procurado manter a “ordem natural” de forma que a
distância entre os números contenha informação.
Nunca 0 1
Casou Ordem
Solteiro 0.1 4 Natural
Casado 1 2
Variabilidade nos dados
Está relacionado à análise dos valores que uma
variável pode adotar
7
6
Frequencia
5
4
3
2
1
0
15 19 23 27 31 35 39 43 47 51 55 59 63 67 71 75 79 83
Valores
25
20
Quantidade
15
10
5
0
10 20 30 40 50 60 70 80 90
Intervalo de valores
20
Frequência
10
1 (x ) 2
f ( x) exp
2 2
2
IDADE
......
GRANULARIDADE
DETALHE AGREGAÇÃO
CONSISTÊNCIA e INCONSISTÊNCIA
Merc
Campo: Mercedes
“Mercedes”
Marca-de-Auto M-Benz
Mrcds
POLUIÇÃO
Não
Inexato
identificável
Inconsistente Ausente Incompleto
RELAÇÕES
Inconsistência
DOMÍNIOS
Género
Valor da dívida
Domínios baseados em
regras:
<R$1000,00
Não é fraude
DEFAULTS
CAMPO=FRAUDE