Você está na página 1de 30

Prática I - Datasets para Classificação

Disciplinas: Inteligência Computacional Aplicada (ICA) e Redes Neurais I


Departamento de Engenharia Elétrica
Pontificia Universidade Católica do Rio de Janeiro
Sumário
• Visão geral dos trabalhos

• Saúde
• Heart Disease
• Breast Cancer
• Diabetes
• Thyroid
• Bancário
• Análise de crédito
• Bank Marketing
• German Credit
Sumário

• Outros
• Occupancy Detection
• Wine Quality
• Ionosphere
• Titanic
Heart Disease
• Treinamento: 303 registros e 14 variáveis.
Variáveis Descrição Categórico/Numérico
Age Idade do paciente. Numérico
Sex Sexo do paciente. Categórico
CP chest pain type (1 - typical angina, 2 - atypical Categórico
angina, 3 - non-anginal pain, 4 – asymptomatic).
Trestbps resting blood pressure (in mm Hg on admission to the Numérico
hospital)
Chol serum cholestoral in mg/dl Numérico
Fbs fasting blood sugar > 120 mg/dl? (1 = true; 0 = false) Categórico
Restecg resting electrocardiographic results (0 – normal, 1 - Categórico
having ST-T wave abnormality (T wave inversions
and/or ST elevation or depression of > 0.05 mV); 2 -
showing probable or definite left ventricular
hypertrophy by Estes' criteria)
Thalach maximum heart rate achieved Numérico
Heart Disease
• Treinamento: 303 registros e 14 variáveis.

Variáveis Descrição Categórico/Numérico


Exang exercise induced angina (1 = yes; 0 = no) Categórico
Oldpeak ST depression induced by exercise relative to rest Numérico
Slope Slope of the peak exercise ST segment (1 – Categórico
upsloping; 2 – flat; 3 – downsloping)
Ca number of major vessels (0-3) colored by flourosopy Categórico
Thal 3 = normal; 6 = fixed defect; 7 = reversable defect Categórico
Num Classe prevista para a doença (0 a 4) Categórico
Heart Disease

• Base de dados não é dividida entre treinamento e teste.

• Dados faltantes? Sim.

• Classes desbalanceadas (0 = 164; 1 = 55; 2 = 36; 3 = 35; 4 = 13;)


Breast Cancer
• Treinamento: 569 registros e 32 variáveis.
Variáveis Descrição Categórico/Numérico
1 Identificação Categórico
2,12, 22 Raio (distância média dos centros ao perímetro) médio, desvio Numério
padrão e menor valor.
3, 13, 23 Textura (desvio padrão do nível de cinza) médio, desvio padrão e Numérico
menor valor.
4, 14, 24 Perímetro médio, desvio padrão e menor valor. Numérico
5, 15, 25 Área média, desvio padrão e menor valor. Numérico
6, 16, 26 Suavização (variação local no comprimento do raio) médio, Numérico
desvio padrão e menor valor.
7, 17, 27 Compacidade (perímetro² / área – 1.0) médio, desvio padrão e Numérico
menor valor.
Breast Cancer
• Treinamento: 569 registros e 32 variáveis.

Variáveis Descrição Categórico/Numérico


8, 18, 28 Concavidade (severidade das porções côncavas do contorno) Numérico
médio, desvio padrão e menor valor.
9, 19, 29 Pontos côncavos (números de porções côncavas do contorno) Numérico
médio, desvio padrão e menor valor.
10, 20, 30 Simetria média, desvio padrão e menor valor. Numérico
11, 21, 31 Dimensão fractal (“coastline approximation” – 1.0) médio, desvio Numérico
padrão e menor valor.
32 Identificação do câncer (M = maligno, B = benigno) Categórico
Breast Cancer

• Base de dados não é dividida entre treinamento e teste.

• Dados faltantes? Não.

• Classes balanceadas (B = 357; M = 212;).


Diabetes
• Treinamento: 768 registros e 9 variáveis.
Variáveis Descrição Categórico/Numérico
Preg Number of times pregnant Numérico
Plas Plasma glucose concentration a 2 hours in an oral glucose Numérico
tolerance test
Pres Diastolic blood pressure (mm Hg) Numérico
Skin Triceps skin fold thickness (mm) Numérico
Insu 2-Hour serum insulin (mu U/ml) Numérico
Mass Body mass index (weight in kg/(height in m)^2) Numérico
Pedi Diabetes pedigree function Numérico
Age Age (years) Numérico
Class Diabetes? (0 = No, 1 = Yes) Categórico
Diabetes

• Base de dados não é dividida entre treinamento e teste.

• Dados faltantes? Não.

• Classes ligeiramente balanceadas (tested_negative = 500; tested_positive =


268;)
Thyroid
• Treinamento: 215 registros e 6 variáveis.

Variáveis Descrição Categórico/Numérico


1 Percentual da resina-T3 Numérico
2 Tiroxina total Numérico
3 Triiodotironina total Numérico
4 Hormônio estimulador da tiróide (TSH) Numérico
5 Diferença absoluta máxima no valor da TSH após a injeção de 200 Numérico
micro gramas de hormônio de liberação de tirotropina.
6 Classe (1 = normal, 2 = hyper, 3 = hypo). Categórico
Thyroid

• Base de dados já dividida entre treinamento e teste.

• Dados faltantes? Não

• Classes ligeiramente balanceadas (1 = 150; 2 = 35; 3 = 30;)


Análise de Crédito
• Treinamento: 1500 registros e 12 variáveis.
Variáveis Descrição Categórico/Numérico
ESTC Estado Civil Categórico
NDEP Número de dependentes Numérico
RENDA Renda Familiar Numérico
TIPOR Tipo de residência Categórico
VBEM Valor do bem a ser adquirido Numérico
NPARC Número de parcelas Numérico
VPARC Valor da parcela Numérico
TEL Se o cliente possui telefone Categórico
IDADE Idade do cliente Numérico
RESMS Tempo da moradia (em meses) Numérico
ENTRADA Valor da entrada Numérico
CLASSE =1, se o cliente pagou a dívida Categórico
Análise de Crédito

• Base de dados é dividida entre treinamento e teste.

• Dados faltantes? Não

• Classes balanceadas (0 = 785; 1 = 715;)


Bank Marketing
• Treinamento: 4521 registros e 17 variáveis.
Variáveis Descrição Categórico/Numérico
Age Idade da pessoa. Numérico
Job "admin.","unknown","unemployed","management","house Categórico
maid","entrepreneur","student", “blue-collar”, “self-
employed”, “retired”, “technician”, “services”
Marital “married”, “divorced/widowed”, “single” Categórico
Education “unknown”, “secondary”, “primary”, “tertiary” Categórico
Default É inadimplente? Categórico
Balance Salário anual, em euros. Numérico
Housing Tem crédito imobiliário? Categórico
Loan Tem empréstimo pessoal? Categórico
Contact Tipo de comunicação telefônico (“unknown, “telephone”, Categórico
Bank Marketing

• Treinamento: 4521 registros e 17 variáveis.


Variáveis Descrição Categórico/Numérico
Day Último dia de contato. Numérico
Month Último mês de contato. Categórico
Duration Duração da conversa do último contato, em segundos. Numérico
Campaign Número de contatos realizados durante a campanha. Numérico
Pdays Número de dias corridos desde o último contato ( -1 siginfica Numérico
que o cliente nunca foi contactado).
Previous Número de contatos realizados antes da campanha. Numérico
Poutcome Resultado da campanha anterior (“unknown, “other”, Categórico
“failure”, “success”)
Output O cliente contratou o serviço de empréstimo? (“yes”, “no”) Categórico
Bank Marketing

• Base de dados não é dividida entre treinamento e teste.

• Dados faltantes? Não

• Classes ligeiramente desbalanceadas (no = 4000; yes = 521;)


German Credit
• Treinamento: 1000 registros e 11 variáveis.
Variáveis Descrição Categórico/Numérico
ID Identificação do usuário Categórico
Age Idade Numérico
Sex Sexo Categórico
Job Tipo de profissão (0 - unskilled and non-resident, 1 - Categórico
unskilled and resident, 2 - skilled, 3 - highly skilled)
Housing Tipo de residência (“own”, “rent”, “free”) Categórico
Saving account Poupança (“little”, “moderate”, “quite rich”, “rich”) Categórico
Checking Conta (“little”, “moderate”, “quite rich”, “rich”) Categórico
account
Credit amount Quantidade de crédito Numérico
Duration Duração (em meses) Numérico
Purpose Propósito do empréstimo (car, furniture/equipment, Categórico
radio/TV, domestic appliances, repairs, education, business,
vacation/others)
Risk Risco de empréstimo (“good”, “bad”) Categórico
German Credit

• Base de dados já dividida entre treinamento e teste.

• Dados faltantes? Sim

• Classes ligeiramente desbalanceadas (bad = 300; good = 700;


Occupancy Detection
• Treinamento: 8143 registros e 7 variáveis.

Variáveis Descrição Categórico/Numérico


Date Data de aquisição dos dados Categórico
Temperature Temperatura do quarto, em ºC Numérico
Humidity Umidade relativa do quarto Numérico
Light Medida de iluminação do quarto, em lux Numérico
CO2 Concentração do gás CO2 no quarto Numérico
HumidityRatio Medida derivada da temperatura e umidade relativa Numérico
Occupancy Variável alvo (1 = Ocupado) Categórico
Occupancy Detection

• Base de dados já dividida entre treinamento e teste.

• Dados faltantes? Não

• Classes ligeiramente balanceadas (0 = 6414; 1 = 1729)


Wine Quality - White
• Treinamento: 4898 registros e 12 variáveis.
Variáveis Descrição Categórico/Numérico
Fixed Acidity - Numérico
Volatile Acidity - Numérico
Citric Acid - Numérico
Residual Sugar - Numérico
Chlorides - Numérico
Free sulfur dioxide - Numérico
Total sulfur dioxide - Numérico
Density - Numérico
pH - Numérico
Sulphates - Numérico
Alcohol - Numérico
Quality - Categórico
Wine Quality - White

• Base de dados não é dividida entre treinamento e teste.

• Dados faltantes? Não

• Classes desbalanceadas (3 = 20; 4 = 163; 5 = 1457; 6 = 2198; 7 = 880; 8 =


175; 9 = 5;)
Wine Quality - Red
• Treinamento: 1599 registros e 12 variáveis.
Variáveis Descrição Categórico/Numérico
Fixed Acidity - Numérico
Volatile Acidity - Numérico
Citric Acid - Numérico
Residual Sugar - Numérico
Chlorides - Numérico
Free sulfur dioxide - Numérico
Total sulfur dioxide - Numérico
Density - Numérico
pH - Numérico
Sulphates - Numérico
Alcohol - Numérico
Quality - Categórico
Wine Quality - Red

• Base de dados não é dividida entre treinamento e teste.

• Dados faltantes? Não

• Classes desbalanceadas (3 = 10; 4 = 53; 5 = 681; 6 = 638; 7 = 199; 8 = 18;)


Ionosphere

• Treinamento: 351 registros e 35 variáveis.

• Variável 1 a 34: Sinais de radiofrequência recebidos.

• Variável 35: Presença de elétrons livres na ionosfera (‘g’ ou ‘b’).


Ionosphere

• Base de dados não é dividida entre treinamento e teste.

• Dados faltantes? Não

• Classes ligeiramente balanceadas (b = 126; g = 225;)


Titanic
• Treinamento: 891 registros e 12 variáveis.
Variáveis Descrição Categórico/Numérico
PassengerID Identificação do usuário Categórico
Pclass Status socio-economico (1st = Upper, 2nd = Middle, 3rd = Categórico
Lower)
Name Nome do usuário Categórico
Sex Sexo Categórico
Age Idade Numérico
SibSp Número de irmãos à bordo. Numérico
Parch Número de pais/filhos à bordo. Numérico
Ticket Número do ticket. Categórico
Fare Taxa da passagem. Numérico
Cabin Número de cabine Categórico
Embarked Porto de embarcação. Categórico
Survived Sobreviveu? (0 = “No”, 1 = “Yes”) Categórico
Titanic

• Base de dados já dividida entre treinamento e teste.

• Dados faltantes? Sim

• Classes balanceadas (0 = 549; 1 = 342;)

Você também pode gostar