Você está na página 1de 11

Desafio Milestone no conjunto de dados de bicicletas

usadas
Bem-vindo ao Milestione Challenge, neste cenário, você explorará estatísticas descritivas no conjunto de
dados de bicicletas usadas.

Nota -

 Adicione células extras para codificação, se necessário.

 Por fim, reinicie e execute todas as células após a conclusão do desafio.

Execute a célula abaixo para importar os pacotes básicos necessários


Nota - Estes são pacotes básicos necessários para resolver este desafio. Por favor, inclua módulos
apropriados dos pacotes fornecidos abaixo para resolver este desafio com base nos cenários fornecidos.
[1]:

importar numpy como np


importar pandas como pd
estatísticas de importação
importar scipy

Execute a célula abaixo para baixar o conjunto de dados


[2]:

! wget hrcdn.net / s3_pub / istreet - ativos /- ccjO7ToeMlvfSIOr - Wxfg / Used_Bikes.csv


--2021-09-22 10:42:42-- http://hrcdn.net/s3_pub/istreet-assets/-ccjO7ToeMlvfSIOr-Wxfg/Used_Bikes.csv
Resolvendo hrcdn.net (hrcdn.net)... 23.77.203.146, 23.77.203.144, 2600:1407:1800::173f:49d8, ...
Conectando-se a hrcdn.net (hrcdn.net)|23.77.203.146|:80... conectado.
Solicitação HTTP enviada, aguardando resposta... 301 Movido permanentemente
Localização: https://hrcdn.net/s3_pub/istreet-assets/-ccjO7ToeMlvfSIOr-Wxfg/Used_Bikes.csv [a seguir]
--2021-09-22 10:42:42-- https://hrcdn.net/s3_pub/istreet-assets/-ccjO7ToeMlvfSIOr-Wxfg/Used_Bikes.csv
Conectando-se a hrcdn.net (hrcdn.net)|23.77.203.146|:443... conectado.
Solicitação HTTP enviada, aguardando resposta... 200 OK
Comprimento: 2493547 (2,4M) [aplicativo/fluxo de octeto]
Salvando em: 'Used_Bikes.csv'

Bicicletas usadas.csv 100%[===================>] 2,38M 9,68MB/s em 0,2s

22/09/2021 10:42:43 (9,68 MB/s) - 'Used_Bikes.csv' salvo [2493547/2493547]

Carregar o conjunto de dados


 Carregue o conjunto de dados Bank Marketing do arquivo Used_Bikes.csv e salve-o na variável
df.

[13]:

df = pd.read_csv("Bicicletas_usadas.csv")

Questão 1
 (a) A partir do conjunto de dados fornecido acima, calcule a média para todas as colunas
numéricas, converta-a em dicionário e salve-a na variável média .

 (b) A partir do conjunto de dados fornecido acima, calcule a mediana para todas as colunas
numéricas, converta-a em dicionário e salve-a na variável mediana .

 (c) A partir do conjunto de dados fornecido acima, calcule a moda para todas as colunas
numéricas, converta-a em dicionário e salve-a na moda variável.

 (d) A partir dos valores médios, medianos e moda da coluna kms_driven , é uma distribuição
positivamente assimétrica.

- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valor
não como string na variável kms_driven.
Salve as saídas para (a), (b) e (c) no seguinte formato -

{Nome da coluna: valor}

Exemplo -

{'idade': 85,85,

'kms_dirigido': 1500,01,

'poder': 200,01}

Nota- Aqui arredonde os valores médios e medianos para duas casas decimais e a moda para o número
inteiro.
[57]:

significar = {"preço": preço.mean(),"kms_driven": kms_driven.mean(),"idade":, idade.mean(),"poder":,


poder.mean()}

imprimir (média)
mediana = df.mediana()

modo = df.mode()

kms_driven = imprimir ('Sim')


Arquivo "<ipython-input-57-b3982c389b48>" , linha 1
significar = {"preço": preço.mean(),"kms_driven": kms_driven.mean(),"idade" :, idade.mean(),"poder" :,
poder.mean()}
^
SyntaxError: sintaxe inválida

Questão 2
 (a) Da coluna proprietário obtenha a contagem de todas as categorias e converta-a em dicionário
e salve-a na variável proprietário .

 (b) O proprietário da coluna parece ter um problema de desequilíbrio de classe alta.

- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valor
não como string na variável class_imb.
Para a pergunta (a), salve a saída no seguinte formato -

{Nome da categoria: contagem}

Exemplo -

{'Primeiro Proprietário': 500,

'Quarto proprietário ou mais': 300,

'Segundo Proprietário': 200}


[58]:

proprietário =

classe_imb =
Arquivo "<ipython-input-58-7a9c7a6960d5>" , linha 1
proprietário =
^
SyntaxError: sintaxe inválida

Questão 3
 Para o conjunto de dados fornecido, encontre o seguinte -

 - (a) Variância populacional do conjunto de dados de todas as colunas numéricas e salve-a na


variável p_var.

- (b) Desvio Padrão Populacional do conjunto de dados de todas as colunas numéricas e salve-o na
variável p_sd.
Para as questões (a) e (b) salve a saída no seguinte formato -

{Nome da coluna: valor}

Exemplo -

{'idade': 85,85,

'kms_dirigido': 1500,01,

'poder': 200,01}

Nota- Aqui arredonde os valores para duas casas decimais e converta todas as variáveis em dicionário.
[59]:

p_var =

p_sd =
Arquivo "<ipython-input-59-039e0a8010f1>" , linha 1
p_var =
^
SyntaxError: sintaxe inválida

Pergunta 4
 Para o conjunto de dados fornecido, encontre o seguinte -

 - (a) Intervalo Interquartil da coluna preço e salve-o na variável iqr_price .



- (b) Intervalo Interquartílico da coluna kms_driven e salve-o na variável iqr_kms_driven.
Nota- Aqui arredonde os valores para duas casas decimais.
[ ]:

de scipy.stats importar iqr

preço_iqr =

iqr_kms_drive =

Pergunta 5
 (a) A partir do conjunto de dados fornecido, encontre a matriz de correlação para todas as colunas
numéricas e salve-a em varibale df_corr . Aqui, arredonde os valores para duas casas decimais.

 (b) De df_corr A idade está negativamente correlacionada com o preço.

- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valore
não como string na variável Age_Price.
 (c) A partir de df_corr a potência está negativamente correlacionada com o preço.

- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valor
não como string na variável Power_Price.
Para as questões (a), salve a saída no seguinte formato -

{Nome da coluna: {Nome da coluna: Valor}}

Exemplo -

{'idade': {'idade': 0,2, 'kms_driven': 0,08, 'potência': -0,25, 'preço': 0,08},

'kms_drive': {'idade': -0,15,

'kms_drive': 0,3,

'potência': 0,18,

'preço': 0,58}}
[ ]:

df_corr =

Idade_Preço =

Preço_energia =

Pergunta 6
 (a) A partir do conjunto de dados fornecido, encontre a assimetria para todas as colunas numéricas
e salve-a em varibale df_skew . Aqui, arredonde os valores para duas casas decimais.

 (b) A partir de df_skew a idade é bastante simétrica.

- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valor
não como string na variável Age_Skew.
 (c) De df_skew a potência é altamente distorcida.

- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valor
não como string na variável Power_Skew.
Para a pergunta (a), salve a saída no seguinte formato -
{Nome da coluna: valor}

Exemplo -

{'idade': 55,85,

'kms_drive': 76,01,

'poder': 61,01}
[ ]:

df_inclinação =

Idade_inclinação =

Potência_Inclinação =

Execute a célula abaixo para salvar os resultados


[ ]:

com open('question1.txt', 'a') como f:

imprimir (média, arquivo = f)


imprimir (mediana, arquivo = f)
imprimir(modo, arquivo = f)
imprimir(kms_drive , arquivo = f)

com open('question2.txt', 'a') como f:


imprimir(proprietário, arquivo = f)
imprimir(classe_imb, arquivo = f)

com open('question3.txt', 'a') como f:


imprimir(p_var, arquivo = f)
imprimir(p_sd, arquivo = f)

com open('question4.txt', 'a') como f:


imprimir(iqr_price, arquivo = f)
imprimir(iqr_kms_driven, arquivo = f)

com open('question5.txt', 'a') como f:

imprimir(df_corr, arquivo = f)
imprimir(Idade_Preço, arquivo = f)
imprimir (Power_Price, arquivo = f)
com open('question6.txt', 'a') como f:
imprimir(df_skew, arquivo = f)
imprimir (Idade_Skew, arquivo = f)
imprimir (Power_Skew, arquivo = f)
[ ]:

 Desc_Stats_Question.ipynb
 Bicicletas_usadas.csv
 pontuação.py
 Terminal 1

importar ast

da importação de hashlib md5

importar JSON

def get_file(nome_do_arquivo):

com open(nome_do_arquivo) como f:

dados = f.readlines()

retornar [s.rstrip('\n') para s em dados]

pontuação = 0

tentar:

#Questão 1

q1 = 0

pergunta1 = get_file("pergunta1.txt")

pergunta1_1 = ast.literal_eval(pergunta1[0])

question1_1 =classificado(question1_1.items(), key=lambda x: x[0])


pergunta1_2 = ast.literal_eval(pergunta1[1])

question1_2 =classificado(question1_2.items(), key=lambda x: x[0])

pergunta1_3 = ast.literal_eval(pergunta1[2])

question1_3 =classificado(question1_3.items(), key=lambda x: x[0])

if(md5(str(question1_1).encode()).hexdigest() == "5234e07f99ab2b913f26a9dd0d37a3e7" e
md5(str(question1_2).encode()).hexdigest() == "8cf61882c16304cb93aed577e57073b1" e
md5(str(question1_3 ) .encode()).hexdigest() == "7dfebef1f84a7c27b5562b8e84f692b0" e
md5(str(question1[3]).encode()).hexdigest() == "a6105c0a611b41b08f1209506350279e"):

q1 = q1 +20

exceto:

q1 = 0

#Questão 2

tentar:

q2 = 0

pergunta2 = get_file("pergunta2.txt")

pergunta2_1 = ast.literal_eval(pergunta2[0])

question2_1 =classificado(question2_1.items(), key=lambda x: x[0])

if(md5(str(question2_1).encode()).hexdigest() == "69f10a3346bf0f8d8b902a06642ae4ca" e
md5(str(question2[1]).encode()).hexdigest() == "a6105c0a611b41b08f1209506350279e"):

q2 = q2 + 10

exceto:
q2 = 0

#Questão 3

tentar:

q3 = 0

pergunta3 = get_file("pergunta3.txt")

pergunta3_1 = ast.literal_eval(pergunta3[0])

question3_1 =classificado(question3_1.items(), key=lambda x: x[0])

pergunta3_2 = ast.literal_eval(pergunta3[1])

question3_2 =classificado(question3_2.items(), key=lambda x: x[0])

if(md5(str(question3_1).encode()).hexdigest() == "7759614969fe59a095a56b8eb2f6e812" e
md5(str(question3_2).encode()).hexdigest() == "ba8c0fd84352dd004ac3af7eb5ad13d3"):

q3 = q3 + 20

exceto:

q3 = 0

#Pergunta4

tentar:

q4 = 0
pergunta4 = get_file("pergunta4.txt")

if(md5(str(question4[0]).encode()).hexdigest() == "f19bb046ca4ba9a016360ca151cc8a0a" e
md5(str(question4[1]).encode()).hexdigest() == "3804bd983ddd0d379c3167b9126fc866") :

q4 = q4 +10

exceto:

q4 = 0

#Pergunta5

tentar:

q5 = 0

pergunta5 = get_file("pergunta5.txt")

pergunta5_1 = ast.literal_eval(pergunta5[0])

question5_1 =classificado(question5_1.items(), key=lambda x: x[0])

if(md5(json.dumps(question5_1, sort_keys=True).encode('utf-8')).hexdigest() ==
"25fa51b43ce1c5bbc55fa494ce634be1" e md5(str(question5[1]).encode()).hexdigest () ==
"a6105c0a611b41b08f1209506350279e" e md5(str(question5[2]).encode()).hexdigest() ==
"7fa3b767c460b54a2be4d49030b349c7"):

q5 = q5 +20

exceto:

q5 = 0
#Pergunta6

tentar:

q6 =0

pergunta6 = get_file("pergunta6.txt")

pergunta6_1 = ast.literal_eval(pergunta6[0])

question6_1 =classificado(question6_1.items(), key=lambda x: x[0])

if(md5(str(question6_1).encode()).hexdigest() == "cf85a8394c75181155a2b67a581601b0" e
md5(str(question6[1]).encode()).hexdigest() == "7fa3b767c460b54a2be4d49030b349c7"):

q6 = q6 +20

exceto:

q6 = 0

tentar:

pontuação = q1 + q2 + q3 + q4 + q5 + q6

print("FS_SCORE:{0}%".formato(pontuação))

exceto:

imprimir("FS_SCORE:0%")

Você também pode gostar