Desafio Milestone No Conjunto de Dados de Bicicletas Usadas

Desafio Milestone no conjunto de dados de bicicletas
usadas
Bem-vindo ao Milestione Challenge, neste cenário, você explorará estatísticas descritivas no conjunto de
dados de bicicletas usadas.
Nota -
 Adicione células extras para codificação, se necessário.
 Por fim, reinicie e execute todas as células após a conclusão do desafio.
Execute a célula abaixo para importar os pacotes básicos necessários

Nota - Estes são pacotes básicos necessários para resolver este desafio. Por favor, inclua módulos
apropriados dos pacotes fornecidos abaixo para resolver este desafio com base nos cenários fornecidos.
[1]:
importar numpy como np

importar pandas como pd
estatísticas de importação
importar scipy
Execute a célula abaixo para baixar o conjunto de dados

[2]:
! wget hrcdn.net / s3_pub / istreet - ativos /- ccjO7ToeMlvfSIOr - Wxfg / Used_Bikes.csv

--2021-09-22 10:42:42-- http://hrcdn.net/s3_pub/istreet-assets/-ccjO7ToeMlvfSIOr-Wxfg/Used_Bikes.csv
Resolvendo hrcdn.net (hrcdn.net)... 23.77.203.146, 23.77.203.144, 2600:1407:1800::173f:49d8, ...
Conectando-se a hrcdn.net (hrcdn.net)|23.77.203.146|:80... conectado.
Solicitação HTTP enviada, aguardando resposta... 301 Movido permanentemente
Localização: https://hrcdn.net/s3_pub/istreet-assets/-ccjO7ToeMlvfSIOr-Wxfg/Used_Bikes.csv [a seguir]
--2021-09-22 10:42:42-- https://hrcdn.net/s3_pub/istreet-assets/-ccjO7ToeMlvfSIOr-Wxfg/Used_Bikes.csv
Conectando-se a hrcdn.net (hrcdn.net)|23.77.203.146|:443... conectado.
Solicitação HTTP enviada, aguardando resposta... 200 OK
Comprimento: 2493547 (2,4M) [aplicativo/fluxo de octeto]
Salvando em: 'Used_Bikes.csv'
Bicicletas usadas.csv 100%[===================>] 2,38M 9,68MB/s em 0,2s
22/09/2021 10:42:43 (9,68 MB/s) - 'Used_Bikes.csv' salvo [2493547/2493547]
Carregar o conjunto de dados

 Carregue o conjunto de dados Bank Marketing do arquivo Used_Bikes.csv e salve-o na variável
df.
[13]:
df = pd.read_csv("Bicicletas_usadas.csv")
Questão 1
 (a) A partir do conjunto de dados fornecido acima, calcule a média para todas as colunas
numéricas, converta-a em dicionário e salve-a na variável média .
 (b) A partir do conjunto de dados fornecido acima, calcule a mediana para todas as colunas
numéricas, converta-a em dicionário e salve-a na variável mediana .
 (c) A partir do conjunto de dados fornecido acima, calcule a moda para todas as colunas
numéricas, converta-a em dicionário e salve-a na moda variável.
 (d) A partir dos valores médios, medianos e moda da coluna kms_driven , é uma distribuição
positivamente assimétrica.
- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valor
não como string na variável kms_driven.
Salve as saídas para (a), (b) e (c) no seguinte formato -
{Nome da coluna: valor}
Exemplo -
{'idade': 85,85,
'kms_dirigido': 1500,01,
'poder': 200,01}
Nota- Aqui arredonde os valores médios e medianos para duas casas decimais e a moda para o número
inteiro.
[57]:
significar = {"preço": preço.mean(),"kms_driven": kms_driven.mean(),"idade":, idade.mean(),"poder":,

poder.mean()}
imprimir (média)
mediana = df.mediana()
modo = df.mode()
kms_driven = imprimir ('Sim')

Arquivo "<ipython-input-57-b3982c389b48>" , linha 1
significar = {"preço": preço.mean(),"kms_driven": kms_driven.mean(),"idade" :, idade.mean(),"poder" :,
poder.mean()}
^
SyntaxError: sintaxe inválida
Questão 2
 (a) Da coluna proprietário obtenha a contagem de todas as categorias e converta-a em dicionário
e salve-a na variável proprietário .
 (b) O proprietário da coluna parece ter um problema de desequilíbrio de classe alta.
não como string na variável class_imb.
Para a pergunta (a), salve a saída no seguinte formato -
{Nome da categoria: contagem}
Exemplo -
{'Primeiro Proprietário': 500,
'Quarto proprietário ou mais': 300,
'Segundo Proprietário': 200}

[58]:
proprietário =
classe_imb =
Arquivo "<ipython-input-58-7a9c7a6960d5>" , linha 1
proprietário =
^
Questão 3
 Para o conjunto de dados fornecido, encontre o seguinte -
 - (a) Variância populacional do conjunto de dados de todas as colunas numéricas e salve-a na

variável p_var.

- (b) Desvio Padrão Populacional do conjunto de dados de todas as colunas numéricas e salve-o na
variável p_sd.
Para as questões (a) e (b) salve a saída no seguinte formato -
Exemplo -
{'idade': 85,85,
'kms_dirigido': 1500,01,
'poder': 200,01}
Nota- Aqui arredonde os valores para duas casas decimais e converta todas as variáveis em dicionário.
[59]:
p_var =
p_sd =
Arquivo "<ipython-input-59-039e0a8010f1>" , linha 1
p_var =
^
Pergunta 4
 Para o conjunto de dados fornecido, encontre o seguinte -
 - (a) Intervalo Interquartil da coluna preço e salve-o na variável iqr_price .


- (b) Intervalo Interquartílico da coluna kms_driven e salve-o na variável iqr_kms_driven.
Nota- Aqui arredonde os valores para duas casas decimais.
[ ]:
de scipy.stats importar iqr
preço_iqr =
iqr_kms_drive =
Pergunta 5
 (a) A partir do conjunto de dados fornecido, encontre a matriz de correlação para todas as colunas
numéricas e salve-a em varibale df_corr . Aqui, arredonde os valores para duas casas decimais.
 (b) De df_corr A idade está negativamente correlacionada com o preço.
- Se a resposta para a afirmação acima for sim, atribua o valor sim como string, caso contrário, valore
não como string na variável Age_Price.
 (c) A partir de df_corr a potência está negativamente correlacionada com o preço.
não como string na variável Power_Price.
Para as questões (a), salve a saída no seguinte formato -
{Nome da coluna: {Nome da coluna: Valor}}
Exemplo -
{'idade': {'idade': 0,2, 'kms_driven': 0,08, 'potência': -0,25, 'preço': 0,08},
'kms_drive': {'idade': -0,15,
'kms_drive': 0,3,
'potência': 0,18,
'preço': 0,58}}
[ ]:
df_corr =
Idade_Preço =
Preço_energia =
Pergunta 6
 (a) A partir do conjunto de dados fornecido, encontre a assimetria para todas as colunas numéricas
e salve-a em varibale df_skew . Aqui, arredonde os valores para duas casas decimais.
 (b) A partir de df_skew a idade é bastante simétrica.
não como string na variável Age_Skew.
 (c) De df_skew a potência é altamente distorcida.
não como string na variável Power_Skew.
Para a pergunta (a), salve a saída no seguinte formato -
Exemplo -
{'idade': 55,85,
'kms_drive': 76,01,
'poder': 61,01}
[ ]:
df_inclinação =
Idade_inclinação =
Potência_Inclinação =
Execute a célula abaixo para salvar os resultados

[ ]:
com open('question1.txt', 'a') como f:
imprimir (média, arquivo = f)

imprimir (mediana, arquivo = f)
imprimir(modo, arquivo = f)
imprimir(kms_drive , arquivo = f)

imprimir(proprietário, arquivo = f)
imprimir(classe_imb, arquivo = f)

imprimir(p_var, arquivo = f)
imprimir(p_sd, arquivo = f)

imprimir(iqr_price, arquivo = f)
imprimir(iqr_kms_driven, arquivo = f)
imprimir(df_corr, arquivo = f)
imprimir(Idade_Preço, arquivo = f)
imprimir (Power_Price, arquivo = f)
imprimir(df_skew, arquivo = f)
imprimir (Idade_Skew, arquivo = f)
imprimir (Power_Skew, arquivo = f)
[ ]:
 Desc_Stats_Question.ipynb
 Bicicletas_usadas.csv
 pontuação.py
 Terminal 1
importar ast
da importação de hashlib md5
importar JSON
def get_file(nome_do_arquivo):
com open(nome_do_arquivo) como f:
dados = f.readlines()
retornar [s.rstrip('\n') para s em dados]
pontuação = 0
tentar:
#Questão 1
q1 = 0
pergunta1 = get_file("pergunta1.txt")
pergunta1_1 = ast.literal_eval(pergunta1[0])
question1_1 =classificado(question1_1.items(), key=lambda x: x[0])

if(md5(str(question1_1).encode()).hexdigest() == "5234e07f99ab2b913f26a9dd0d37a3e7" e
md5(str(question1_2).encode()).hexdigest() == "8cf61882c16304cb93aed577e57073b1" e
md5(str(question1_3 ) .encode()).hexdigest() == "7dfebef1f84a7c27b5562b8e84f692b0" e
md5(str(question1[3]).encode()).hexdigest() == "a6105c0a611b41b08f1209506350279e"):
q1 = q1 +20
exceto:
q1 = 0
#Questão 2
tentar:
q2 = 0
if(md5(str(question2_1).encode()).hexdigest() == "69f10a3346bf0f8d8b902a06642ae4ca" e
md5(str(question2[1]).encode()).hexdigest() == "a6105c0a611b41b08f1209506350279e"):
q2 = q2 + 10
exceto:
q2 = 0
#Questão 3
tentar:
q3 = 0
if(md5(str(question3_1).encode()).hexdigest() == "7759614969fe59a095a56b8eb2f6e812" e
md5(str(question3_2).encode()).hexdigest() == "ba8c0fd84352dd004ac3af7eb5ad13d3"):
q3 = q3 + 20
exceto:
q3 = 0
#Pergunta4
tentar:
q4 = 0
if(md5(str(question4[0]).encode()).hexdigest() == "f19bb046ca4ba9a016360ca151cc8a0a" e
md5(str(question4[1]).encode()).hexdigest() == "3804bd983ddd0d379c3167b9126fc866") :
q4 = q4 +10
exceto:
q4 = 0
#Pergunta5
tentar:
q5 = 0
if(md5(json.dumps(question5_1, sort_keys=True).encode('utf-8')).hexdigest() ==
"25fa51b43ce1c5bbc55fa494ce634be1" e md5(str(question5[1]).encode()).hexdigest () ==
"a6105c0a611b41b08f1209506350279e" e md5(str(question5[2]).encode()).hexdigest() ==
"7fa3b767c460b54a2be4d49030b349c7"):
q5 = q5 +20
exceto:
q5 = 0
#Pergunta6
tentar:
q6 =0
if(md5(str(question6_1).encode()).hexdigest() == "cf85a8394c75181155a2b67a581601b0" e
md5(str(question6[1]).encode()).hexdigest() == "7fa3b767c460b54a2be4d49030b349c7"):
q6 = q6 +20
exceto:
q6 = 0
tentar:
pontuação = q1 + q2 + q3 + q4 + q5 + q6
print("FS_SCORE:{0}%".formato(pontuação))
exceto:
imprimir("FS_SCORE:0%")

Desafio Milestone No Conjunto de Dados de Bicicletas Usadas

Enviado por

Dados do documento

Título original

Direitos autorais

Formatos disponíveis

Compartilhar este documento

Compartilhar ou incorporar documento

Opções de compartilhamento

Você considera este documento útil?

Este conteúdo é inapropriado?

Direitos autorais:

Formatos disponíveis

Desafio Milestone No Conjunto de Dados de Bicicletas Usadas

Enviado por

Direitos autorais:

Formatos disponíveis

Desafio Milestone no conjunto de dados de bicicletas

 Adicione células extras para codificação, se necessário.

 Por fim, reinicie e execute todas as células após a conclusão do desafio.

Execute a célula abaixo para importar os pacotes básicos necessários

importar numpy como np

Execute a célula abaixo para baixar o conjunto de dados

! wget hrcdn.net / s3_pub / istreet - ativos /- ccjO7ToeMlvfSIOr - Wxfg / Used_Bikes.csv

Bicicletas usadas.csv 100%[===================>] 2,38M 9,68MB/s em 0,2s

22/09/2021 10:42:43 (9,68 MB/s) - 'Used_Bikes.csv' salvo [2493547/2493547]

Carregar o conjunto de dados

{Nome da coluna: valor}

significar = {"preço": preço.mean(),"kms_driven": kms_driven.mean(),"idade":, idade.mean(),"poder":,

kms_driven = imprimir ('Sim')

 (b) O proprietário da coluna parece ter um problema de desequilíbrio de classe alta.

{Nome da categoria: contagem}

{'Primeiro Proprietário': 500,

'Quarto proprietário ou mais': 300,

'Segundo Proprietário': 200}

 - (a) Variância populacional do conjunto de dados de todas as colunas numéricas e salve-a na

{Nome da coluna: valor}

 - (a) Intervalo Interquartil da coluna preço e salve-o na variável iqr_price .

de scipy.stats importar iqr

 (b) De df_corr A idade está negativamente correlacionada com o preço.

{Nome da coluna: {Nome da coluna: Valor}}

{'idade': {'idade': 0,2, 'kms_driven': 0,08, 'potência': -0,25, 'preço': 0,08},

'kms_drive': {'idade': -0,15,

 (b) A partir de df_skew a idade é bastante simétrica.

Execute a célula abaixo para salvar os resultados

com open('question1.txt', 'a') como f:

imprimir (média, arquivo = f)

com open('question2.txt', 'a') como f:

com open('question3.txt', 'a') como f:

com open('question4.txt', 'a') como f:

com open('question5.txt', 'a') como f:

da importação de hashlib md5

com open(nome_do_arquivo) como f:

retornar [s.rstrip('\n') para s em dados]

question1_1 =classificado(question1_1.items(), key=lambda x: x[0])

question1_2 =classificado(question1_2.items(), key=lambda x: x[0])

question1_3 =classificado(question1_3.items(), key=lambda x: x[0])

question2_1 =classificado(question2_1.items(), key=lambda x: x[0])

question3_1 =classificado(question3_1.items(), key=lambda x: x[0])

question3_2 =classificado(question3_2.items(), key=lambda x: x[0])

question5_1 =classificado(question5_1.items(), key=lambda x: x[0])

question6_1 =classificado(question6_1.items(), key=lambda x: x[0])

Você também pode gostar