Você está na página 1de 2

Pontificia Universidad Católica de Chile

Escuela de Ingenierı́a
Departamento de Ciencia de la Computación

Actividad 1:
Exploración de Datos en Python
Aplicaciones en Ciencia de Datos e Inteligencia Artificial

Profesores : Ignacio Becker - Francisco Pérez Galarce.


Ayudantes : Yesenia Helem

Fecha : 05 de Marzo de 2020

1 Introducción
Python se ha posicionado como el lenguaje de programación más utilizado para el desarrollo de proyectos
de Aprendizaje de Máquina. Lo anterior, entre otros factores, es debido a que en este lenguaje se han
desarrollado un conjunto de librerı́as altamente especializadas para las distintas etapas o tareas dentro
de un proyecto en esta área.
En esta actividad, a través de ejemplos simples, usted explorará algunas de las funcionalidades de un
conjunto de librerı́as muy utilizadas por los cientı́ficos de datos del ecosistema Python.

2 Instrucciones de la actividad
2.1 Lectura y análisis exploratorio de datos
a
• Abrir entorno de programación, de preferencia utilizar google colab o jupyter notebook.

• Importe (e instale en caso de ser necesario) librerı́a pandas.

• Cargar la base de datos de nombre ”ejemplo data.csv”. En esta parte recomendamos explorar las
diferentes opciones de read que tiene disponible la librerı́a Pandas, identificando los argumentos
disponibles en cada una de ellas.

• Identifique los tipos de varibles que hay disponibles en la base de datos (df.types o df.info()).

• Utilizando la función astype transforme el atributo ID a entero y el atributo Activo a binario.


Vuelva a consultar el estado de las variables.

• Convierta el atributo unidades a entero y 2016 a flotante.


a https://colab.research.google.com/notebooks

1
2.2 Estadı́sticas descriptivas

• Utilizando el siguiente código, cree un diccionario con 20 datos que contenga al menos dos atributos
continuos y un string (por ejemplo: nombre, nota, edad).

• Transforme dicho diccionario a un dataFrame de pandas.

• Obtenga estadı́sticas descriptivas de tendencia central.

• Obtenga estadı́sticas descriptivas de dispersión.

2.3 Primero gráficos

• Utilizando la base de datos antes creada, genere un histograma para cada variable continua con las
funciones de pandas.

• Luego de esto, importe (instalar de ser necesario) la librerı́a matplotlib y replique los histogramas.

• Estudie los argumentos y funciones disponibles por matplotlib.

• Genere un gráfico de dispersión con matplotlib, cambie los colores, agregue nombre a los ejes,
agregue tı́tulo, cambie los rangos de los ejes.

• Piense e implemente otro tipo de gráfico con alguna de las dos bases de datos que hemos utilizado.

2.4 Recomendaciones para curiosos

• Explorar documentación de Scipy: https://docs.scipy.org/doc/scipy/reference/index.html

• Explorar documentación de Numpy: https://numpy.org/

• Explorar documentación de Seaborn https://seaborn.pydata.org/

Você também pode gostar