Você está na página 1de 22

Análisis de datos

Introducción a big data

Que presentan:

Mario Alberto Mogollan Torres 3520110281

Diana Olivos Santa María 3521110263

Salvador Romero Delgado 3521110917

Karla Solís Hernández 3521110946

José Carlos Tepoxtecatl Navarro 3521110949

Alma Lucero Tlahuice Hernández 3521110951

Cristian Tlahuice Juncadella 3521110948

DE LA CARRERA:

Tecnologías de la información
Área infraestructura de redes digitales

5°C

1
Contenido
Introducción ................................................................................................................................................... 3
Las tablas de la base de datos que integre los datos que se están procesando ............................................. 3
Proceso para la visualización de datos ........................................................................................................... 4
Ventanas de la herramienta analítica ............................................................................................................. 4
Variables de Construcción...................................................................................................................... 5
Variables de Espacio............................................................................................................................... 5
Consultas inteligentes sobre el análisis de los datos .................................................................................... 20
Tabla de ilustraciones .................................................................................................................................. 22

2
Introducción
EL análisis de datos mostrado a continuación es con base a un caso de estudio, acerca de la venta de casas
en los Ángeles California entre los años 1872 a 2010.

Es un repositorio de información que contiene alrededor de 1460 registros y 81 atributo, hemos decidido
analizar de manera exhaustiva el atributo del precio de venta con sus mayores correlaciones y su
comportamiento.

Las tablas de la base de datos que integre los datos que se están procesando

A continuación, se muestra una parte de las tablas de la base de datos:

Como lo podemos apreciar, la base de datos manipulada es conformada por 1460 registros y 81 atributos
o también llamadas columnas.

3
Proceso para la visualización de datos
En primera instancia, es necesario contar con un entorno de trabajo, este equipo decidió llevarlo a cabo a
través de la herramienta Google Colab, en colaboración del lenguaje de programación Python para su
análisis.

Podemos cuestionar que es un dataframe como una variable de tamaño colosal donde puedes guardar
tablas enteras (en vez de números o palabras sencillos).

Los dataframes no son nativos de Python, vienen de una librería llamada Pandas.

Lo primero que se necesita para trabajar con susodichos dataframes será importar la librería Pandas.

Ilustración 1 Importación de la librería Pandas

Procederemos a manipular los datos que nos fueron otorgados en un archivo de Excel con la extensión csv.

Para ello, haremos uso de pandas para poder leer los datos por medio de un método que nos servirá para
procesar lo datos.

Ilustración 2 Lectura de archivo CSV

El resultado de este método será asignado a una variable para poder manejar el archivo de una manera
más asertiva.

Ventanas de la herramienta analítica


De la misma forma, para poder apreciar y discriminar la información de los datos será necesario realizar la
importación de los siguientes módulos y librerías:

• pandas como pd
• matplotlib.pyplot como plt
• seaborn como sns
• numpy como np
• scipy.stats traer norm
• sklearn.preprocessing traer StandardScaler
• scipy traer stats

4
• warnings

Ilustración 3 Importación de librerías y módulos

La idea es identificar cuales columnas creemos que van a tener el mayor impacto sobre el precio de la
vivienda.

Al final veremos que las columnas con mayor impacto son:

Variables de Construcción
• CalidadTotal
• AñoConstruccion

Variables de Espacio
• AreaSotano
• AreaVivienda

Procederemos a realizar nuestro análisis de datos acerca del precio de ventas.

5
Ilustración 4 Estadísticas descriptivas del precio de venta

Gracias al método describe, perteneciente a la librería de pandas nos retorna las estadísticas descriptivas
incluyendo: media, mediana, máx, mín, std y conteos para una columna en particular de los datos.

Procedemos a llevar a cabo una gráfica de distplot veremos que:

Se desvía de la distribución normal

Tiene Skew positivo (oblicuidad)

Muestra Peakedness (kurtosis)

6
Ilustración 5 Grafica de estadistica del Precio de venta

Haremos el cálculo de oblicuidad y así mismo y del mismo modo, el cálculo de kurtosis

Ilustración 6 Cálculo de oblicuidad y kurtosis

7
A continuación, veremos la relación que mantienen el Precio Venta y el Área de Vivienda.

Sin embargo, como vamos a trabajar con solo 2 atributos, así que es necesario reducir el data frame a solo
2 columnas para no tener que usar todo

Primero declara una variable var que contenga el área vivible:

Ilustración 7 variable en manipulación de área de vivienda

Luego vamos a usar de la librería Pandas el método concat para crear una tabla de solo 2 columnas con
área vivible (var) y Precio de venta que se llame data

Ilustración 8 Método concat

Para poder comprobar que realmente obtuvimos los resultados esperados, fue útil el método head, el cual
nos va a retornar por defecto los primeros 5 registros, sin embargo, es posible modificar los parámetros
para asignar la cantidad de datos que se desean ver.

Ilustración 9 Método head

Ahora vamos a terminar con un data.plot.scatter para crear una gráfica de scatterplot.

8
Ilustración 10 Grafica de relación Área de vivienda y Precio de venta

9
Sin embargo, realicemos el mismo procedimiento con "PrecioVenta" y "AreaSotano", a pesar de que van
de la mano, su relación no es lineal. Sin olvidar mencionar que a veces, el AreaSotano evita el
PrecioVenta

Ilustración 11 Grafica Área de sótano y Precio Venta

Ahora armaremos una gráfica de boxplot para verificar el efecto de la Calidad sobre el precio de ventas.

Comenzamos igual, declara una variable var = "CalidadTotal"

Y una data donde concatenes el precio de ventas con var

Ilustración 12 declaración de variable

10
Ahora viene lo difícil, en dos variables f y ax, se guardaran el resultado de un plt.subplots - donde se
define la nueva figura donde existirá la gráfica que se va a crear. F y ax es la figura y los ejes que devuelve
la instrucción

por último, definimos fig como una variable donde haremos un sns.boxplot (para guardar la gráfica)

y definiremos el eje fig.axis de 0 a 8000000

Ilustración 13 Grafica de calidad total

11
Se empleó el mismo método e incluso el tipo de grafica para el análisis de Precio venta y Año de
construcción.

Ilustración 14 Acoplamiento de variables

12
Se determinó que el año de construcción no influye de manera directa con el precio de venta, debido a que podemos notar que existen
casas bastante antiguas, sin embargo, cotizadas en el mercado.

13
Hasta ahora, por intuición propia decidimos a que estas 4 eran las variables importantes, vamos
confirmando con números si es verdad o no.

Lo primero es armar una matriz de correlación (mapa de calor) para ver cuáles son las
variables más correlacionadas
Vamos declarando una variable corrmat = df_train.corr() con todas las correlaciones
entre variables

Ilustración 15 variables para correlación

14
Ilustración 16 Grafica de correlación

Ilustración 17 Variable k

Ilustración 18 Uso método cormat

15
Realizamos una solicitud para que nos retorne los diez artículos con la mayor correlación con saleprice

Ilustración 19 valores de coeficiente de correlación

16
Ilustración 20 Grafica de correlación con números

Podemos ver que:

• Calidad, Área Vivienda y área Sótano están muy fuertemente correlacionadas con Precio Venta
• Las variables de garaje tienen una fuerte correlación.
• Sótano y 1er piso son básicamente hermanos gemelos
• Y Año Construcción está ligeramente correlacionada con Precio Venta, parece que en un futuro
habrá que hacer un análisis de serie de tiempo más serio.

A continuación, realizaremos el diagrama de correlación expresada en graficas de dispersión para ello es


necesario utilizar lo siguiente:

17
Ilustración 21 Método Set

Ilustración 22 Arreglo de variables de nuestra importancia

Ilustración 23 Creación de gráfica de dispersión

18
19
Consultas inteligentes sobre el análisis de los datos

Ilustración 24 Método head

El método head nos retorna el contenido de los primeros registros de nuestro data frame.

Ilustración 25 Método sample

El método simple nos retorna los datos de nuestro data frame de manera aleatoria.

20

Ilustración 26 Método tail


Ilustración 27 Uso de size
El método size no retorna el número total de datos manejados en el data frame, multiplicado el número
de columnas y filas.

En este caso notamos que el número de datos con el que trabajamos fue de 118260

Ilustración 28 Método Mean

Método empleado para obtener el promedio de los atributos, podemos notar que el promedio de precio
de venta es de 180921.195 dólares.

Ilustración 29 Método value_counts


Este método devuelve una estructura conteniendo los valores presentes en la serie y el
número de ocurrencias de cada uno

21
Tabla de ilustraciones
Ilustración 1 Importación de la librería Pandas ............................................................................................. 4
Ilustración 2 Lectura de archivo CSV .............................................................................................................. 4
Ilustración 3 Importación de librerías y módulos .......................................................................................... 5
Ilustración 4 Estadísticas descriptivas del precio de venta ............................................................................ 6
Ilustración 5 Grafica de estadistica del Precio de venta ................................................................................ 7
Ilustración 6 Cálculo de oblicuidad y kurtosis ................................................................................................ 7
Ilustración 7 variable en manipulación de área de vivienda ......................................................................... 8
Ilustración 8 Método concat .......................................................................................................................... 8
Ilustración 9 Método head ............................................................................................................................. 8
Ilustración 10 Grafica de relación Área de vivienda y Precio de venta ......................................................... 9
Ilustración 11 Grafica Área de sótano y Precio Venta ................................................................................. 10
Ilustración 12 declaración de variable ......................................................................................................... 10
Ilustración 13 Grafica de calidad total ......................................................................................................... 11
Ilustración 14 Acoplamiento de variables .................................................................................................... 12
Ilustración 15 variables para correlación ..................................................................................................... 14
Ilustración 16 Grafica de correlación ........................................................................................................... 15
Ilustración 17 Variable k ............................................................................................................................... 15
Ilustración 18 Uso método cormat .............................................................................................................. 15
Ilustración 19 valores de coeficiente de correlación ................................................................................... 16
Ilustración 20 Grafica de correlación con números ..................................................................................... 17
Ilustración 21 Método Set ............................................................................................................................ 18
Ilustración 22 Arreglo de variables de nuestra importancia........................................................................ 18
Ilustración 23 Creación de gráfica de dispersión ......................................................................................... 18
Ilustración 24 Método head ......................................................................................................................... 20
Ilustración 25 Método sample ..................................................................................................................... 20
Ilustración 26 Método tail ............................................................................................................................ 20
Ilustración 27 Uso de size ............................................................................................................................. 21
Ilustración 28 Método Mean ....................................................................................................................... 21
Ilustración 29 Método value_counts ........................................................................................................... 21

22

Você também pode gostar