Escolar Documentos
Profissional Documentos
Cultura Documentos
Que presentan:
DE LA CARRERA:
Tecnologías de la información
Área infraestructura de redes digitales
5°C
1
Contenido
Introducción ................................................................................................................................................... 3
Las tablas de la base de datos que integre los datos que se están procesando ............................................. 3
Proceso para la visualización de datos ........................................................................................................... 4
Ventanas de la herramienta analítica ............................................................................................................. 4
Variables de Construcción...................................................................................................................... 5
Variables de Espacio............................................................................................................................... 5
Consultas inteligentes sobre el análisis de los datos .................................................................................... 20
Tabla de ilustraciones .................................................................................................................................. 22
2
Introducción
EL análisis de datos mostrado a continuación es con base a un caso de estudio, acerca de la venta de casas
en los Ángeles California entre los años 1872 a 2010.
Es un repositorio de información que contiene alrededor de 1460 registros y 81 atributo, hemos decidido
analizar de manera exhaustiva el atributo del precio de venta con sus mayores correlaciones y su
comportamiento.
Las tablas de la base de datos que integre los datos que se están procesando
Como lo podemos apreciar, la base de datos manipulada es conformada por 1460 registros y 81 atributos
o también llamadas columnas.
3
Proceso para la visualización de datos
En primera instancia, es necesario contar con un entorno de trabajo, este equipo decidió llevarlo a cabo a
través de la herramienta Google Colab, en colaboración del lenguaje de programación Python para su
análisis.
Podemos cuestionar que es un dataframe como una variable de tamaño colosal donde puedes guardar
tablas enteras (en vez de números o palabras sencillos).
Los dataframes no son nativos de Python, vienen de una librería llamada Pandas.
Lo primero que se necesita para trabajar con susodichos dataframes será importar la librería Pandas.
Procederemos a manipular los datos que nos fueron otorgados en un archivo de Excel con la extensión csv.
Para ello, haremos uso de pandas para poder leer los datos por medio de un método que nos servirá para
procesar lo datos.
El resultado de este método será asignado a una variable para poder manejar el archivo de una manera
más asertiva.
• pandas como pd
• matplotlib.pyplot como plt
• seaborn como sns
• numpy como np
• scipy.stats traer norm
• sklearn.preprocessing traer StandardScaler
• scipy traer stats
4
• warnings
La idea es identificar cuales columnas creemos que van a tener el mayor impacto sobre el precio de la
vivienda.
Variables de Construcción
• CalidadTotal
• AñoConstruccion
Variables de Espacio
• AreaSotano
• AreaVivienda
5
Ilustración 4 Estadísticas descriptivas del precio de venta
Gracias al método describe, perteneciente a la librería de pandas nos retorna las estadísticas descriptivas
incluyendo: media, mediana, máx, mín, std y conteos para una columna en particular de los datos.
6
Ilustración 5 Grafica de estadistica del Precio de venta
Haremos el cálculo de oblicuidad y así mismo y del mismo modo, el cálculo de kurtosis
7
A continuación, veremos la relación que mantienen el Precio Venta y el Área de Vivienda.
Sin embargo, como vamos a trabajar con solo 2 atributos, así que es necesario reducir el data frame a solo
2 columnas para no tener que usar todo
Luego vamos a usar de la librería Pandas el método concat para crear una tabla de solo 2 columnas con
área vivible (var) y Precio de venta que se llame data
Para poder comprobar que realmente obtuvimos los resultados esperados, fue útil el método head, el cual
nos va a retornar por defecto los primeros 5 registros, sin embargo, es posible modificar los parámetros
para asignar la cantidad de datos que se desean ver.
Ahora vamos a terminar con un data.plot.scatter para crear una gráfica de scatterplot.
8
Ilustración 10 Grafica de relación Área de vivienda y Precio de venta
9
Sin embargo, realicemos el mismo procedimiento con "PrecioVenta" y "AreaSotano", a pesar de que van
de la mano, su relación no es lineal. Sin olvidar mencionar que a veces, el AreaSotano evita el
PrecioVenta
Ahora armaremos una gráfica de boxplot para verificar el efecto de la Calidad sobre el precio de ventas.
10
Ahora viene lo difícil, en dos variables f y ax, se guardaran el resultado de un plt.subplots - donde se
define la nueva figura donde existirá la gráfica que se va a crear. F y ax es la figura y los ejes que devuelve
la instrucción
por último, definimos fig como una variable donde haremos un sns.boxplot (para guardar la gráfica)
11
Se empleó el mismo método e incluso el tipo de grafica para el análisis de Precio venta y Año de
construcción.
12
Se determinó que el año de construcción no influye de manera directa con el precio de venta, debido a que podemos notar que existen
casas bastante antiguas, sin embargo, cotizadas en el mercado.
13
Hasta ahora, por intuición propia decidimos a que estas 4 eran las variables importantes, vamos
confirmando con números si es verdad o no.
Lo primero es armar una matriz de correlación (mapa de calor) para ver cuáles son las
variables más correlacionadas
Vamos declarando una variable corrmat = df_train.corr() con todas las correlaciones
entre variables
14
Ilustración 16 Grafica de correlación
Ilustración 17 Variable k
15
Realizamos una solicitud para que nos retorne los diez artículos con la mayor correlación con saleprice
16
Ilustración 20 Grafica de correlación con números
• Calidad, Área Vivienda y área Sótano están muy fuertemente correlacionadas con Precio Venta
• Las variables de garaje tienen una fuerte correlación.
• Sótano y 1er piso son básicamente hermanos gemelos
• Y Año Construcción está ligeramente correlacionada con Precio Venta, parece que en un futuro
habrá que hacer un análisis de serie de tiempo más serio.
17
Ilustración 21 Método Set
18
19
Consultas inteligentes sobre el análisis de los datos
El método head nos retorna el contenido de los primeros registros de nuestro data frame.
El método simple nos retorna los datos de nuestro data frame de manera aleatoria.
20
En este caso notamos que el número de datos con el que trabajamos fue de 118260
Método empleado para obtener el promedio de los atributos, podemos notar que el promedio de precio
de venta es de 180921.195 dólares.
21
Tabla de ilustraciones
Ilustración 1 Importación de la librería Pandas ............................................................................................. 4
Ilustración 2 Lectura de archivo CSV .............................................................................................................. 4
Ilustración 3 Importación de librerías y módulos .......................................................................................... 5
Ilustración 4 Estadísticas descriptivas del precio de venta ............................................................................ 6
Ilustración 5 Grafica de estadistica del Precio de venta ................................................................................ 7
Ilustración 6 Cálculo de oblicuidad y kurtosis ................................................................................................ 7
Ilustración 7 variable en manipulación de área de vivienda ......................................................................... 8
Ilustración 8 Método concat .......................................................................................................................... 8
Ilustración 9 Método head ............................................................................................................................. 8
Ilustración 10 Grafica de relación Área de vivienda y Precio de venta ......................................................... 9
Ilustración 11 Grafica Área de sótano y Precio Venta ................................................................................. 10
Ilustración 12 declaración de variable ......................................................................................................... 10
Ilustración 13 Grafica de calidad total ......................................................................................................... 11
Ilustración 14 Acoplamiento de variables .................................................................................................... 12
Ilustración 15 variables para correlación ..................................................................................................... 14
Ilustración 16 Grafica de correlación ........................................................................................................... 15
Ilustración 17 Variable k ............................................................................................................................... 15
Ilustración 18 Uso método cormat .............................................................................................................. 15
Ilustración 19 valores de coeficiente de correlación ................................................................................... 16
Ilustración 20 Grafica de correlación con números ..................................................................................... 17
Ilustración 21 Método Set ............................................................................................................................ 18
Ilustración 22 Arreglo de variables de nuestra importancia........................................................................ 18
Ilustración 23 Creación de gráfica de dispersión ......................................................................................... 18
Ilustración 24 Método head ......................................................................................................................... 20
Ilustración 25 Método sample ..................................................................................................................... 20
Ilustración 26 Método tail ............................................................................................................................ 20
Ilustración 27 Uso de size ............................................................................................................................. 21
Ilustración 28 Método Mean ....................................................................................................................... 21
Ilustración 29 Método value_counts ........................................................................................................... 21
22