Você está na página 1de 7

Prediccion de Datos de Sensores

Implementando Sistemas Embebidos Aplicando Regresion


Lineal
Basantes Hugo, Gudino Israel, Guerra Mario, Mera Jonathan
hgbasantesp, iagudiniop, mpguerra, jamerat@utn.edu.ec
25 de julio de 2017

1. Introduccion recta, que se llamara recta de regresion de Y


sobre X, porque se usa para predecir valores de
El analisis de regresion lineal es una tecni- Y basandose en valores de X y correspondera
ca utilizada para estudiar la relacion entre una ecuacion lineal [4].
variables. Se adapta a una amplia variedad de
situaciones. El objetivo principal es descubrir La ecuacion (1), muestra la representacion
el modo en que se relacionan dos caractersti- de un modelo de regresion lineal simple, donde
cas simultaneas sobre una muestra, se puede Y es la respuesta, X es la variable regresora,
considerar que una de ellas influye sobre la 0 y 1 son los parametros del modelo o coefi-
otra de alguna manera. [1] cientes de regresion y es el error del modelo,
este error obedece a las variaciones de Y no
En la actualidad, el modo mas comun de producidas por X. [5]
medicion de variables es por medio de multi-
ples dispositivos electronicos que trabajan en
forma coordinada; cada dispositivo es utilizado
(1)
para adquirir diferentes datos. [2]

Los modelos de regresion lineal son amplia- (2)


mente usados en la ingeniera ya que sirven pa- MODELO DE REGRESION LI-
ra analizar el comportamiento de las variables NEAL SIMPLE
de entrada (o regresora) y salida (o respuesta)
estableciendo predicciones y estimaciones [3]. Si nos interesa predecir humedad a partir
de temperatura, llamaremos a la primera va-
La regresion lineal se podra decir que es riable respuesta y a la segunda variable predic-
la posibilidad de mejorar la prediccion existe tora. La variable respuesta siempre se grafica
entre dos variables que se hallan correlaciona- en el eje vertical, o eje Y, y la variable predic-
das. Y si esa correlacion fuera muy estrecha tora en el eje horizontal, o eje X. El problema
las predicciones estaran exentas de error. Sin consiste en ajustar una recta que represente
embargo por cuestiones de mera practicidad, al conjunto de datos de la mejor manera, para
es posible imaginar que las variables ajustan obtener la prediccion de Y para cualquier valor
su relacion. Esto quiere decir que si se hubiera de X. Hay muchas maneras de evaluar si una
hecho mediciones y se representaran un valor recta representa bien al conjunto de datos. El
de la variable X para cada valor de Y o vice- enfoque tradicional consiste en hallar la recta
versa sobre una ordenada y una abscisa, estas que en promedio tenga la menor distancia ver-
medias seguiran el curso de una recta. A esta tical, residuo, al cuadrado a cada uno de los

1
puntos. Este procedimiento se llama metodo indicara una relacion directa entre ellas (a ma-
de Cuadrados Mnimos [6]. yor valor de la variable explicativa, el valor de
la variable dependiente Y aumentara), [ < 0
EL METODO DE CUADRADOS delatara una relacion de tipo inverso, mien-
MINIMOS tras que [ = 0 nos indica que no existe una
La suma de los cuadrados de los residuos da relacion lineal clara entre ambas variables. As
una medida de la bondad de ajustede la rec- mismo, y tal y como se deduce de la ecuacion
ta. Cuanto mas pequeno es ese numero tanto de la recta de regresion, el coeficiente b nos da
mejor es el ajuste. Si tenemos valores de dos una estimacion del cambio por termino medio
variables, X (TEMPERATURA) Y (HUME- en la variable Y por cada unidad en que se
DAD), y hemos realizado una regresion de Y incrementa X. Al igual que ocurre con otros
sobre X, obteniendo una recta que da un valor estimadores, existira cierta incertidumbre en
ajustado estimado de Y para cada valor de la el calculo de las estimaciones, que se podra
variable X. [7] reflejar mediante intervalos de confianza para
ambos valores. [9]
El estudio comienza por un modelo lineal.
Interesa obtener los mejores estimadores de los INTERACCION, CONFUSION Y
parametros y . Si llamamos a y b a nuestros COLINEALIDAD.
estimadores, la ecuacion de la recta estimada
es: Cuando se introduce mas de una variable
en el modelo de regresion es necesario contras-
y=a+bx
tar, ademas la independencia de los efectos
Los residuos es la contraparte muestral de de todas ellas. Es decir, se supone que la aso-
los errores, donde las diferencias entre el valor ciacion de cada variable con la respuesta no
observado y el valor predicho miden el error de depende del valor que tomen el resto en la
prediccion, si el valor observado es mayor que ecuacion de regresion. En otro caso se dira que
el valor predicho el residuo es positivo y caso existe interaccion. Antes de aprobar el mode-
contrario es negativo, con una prediccion per- lo definitivo, por lo tanto, se debe explorar la
fecta resulta un residuo nulo. La suma de los necesidad de incluir terminos de interaccion
cuadrados de los residuos refleja la precision calculados a partir del producto de pares de
y exactitud global de las predicciones, Cuan- variables, comprobando si mejora la predic-
to mas cerca esten los valores observados de cion. [10]
los predichos tanto menor sera la suma de los
cuadrados de los residuos por tanto El Metodo En ocasiones el fenomeno de la interaccion
de Cuadrados Mnimos consiste en elegir a y se hace coincidir erroneamente con los de con-
b de manera que la suma de cuadrados de los fusion y correlacion. Existe confusion cuando
residuos sea lo mas pequena posible[8]. el efecto de una variable difiere significativa-
mente segun se considere o no en el modelo
INTERPRETACION DE LOS CO- alguna otra. Esta se asociara tanto con la va-
EFICIENTES DE REGRESION. riable inicial como con la respuesta, de modo
que en casos extremos puede invertir el primer
En la ecuacion general de la recta de re- efecto observado. En ese caso las estimaciones
gresion, claramente b es la pendiente de la adecuadas son aquellas que proporciona el mo-
recta y a el valor de la variable dependiente delo completo, y se diran que estan controladas
Y para el que X = 0. En consecuencia, una o ajustadas por variables de confusion. [11]
vez estimados estos coeficientes, en la mayora
de las aplicaciones el valor de a no tendra una El fenomeno que se produce cuando dos va-
interpretacion directa, mientras que el valor [ riables explicativas muestran una correlacion
servira como un indicador del sentido de aso- alta recibe el nombre de cuasi-colinealidad y
ciacion entre ambas variables: as, [ > 0 nos puede producir estimaciones inestables de los

2
coeficientes que se traducen en valores desorbi- de puntos o diagrama de dispersion. La simple
tados de sus errores tpicos y resultados poco inspeccion visual de este diagrama nos per-
crebles. La mayora de paquetes estadsticos mitira intuir si la relacion entre las variables
muestran en sus salidas diagnosticos de co- se ajusta aceptablemente a una funcion recta.
linealidad (tolerancia, factor de inflaccion de Ello dependera de si podemos imaginar una
la varianza, ndice de condicion) que pueden recta que pase relativamente cerca de la ma-
ayudarnos a solventar estos problemas. Por lo yora de los puntos. La mejor recta de todas
tanto, se ha de tener un cuidado especial en la sera la que cumpla la condicion de minimizar la
etapa de construccion del modelo: un cambio suma de las distancias medidas desde los pun-
significativo en las estimaciones tras la inclu- tos a la recta, elevadas al cuadrado. Por eso,
sion de una nueva variable puede evidenciar se llama tambien recta de cuadrados mnimos
cualquiera de estos fenomenos.[12] o de mejor ajuste. Obviamente, en cualquier
situacion sera posible encontrar una recta de
ESQUEMA DE RECTA POSITIVA. mejor ajuste, que minimice dichas distancias.
Pero si aun esta recta deja muy lejos a gran
En la ecuacion de la regresion lineal X es parte de las observaciones, no nos servira para
el valor de un caso en la variable X, que que- hacer predicciones adecuadas: ello significa que
remos predecir (por ejemplo, la temperatura), la relacion entre las variables no se ajusta bien
en tanto que Y es el valor de ese caso en la a una funcion de esta clase. [14]
variable Y, que nos es conocido y tomamos
como base para la prediccion (por ejemplo, la CONDICIONES O SUPUESTOS
humedad). Que cosa son los estadsticos a y DEL MODELO.
b? El primero se denomina la constante o la
ordenada al origen y puede interpretarse como Este modelo de la regresion lineal conlle-
el valor de Y cuando X vale cero: sera el punto
va exigentes supuestos. Ademas del ajuste a
en que la recta corta al eje vertical. En cuanto
la linealidad y el uso de escalas de intervalos,
al coeficiente b, que se denomina la pendientedebieran cumplirse en la poblacion las condi-
de la recta, sera el incremento (o, al reves, la
ciones propias. Ello significa que, para cada
disminucion) que experimentan los puntajes valor de X las Y debieran distribuirse en for-
de Y cada vez que X aumenta en una unidad. ma normal y con similar varianza. Y, de igual
Obviamente, cuando la correlacion es negativamodo, para cada valor de Y debieran distri-
(cuando el coeficiente r tiene signo negativo),
buirse las X en forma normal y con varianzas
tambien b es negativo. Y la recta que mejor semejantes. Para que esto fuera cierto, al me-
representa la relacion entre las variables tiene
nos debiera verificarse que las distribuciones
inclinacion inversa. [13] muestrales de las variables no se alejaran en
exceso de la normalidad y que sus varianzas
ESQUEMA DE RECTA NEGATI- no fueran demasiado diferentes.
VA.
Por lo tanto, en la regresion lineal estamos
Ahora bien, se ha dicho que hacemos el admitiendo que todos los factores o causas
supuesto de que las medias de Y para cada que influyen en la variable respuesta Y pueden
X seguiran el curso de una recta, que usa- dividirse en dos grupos: el primero contiene a
remos para predecir. Pero cual recta hemos una variable explicativa X y el segundo incluye
de usar?. Seguramente, no ha de ser cualquie- un conjunto amplio de factores no controlados
ra. Supongamos que tomamos una muestra que englobaremos bajo el nombre de pertur-
de valores medidos. Y luego representamos la bacion o error aleatorio, , que provoca que la
humedad sobre el eje horizontal y la tempe- dependencia entre las variables dependiente e
ratura sobre el eje vertical. Si trazamos los independiente no sea perfecta, sino que este
puntos correspondientes a las observaciones, sujeta a incertidumbre. [15]
tendremos lo que se da en llamar una nube

3
2. SOFTWARE 3. MATERIALES y ME-
TODOS

Figura 1. Diagrama de conexion del sensor


DHT11 a la placa de Arduino.

2.1. Explicacion del Software


En primer lugar, se debe descargar la li-
brera para manejar el sensor, la librera es
DHT11, una vez instalada la librera se defi-
ne el pin al que esta conectado el sensor para
leer los datos, se define en 50 la cantidad de Tabla 1. Materiales, descripcion y lugar de
lecturas que se tomaran antes de realizar los adquisicion
calculos, se define en 1 segundo el retardo de
cada lectura del sensor, se crea la matriz pa-
En la realizacion del proyecto, primero se
ra el almacenamiento de datos, se definen las
obtuvo informacion acerca del metodo de re-
variables para realizar los calculos y aplicar
gresion lineal para poder aplicar al programa,
el metodo, se inicializa la comunicacion serial
el metodo consiste en una ecuacion lineal que
para presentar los datos. En el ciclo repetitivo,
relaciona dos variables una dependiente y una
primero se define una variable para el numero
independiente, en este caso las variables son la
de errores en la toma de datos del sensor y se
temperatura y humedad, de las que la hume-
le asigna sus condiciones de funcionamiento, si
dad depende de la temperatura el ambiente,
la lectura del sensor va desde 0 a 50, almacena
para realizar las mediciones y posterior rela-
los valores de temperatura y humedad en las
cion de las variables se utilizo un sensor, el cual
posiciones correspondientes, calcula el produc-
enva datos hacia Arduino y este los presenta
to de temperatura y humedad y lo almacena
por medio de comunicacion serial.
en la posicion correspondiente, calcula el cua-
drado de la temperatura actualmente leda y
lo almacena en la posicion correspondiente, Los materiales que se utilizan en este pro-
calcula la suma de cada una de las columnas yecto son, un sensor DHT11 el cual toma los
respectivamente, cuando el dato tomado por el datos de temperatura y humedad cada segun-
sensor es el numero 51 se calcula el calor para do, el sensor percibe la informacion en forma
m aplicando la siguiente formula: analogica y la convierte a senales electricas,
las cuales se procesan en el micro controlador
Arduino R3 mediante la configuracion y pro-
(3) gramacion realiza la relacion de las variables
Calcula el valor de b segun la formula: y las presenta mediante la siguiente ecuacion
lineal Temperatura es igual a la pendiente mul-
(Humedad) T emperatura
b= m (4) tiplicada por la humedad mas una constante
(dedatos) dedatos denominada b, luego de realizar este proceso
presenta la informacion por medio de comuni-
Muestra los resultados de la informacion cacion serial en el computador.
calculada mediante la formula de la ecuacion:

Y=m X+b

4
del valor real. La formula a usarse es la si-
guiente:

Ecuacion 3. Calculo del error.

En nuestro caso sera de la siguiente manera:

Ecuacion 4. Calculo del error con variables


propias.
Figura 2. Diagrama de Flujo
Mientras el porcentaje de error se acerque mas
a cero, la prediccion sera mucho mas exacta.
4. RESULTADOS
4.1. CALCULO DEL PORCEN-
TAJE DE ERROR
En la realizacion de las pruebas y medicio-
nes se ha tomado datos en cinco mediciones
de cincuenta datos en tres tipos de ambientes,
caliente, fro y temperatura ambiente, para las
mediciones en ambiente caliente se ha utilizado
un cautn para obtener una temperatura alta,
para las mediciones en ambiente fro se ha uti-
lizado hielo. En dos mediciones se intercambia
de temperatura ambiente a un ambiente fro
cada 25 datos medidos, en otras dos mediciones
se intercambia de ambiente caliente a tempe-
Tabla 2. Resultados fro - caliente
ratura ambiente cada 25 datos medidos, en la
ultima medicion de datos se intercambia de un
ambiente caliente a un ambiente fro, luego se
presenta las pruebas mediante una grafica en
Excel de las variables y la ecuacion obtenida,
con estos datos se realiza una prediccion de
humedad en una futura medicion.

Al calcular el porcentaje de error nos per-


mite comparar que tan exacta sera nuestra
prediccion. El porcentaje de error nos da la
diferencia entre el valor aproximado y el ver-
dadero como porcentaje del valor exacto y nos
ayudara a determinar que tan cerca estamos

5
Tabla 3. Resultados fro - ambiente 4.2. DE RESULTADOS
Determinamos que nuestra ecuacion tiene
un 5,71 % de error al predecir la humedad del
medio.
El rango de error aumenta en las mediciones
entre fro y el ambiente.

Tabla 4. Resultados segunda muestra fro -


ambiente

Tabla 7. Porcentaje de error.

Referencias
[1] Mayne,Jordy Modeling of traffic Signal
Control and Transit Signal Priority Stra-
tegies in a Microscopic Simulation Labo-
ratory (Tesis de maestra inedita), 3rd ed.
Massachussets: , 2001.
Tabla 5. Resultados caliente - ambiente
[2] MONTGOMERY, D.; PECK, E.; VI-
NING, G. Introduccion al analisis de re-
gresion lineal, Mexico, Ed. Limusa Wi-
ley, 2006, 588 p., ISBN: 970-24-0327-8.
stat Statistics notes: Correlation, regres-
sion and repeated data. BMJ 1994; 308: 896

[3] Ronald E. Walpole y Raymond H


Myers.PROBABILIDAD Y ESTADISTI-
CA, Sexta Edicion. 1998.

[4] CHITARRONI, H.; El analisis de correla-


cion y regresion lineal entre variables cuan-
titativas; Buenos Aires; DIC, 2002, 18 p
Tabla 6. Resultados segunda muestra caliente [5] Kelmansky, Diana;Estadstica para todos;
- ambiente 1a ed, Buenos Aires; 2009; Pags 202,203
204,205

[6] Bland JM, Altman DG. Statistics Notes:


Transforming data. BMJ 1996; 312:770.

6
[7] Seber GAF. Linear Regression Analysis. [12] Gutierrez-Pulido, H. y De la Vara Salazar,
New York: John Wiley Sons, 1977. R. (2005), CONTROL ESTADISTICO DE
CALIDAD Y SEIS SIGMA; Primera Edi-
[8] Pita Fernandez S, Rey Sierra T, Vila Alon- cion. 2005 Editorial McGraw-Hill, Mexico.
so MT. Relaciones entre variables cuanti-
tativas (I). Cadernos de Atencion Primaria [13] Gutierrez-Pulido, H. y De la Vara Sala-
1997; 4: 141-145. zar, R. (2003), DISENO Y ANALISIS DE
EXPERIMENTOS ; McGraw-Hill, Mexico.
[9] Altman DA. Practical statistics for medi-
cal research. 1th ed., repr. 1997. London: [14] (Arduino, 2017); Extrado de:
Chapman Hall; 1997. http://arduino.cl/arduino-uno/

[10] Etxebarra Murgiondo, J. Regresion [15] (Unicrom,2017); Extrado de:


Multiple. Madrid: La Muralla; 1999. http://unicrom.com/como-usar-la-
protoboard- breadboard/
[11] William Mendenhall y Dennos D. Wac-
kerly.ESTADISTICA MATEMATICA [16] (Prometec, 2017); Extrado de:
CON APLICACIONES ; Segunda Edicion. http://www.prometec.net/producto/dht11-
1994 Editorial Iberoamericana. sensor-temperatura-y-humedad/

Você também pode gostar