Você está na página 1de 19

UNIVERSIDAD DE SANTIAGO DE CHILE

FACULTAD DE INGENIERÍA
Departamento de Informática

Laboratorio 1

Inteligencia Computacional

Eduardo Villagra Zúñiga


Sebastián Aliaga Rojas

PROFESOR: Dr Max Chacón Pacheco.


AYUDANTE: Felipe-Andrés Bello Robles.

Santiago - Chile
2018
Índice

1. Introducción 2
2. Descripción del problema 3
3. Análisis Exploratorio 3
3.1. Descripción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.2. Descripción de clases y variables . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3. Descripción univariante de variables . . . . . . . . . . . . . . . . . . . . . . . 5
3.3.1. Datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3.2. Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3.3. Descripción de categorías datos nominales . . . . . . . . . . . . . . . . 6
3.3.4. Histogramas edades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.4. Descripción entre más de una variables . . . . . . . . . . . . . . . . . . . . . . 8
3.4.1. Niveles de hormonas vs diagnósticos . . . . . . . . . . . . . . . . . . . 9
3.4.2. Edad versus diagnóstico positivo . . . . . . . . . . . . . . . . . . . . . 10
3.4.3. Matriz de correlación de variables continuas . . . . . . . . . . . . . . . 11
3.4.4. Gráco de dispersión entre FTI y TSH . . . . . . . . . . . . . . . . . . 12
3.4.5. Consulta por enfermedad vs diagnóstico . . . . . . . . . . . . . . . . . 13
3.4.6. Árbol de decisión descriptivo . . . . . . . . . . . . . . . . . . . . . . . 14

4. Inferencial 15
4.0.1. Test de comparación de medias . . . . . . . . . . . . . . . . . . . . . . 15

5. Conclusiones 16
6. Referencias 18

1
1. Introducción

La tiroides es una glándula ubicada en el cuello. Produce una serie de hormonas, de las
cuales 2 son importantes: la triyodotironina (T3) y la tiroxina (T4). Ambas ayudan a las
células a convertir oxígeno y calorías en energía, construir proteínas y regular la temperatura
del cuerpo, es decir ayudan a controlar el metabolismo del cuerpo [1].

Cuando la tiroides produce más o menos hormonas tiroideas que lo normal, se producen
las enfermedades hipertiroidismo e hipotiroidismo, respectivamente. El hipotiroidismo es una
baja actividad de la tiroides que tiene muchas causas: cirugías [2], exposición a radiación
ionizante [3], inamación crónica de la tiroides (autoinmune) [4], exceso o falta de yodo en la
dieta [5], falta de enzimas que permiten fabricar las hormonas tiroideas [6], y varios tipos de
medicación [7].

Su diagnóstico está basado principalmente en mediciones de las hormonas que produce la


tiroides en la sangre, los cuales tienen rangos de valores normales que ayudan a los especia-
listas a realizar el diagnóstico.

El hipotiroidismo se sub clasica en hipotiroidismo primario (cuando la tiroides no pro-


duce sucientes hormonas), hipotiroidismo secundario (cuando la tiroides está normal pero
bajamente estimulada) e hipotiroidismo subclínico o compensado (cuando su severidad es
leve).

Figura 1.1: Clasicación subtipos de Hipotiroidismo.

Los casos graves de enfermedades tiroideas pueden llevar a la muerte. Por lo mismo un
buen diagnóstico es fundamental para proveer el tratamiento adecuado al paciente que padece
esta enfermedad. En este sentido, determinar cuál tipo de hipotiroidismo tiene un paciente
ayuda a denir la terapia adecuada para su caso en particular.

2
2. Descripción del problema

El problema que enfrentan los médicos es la gran cantidad de datos necesaria para hacer
un buen diagnóstico, diagnósticos erróneos derivados del punto anterior y el gran esfuerzo
humano que requiere hacer este análisis.

El problema planteado en este trabajo es ¾Cómo determinar adecuadamente que tipo


de hipotiroidismo padece un paciente, a partir del dataset de hipotiroidismo para machine
learning proporcionado por la University of California at Irvine?. Este problema ha sido
abordado con distintas metodologías que implican el análisis inteligente de datos sobre este
mismo repositorio de datos [8] [9] [10] [11] [12] [13].

3. Análisis Exploratorio

3.1. Descripción de la base de datos

Se utilizó como fuente de datos la base de datos proporcionada a la University of California


at Irvine el 01-01-1987, por el Garvan Institute de Sydney, Australia, y J. Ross Quinlan del
New South Wales Institute, Sydney, Australia.
La base de datos consiste en un archivo de texto (allhypo.names) con las deniciones de
los atributos y sus tipos de datos, y un archivo de texto (allhypo.data) con los datos separados
por comas.
Esta base de datos consiste en un dataset de 2800 observaciones y 30 variables nominales
(booleanas o texto) y continuas. Contiene las fuentes, número y nombres de los atributos
(incluyendo los nombres de las clases) y los tipos de valores que cada atributo toma.
Presenta registros con datos faltantes, los que son denotados con el símbolo ?.

3
3.2. Descripción de clases y variables

A continuación se describe el nombre, tipo e información adicional de las variables pre-


sentes en la base de datos de enfermedad tiroidea del repositorio para machine learning UCI
utilizadas en este estudio descriptivo:

Cuadro 3.1: Descripción Variables

Variable Tipo Descripción y valores posibles


age Continua Edad del paciente: 1 a 94 años
sex.on.thyroxine Nominal Sexo biológico del paciente: M o F
query.on.thyroxine Nominal Si el paciente consultó por tiroxina: t o f 
Indica si el paciente está con medicación
on.antithyroid Nominal
antitiroidea al momento de la medición: t o f 
sick Nominal Indica si el paciente estaba enfermo al momento de la medición: t o f 
pregnant Nominal Indica si la paciente estaba embarazada al momento de la medición: t o f 
thyroid.surgery Nominal Indica si el paciente fue operado de la tiroides: t o f 
I131.treatment Nominal Indica si el paciente está en tratamiento con Yodo-131: t o f 
query.hypothyroid Nominal Si el paciente consultó por hipotiroidismo: t o f 
query.hyperthyroid Nominal Si el paciente consultó por hipertiroidismo: t o f 
lithium Nominal Indica si el paciente está en tratamiento con litio: t o f 
goitre Nominal Indica si el paciente padece bocio: t o f 
tumor Nominal Indica si el paciente tiene tumores en la tiroides: t o f 
hypopituitary Nominal Indica si el paciente padece hipopituitarismo: t o f 
psych Nominal Indica si el paciente padece enfermedades mentales: t o f 
TSH.measured Nominal Indica si se midió la hormona tiroestimulante en la sangre: t o f 
Medición de la cantidad de hormona
TSH Continua
tiroestimulante en la sangre: 0.005 a 478
T3.measured Nominal Indica si se midió la hormona triyodotironina en la sangre: t o f 
T3 Continua Medición de la cantidad de triyodotironina en la sangre: 0.05 a 10.6
TT4.measured Nominal Indica si se realizó la medición total de tiroxina en la sangre: t o f 
TT4 Continua Medición total de tiroxina en la sangre: 2 a 430
T4U.measured Nominal Indica si se realizó la medición de tasa de utilización de tiroxina: t o f 
T4U Continua Medición de la tasa de utilización de tiroxina: 0.31 a 2.12
FTI.measured Nominal Indica si se midió el índice de tiroxina libre en la sangre: t o f 
FTI Continua Medición del índice de tiroxina libre en la sangre: 2 a 395
TBG.measured Nominal Indica si se midió la globulina jadora de tiroxina en la sangre: t o f 
Medición de la globulina jadora de tiroxina en la sangre:
TBG Continua
no hay registros
Fuente de referencia del paciente: WEST, STMW,
referral.source Nominal
SVHC, SVI, SVHD, other
Diagnóstico posibles del paciente: hypothyroid, primary hypothyroid,
class Target
compensated hypothyroid, secondary hypothyroid y negative

La variable nominal sexo toma los valores F (femenino) y M (masculino). Las variables
nominales que toman valores t (true) o f  (false), signican presenta o no presenta la
característica determinada por la variable respectivamente.

4
3.3. Descripción univariante de variables

3.3.1. Datos faltantes


Se tiene un grupo de variables TSH, T3, TT4, T4U, FTI y TBG las cuales contienen más
de 100 datos faltantes por cada una, lo cual se explica por cómo se obtuvieron los datos de
estas variables, pues tenemos otro conjunto de variables TSH measured, T3 measured, TT4
measured, T4U measured, FTI measured, TBG measured que nos indican si el paciente se
midió o no se midió alguno de estos indicadores, es decir, si en T4U measured indica F
(False) en T4U no se tendrán valores (anexo 1).

La variable sex on thyroxine que corresponde al sexo del paciente tiene 110 datos fal-
tantes, por lo que más adelante se estudiará algún metodo de imputación (Anexo 2).

Las variables restantantes de la base no tienen problemas con datos faltantes.

3.3.2. Datos atípicos


Se encontró un dato atípico en la variable age que corresponde a la edad del paciente,
este dato muestra a un paciente con más de 300 años (Figura 3.1).

Figura 3.1: Boxplot Edad.

También se construyeron boxplot para encontrar datos atípicos para el grupo de variables
TSH, T3, TT4, T4U y FTI, donde se aprecian múltiples datos atípicos por cada una de estas
variables (Anexo 3 ), pero a diferencia que con la edad, aquí sí tienen sentido estos datos,
dado que las variables representan las mediciones de la cantidad de hormonas en la sangre y
como la data contienen mediciones tanto personas sanas que como enfermas, no es raro que
estas mediciones tengan un número elevadas.

5
3.3.3. Descripción de categorías datos nominales
En esta sección nos enfocaremos en encontrar las variables que contengan categorías con
una frecuencia pequeña, dado que categorías poco pobladas pueden afectar en futuros análisis.

Se realizó una tabla de frecuencias para observar qué tan pobladas están las categorías
de la variable class (Figura 3.2), en donde se encontró que la categoría negative contiene
un 92,1 % de la muestra y por otro extremo la categoría secondary hypothyroid contiene
sólo un 0,1 % de la muestra lo que equivale a 2 sujetos, esta información es de gran valor para
los análisis futuros dado que si buscamos encontrar algún comportamiento dentro de estas
categorías, una muy poco poblada no nos entregará gran valor.

Figura 3.2: Frecuecias de categorías diagnóstico.

También tenemos este mismo problema con la variable hypopituitary (Figura 3.3), dado
que de los 2799 sujetos de la muestra la categoría t (True) solo contiene un sujeto, por lo
que se eliminará esta variable, dado que no nos entrega variabilidad.

Figura 3.3: Frecuecias de categorías hypopituitary.

También debemos tener presente que el siguiente grupo de variables tienen una categoría
que está poblada con menos del 2 % (Anexo 4) de la población:

lithium

goitre

medication

pregnant

thyroid.surgery

I131.treatment

on.antithyroid

Pero no se eliminarán estas variables dado que la proporción de sujetos enfermos equivale
a un 7,9 % de la muestra total por lo que un 2 % de un 7,9 % de sujetos enfermos no puede

6
ser despreciable.

Las variables categóricas restantes tienen todas sus categorías pobladas con más de un
5 % de la muestras, por lo que no nos detendremos en estas.

3.3.4. Histogramas edades


Se gracó en histogramas las edades de los individuos presentes en la muestra (Figura 3.4
y Figura 3.5) para estudiar su distribución, separados por sexo:

Figura 3.4: Histograma edades Mujeres.

Figura 3.5: Histograma edades Hombres.

Se puede apreciar que las edades de los hombres en tienen una distribución más leptocúr-
tica en comparación al a distribución de las edades de las mujeres. También se observa que
las edades de las mujeres se acumulan entre los 50 y 75 años y los hombres tienen un pick
alrededor de los 50 años.

7
3.4. Descripción entre más de una variables

Podemos apreciar (Figura 3.6) que en general los pacientes con un alto índice de THS
tienen algún grado de hypothyroid, pero si observamos la dimensión de la edad (age) no se
logra detectar alguna diferencia en los diagnósticos de los pacientes.

Figura 3.6: Diagrama de dispersión Edad vs TSH.

Se realizaron dos análisis de varianza de un factor (ANEXO 1), donde el factor corresponde
a la variable Class de la que se midió THS y age. Para THS el análisis nos dice que con
un 99 % de conanza podemos armar que los grupos son distintos (diagnóstico), pero para
age no se puede armar que los grupos son distintos (ANEXO 2), lo que concuerda con el
gráco 2.

8
3.4.1. Niveles de hormonas vs diagnósticos
Se muestra en grácos de cajas los niveles de las hormonas T3, T4 y TSH vs los diagnósticos
de los individuos del set de datos.

Figura 3.7: Diagrama de dispersión Edad vs TSH.

Se observa que los niveles de la hormona T3 (Figura 3.7) son en general más bajos en los
individuos que presentan el diagnóstico de hipotiroidismo primario. Los individuos sanos en
cambio, están en el otro extremo, presentando niveles más altos de esta hormona.

Figura 3.8: Diagrama de dispersión Edad vs TSH.

Lo mismo ocurre con la hormona T4 (Figura 3.8), en la que también los diagnosticados con
hipotiroidismo primario presentan niveles más bajos de esta hormona. Los individuos sanos y
con hipotiroidismo compensado en cambio tienen niveles más altos de T4.

9
Figura 3.9: Diagrama de dispersión Edad vs TSH.

Por otro lado, los niveles de la hormona TSH son más altos en los diagnosticados con hipo-
tiroidismo primario (Figura 3.9), que en los diagnosticados con otros tipos de hipotiroidismo
e individuos sanos.

3.4.2. Edad versus diagnóstico positivo


Se compara grácamente la mediana de la edad de mujeres y hombres diagnosticados
positivos con hipotiroidismo, versus los tipos de diagnósticos positivos para esta enfermedad:

Figura 3.10: Diagrama de dispersión Edad vs TSH.

Se observa que el 50 % de las mujeres diagnosticadas con hipotiroidismo primario, tienen


la mediana de la edad en torno a los 50 años. Las mujeres con hipotiroidismo compensado en
cambio tienen la mediana de la edad un poco mayor a las diagnosticadas con hipotiroidismo
primario.

La proporción de mujeres diagnosticados positivos para algún tipo de hipotiroidismo con


respecto al total de mujeres en la muestra fue de 8,2.

10
Figura 3.11: Diagrama de dispersión Edad vs TSH.

Se observa que la mediana de la edad de los hombres diagnosticados con hipotiroidismo


primario, está en torno a los 60 años, y es muy levemente superior a la de los diagnosticados
con hipotiroidismo compensado, que también está en torno a esa edad. También se logra ob-
servar que el hipotiroidismo compensado tiene una mayor variabilidad que los diagnosticados
con hipotiroidismo primario, dado que este último tiene las colas más pequeñas y la caja es
de similares dimensiones.

La proporción de hombres diagnosticados positivos para algún tipo de hipotiroidismo con


respecto al total de hombres en la muestra fue de 6,2.

3.4.3. Matriz de correlación de variables continuas


Se muestra la matriz de correlación para las variables continuas (edad, índice de tiroxina
libre FTI, hormona triyodotironina T3, tasa de utilización de tiroxina T4U, tiroestimulante
TSH y total de tiroxina TT4) presentes en el data set:

Figura 3.12: Diagrama de dispersión Edad vs TSH.

Se observa que a medida aumenta la edad, disminuye la medición de hormonas como T3,
T4 (medida a través de TT4) y TSH en la sangre. También se observa que a medida aumenta
la cantidad de TSH medida en la sangre, disminuye la medición de T3 y T4. Lo mismo pa-
sa con el índice de tiroxina libre (FTI) que mide la función tiroidea, que también tiene una
relación inversa al aumentar la TSH. Sin embargo estas relaciones lineales e inversas no son
signicativas.

Se observa que hay una relación directa entre los valores de FTI y T3, y entre FTI y T4.

11
3.4.4. Gráco de dispersión entre FTI y TSH
Se muestra en un gráco de dispersión la relación entre las variables contínuas FTI y TSH
separados por sexos:

Figura 3.13: Diagrama de dispersión Edad vs TSH.

Figura 3.14: Diagrama de dispersión Edad vs TSH.

Se observa que para ambos sexos, en individuos con diagnóstico positivo para alguno de
los 3 tipos de hipotiroidismos estudiados y con baja función tiroidea (dada por la variable
FTI), los niveles de la hormona TSH tienden a ser más altos que en individuos sanos.

12
3.4.5. Consulta por enfermedad vs diagnóstico
Se muestra el gráco comparativo de diagnósticos positivos de la enfermedad, versus si la
persona consultó al médico por hipotiroidismo, para cada sexo:

Figura 3.15: Diagrama de dispersión Edad vs TSH.

Figura 3.16: Diagrama de dispersión Edad vs TSH.

Se observa en los grácos que tanto para hombres como para mujeres, la mayor cantidad
de diagnosticados con alguno de los 3 tipos de hipotiroidismos, no consultaron al médico por
esta enfermedad antes de ser diagnosticados. La mayor cantidad de estos casos ocurrió con
aquellas personas que padecían hipotiroidismo compensado, seguido en cantidad de aquellos
con hipotiroidismo primario.

13
3.4.6. Árbol de decisión descriptivo
Se generó un árbol de decisión con el propósito de describir la variables más importantes
que participan en la denición de la clase diagnóstico.

Figura 3.17: Diagrama de dispersión Edad vs TSH.

Se aprecia que el árbol generado tiene 4 niveles los cuales están conformados por las
siguientes variables en orden de importancia respecto a la variable class (Diagnóstico):

TSH

FTI

query.on.thyroxine

Las reglas de decisión para clasicar el diagnóstico de hipotiroidismo, son la cantidad de


la hormona TSH en la sangre (TSH>=6), el índice de tiroxina libre en la sangre (FTI>=64)
y la consulta por tiroxina.

Se testeó el árbol de decisión con una muestra Test para validar que realmente las
variables elegidas por el árbol están explicando el diagnóstico. Por medio de una matriz de
confusión se calculó el error de predicción del árbol que correspondía a un 25,25

14
4. Inferencial

4.0.1. Test de comparación de medias


Se realizó un test de comparación de medias entre los individuos del set de datos, separa-
dos por sexo y comparando sus niveles de hormonas T3, T4 y TSH.

La primera comparación entregó un valor de p<0.05 (0.0008221) por lo que se rechaza con
un 95 % de conabilidad la hipótesis nula, que las medias de T3 son iguales para ambos sexos,
siendo las mujeres quienes presentaban niveles más altos de T3 que los hombres (ver anexo 4).

La segunda comparación entregó un valor de p<0.05 (2.2e-16) por lo que se rechaza con
un 95 % de conabilidad la hipótesis nula, que las medias de TT4 son iguales para ambos
sexos, siendo las mujeres quienes presentaban niveles más altos de TT4 que los hombres.

La tercera comparación entregó un valor de p<0.05 (0.02701) por lo que se rechaza con un
95 % de conabilidad la hipótesis nula, que las medias de TSH son iguales para ambos sexos,
siendo las mujeres quienes presentaban niveles más altos de TSH que los hombres.

15
5. Conclusiones

A partir del estudio de la bibliografía se sabe que un indicador de hipotiroidismo po-


sitivo niveles de TSH altos en la sangre, esto lo comprobamos realizando diversos grácos
de dispersión, donde se aprecia que los niveles de TSH tanto los individuos diagnosticados
con hipotiroidismo primario y compensado tienen niveles superiores a los individuos sanos
(negativos), esto se puede deber a que cuando existe hipotiroidismo la hipósis secreta más
hormona TSH para tratar de estimular el funcionamiento de la tiroide .

Por otro lado, los niveles de hormonas T3 y T4 fueron menores en los individuos diag-
nosticados con hipertiroidismo primario a diferencia de los individuos sanos que presentaban
niveles de estas hormonas más altos que los otros diagnósticos. Esto puede deberse a que en
el hipotiroidismo la tiroides presenta una deciencia en la producción de T3 Y T4.

Se sabe que el hipotiroidismo compensado es una forma leve de hipotiroidismo que pre-
senta la misma alteración en la producción de hormonas que en el hipotiroidismo primario,
pero en menor grado, esto fue corroborado comparando los niveles de estas hormonas en la
sangre con el diagnóstico.

De acuerdo a la literatura y los resultados obtenidos las mujeres tienen una mayor pro-
babilidad de contraer hipotiroidismo que los hombres y además la mediana de la edad en
mujeres es menor que en hombres para esta enfermedad.

Otro aspecto que se puede corroborar de la literatura estudiada es que a medida que au-
menta la edad del individuo la hipósis presenta una hipofunción (disminución), por lo que
los niveles de las hormonas producidas por la tiroide baja, esto fue corroborado por medio de
la matriz de correlaciones.

Otra aspecto que se pudo comprobar es que el índice de tiroxina libre en la sangre (FTI),
el cual mide la función tiroidea es menor cuando la hormona TSH presenta niveles elevados,
esto podría explicarse porque cuando la glándula de la tiroide presenta una hipofunción el
organismo secreta más TSH para tratar de estimular su funcionamiento.

Un hallazgo no encontrado en la literatura es que tanto para hombres como mujeres que
presentan algún tipo de hipotiroidismo y no consultan al médico explícitamente por esta en-
fermedad presentan una mayor probabilidad de ser diagnosticados positivo que cuando sí lo
hacen, esto ocurre en mayor proporción en hipotiroidismo compensado que con el primario.

Por último se realizó un árbol de decisión con un objetivo descriptivo para identicar
variables relevantes para diagnosticar algún grado de hipotiroidismo, que nos arrojó que los
pacientes con niveles de TSH menores a 6 tienen una mayor probabilidad de ser diagnostica-
dos negativos para hipotiroidismo lo cual concuerda con la revisión bibliográca revisada que
indica que alto niveles de TSH en la sangre son un indicador de la enfermedad. Por otro lado
si tenemos valores de TSH mayores a 6 y índice de tiroxina libre en la sangre menores o igual
a 64 el diagnóstico de los pacientes es de hipotiroidismo primario esto también concuerda con
lo estudiado, ya que el hipotiroidismo primario es causado por una incapacidad de la glándula
tiroide para producir suciente cantidad de hormonas, es decir, un FTI bajo. Sí TSH es mayor

16
a 6 y FTI mayor a 64 y además el paciente no consulta por tiroxina es más probable que el
diagnóstico es hipotiroidismo compensado y si sí consulta es negativo, esta última regla no
fue encontrada en la literatura.

También se conrmó que las medias de las hormonas T3, T4 y TSH son mayores en las
mujeres que en los hombres, lo que en el caso de la TSH puede corroborar que las mujeres son
más propensas a contraer hipotiroidismo que los hombres.

Con respecto al problema se concluye que al incluir tantas variables en el diagnóstico es


necesario realizar un análisis inteligente de los datos para realizar un buen diagnóstico de
hipotiroidismo.

17
6. Referencias

18

Você também pode gostar