Escolar Documentos
Profissional Documentos
Cultura Documentos
FACULTAD DE INGENIERÍA
Departamento de Informática
Laboratorio 1
Inteligencia Computacional
Santiago - Chile
2018
Índice
1. Introducción 2
2. Descripción del problema 3
3. Análisis Exploratorio 3
3.1. Descripción de la base de datos . . . . . . . . . . . . . . . . . . . . . . . . . . 3
3.2. Descripción de clases y variables . . . . . . . . . . . . . . . . . . . . . . . . . 4
3.3. Descripción univariante de variables . . . . . . . . . . . . . . . . . . . . . . . 5
3.3.1. Datos faltantes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3.2. Datos atípicos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
3.3.3. Descripción de categorías datos nominales . . . . . . . . . . . . . . . . 6
3.3.4. Histogramas edades . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
3.4. Descripción entre más de una variables . . . . . . . . . . . . . . . . . . . . . . 8
3.4.1. Niveles de hormonas vs diagnósticos . . . . . . . . . . . . . . . . . . . 9
3.4.2. Edad versus diagnóstico positivo . . . . . . . . . . . . . . . . . . . . . 10
3.4.3. Matriz de correlación de variables continuas . . . . . . . . . . . . . . . 11
3.4.4. Gráco de dispersión entre FTI y TSH . . . . . . . . . . . . . . . . . . 12
3.4.5. Consulta por enfermedad vs diagnóstico . . . . . . . . . . . . . . . . . 13
3.4.6. Árbol de decisión descriptivo . . . . . . . . . . . . . . . . . . . . . . . 14
4. Inferencial 15
4.0.1. Test de comparación de medias . . . . . . . . . . . . . . . . . . . . . . 15
5. Conclusiones 16
6. Referencias 18
1
1. Introducción
La tiroides es una glándula ubicada en el cuello. Produce una serie de hormonas, de las
cuales 2 son importantes: la triyodotironina (T3) y la tiroxina (T4). Ambas ayudan a las
células a convertir oxígeno y calorías en energía, construir proteínas y regular la temperatura
del cuerpo, es decir ayudan a controlar el metabolismo del cuerpo [1].
Cuando la tiroides produce más o menos hormonas tiroideas que lo normal, se producen
las enfermedades hipertiroidismo e hipotiroidismo, respectivamente. El hipotiroidismo es una
baja actividad de la tiroides que tiene muchas causas: cirugías [2], exposición a radiación
ionizante [3], inamación crónica de la tiroides (autoinmune) [4], exceso o falta de yodo en la
dieta [5], falta de enzimas que permiten fabricar las hormonas tiroideas [6], y varios tipos de
medicación [7].
Los casos graves de enfermedades tiroideas pueden llevar a la muerte. Por lo mismo un
buen diagnóstico es fundamental para proveer el tratamiento adecuado al paciente que padece
esta enfermedad. En este sentido, determinar cuál tipo de hipotiroidismo tiene un paciente
ayuda a denir la terapia adecuada para su caso en particular.
2
2. Descripción del problema
El problema que enfrentan los médicos es la gran cantidad de datos necesaria para hacer
un buen diagnóstico, diagnósticos erróneos derivados del punto anterior y el gran esfuerzo
humano que requiere hacer este análisis.
3. Análisis Exploratorio
3
3.2. Descripción de clases y variables
La variable nominal sexo toma los valores F (femenino) y M (masculino). Las variables
nominales que toman valores t (true) o f (false), signican presenta o no presenta la
característica determinada por la variable respectivamente.
4
3.3. Descripción univariante de variables
La variable sex on thyroxine que corresponde al sexo del paciente tiene 110 datos fal-
tantes, por lo que más adelante se estudiará algún metodo de imputación (Anexo 2).
También se construyeron boxplot para encontrar datos atípicos para el grupo de variables
TSH, T3, TT4, T4U y FTI, donde se aprecian múltiples datos atípicos por cada una de estas
variables (Anexo 3 ), pero a diferencia que con la edad, aquí sí tienen sentido estos datos,
dado que las variables representan las mediciones de la cantidad de hormonas en la sangre y
como la data contienen mediciones tanto personas sanas que como enfermas, no es raro que
estas mediciones tengan un número elevadas.
5
3.3.3. Descripción de categorías datos nominales
En esta sección nos enfocaremos en encontrar las variables que contengan categorías con
una frecuencia pequeña, dado que categorías poco pobladas pueden afectar en futuros análisis.
Se realizó una tabla de frecuencias para observar qué tan pobladas están las categorías
de la variable class (Figura 3.2), en donde se encontró que la categoría negative contiene
un 92,1 % de la muestra y por otro extremo la categoría secondary hypothyroid contiene
sólo un 0,1 % de la muestra lo que equivale a 2 sujetos, esta información es de gran valor para
los análisis futuros dado que si buscamos encontrar algún comportamiento dentro de estas
categorías, una muy poco poblada no nos entregará gran valor.
También tenemos este mismo problema con la variable hypopituitary (Figura 3.3), dado
que de los 2799 sujetos de la muestra la categoría t (True) solo contiene un sujeto, por lo
que se eliminará esta variable, dado que no nos entrega variabilidad.
También debemos tener presente que el siguiente grupo de variables tienen una categoría
que está poblada con menos del 2 % (Anexo 4) de la población:
lithium
goitre
medication
pregnant
thyroid.surgery
I131.treatment
on.antithyroid
Pero no se eliminarán estas variables dado que la proporción de sujetos enfermos equivale
a un 7,9 % de la muestra total por lo que un 2 % de un 7,9 % de sujetos enfermos no puede
6
ser despreciable.
Las variables categóricas restantes tienen todas sus categorías pobladas con más de un
5 % de la muestras, por lo que no nos detendremos en estas.
Se puede apreciar que las edades de los hombres en tienen una distribución más leptocúr-
tica en comparación al a distribución de las edades de las mujeres. También se observa que
las edades de las mujeres se acumulan entre los 50 y 75 años y los hombres tienen un pick
alrededor de los 50 años.
7
3.4. Descripción entre más de una variables
Podemos apreciar (Figura 3.6) que en general los pacientes con un alto índice de THS
tienen algún grado de hypothyroid, pero si observamos la dimensión de la edad (age) no se
logra detectar alguna diferencia en los diagnósticos de los pacientes.
Se realizaron dos análisis de varianza de un factor (ANEXO 1), donde el factor corresponde
a la variable Class de la que se midió THS y age. Para THS el análisis nos dice que con
un 99 % de conanza podemos armar que los grupos son distintos (diagnóstico), pero para
age no se puede armar que los grupos son distintos (ANEXO 2), lo que concuerda con el
gráco 2.
8
3.4.1. Niveles de hormonas vs diagnósticos
Se muestra en grácos de cajas los niveles de las hormonas T3, T4 y TSH vs los diagnósticos
de los individuos del set de datos.
Se observa que los niveles de la hormona T3 (Figura 3.7) son en general más bajos en los
individuos que presentan el diagnóstico de hipotiroidismo primario. Los individuos sanos en
cambio, están en el otro extremo, presentando niveles más altos de esta hormona.
Lo mismo ocurre con la hormona T4 (Figura 3.8), en la que también los diagnosticados con
hipotiroidismo primario presentan niveles más bajos de esta hormona. Los individuos sanos y
con hipotiroidismo compensado en cambio tienen niveles más altos de T4.
9
Figura 3.9: Diagrama de dispersión Edad vs TSH.
Por otro lado, los niveles de la hormona TSH son más altos en los diagnosticados con hipo-
tiroidismo primario (Figura 3.9), que en los diagnosticados con otros tipos de hipotiroidismo
e individuos sanos.
10
Figura 3.11: Diagrama de dispersión Edad vs TSH.
Se observa que a medida aumenta la edad, disminuye la medición de hormonas como T3,
T4 (medida a través de TT4) y TSH en la sangre. También se observa que a medida aumenta
la cantidad de TSH medida en la sangre, disminuye la medición de T3 y T4. Lo mismo pa-
sa con el índice de tiroxina libre (FTI) que mide la función tiroidea, que también tiene una
relación inversa al aumentar la TSH. Sin embargo estas relaciones lineales e inversas no son
signicativas.
Se observa que hay una relación directa entre los valores de FTI y T3, y entre FTI y T4.
11
3.4.4. Gráco de dispersión entre FTI y TSH
Se muestra en un gráco de dispersión la relación entre las variables contínuas FTI y TSH
separados por sexos:
Se observa que para ambos sexos, en individuos con diagnóstico positivo para alguno de
los 3 tipos de hipotiroidismos estudiados y con baja función tiroidea (dada por la variable
FTI), los niveles de la hormona TSH tienden a ser más altos que en individuos sanos.
12
3.4.5. Consulta por enfermedad vs diagnóstico
Se muestra el gráco comparativo de diagnósticos positivos de la enfermedad, versus si la
persona consultó al médico por hipotiroidismo, para cada sexo:
Se observa en los grácos que tanto para hombres como para mujeres, la mayor cantidad
de diagnosticados con alguno de los 3 tipos de hipotiroidismos, no consultaron al médico por
esta enfermedad antes de ser diagnosticados. La mayor cantidad de estos casos ocurrió con
aquellas personas que padecían hipotiroidismo compensado, seguido en cantidad de aquellos
con hipotiroidismo primario.
13
3.4.6. Árbol de decisión descriptivo
Se generó un árbol de decisión con el propósito de describir la variables más importantes
que participan en la denición de la clase diagnóstico.
Se aprecia que el árbol generado tiene 4 niveles los cuales están conformados por las
siguientes variables en orden de importancia respecto a la variable class (Diagnóstico):
TSH
FTI
query.on.thyroxine
Se testeó el árbol de decisión con una muestra Test para validar que realmente las
variables elegidas por el árbol están explicando el diagnóstico. Por medio de una matriz de
confusión se calculó el error de predicción del árbol que correspondía a un 25,25
14
4. Inferencial
La primera comparación entregó un valor de p<0.05 (0.0008221) por lo que se rechaza con
un 95 % de conabilidad la hipótesis nula, que las medias de T3 son iguales para ambos sexos,
siendo las mujeres quienes presentaban niveles más altos de T3 que los hombres (ver anexo 4).
La segunda comparación entregó un valor de p<0.05 (2.2e-16) por lo que se rechaza con
un 95 % de conabilidad la hipótesis nula, que las medias de TT4 son iguales para ambos
sexos, siendo las mujeres quienes presentaban niveles más altos de TT4 que los hombres.
La tercera comparación entregó un valor de p<0.05 (0.02701) por lo que se rechaza con un
95 % de conabilidad la hipótesis nula, que las medias de TSH son iguales para ambos sexos,
siendo las mujeres quienes presentaban niveles más altos de TSH que los hombres.
15
5. Conclusiones
Por otro lado, los niveles de hormonas T3 y T4 fueron menores en los individuos diag-
nosticados con hipertiroidismo primario a diferencia de los individuos sanos que presentaban
niveles de estas hormonas más altos que los otros diagnósticos. Esto puede deberse a que en
el hipotiroidismo la tiroides presenta una deciencia en la producción de T3 Y T4.
Se sabe que el hipotiroidismo compensado es una forma leve de hipotiroidismo que pre-
senta la misma alteración en la producción de hormonas que en el hipotiroidismo primario,
pero en menor grado, esto fue corroborado comparando los niveles de estas hormonas en la
sangre con el diagnóstico.
De acuerdo a la literatura y los resultados obtenidos las mujeres tienen una mayor pro-
babilidad de contraer hipotiroidismo que los hombres y además la mediana de la edad en
mujeres es menor que en hombres para esta enfermedad.
Otro aspecto que se puede corroborar de la literatura estudiada es que a medida que au-
menta la edad del individuo la hipósis presenta una hipofunción (disminución), por lo que
los niveles de las hormonas producidas por la tiroide baja, esto fue corroborado por medio de
la matriz de correlaciones.
Otra aspecto que se pudo comprobar es que el índice de tiroxina libre en la sangre (FTI),
el cual mide la función tiroidea es menor cuando la hormona TSH presenta niveles elevados,
esto podría explicarse porque cuando la glándula de la tiroide presenta una hipofunción el
organismo secreta más TSH para tratar de estimular su funcionamiento.
Un hallazgo no encontrado en la literatura es que tanto para hombres como mujeres que
presentan algún tipo de hipotiroidismo y no consultan al médico explícitamente por esta en-
fermedad presentan una mayor probabilidad de ser diagnosticados positivo que cuando sí lo
hacen, esto ocurre en mayor proporción en hipotiroidismo compensado que con el primario.
Por último se realizó un árbol de decisión con un objetivo descriptivo para identicar
variables relevantes para diagnosticar algún grado de hipotiroidismo, que nos arrojó que los
pacientes con niveles de TSH menores a 6 tienen una mayor probabilidad de ser diagnostica-
dos negativos para hipotiroidismo lo cual concuerda con la revisión bibliográca revisada que
indica que alto niveles de TSH en la sangre son un indicador de la enfermedad. Por otro lado
si tenemos valores de TSH mayores a 6 y índice de tiroxina libre en la sangre menores o igual
a 64 el diagnóstico de los pacientes es de hipotiroidismo primario esto también concuerda con
lo estudiado, ya que el hipotiroidismo primario es causado por una incapacidad de la glándula
tiroide para producir suciente cantidad de hormonas, es decir, un FTI bajo. Sí TSH es mayor
16
a 6 y FTI mayor a 64 y además el paciente no consulta por tiroxina es más probable que el
diagnóstico es hipotiroidismo compensado y si sí consulta es negativo, esta última regla no
fue encontrada en la literatura.
También se conrmó que las medias de las hormonas T3, T4 y TSH son mayores en las
mujeres que en los hombres, lo que en el caso de la TSH puede corroborar que las mujeres son
más propensas a contraer hipotiroidismo que los hombres.
17
6. Referencias
18