Você está na página 1de 14

GESTION DE DISPONIBILIDAD 1.

-DEFINICION

Definir, analizar, planificar, medir y mejorar la disponibilidad de servicios de TI en todos los aspectos. La Gestin de la Disponibilidad se encarga de asegurar que la infraestructura, los procesos, las herramientas y las funciones de TI sean adecuados para cumplir con los objetivos de disponibilidad propuestos. Optimizacin del uso de los recursos de TI, anticipa fallos esperados, mientras asegura los requerimientos necesarios por el negocio. La Gestin de Disponibilidad es esencial para asegurar la provisin de los Niveles de Servicio correctos, y as impactar positivamente en los objetivos del negocio. La Gestin efectiva de la Disponibilidad impacta directamente en la satisfaccin del Cliente y en la reputacin del Negocio Las responsabilidades de la Gestin de la Disponibilidad incluyen:

Determinar los requisitos de disponibilidad en estrecha colaboracin con los clientes. Garantizar el nivel de disponibilidad establecido para los servicios TI. Monitorizar la disponibilidad de los sistemas TI. Proponer mejoras en la infraestructura y servicios TI con el objetivo de aumentar los niveles de disponibilidad. Supervisar el cumplimiento de los OLAs y UCs acordados con proveedores internos y externos.

La disponibilidad y la no disponibilidad son los indicadores principales de la calidad que el usuario percibe. La disponibilidad esta documentada en la certeza y en el mantenimiento de los componentes de la infraestructura. La disponibilidad esta en manos de la: Resistencia: habilidad de seguir funcionando despus de que uno o mas de sus componentes han fallado. la Seguridad: Confidencialidad, Integridad y Disponibilidad de los datos la Certeza de: capacidad de un componente en regresar a un estado en el que se proporcione la funcionalidad estndar.

Capacidad de Servicio: determina la disponibilidad de los servicios internos y externos contratados y su adecuacin a los OLAs y UCs en vigor. Cuando un servicio TI es subcontratado en su totalidad la disponibilidad y la capacidad de servicio son trminos equivalentes.

Mantenimiento: las actividades necesarias para mantener el servicio en operacin y para restituirlo cuando falla. La Gestin de Disponibilidad definir las funciones vitales del negocio y medir la disponibilidad y el comportamiento de la infraestructura TI para crear un Plan de Disponibilidad e implementar una estrategia para la disponibilidad. MEDICIONES DE LA DISPONIBILIDAD: -Tiempo medio de reparacin (MTTR) -Tiempo medio entre fallos(MTBF) -Tiempo medio entre incidencias del sistema(MTBSI)

La disponibilidad depende del correcto diseo de los servicios TI, la fiabilidad de los CIs involucrados, su correcto mantenimiento y la calidad de los servicios internos y externos acordados. Los principales beneficios de una correcta Gestin de la Disponibilidad son:

Cumplimiento de los niveles de disponibilidad acordados. Se reducen los costes asociados a un alto nivel de disponibilidad. El cliente percibe una mayor calidad de servicio. Se aumentan progresivamente los niveles de disponibilidad. Se reduce el nmero de incidentes.

Las principales dificultades con las que topa la Gestin de la Disponibilidad son:

No se monitoriza correctamente la disponibilidad real del servicio. No existe compromiso con el proceso dentro de la organizacin TI. No se dispone de las herramientas de software y personal adecuado. Los objetivos de disponibilidad no estn alineados con las necesidades del cliente. Falta de coordinacin con los otros procesos. Los proveedores internos y externos no reconocen la autoridad del Gestor de la Disponibilidad por falta de apoyo de la direccin.

2.-PROCESO Entre las actividades que la Gestin de la Disponibilidad se encuentran:


Determinar cuales son los requisitos de disponibilidad reales del negocio. Desarrollar un plan de disponibilidad donde se estimen las necesidades de disponibilidad futura a corto y medio plazo.

Mantenimiento del servicio en operacin y recuperacin del mismo en caso de fallo. Realizar diagnsticos peridicos sobre la disponibilidad de los sistemas y servicios. Evaluar la capacidad de servicio de los proveedores internos y externos. Monitorizar la disponibilidad de los servicios TI. Elaborar informes de seguimiento con la informacin recopilada disponibilidad, fiabilidad, matenibilidad y cumplimiento de OLAs y UCs. Evaluar el impacto de las polticas de seguridad en la disponibilidad. Asesorar a la Gestin del Cambio sobre el posible impacto de un cambio en la disponibilidad. sobre

El proceso ITIL de Gestion de la disponibilidad abarca los siguientes subprocesos. Diseo del Servicio para DisponibilidadObjetivo Procesal: Configurar tcnicas y procedimientos para cumplir con los objetivos de disponibilidad propuestos. Pruebas de la DisponibilidadObjetivo Procesal: Asegurar que todos los mecanismos de disponibilidad, resistencia y recuperacin sean objeto de pruebas frecuentes. Monitorizacin e Informes de la DisponibilidadObjetivo Procesal: Proveer otros procesos de Gestin de Servicios y la direccin de TI con informacin relacionada con la disponibilidad de servicios y componentes. Esto implica comparar logros de disponibilidad con las metas iniciales e identificar aquellas reas donde la disponibilidad necesita mejorar.

REQUISITOS

Es indispensable cuantificar los requisitos de disponibilidad para la correcta elaboracin de losSLAs. La disponibilidad propuesta debe encontrase en lnea tanto con los necesidades reales del negocio como con las posibilidades de la organizacin TI. Aunque en principio todos los clientes estarn de acuerdo con unas elevadas cotas de disponibilidad es importante hacerles ver que una alta disponibilidad puede generar unos costes injustificados dadas sus necesidades reales. Quiz unas pocas horas sin un determinado servicio pueden representar poco ms all de una pequea inconveniencia mientras que la certeza de un servicio prcticamente continuo y sin interrupciones puede requerir la replicacin de sistemas u otras medidas igualmente costosas que no van a tener una repercusin real en la rentabilidad del negocio. Para llevar a cabo eficientemente est tarea es necesario que la Gestin de la Disponibilidad:

Identifique las actividades clave del negocio. Cuantifique los intervalos razonables de interrupcin de los diferentes servicios dependiendo de sus respectivos impactos. Establezca los protocolos de mantenimiento y revisin de los servicios TI. Determine las franjas horaria de disponibilidad de los servicios TI (24/7, 12/5,

-PLANIFICACION La correcta planificacin de la disponibilidad permite establecer unos niveles de disponibilidad adecuados tanto en lo que respecta a las necesidades reales del negocio como a las posibilidades de la organizacin TI. El documento que debe recoger los objetivos de disponibilidad presentes y futuros y que medidas son necesarias para su cumplimiento es el Plan de Disponibilidad. Este plan debe recoger:

La situacin actual de disponibilidad de los servicios TI. Obviamente esta informacin debe ser actualizada peridicamente. Herramientas para la monitorizacin de la disponibilidad. Mtodos y tcnicas de anlisis a utilizar. Definiciones relevantes y precisas de las mtricas a utilizar. Planes de mejora de la disponibilidad. Expectativas futuras de disponibilidad.

Es imprescindible que este plan proponga los cambios necesarios para que se cumplan los estndares previstos y colabore con la Gestin de Cambios y la Gestin de Versiones en su implementacin (en caso de ser aprobados, claro est).

Para que este plan sea realista debe contar con la colaboracin de los otros procesos TI involucrados. Diseo para la Disponibilidad Es crucial para una correcta Gestin de la Disponibilidad participar desde el inicio en el desarrollo de los nuevos servicios TI de forma que estos cumplan los estndares plasmados en el Plan de Disponibilidad. Un diferente nivel de disponibilidad puede requerir cambios drsticos en los recursos utilizados o en las actividades necesarias para suministrar un determinado servicio TI. Si ste se disea sin tener en cuenta futuras necesidades de disponibilidad puede ser necesario un completo rediseo al cabo de poco tiempo, incurriendo en costes adicionales innecesarios.

-MANTENIMIENTO Y SEGURIDAD Aunque hayamos realizado un correcto diseo de los servicios segn el Plan de Disponibilidad y se hayan tomado todas las medidas preventivas necesarias, tarde o temprano, nos habremos de enfrentar a interrupciones del servicio. En esos casos es necesario recuperar el servicio lo antes posible para que no tenga un efecto indeseado sobre los niveles de disponibilidad acordados. Aunque la responsabilidad de restaurar el servicio corresponde a la Gestin de Incidentes y las actividades de recuperacin han de ser coordinadas por el Service Desk, la Gestin de la Disponibilidad debe prestar su asesoramiento mediante planes de recuperacin que tengan en cuenta:

Las necesidades de disponibilidad del negocio. Las implicaciones del incidente en la infraestructura TI y los procesos necesarios para restaurar el servicio.

Gestin de las Interrupciones de Mantenimiento Independientemente de las interrupciones del servicio causadas por incidencias es habitualmente necesario interrumpir el servicio para realizar labores de mantenimiento y/o actualizacin. Estas interrupciones programadas pueden afectar a la disponibilidad del servicio y por lo tanto han de ser cuidadosamente planificadas para minimizar su impacto. En aquellos casos en que los servicios no son 24/7 es obvio que, siempre que ello sea posible, deben aprovecharse las franjas horarias de inactividad para realizar las tareas que implican una degradacin o interrupcin del servicio. Si el servicio es 24/7 y la interrupcin es necesaria se debe:

Consultar con el cliente en que franja horaria la interrupcin del servicio afectar menos a sus actividades de negocio. Informar con la antelacin suficiente a todos los agentes implicados. Incorporar dicha informacin a los SLAs.

Seguridad Uno de los aspectos esenciales para obtener altos niveles de fiabilidad y disponibilidad es una correcta Gestin de la Seguridad. Los aspectos relativos a la seguridad deben ser tomados en cuenta en todas las etapas del proceso. Es tan importante determinar cundo el servicio estar disponible como el "quin y cmo" va a utilizarlo. La disponibilidad y seguridad son interdependientes y cualquier fallo en una de ellas afectar gravemente a la otra.

-MONITORIZACION La monitorizacin de la disponibilidad del servicio y la elaboracin de los informes correspondientes son dos de las principales actividades de la Gestin de la Disponibilidad. Desde el momento de la interrupcin del servicio hasta su restitucin o "tiempo de parada" el incidente pasa por distintas fases que deben ser individualizadamente analizadas:

Tiempo de deteccin: es el tiempo que transcurre desde que ocurre el fallo hasta que la organizacin TI tiene constancia del mismo. Tiempo de respuesta: es el tiempo que transcurre desde la deteccin del problema hasta que se realiza un registro y diagnstico del incidente. Tiempo de reparacin/recuperacin: periodo de tiempo utilizado para reparar el fallo o encontrar un "workaround" o solucin temporal al mismo y devolver el sistema a la situacin anterior a la interrupcin del servicio.

Es importante determinar mtricas que permitan medir con precisin las diferentes fases del ciclo de vida de la interrupcin del servicio. El cliente debe conocer estas

mtricas y dar su conformidad a las mismas para evitar malentendidos. En algunos casos es difcil determinar si el sistema est "cado o en funcionamiento" y la interpretacin puede diferir entre proveedores y clientes, por lo tanto, ests mtricas deben de poder expresarse en trminos que el cliente pueda entender. Algunos de los parmetros que suele utilizar la Gestin de la Disponibilidad y que debe poner a disposicin del cliente en los informes de disponibilidad correspondientes incluyen:

Tiempo Medio de Parada (Downtime) : que es el tiempo promedio de duracin de una interrupcin de servicio, e incluye el tiempo de deteccin, respuesta y resolucin. Tiempo Medio entre Fallos (Uptime): es el tiempo medio durante el cual el servicio esta disponible sin interrupciones. Tiempo Medio entre Incidentes: es el tiempo medio transcurrido entre incidentes que es igual a la suma del Tiempo Medio de Parada y el Tiempo Medio entre Fallos. El Tiempo Medio entre Incidentes es una medida de la fiabilidad del sistema.

-METODOS T TECNICAS Aunque llevamos hablando ya un buen rato de disponibilidad an no hemos aportado un mtodo para cuantificarla. Es habitual definir la disponibilidad en tanto por ciento de la siguiente manera:

donde: AST se corresponde con el tiempo acordado de servicio, DT es el tiempo de interrupcin del servicio durante las franjas horarias de disponibilidad acordadas. Por ejemplo, si el servicio es 24/7 y en el ltimo mes el sistema ha estado cado durante 4 horas por tareas de mantenimiento la disponibilidad real del servicio fue:

La Gestin de la Disponibilidad tiene a su disposicin un buen nmero de mtodos y tcnicas que le permiten determinar que factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever que tipo de recursos se deben asignar para las labores de prevencin, mantenimiento y recuperacin, as como elaborar planes de mejora a partir de dichos anlisis.

Entre dichas tcnicas se cuentan: CFIA Que son las siglas de Component Failure Impact Analysis (Anlisis del Impacto de Fallo de Componentes). Mediante est metodo se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuracin involucrado. Es evidente que este mtodo requiere una CMDB correctamente actualizada. FTA Que son las siglas de Failure Tree Analysis (Anlisis del rbol de Fallos). Su objetivo es estudiar como se "propagan" los fallos a traves de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio. CRAMM Que son las siglas de CCTA Risk Analysis and Management Method (Mtodo de Gestin y Anlisis de Riesgos de la CCTA). Su objetivo es identificar los riesgos y vulnerabilidades a los que se haya expuesta la infraestructura TI con el objetivo de adoptar contramedidas que los reduzcan o que permitan recuperar rpidamente el servicio en caso de interrupcin del mismo. SOA Que son las siglas de Service Outage Analysis (Anlisis de Interrupcin del Servicio). sta tcnica tiene como objetivo analizar las causas de los fallos detectados y proponer soluciones a los mismos. Se diferencia de los anteriores mtodos en que realiza el anlisis desde el punto de vista del cliente haciendo especial nfasis en aspectos no exclusivamente tcnicos ligados directamente a la infraestructura TI.

3.-CONTROL DEL PROCESO La Gestin de la Disponibilidad debe elaborar peridicamente informes sobre su gestin que incluyan informacin relevante tanto para los clientes como para el resto de la organizacin TI. Estos informes deben incluir:

Tcnicas y mtodos utilizados para la prevencin y el anlisis de fallos. Informacin estadstica sobre:
o

Tiempos de deteccin y respuesta a los fallos.

o o

Tiempos de reparacin y recuperacin del servicio. Tiempo medio de servicio entre fallos.

Disponibilidad real de los diferentes servicios. Cumplimiento de los SLAs en todo lo referente a la disponibilidad y fiabilidad del servicio. Cumplimiento de los OLAs y UCs en todo lo referente a la capacidad de servicio prestada por los proveedores internos y externos.

Para que toda esta informacin sea fcil y correctamente analizada es imprescindible el establecimiento de mtricas precisas que permitan determinar de forma inequvoca parmetros tales como tiempos de parada y funcionamiento. Por ejemplo, en el caso de un servicio online de comercio electrnico se puede considerar que tiempos de respuesta superiores a 10 segundos son equivalentes a que el sistema esta cado, aunque estrictamente hablando el sistema termine respondiendo. Caso Prctico La disponibilidad 12/7 es algo a lo que los clientes de "Cater Matters" otorgan una gran importancia. Los servicios TI slo juegan una pequea, aunque importante, parte en los servicios prestados por la organizacin a sus clientes y los problemas de disponibilidad suelen proceder de procesos no directamente ligados con la tecnologa. Sin embargo, una interrupcin de los servicios online pueden presuponer un grave problema dado el alto volumen de pedidos que se reciben por dicho canal, la prctica totalidad, as como su importancia en el apartado de la gestin de stocks de materia prima. La Gestin de la Disponibilidad, en colaboracin con los responsables de otros procesos TI ha sido encargada de elaborar nuevos planes de disponibilidad que tengan en cuenta un rpido crecimiento del negocio que puede implicar una disponibilidad 24/7 para diferentes lneas de negocio. La elaboracin de este nuevo plan requiere:

La revisin de los UCs en vigor con los proveedores de servicios de Internet. Definicin de niveles de disponibilidad para los nuevos servicios. Diseo para la disponibilidad 24/7 de los servicios TI ofrecidos. Nuevos planes de gestin del mantenimiento que ahora requerirn una interrupcin real del servicio.

Por otro lado, la gestin de "Cater Matters" ha decidido informar peridicamente a sus clientes sobre los niveles de rendimiento y disponibilidad de los diferentes servicios prestados. Para ello ha encargado a la Gestin de la Disponibilidad que implante los procedimientos necesarios para la medicin del:

Tiempo transcurrido entre incidentes. Tiempo de parada del servicio.

Tiempo de respuesta para cada incidente. Retraso en el la entrega del servicio.

Que se complementarn con un mdulo de clculo estadstico y de generacin automtica de informes sobre el cumplimiento de los niveles de disponibilidad acordados para cada cliente. De esta forma "Cater Matters" busca entablar una relacin de confianza con sus clientes y mantener a la organizacin TI alerta sobre posibles degradaciones de los niveles de calidad del servicio.

5.-ACTIVIDADES -PLANIFICACION -MONITORIZACION 6.-CONTROL -TIEMPO DE DETECCION -TIEMPO DE RESPUESTA -TIEMPO DE REPARACION -TIEMPO DE RECUPERACION -TIEMPO DEL PROCESADO DE IMPLEMENTACION -USO EXITOSO DE LOS METODOS Y TECNICAS DE DISPONIBILIDAD 7.-COSTES 7.-ROL GESTOR DE DISPONIBILIDAD 7.1.- ANALISIS DE DISPONIBILIDAD 7.2.-GESTION DE DISPONIBILIDAD DE BASE DE DATOS 7.3.- SERVIDORES: -APLICACIONES -DOMINIO -OFIMATICA -CORREO

7.4.-SISTEMAS OPERATIVOS DE SERVIDORES, MQUINAS VIRTUALES,ETC 7.5.-GESTION DE ALTA DISPONIBILIDAD 8.-ENTRADAS Y SALIDAS 9.-METRICAS

REF A B C D E H I L O P Q

MTRICAS OPERATIVAS Total costes no planificados relacionados con la disponibilidad Nmero total de incidentes Nmero total de incidentes impacto sobre el cliente Disponibilidad total en minutos de todos los servicios entregados No disponibilidad total en minutos de todos los servicios entregados Nmero total de objetivos de servicio de proveedor interno Nmero total de objetivos de servicio de proveedor externo Nmero de incidencias relacionadas con seguridad Nmero de servicios en el catlogo de servicios Nmero de servicios no cubiertos por un plan activo de disponibilidad Nmero de servicios sin revisin de disponibilidad los ltimos tres meses

(KPI) Key Performance Indicators o Indicadores Clave de Desempeo

REF 1 2 3 4 5

KPI Total costes no planificados relacionados con disponibilidad. ndice de recuperacin de disponibilidad Promedio de fiabilidad ndice de vulnerabilidad de seguridad ndice de mejora continua de disponibilidad

CLCULO A 1-(C/B) 1-(E/D) L/B 1-(Q/O)

10.-CALCULOS DE PORCENTAJE DE DISPONIBILIDAD


La disponibilidad es usualmente expresada como un porcentaje del tiempo de funcionamiento en un ao dado. En un ao dado, el nmero de minutos de tiempo de inactividad no planeado es registrado para un sistema. Valores comunes de disponibilidad, tpicamente enunciado como nmero de "nueves" para sistemas altamente disponibles son: 99,9% = 43.8 minutos/mes u 8,76 horas/ao ("tres nueves") 99,99% = 4.38 minutos/mes o 52.6 minutos/ao ("cuatro nueves") 99,999% = 0.44 minutos/mes o 5.26 minutos/ao ("cinco nueves")

Es de hacer notar que tiempo de funcionamiento y disponibilidad no son sinnimos. Un sistema puede estar en funcionamiento y no disponible como en el caso de un fallo de red.

11.-MTODOS Y TCNICAS DE DISPONIBILIDAD


Disponibilidad en tanto por ciento:

dnde: AST se corresponde con el tiempo acordado de servicio. DT es el tiempo de interrupcin del servicio durante las franjas horarias de disponibilidad acordadas. Ejemplo: Si el servicio es 24/7 y en el ltimo mes el sistema ha estado cado durante 4 horas por tareas de mantenimiento la disponibilidad real del servicio fue:

La Gestin de la Disponibilidad tiene a su disposicin un buen nmero de mtodos y tcnicas que le permiten determinar qu factores intervienen en la disponibilidad del servicio y que le permiten consecuentemente prever qu tipo de recursos se deben asignar para las labores de prevencin, mantenimiento y recuperacin, as como elaborar planes de mejora a partir de dichos anlisis.

Tcnicas: SOA Que son las siglas de Service Outage Analysis (Anlisis de Interrupcin del Servicio). sta tcnica tiene como objetivo analizar las causas de los fallos detectados y proponer soluciones a los mismos. Se diferencia de los anteriores mtodos en que realiza el anlisis desde el punto de vista del cliente haciendo especial nfasis en aspectos no exclusivamente tcnicos ligados directamente a la infraestructura TI. FTA Que son las siglas de Failure Tree Analysis (Anlisis del rbol de Fallos). Su objetivo es estudiar cmo se "propagan" los fallos a travs de la infraestructura TI para comprender mejor su impacto en la disponibilidad del servicio. CFIA Que son las siglas de Component Failure Impact Analysis (Anlisis del Impacto de Fallo de Componentes). Mediante est mtodo se identifica el impacto que tiene en la disponibilidad de los servicios TI el fallo de cada elemento de configuracin involucrado. Es evidente que este mtodo requiere una CMDB correctamente actualizada.

Você também pode gostar