1         Generalidades de Diagnóstico

 

Capacidad de Diagnóstico de problemas en investigaciones de causas de los incidentes reportados

 

Objetivo:

 

Cumplir con las regulaciones de la normativa de TI que permita contextualmente seguir indagando las causas de un problema detectado por el sistema de monitoreo hasta encontrar el servidor, servidores o circunstancia causantes de un incidente que comprometa la continuidad del negocio.

 

 

1.       La herramienta cuenta con una integración contextual completa de forma tal que una vez identificado un incidente por el software de detección, desde el contexto del incidente se dispare el software de diagnóstico pertinente al servidor que presenta el problema con información detallada de éste que permita encontrar la causa.  La integración de ambas herramientas, a saber detección y diagnóstico es sumamente importante para la institución puesto de ello depende la eficacia de la solución de los problemas.

 

2.       Se requiere que exista un bajo impacto en el proceso de diagnóstico por lo que el fabricante del software de diagnóstico indica en promedio no más de 3% de los recursos del servidor solicitado a diagnosticar.

 

3.       El software de diagnóstico presenta en forma lo más gráfica posible todas las mediciones de los componentes del servidor en análisis en forma integral utilizando tablas, gráficos de barras, pies, histogramas, etc.

 

4.       El software de diagnóstico indica por medio de colores distinguidos u otros medios visualmente llamativos, las partes alertadas del servidor diagnosticado y la gravedad de la alarma detectada. 

 

5.       El software provee un mecanismo coherente y secuencial que amplía la información suministrada de cada componente suministrando información adicional por medio del uso  de gráficos, tablas, histogramas, simulaciones, u otros medios, de forma tal que permite identificar en forma univoca la causa de un problema existente en cualquier componente mostrado por la herramienta.

 

6.       La herramienta de diagnóstico viene programado de fábrica o sea entregado totalmente configurado con los umbrales recomendados como "normales" para cada uno de los componentes del servidor solicitado recomendados por las buenas practicas del fabricante del software monitoreado o el fabricante del software para así obtener una solución que provea resultados en forma efectiva y eficaz de la herramienta.

 

7.       Permite modificar estos umbrales desde una interfase gráfica en forma simple para ajustar las fronteras de cada uno de los grados de severidad de las alarmas. Este proceso puede hacerlo el usuario sin herramientas adicionales o programación alguna.

 

8.       El software de diagnóstico cuenta con un mecanismo de validación de las buenas prácticas recomendadas por el fabricante del servidor (Sistema Operativo, Correo Electrónico, Base de Datos, Servidor de Internet, Servidor de Aplicaciones, etc) para saber si existe o no violación de las mismas en el proceso de diagnóstico para cada servidor solicitado.

8.

Es importante señalar que el alcance de este mecanismo de verificación, la forma en que se mantiene actualizado y la integración con que cuenta con las bases de datos públicas de soporte del fabricante del servidor a diagnosticar, del fabricante de la herramienta y de terceros.

 

9.       El software cuenta con un registro histórico de las alarmas encontradas en los servidores solicitados con una capacidad de al menos una semana. Estas bitácoras son independientes por servidor o plataforma tecnológica; La herramienta permite correlacionar la información de varios servidores solicitados simultáneamente en la misma herramienta.

 

10.   El software permite el diagnóstico de varios servidores simultáneamente.

 

11.   El software de diagnóstico permite conectarse a varias versiones del servidor solicitado simultáneamente. (ej. Diferentes versiones de bases de datos, diferentes versiones de Sistemas Operativos, diferentes versiones de Servidores Internet, servidores de bases de datos, servidores de aplicaciones, etc.).

 

12.   La herramienta de diagnóstico cuenta con un mecanismo de ayuda en línea contextual para asistir en el proceso de diagnóstico.

 

Los siguientes puntos son en cada caso, el alcance de esta ayuda en cada herramienta:

 

a.       Básica de utilización propia de la herramienta

b.       Indicación de causas usuales de los problemas

c.       Indicación de procedimientos usuales de diagnóstico

d.       Base de datos de conocimiento sobre metodologías y teoría asociada

e.       Manuales en línea del servidor diagnosticado

f.         Referencias expresas a bases de datos de conocimiento del fabricante

g.       Inclusión de conocimiento de nuestra institución a problemas propios

 

 

13.   La herramienta para el diagnóstico permite el monitoreo a tiempo real del servidor solicitado y existe un proceso de captura de información y diagnóstico de la misma en batch.

 

14.   El software de diagnóstico permite la ejecución de mecanismos automáticos de solución a problemas conocidos por medio de la ejecución de scripts, programas en lenguajes de programación conocidos y otros mecanismos.

 

15.   El software de diagnóstico permite la notificación por medio de:

 

a.       Mensajes de correo electrónico

b.       Mensajes vía Beeper o Mensajes Textuales a teléfonos celulares

c.       señales audibles (beep)

d.       Mensajes a través de la red

e.       Reproducción de frases tipo "Wav" o similares

 

16.   El software de diagnóstico permite almacenar el estado del servidor monitoreado y reproducir posteriormente un estado histórico para simplificar el diagnóstico de problemas ocurridos en el pasado próximo (período menor a una semana). Esta característica se realiza en intervalos fijos de tiempo y es iniciada automáticamente al ser detectado un problema de una severidad predefinida a voluntad del usuario.

 


1.1.1        Áreas de cumplimiento específicas

 

Sistema Operativo Windows

 

El software puede diagnosticar problemas en los siguientes componentes que se enumeran a continuación:

 

·         Sistema operativo del Servidor

o        Tipo de Sistema Operativo

o        Versión del Sistema Operativo Instalado

o        Último Service Pack Instalado

 

·         Red de Comunicaciones

o        Numero de Usuarios conectados

o        Número de Sesiones abiertas

o        Ancho de Banda teórico entregado por el Servidor a los usuarios

o        Total de paquetes recibidos y enviados por el servidor

o        Errores de Transmisión de las tarjetas de Red del servidor

o        Puertos de Comunicación

·         Protocolo utilizado

·         Host Local

·         Número de Puertos

·         Host Remoto

·         Estatus de Comunicación

 

·         Bitácora de Eventos del Sistema Operativo

o        Filtraje de eventos y asignación correspondiente de alarma  en el software de diagnóstico con un grado definido de criticidad para cada evento tipificado en las bitácoras.

·         CPU

o        Número de CPU´s

o        Velocidad de Procesamiento

o        Tipo de CPU instalado

o        Tiempo de operación continua del Procesador

o        Utilización del CPU

o        Longitud de la cola de Procesos

 

·         Procesos Activos

o        Identificador del Proceso

o        % de uso del CPU

o        Utilización de Memoria Física

o        Utilización de Memoria Virtual

o        Tiempo Total en espera

o        Lista de Hilos (Threads activos de los procesos)

o        Capacidad para monitoreo de un proceso específico

 

·         Servicios

o        Nombre del Servicio

o        Estado (Activo, Inactivo)

o        Tipo de Servicio

o        Tipo de Control del Servicio

 

·         Memoria

o        Cantidad de Memoria Física instalada

o        Cantidad de Memoria Virtual habilitada

o        Porcentaje de Memoria libre Física y Virtual

o        Cantidad de Paginas encontradas en Memoria

o        Porcentaje de paginas encontradas en Memoria

o        Total de Memoria virtual utilizada

 

·         Discos

o        Total de discos instalados

o        Capacidad de cada disco instalado

o        Espacio libre de cada disco


1.1.2        Bases de Datos

1.      Microsoft SQL Server

 

El software diagnostica problemas en los siguientes componentes que se enumeran a continuación:

 

1.       Resumen de las Sesiones de la base de datos.

 

·         Número de sesiones activas

·         Número de computadores conectados

·         Tiempo de respuesta de la base de datos

·         Total de procesos ejecutándose en la base de datos

·         Número de Procesos del sistema

·         Número de Procesos de usuarios

·         Número de procesos bloqueados

·         Consumo total del CPU

·         Errores en las bitácoras del SQL Server

 

2.       Detalle de las Sesiones de la base de datos.

 

·         Usuario de SQL Server

·         Dominio de Windows

·         Usuario de Windows

·         Estatus ( corriendo, background, durmiendo)

·         Base de datos utilizada

·         Porcentaje CPU utilizado

·         Porcentaje de Disco (E/S) utilizado

·         Tiempo de espera

·         Nombre del programa ejecutándola

·         Sesión de usuario o del sistema

·         Última consulta ejecutada contra la base de datos

·         "Explain plan" de la ultima consulta ejecutada

·         Bloqueos sufridos por la sesión

·         Sesiones provocando el bloqueo

·         Capacidad de seguimiento de la ejecución de la sesión

 

3.       Resumen de las Sesiones de la base de datos

 

·         Deadlocks

·         Recompilación de consultas

·         Escalamiento

·         Desempeño

·         Utilización de dispositivos de Entrada y Salida

·         Longitud de colas de discos

·         Mecanismos de acceso a información de SQL Server (Page Splits, Page Allocations, Page deallocations, etc)

·         Accesos lógicos a los discos (Logical I/O)

·         Accesos físicos a los discos (Physical I/O)

·         Bloqueo totales

·         Locks totales

 

4.       Memoria del SQL Server

 

·         Memoria Total del servidor

·         Porcentaje de memoria utilizada por SQL Server

·         Buffer Cache

o        Total de Buffer Cache

o        Hit Rate del Buffer Cache

 

·         Procedure Cache

o        Total de Procedure Cache

o        Hit Rate del Procedure Cache

·         Paginación en paginas por segundo

 

5.       Servicios Misceláneos

 

·         Proceso Checkpoint

·         Logwriter

·         Servicios de Replicación

·         Servicios Principales del SQL Server

o        SQL Server Agent

o        Distributed Transaction Coordinator (MSDTC)

o        Microsoft OLAP/Analysis

o        SQL Mail

o        SQL Agent Mail

o        Full Text Search

o        SQL Server Logshipping

o        Windows NT/2000 Cluster Service (MSCS)

 

6.       Almacenamiento de los Datos

 

·         Bases de datos contenidas en el servidor

·         Nombre de la base de datos

·         Tamaño en Mb de la base de datos

·         Porcentaje utilizado por las tablas

·         Porcentaje utilizado por los índices

·         Porcentaje libre disponible para crecimiento del espacio reservado

·         Tamaño de las bitácoras

·         Porcentaje libre para crecimiento de bitácoras

·         Ultimo respaldo realizado

·         Número de tablas

·         Número de Filegroups

·         Para cada base de datos los detalles de:

o        File Groups

o        Datafiles

o        Bitácoras

o        Utilización de discos

o        Archivos de bitácoras virtuales

 

7.       Sistema Operativo donde se ejecuta la base de datos

 

·         Conectividad del servidor

·         CPU

·         Memoria

·         Discos y Dispositivos de almacenamiento

·         Sesiones activas a nivel del sistema operativo

 

8.       Recolecta la información de sesión y estatutos SQL que generaron una situación de deadlock.


2.     Base de Datos Oracle 

 

El software diagnostica problemas en los siguientes componentes que se enumeran a continuación:

 

 

1.       Actividad de los procesos del servidor

 

·         Servidores dedicados

·         Servidores compartidos

·         Dispatchers

·         Parallel query

·         Job queue servers

 

2.       Utilización de memoria SGA

 

·         Buffer cache

·         Redo buffer

·         Shared pool

 

3.       Áreas del sistema operativo del servidor de base de datos.

 

·         CPU

·         Disco

·         Memoria

 

4.       Almacenamiento en disco

 

·         Database files

·         Tablespaces

·         Redo logs

·         Archive logs

 

5.       Procesos en el background

 

·         Database writer

·         Redo writer

·         Escrituras a los archives

 

6.       Despliega el detalle del problema de las siguientes áreas de la base de datos: 

 

·         Sesiones más activas

·         SQL Ineficientes

·         Disco I/O

·         Uso de memoria

·         Transacciones

·         Actividades de Roll-Back

 


3.      Web Servers 

 

El software diagnostica problemas en los siguientes componentes que se enumeran a continuación:

 

1.       Generalidades del Web Server

 

o        N° conexiones http

o        Tiempo de respuesta de URL

o        Tasa de errores encontrados en proceso de http

o        Problemas del Sistema Operativo

 

2.       Tarjeta de Red (NIC)  Web Server

 

o        TCP por segundo

o        IP por segundo

o        N° Paquetes de entrada (IN)

o        N° Paquetes de Salida (OUT)

o        Ancho de Banda Efectivo

o        Desgloce de Protocolos de TCP/IP (http, ftp, Telnet)

 

3.       Listener del Web Server

 

o        N° de operaciones Web tipo “Get

o        N° de operaciones Web tipo “Post”

o        N° de transacciones tipo ASP o CGI (Interactivas)

o        N° de conexiones activas

o        Tiempo de respuesta de transacciones tipo ASP o CGI

o        Paginas en Web Cache encontradas

 

4.       Transferencia de datos del Web Server

 

o        Páginas HTML

o        Imágenes

o        Multimedia

o        Ejecutables

o        Documentos

 

5.       Memoria del Web Server

 

o        % de Hits en el Web Cache encontrados

o        Utilización de memoria física total

o        Utilización de memoria física consumida por el Web Server

o        Utilización de memoria virtual total

o        Utilización de memoria virtual consumida por el Web Server

o        Desempeño del “SQUID” (Proxy/Cache)

 

6.       Consumo de CPU del Web Server

 

o        Utilización de CPU  total

o        Utilización de CPU consumido por el Web Server

o        Tamaño de la cola de procesos

o        Lista y jerarquía de los procesos actuales

 

 

 

7.       Control de Bitácoras del Web Server

 

o        Bitácora de “Total Posts

o        Bitácora de % CPU

o        Bitácora de Memoria Virtual

o        Bitácora de Operaciones tipo “Get

o        Bitácora de Operaciones tipo “Post”

o        Bitácora de Operaciones transaccionales  (ASP´s o CGI´s)

o        Bitácora de errores

 


4.       Active Directory 

 

El software diagnostica problemas en los siguientes componentes que se enumeran a continuación:

 

1.       Muestra el árbol de los sitios y directorios completos de la institución que permite visualmente realizar el análisis de la topología de la arquitectura del Active Directory así como ver el detalle de cualquier servidor específico.

 

2.       Muestra la actividad de los componentes del servidor de Active Directory para un ambiente de red Microsoft Windows 2000 y 2003 en cualquier implementación posible de Microsoft, stand alone, cluster, etc. 

 

3.       Tiempo de respuesta a requerimientos de Autenticación

 

·         Tiempo de respuesta a catalogo Global (Global Catalog)

·         Tiempo de respuesta a requerimientos de DNS

·         Tiempo de respuesta del LDAP

·         Tiempo de respuesta de autenticación Kerberos

 

4.       Información del LDAP

 

·         Nº de sesiones de usuario conectados al LDAP.

·         Tiempo de resolución del último requerimiento de LDAP

·         Cantidad de consultas actuales al LDAP

 

5.       Información de los DNS´s

 

·         Disponibilidad del  DNS´s de cada directorio activo

·         Cantidad de entradas en el DNS

·         Estado de la replicación del DNS

 

6.       Replicación entre servidores de Active Directory

 

·         Tasa de replicación entrante

·         Tasa de replicación saliente

·         Visualización de otros equipos de replicación (Primarios, Secundarios, intermedios, etc.)

·         Medición del tráfico y estado de replicación entre cada punto de la topología

·         Problemas de replicación de los DNS´s

·         Inconsistencias entre los esquemas

·         Actualización de las políticas entre los distintos directorios activos

 

7.       Repositorio del Active Directory

 

.1.       Tamaño Total

.2.       Espacio Total disponible en Disco

.3.       Espacio libre disponible

.4.       Cantidad de Objetos aplicados

.5.       Cantidad de Objetos en cola

 

 

8.       Estado de la red de comunicaciones para identificar problemas de acceso y de replicación en donde éstas puedan estar comprometidas por esta causa.  Se controla time-outs entre sitios y en cada servidor.

 

9.       Información de Servidor de Active Directory

 

·         Consumo de Memoria

·         Consumo de Disco

·         Consumo de CPU

·         Cola de Procesos

·         Nº de usuarios conectados al servidor

 

10.   Se integra a las bitácoras del Active Directory para capturar todos los eventos importantes respecto a la salud de los directorios activos


5.      Microsoft Exchange  

 

El software diagnostica problemas en los siguientes componentes que se enumeran a continuación:

 

1.       Muestra el árbol de los sitios y directorios completos de la institución, y permite visualmente realizar el análisis de la topología de la arquitectura de los servidores Exchange, los grupos de servidores Exchange, las rutas de envió y recibo de mensajes, así como ver el detalle de cualquier servidor específico.

 

2.       Muestra la actividad de los componentes del servidor de Exchange para un ambiente de red Microsoft Windows 2000 y 2003 en cualquier implementación posible de Microsoft, stand alone, cluster, etc.

 

3.       Muestra el flujo de mensajes de un servidor o grupo de servidores a todos los otros servidores del bosque de servidores para identificar congestión y escenarios para el capacity planning.

 

4.       Se integra naturalmente al Microsoft Management Console (MMC) para poder aprovechar las herramientas de administración nativas con las provistas por la herramienta.

 

5.       Muestra la actividad de los componentes del servidor de correo electrónico Microsoft Exchange a saber:

 

·         N° de conexiones de acceso y envío del servidor Exchange

·         SMTP (Recibo y envío)

·         MTA (Recibo y envío)

·         Conexiones a través de Internet (OWA) (Recibo y envío)

·         MAPI (Recibo y envío)

·         Pop3 y IMAP4 (Envío)

 

·         Mensajes en Colas de:

·         SMTP Entrada y Salida

·         MTA  Entrada y Salida

·         Categorización

·         Ruteo

 

·         Repositorio de Información Almacenada (MB utilizados y libres)

·         Buzones

·         N° de Storage Groups

·         Carpetas Públicas

·         Bitácoras de Transacciones

 

·         Conexiones Multimedios

·         Conferencias

·         Mensajería Instantánea

·         Conexiones de Chat

 

·         Consumo de Memoria

 

·         Consumo de Disco

 

·         Estadísticas de Usuarios

 

·         Servicios de Directorios

 

·          Web Server IIS

·          

 

·         Cumplimiento de las Buenas Prácticas

 

·         Bitácora de Alarmas

 

 

6.       Muestra los siguientes aspectos del Internet Information Server que esta integrado al Exchange Server

 

·         Conexiones de Entrada al IIS

·         Sesiones http

·         Promedio de sesiones http

·         Conexiones de entrada SMTP

 

·         Conexiones de Salida  al IIS

·         Correos malos (Bad Mail)

·         Cola de mensajes de salida SMTP

·         Conexiones de salida SMTP

·         Servidores Virtuales

 

·         Categorizaciones

·         Cola de Pre-Categorizaciones

·         Cola de Post-Categorizaciones

·         Categorizaciones fallidas

·         Ruteo 

·         longitud de la Cola local

·         Mensajes que no se han podido enviar

·         Cantidad de consultas a la tabla de ruteo por segundo

 

·         Estado de los servicios críticos del IIS 

·         Servicio World Wide Web

·         Servicio Routing Engine

·         Servicio SMTP

·         Servicio de Administración de IIS

·         Tiempo de funcionamiento continuo del IIS 

·         Operaciones del OWA por segundo

 

7.       Información del Repositorio de Exchange

 

·         N° de sesiones de usuario conectados al repositorio

·         N° de sesiones de usuario activos

·         Máximo de usuarios que se ha conectado

·         Longitud de la cola de envío de información al repositorio

·         Longitud de la cola de salida del repositorio

·         Consumo de CPU de Manejador del Repositorio

·         Consumo de Memoria del Manejador del Repositorio

 

8.       Información de los Storage Groups, para cada uno:

 

·         Nombre del Storage Group

·         Mb utilizados

·         Mb libres

·         Cantidad de Mensajes almacenados

·         Tamaño de Cola de entrada

·         Tamaño de Cola de Salida

·         Usuarios Activos

·         Usuarios conectados

·         Cantidad de Buzones

 

9.       Validación de Buenas Practicas

 

·         Control de parches del servidor Exchange respecto de las recomendaciones de Microsoft

·         Recomendaciones de configuración de Microsoft

·         Control de respaldos frecuentes

·         Control de fragmentación de los repositorios

 

10.   Estadísticas de uso promedio de los siguientes aspectos del servidor Exchange

 

·         Consumo de CPU

·         Memoria física

·         Cola del procesador

·         Usuarios Activos

·         Usuarios Conectados

·         Paginación de Memoria

·         Consumo de Disco Físico