Capacidad de Diagnóstico de problemas en investigaciones de causas de
los incidentes reportados
Objetivo:
Cumplir con las regulaciones de la normativa de TI que permita
contextualmente seguir indagando las causas de un problema detectado por el
sistema de monitoreo hasta encontrar el servidor, servidores o circunstancia
causantes de un incidente que comprometa la continuidad del negocio.
1.
La herramienta
cuenta con una integración contextual completa de forma tal que una vez
identificado un incidente por el software de detección, desde el contexto del
incidente se dispare el software de diagnóstico pertinente al servidor que
presenta el problema con información detallada de éste que permita encontrar la
causa. La integración de ambas
herramientas, a saber detección y diagnóstico es sumamente importante para la
institución puesto de ello depende la eficacia de la solución de los problemas.
2.
Se requiere que
exista un bajo impacto en el proceso de diagnóstico por lo que el fabricante del
software de diagnóstico indica en promedio no más de 3% de los recursos del
servidor solicitado a diagnosticar.
3.
El software de
diagnóstico presenta en forma lo más gráfica posible todas las mediciones de
los componentes del servidor en análisis en forma integral utilizando tablas,
gráficos de barras, pies, histogramas, etc.
4.
El software de
diagnóstico indica por medio de colores distinguidos u otros medios visualmente
llamativos, las partes alertadas del servidor diagnosticado y la gravedad de la
alarma detectada.
5.
El software provee
un mecanismo coherente y secuencial que amplía la información suministrada de
cada componente suministrando información adicional por medio del uso de gráficos, tablas, histogramas,
simulaciones, u otros medios, de forma tal que permite identificar en forma
univoca la causa de un problema existente en cualquier componente mostrado por
la herramienta.
6.
La herramienta
de diagnóstico viene programado de fábrica o sea entregado totalmente
configurado con los umbrales recomendados como "normales" para cada
uno de los componentes del servidor solicitado recomendados por las buenas
practicas del fabricante del software monitoreado o el fabricante del software
para así obtener una solución que provea resultados en forma efectiva y eficaz
de la herramienta.
7.
Permite
modificar estos umbrales desde una interfase gráfica en forma simple para
ajustar las fronteras de cada uno de los grados de severidad de las alarmas.
Este proceso puede hacerlo el usuario sin herramientas adicionales o
programación alguna.
8.
El software de
diagnóstico cuenta con un mecanismo de validación de las buenas prácticas
recomendadas por el fabricante del servidor (Sistema Operativo, Correo
Electrónico, Base de Datos, Servidor de Internet, Servidor de Aplicaciones,
etc) para saber si existe o no violación de las mismas en el proceso de
diagnóstico para cada servidor solicitado.
8.
Es importante señalar que el alcance de este
mecanismo de verificación, la forma en que se mantiene actualizado y la
integración con que cuenta con las bases de datos públicas de soporte del
fabricante del servidor a diagnosticar, del fabricante de la herramienta y de
terceros.
9.
El software
cuenta con un registro histórico de las alarmas encontradas en los servidores
solicitados con una capacidad de al menos una semana. Estas bitácoras son
independientes por servidor o plataforma tecnológica; La herramienta permite
correlacionar la información de varios servidores solicitados simultáneamente
en la misma herramienta.
10.
El software
permite el diagnóstico de varios servidores simultáneamente.
11.
El software de
diagnóstico permite conectarse a varias versiones del servidor solicitado
simultáneamente. (ej. Diferentes versiones de bases de datos, diferentes
versiones de Sistemas Operativos, diferentes versiones de Servidores Internet,
servidores de bases de datos, servidores de aplicaciones, etc.).
12.
La herramienta
de diagnóstico cuenta con un mecanismo de ayuda en línea contextual para
asistir en el proceso de diagnóstico.
Los siguientes puntos son en cada caso, el alcance
de esta ayuda en cada herramienta:
a.
Básica de
utilización propia de la herramienta
b.
Indicación de
causas usuales de los problemas
c.
Indicación de
procedimientos usuales de diagnóstico
d.
Base de datos de
conocimiento sobre metodologías y teoría asociada
e.
Manuales en
línea del servidor diagnosticado
f.
Referencias
expresas a bases de datos de conocimiento del fabricante
g.
Inclusión de
conocimiento de nuestra institución a problemas propios
13.
La herramienta
para el diagnóstico permite el monitoreo a tiempo real del servidor solicitado y
existe un proceso de captura de información y diagnóstico de la misma en batch.
14.
El software de
diagnóstico permite la ejecución de mecanismos automáticos de solución a
problemas conocidos por medio de la ejecución de scripts, programas en
lenguajes de programación conocidos y otros mecanismos.
15.
El software de
diagnóstico permite la notificación por medio de:
a.
Mensajes de
correo electrónico
b.
Mensajes vía
Beeper o Mensajes Textuales a teléfonos celulares
c.
señales audibles
(beep)
d.
Mensajes a
través de la red
e.
Reproducción de
frases tipo "Wav" o similares
16.
El software de diagnóstico
permite almacenar el estado del servidor monitoreado y reproducir
posteriormente un estado histórico para simplificar el diagnóstico de problemas
ocurridos en el pasado próximo (período menor a una semana). Esta
característica se realiza en intervalos fijos de tiempo y es iniciada
automáticamente al ser detectado un problema de una severidad predefinida a
voluntad del usuario.
El software puede diagnosticar problemas en los siguientes componentes
que se enumeran a continuación:
·
Sistema
operativo del Servidor
o
Tipo de Sistema
Operativo
o
Versión del
Sistema Operativo Instalado
o
Último Service
Pack Instalado
·
Red de
Comunicaciones
o
Numero de
Usuarios conectados
o
Número de
Sesiones abiertas
o
Ancho de Banda
teórico entregado por el Servidor a los usuarios
o
Total de
paquetes recibidos y enviados por el servidor
o
Errores de
Transmisión de las tarjetas de Red del servidor
o
Puertos de
Comunicación
·
Protocolo
utilizado
·
Host Local
·
Número de
Puertos
·
Host Remoto
·
Estatus de
Comunicación
·
Bitácora de
Eventos del Sistema Operativo
o
Filtraje de
eventos y asignación correspondiente de alarma
en el software de diagnóstico con un grado definido de criticidad para
cada evento tipificado en las bitácoras.
·
CPU
o
Número de CPU´s
o
Velocidad de
Procesamiento
o
Tipo de CPU
instalado
o
Tiempo de
operación continua del Procesador
o
Utilización del
CPU
o
Longitud de la
cola de Procesos
·
Procesos Activos
o
Identificador
del Proceso
o
% de uso del CPU
o
Utilización de
Memoria Física
o
Utilización de
Memoria Virtual
o
Tiempo Total en
espera
o
Lista de Hilos
(Threads activos de los procesos)
o
Capacidad para
monitoreo de un proceso específico
·
Servicios
o
Nombre del
Servicio
o
Estado (Activo,
Inactivo)
o
Tipo de Servicio
o
Tipo de Control
del Servicio
·
Memoria
o
Cantidad de
Memoria Física instalada
o
Cantidad de
Memoria Virtual habilitada
o
Porcentaje de
Memoria libre Física y Virtual
o
Cantidad de
Paginas encontradas en Memoria
o
Porcentaje de
paginas encontradas en Memoria
o
Total de Memoria
virtual utilizada
·
Discos
o
Total de discos
instalados
o
Capacidad de
cada disco instalado
o
Espacio libre de
cada disco
El software diagnostica problemas en los siguientes componentes que se
enumeran a continuación:
1.
Resumen de las
Sesiones de la base de datos.
·
Número de
sesiones activas
·
Número de
computadores conectados
·
Tiempo de
respuesta de la base de datos
·
Total de
procesos ejecutándose en la base de datos
·
Número de
Procesos del sistema
·
Número de
Procesos de usuarios
·
Número de
procesos bloqueados
·
Consumo total
del CPU
·
Errores en las
bitácoras del SQL Server
2.
Detalle de las
Sesiones de la base de datos.
·
Usuario de SQL
Server
·
Dominio de Windows
·
Usuario de
Windows
·
Estatus (
corriendo, background, durmiendo)
·
Base de datos
utilizada
·
Porcentaje CPU
utilizado
·
Porcentaje de
Disco (E/S) utilizado
·
Tiempo de espera
·
Nombre del
programa ejecutándola
·
Sesión de
usuario o del sistema
·
Última consulta
ejecutada contra la base de datos
·
"Explain plan" de la ultima consulta ejecutada
·
Bloqueos
sufridos por la sesión
·
Sesiones
provocando el bloqueo
·
Capacidad de
seguimiento de la ejecución de la sesión
3.
Resumen de las
Sesiones de la base de datos
·
Deadlocks
·
Recompilación de consultas
·
Escalamiento
·
Desempeño
·
Utilización de
dispositivos de Entrada y Salida
·
Longitud de
colas de discos
·
Mecanismos de
acceso a información de SQL Server (Page Splits, Page Allocations,
Page deallocations, etc)
·
Accesos lógicos
a los discos (Logical I/O)
·
Accesos físicos
a los discos (Physical I/O)
·
Bloqueo totales
·
Locks totales
4.
Memoria del SQL
Server
·
Memoria Total
del servidor
·
Porcentaje de
memoria utilizada por SQL Server
·
Buffer Cache
o
Total de Buffer Cache
o
Hit Rate
·
Procedure Cache
o
Total de Procedure Cache
o
Hit Rate
·
Paginación en
paginas por segundo
5.
Servicios
Misceláneos
·
Proceso Checkpoint
·
Logwriter
·
Servicios de
Replicación
·
Servicios
Principales del SQL Server
o
SQL Server Agent
o
Distributed Transaction Coordinator (MSDTC)
o
Microsoft OLAP/Analysis
o
SQL Mail
o
SQL Agent Mail
o
Full Text Search
o
SQL Server Logshipping
o
Windows NT/2000 Cluster Service (MSCS)
6.
Almacenamiento
de los Datos
·
Bases de datos
contenidas en el servidor
·
Nombre de la
base de datos
·
Tamaño en Mb de
la base de datos
·
Porcentaje
utilizado por las tablas
·
Porcentaje
utilizado por los índices
·
Porcentaje libre
disponible para crecimiento del espacio reservado
·
Tamaño de las
bitácoras
·
Porcentaje libre
para crecimiento de bitácoras
·
Ultimo respaldo
realizado
·
Número de tablas
·
Número de Filegroups
·
Para cada base
de datos los detalles de:
o
File Groups
o
Datafiles
o
Bitácoras
o
Utilización de
discos
o
Archivos de
bitácoras virtuales
7.
Sistema
Operativo donde se ejecuta la base de datos
·
Conectividad del
servidor
·
CPU
·
Memoria
·
Discos y
Dispositivos de almacenamiento
·
Sesiones activas
a nivel del sistema operativo
8. Recolecta la información
de sesión y estatutos SQL que generaron una situación de deadlock.
El software diagnostica problemas en los
siguientes componentes que se enumeran a continuación:
1.
Actividad
de los procesos del servidor
·
Servidores
dedicados
·
Servidores
compartidos
·
Dispatchers
·
Parallel query
·
Job queue servers
2.
Utilización
de memoria SGA
·
Buffer cache
·
Redo buffer
·
Shared pool
3.
Áreas del
sistema operativo del servidor de base de datos.
·
CPU
·
Disco
·
Memoria
4.
Almacenamiento
en disco
·
Database files
·
Tablespaces
·
Redo logs
·
Archive logs
5.
Procesos
en el background
·
Database writer
·
Redo writer
·
Escrituras a los
archives
6.
Despliega
el detalle del problema de las siguientes áreas de la base de datos:
·
Sesiones más
activas
·
SQL Ineficientes
·
Disco I/O
·
Uso de memoria
·
Transacciones
·
Actividades de
Roll-Back
El software diagnostica problemas en los siguientes componentes que se
enumeran a continuación:
1.
Generalidades
del Web Server
o
N° conexiones http
o
Tiempo de
respuesta de URL
o
Tasa de errores
encontrados en proceso de http
o
Problemas del
Sistema Operativo
2.
Tarjeta de
Red (NIC) Web Server
o
TCP por segundo
o
IP por segundo
o
N° Paquetes de
entrada (IN)
o
N° Paquetes de
Salida (OUT)
o
Ancho de Banda
Efectivo
o
Desgloce de Protocolos
de TCP/IP (http, ftp,
Telnet)
3.
Listener
del Web Server
o
N° de
operaciones Web tipo “Get”
o
N° de
operaciones Web tipo “Post”
o
N° de
transacciones tipo ASP o CGI (Interactivas)
o
N° de conexiones
activas
o
Tiempo de
respuesta de transacciones tipo ASP o CGI
o
Paginas en Web
Cache encontradas
4.
Transferencia
de datos del Web Server
o
Páginas HTML
o
Imágenes
o
Multimedia
o
Ejecutables
o
Documentos
5.
Memoria
del Web Server
o
% de Hits en el Web Cache encontrados
o
Utilización de
memoria física total
o
Utilización de
memoria física consumida por el Web Server
o
Utilización de
memoria virtual total
o
Utilización de
memoria virtual consumida por el Web Server
o
Desempeño del
“SQUID” (Proxy/Cache)
6.
Consumo de
CPU del Web Server
o
Utilización de
CPU total
o
Utilización de
CPU consumido por el Web Server
o
Tamaño de la
cola de procesos
o
Lista y
jerarquía de los procesos actuales
7.
Control de
Bitácoras del Web Server
o
Bitácora de
“Total Posts”
o
Bitácora de %
CPU
o
Bitácora de
Memoria Virtual
o
Bitácora de
Operaciones tipo “Get”
o
Bitácora de
Operaciones tipo “Post”
o
Bitácora de
Operaciones transaccionales (ASP´s o CGI´s)
o
Bitácora de
errores
El software diagnostica problemas en los siguientes componentes que se
enumeran a continuación:
1.
Muestra
el árbol de los sitios y directorios completos de la institución que permite
visualmente realizar el análisis de la topología de la arquitectura del Active
Directory así como ver el detalle de cualquier servidor específico.
2.
Muestra
la actividad de los componentes del servidor de Active Directory para un
ambiente de red Microsoft Windows 2000 y 2003 en cualquier implementación
posible de Microsoft, stand alone, cluster, etc.
3.
Tiempo
de respuesta a requerimientos de Autenticación
·
Tiempo
de respuesta a catalogo Global (Global Catalog)
·
Tiempo
de respuesta a requerimientos de DNS
·
Tiempo
de respuesta del LDAP
·
Tiempo
de respuesta de autenticación Kerberos
4.
Información
del LDAP
·
Nº
de sesiones de usuario conectados al LDAP.
·
Tiempo
de resolución del último requerimiento de LDAP
·
Cantidad
de consultas actuales al LDAP
5.
Información
de los DNS´s
·
Disponibilidad
del DNS´s de
cada directorio activo
·
Cantidad
de entradas en el DNS
·
Estado
de la replicación del DNS
6.
Replicación
entre servidores de Active Directory
·
Tasa
de replicación entrante
·
Tasa
de replicación saliente
·
Visualización
de otros equipos de replicación (Primarios, Secundarios, intermedios, etc.)
·
Medición
del tráfico y estado de replicación entre cada punto de la topología
·
Problemas
de replicación de los DNS´s
·
Inconsistencias
entre los esquemas
·
Actualización
de las políticas entre los distintos directorios activos
7.
Repositorio
del Active Directory
.1.
Tamaño
Total
.2.
Espacio
Total disponible en Disco
.3.
Espacio
libre disponible
.4.
Cantidad
de Objetos aplicados
.5.
Cantidad
de Objetos en cola
8.
Estado
de la red de comunicaciones para identificar problemas de acceso y de
replicación en donde éstas puedan estar comprometidas por esta causa. Se controla time-outs
entre sitios y en cada servidor.
9.
Información
de Servidor de Active Directory
·
Consumo
de Memoria
·
Consumo
de Disco
·
Consumo
de CPU
·
Cola
de Procesos
·
Nº
de usuarios conectados al servidor
10.
Se
integra a las bitácoras del Active Directory para capturar todos los eventos
importantes respecto a la salud de los directorios activos
El software diagnostica problemas en los siguientes componentes que se
enumeran a continuación:
1.
Muestra
el árbol de los sitios y directorios completos de la institución, y permite
visualmente realizar el análisis de la topología de la arquitectura de los
servidores Exchange, los grupos de servidores Exchange, las rutas de envió y
recibo de mensajes, así como ver el detalle de cualquier servidor específico.
2.
Muestra
la actividad de los componentes del servidor de Exchange para un ambiente de
red Microsoft Windows 2000 y 2003 en cualquier implementación posible de
Microsoft, stand alone, cluster, etc.
3.
Muestra
el flujo de mensajes de un servidor o grupo de servidores a todos los otros
servidores del bosque de servidores para identificar congestión y escenarios
para el capacity planning.
4.
Se
integra naturalmente al Microsoft Management Console
(MMC) para poder aprovechar las herramientas de administración nativas con las
provistas por la herramienta.
5.
Muestra
la actividad de los componentes del servidor de correo electrónico Microsoft
Exchange a saber:
·
N°
de conexiones de acceso y envío del servidor Exchange
·
SMTP
(Recibo y envío)
·
MTA
(Recibo y envío)
·
Conexiones
a través de Internet (OWA) (Recibo y envío)
·
MAPI
(Recibo y envío)
·
Pop3
y IMAP4 (Envío)
·
Mensajes en Colas de:
·
SMTP
Entrada y Salida
·
MTA Entrada y Salida
·
Categorización
·
Ruteo
·
Repositorio
de Información Almacenada (MB utilizados y libres)
·
Buzones
·
N°
de Storage Groups
·
Carpetas
Públicas
·
Bitácoras
de Transacciones
·
Conexiones
Multimedios
·
Conferencias
·
Mensajería
Instantánea
·
Conexiones
de Chat
·
Consumo
de Memoria
·
Consumo
de Disco
·
Estadísticas
de Usuarios
·
Servicios
de Directorios
·
Web Server IIS
·
·
Cumplimiento
de las Buenas Prácticas
·
Bitácora
de Alarmas
6. Muestra los siguientes aspectos del Internet
Information Server que esta integrado al Exchange Server
·
Conexiones
de Entrada al IIS
·
Sesiones
http
·
Promedio
de sesiones http
·
Conexiones
de entrada SMTP
·
Conexiones
de Salida al IIS
·
Correos
malos (Bad Mail)
·
Cola
de mensajes de salida SMTP
·
Conexiones
de salida SMTP
·
Servidores
Virtuales
·
Categorizaciones
·
Cola
de Pre-Categorizaciones
·
Cola
de Post-Categorizaciones
·
Categorizaciones
fallidas
·
Ruteo
·
longitud
de la Cola local
·
Mensajes
que no se han podido enviar
·
Cantidad
de consultas a la tabla de ruteo por segundo
·
Estado
de los servicios críticos del IIS
·
Servicio
World Wide Web
·
Servicio
Routing Engine
·
Servicio
SMTP
·
Servicio
de Administración de IIS
·
Tiempo
de funcionamiento continuo del IIS
·
Operaciones
del OWA por segundo
7.
Información
del Repositorio de Exchange
·
N°
de sesiones de usuario conectados al repositorio
·
N°
de sesiones de usuario activos
·
Máximo
de usuarios que se ha conectado
·
Longitud
de la cola de envío de información al repositorio
·
Longitud
de la cola de salida del repositorio
·
Consumo
de CPU de Manejador del Repositorio
·
Consumo
de Memoria del Manejador del Repositorio
8.
Información
de los Storage Groups, para
cada uno:
·
Nombre
del Storage Group
·
Mb
utilizados
·
Mb
libres
·
Cantidad
de Mensajes almacenados
·
Tamaño
de Cola de entrada
·
Tamaño
de Cola de Salida
·
Usuarios
Activos
·
Usuarios
conectados
·
Cantidad
de Buzones
9.
Validación
de Buenas Practicas
·
Control
de parches del servidor Exchange respecto de las recomendaciones de Microsoft
·
Recomendaciones
de configuración de Microsoft
·
Control
de respaldos frecuentes
·
Control
de fragmentación de los repositorios
10.
Estadísticas
de uso promedio de los siguientes aspectos del servidor Exchange
·
Consumo
de CPU
·
Memoria
física
·
Cola
del procesador
·
Usuarios
Activos
·
Usuarios
Conectados
·
Paginación
de Memoria
·
Consumo
de Disco Físico