Este documento está basado en las pruebas mencionadas en la página Proceso de resolución de problemas de dispositivos en NMIS.

Table of Contents

Descripción del problema

Para poder ejecutar el Troubleshooting Wizard, debemos tener una descripción muy bien detallada por parte del cliente que nos dé un buen panorama de la situación que está presentando.

...

e) Detalles adicionales, por ejemplo: configuración actual de cron de NMIS por lo menos, configuración actual del archivo /etc/mongod.conf, configuración de parámetros de base de datos en /usr/local/omk/conf/opCommon.nmis, si se modificó algún archivo recientemente, si alguna configuración realizada ya sea en el servidor o en los equipos provocó la incidencia.

Troubleshooting Wizard: Funcionalidades

Healthcheck del Servidor

1. Comando top

Este comando nos dará información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.

Siempre será importante basarnos en el load average y en el %CPU, ya que si estos valores son altos, tendremos seguramente un problema en algún o algunos procesos que se están ejecutando actualmente.

top

2. Revisión de fecha y hora del servidor

3. Revisión de velocidad de lectura y escritura en discos

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.

...

0.0X s, parámetros correctos.
0.X s, hay una advertencia (y podría generar un problema).
X.0 s, es crítico (y existe un problema).

R/W de discos

4. Revisión de filesystems

Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.

Se ejecutaa el comando como sigue:

df -h

df -h

5. Revisión de servicios del sistema

Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.

...

Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.

6. Revisión de tiempos de carga del servidor

Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.

Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:

iostat -xtc 3 5

iostat

7. Top de los 20 procesos del CPU

 8. Ejecución de tcpdump 

9. Revisión de tabla de enrutamiento de IPs locales

10. Revisión de la lista de usuarios activos

11. Revisión de logs de usuarios

 12. Revisión de los últimos comandos utilizados

13. Revisión de configuración de DNS

14. Prueba de internet

Consistencia de Configuraciones de NMIS

1. Revisión de código de NMIS

2. Ejecución de un backup de archivos de configuración

3. Comparación de archivos de configuración

4. Ejecución de fixperms

5. Revisión de modelos

6. Revisión de cron

7. Revisión de librerías de CPAN

Troubleshooter de nodos

1. Polling summary

2. Traceroute

3. MTR

4. Ping

5. SNMP 

6. Update  nodes

7. Collect nodes

8. Búsqueda de eventos de nodo

9. Ejecución de un backup del archivo Nodes.nmis

10. Ejecución de Support zip 

Diagnóstico Inteligente

Incluye todas las secciones anteriores, con un extra.

Primer borrador

Análisis de causas

En este apartado se realizará la evaluación de todas los posibles motivos que llevaron a que la incidencia ocurriera según reporta el cliente en cuestión, revisando cada uno de los parámetros de importancia del servidor, desde archivos de configuración importantes, pasando por hardware, software y, de ser necesario, revisión a fondo de los nodos involucrados.

...

Carpeta conf: Config.nmis, Nodes.nmis, Users.nmis
Carpeta logs: error_log, event.log, nmis.log.
Carpeta models: revisar si hubo algún cambio reciente que pudiera afectar.
Carpeta system_status: cpuinfo, disk_info, iostat, meminfo, top.
Carpeta system_status/apache: revisar los archivos de configuración.
Carpeta system_status/cron: revisar si el crontab contiene algún comando que pueda crear conflicto con otro cron.
Carpeta system_status/cron.d: revisar si no hay un cron duplicado y que al menos el cron de nmis esté configurado de manera correcta.

NMIS Support Tool

2.2. Análisis de cambio de configuraciones

En este análisis nos servirá de mucha ayuda el Support Tool enviado por el cliente, ya que podremos darnos cuenta si algún archivo de configuración fue modificado en los últimos días.

...

/usr/local/nmis8/conf
/usr/local/omk/conf
/etc/cron.d

2.4. Análisis de nodos

En este punto, se ejecutará un análisis a fondo de los nodos en los cuales se haya detectado algún problema durante el momento de la incidencia.

...

Page Comparison

Versions Compared

Old Version 16

New Version 17

Key

Descripción del problema

Troubleshooting Wizard: Funcionalidades

Healthcheck del Servidor

1. Comando top

2. Revisión de fecha y hora del servidor

3. Revisión de velocidad de lectura y escritura en discos

4. Revisión de filesystems

5. Revisión de servicios del sistema

6. Revisión de tiempos de carga del servidor

7. Top de los 20 procesos del CPU

8. Ejecución de tcpdump

9. Revisión de tabla de enrutamiento de IPs locales

10. Revisión de la lista de usuarios activos

11. Revisión de logs de usuarios

12. Revisión de los últimos comandos utilizados

13. Revisión de configuración de DNS

14. Prueba de internet

Consistencia de Configuraciones de NMIS

1. Revisión de código de NMIS

2. Ejecución de un backup de archivos de configuración

3. Comparación de archivos de configuración

4. Ejecución de fixperms

5. Revisión de modelos

6. Revisión de cron

7. Revisión de librerías de CPAN

Troubleshooter de nodos

1. Polling summary

2. Traceroute

3. MTR

4. Ping

5. SNMP

6. Update nodes

7. Collect nodes

8. Búsqueda de eventos de nodo

9. Ejecución de un backup del archivo Nodes.nmis

10. Ejecución de Support zip

Diagnóstico Inteligente

Primer borrador

Análisis de causas

2.2. Análisis de cambio de configuraciones

2.4. Análisis de nodos

 8. Ejecución de tcpdump 

 12. Revisión de los últimos comandos utilizados

5. SNMP 

6. Update  nodes

10. Ejecución de Support zip