NMIS9 Troubleshooting Wizard.

Esta página está destinada a proporcionar información de la instalación y uso del Troubleshooting Wizard para NMIS 9, que tiene como objetivo ayudar a los clientes a ejecutar un diagnóstico completo de su(s) servidor(es) para determinar la causa raíz de algún probable problema que se esté presentando.

Abarcaremos desde la descarga e implementación del archivo de Troubleshooting, pasando por el análisis completo del servidor utilizando cada uno de los menús interactivos del programa.

Este documento está basado en las pruebas mencionadas en la página Proceso de resolución de problemas de dispositivos en NMIS.

Descripción del problema

Para poder ejecutar el Troubleshooting Wizard, debemos tener una descripción muy bien detallada por parte del cliente que nos dé un buen panorama de la situación que está presentando.

Para esto, debemos resolver algunas preguntas importantes:

a) Descripción de la incidencia: ¿qué está sucediendo? ¿desde cuándo?

b) ¿En qué servidor o servidores se está presentando la incidencia?

c) Descripción del servidor o servidores en los que se está presentando la incidencia: CPUs, RAM, DD, nodos totales.

d) ¿En que nodo o nodos se está presentando la incidencia?

e) Detalles adicionales, por ejemplo: configuración actual de cron de NMIS por lo menos, configuración actual del archivo /etc/mongod.conf, configuración de parámetros de base de datos en /usr/local/omk/conf/opCommon.json, si se modificó algún archivo recientemente, si alguna configuración realizada ya sea en el servidor o en los equipos provocó la incidencia.

Troubleshooting Wizard: Instalación y ejecución

Puede encontrar los archivos necesarios en los siguientes links (archivo de Troubleshooting Wizard y 2 scripts complementarios):

Link: https://github.com/tom-tics/TS_Wizard_NMIS9_OPMANTEK

De igual forma, un archivo README en el que se muestran las instrucciones de instalación:

Los tres archivos principales deben subirse al servidor en el cual se realizará el análisis mediante un cliente FTP (como FileZilla).

Una vez que ya se tengan los tres archivos en el servidor, con los permisos necesarios, el script debe ejecutarse así: sh TS_WIZARD_OMK-9.sh

Se mostrará una pantalla de bienvenida y se debe presionar la tecla Enter para acceder al menú principal.

TSW

Al presionar la tecla Enter, se mostrarán algunos detalles del Sistema Operativo, como la versión del Sistema Operativo y un pequeño resumen de la memoria y CPU del sistema.

TSW
De igual forma, el Menú Principal, donde encontraremos las diferentes opciones a las que podemos acceder:

  1. Execute Healthcheck: podremos realizar una revisión completa del servidor.
  2. Review NMIS Configuration Consistency: podremos revisar la consistencia de los archivos de configuración más importantes de NMIS.
  3. Nodes Troubleshooter: podremos revisar el comportamiento de los nodos agregados a NMIS.
  4. Execute Smart Diagnostics: crea un diagnóstico completo del sistema en un archivo .tar.gz, el cual podrá adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek
  5. Create System Backup File: crea un archivo .tar.gz que contendrá un backup de las carpetas /etc/* y /usr/local/*.
  6. Execute Support Automation Tool: genera un archivo de soporte de NMIS y uno de OMK, los cuales podrán adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek.

Troubleshooting Wizard: Funcionalidades

1. Execute Healthcheck

Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

TSW

1. TOP

Este comando nos da información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.

Siempre será importante basarnos en el load average y en el %CPU, ya que si estos valores son altos, tendremos seguramente un problema en algún o algunos procesos que se están ejecutando actualmente.

Al final de la ejecución del comando, nos muestra una serie de tips, como son:

  • Comprobar las particiones de los discos.
  • Limpiar archivos de registro que ocupen demasiado espacio.
  • Eliminar caché.

TSW

2. System date and time

Es muy importante que el servidor tenga configurada de forma correcta la fecha y hora, según la zona horaria de cada cliente; esto debido a que hay muchos procesos que se ejecutan en lapsos específicos de tiempo y, de igual forma, los logs del sistema y los registros de modificación de archivos, contienen marcas de tiempo para poder detectarse en caso de un error.

Es por eso que se incluye este apartado para que el operador sepa que la fecha y hora del sistema son adecuadas. Al final, en caso de que el servidor no tenga un NTP activado, se muestra un tip para contactar al administrador del sistema y verificarlo.

TSW

3. Disk R/W

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor.

El programa ejecuta los comandos:

  • dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
  • dd if=/data/omkTestFile of=/dev/null 2>&1

Y después, muestra la salida, que se tiene que comparar con los valores:

  • 0.0X s, parámetros correctos.
  • 0.X s, hay una advertencia (y podría generar un problema).
  • X.0 s, es crítico (y existe un problema).

De igual forma, se ejecuta un iostat -x 5 4, que se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos, lo cual se señala al final de la ejecución del comando.

TSW

4. Filesystem

Muestra un análisis detallado del espacio en cada uno de los filesystems del sistema, esto para comprobar que la posible incidencia no se esté presentando por una falta de espacio en el servidor. También muestra un tip de que si el uso es +85% en alguno de los ficheros, se contacte al administrador para que se puedan depurar.

De igual forma, ejecuta un comando para saber la utilización de la memoria RAM y swap del sistema, mostrando un tip si se tiene un alto porcentaje de utilización para contactar al administrador y ver qué está sucediendo.

TSW

5. Service status

Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los procesos esenciales se estén ejecutando de manera correcta.

Se ejecutan los siguientes comandos:

  • service omkd status
  • service mongod status
  • service nmis9d status
  • service httpd status
  • service opchartsd status
  • service opeventsd status
  • service opconfigd status
  • service opflowd status
  • service crond status
  • service snmpd status
  • service iptables status

De igual forma, se revisa que SELinux esté desactivado.

TSW

En caso de que se detecte que algún servicio esté down y sea importante para el funcionamiento del sistema, debe reiniciarse como indica el script.

Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo.

6. Load average

Esta prueba permite saber la carga promedio del sistema para un periodo de tiempo definido.

El script nos muestra algunas interpretaciones para saber qué está sucediendo en el servidor:

  • Si los promedios son 0.0, entonces el sistema está inactivo.
  • Si el promedio de 1 minuto es más alto que los promedios de 5 o 15 minutos, entonces la carga está aumentando.
  • Si el promedio de 1 minuto es más bajo que los promedios de 5 o 15 minutos, entonces la carga está disminuyendo.
  • Si los promedios son más altos que el recuento del CPU, es posible que se tenga un problema de rendimiento.

TSW

7. Top 5 processes by CPU and Memory

Muestra los 5 principales procesos que están utilizando más porcentaje del CPU en el servidor, además de detalles del CPU y de la memoria.

Al final muestra un tip de que si los procesos superan el 85% de la CPU o la memoria, se realice una investigación, ya que podría ser un caso de procesos que se han quedado colgados o que no responden.

TSW


8. Tcpdump

El comando tcpdump nos permite capturar en un archivo el tráfico de la red en la que se encuentre el servidor del cliente.

Con esto, el operador puede saber si existe algún problema en la comunicación entre el servidor y los equipos agregados a NMIS y sus módulos, ya que al analizarlo se dará cuenta si existe pérdida de paquetes en el tráfico de la red.

Cuando termina la ejecución del comando, se crean 2 archivos .pcap en el directorio /tmp para que puedan descargarse y analizarse con Wireshark.



9. Local IP routing table

Permite conocer el estado y configuración de las tablas de rutas IP, que nos sirven para enviar y saber cómo se envían los paquete en las distintas redes que se tienen configuradas en el servidor en cuestión.

TSW

10. List of logged users

Permite saber quiénes son los usuarios que están utilizando el shell en ese momento, esto servirá para mantener una mejor administración de las personas que acceden y, en algunas ocasiones, de los que modifican algún archivo importante del sistema.

TSW

11. Log user audit

Es importante conocer el inicio de sesión de cada uno de los usuarios que utilizan el sistema, esto servirá para saber si alguno de ellos realizó alguna modificación que podría haber ocasionado el mal funcionamiento del mismo. 

La ejecución de esta sección, permite revisar logs del sistema, obtiene una vista de usuarios conectados, búsqueda de errores, mensajes críticos y alertas en los registros del sistema operativo.

Al final, se muestra un tip para que, si el operador observa muchos intentos de autenticación fallidos, contacte a los usuarios para que pueda saber qué está sucediendo.

TSW


12. Show last used commands

Esta revisión va de la mano con el punto anterior y nos permitirá conocer los últimos 30 comandos ejecutados en el servidor.

De igual forma, los 10 comandos más utilizados de esa lista de 30 y el número de veces que se han ejecutado.

TSW

13. Show DNS config

La revisión del archivo /etc/resolve.conf es importante, ya que nos permitirá saber si la configuración de los nombres de dominio y la redirección a alguna IP importante es correcta.

Se puede confirmar que la estructura del archivo señalado es la adecuada.

TSW

14. Internet web test

Se realiza una prueba para enviar tres paquetes de internet al servidor de Google y verificar la conectividad a internet del servidor. Esto sirve para poder actualizar paquetes que requieran descargarse vía internet directamente en consola, como yum y cpan.

De igual forma, muestra la IP pública del servidor.

TSW

2. Review NMIS Configuration Consistency

Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

TSW

1. Compare file configurations

Permite realizar una comparación de los archivos:

  • /usr/local/nmis9/conf-default/Config.nmis y /usr/local/nmis9/conf/Config.nmis

Para poder encontrar alguna inconsistencia en la configuración que pueda estar causando algún problema con el funcionamiento de NMIS.

TSW

2. Execute fixperms rutine

Ejecuta en automático el comando /usr/local/nmis9/bin/nmis-cli act=fixperms, que permite al operador la corrección general de los permisos de todos los archivos del sistema.

TSW

3. Crontab checking

Ejecuta una comprobación de la configuración de cada uno de los archivos de cron con los que NMIS y los módulos funcionan, esto para comprobar que no exista alguna rutina que esté causando algún conflicto que pueda afectar el funcionamiento del sistema.

De igual forma, ejecuta un ll en /etc/cron.d/ para comprobar que no se tienen backups dentro de esa carpeta, ya que puede provocar problemas para la ejecución de las tareas y da un tip para que, si se encuentran backups, se muevan de carpeta o se eliminen.

TSW

4. Last changed files

Ejecuta una búsqueda de los últimos archivos modificados en diferentes directorios:

  • /nmis9/admin/
  • /nmis9/bin/
  • /nmis9/cgi-bin/
  • /nmis9/conf/
  • /nmis9/conf-default/
  • /nmis9/models-custom/
  • /nmis9/models-default/
  • /nmis9/lib/
  • /omk/conf/
  • /omk/lib/json/
  • /omk/public/omk/
  • /etc/cron.d/

Y los acomoda del archivo modificado más recientemente hasta el más antiguo.

Al final, se muestra un tip para que el operador verifique si algún cambio reciente en los archivos está causando un problema en el sistema.

TSW

5. Server Performance Tuning

Muestra los diferentes parámetros que pueden ser modificados para mejorar el rendimiento del servidor, más específicamente en los archivos:

  • /nmis9/conf/Config.nmis
  • /omk/conf/opCommon.nmis
  • /etc/mongod.conf

Al finalizar la ejecución, muestra la Wikipedia en la que se detalla todo este movimiento para el tuning: Configuration Options for Server Performance Tuning.

TSW

3. Nodes Troubleshooter

Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

TSW

1. Polling summary Test

Ejecuta el comando /usr/local/nmis8/admin/polling_summary.pl, que sirve para conocer el tiempo que el servidor tarda en recolectar la información de los nodos agregados a NMIS y si alguna operación está fallando o nunca se ha realizado (como las consultas SNMP, por ejemplo).

Al final, se puede ver un resumen de cuántos nodos tienen un collect tardío y, presionando la tecla l (ele), se puede enviar este resumen hacia un archivo para que se pueda descargar del servidor.

TSW

2. Traceroute Test

Permite rastrear en tiempo real la ruta tomada por un paquete en una red IP desde el origen hasta el destino, informando las direcciones IP de todos los enrutadores entre los que hizo ping.

Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSW

3. MTR Test

Permite analizar la conexión entre el servidor donde se ejecuta el comando y el host destino especificado por el usuario.

Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSW

4. Ping Test

Permite probar si un host en particular es alcanzable a través de la red configurada en el servidor y medir el tiempo que tardan los paquetes en enviarse y recibirse.

Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSW

5. SNMP
 Test

Permite consultar los datos SNMP de un dispositivo. Se utiliza el comando snmpwalk porque le permite al usuario encadenar solicitudes sin tener para ingresar comandos únicos para cada OID o nodo dentro de un subárbol.

Esto ayuda a saber si el nodo en cuestión está respondiendo de forma correcta al protocolo y a comprobar que NMIS esté recopilando sus métricas adecuadamente.

El script cuenta con consultas SNMPv1, SNMPv2 o SNMPv3 y al final muestra un tip para que el operador consulte al administrador en caso de que el equipo tenga problemas en la respuesta.

TSW

TSW

TSW


6. Update
 nodes Test

Permite realizar un update a un nodo específico, utilizando su hostname.

Se ejecuta el comando /usr/local/nmis9/bin/nmis-cli act=schedule job.type=update job.verbosity=1 job.node=nombredelnodo job.force=1

TSW

7. Collect nodes Test

Permite realizar un collect a un nodo específico, utilizando su hostname.

Se ejecuta el comando /usr/local/nmis9/bin/nmis-cli act=schedule job.type=collect job.verbosity=1 job.node=nombredelnodo job.force=1

TSW

8. Event search

Permite realizar búsquedas en las carpetas /usr/local/nmis9/logs/ y /usr/local/omk/logs/, lo cual facilitará al operador la investigación cualquier hecho o acontecimiento que esté causando alguna falla en el servidor.

Debe colocarse la palabra o palabras a buscar para poder realizar la operación.

TSW

9. Nodes backup

Permite realizar un backup del las propiedades actuales de los nodos (recordando que ya no existe un archivo Nodes.nmis como tal).

Esto es muy importante para el operador, sobre todo antes de realizar cualquier modificación que tenga que ver con los equipos agregados a NMIS.

TSW

4. Execute Smart Diagnostics

Permite ejecutar de forma automática todas las pruebas contenidas en el script con solo acceder a la opción correspondiente.

Al final, se genera un archivo .tar.gz que deberá ser adjuntado por el operador si se abre un ticket de Soporte, como se menciona en el tip.

TSW

5. Create System Backup File

Realiza una copia de seguridad de los directorios de configuración para conservar todos los ajustes realizados por el cliente.

Debe señalarse la carpeta en la cual se va a realizar este respaldo, en este ejemplo utilizamos /tmp y el script comenzará a ejecutarlo.

El programa muestra el árbol de las carpetas y archivos respaldados y el nombre del archivo .tar.gz generado.

TSW


6. Execute Support Automation Tool

Permite ejecutar la herramienta de soporte de NMIS y los módulos, la cual recopila toda la información relevante sobre el estado y la configuración del servidor en 2 archivos:

  • nmis-support.zip
  • omk-support.zip

Al final, estos dos archivos deberán ser adjuntados al mail enviado al Soporte de Opmantek para su análisis.

TSW