Esta página está destinada a proporcionar información del de la instalción y uso del Troubleshooting Wizard, que tiene como objetivo ayudar a los clientes a ejecutar un diagnóstico completo de su servidor o servidores para determinar las causas de un posible problema con los mismos(s) servidor(es) para determinar la causa raíz de algún probable problema que se esté presentando.

Abarcaremos desde la recepción del mail por parte del cliente con la descripción del problemadescarga e implementación del archivo de Troubleshooting, pasando por el análisis de servidores, archivos de configuuración de NMIS y nodos agregados, hasta conclusiones y recomendaciones para que pueda solucionarse la incidencia reportadacompleto del servidor utilizando cada uno de los menús interactivos del programa.

Este documento está basado en las pruebas mencionadas en la página Proceso de resolución de problemas de dispositivos en NMIS.

...

e) Detalles adicionales, por ejemplo: configuración actual de cron de NMIS por lo menos, configuración actual del archivo /etc/mongod.conf, configuración de parámetros de base de datos en /usr/local/omk/conf/opCommon.nmis, si se modificó algún archivo recientemente, si alguna configuración realizada ya sea en el servidor o en los equipos provocó la incidencia.

Troubleshooting Wizard: Instalación y ejecución

El archivo de instalación (.sh) puede conseguirse en el siguiente link de GitHub: https://github.com/tom-tics/TS_Wizard_NMIS8_OPMANTEK.

Debe descargarse y subirse al servidor en el cual se quiera realizar el análisis mediante un cliente FTP (como FileZilla), a la carpeta deseada por el cliente.

Una vez que ya se tenga el archivo en el servidor, lo ejecutamos con el comando: sh 01_TS_Wizard_OMK.sh

TSW Image Added

Una vez que hayamos ejecutado el archivo, accederemos a la pantalla inicial, donde se muestran los detalles del Sistema Operativo, como es la versión de Linux y un pequeño resumen de la memoria y CPU del sistema.

De igual forma, se muestra el Menú Principal, donde encontraremos las diferentes opciones a las que podemos acceder:

Execute Healthcheck: podremos realizar una revisión completa del servidor.
NMIS Configuration Consistency : podremos revisar la consistencia de los archivos de configuración más importantes de NMIS.
Nodes Troubleshooter: podremos revisar el comportamiento de los nodos agregados a NMIS.
Smart Diagnostic: crea un diagnóstico completo del sistema en un archivo .tar.gz, el cual podrá adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek
Create System Backup File: crea un archivo .tar.gz que contendrá un backup de las carpetas /etc/* y /usr/local/*.
Execute Support Automation Tool: genera un archivo de soporte de NMIS y uno de OMK, los cuales podrán adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek.

Troubleshooting Wizard: Funcionalidades

...

1. Execute Healthcheck

Podremos elegir entre diferentes opciones, las cuales se muestran a continuación:

Image Added

1.

...

TOP

Este comando nos dará información da información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.

Siempre será importante basarnos en el load average y en el %CPU, ya que si estos valores son altos, tendremos seguramente un problema en algún o algunos procesos que se están ejecutando actualmente.

top Image Removed

...

.

Al final de la ejecución del comando, nos muestra una serie de tips, como son:

Comprobar las particiones de los discos.
Limpiar archivos de registro que ocupen demasiado espacio.
Eliminar caché.

Image Added

2. System date and time

Es muy importante que el servidor tenga configurada de forma correcta la fecha y hora, según la zona horaria de cada cliente; esto debido a que hay muchos procesos que se ejecutan en lapsos específicos de tiempo y también , de igual forma, los logs del sistema y los registros de modificación de archivos, contienen marcas de tiempo para poder detectarse en caso de un error.

Es por eso que el script incluye la ejecución del comando date, se incluye este apartado para que el operador sepa que la fecha y hora del sistema son adecuadas y. Al final, en caso de que el servidor no , ajustarlas como corresponde si es que no se trabaja con un NTP (que es lo más recomendado).

...

tenga un NTP activado, se muestra un tip para contactar al administrador del sistema y verificarlo.

Image Added

3. Disk R/W

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.Basta con ejecutar un par de .

El programa ejecuta los comandos:

dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
dd if=/data/omkTestFile of=/dev/null 2>&1

Y después analizar , muestra la salida, que se tiene que comparar con los siguientes valores:

0.0X s, parámetros correctos.
0.X s, hay una advertencia (y podría generar un problema).
X.0 s, es crítico (y existe un problema).

...

.

De igual forma, se ejecuta un iostat -x 5 4, que se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos, lo cual se señala al final de la ejecución del comando.

Image Added

4. Revisión de filesystems

Se revisa el Muestra un análisis detallado del espacio en cada uno de los filesystems del sistema, esto para comprobar que la posible incidencia no se esté presentando por una falta de espacio en el servidor.

Se ejecutaa el comando como sigue:

df -h

df -h Image Removed. También muestra un tip de que si el uso es +85% en alguno de los ficheros, se contacte al administrador para que se puedan depurar.

De igual forma, ejecuta un comando para saber la utilización de la memoria RAM y swap del sistema, mostrando un tip si se tiene un alto porcentaje de utilización para contactar al administrador y ver qué está sucediendo.

Image Added

5. Revisión de servicios del sistema

...

Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.

6. Revisión de tiempos de carga del servidor

Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.

Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:

iostat -xtc 3 5

iostat Image Removed

7. Top de los 20 procesos del CPU

...

Versions Compared

Old Version 24

New Version 25

Key

Troubleshooting Wizard: Instalación y ejecución

Troubleshooting Wizard: Funcionalidades

1. Execute Healthcheck

1.