Esta página está destinada a proporcionar información del de la instalción y uso del Troubleshooting Wizard, que tiene como objetivo ayudar a los clientes a ejecutar un diagnóstico completo de su servidor o servidores para determinar las causas de un posible problema con los mismos(s) servidor(es) para determinar la causa raíz de algún probable problema que se esté presentando.
Abarcaremos desde la recepción del mail por parte del cliente con la descripción del problemadescarga e implementación del archivo de Troubleshooting, pasando por el análisis de servidores, archivos de configuuración de NMIS y nodos agregados, hasta conclusiones y recomendaciones para que pueda solucionarse la incidencia reportadacompleto del servidor utilizando cada uno de los menús interactivos del programa.
Este documento está basado en las pruebas mencionadas en la página Proceso de resolución de problemas de dispositivos en NMIS.
...
e) Detalles adicionales, por ejemplo: configuración actual de cron de NMIS por lo menos, configuración actual del archivo /etc/mongod.conf, configuración de parámetros de base de datos en /usr/local/omk/conf/opCommon.nmis, si se modificó algún archivo recientemente, si alguna configuración realizada ya sea en el servidor o en los equipos provocó la incidencia.
Troubleshooting Wizard: Instalación y ejecución
El archivo de instalación (.sh) puede conseguirse en el siguiente link de GitHub: https://github.com/tom-tics/TS_Wizard_NMIS8_OPMANTEK.
Debe descargarse y subirse al servidor en el cual se quiera realizar el análisis mediante un cliente FTP (como FileZilla), a la carpeta deseada por el cliente.
Una vez que ya se tenga el archivo en el servidor, lo ejecutamos con el comando: sh 01_TS_Wizard_OMK.sh
Una vez que hayamos ejecutado el archivo, accederemos a la pantalla inicial, donde se muestran los detalles del Sistema Operativo, como es la versión de Linux y un pequeño resumen de la memoria y CPU del sistema.
De igual forma, se muestra el Menú Principal, donde encontraremos las diferentes opciones a las que podemos acceder:
- Execute Healthcheck: podremos realizar una revisión completa del servidor.
- NMIS Configuration Consistency : podremos revisar la consistencia de los archivos de configuración más importantes de NMIS.
- Nodes Troubleshooter: podremos revisar el comportamiento de los nodos agregados a NMIS.
- Smart Diagnostic: crea un diagnóstico completo del sistema en un archivo .tar.gz, el cual podrá adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek
- Create System Backup File: crea un archivo .tar.gz que contendrá un backup de las carpetas /etc/* y /usr/local/*.
- Execute Support Automation Tool: genera un archivo de soporte de NMIS y uno de OMK, los cuales podrán adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek.
Troubleshooting Wizard: Funcionalidades
...
1. Execute Healthcheck
Podremos elegir entre diferentes opciones, las cuales se muestran a continuación:
1.
...
TOP
Este comando nos dará información da información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.
Siempre será importante basarnos en el load average y en el %CPU, ya que si estos valores son altos, tendremos seguramente un problema en algún o algunos procesos que se están ejecutando actualmente.
...
.
Al final de la ejecución del comando, nos muestra una serie de tips, como son:
- Comprobar las particiones de los discos.
- Limpiar archivos de registro que ocupen demasiado espacio.
- Eliminar caché.
2. System date and time
Es muy importante que el servidor tenga configurada de forma correcta la fecha y hora, según la zona horaria de cada cliente; esto debido a que hay muchos procesos que se ejecutan en lapsos específicos de tiempo y también , de igual forma, los logs del sistema y los registros de modificación de archivos, contienen marcas de tiempo para poder detectarse en caso de un error.
Es por eso que el script incluye la ejecución del comando date, se incluye este apartado para que el operador sepa que la fecha y hora del sistema son adecuadas y. Al final, en caso de que el servidor no , ajustarlas como corresponde si es que no se trabaja con un NTP (que es lo más recomendado).
...
tenga un NTP activado, se muestra un tip para contactar al administrador del sistema y verificarlo.
3. Disk R/W
Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.Basta con ejecutar un par de .
El programa ejecuta los comandos:
- dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
- dd if=/data/omkTestFile of=/dev/null 2>&1
Y después analizar , muestra la salida, que se tiene que comparar con los siguientes valores:
- 0.0X s, parámetros correctos.
- 0.X s, hay una advertencia (y podría generar un problema).
- X.0 s, es crítico (y existe un problema).
...
- .
De igual forma, se ejecuta un iostat -x 5 4, que se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos, lo cual se señala al final de la ejecución del comando.
4. Revisión de filesystems
Se revisa el Muestra un análisis detallado del espacio en cada uno de los filesystems del sistema, esto para comprobar que la posible incidencia no se esté presentando por una falta de espacio en el servidor.
Se ejecutaa el comando como sigue:
- df -h
. También muestra un tip de que si el uso es +85% en alguno de los ficheros, se contacte al administrador para que se puedan depurar.
De igual forma, ejecuta un comando para saber la utilización de la memoria RAM y swap del sistema, mostrando un tip si se tiene un alto porcentaje de utilización para contactar al administrador y ver qué está sucediendo.
5. Revisión de servicios del sistema
...
Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.
6. Revisión de tiempos de carga del servidor
Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.
Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:
- iostat -xtc 3 5
7. Top de los 20 procesos del CPU
...