...
Esta página está destinada a proporcionar información de la instalción instalación y uso del Troubleshooting Wizard, que tiene como objetivo ayudar a los clientes a ejecutar un diagnóstico completo de su(s) servidor(es) para determinar la causa raíz de algún probable problema que se esté presentando.
...
El archivo de instalación del script (01_TS_Wizard_OMK.sh) puede conseguirse en ) y los dos scripts complementarios para su ejecución (Busqueda.pl y config_backup_LATAM.pl), pueden descargarse desde el siguiente link de GitHub: https://github.com/tom-tics/TS_Wizard_NMIS8_OPMANTEK.
Debe descargarse y subirse al Deben subirse los tres a la misma carpeta del servidor en el cual se quiera realizar realizará el análisis mediante un cliente FTP (como FileZilla), a la carpeta deseada por el cliente.
Una vez que ya se tenga el archivo tengan los tres archivos en el servidor, lo ejecutamos debe ejecutarse con el comando: sh 01_TS_Wizard_OMK.sh
...
De igual forma, se muestra el Menú Principal, donde encontraremos las diferentes opciones a las que podemos acceder:
- Execute Healthcheck: podremos realizar una revisión completa del servidor.
- NMIS Configuration Consistency: podremos revisar la consistencia de los archivos de configuración más importantes de NMIS.
- Nodes Troubleshooter: podremos revisar el comportamiento de los nodos agregados a NMIS.
- Smart Diagnostic: crea un diagnóstico completo del sistema en un archivo .tar.gz, el cual podrá adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek
- Create System Backup File: crea un archivo .tar.gz que contendrá un backup de las carpetas /etc/* y /usr/local/*.
- Execute Support Automation Tool: genera un archivo de soporte de NMIS y uno de OMK, los cuales podrán adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek.
Troubleshooting Wizard: Funcionalidades
1. Execute Healthcheck
Podremos Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:
...
Cuando termina la ejecución del comando, se crean 2 archivos .pcap en el directorio /tmp para que puedan descargarse y analizarse con Wireshark.
...
Permite conocer el estado y configuración de las tablas de rutas IP, que nos sirven para enviar y saber cómo se envían los paquete en las distintas redes que se tienen configuradas en el servidor en cuestión.
10. List of logged users
...
Permite saber quiénes son los usuarios que están utilizando el shell en ese momento, esto servirá para mantener una mejor administración de las personas que acceden y, en algunas ocasiones, de los que modifican algún archivo importante del sistema.
...
Se puede confirmar que la estructura del archivo señalado es la adecuada.
14.
...
Internet web test
Se realiza una prueba para enviar tres paquetes de internet al servidor de Google y verificar la conectividad a internet del servidor. Esto sirve para poder actualizar paquetes que requieran descargarse vía internet directamente en consola, como yum y cpan.
...
2. NMIS Configuration Consistency
Podremos Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:
...
Ejecuta en automático el comando /usr/local/nmis8/admin/fixperms.pl, que permite al operador la corrección general de los permisos de todos los archivos del sistema.
5. Model checking
Ejecuta una validación de sintaxis y verificación de longitud variable en los archivos de la carpeta de modelos /usr/local/nmis8/models/*.
...
Al final, se muestra un tip para que el operador verifique si algún cambio reciente en los archivos está causando un problema en el sistema.
3. Nodes Troubleshooter
Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:
1. Polling summary
Ejecuta el comando /usr/local/nmis8/admin/polling_summary.pl, que sirve para conocer el tiempo que el servidor tarda en recolectar la información de los nodos agregados a NMIS y si alguna operación está fallando o nunca se ha realizado (como las consultas SNMP, por ejemplo).
Al final, se puede ver un resumen de cuántos nodos tienen un collect tardío , así como también un resumen de los nodos que sí colectan y los que no; así como también algunos tips para la revisión de nodos en específico.y, presionando la tecla l (ele), se puede enviar este resumen hacia un archivo para que se pueda descargar del servidor.
2. Traceroute
Permite rastrear en tiempo real la ruta tomada por un paquete en una red IP desde el origen hasta el destino, informando las direcciones IP de todos los enrutadores entre los que hizo ping.
Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.
3. MTR
Permite analizar la conexión entre el servidor donde se ejecuta el comando y el host destino especificado por el usuario.
Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.
4. Ping
Permite probar si un host en particular es alcanzable a través de la red configurada en el servidor y medir el tiempo que tardan los paquetes en enviarse y recibirse.
Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.
5. SNMP
Permite consultar los datos SNMP de un dispositivo. Se utiliza el comando snmpwalk porque le permite al usuario encadenar solicitudes sin tener para ingresar comandos únicos para cada OID o nodo dentro de un subárbol.
...
El script cuenta con consultas SNMPv1, SNMPv2 o SNMPv3 y al final muestra un tip para que el operador consulte al administrador en caso de que el equipo tenga problemas en la respuesta.
6. Update
nodes
Permite realizar un update a un nodo específico,
7. Collect nodes
Permite realizar utilizando su hostname.
Se ejecuta el comando /usr/local/nmis8/bin/nmis.pl type=update node='nodo' force=1 debug=1
7. Collect nodes
Permite realizar un collect a un nodo específico, para saber si se está realizando correctamente.
...
utilizando su hostname.
Se ejecuta el comando /usr/local/nmis8/bin/nmis.pl type=collect node='nodo' force=1 debug=1
8. Event search
Permite realizar búsquedas en los archivos de logs del sistemalas carpetas /usr/local/nmis8/logs/ y /usr/local/omk/logs/, lo cual facilitará al operador la investigación cualquier hecho o acontecimiento que esté causando alguna falla en el servidor.
Debe colocarse la palabra o palabras a buscar y el archivo o archivos en los que se va a buscar. Al final, esa búsqueda se almacenará en un archivo de texto para poder extraerlo del servidor y analizarlo de una mejor manera.para poder realizar la operación.
9. Nodes.nmis backup
...
Esto es muy importante para el operador, sobre todo antes de realizar cualquier modificación que tenga que ver con los equipos agregados a NMIS.
10.
...
Support
...
zip
Permite ejecutar la herramienta de soporte de NMIS y los módulos, la cual recopila toda la información relevante sobre el estado y la configuración del servidor en 2 archivos:
...
Al final, estos dos archivos deberán ser adjuntados al mail enviado al Soporte de Opmantek para su análisis.
...
4. Smart Diagnostic
Permite ejecutar pruebas inteligentes de forma automática , que le permitirán al operador revisar de forma rápida el estado del servidor y diagnosticar si hay algún problema o encontrar detalles que se puedan corregir a tiempo para evitarlo.
Show version of RRD/mongo
Zombies checkup
Primer borrador
Análisis de causas
En este apartado se realizará la evaluación de todas los posibles motivos que llevaron a que la incidencia ocurriera según reporta el cliente en cuestión, revisando cada uno de los parámetros de importancia del servidor, desde archivos de configuración importantes, pasando por hardware, software y, de ser necesario, revisión a fondo de los nodos involucrados.
Es importante que el cliente envíe un NMIS Support Tool y/o un OMK Support Tool desde el inicio, esto para tener una copia de los archivos de configuración más importantes en el momento del reporte de la incidencia.
2.1. Análisis de Support Tool
Dependiendo del escenario, comenzaremos revisando los archivos importantes contenidos en el Support Tool, se mencionan algunos de ellos a continuación:
- Carpeta conf: Config.nmis, Nodes.nmis, Users.nmis
- Carpeta logs: error_log, event.log, nmis.log.
- Carpeta models: revisar si hubo algún cambio reciente que pudiera afectar.
- Carpeta system_status: cpuinfo, disk_info, iostat, meminfo, top.
- Carpeta system_status/apache: revisar los archivos de configuración.
- Carpeta system_status/cron: revisar si el crontab contiene algún comando que pueda crear conflicto con otro cron.
- Carpeta system_status/cron.d: revisar si no hay un cron duplicado y que al menos el cron de nmis esté configurado de manera correcta.
2.2. Análisis de cambio de configuraciones
En este análisis nos servirá de mucha ayuda el Support Tool enviado por el cliente, ya que podremos darnos cuenta si algún archivo de configuración fue modificado en los últimos días.
De igual forma, debemos tener acceso al servidor en cuestión, para poder verificar si se hizo algún backup y así poder restablecer el archivo a los parámetros anteriores.
Las principales carpetas a revisar son:
- /usr/local/nmis8/conf
- /usr/local/omk/conf
- /etc/cron.d
2.4. Análisis de nodos
En este punto, se ejecutará un análisis a fondo de los nodos en los cuales se haya detectado algún problema durante el momento de la incidencia.
Se recomienda revisar las siguientes gráficas en NMIS:
- Gráfica de KPIs
- Gráfica de Reachability, Availability and Health
- Gráfica de Response Time
- Gráfica de IP Utilisation
De igual forma, se recomienda realizar búsquedas mediante un ps -fea | grep nombredenodo de los nombres de los nodos en las carpetas:
- /usr/local/nmis8/logs
- /usr/local/omk/logs
Esto con la finalidad de encontrar detalles que pudieron afectar los collects y/o los updates de los nodos, o algún tema en los módulos que impliquen lo
3. Análisis de resultados
En
4. Conclusiones y recomendaciones
Entodas las pruebas contenidas en el script con solo acceder a la opción correspondiente.
Al final, se genera un archivo .tar.gz que deberá ser adjuntado por el operador si se abre un ticket de Soporte, como se menciona en el tip.
5. Create System Backup File
Realiza una copia de seguridad de los directorios de configuración para conservar todos los ajustes realizados por el cliente.
Debe señalarse la carpeta en la cual se va a realizar este respaldo, en este ejemplo utilizamos /tmp y el script comenzará a ejecutarlo.
El programa muestra el árbol de las carpetas y archivos respaldados y el nombre del archivo .tar.gz generado.
6. Execute Support Automation Tool
Permite ejecutar la herramienta de soporte de NMIS y los módulos, la cual recopila toda la información relevante sobre el estado y la configuración del servidor en 2 archivos:
- nmis-support.zip
- omk-support.zip
Al final, estos dos archivos deberán ser adjuntados al mail enviado al Soporte de Opmantek para su análisis.