Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

TSWImage Modified

Esta página está destinada a proporcionar información de la instalción instalación y uso del Troubleshooting Wizard, que tiene como objetivo ayudar a los clientes a ejecutar un diagnóstico completo de su(s) servidor(es) para determinar la causa raíz de algún probable problema que se esté presentando.

...

El archivo de instalación del script (01_TS_Wizard_OMK.sh) puede conseguirse en y los dos scripts complementarios para su ejecución (Busqueda.pl y config_backup_LATAM.pl), pueden descargarse desde el siguiente link de GitHub: https://github.com/tom-tics/TS_Wizard_NMIS8_OPMANTEK.

Debe descargarse y subirse al Deben subirse los tres a la misma carpeta del servidor en el cual se quiera realizar realizará el análisis mediante un cliente FTP (como FileZilla), a la carpeta deseada por el cliente.Una vez .

Una vez que ya se tenga el archivo tengan los tres archivos en el servidor, lo ejecutamos debe ejecutarse con el comando: sh 01_TS_Wizard_OMK.sh

TSWImage RemovedTSWImage Added

Una vez que hayamos ejecutado el archivo, accederemos a la pantalla inicial, donde se muestran los detalles del Sistema Operativo, como es la versión de Linux y un pequeño resumen de la memoria y CPU del sistema.

De igual forma, se muestra el Menú Principal, donde encontraremos las diferentes opciones a las que podemos acceder:

  1. Execute Healthcheck: podremos realizar una revisión completa del servidor.
  2. NMIS Configuration Consistency: podremos revisar la consistencia de los archivos de configuración más importantes de NMIS.
  3. Nodes Troubleshooter: podremos revisar el comportamiento de los nodos agregados a NMIS.
  4. Smart Diagnostic: crea un diagnóstico completo del sistema en un archivo .tar.gz, el cual podrá adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek
  5. Create System Backup File: crea un archivo .tar.gz que contendrá un backup de las carpetas /etc/* y /usr/local/*.
  6. Execute Support Automation Tool: genera un archivo de soporte de NMIS y uno de OMK, los cuales podrán adjuntarse en caso de que se requiera abrir un ticket con el Soporte de Opmantek.

Troubleshooting Wizard: Funcionalidades

1. Execute Healthcheck

Podremos Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

Image RemovedTSWImage Added

1. TOP

Este comando nos da información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.

...

  • Comprobar las particiones de los discos.
  • Limpiar archivos de registro que ocupen demasiado espacio.
  • Eliminar caché.

Image RemovedTSWImage Added

2. System date and time

...

Es por eso que se incluye este apartado para que el operador sepa que la fecha y hora del sistema son adecuadas. Al final, en caso de que el servidor no tenga un NTP activado, se muestra un tip para contactar al administrador del sistema y verificarlo.

Image RemovedTSWImage Added

3. Disk R/W

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor.

...

De igual forma, se ejecuta un iostat -x 5 4, que se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos, lo cual se señala al final de la ejecución del comando.Image Removed

TSWImage Added

4. Filesystem

Muestra un análisis detallado del espacio en cada uno de los filesystems del sistema, esto para comprobar que la posible incidencia no se esté presentando por una falta de espacio en el servidor. También muestra un tip de que si el uso es +85% en alguno de los ficheros, se contacte al administrador para que se puedan depurar.

De igual forma, ejecuta un comando para saber la utilización de la memoria RAM y swap del sistema, mostrando un tip si se tiene un alto porcentaje de utilización para contactar al administrador y ver qué está sucediendo.Image Removed

TSWImage Added

5. Service status

Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los procesos esenciales se estén ejecutando de manera correcta.

...

De igual forma, se revisa que SELinux esté desactivado.

Image RemovedTSWImage Added

En caso de que se detecte que algún servicio esté down y sea importante para el funcionamiento del sistema, debe reiniciarse como indica el script.

...

  • Si los promedios son 0.0, entonces el sistema está inactivo.
  • Si el promedio de 1 minuto es más alto que los promedios de 5 o 15 minutos, entonces la carga está aumentando.
  • Si el promedio de 1 minuto es más bajo que los promedios de 5 o 15 minutos, entonces la carga está disminuyendo.
  • Si los promedios son más altos que el recuento del CPU, es posible que se tenga un problema de rendimiento.

Image RemovedTSWImage Added

7. Top 5 processes by CPU and Memory

...

Al final muestra un tip de que si los procesos superan el 85% de la CPU o la memoria, se realice una investigación, ya que podría ser un caso de procesos que se han quedado colgados o que no responden.

Image RemovedTSWImage Added


8. Tcpdump

El comando tcpdump nos permite capturar en un archivo el tráfico de la red en la que se encuentre el servidor del cliente, para después analizarlo con algún programa como Wireshark.

Con esto, el operador puede saber si existe algún problema en la comunicación entre el servidor y los equipos agregados a NMIS y sus módulos, ya que al analizarlo se dará cuenta si existe pérdida de paquetes en el tráfico de la red.

Image Removed

...

Cuando termina la ejecución del comando, se crean 2 archivos .pcap en el directorio /tmp para que puedan descargarse y analizarse con Wireshark.

TSWImage Added

9. Local IP routing table

Permite conocer el estado y configuración de las tablas de rutas IP, que nos sirven para enviar y saber cómo se envían los paquete en las distintas redes que se tienen configuradas en el servidor en cuestión.

10. List of logged users

...

Permite saber quiénes son los usuarios que están utilizando el shell en ese momento, esto servirá para mantener una mejor administración de las personas que acceden y, en algunas ocasiones, de los que modifican algún archivo importante del sistema.

Image RemovedTSWImage Added

11. Log user audit

...

La ejecución de esta sección, permite revisar logs del sistema, obtiene una vista de usuarios conectados, búsqueda de errores, mensajes críticos y alertas en los registros del sistema operativo.

Image Removed


12. Show last used commands

Esta revisión va de la mano con el Al final, se muestra un tip para que, si el operador observa muchos intentos de autenticación fallidos, contacte a los usuarios para que pueda saber qué está sucediendo.

TSWImage Added


12. Show last used commands

Esta revisión va de la mano con el punto anterior y nos permitirá conocer los últimos 30 comandos ejecutados en el servidor.

De igual forma, los 10 comandos más utilizados de esa lista de 30 y el número de veces que se han ejecutado.

Image RemovedTSWImage Added

13. Show DNS config

...

Se puede confirmar que la estructura del archivo señalado es la adecuada.

Image RemovedTSWImage Added

14.

...

Internet web test

Se realiza una prueba para enviar tres paquetes de internet al servidor de Google y verificar la conectividad a internet del servidor. Esto sirve para poder actualizar paquetes que requieran descargarse vía internet directamente en consola, como yum y cpan.

De igual forma, muestra la IP pública del servidor.

Image RemovedTSWImage Added

2. NMIS Configuration Consistency

1. Check NMIS code

Permite Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

TSWImage Added

1. Check NMIS code

Permite comprobar la sintaxis de los archivos de configuración de la carpeta /usr/local/nmis8/* y muestra si hay algún error en los códigos.

Se muestra un tip para que el operador revise los archivos que se encuentren con alguna inconsistencia.

Image RemovedTSWImage Added

2. Perform a configuration backup

...

El programa muestra el árbol de las carpetas y archivos respaldados y el nombre del archivo .tar.gz generado.

Image RemovedTSWImage Added

3. Compare file configurations

...

Para poder encontrar alguna inconsistencia en la configuración que puedan estar causando algún problema con NMIS y/o los módulos.

Image RemovedTSWImage Added

4. Execute fixperms rutine

Ejecuta en automático el comando /usr/local/nmis8/admin/fixperms.pl, que permite al operador la corrección general de los permisos de todos los archivos del sistema.Image Removed

TSWImage Added

5. Model checking

Ejecuta una validación de sintaxis y verificación de longitud variable en los archivos de la carpeta de modelos /usr/local/nmis8/models/*.

...

Si el script encuentra algún detalle, lo señala y al final da un tip para que el operador revise esa inconsistencia.

Image RemovedTSWImage Added

6. Crontab checking

...

De igual forma, ejecuta un ll en /etc/cron.d/ para comprobar que no se tienen backups dentro de esa carpeta, ya que puede provocar problemas para la ejecución de las tareas y da un tip para que, si se encuentran backups, se muevan de carpeta o se eliminen.

Image RemovedTSWImage Added

7. Verify CPAN libraries

Ejecuta una comprobación de las bibliotecas CPAN y muestra cuáles hacen falta para que el operador pueda instalarlas en caso de ser necesario.

Image RemovedTSWImage Added

8. Last changed files

...

Y los acomoda del archivo modificado más recientemente hasta el más antiguo.

Esto es importante Al final, se muestra un tip para que el operador pueda saber si alguna modificación en días recientes puede haber causado un mal funcionamiento del verifique si algún cambio reciente en los archivos está causando un problema en el sistema.

Image RemovedTSWImage Added

3. Nodes Troubleshooter

Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

TSWImage Added

1. Polling summary

Esta herramienta ayudará a determinar el tiempo que el servidor tarda en recolectar Ejecuta el comando /usr/local/nmis8/admin/polling_summary.pl, que sirve para conocer el tiempo que el servidor tarda en recolectar la información de los nodos agregados a NMIS y si no se puede completar algunaa operación.Se podrá ver alguna operación está fallando o nunca se ha realizado (como las consultas SNMP, por ejemplo).

Al final, se puede ver un resumen de cuántos nodos tienen un collect tardío , así como también un resumen de los nodos que sí colectan y los que no./usr/local/nmis8/admin/polling_summary.ply, presionando la tecla l (ele), se puede enviar este resumen hacia un archivo para que se pueda descargar del servidor.

TSWImage Added

2. Traceroute

Esta herramienta de diagnóstico de red, permitirá Permite rastrear en tiempo real la ruta tomada por un paquete en una red IP desde el origen hasta el destino, informando las direcciones IP de todos los enrutadores entre los que hizo ping.

Se ejecuta traceroute IPDELNODO.coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSWImage Added

3. MTR

Esta herramienta de diagnóstico de red, proporcionará la funcionalidad de ping y traceroute.

De igual forma le permitirá al operador saber si la herramienta está instalada o no.

Se ejecuta mtr -r IPPermite analizar la conexión entre el servidor donde se ejecuta el comando y el host destino especificado por el usuario.

Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSWImage Added

4. Ping

Esta herramienta permitirá Permite probar si un host en particular es alcanzable a través de una red IP. Un ping mide la red configurada en el servidor y medir el tiempo que tardan los paquetes en enviarse desde el host local a una computadora de destino y viceversay recibirse.

Se ejecuta ping IPcoloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSWImage Added

5. SNMP


Este comando utiliza solicitudes SNMP GETNEXT para consultar información en un dispositivo de red. Se puede proporcionar un identificador de objeto (OID) en la línea de comando.

Permitirá Permite consultar los datos SNMP de un dispositivo. Se utiliza el comando snmpwalk porque le permite al usuario encadenar solicitudes sin tener para ingresar comandos únicos para cada OID o nodo dentro de un subárbol.

Esto ayuda a saber si el nodo en cuestión está respondiendo de forma correcta al protocolo y a comprobar que NMIS esté recopilando sus métricas adecuadamente.

Se ejecuta snmpwalk -v 2c -c SNMP IPNODO OID

6. Update
 nodes

Es importante comprobar que el update manual a uno o más nodos se haga de forma correcta.

El script cuenta con consultas SNMPv1, SNMPv2 o SNMPv3 y al final muestra un tip para que el operador consulte al administrador en caso de que el equipo tenga problemas en la respuesta.

TSWImage Added

TSWImage Added

TSWImage Added


6. Update
 nodes

Permite realizar un update a un nodo específico, utilizando su hostname.

Se ejecuta el comando /usr/local/nmis8/bin/nmis.pl type=update node=NOMBRENODO'nodo' force=1 debug=1

TSWImage Added

7. Collect nodes

Es importante comprobar que el collect manual a uno o más nodos se haga de forma correcta.

Permite realizar un collect a un nodo específico, utilizando su hostname.

Se ejecuta el comando /usr/local/nmis8/bin/nmis.pl type=collect node=NOMBRENODO='nodo' force=1 debug=1

TSWImage Added

8.

...

La ejecución de una búsqueda de eventos en particular permitirá comprobar si hay alguno que esté afectando el funcionamiento del nodo en cuestión.

grep -lir "evento" nmis.log

9. Ejecución de un backup del archivo Nodes.nmis

...

Event search

Permite realizar búsquedas en las carpetas /usr/local/nmis8/logs/ y /usr/local/omk/logs/, lo cual facilitará al operador la investigación cualquier hecho o acontecimiento que esté causando alguna falla en el servidor.

Debe colocarse la palabra o palabras a buscar para poder realizar la operación.

TSWImage Added

9. Nodes.nmis backup

Permite realizar un backup del archivo actual Nodes.nmis, ubicado en /usr/local/nmis8/conf/.

Esto es muy importante para el operador, sobre todo antes de realizar cualquier modificación que tenga que ver con los equipos agregados a NMIS.

cp /usr/local/nmis8/conf/Nodes.nmis /usr/local/nmis8/conf/Nodes.nmis.bkpTSWImage Added

10.

...

Support

...

zip

Esta herramienta permite recopilar todos los archivos importantes puedan explicar cuál es el problema que se está presentando mediante los dos comandos señalados a continuación:

/usr/local/nmis8/admin/support.pl action=collect maxzipsize=9000000000000

/usr/local/omk/bin/support.pl action=collect

Diagnóstico Inteligente

Incluye todas las secciones anteriores, con un extra.

Show version of RRD/mongo


Zombies checkup


Primer borrador

Análisis de causas

En este apartado se realizará la evaluación de todas los posibles motivos que llevaron a que la incidencia ocurriera según reporta el cliente en cuestión, revisando cada uno de los parámetros de importancia del servidor, desde archivos de configuración importantes, pasando por hardware, software y, de ser necesario, revisión a fondo de los nodos involucrados.

Es importante que el cliente envíe un NMIS Support Tool y/o un OMK Support Tool desde el inicio, esto para tener una copia de los archivos de configuración más importantes en el momento del reporte de la incidencia.

2.1. Análisis de Support Tool

Dependiendo del escenario, comenzaremos revisando los archivos importantes contenidos en el Support Tool, se mencionan algunos de ellos a continuación:

  • Carpeta conf: Config.nmis, Nodes.nmis, Users.nmis
  • Carpeta logs: error_log, event.log, nmis.log.
  • Carpeta models: revisar si hubo algún cambio reciente que pudiera afectar.
  • Carpeta system_status: cpuinfo, disk_info, iostat, meminfo, top.
  • Carpeta system_status/apache: revisar los archivos de configuración.
  • Carpeta system_status/cron: revisar si el crontab contiene algún comando que pueda crear conflicto con otro cron.
  • Carpeta system_status/cron.d: revisar si no hay un cron duplicado y que al menos el cron de nmis esté configurado de manera correcta.

NMIS Support ToolImage Removed

2.2. Análisis de cambio de configuraciones

En este análisis nos servirá de mucha ayuda el Support Tool enviado por el cliente, ya que podremos darnos cuenta si algún archivo de configuración fue modificado en los últimos días.

De igual forma, debemos tener acceso al servidor en cuestión, para poder verificar si se hizo algún backup y así poder restablecer el archivo a los parámetros anteriores.

Las principales carpetas a revisar son:

  • /usr/local/nmis8/conf
  • /usr/local/omk/conf
  • /etc/cron.d

2.4. Análisis de nodos

En este punto, se ejecutará un análisis a fondo de los nodos en los cuales se haya detectado algún problema durante el momento de la incidencia.

Se recomienda revisar las siguientes gráficas en NMIS:

  • Gráfica de KPIs

KPIsImage Removed

  • Gráfica de Reachability, Availability and Health

Reachability, Availability and HealthImage Removed

  • Gráfica de Response Time

Response TimeImage Removed

  • Gráfica de IP Utilisation

IP UtilisationImage Removed

De igual forma, se recomienda realizar búsquedas mediante un ps -fea | grep nombredenodo de los nombres de los nodos en las carpetas:

  • /usr/local/nmis8/logs
  • /usr/local/omk/logs

Esto con la finalidad de encontrar detalles que pudieron afectar los collects y/o los updates de los nodos, o algún tema en los módulos que impliquen lo

3. Análisis de resultados

En

4. Conclusiones y recomendaciones

EnPermite ejecutar la herramienta de soporte de NMIS y los módulos, la cual recopila toda la información relevante sobre el estado y la configuración del servidor en 2 archivos:

  • nmis-support.zip
  • omk-support.zip

Al final, estos dos archivos deberán ser adjuntados al mail enviado al Soporte de Opmantek para su análisis.

TSWImage Added

4. Smart Diagnostic

Permite ejecutar de forma automática todas las pruebas contenidas en el script con solo acceder a la opción correspondiente.

Al final, se genera un archivo .tar.gz que deberá ser adjuntado por el operador si se abre un ticket de Soporte, como se menciona en el tip.

Image Added
5. Create System Backup File

Realiza una copia de seguridad de los directorios de configuración para conservar todos los ajustes realizados por el cliente.

Debe señalarse la carpeta en la cual se va a realizar este respaldo, en este ejemplo utilizamos /tmp y el script comenzará a ejecutarlo.

El programa muestra el árbol de las carpetas y archivos respaldados y el nombre del archivo .tar.gz generado.

TSWImage Added

6. Execute Support Automation Tool

Permite ejecutar la herramienta de soporte de NMIS y los módulos, la cual recopila toda la información relevante sobre el estado y la configuración del servidor en 2 archivos:

  • nmis-support.zip
  • omk-support.zip

Al final, estos dos archivos deberán ser adjuntados al mail enviado al Soporte de Opmantek para su análisis.

TSWImage Added