Skip to end of banner
Go to start of banner

Troubleshooting Wizard Descriptive Manual

Skip to end of metadata
Go to start of metadata

You are viewing an old version of this page. View the current version.

Compare with Current View Page History

« Previous Version 2 Next »

TSW

This page is intended to provide information on the installation and use of the Troubleshooting Wizard, which is intended to help customers run a full diagnostic of their server(s) to determine the root cause of any likely problem being encountered. presenting.

We will cover from the download and implementation of the Troubleshooting file, going through the complete analysis of the server using each of the interactive menus of the program.

This document is based on the tests mentioned on the NMIS Device Troubleshooting Process page.

Description of the problem

In order to run the Troubleshooting Wizard, we must have a very detailed description from the client that gives us a good overview of the situation that it is presenting.

For this, we must solve some important questions:

a) Incident description: what is happening? since when?

b) On which server or servers is the incident occurring?

c) Description of the server or servers in which the incident is occurring: CPUs, RAM, DD, total nodes.

d) In which node or nodes is the incident occurring?

e) Additional details, for example: current NMIS cron settings at least, current settings in /etc/mongod.conf file, database parameters settings in /usr/local/omk/conf/opCommon.nmis, if any file was recently modified, if any configuration made either on the server or on the computers caused the incident.

Troubleshooting Wizard: Install and run

The installation file (.sh) can be obtained from the following GitHub link: https://github.com/tom-tics/TS_Wizard_NMIS8_OPMANTEK .

It must be downloaded and uploaded to the server where you want to perform the analysis using an FTP client (such as FileZilla), to the folder desired by the client.

Once the file is already on the server, we execute it with the command: sh 01_TS_Wizard_OMK.sh

TSW

Once we have executed the file, we will access the initial screen, where the details of the Operating System are shown, such as the version of Linux and a small summary of the memory and CPU of the system.

In the same way, the Main Menu is shown, where we will find the different options that we can access:

  1. Execute Healthcheck: we can perform a complete review of the server.
  2. NMIS Configuration Consistency: we will be able to review the consistency of the most important NMIS configuration files.
  3. Nodes Troubleshooter: we will be able to review the behavior of the nodes added to NMIS.
  4. Smart Diagnostic: creates a full system diagnostic in a .tar.gz file, which can be attached in case a ticket needs to be opened with Opmantek Support
  5. Create System Backup File: creates a .tar.gz file that will contain a backup of the /etc/* and /usr/local/* folders.
  6. Execute Support Automation Tool: generates an NMIS and an OMK support file, which can be attached in case a ticket needs to be opened with Opmantek Support.

Troubleshooting Wizard: Features

1. Execute Healthcheck

You can choose between different options, which are shown below:

TSW

1. TOP

This command gives us information on all the processes that are currently running on the server and the percentage of CPU and RAM memory utilization.

It will always be important to base ourselves on the load average and the %CPU, since if these values ​​are high, we will surely have a problem in one or more processes that are currently running.

At the end of the execution of the command, it shows us a series of tips, such as:

  • Check disk partitions.
  • Clean registry files that take up too much space.
  • Delete cache.

TSW

2. System date and time

It is very important that the server has the correct date and time configured, according to the time zone of each client; This is due to the fact that there are many processes that are executed in specific periods of time and, in the same way, the system logs and the file modification records contain timestamps to be able to detect in case of an error.

That is why this section is included so that the operator knows that the system date and time are adequate. At the end, in case the server does not have NTP activated, a tip is displayed to contact the system administrator and verify it.

TSW

3. Disk R/W

With this analysis, we will be able to realize if there is a physical failure in the server's disks.

The program executes the commands:

  • dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
  • dd if=/data/omkTestFile of=/dev/null 2>&1

And then it shows the output, which has to be compared with the values:

  • 0.0X s, correct parameters.
  • 0.X s, there is a warning (and could cause a problem).
  • X.0 s, it is critical (and there is a problem).

Similarly, an iostat -x 5 4 is run, which is used to monitor the IO load of the system machine. If you have a high %util, it is very likely that there is a problem that could even lead to data loss, which is signaled at the end of the command execution.

TSW

4. Filesystem

It shows a detailed analysis of the space in each of the system's filesystems, to verify that the possible incident is not occurring due to a lack of space on the server. It also shows a tip that if the use is +85% in any of the files, contact the administrator so that they can be debugged.

In the same way, it executes a command to know the use of the system's RAM and swap memory, showing a tip if there is a high percentage of use to contact the administrator and see what is happening.

TSW

5. Service status

A check of each of the system daemons is run to verify that all essential processes are running correctly.

The following commands are executed:

  • service omkd status
  • service mongod status
  • service nmisd status (if applicable)
  • service nmis9d status (if applicable)
  • service httpd status
  • service opchartsd status
  • service opeventsd status
  • service opconfigd status
  • service opflowd status
  • service crond status
  • service snmpd status
  • service iptables status

Similarly, check that SELinux is disabled.

TSW

En caso de que se detecte que algún servicio esté down y sea importante para el funcionamiento del sistema, debe reiniciarse como indica el script.

Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo.

6. Load average

Esta prueba permite saber la carga promedio del sistema para un periodo de tiempo definido.

El script nos muestra algunas interpretaciones para saber qué está sucediendo en el servidor:

  • Si los promedios son 0.0, entonces el sistema está inactivo.
  • Si el promedio de 1 minuto es más alto que los promedios de 5 o 15 minutos, entonces la carga está aumentando.
  • Si el promedio de 1 minuto es más bajo que los promedios de 5 o 15 minutos, entonces la carga está disminuyendo.
  • Si los promedios son más altos que el recuento del CPU, es posible que se tenga un problema de rendimiento.

TSW

7. Top 5 processes by CPU and Memory

Muestra los 5 principales procesos que están utilizando más porcentaje del CPU en el servidor, además de detalles del CPU y de la memoria.

Al final muestra un tip de que si los procesos superan el 85% de la CPU o la memoria, se realice una investigación, ya que podría ser un caso de procesos que se han quedado colgados o que no responden.

TSW


8. Tcpdump

El comando tcpdump nos permite capturar en un archivo el tráfico de la red en la que se encuentre el servidor del cliente.

Con esto, el operador puede saber si existe algún problema en la comunicación entre el servidor y los equipos agregados a NMIS y sus módulos, ya que al analizarlo se dará cuenta si existe pérdida de paquetes en el tráfico de la red.

Cuando termina la ejecución del comando, se crean archivos .pcap para que puedan descargarse y analizarse con Wireshark.

TSW

9. Local IP routing table

Permite conocer el estado y configuración de las tablas de rutas IP, que nos sirven para enviar y saber cómo se envían los paquete en las distintas redes que se tienen configuradas en el servidor en cuestión.

10. List of logged users.

Permite saber quiénes son los usuarios que están utilizando el shell en ese momento, esto servirá para mantener una mejor administración de las personas que acceden y, en algunas ocasiones, de los que modifican algún archivo importante del sistema.

TSW

11. Log user audit

Es importante conocer el inicio de sesión de cada uno de los usuarios que utilizan el sistema, esto servirá para saber si alguno de ellos realizó alguna modificación que podría haber ocasionado el mal funcionamiento del mismo. 

La ejecución de esta sección, permite revisar logs del sistema, obtiene una vista de usuarios conectados, búsqueda de errores, mensajes críticos y alertas en los registros del sistema operativo.

Al final, se muestra un tip para que, si el operador observa muchos intentos de autenticación fallidos, contacte a los usuarios para que pueda saber qué está sucediendo.

TSW


12. Show last used commands

Esta revisión va de la mano con el punto anterior y nos permitirá conocer los últimos 30 comandos ejecutados en el servidor.

De igual forma, los 10 comandos más utilizados de esa lista de 30 y el número de veces que se han ejecutado.

TSW

13. Show DNS config

La revisión del archivo /etc/resolve.conf es importante, ya que nos permitirá saber si la configuración de los nombres de dominio y la redirección a alguna IP importante es correcta.

Se puede confirmar que la estructura del archivo señalado es la adecuada.

TSW

14. Prueba de internet

Se realiza una prueba para enviar tres paquetes de internet al servidor de Google y verificar la conectividad a internet del servidor. Esto sirve para poder actualizar paquetes que requieran descargarse vía internet directamente en consola, como yum y cpan.

De igual forma, muestra la IP pública del servidor.

TSW

2. NMIS Configuration Consistency

Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

TSW

1. Check NMIS code

Permite comprobar la sintaxis de los archivos de configuración de la carpeta /usr/local/nmis8/* y muestra si hay algún error en los códigos.

Se muestra un tip para que el operador revise los archivos que se encuentren con alguna inconsistencia.

TSW

2. Perform a configuration backup

Realiza una copia de seguridad de los directorios de configuración para conservar todos los ajustes realizados por el cliente.

Debe señalarse la carpeta en la cual se va a realizar este respaldo, en este ejemplo utilizamos /tmp y el script comenzará a ejecutarlo.

El programa muestra el árbol de las carpetas y archivos respaldados y el nombre del archivo .tar.gz generado.

TSW

3. Compare file configurations

Permite realizar una comparación de los archivos:

  • /usr/local/nmis8/install/Config.nmis y /usr/local/nmis8/conf/Config.nmis
  • /usr/local/omk/install/opCommon.nmis y /usr/local/omk/conf/opCommon.nmis

Para poder encontrar alguna inconsistencia en la configuración que puedan estar causando algún problema con NMIS y/o los módulos.

TSW

4. Execute fixperms rutine

Ejecuta en automático el comando /usr/local/nmis8/admin/fixperms.pl, que permite al operador la corrección general de los permisos de todos los archivos del sistema.

TSW

5. Model checking

Ejecuta una validación de sintaxis y verificación de longitud variable en los archivos de la carpeta de modelos /usr/local/nmis8/models/*.

Es importante para que el operador pueda tener funcionando de manera correcta cada uno de los diferentes modelos de los equipos agregados a NMIS.

Si el script encuentra algún detalle, lo señala y al final da un tip para que el operador revise esa inconsistencia.

TSW

6. Crontab checking

Ejecuta una comprobación de la configuración de cada uno de los archivos de cron con los que NMIS y los módulos funcionan, esto para comprobar que no exista alguna rutina que esté causando algún conflicto que pueda afectar el funcionamiento del sistema.

De igual forma, ejecuta un ll en /etc/cron.d/ para comprobar que no se tienen backups dentro de esa carpeta, ya que puede provocar problemas para la ejecución de las tareas y da un tip para que, si se encuentran backups, se muevan de carpeta o se eliminen.

TSW

7. Verify CPAN libraries

Ejecuta una comprobación de las bibliotecas CPAN y muestra cuáles hacen falta para que el operador pueda instalarlas en caso de ser necesario.

TSW

8. Last changed files

Ejecuta una búsqueda de los últimos archivos modificados en diferentes directorios:

  • /nmis8/admin/
  • /nmis8/bin/
  • /nmis8/cgi-bin/
  • /nmis8/conf/
  • /nmis8/models/
  • /nmis8/lib/
  • /omk/conf/
  • /etc/cron.d/

Y los acomoda del archivo modificado más recientemente hasta el más antiguo.

Al final, se muestra un tip para que el operador verifique si algún cambio reciente en los archivos está causando un problema en el sistema.

TSW

3. Nodes Troubleshooter

Se puede elegir entre diferentes opciones, las cuales se muestran a continuación:

TSW

1. Polling summary

Ejecuta el comando /usr/local/nmis8/admin/polling_summary.pl, que sirve para conocer el tiempo que el servidor tarda en recolectar la información de los nodos agregados a NMIS y si alguna operación está fallando o nunca se ha realizado (como las consultas SNMP, por ejemplo).

Al final, se puede ver un resumen de cuántos nodos tienen un collect tardío y, presionando la tecla l (ele), se puede enviar este resumen hacia un archivo para que se pueda descargar del servidor.

TSW

2. Traceroute

Permite rastrear en tiempo real la ruta tomada por un paquete en una red IP desde el origen hasta el destino, informando las direcciones IP de todos los enrutadores entre los que hizo ping.

Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSW

3. MTR

Permite analizar la conexión entre el servidor donde se ejecuta el comando y el host destino especificado por el usuario.

Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSW

4. Ping

Permite probar si un host en particular es alcanzable a través de la red configurada en el servidor y medir el tiempo que tardan los paquetes en enviarse y recibirse.

Se coloca la IP o el hostname del nodo y el script devolverá el resultado, mostrando un tip para el operador si se observa algún comportamiento anormal.

TSW

5. SNMP


Permite consultar los datos SNMP de un dispositivo. Se utiliza el comando snmpwalk porque le permite al usuario encadenar solicitudes sin tener para ingresar comandos únicos para cada OID o nodo dentro de un subárbol.

Esto ayuda a saber si el nodo en cuestión está respondiendo de forma correcta al protocolo y a comprobar que NMIS esté recopilando sus métricas adecuadamente.

El script cuenta con consultas SNMPv1, SNMPv2 o SNMPv3 y al final muestra un tip para que el operador consulte al administrador en caso de que el equipo tenga problemas en la respuesta.

TSW

TSW

6. Update
 nodes

Permite realizar un update a un nodo específico, utilizando su hostname.

Se ejecuta el comando /usr/local/nmis8/bin/nmis.pl type=update node='nodo' force=1 debug=1

TSW

7. Collect nodes

Permite realizar un collect a un nodo específico, utilizando su hostname.

Se ejecuta el comando /usr/local/nmis8/bin/nmis.pl type=collect node='nodo' force=1 debug=1

TSW

8. Event search

Permite realizar búsquedas en las carpetas /usr/local/nmis8/logs/ y /usr/local/omk/logs/, lo cual facilitará al operador la investigación cualquier hecho o acontecimiento que esté causando alguna falla en el servidor.

Debe colocarse la palabra o palabras a buscar para poder realizar la operación.

Al final, esa búsqueda se almacenará en un archivo de texto para poder extraerlo del servidor y analizarlo de una mejor manera. -PENDIENTE-

TSW

9. Nodes.nmis backup

Permite realizar un backup del archivo actual Nodes.nmis, ubicado en /usr/local/nmis8/conf/.

Esto es muy importante para el operador, sobre todo antes de realizar cualquier modificación que tenga que ver con los equipos agregados a NMIS.

TSW

10. Ejecución de Support zip


Permite ejecutar la herramienta de soporte de NMIS y los módulos, la cual recopila toda la información relevante sobre el estado y la configuración del servidor en 2 archivos:

  • nmis-support.zip
  • omk-support.zip

Al final, estos dos archivos deberán ser adjuntados al mail enviado al Soporte de Opmantek para su análisis.

TSW

4. Smart Diagnostic

Permite ejecutar de forma automática todas las pruebas contenidas en el script con solo acceder a la opción correspondiente.

Al final, se genera un archivo .tar.gz que deberá ser adjuntado por el operador si se abre un ticket de Soporte, como se menciona en el tip.

TSW

5. Create System Backup File

Realiza una copia de seguridad de los directorios de configuración para conservar todos los ajustes realizados por el cliente.

Debe señalarse la carpeta en la cual se va a realizar este respaldo, en este ejemplo utilizamos /tmp y el script comenzará a ejecutarlo.

El programa muestra el árbol de las carpetas y archivos respaldados y el nombre del archivo .tar.gz generado.

TSW

6. Execute Support Automation Tool

Permite ejecutar la herramienta de soporte de NMIS y los módulos, la cual recopila toda la información relevante sobre el estado y la configuración del servidor en 2 archivos:

  • nmis-support.zip
  • omk-support.zip

Al final, estos dos archivos deberán ser adjuntados al mail enviado al Soporte de Opmantek para su análisis.

TSW


  • No labels