Versions Compared

Key

  • This line was added.
  • This line was removed.
  • Formatting was changed.

...

Descripción del problema

Para iniciar con la documentaciónpoder ejecutar el Troubleshooting Wizard, debemos tener una descripción muy bien detallada por parte del cliente que nos dé un buen panorama de la situación que está presentando.

Para esto, debemos resolver algunas preguntas importantes:

...

Troubleshooting Wizard: Funcionalidades

Healthcheck del

...

Servidor

1. Comando top

Este comando nos dará información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.

...

2. Revisión de fecha y hora del servidor


3. Revisión

...

de velocidad de lectura y escritura en discos

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.

Basta con ejecutar un par de comandos:

  • dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
  • dd if=/data/omkTestFile of=/dev/null 2>&1

Y después analizar la salida con los siguientes valores: 

  • 0.0X s, parámetros correctos.
  • 0.X s, hay una advertencia (y podría generar un problema).
  • X.0 s, es crítico (y existe un problema).

Image Added

4. Revisión de filesystems

Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.

Se ejecutaa el comando como sigue:

  • df -h

df -hImage Added

5. Revisión de servicios del sistema

Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.

Principalmente, deben revisarse los que se mencionan a continuación:

  • service omkd status
  • service nmisd status (si aplica)
  • service nmis9d status (si aplica)
  • service mongod status
  • service opchartsd status
  • service opeventsd status
  • service opconfigd status
  • service crond status
  • service httpd status

service statusImage Added
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):

  • service --status-all

service --status-allImage Added
En caso de que se detecte que algún servicio está down, debe reiniciarse con el siguiente comando:

  • service demoniod restart

Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.

6. Revisión de tiempos de carga del servidor

Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.

Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:

  • iostat -xtc 3 5

iostatImage Added

7. Top de los 20 procesos del CPU

...

13. Revisión de configuración de DNS

14. Prueba de internet

Consistencia de Configuraciones de NMIS

1. Check NMIS code


2. Perform a configuration backup


3. Compare file configurations


4. Execute fixperms rutine


5. Model checking


6. Crontab checking


7. Verify CPAN libraries



Primer borrador

Análisis de causas

...

  • /usr/local/nmis8/conf
  • /usr/local/omk/conf
  • /etc/cron.d

2.3. Análisis de hardware y software

Ahora, procederemos a indagar si el hardware y el software del servidor se encuentran en estado óptimo. Para esto, realizaremos una serie de ejecución de comandos que se describen a continuación.

2.3.2. Velocidad de lectura y escritura de discos

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.

Basta con ejecutar un par de comandos:

  • dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
  • dd if=/data/omkTestFile of=/dev/null 2>&1

Y después analizar la salida con los siguientes valores: 

  • 0.0X s, parámetros correctos.
  • 0.X s, hay una advertencia (y podría generar un problema).
  • X.0 s, es crítico (y existe un problema).

Image Removed

2.3.3. Comando iostat

Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.

Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:

  • iostat -xtc 3 5

iostatImage Removed

2.3.4. Revisión de filesystems

Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.

Se ejecutaa el comando como sigue:

  • df -h

df -hImage Removed

2.3.5. Revisión de demonios

Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.

Principalmente, deben revisarse los que se mencionan a continuación:

  • service omkd status
  • service nmisd status (si aplica)
  • service nmis9d status (si aplica)
  • service mongod status
  • service opchartsd status
  • service opeventsd status
  • service opconfigd status
  • service crond status
  • service httpd status

service statusImage Removed
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):

  • service --status-all

service --status-allImage Removed
En caso de que se detecte que algún servicio está down, debe reiniciarse con el siguiente comando:

  • service demoniod restart

...


2.4. Análisis de nodos

En este punto, se ejecutará un análisis a fondo de los nodos en los cuales se haya detectado algún problema durante el momento de la incidencia.

...