Descripción del problema

Para iniciar con la documentaciónpoder ejecutar el Troubleshooting Wizard, debemos tener una descripción muy bien detallada por parte del cliente que nos dé un buen panorama de la situación que está presentando.

Para esto, debemos resolver algunas preguntas importantes:

...

Troubleshooting Wizard: Funcionalidades

Healthcheck del

...

Servidor

1. Comando top

Este comando nos dará información de todos los procesos que se están ejecutando en este momento en el servidor y el porcentaje de utilización de CPU y memoria RAM.

...

2. Revisión de fecha y hora del servidor

3. Revisión

...

de velocidad de lectura y escritura en discos

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.

Basta con ejecutar un par de comandos:

dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
dd if=/data/omkTestFile of=/dev/null 2>&1

Y después analizar la salida con los siguientes valores:

0.0X s, parámetros correctos.
0.X s, hay una advertencia (y podría generar un problema).
X.0 s, es crítico (y existe un problema).

R/W de discos Image Added

4. Revisión de filesystems

Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.

Se ejecutaa el comando como sigue:

df -h

df -h Image Added

5. Revisión de servicios del sistema

Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.

Principalmente, deben revisarse los que se mencionan a continuación:

service omkd status
service nmisd status (si aplica)
service nmis9d status (si aplica)
service mongod status
service opchartsd status
service opeventsd status
service opconfigd status
service crond status
service httpd status

service status Image Added
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):

service --status-all

service --status-all Image Added
En caso de que se detecte que algún servicio está down, debe reiniciarse con el siguiente comando:

service demoniod restart

Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.

6. Revisión de tiempos de carga del servidor

Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.

Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:

iostat -xtc 3 5

iostat Image Added

7. Top de los 20 procesos del CPU

...

13. Revisión de configuración de DNS

14. Prueba de internet

Consistencia de Configuraciones de NMIS

1. Check NMIS code

2. Perform a configuration backup

3. Compare file configurations

4. Execute fixperms rutine

5. Model checking

6. Crontab checking

7. Verify CPAN libraries

Primer borrador

Análisis de causas

...

/usr/local/nmis8/conf
/usr/local/omk/conf
/etc/cron.d

2.3. Análisis de hardware y software

Ahora, procederemos a indagar si el hardware y el software del servidor se encuentran en estado óptimo. Para esto, realizaremos una serie de ejecución de comandos que se describen a continuación.

2.3.2. Velocidad de lectura y escritura de discos

Con este análisis, podremos darnos cuenta si existe una falla física en los discos del servidor. Si nos damos cuenta de que hay un problema, hay que notificarlo inmediatamente al cliente.

Basta con ejecutar un par de comandos:

dd if=/dev/zero of=/data/omkTestFile bs=10M count=1 oflag=direct
dd if=/data/omkTestFile of=/dev/null 2>&1

Y después analizar la salida con los siguientes valores:

0.0X s, parámetros correctos.
0.X s, hay una advertencia (y podría generar un problema).
X.0 s, es crítico (y existe un problema).

R/W de discos Image Removed

2.3.3. Comando iostat

Se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos. Esto hay que notificarlo inmediatamente al cliente.

Se recomienda ejecutar el comando como sigue, para tener 5 pruebas del mismo:

iostat -xtc 3 5

iostat Image Removed

2.3.4. Revisión de filesystems

Se revisa el espacio en cada uno de los filesystems del sistema, esto para comprobar que la incidencia no se esté presentando por una falta de espacio en el servidor.

Se ejecutaa el comando como sigue:

df -h

df -h Image Removed

2.3.5. Revisión de demonios

Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los esenciales se estén ejecutando de manera correcta.

Principalmente, deben revisarse los que se mencionan a continuación:

service omkd status
service nmisd status (si aplica)
service nmis9d status (si aplica)
service mongod status
service opchartsd status
service opeventsd status
service opconfigd status
service crond status
service httpd status

service status Image Removed
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):

service --status-all

service --status-all Image Removed
En caso de que se detecte que algún servicio está down, debe reiniciarse con el siguiente comando:

service demoniod restart

...

2.4. Análisis de nodos

En este punto, se ejecutará un análisis a fondo de los nodos en los cuales se haya detectado algún problema durante el momento de la incidencia.

...

Versions Compared

Old Version 14

New Version 15

Key

Descripción del problema

Troubleshooting Wizard: Funcionalidades

Healthcheck del

Servidor

1. Comando top

2. Revisión de fecha y hora del servidor

3. Revisión

de velocidad de lectura y escritura en discos

4. Revisión de filesystems

5. Revisión de servicios del sistema

6. Revisión de tiempos de carga del servidor

7. Top de los 20 procesos del CPU

13. Revisión de configuración de DNS

Consistencia de Configuraciones de NMIS

1. Check NMIS code

2. Perform a configuration backup

3. Compare file configurations

4. Execute fixperms rutine

5. Model checking

6. Crontab checking

7. Verify CPAN libraries

Primer borrador

Análisis de causas

2.3. Análisis de hardware y software

2.3.2. Velocidad de lectura y escritura de discos

2.3.4. Revisión de filesystems

2.3.5. Revisión de demonios

2.4. Análisis de nodos

Page Comparison

Versions Compared

Old Version 14

New Version 15

Key

Descripción del problema

Troubleshooting Wizard: Funcionalidades

Healthcheck del

Servidor

1. Comando top

2. Revisión de fecha y hora del servidor

3. Revisión

de velocidad de lectura y escritura en discos

4. Revisión de filesystems

5. Revisión de servicios del sistema

6. Revisión de tiempos de carga del servidor

7. Top de los 20 procesos del CPU

13. Revisión de configuración de DNS

Consistencia de Configuraciones de NMIS

1. Check NMIS code

2. Perform a configuration backup

3. Compare file configurations

4. Execute fixperms rutine

5. Model checking

6. Crontab checking

7. Verify CPAN libraries

Primer borrador

Análisis de causas

2.3. Análisis de hardware y software

2.3.2. Velocidad de lectura y escritura de discos

2.3.4. Revisión de filesystems

2.3.5. Revisión de demonios

2.4. Análisis de nodos