...
De igual forma, se ejecuta un iostat -x 5 4, que se usa para monitorear la carga IO del equipo del sistema. Si se tiene un alto %util, es muy probable que exista un problema que pueda llevar incluso a la pérdida de datos, lo cual se señala al final de la ejecución del comando.
4.
...
Filesystem
Muestra un análisis detallado del espacio en cada uno de los filesystems del sistema, esto para comprobar que la posible incidencia no se esté presentando por una falta de espacio en el servidor. También muestra un tip de que si el uso es +85% en alguno de los ficheros, se contacte al administrador para que se puedan depurar.
De igual forma, ejecuta un comando para saber la utilización de la memoria RAM y swap del sistema, mostrando un tip si se tiene un alto porcentaje de utilización para contactar al administrador y ver qué está sucediendo.
5.
...
Service status
Se ejecuta una revisión de cada uno de los demonios del sistema, para comprobar que todos los procesos esenciales se estén ejecutando de manera correcta.
Principalmente, deben revisarse los que se mencionan a continuaciónSe ejecutan los siguientes comandos:
- service omkd status
- service mongod status
- service nmisd status (si aplica)
- service nmis9d status (si aplica)
- service mongod httpd status
- service opchartsd status
- service opeventsd status
- service opconfigd status
- service opflowd status
- service crond status
- service httpd snmpd status
...
- service iptables status
De igual forma, puede ejecutarse el siguiente comando para revisar todos los servicios en ejecución (CentOS 6):
- service --status-all
se revisa que SELinux esté desactivado.
En caso de que se detecte que algún servicio está downesté down y sea importante para el funcionamiento del sistema, debe reiniciarse con el siguiente comando:
- service demoniod restart
como indica el script.
Si persiste el down, deberá revisarse el log de dicho demonio y analizarse para ver qué está sucediendo. Se recomienda revisar en la página https://support.opmantek.com/secure/Dashboard.jspa si existe algún ticket con el mismo error para de ahí encontrar alguna solución.
7. Top de los 20 procesos del CPU
Pendiente
...
6. Load average
Esta prueba permite saber la carga promedio del sistema para un periodo de tiempo definido.
El script nos muestra algunas interpretaciones para saber qué está sucediendo en el servidor:
- Si los promedios son 0.0, entonces el sistema está inactivo.
- Si el promedio de 1 minuto es más alto que los promedios de 5 o 15 minutos, entonces la carga está aumentando.
- Si el promedio de 1 minuto es más bajo que los promedios de 5 o 15 minutos, entonces la carga está disminuyendo.
- Si los promedios son más altos que el recuento del CPU, es posible que se tenga un problema de rendimiento.
7. Top 5 processes by CPU and Memory
Muestra los 5 principales procesos que están utilizando más porcentaje del CPU en el servidor, además de detalles del CPU y de la memoria.
Al final muestra un tip de que si los procesos superan el 85% de la CPU o la memoria, se realice una investigación, ya que podría ser un caso de procesos que se han quedado colgados o que no responden.
8. Tcpdump
El comando tcpdump nos permitirá capturar en un archivo el tráfico de la red en la que se encuentre el servidor del cliente, para después analizarlo con algún programa como Wireshark.
Con esto, el operador podrá saber si existe algún problema en la comunicación entre el servidor y los equipos agregados a NMIS y sus módulos, ya que al analizarlo se dará cuenta si existe pérdida de paquetes en el tráfico de la red.
9. Revisión de tabla de enrutamiento de IPs locales
...