Solución de problemas General - Check List

Solución de problemas General - Check List

Problemática

Actividad

Solución

Se identifico un problema en un servidor que se encuentra operando, existen uno o mas módulos afectados

Identificar los módulos afectados

Verificar el acceso a los diferentes módulos de OMK  IP/es/omk/ 

Si el problemas es de NMIS consultar Solución de problemas NMIS - Check List

Si el problemas es de opCharts consultar Solución de problemas opCharts - Check List

Se presenta un  Mensajes de HTTP en la GUI, y no permite acceder a un modulo.

Verificar los logs del Modulo en cuestión

Ruta para ver los logs nmis8/logs o omk/log

Mensaje de error en la parte inferior de la GUI licencias expiradas o insuficientes.

Verificar que la licencia es correcta 

Apoyarse del manual de opLicence referencia de la Wiki

https://community.opmantek.com/pages/viewpage.action?pageId=25301539

Falta de sincronía, eventos enviados a tiempos diferentes al actual

Revisar la fecha y hora del servidor 

Ejecutar en consola; date para verificar la fecha

1.- Procedimiento: Configurar un servidor NTP referencia de la Wiki

Procedimiento para adecuar la hora en servidores OPMANTEK

2.- Procedimiento 2: Respaldar el archivo: cp /etc/localtime /etc/localtime.bak
Ejecutar el siguiente comando: cp /usr/share/zoneinfo/America/Mexico_City  /etc/localtime

No permite la ejecución de scripts o visualización de parámetros,  no se tiene acceso al contenido por falta de permisos 

Revisar que los Archivos no sean corruptos.

 Se deberá de ejecutar de manera correctiva el siguiente comando /usr/local/nmis8/admin/fixperms.pl

No se muestran Gráficas en los diferentes módulos

Revisar que el servidor no este saturado en recursos.

Ejecutar los comandos siguientes, en una sola instrucción.

/usr/local/nmis8/admin/fixperms.pl,

/usr/local/nmis8/bin/nmis.pl type=config debug=true,

/usr/local/nmis8/bin/nmis.pl type=apache

No funciona la interoperabilidad entre módulos.

Al abrir un nodo en algún modulo OMK hacia NMIS no es posible ver la

información.

Agregar la IP del servidor en el archivo opCommons de cada modulo.

Para corregir este error es necesario realizar la configuración

en la siguiente ruta /usr/local/omk/conf en el archivo

opCommon.nmis, buscar los siguientes parámetros y agregar la ip del servidor.                                                                                                                                 

     'nmis_host_base' => 'http://IP_SERVIDOR',

    'opconfig_audit_import_url_base' => 'http://http://IP_SERVIDOR/omk/oae/',

    'opconfig_url_base' => 'http://IP_SERVIDOR/',

    'opevents_url_base' => 'http://IP_SERVIDOR',

    'opflow_url_base' => 'http://IP_SERVIDOR/',

    'opflowsp_url_base' => 'http://IP_SERVIDOR'

    'opreports_opcharts_url_base' => 'http://IP_SERVIDOR:8042',

    'opreports_url_base' => 'http://IP_SERVIDOR/',

Un nodo no proporciona los datos

Consultar actualizaciones manuales y recopilar errores

Redirige o envía la salida a un archivo para revisar esto. 

1.- /usr/local/nmis8/bin/nmis.pl node=asgard debug=9 type=update > nodeUpdate.txt

2.- /usr/local/nmis8/bin/nmis.pl node=asgard debug=9 type=update | tee nodeUpdate.txt

3.- /usr/local/nmis8/bin/nmis.pl node=asgard debug=9 type=collect > nodeCollect.txt

4.- /usr/local/nmis8/bin/nmis.pl node=asgard debug=9 type=collect | tee nodeCollect.txt

El nodo no se puede encontrar en la GUI, cuando intentamos volver a agregar el nodo a NMIS a través de la GUI, recibimos el error "el nodo ya existe".

Algo se ha corrompido mucho, es necesario purgar NMIS de toda la configuración de nodo relevante.

  • Abra /usr/local/nmis8/conf/Nodes.nmis con un editor y elimine la sección del nodo problemático.

  • Eliminar los siguientes archivos:

    • /usr/local/nmis8/var/<node-name>-node.josn

    • /usr/local/nmis8/var/<node-name>-view.json

  • Vuelva a agregar el nodo problema a través de la GUI de NMIS

  • Ejecuta los siguientes comandos:

    • /usr/local/nmis8/bin/nmis.pl type = update node = <node-name> force = true

    • /usr/local/nmis8/bin/nmis.pl type = collect node = <node-name> force = true

Aparecen mensajes constantes en la consola del servidor

Ejemplo: 

Message from server@OPS-P-NMIS-S-02 at Feb 8 19:19:50 ...
nmis-Config-collect-lxtncdb01[7517]: NMIS_Event::ops-p-nmis-02::1612826676,lxtncdb01,Proactive CPU Idle,Fatal,,Value=4.44 Threshold=10 Updated

Comentar el parámetro emerg en el arvhivo syslog.conf 



Abrir el Archivo 
vi /etc/rsyslog.conf

Y  comentar *.emerg

Revisar los servicios y la conexión

Algún modulo OMK no funciona apropiadamente

Revisar todos los servicios activos en el servidor

Ejecutar el siguiente comando service --status-all para identificar que servicios están corriendo y levantar los que sean fundacionales

No accede a los módulos OMK o no hay información.

Identificar si el servicio de red está activo 

Ejecutar service network status en caso de estar inactivo ejecutar service network restart

Los demonios están abajo, aparece Mensajes de error: Temporary service interruption 

Reiniciar demonios omk

service nmisd restart

service opconfigd restart

service opeventsd restart

service opflowd restart

No se muestra la GUI de  NMIS

Idetificar si el Servicio de Apache activo

service httpd status, en caso de estar inactivo ejecutar service httpd restart

No se muestran los módulos OMK

Revisar el servicio de la base de datos

service mongod status, en caso de estar inactivo ejecutar service mongod restart

No se muestra colección de datos aun con PING activo

Verificar los traps de snmp

Verificar que se reciban métricas de SNMP snmpwalk -v 2c 10.39.18.5 -c pdp$nmp

No hay respuesta PING

Hacer traceroute con los servidores en operación 

traceroute ip_servidor Ejemplo: traceroute 192.168.1.68

No hay respuesta PING

Hacer ping con los servidores en operación 

ping ip_servidor, Ejemplo: ping 192.168.1.68

En open-AudIT aparece el mensaje Nmap setUID: nmap not setuid(fix)

Esta advertencia es porque no se ha ejecutado setuid para nmap.

codigo; chmod u+s /usr/bin/nmap

Revisar el espacio en el sistema 

El servidor presenta carga o lentitud

Identificar si hay un proceso que ocupa mayor recurso

Ejecutar el siguiente comando; htop o top

El servidor presenta carga o lentitud

Revisar el memoria libre del sistema

Ejecutar el siguiente comando; free -m

Los módulos dejaron de mostrar información.

Verifica el espacio en nuestro sistema de particiones

ejecutar el siguiente comando; df -h  y du -sch * para  listar los archivos con los tamaños.

Algun Log esta ocupando mucho espacio y es necesario resetearlo

Limpia un archivo especifico (no lo borra)

Ejecutar el siguiente comando; cat /dev/null > archivo.extension