Automic Workload Automation

  • 1.  AWA 12.1.3HF1: WP-Prozesse crashen

    Posted Nov 23, 2018 05:56 AM

    Hallo zusammen,

     

    kaum hat man ein Problem einigermaßen im Griff, erscheint schon wieder das nächste:

     

    0181119/094039.711 - U00003388 Connection to Server 'PROD#WP001' received no message for '600' seconds.
    20181119/094039.711 - U00003472 Connection to Server 'PROD#WP001' has been closed.
    20181119/094039.711 - U00003407 Client connection '30(6)' from '1.1.1.1:1' has logged off from the Server.
    20181119/094039.713 - U00003413 Socket call 'bind' returned error code '98'.
    20181119/094039.713 -          Address already in use

    [...]

    20181119/095648.768 - U00003475 Server 'PROD#WP001' is the primary server of the system 'PROD'.
    20181119/095648.770 - U00011866 Modus change or connection interruption within the Automation Engine system. To prevent a possible loss of internal messages, dynamic local memory and caches will be reloaded from the database.
    20181119/095648.774 - U01006001 Cache for 'ACTEX_HOST_NAME' closed. Hit rate: '086,98'% ('190411'/'218908'). Total time: '000000000,21045' seconds
    20181119/095648.774 - U01006000 Cache for 'ACTEX_HOST_NAME' successfully initialized. Length = '2000000'.
    20181119/095648.778 - U00011856 Agent table was loaded successfully from database. Last index = '0027'.

     

    Das "Offline-Fenster" dauert ca. 30 Min., laufende Prozesse werden fortgesetzt, aber keine neuen gestartet und es ist auch keine Anmeldung möglich. Das System heilt sich immerhin selbst, die WP-Prozesse werden wieder automatisch nachgestartet. Wir haben insgesamt 16 WPs, anscheinend sind davon 4 WPs für das Starten neuer Prozesse und auch für Anmeldungen zuständig. Die Meldungen "...received no message" erscheinen regelmäßig über alle Logs, Probleme gibts offensichtlich dann, wenn die besagten 4 WPs gemeinsam abwesend sind.

     

    Ist diesen Mo. bis Di. jeweils einmal zu völlig unterschiedlichen Tageszeiten aufgetreten, wir kriegen das natürlich nur bei Beschwerden mit oder wenn wir gerade versuchen, uns erfolglos an einem Mandanten anzumelden.

     

    DB-mäßig gab es zu den relevanten Zeiten keine Engpässe, als eine mögliche Ursache kommt eine stark erhöhte Anzahl Anfragen an einen CP-Prozess in Betracht. Das hat unsere FW-Truppe eruiert.

     

    Meine obligatorische Frage in die Runde, ob das jemandem hier so bekannt vorkommt.

     

    Viele Grüße

    Manfred (der sich auf die DB-Schulung kommenden Mo. bis Mi. bei qskills freut)



  • 2.  RE: AWA 12.1.3HF1: WP-Prozesse crashen

    Posted Dec 09, 2021 10:25 AM
    Edited by Timothy Yanosko Dec 09, 2021 11:24 AM
    Hallo - Haben Sie jemals eine Antwort auf dieses Problem erhalten? Wir haben gelegentlich die gleichen Symptome.

    Hi - Did you ever get a response to this issue. We are experiencing the same symptoms occassionally.

    Tim The original post translated to English, to broaden the audience.

    Hello, everyone,
    
    
    
    as soon as one has a problem under control, the next one appears again:

    0181119/094039.711 - U00003388 Connection to Server 'PROD#WP001' received no message for '600' seconds.
    20181119/094039.711 - U00003472 Connection to Server 'PROD#WP001' has been closed.
    20181119/094039.711 - U00003407 Client connection '30(6)' from '1.1.1.1:1' has logged off from the Server.
    20181119/094039.713 - U00003413 Socket call 'bind' returned error code '98'.
    20181119/094039.713 -          Address already in use

    [...]

    20181119/095648.768 - U00003475 Server 'PROD#WP001' is the primary server of the system 'PROD'.
    20181119/095648.770 - U00011866 Modus change or connection interruption within the Automation Engine system. To prevent a possible loss of internal messages, dynamic local memory and caches will be reloaded from the database.
    20181119/095648.774 - U01006001 Cache for 'ACTEX_HOST_NAME' closed. Hit rate: '086,98'% ('190411'/'218908'). Total time: '000000000,21045' seconds
    20181119/095648.774 - U01006000 Cache for 'ACTEX_HOST_NAME' successfully initialized. Length = '2000000'.
    20181119/095648.778 - U00011856 Agent table was loaded successfully from database. Last index = '0027'.

    The "offline window" lasts approx. 30 minutes, running processes are continued, but no new ones are started and it is also not possible to log in. After all, the system heals itself, the WP processes are restarted automatically. We have a total of 16 WPs, apparently 4 WPs are responsible for starting new processes and also for registrations. The messages "... received no message" appear regularly over all logs, problems obviously arise when the said 4 WPs are absent together.
    
    If this occurred Monday to Tuesday at completely different times of the day, of course we only hear about complaints or when we are trying to register with a client without success.
    
    In terms of DB, there were no bottlenecks at the relevant times; a possible cause is a greatly increased number of requests to a CP process. Our FW troop determined that.
    Original Message:
    Sent: 11-23-2018 05:56 AM
    From: Manfred Mauermann
    Subject: AWA 12.1.3HF1: WP-Prozesse crashen

    Hallo zusammen,

     

    kaum hat man ein Problem einigermaßen im Griff, erscheint schon wieder das nächste:

     

    0181119/094039.711 - U00003388 Connection to Server 'PROD#WP001' received no message for '600' seconds.
    20181119/094039.711 - U00003472 Connection to Server 'PROD#WP001' has been closed.
    20181119/094039.711 - U00003407 Client connection '30(6)' from '1.1.1.1:1' has logged off from the Server.
    20181119/094039.713 - U00003413 Socket call 'bind' returned error code '98'.
    20181119/094039.713 -          Address already in use

    [...]

    20181119/095648.768 - U00003475 Server 'PROD#WP001' is the primary server of the system 'PROD'.
    20181119/095648.770 - U00011866 Modus change or connection interruption within the Automation Engine system. To prevent a possible loss of internal messages, dynamic local memory and caches will be reloaded from the database.
    20181119/095648.774 - U01006001 Cache for 'ACTEX_HOST_NAME' closed. Hit rate: '086,98'% ('190411'/'218908'). Total time: '000000000,21045' seconds
    20181119/095648.774 - U01006000 Cache for 'ACTEX_HOST_NAME' successfully initialized. Length = '2000000'.
    20181119/095648.778 - U00011856 Agent table was loaded successfully from database. Last index = '0027'.

     

    Das "Offline-Fenster" dauert ca. 30 Min., laufende Prozesse werden fortgesetzt, aber keine neuen gestartet und es ist auch keine Anmeldung möglich. Das System heilt sich immerhin selbst, die WP-Prozesse werden wieder automatisch nachgestartet. Wir haben insgesamt 16 WPs, anscheinend sind davon 4 WPs für das Starten neuer Prozesse und auch für Anmeldungen zuständig. Die Meldungen "...received no message" erscheinen regelmäßig über alle Logs, Probleme gibts offensichtlich dann, wenn die besagten 4 WPs gemeinsam abwesend sind.

     

    Ist diesen Mo. bis Di. jeweils einmal zu völlig unterschiedlichen Tageszeiten aufgetreten, wir kriegen das natürlich nur bei Beschwerden mit oder wenn wir gerade versuchen, uns erfolglos an einem Mandanten anzumelden.

     

    DB-mäßig gab es zu den relevanten Zeiten keine Engpässe, als eine mögliche Ursache kommt eine stark erhöhte Anzahl Anfragen an einen CP-Prozess in Betracht. Das hat unsere FW-Truppe eruiert.

     

    Meine obligatorische Frage in die Runde, ob das jemandem hier so bekannt vorkommt.

     

    Viele Grüße

    Manfred (der sich auf die DB-Schulung kommenden Mo. bis Mi. bei qskills freut)