Automic Workload Automation

Expand all | Collapse all

AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

Manfred Mauermann

Manfred MauermannJan 17, 2019 06:10 AMBest Answer

  • 1.  AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Oct 08, 2018 05:22 AM

    Hallo zusammen,

     

    jetzt muss ich doch noch mal die Frage in die Runde stellen, ob nur wir von diesem Fehler betroffen sind. Wir hatten das ja mal im Kontext Unix-Shell mit "exit $rc". Das haben wir aber mit der Klammerung "(exit $rc)" soweit gelöst.

    Dieser neue Effekt kommt ca. 6 Wochen nach Livegang mit der 12.1.2. Tritt sporadisch über den ganzen Tag verteilt auf. Der Verdacht liegt nahe, dass die Ursache lastabhängig ist. Ca. 1300 Events, von denen halt der Großteil öfters gemeinsam feuern. Andere Mandanten bleiben von diesem Fehler weitgehend verschont.

     

    Incident ist natürlich eröffnet, das zieht sich aber mit der Trace-Erstellung und Lieferung der angeforderten Logdateien insgesamt leicht.... Sind oftmals viele GB, die hier hochgeladen werden müssen und vorher wird da leider niemand aktiv.

     

    Einmal gab es einen kleinen Hoffnungsschimmer, weil wir von unserem Provider eine Liste mit wegen Out of Memory abgebrochenen Prozessen bekamen und wir daraufhin von 12 auf 32GB Hauptspeicher erhöht haben. Das wars aber leider nicht, die OOMs waren weg, die ENDED_VANISHED aber immer noch da. Auch spannend, sechs Wochen lang keine Probleme und plötzlich geht es los.

     

    Ein anderes Mal war unsere Netapp etwas stärker frequentiert, und wir konnten Job-Aktivierungszeiten von 5 Minuten beobachten, aber auch das wurde behoben und liegt wieder im normalen Bereich. Die Reaktionszeiten vom AWI mal außen vor gelassen. Ich verstehe die Kollegen, welche für zeitkritische Arbeiten noch auf die Java-UI zurückgreifen.

     

    Trotz der ganzen Hektik, sonnige Grüße aus Nürnberg

    Manfred



  • 2.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Oct 18, 2018 01:43 AM

    Das Problem tritt nach wie vor auf. Am Montag waren es 19 Prozesse mit ENDED_VANISHED, Dienstag 26 und gestern 36.

    Was mir aufgefallen ist, in manchen Job-Reports existiert ein Reiter Protokoll, in manchen nicht. Wenn vorhanden, lautet der Eintrag generell:

     

    2018-10-17 21:54:13 - U00011050 Abbruch/Beendigung von Aufgabe 'PUT_1' (RunID '1009602630') nicht möglich, da sich die Aufgabe in einem nicht abbrechbaren Zustand befindet.

     

    Klingt einerseits logisch, wenn die Verbindung zum Parent weg oder der Prozess eben beendet ist, kann natürlich nichts beendet werden. Andererseits, was will mir die Uhrzeit sagen? Das ist fast eine Stunde nach Jobbeendigung, siehe auch Statistikausgabe unten.

     

    Der Prozesse selber hat sauber beendet:

     

    date: Wed Oct 17 20:58:20 CEST 2018
    ************************************************************************
    **  ucxjlx6m   version 12.1.2+build.2045        changelist 1525854415 **
    **  JOB 1009602630 (ProcID:0000008663) ENDED AT   17.10.2018 / 20:58:20 **
    **                                   UTC TIME   17.10.2018 / 18:58:20 **
    **  TEXT="        Job ended               "  RETCODE=00               **
    ************************************************************************

    Und die Statistikausgabe:



  • 3.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Oct 18, 2018 07:00 AM

    Manchmal ist die Erklärung (nach dem Mittagessen) einfach, ein Protokoll gibts, wenn der Workflow abgebrochen wird, was normalerweise tagsüber passiert, in dem Fall war der Kollege wegen der sensiblen 12.1-Lage nachtaktiv. Es gibt kein Protokoll, wenn lediglich der Blockierzustand aufgehoben wurde. Damit erklärt sich natürlich auch die Meldung, da ein beendeter (verschwundener) Job nicht abgebrochen/beendet werden kann.



  • 4.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Oct 23, 2018 07:59 AM

    So, einen Schritt weiter. Wie es aussieht, kriegt die Engine den Start des Jobs schon gar nicht mehr mit und setzt deswegen den Status ENDED_VANISHED. Währenddessen läuft der Job ordnungsgemäß durch, der Jobplan blockiert aber natürlich.

    Aktuell haben wir einen Workaround im Einsatz, hier wurde der Job durch einen gleichnamigen Jobplan ersetzt, der den eigentlich Job sowie ein Script zur Abfrage, ob das Ergebnis sauber ist, enthält. Keine Ideallösung, aber besser wie der jetzige Zustand.

    Es deutet jedenfalls alles auf einen Bug hin, ich melde mich wieder, wenns was neues zu berichten gibt.



  • 5.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Oct 23, 2018 02:05 PM

    Guten Abend

     

    kann es sein, daß der Jobmelder irgendwie nicht richtig funktioniert oder einen fehler hat?

    Ist nur so ein Gefühl...

     

    Hast Du ev. schonmal den ganzen Agenten neu runtergeladen und neu installiert?

    Ändert sich da das Verhalten?

     

    lg

    Wolfgang



  • 6.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Oct 24, 2018 02:28 AM

    Guten Morgen Wolfgang,

     

    ja, das deutet irgendwie darauf hin. Wenngleich auch sehr sporadisch. Von ~ 5000 Datentransfers fahren im Schnitt 30 an die Wand. Die ersten Analysen seitens Support brachten kein Ergebnis. Wir werden wohl mit Level 9 neu tracen müssen.

    Interessant dabei, in den relevanten Umgebungen Postit, QSU und PROD tritt der Fehler nur in QSU und PROD auf.

     

    Ansonsten bis auf die Kernel-Version vom RHEL7 keine Differenzen:

     

    POSTIT:   12.1.2+build.2045   UNIX   x86_64/2   Linux   3.10.0-862.3.2.el7.x86_64 

    QSU:        12.1.2+build.2045   UNIX   x86_64/2   Linux   3.10.0-862.3.2.el7.x86_64   

    PROD:     12.1.2+build.2045   UNIX   x86_64/2   Linux   3.10.0-693.11.6.el7.x86_64

     

    Leider können wir selber nicht mal schnell den Agenten neu installieren, das hängt bei uns alles in der DevOps-Ecke und muss alles per Change über den Provider eingekippt werden. Ich habe das aber eben mit den Kollegen abgestimmt und für die QSU beauftragt, auch gesehen, dass es tatsächlich eine etwas neuere Agenten-Version vom 12.9. gibt. Wir haben lt. Job-Report eine vom 26.8..

     

    Ich halt euch auf dem laufenden, Danke für Deine Hilfe!

     

    lg, Manfred



  • 7.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Oct 25, 2018 02:43 AM

    Und wieder Unmut in unserem DevOps Team. Download des neuen Agenten, Paketierung, Tickets zum Ausrollen erstellt und was ergibt eine md5sum-Prüfung? Neuer Agent identisch mit unserem Vorgänger... Wieder ein Tag für nichts vergeudet, der uns natürlich in Rechnung gestellt wird.

    Im Moment klappt wirklich nicht allzuviel mit der tollen neuen Version



  • 8.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Nov 05, 2018 06:29 AM

    Offizielles Feedback vom Support, es ist ein Bug. Empfehlung ist, eine ältere Agentenversion (bis 12.1.0) einzusetzen.

    Der Hinweis von FrankMuffke ging absolut in die richtige Richtung.



  • 9.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Nov 07, 2018 04:24 AM

    Leider haben wir keine konkrete Aussage, bis zu welcher Agentversion es funktionieren soll. Deswegen die 12.1.0 bitte unter Vorbehalt sehen. Auf der sicheren Seite ist man wohl mit einer 11-Version.



  • 10.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs
    Best Answer

    Posted Jan 17, 2019 06:10 AM

    Lt. Support soll das Problem mit der 12.1.4 behoben sein.



  • 11.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Jan 17, 2019 11:49 AM

    die sind sich ja sehr sicher

     

     

    na dann viel Erfolg...

    *daumendrück*



  • 12.  Re: AWA 12.1.2: ENDED_VANISHED von Unix-Jobs

    Posted Jan 18, 2019 01:24 AM

    Danke Wolfgang,

     

    wir setzen hier schon seit geraumer Zeit auf alternative Methoden wie eben Daumendrücken, Beten und div. Beschwörungstechniken ....

     

    LG