Page MenuHomePhorge: Wikonia

Totalausfall?
Proudly completedPublicbug

Assigned To
Authored By
curtis
Thu, Oct 30, 5:03 PM
Tags
Referenced Files
F4469: image.png
Thu, Oct 30, 9:36 PM
Subscribers

Description

Fehlerbeschreibung

bitte beschreibe den aufgetretenen Fehler so ausführlich wie möglich

Was ist passiert?:
Wiki, Phorge ab ca. 15:40 nicht erreichbar!

Weitere Informationen

Systemdetails (Name/Version des Browsers, Softwareversion der Andwenudng)

Zusatzinformation
(Screenshots, etc.):

Details

Schwierigkeitsgrad
Beginner
Fehlerdetails (Bug Details)
Einordnung
Unklar
Reproduzierbarkeit
Nur temporär
Produktion
Yes

Related Objects

StatusSubtypeAssignedTask
Donebugmuke86
Donebugmuke86

Event Timeline

Kannst du dir Ursache ermitteln und ggf. Präventivmaßnahmen ableiten?

muke86 added projects: Restricted Project, Restricted Project, wiki.wikonia.net, Restricted Project, Unknown Object (Project).

Totalausfall des Servers

Tatsächlich gab es einen Totalausfall des Servers im Rechenzentrum. Laut Anbieter waren mehrere System betroffen.

image.png (297×1 px, 25 KB)

Status
$ uptime
 21:17:14 up  4:16,  1 user,  load average: 7,70, 7,73, 7,47

Zeitpunkt, 21:18 Uhr
Zum jetzigen Zeitpunkt läuft der Server und alle Dienste wieder ordnungsgemäß.

Die Zustellung von E-Mails bei einem Ausfall wird pausiert, es kann dadurch in den nächsten - nis zu 24 Stunden - zu verspäteter Zustellung von E-Mails kommen. Ein Verlust von E-Mails ist sicher ausgeschlossen.
Ursache

Unklar, bislang ich keine weitere Information durch den Anbieter erfolgt.
Fest steht allerdings:

  • Ausfall geschah außerhalb unseres Systems
  • Anbieter hat recht zügig reagiert, um die Ausfallzeit Minimal zu halten.

Möglichketen der Prävention

  • Lassen sich derartige Ausfälle künftig vermeiden?
    • Nein, solange wir mit einem Serverstandort arbeiten ist es nicht möglich Infrastruktur-Ausfälle dieser Art zu kompensieren. Ausfälle der Virtualisierung, des Backbones oder Interfaces auf dem der Server läuft sind möglich und unvorhersehbar. Abhilfe wäre nur möglich mit:
      • mindestens ein weiterer Server an einem anderen Standort
      • zusätzlich die Möglichkeit den Traffic gezielt dorthin zu leiten.
    • Ein solches Setup ist komplex uns zum gegenwärtigen Zeitpunkt und steht in keinem Verhältnis zum Nutzen.
  • Wie können wir zukünftig besser reagieren?
    • Da wir bei einer One-System-Solution, wie sie im Moment existiert auch alle Kommunikationskanäle verlieren, wäre es an der Stelle sinnvoll sich Gedanken über einen zusätzlichen, externen Kommunikationskanal zu machen. Dies könne zum Beispiel eine SocialMedia-MainPlattform sein, oder eine extern gehostete Status/Support Page (würde ich abraten), oder alternativ auch ein Chat, (sowas wir Discord?). Intern haben mich die Ausfallmeldungen über Telefon erreicht, was kommunikativ ausreichend ist.