SaaS-Observability für Startups: Was sollte man instrumentieren und was nicht

Der Weg zur Beherrschung der SaaS-Observability beginnt meist in einer von zwei extremen, unbeabsichtigten Fallen. Anfangs gehen die meisten Gründer den Weg des „Blindflugs“. Sie tracken absolut nichts, veröffentlichen Funktionen im Eiltempo und wiegen sich in Sicherheit, bis ein frustrierter Nutzer einen schwerwiegenden Bug in den sozialen Medien öffentlich macht. In Panik verfällt man dann ins andere Extrem: Man kauft eine riesige, professionelle Monitoring-Plattform, noch bevor man 500 aktive Nutzer erreicht hat. Drei Monate später erhält man eine Rechnung, die höher ist als die Kosten für die erste Einstellung eines Entwicklers.

Beide Wege sind unglaublich schmerzhaft und lassen Sie entweder völlig im Dunkeln oder völlig pleite.

Das Skalieren Ihres Startups sollte sich jedoch nicht so anfühlen, als müssten Sie zwischen einer Augenbinde und einer Luxussteuer wählen.

Es gibt einen vernünftigen Mittelweg, und er hängt vom richtigen Zeitpunkt ab. Unser Team bei Redwerk hat Software für über 250 Kunden entwickelt und gewartet und dabei ein konsistentes Muster beobachtet: Das Problem liegt nicht darin, dass Teams zu viel oder zu wenig tracken, sondern dass sie die falschen Dinge zur falschen Phase tracken.

Sie müssen nicht zulassen, dass Ihre Tools Ihre Margen verschlingen. Um Ihnen zu helfen, den perfekten Sweet Spot zu finden, haben wir auf Basis unserer Erfahrung in der SaaS-Produktentwicklung. ein phasenweises Playbook entwickelt. Egal ob Sie ein kämpferisches Team sind, das noch nach dem Product-Market-Fit sucht, oder eine boomende Plattform, die über 100.000 monatlich aktive Nutzer skaliert – dieser Leitfaden zeigt Ihnen genau, was Sie heute tracken sollten, was Sie bis morgen getrost ignorieren können und die einzige größte Over-Monitoring-Falle, die Sie vermeiden sollten. Lassen Sie uns Ihr System in Ordnung bringen.

Was ist Observability für SaaS-Anwendungen und wie unterscheidet sie sich vom Monitoring?

Observability ist Ihre Fähigkeit zu verstehen, was in Ihrer SaaS-Anwendung anhand der von ihr erzeugten Signale passiert: Fehler, Antwortzeiten, Logs und Traces. Sie ermöglicht es Ihnen, ‘Warum ist das kaputt?’ zu beantworten, und nicht nur ‘Ist das kaputt?’ – das ist der Unterschied zwischen einem Dashboard mit einer Warnlampe und einem, das Ihnen sagt, welcher Zylinder fehlfeuert.

Monitoring ist die engere Disziplin darunter. Sie definieren einen Grenzwert, und das System benachrichtigt Sie, wenn eine Metrik diesen überschreitet. Observability geht weiter und liefert Ihnen die Rohdaten, um Fehler zu untersuchen, die Sie nie vorhergesehen haben. Beides ist wichtig, aber Startups zahlen oft für schwere Observability-Tools, wenn solides Monitoring alles ist, was sie brauchen – und dort laufen die Kosten aus dem Ruder. Was Sie überwachen und was Sie ausgeben, sollte Ihrer Wachstumsphase entsprechen, wie der Rest dieses Leitfadens erläutert.

Was in einer SaaS-Anwendung zu überwachen ist: 4 Signale, die vom ersten Tag an zu instrumentieren sind

Diese vier gehören vom ersten Tag an in jedes SaaS-Produkt, egal ob Sie zehn oder zehntausend Nutzer haben.

Fehlerrate bei Ihren wichtigsten Nutzer-FlowsWählen Sie die drei oder vier Workflows aus, die Ihr Produkt unterstützen soll, etwa Registrierung, Anmeldung und Abschluss eines Kaufs. Instrumentieren Sie dann jeden einzelnen, um zu sehen, ob er erfolgreich ist oder fehlschlägt. Konsistent getrackt übertrifft dieses einzelne Signal hundert Infrastruktur-Dashboards, denn Sie müssen nicht wissen, warum etwas fehlgeschlagen ist, bis Sie wissen, dass es fehlschlägt.
API-Antwortzeit auf Ihren kritischen PfadenTracken Sie die Latenz des 95. Perzentils (p95) an Ihren meistgenutzten Endpunkten, nicht den Mittelwert, denn ein Mittelwert verbirgt still Ihre schlimmsten Fälle. Eine typische Antwort von 200 ms sieht gut aus, bis Sie feststellen, dass 5 % der Nutzer vier Sekunden warten – und diese langsamen Antworten treffen oft Ihre wertvollsten Kunden.
Uptime-Monitoring per externem PingDieses ist einfach einzurichten und wird viel zu oft übersprungen. Ein kostenloses Tool, das prüft, ob Ihre Anwendung von der Außenwelt erreichbar ist, kostet nichts und hat Unternehmen Millionen gespart. Laut EMA Researchs Analyse 2024 kostet ungeplante Ausfallzeit Organisationen im Durchschnitt 14.056 $ pro Minute. Ein externer Check ist die günstigste Absicherung dagegen, von einem Kunden als Erster über einen Ausfall zu erfahren.
Nutzer-seitige Fehlerprotokolle mit ausreichend Kontext zur FehlernachstellungLogs, die ‘Fehler 500’ ohne Details über den Nutzer, die Anfrage oder den Systemzustand anzeigen, sind nahezu nutzlos. Vom ersten Tag an sollten Ihre Logs genug Kontext bereitstellen, um einen Fehler zu diagnostizieren, ohne die Nutzerreise aus dem Gedächtnis rekonstruieren zu müssen. Das erfordert Disziplin beim Schreiben von Log-Anweisungen, nicht teures Tooling.

Das Redwerk-Softwarewartungsteam hilft SaaS-Teams, diese Grundlagen frühzeitig zu etablieren, bevor sich die Kosten für das Beheben von Lücken potenzieren.

Phase 1: Pre-PMF SaaS-Observability (unter 10.000 MAU) mit einem Monatsbudget von 0 bis 50 $

In dieser Phase optimieren Sie kein fertiges System, sondern führen ein Experiment durch. Vor der Produkt-Markt-Anpassung geht es nicht um eine umfassende Marktabdeckung. Vielmehr sollten Sie darauf abzielen, Fehler aufzudecken, die das Vertrauen der Nutzer kosten oder Sie daran hindern, zu erfahren, wie die Nutzer das Produkt verwenden.

Die vier permanent verfügbaren Signale, die den Großteil Ihrer Anforderungen abdecken, sind das Hinzufügen strukturierter Fehlerprotokolle mit Benutzer- und Sitzungskontext sowie die Darstellung von Fehlerrate, Latenz und Verfügbarkeit auf einem einzigen Dashboard, sodass Sie eine Frage in weniger als zwei Minuten beantworten können: „Ist für einen Benutzer gerade etwas defekt?“

Das alles muss noch kein Geld kosten. Sentry bietet in seiner kostenlosen Version Fehlerverfolgung und Sitzungskontextverwaltung, UptimeRobot deckt die externe Verfügbarkeit ab, und sowohl AWS CloudWatch (der Überwachungsdienst von Amazon Web Services) als auch Grafana Cloud bieten kostenlose Versionen für grundlegende Metriken und Protokollaggregation bei geringem Datenverkehr.

Was zu überspringen ist:

Vollständiges Distributed Tracing, das zwar leistungsstark, aber aufwändig zu betreiben und sinnlos ist, bis Sie die Dienst-Komplexität haben, die es rechtfertigt.
Profiling pro Anfrage, das ein Produkt feinabstimmt, bevor Sie bestätigt haben, dass es jemand will.
Langfristige Log-Aufbewahrung ist unnötig, da 14 Tage ausreichen, um fast jedes Problem in dieser Phase zu diagnostizieren.

Phase 2: Frühe Wachstums-SaaS-Observability (10.000 bis 100.000 MAU) mit einem Monatsbudget von 200 bis 500 $

Sie haben etwas gefunden, das Nutzer wollen. Der Traffic steigt, Ihr Team wächst wahrscheinlich, und Fehler haben nun echte geschäftliche Konsequenzen. Hier wandelt sich Observability von einem Nice-to-have zu dem Mittel, das Ihnen ermöglicht, schnell voranzukommen, ohne das Vertrauen zu brechen.

Beginnen Sie mit dem Tracking von Metriken auf Anwendungsebene wie Feature-Adoption- und Aktivierungsraten, damit Sie es bemerken, wenn die Aktivierung am Tag nach einem Deployment um 15 % sinkt, noch bevor die Beschwerdemails eintreffen. Fügen Sie Distributed Tracing zu Ihren zwei oder drei wichtigsten geschäftskritischen Flows hinzu, etwa Checkout, Onboarding und das Kern-Feature, auf das Ihre besten Kunden täglich angewiesen sind. Definieren Sie Service-Level-Objectives (SLOs), also messbare Performance-Ziele wie ‘99,5 % der Login-Anfragen gelingen innerhalb von 800 ms’, und bauen Sie darauf Alerting auf, das auf kundensichtbare Ergebnisse abbildet statt auf rohe Infrastruktur-Metriken.

Fügen Sie außerdem Log-Aggregation mit Suche hinzu, denn ab 10.000 MAU können Sie Logs nicht mehr in einer Konsole lesen oder auf SSH-Zugriff (Secure Shell) auf Ihre Server angewiesen sein. Grafana Clouds kostenpflichtiger Tarif, Better Uptime, Sentry Team und ein OpenTelemetry-kompatibles Backend wie Axiom oder Highlight.io decken all das für deutlich unter 500 $ pro Monat ab.

Was zu überspringen ist:

End-to-End-Tracing jedes Dienstes, was auf diesem Traffic-Niveau immer noch mehr ist als nötig.
Session-Aufzeichnung auf Infrastrukturebene, da Produktanalyse-Tools wie PostHog dies günstiger und besser erledigen.
Teure APM-Agenten (Application Performance Monitoring) auf jedem Container, die Ihre Rechnung für marginale Gewinne aufblähen.

Dies ist auch die Phase, in der die richtigen, frühzeitig getroffenen DevOps-Architekturentscheidungen sich vielfach auszahlen. Redwerks DevOps-Beratungsteam hilft SaaS-Teams, Instrumentierung und Pipelines zu gestalten, die skalieren, ohne einen Neuaufbau in der nächsten Wachstumsphase zu erzwingen.

Phase 3: Skalierte SaaS-Observability (über 100.000 monatlich aktive Nutzer) mit einem monatlichen Budget von 2.000 bis 5.000 US-Dollar

Ab 100.000 monatlich aktiven Nutzern (MAU) betreiben Sie ein ausgereiftes Produkt unter hoher Auslastung, und die Folgen eines Produktionsausfalls sind deutlich gravierender. Die Frage ist nicht mehr, ob investiert werden soll, sondern wie in die richtigen Signale investiert werden kann, ohne dabei eine unkontrollierte Ausweitung der Tools zu riskieren, die die Kosten auf das Zwei- bis Dreifache des Budgets treibt.

Vollständiges verteiltes Tracing über alle Dienste hinweg ist angesichts Ihrer Komplexität, Ihres Datenverkehrs und Ihres Geschäftsszenarios nun gerechtfertigt. Ergänzen Sie die Frontend-Performance durch Real User Monitoring (RUM), da sich das Verhalten Ihrer Anwendung in einem echten Browser oft von Ihren synthetischen Tests unterscheidet. Bei diesem Umfang schlägt sich diese Diskrepanz in Konversion und Kundenbindung nieder.

Implementieren Sie die Überwachung der Datenbankabfrageleistung, da langsame Abfragen eine Hauptursache für Latenzspitzen und Folgeausfälle sind, ohne diese Überwachung jedoch unbemerkt bleiben. Verfolgen Sie Fehlerbudgets im Vergleich zu Ihren SLOs. Das Budget entspricht der maximal zulässigen Ausfallzeit (bei 99,9 % Verfügbarkeit bleiben beispielsweise 8,7 Stunden pro Jahr zulässig). Dadurch wird Zuverlässigkeit zu einer konkreten Geschäftsentscheidung. Ergänzen Sie die Kostenzuordnung, um bei Preis- und Roadmap-Entscheidungen zu ermitteln, welche Funktionen oder Segmente die meiste Infrastruktur beanspruchen.

Was (weiterhin) zu überspringen ist:

Profiling pro Anfrage in der Produktion, außer Sie verfolgen ein bestimmtes, bestätigtes Problem; samplen Sie stattdessen 1 % der Anfragen.
Unbegrenzte Log-Aufbewahrung; halten Sie Logs 30 Tage lang durchsuchbar und archivieren Sie sie danach günstig.

Für die Tool-Nutzung eignen sich Datadog, Honeycomb, Grafana Enterprise oder ein selbstgehosteter OpenTelemetry-Stack mit ClickHouse gut, die Kosten variieren jedoch stark. Insbesondere bei Datadog ist eine sorgfältige Budgetplanung unerlässlich. Die Infrastrukturüberwachung beginnt bei 15 US-Dollar pro Host und Monat, und Module wie APM (Application Performance Monitoring) und Log-Management werden separat berechnet. Daher fallen die Rechnungen oft zwei- bis dreimal höher aus als der ursprüngliche Kostenvoranschlag. Gehen Sie also mit Bedacht vor.

Der #1 SaaS-Observability-Fehler: Zu viele Alerts auf Infrastruktur-Metriken, die keine Kundenschmerzen vorhersagen

Wir haben dieses Muster bei Dutzenden von SaaS-Teams beobachtet. Sie verbinden ein Dashboard und konfigurieren Alerts auf CPU-Auslastung (Central Processing Unit), Arbeitsspeicher, Festplatten-I/O (Input/Output) und Netzwerkdurchsatz und fühlen sich abgesichert. Dann werden sie um 2 Uhr nachts angepiept, weil die CPU während eines geplanten Batch-Jobs auf 80 % gestiegen ist, untersuchen 45 Minuten lang, finden nichts Falsches mit den Nutzern und gehen frustriert wieder schlafen. Inzwischen schlägt ein Bug aus dem vorherigen Deployment still bei 3 % der Checkout-Flows fehl, ohne einen Alert, weil niemand diesen Flow instrumentiert hat.

Infrastruktur-Metriken sind nicht nutzlos, aber sie sind ein Mittel zum Zweck. Ein Server mit 90 % Speicherauslastung ist an sich nicht wert, dafür aufzuwachen. Derselbe Server, der die p95-Latenz an Ihrem Zahlungsendpunkt über zwei Sekunden schiebt, ist es absolut. Der Unterschied liegt darin, ob Sie das Signal mit einem kundensichtbaren Ergebnis verknüpft haben.

SaaS-Observability mit kleinem Startup-Budget: Was sollte man messen, was kann man ignorieren

Hier ist also die Regel, die wir empfehlen, vor der Konfiguration eines Alerts durchzusetzen: Sie muss auf etwas zurückführbar sein, das ein Kunde erleben würde. Wenn Sie den Satz ‘Wenn dies auslöst und wir es ignorieren, wird der Kunde ____ erleben’ nicht vervollständigen können, sollte er niemanden anpiepen.

Bauen Sie Alerting stattdessen von oben nach unten auf: Definieren Sie, wie eine beeinträchtigte Experience für jeden kritischen Flow in messbaren Begriffen aussieht, und instrumentieren Sie dann die Signale, die sie vorhersagen. Die meisten Teams arbeiten umgekehrt und verbrennen Engineering-Zeit damit, Rauschen zu jagen, anstatt Probleme zu verhindern.

Wie man SaaS-Observability-Tools auswählt: Ein einfaches Entscheidungsrahmenwerk

Die richtige Reihenfolge bei der Auswahl von Observability-Tools ist einfach, wird aber von den meisten Teams übersprungen:

Erstens: Kartieren Sie Ihre drei wichtigsten Nutzer-Flows – diejenigen, die einen Kunden zur Kündigung oder zum Anruf beim Support veranlassen würden, wenn sie unterbrochen wären.
Zweitens: Definieren Sie, was ‘kaputt’ für jeden in messbaren Begriffen bedeutet: ein Timeout über drei Sekunden, ein Fehlercode oder ein stilles Versagen, bei dem die Antwort 200 sagt, aber nichts nachgelagert passiert ist.
Drittens: Fragen Sie, welches Signal diesen Fehler vor der ersten Beschwerde aufdecken würde, und instrumentieren Sie das zuerst.
Viertens: Öffnen Sie die Preisseite des Tools, denn das Tool sollte zu den Signalen passen, die Sie brauchen, nicht umgekehrt.

Die richtige Implementierung der Observability von Anfang an beeinflusst, wie schnell Sie Probleme diagnostizieren, wie viel Zeit Sie durch Fehlalarme verlieren und wie selbstsicher Sie shippen. Ob Sie ein SaaS-Produkt aufbauen oder eines skalieren, das über den Punkt hinausgeht, an dem Ihr aktuelles Setup Sie aufhält – das Redwerk-Team macht das seit über 20 Jahren. Wir bauen SaaS-Produkte mit produktionsreifer Observability als integralem Bestandteil, nicht als nachträglichem Zusatz, damit Sie mit den Signalen starten, die wichtig sind, und einem klaren Wachstumspfad. Wenn Sie bereit sind, kontaktieren Sie uns und lassen Sie uns das richtige Observability-Framework für Sie etablieren.

FAQ

Was ist SaaS-Observability?

SaaS-Observability ist die Praxis des Sammelns und Analysierens von Signalen einer SaaS-Anwendung, einschließlich Fehlern, Antwortzeiten, Logs und Request-Traces, um zu verstehen, wie sich das System verhält und warum Probleme auftreten. Ein gut beobachtetes System ermöglicht es Ihrem Team, unerwartete Fehler schnell zu diagnostizieren, anstatt nur zu erkennen, dass ein Fehler existiert.

Was ist der Unterschied zwischen Monitoring und Observability?

Monitoring prüft, ob vordefinierte Bedingungen erfüllt sind, beispielsweise ob die Uptime über 99,9 % bleibt oder Fehlerraten unter einem Schwellenwert. Observability liefert Rohdaten zur Untersuchung von Bedingungen, die Sie nicht vorhergesehen haben. Monitoring sagt Ihnen, dass etwas nicht stimmt. Observability sagt Ihnen, warum. Die meisten früh-phasigen SaaS-Teams brauchen gutes Monitoring weit dringender als vollständiges Observability-Tooling.

Was sollten Sie in einer SaaS-Anwendung überwachen?

Überwachen Sie mindestens, ob Ihre wichtigsten Nutzer-Flows erfolgreich sind oder fehlschlagen, wie schnell Ihre meistgenutzten Endpunkte antworten, ob die Anwendung von der Außenwelt erreichbar ist und ob Ihre Fehlerprotokolle genug Kontext tragen, um Fehler zu diagnostizieren. Was Sie darüber hinaus hinzufügen, sollte durch Ihre Wachstumsphase, architektonische Komplexität und Ihr Budget bestimmt werden.

Was ist der günstigste Weg, eine SaaS-Anwendung zu überwachen?

Das schlankste effektive Setup für ein Pre-PMF-Produkt kombiniert Sentrys kostenlosen Tarif für Error-Tracking, UptimeRobot für externe Verfügbarkeit und AWS CloudWatch oder Grafana Clouds kostenlosen Tarif für Metriken. Zusammen decken sie die vier dauerhaft aktiven Signale ab, die jedes Produkt braucht, und Sie können den gesamten Stack an einem einzigen Arbeitstag zum Laufen bringen.

Wann sollte ein Startup beginnen, in kostenpflichtige Observability-Tools zu investieren?

Der Auslöser ist keine Nutzerzahl oder Umsatzzahl. Es ist der Moment, in dem Ihr kostenloser Setup anfängt, gegen Sie zu arbeiten: Alerts erzeugen mehr Rauschen als Signal, Vorfälle dauern länger als 30 Minuten zur Diagnose, oder Ihre Aufbewahrungsfenster sind zu kurz, um die wichtigen Probleme zu untersuchen. Sobald eines davon zur Routine wird, zahlt sich kostenpflichtiges Tooling durch wiedergewonnene Engineering-Zeit aus.

Erfahren Sie, wie wir ein Recruitment-SaaS gebaut haben, das von einem Nasdaq-notierten Unternehmen mit einer Marktkapitalisierung von über 250 Mio. übernommen wurde

SaaS-Observability mit kleinem Startup-Budget: Was sollte man messen, was kann man ignorieren