Monitoring i obserwowalność

Name: BusiKM
Author: BusiKM

1. Cztery filary obserwowalności

Filar	Narzędzie	Zakres
Błędy	Sentry	Śledzenie wyjątków, performance, sessions
Metryki	Prometheus + Grafana	Metryki systemowe, aplikacyjne, biznesowe
Dostępność	Uptime Kuma	Monitoring endpointów i usług
Logi	Structured logging	JSON logi z korelacją request ID

Automatycznie usuwane z raportów: password, token, NIP, PESEL, credit_card, nagłówki Authorization i Cookie.

Target	Endpoint	Port	Interwał
django	/metrics	8000	15s
postgres-exporter	/metrics	9187	15s
redis-exporter	/metrics	9121	15s
mongo-exporter	/metrics	9216	15s
celery-exporter	/metrics	9808	15s
node-exporter	/metrics	9100	15s

Dashboard	Panele
System Overview	CPU, RAM, disk, network, uptime per usługę
API Performance	Latency p50/p95/p99, requests/s, error rate, top-10 slowest
Celery	Queue length, task success/failure rate, avg task time
Business Metrics	Active trips, GPS points ingested, reports generated, companies registered

Metryka	Źródło	Opis
busikm_active_trips	Django	Aktywne przejazdy w danej chwili
busikm_gps_points_total	Django	Łączna liczba zapisanych punktów GPS
busikm_reports_generated	Celery	Wygenerowane raporty (per typ: PDF, CSV)
busikm_exports_total	Celery	Eksporty FK (per provider: insert_gt, optima)
busikm_companies_total	Django	Zarejestrowane firmy (per plan)

Publiczna strona statusu: status.busikm.pl

Monitorowane endpointy (12):

Severity	Opis	Czas reakcji	Przykład
SEV-1	Krytyczny — system niedostępny	<15 min	API nie odpowiada, baza padła
SEV-2	Poważny — degradacja funkcji	<1h	GPS nie zapisuje, raporty nie generują się
SEV-3	Średni — funkcja działa z ograniczeniami	<4h	Wolne ładowanie mapy, timeout na eksporcie
SEV-4	Niski — kosmetyczny problem	<24h	Błąd w UI, literówka w raporcie