Tag Archives: SRE

Ένα έτος προόδου στις υποδομές: Ενημέρωση του Senior Site Reliability Engineer για το 2023/2024

Ως Senior Site Reliability Engineer (SRE) του Ιδρύματος OpenStreetMap, το τελευταίο έτος η προσοχή μου στην Ομάδα Λειτουργίας του OpenStreetMap στράφηκε στην αύξηση της αποδοτικότητας, τη βελτίωση της ανθεκτικότητας και την κλιμάκωση της υποδομής μας για την υποστήριξη της συνεχούς ανάπτυξης του έργου OpenStreetMap. Από τη μετάβαση στο cloud έως την αναβάθμιση των διακομιστών, έχουμε κάνει αρκετές βελτιώσεις από πέρυσι για να προετοιμάσουμε καλύτερα την υποδομή του OpenStreetMap ώστε να ανταποκριθεί σε αυτές τις προκλήσεις ανθεκτικότητας και ανάπτυξης.

Βελτίωση των υπηρεσιών που απευθύνονται στους χρήστες

Αναβαθμισμένες υπηρεσίες rendering

Η υποδομή απόδοσης πλακιδίων υπέστη αξιοσημείωτες αναβαθμίσεις, συμπεριλαμβανομένων βελτιστοποιήσεων υλικού και λογισμικού, ταχύτερης λήξης της προσωρινής μνήμης πλακιδίων για την αντιμετώπιση του βανδαλισμού και αυτοματοποίησης για τον αποκλεισμό χρηστών που δεν κάνουν απόδοση (attribution)
. Πλέον κάνουμε re-render καθημερινά τα πλακίδια χαμηλής εστίασης, βελτιώνοντας τόσο την απόδοση όσο και επιτρέποντας έναν ταχύτερο βρόχο ανατροφοδότησης για τους χαρτογράφους. Η υπηρεσία πλακιδίων χρησιμοποιείται ευρέως και η κάλυψη της ζήτησης αποτελεί συνεχή πρόκληση.

Νέα υπηρεσία αεροφωτογραφιών

Ξεκίνησαμε μια νέα υπηρεσία αεροφωτογραφιών που υποστηρίζει GeoTIFF COGs. Η υπηρεσία φιλοξενεί τώρα το aerial.openstreetmap.org.za το οποίο υποστηρίζεται από 16 TB εικόνων υψηλής ανάλυσης. Η νέα υπηρεσία διευκολύνει τη φιλοξενία πρόσθετων εικόνων στο μέλλον.

Μετάβαση σε εναλλακτική λύση ηλεκτρονικού ταχυδρομείου και μετριασμός της ανεπιθύμητης αλληλογραφίας

Αφού αντιμετώπισαμε σημαντικά προβλήματα spam με το Google Workspace του OSMF, μετέφερα τις υπηρεσίες ηλεκτρονικού ταχυδρομείου του OSMF στο mailbox.org. Αυτό μείωσε τον όγκο των ανεπιθύμητων μηνυμάτων και βελτίωσε τη διοικητική αποτελεσματικότητα. Βρισκόμαστε επίσης στη διαδικασία μετάβασης αρχειακών δεδομένων του OSMF από το Google Docs σε μια αυτοδιαχειριζόμενη υπηρεσία.

Αντιμετώπιση επιθέσεων DDoS και βανδαλισμού

Φέτος, αντιμετωπίσαμε αρκετές επιθέσεις Κατανεμημένης Άρνησης Παροχής Υπηρεσιών (DDoS), συμπεριλαμβανομένου ενός σημαντικού περιστατικού DDoS για λύτρα, το οποίο καταγγέλθηκε στις αρχές. Οι επιθέσεις αυτές δοκίμασαν την υποδομή μας, αλλά εφαρμόσαμε μέτρα για την ενίσχυση της ανθεκτικότητάς μας και την καλύτερη προστασία από μελλοντικές απειλές.

Αντιμετωπίσαμε επίσης βανδαλισμούς μεγάλης κλίμακας που επηρέασαν τις υπηρεσίες του OpenStreetMap. Χάρη στην άμεση ανταπόκριση και τις προσαρμογές που έγιναν από την ομάδα Λειτουργιών, ενισχύσαμε την υποδομή μας για να αντιμετωπίσουμε καλύτερα την κατάχρηση και να διασφαλίσουμε τη συνεχή εξυπηρέτηση.

Φιλοξενία δεδομένων Planet Data στο AWS S3

Μαζί με την Ομάδα Λειτουργιών του OpenStreetMap μετέφερα τη φιλοξενία των δεδομένων του πλανήτη μας στο AWS S3 με mirrors τόσο στην ΕΕ όσο και στις ΗΠΑ, επιτρέποντάς μας να επαναφέρουμε πλήρως τον κατάλογο των δεδομένων του ιστορικού. Μέσω της χορηγίας OpenData της AWS, τα diffs αντιγραφής και τα δεδομένα του πλανήτη είναι πλέον πιο προσβάσιμα.

Ευκολότερη διαχείριση των συστημάτων

Πλήρης διαχείριση υποδομών AWS με χρήση του OpenTofu

Μαζί με την Ομάδα Λειτουργιών του OpenStreetMap μετέφερα με επιτυχία όλους τους πόρους AWS που διαχειρίζομαστε χειροκίνητα σε υποδομές ως κώδικα (IAC) χρησιμοποιώντας το OpenTofu (πρώην Terraform). Η μετάβαση αυτή μας επέτρεψε να μειώσουμε το κόστος, να ενισχύσουμε την ασφάλεια υιοθετώντας ένα μοντέλο IAM least privilege και να αποκτήσουμε καλύτερη ορατότητα στις δαπάνες μέσω αναλυτικών χρεώσεων. Επιπλέον, ενσωματώσαμε το S3 Storage Analytics για την περαιτέρω βελτιστοποίηση των δαπανών μας, δημιουργήσαμε πρόσθετα αντίγραφα ασφαλείας και εφαρμόσαμε βελτιωμένους κανόνες κύκλου ζωής.

Βελτιωμένη ειδοποίηση για διακοπές υπηρεσιών

Εφαρμόσαμε ειδοποίηση μέσω SMS για κρίσιμες διακοπές υπηρεσιών, παράλληλα με έναν χορηγούμενο λογαριασμό PagerDuty. Αυτές οι βελτιώσεις εξασφαλίζουν ταχύτερους χρόνους απόκρισης και καλύτερο συντονισμό κατά τη διάρκεια των διακοπών, ενώ η πλήρης ενσωμάτωση με το Prometheus/Alertmanager και το Statuscake βρίσκεται στα σκαριά.

Μείωση τεχνικού χρέους

Φέτος, σημειώσαμε πρόοδο στη μείωση του τεχνικού χρέους, μεταφέροντας αρκετές παλαιές υπηρεσίες σε πιο συντηρήσιμες λύσεις. Για παράδειγμα, τρέχουμε σε περιέχοντα (containerise) παλιές υπηρεσίες, συμπεριλαμβανομένων παλαιών ιστότοπων State of the Map, οι οποίοι προηγουμένως έτρεχαν σε κακοσυντηρημένες εγκαταστάσεις WordPress. Η μετάβαση αυτή βελτίωσε την επεκτασιμότητα, την ασφάλεια και τη μακροπρόθεσμη συντηρησιμότητα αυτών των υπηρεσιών.

Επιπλέον, αντικαταστήσαμε την προσαρμοσμένη εγκατάσταση του OTRS που είχαμε με μια εγκατάσταση του πακέτου Znunyαπό το Debian. Αυτή η αλλαγή απλοποιεί τις αναβαθμίσεις και μειώνει το βάρος της συντήρησης, διασφαλίζοντας ότι το σύστημα παραμένει ενημερωμένο και ασφαλές χωρίς προσαρμοσμένες τροποποιήσεις.

Εξασφάλιση της ανθεκτικότητας της υποδομής παρά τις βλάβες εξοπλισμού

Κατά τη διάρκεια του περασμένου έτους, διατηρήσαμε μια ανθεκτική υποδομή, ακόμη και μπροστά σε βλάβες του εξοπλισμού. Αντικαταστήσαμε πολυάριθμους δίσκους και μνήμες RAM, εξασφαλίζοντας την ελάχιστη δυνατή διακοπή των υπηρεσιών. Το ειδικά σχεδιασμένο σύστημα παρακολούθησης μας επιτρέπει να εντοπίζουμε έγκαιρα σημάδια βλάβης εξοπλισμού, επιτρέποντάς μας να ενεργούμε γρήγορα και να αντικαθιστούμε τα ελαττωματικά εξαρτήματα πριν προκαλέσουν σημαντικά προβλήματα. Αυτή η προληπτική προσέγγιση είναι το κλειδί για τη διατήρηση του χρόνου λειτουργίας και της αξιοπιστίας του συστήματος.

Αναβάθμιση της υποδομής

Cross-Site αναπαραγωγή αντιγράφων ασφαλείας

Για να διασφαλίσω ισχυρή ανάκαμψη μετά από καταστροφή, έχω εξασφαλίσει αντιγραφή μεταξύ διαφορετικών λογαριασμών και περιοχών για τα αντίγραφα ασφαλείας AWS S3, επιτρέποντας την ανάκτηση σε συγκεκριμένο χρονικό σημείο. Αυτό διασφαλίζει κρίσιμα δεδομένα και υπηρεσίες, ακόμη και σε περίπτωση μαζικής διακοπής λειτουργίας του συστήματος, παρέχοντας μακροπρόθεσμη ψυχική ηρεμία.

Υποδομή υψηλής διαθεσιμότητας

Κομβικές αναβαθμίσεις υλικού στις τοποθεσίες μας στο Άμστερνταμ, το Δουβλίνο και το OSUOSL βελτίωσαν την απόδοση, τη χωρητικότητα αποθήκευσης και την αξιοπιστία του δικτύου. Το 2022 εγκαταστάθηκαν νέοι μεταγωγείς και τώρα έχουμε ολοκληρώσει τη δημιουργία μιας διαμόρφωσης υψηλής διαθεσιμότητας (HA) για να εξασφαλίσουμε βελτιωμένη υπηρεσία, την οποία συνεχίσαμε να βελτιώνουμε τη ρύθμιση με τη μετάβαση σε διπλές διαφορετικές συνδέσεις ανόδου προς τον πάροχο υπηρεσιών διαδικτύου μας για καλύτερη ανθεκτικότητα.

Μετάβαση στο Debian

Μεταβαίνουμε από το Ubuntu στο Debian 12 (Bookworm) ως την τυπική μας διανομή. Όλοι οι νέοι διακομιστές τρέχουν τώρα σε Debian. Η διαχείριση των ρυθμίσεων του chef μας έχει ενημερωθεί με δοκιμαστικό κώδικα για να διασφαλιστεί η συνεχής συμβατότητα. Αυτή η μετάβαση σηματοδοτεί μια στροφή προς μεγαλύτερη μακροπρόθεσμη σταθερότητα και ασφάλεια. Δημοσίευση στο Mastodon για τον εορτασμό της μετάβασης.

Κοιτάζοντας μπροστά

Η επόμενη χρονιά φέρνει νέες συναρπαστικές ευκαιρίες καθώς θα αξιοποιούμε την πρόοδό μας. Οι βασικές προτεραιότητες για το 2024/2025 περιλαμβάνουν:

Ενεργοποίηση

Κοινοτική δέσμευση και επικοινωνία προς τα έξω: Ενίσχυση της συνεργασίας με την Ομάδα Εργασίας Επικοινωνίας (CWG) και βελτίωση της επικοινωνίας μας με το κοινό σχετικά με την κατάσταση των υπηρεσιών και τις διακοπές.

Βελτίωση της τεκμηρίωσης και του Onboarding: Θα βελτιώσουμε την τεκμηρίωση μας για το onboarding και θα διεξάγουμε ειδικές συνεδρίες για να βοηθήσουμε τους νέους συνεργάτες να συμμετάσχουν ευκολότερα στη διαχείρηση των λειτουργιών. Αυτό περιλαμβάνει τη βελτίωση της αξιοπιστίας και της κάλυψης των διαδικασιών δοκιμών μας, εξασφαλίζοντας ομαλότερες συνεισφορές και μειώνοντας την καμπύλη εκμάθησης για τα νέα μέλη της ομάδας.

Σχεδιασμός και βελτιστοποίηση

Σχεδιασμός χωρητικότητας για την ανάπτυξη των υποδομών: Όσο το OpenStreetMap και η ζήτηση για τις υπηρεσίες μας συνεχίζει να αυξάνεται, θα διασφαλίσουμε ότι μπορούμε να επεκταθούμε ώστε να ανταποκριθούμε στη ζήτηση αυτή. Προβλέποντας τις μελλοντικές ανάγκες και εξισορροπώντας την απόδοση με την οικονομικά αποδοτική ανάπτυξη, στοχεύουμε να διατηρήσουμε την ποιότητα και τη διαθεσιμότητα των υπηρεσιών που αναμένει η κοινότητά μας.

Συνεχής βελτιστοποίηση κόστους: Θα συνεχίσουμε να βρίσκουμε τρόπους μείωσης του κόστους αξιοποιώντας χορηγίες όπως το πρόγραμμα AWS OpenData, εξασφαλίζοντας βιώσιμες λειτουργίες.

Συνέχιση της μείωσης του τεχνικού χρέους: Θα συνεχίσουμε να απλοποιούμε την υποδομή μας μειώνοντας το βάρος της συντήρησης των παλαιών συστημάτων, όπως η αύξηση της χρήσης των containers. Αυτό θα συμβάλει στον εξορθολογισμό των καθηκόντων διαχείρισης και θα μας επιτρέψει να επικεντρωθούμε σε άλλες βελτιώσεις, καθιστώντας την υποδομή πιο αποτελεσματική και επεκτάσιμη με την πάροδο του χρόνου.

Συνέχιση των βελτιώσεων υποδομών

Υλοποίηση εξισορροπιστών φορτίου υψηλής διαθεσιμότητας: Ανάπτυξη της διαμόρφωσης HA (VRRP + LVS + DSR) για τους εξισορροπητές φορτίου για τη βελτίωση της αξιοπιστίας του συστήματος και τη μείωση του πιθανού χρόνου διακοπής λειτουργίας.

Ολοκλήρωση της ενσωμάτωσης του Prometheus με το PagerDuty: Ολοκλήρωση της ενσωμάτωσης του Prometheus για παρακολούθηση και του PagerDuty για βελτιωμένη ειδοποίηση και αντιμετώπιση περιστατικών.

Ολοκληρώστε τη μετάβαση σε πλήρες περιβάλλον Debian: Μεταφορά όλων των υπόλοιπων υπηρεσιών από το Ubuntu στο Debian για μεγαλύτερη σταθερότητα και ασφάλεια.

Βελτίωση των στρατηγικών αποκατάστασης από καταστροφές και δημιουργίας αντιγράφων ασφαλείας: Περαιτέρω βελτίωση της τεκμηρίωσης ανάκαμψης και εισαγωγή πρόσθετων μέτρων δημιουργίας αντιγράφων ασφαλείας σε όλες τις κρίσιμες υπηρεσίες που προστατεύονται και μπορούν να ανακτηθούν σε περίπτωση βλάβης.