Tag Archives: servers

Un año de progreso en infraestructuras: Informe del Ingeniero de Fiabilidad del Sitio 2023/2024

Como Ingeniero Senior de Fiabilidad del Sitio (SRE) de la Fundación OpenStreetMap, el año pasado me centré dentro del Equipo de Operaciones de OpenStreetMap en impulsar la eficiencia, mejorar la resistencia y ampliar nuestra infraestructura para apoyar el crecimiento continuo del proyecto OpenStreetMap. Desde la migración a la nube hasta la actualización de los servidores, hemos realizado varias mejoras desde el año pasado para posicionar mejor la infraestructura de OpenStreetMap y hacer frente a estos retos de resistencia y crecimiento.

Mejorar los servicios de cara al usuario

Servicios de renderizado mejorados

La infraestructura de renderizado de teselas ha experimentado notables mejoras, como optimizaciones de hardware y software, una caducidad más rápida de la caché de teselas para hacer frente al vandalismo, y la automatización para bloquear a los usuarios no atribuidores. Ahora a diario volvemos a renderizar las teselas de zoom bajo, lo que mejora el rendimiento y permite un bucle de retroalimentación al mapeador más rápido. El servicio de teselas se utiliza mucho y mantener la demanda es un reto continuo.

Nuevo servicio de imágenes aéreas

Lanzamos un nuevo servicio de imágenes aéreas compatible con COGs GeoTIFF. El servicio aloja ahora aerial.openstreetmap.org.za, respaldado por 16 TB de imágenes de alta resolución. El nuevo servicio facilita el alojamiento de imágenes adicionales en el futuro.

Transición a la alternativa de Gmail y mitigación del spam

Tras enfrentarme a importantes problemas de spam con el espacio de trabajo de Google de OSMF, migré los servicios de correo electrónico de OSMF a mailbox.org. Esto ha reducido el volumen de spam y ha mejorado la eficiencia administrativa. También estamos en el proceso de transición de los datos históricos de Google Docs de OSMF a un servicio autoalojado.

Hacer frente a los ataques DDoS y al vandalismo

Este año nos hemos enfrentado a varios ataques de denegación de servicio distribuido (DDoS), incluido un importante incidente de DDoS para pedir rescate, del que se informó a las fuerzas de seguridad. Estos ataques pusieron a prueba nuestra infraestructura, pero hemos aplicado medidas para reforzar nuestra resistencia y protegernos mejor contra futuras amenazas.

También hicimos frente al vandalismo a gran escala que afectó a los servicios de OpenStreetMap. Gracias a la rápida respuesta y a los ajustes realizados por el equipo de Operaciones, hemos reforzado nuestra infraestructura para gestionar mejor los abusos y garantizar un servicio continuo.

Alojamiento de Planet Data en AWS S3

Junto con el Equipo de Operaciones de OpenStreetMap, he trasladado nuestro alojamiento de datos de planetas a AWS S3 con réplicas tanto en la UE como en EE.UU., lo que nos ha permitido restablecer por completo el catálogo retrospectivo de datos históricos. A través del patrocinio OpenData de AWS, los diffs de replicación y los datos planetarios son ahora más accesibles.

Facilitar la gestión de los sistemas

Gestión completa de la infraestructura de AWS con OpenTofu

Con el Equipo de Operaciones de OpenStreetMap he migrado con éxito todos los recursos de AWS gestionados manualmente a la Infraestructura como Código (IAC) utilizando OpenTofu (antes Terraform). Esta transición nos ha permitido mejorar la rentabilidad, aumentar la seguridad adoptando un modelo IAM de mínimo privilegio y obtener una mejor visibilidad de los gastos mediante etiquetas de facturación detalladas. Además, hemos integrado S3 Storage Analytics para optimizar aún más nuestros costes, hemos configurado copias de seguridad adicionales y hemos implementado reglas de ciclo de vida mejoradas.

Alerta mejorada de interrupción del servicio

Hemos implementado alertas por SMS para las interrupciones críticas del servicio, junto con una cuenta patrocinada de PagerDuty. Estas mejoras garantizan tiempos de respuesta más rápidos y una mejor coordinación durante las interrupciones, y se está trabajando en la integración completa con Prometheus/Alertmanager y Statuscake.

Reducción de la Deuda Técnica

Este año hemos avanzado en la reducción de la deuda técnica trasladando varios servicios heredados a soluciones más fáciles de mantener. Por ejemplo, hemos puesto en contenedores servicios antiguos, como los sitios web del Estado del Mapa, que antes funcionaban con instalaciones de WordPress mal mantenidas. Esta transición ha mejorado la escalabilidad, la seguridad y el mantenimiento a largo plazo de estos servicios.

Además, sustituimos nuestra instalación de código personalizado de OTRS por una instalación del paquete Znunyde Debian. Este cambio simplifica las actualizaciones y reduce la carga de mantenimiento, garantizando que el sistema permanezca actualizado y seguro sin modificaciones personalizadas.

Garantizar la resistencia de la infraestructura a pesar de los fallos del hardware

El año pasado mantuvimos una infraestructura resistente incluso ante fallos de hardware. Sustituimos numerosos discos y RAM, garantizando una interrupción mínima de los servicios. Nuestro sistema de supervisión a medida nos permite detectar señales tempranas de fallos de hardware, lo que nos permite actuar con rapidez y sustituir los componentes defectuosos antes de que causen problemas importantes. Este enfoque proactivo ha sido clave para mantener el tiempo de actividad y la fiabilidad del sistema.

Mejora de las infraestructuras

Replicación entre sitios de las copias de seguridad

Para garantizar una sólida recuperación de desastres, he establecido una replicación entre cuentas y regiones para las copias de seguridad de AWS S3, lo que permite una recuperación puntual. Esto salvaguarda los datos y servicios críticos, incluso ante fallos graves, proporcionando tranquilidad a largo plazo.

Infraestructura de alta disponibilidad

Las actualizaciones de hardware clave en nuestras sedes de Ámsterdam, Dublín y OSUOSL mejoraron el rendimiento, la capacidad de almacenamiento y la fiabilidad de la red. En 2022 se instalaron nuevos conmutadores, y ahora hemos terminado de establecer una configuración de alta disponibilidad (HA) para garantizar un mejor servicio, que hemos seguido mejorando pasando a enlaces ascendentes diversos duales con nuestro ISP para mejorar la capacidad de recuperación.

Migración a Debian

Estamos migrando de Ubuntu a Debian 12 (Bookworm) como nuestra distribución estándar. Todos los servidores nuevos funcionan ahora con Debian. Nuestra gestión de configuración de chefs se ha actualizado con código de prueba para garantizar la compatibilidad permanente. Esta transición marca un cambio hacia una mayor estabilidad y seguridad a largo plazo. Post de Mastodon celebrando la transición.

De cara al futuro

El año que tenemos por delante nos brinda nuevas y emocionantes oportunidades a medida que avanzamos. Las prioridades clave para 2024 / 2025 incluyen:

Involucramiento

Compromiso con la Comunidad y Comunicación Exterior: Aumentar la colaboración con el Grupo de Trabajo de Comunicación (GTC) y mejorar nuestra comunicación de cara al público sobre el estado del servicio y los cortes.

Mejorar la documentación y la incorporación: Mejoraremos la documentación de incorporación y realizaremos sesiones específicas para ayudar a los nuevos colaboradores a participar en las operaciones más fácilmente. Esto incluye mejorar la fiabilidad y la cobertura de nuestros procesos de prueba, garantizando contribuciones más fluidas y reduciendo la curva de aprendizaje para los nuevos miembros del equipo.

Planificar y optimizar

Planificación de la capacidad para el crecimiento de la infraestructura: A medida que OpenStreetMap y la demanda de nuestros servicios crezcan, nos aseguraremos de que podemos escalar para satisfacer la demanda. Al anticiparnos a las necesidades futuras y equilibrar el rendimiento con un crecimiento rentable, pretendemos mantener la calidad y disponibilidad del servicio que espera nuestra comunidad.

Optimización continua de los costes: Seguiremos buscando formas de reducir costes aprovechando patrocinios como el programa AWS OpenData, garantizando operaciones sostenibles.

Seguir reduciendo la deuda técnica: Seguiremos simplificando nuestra infraestructura reduciendo la carga de mantenimiento de los sistemas heredados, por ejemplo aumentando el uso de contenedores. Esto ayudará a agilizar las tareas de gestión y nos permitirá centrarnos en otras mejoras, haciendo que la infraestructura sea más eficiente y escalable con el tiempo.

Seguir mejorando las infraestructuras

Implantación de equilibradores de carga de alta disponibilidad: Despliegue de la configuración HA (VRRP + LVS + DSR) de los equilibradores de carga para mejorar la fiabilidad del sistema y reducir los posibles tiempos de inactividad.

Finalización de la integración de Prometheus con PagerDuty: Finalización de la integración de Prometheus para la supervisión y PagerDuty para agilizar las alertas y la respuesta a incidentes.

Completar la transición a un entorno Debian completo: Migrar todos los servicios restantes de Ubuntu a Debian para aumentar la estabilidad y la seguridad.

Mejorar las estrategias de recuperación y copia de seguridad en caso de catástrofe: Perfeccionando nuestra documentación de recuperación e introduciendo medidas adicionales de copia de seguridad en todos los servicios críticos están protegidos y son recuperables en caso de fallo.


Nuevo servidor de teselas en Pau, Francia

Gracias a las generosas donaciones y a los miembros activos de la comunidad OpenStreetMap, la infraestructura de OpenStreetMap sigue creciendo.

Un nuevo servidor de teselas, Lurien, se ha añadido a la red de caché de teselas de OSM. Ubicado en Pau, Pyrénées-Atlantiques, Francia, actualmente, Lurien ofrece servicios a direcciones IP de Francia, España, Portugal, Andorra, Gibraltar, Italia, Mónaco, San Marino y el Vaticano.

Lurien, destacado.

Las teselas de mapas se envían a los usuarios en función de su ubicación GeoDNS. La Fundación OpenStreetMap busca servidores de teselas distribuidos adicionales. Si deseas donar un servidor de teselas y alojamiento, consulta la página de requisitos de teselas CDN en la wiki.

Nos gustaría agradecer a PauLLAcon el apoyo de la Université de Pau et des Pays de l’Adour (UPPA) por el servidor y la conectividad, y a Communauté d’Agglomération de Pau Pyrénées (CDAPP) por el alojamiento del centro de datos. También nos gustaría agradecer al colaborador de OpenStreetMap Christophe Merlet por gestionar la donación.

La Fundación OpenStreetMap es una organización sin fines de lucro, formada en el Reino Unido para apoyar el Proyecto OpenStreetMap. Su objetivo es fomentar el crecimiento, el desarrollo y la distribución de datos geoespaciales gratuitos y proporcionar datos geoespaciales para que cualquier persona los utilice y comparta. La Fundación OpenStreetMap posee y mantiene la infraestructura del proyecto OpenStreetMap. Puedes apoyar a OpenStreetMap donando a la Fundación OpenStreetMap.