El Portal de las Tecnologías para la Innovación

GitHub, EKS, OpenTelemetry… Los arrepentimientos de un director de infraestructuras

Después de cuatro años en una base de AWS-Kubernetes, un director de infraestructura hace balance de sus opciones. ¿De qué se arrepiente?

¿Bottlerocket o AMI EKS estándar? El director de infraestructuras de Cresta optó inicialmente por la primera opción . Después de problemas con el controlador de red, finalmente cambió al segundo, que consideró más fácil de depurar.

Desde hace cuatro años, la persona* gestiona, en esta empresa que ofrece soluciones de contact center, un back-end basado principalmente en AWS y Kubernetes. Recientemente hizo balance de sus decisiones. Entre los considerados positivos:

– Haber pasado de Jira a Linear (funcionalmente satisfactorio)
– Haber adoptado Atlantis en lugar de Terraform Cloud (principalmente por una cuestión de costo)
– Haber permanecido en Ubuntu para los servidores de desarrollo
– Haber preferido Renovatebot a Dependabot
– Haber comprado sus propias direcciones IP ( en particular para facilitar el acceso de los socios)

Entre AWS y K8, diez puntos de arrepentimiento

Tener contratado el soporte premium de AWS
La razón que se da es sencilla: coste. “Casi tan caro, si no más, que un ingeniero. Habría valido la pena si hubiéramos tenido pocas habilidades internas. »

Después de haber utilizado los complementos administrados de EKS
, el problema aquí fue la necesidad sistemática de personalizar las instalaciones (solicitudes de CPU, ConfigMaps, etiquetas de imágenes, etc.). Helm acabó haciéndose cargo.

Gestión post mortem en Datadog o PagerDuty
Una vez más por cuestiones de personalización. Observación: una herramienta “tipo wiki”, como Notion, es más adecuada.

No tener un mayor uso de FaaS (funciones como servicio)
La falta de opciones para cargas de trabajo de GPU ha limitado la adopción de FaaS en Cresta. Una opción especialmente apreciada por la capacidad de realizar un seguimiento de los costes con mayor precisión que en las implementaciones de Kubernetes.

Compartir una base de datos entre aplicaciones
Esta situación no fue el resultado de una decisión: surgió a medida que evolucionaban los proyectos de desarrollo. Sin un DBA, resultó difícil de gestionar: “Como todo el mundo utiliza la base de datos, ya nadie se ocupa de ella. […] Lo que no es responsabilidad de nadie termina recayendo en el equipo de infra”…

Datadog, GitHub Actions: sí, pero…

GitHub Actions
En Cresta, GitHub Actions reemplazó a CircleCI. La clave es un catálogo exhaustivo y una sintaxis fácil de asimilar. Pero el soporte para cargas de trabajo de Kubernetes autohospedadas es “muy limitado” .

Datadog, por el precio
Observación: es bueno, pero caro, especialmente para los clústeres de Kubernetes y los servicios de inteligencia artificial. Problema con el primer punto: el precio se basa en la cantidad de instancias lanzadas y no en la cantidad de instancias activas. Sobre el segundo punto: una relación de “coste por servicio” poco interesante para cargas de trabajo de GPU , que generalmente tienen cada una su propio nodo.

No haber adoptado antes una plataforma de gestión de identidades
. Inicialmente existía Google Workspace, a partir del cual creamos grupos de empleados para asignarles permisos. No fue lo suficientemente flexible para Cresta, que terminó adoptando Okta. Una solución “que resuelve muchos aspectos de cumplimiento/seguridad” y que “tiene integraciones para casi todo”.

He utilizado SealedSecrets para gestionar los secretos de Kubernetes.
El principal problema de SealedSecrets : la curva de aprendizaje para los desarrolladores. Cresta también perdió las automatizaciones que había configurado en AWS para la rotación secreta. Se descubrió que ExternalSecrets era más apropiado para la sincronización entre entornos, así como para el manejo.

No haber adoptado OpenTelemetry antes.
El equipo de infraestructura valora especialmente la gestión de seguimiento. Está menos entusiasmada con las métricas, pero la solución sigue siendo más conveniente que la ingesta directa a través de la API de Datadog.

* Anteriormente en Facebook, donde ayudó a desarrollar la CDN y las páginas comerciales. También trabajó en Twitch, donde trabajó en el sistema de recomendación de contenidos. Fuente NetMedia Francia (BC), traducido al español

Ilustración © VICHIZH – Adobe Stock

Artículos relacionados

Scroll al inicio