Por qué la caída de Fastly ha provocado que medio internet se haya venido abajo

  • 15 Jun 2021 02:54 AM

Mucha nube pero al final si se cae un servicio se cae medio Internet y con la desafortunada historia de cómo un solo usuario la provocó.

El apocalipsis digital debe ser muy parecido a lo que hemos vivido hoy. Un apagón general de muchas de las principales webs del mundo, de periódicos como The New York Times a comercios electrónicos de la talla de Amazon, pasando por Twitch, Vimeo, Reddit, Shopify o la CNN. Un caos que tiene un único culpable, un Content Delivery Network (CDN) llamado Fastly.

Los CDN son redes de servidores distribuidos geográficamente que ayudan a las diferentes páginas web a entregar sus contenidos en cualquier parte del mundo de una forma rápida y segura. Muchas de las páginas en las que navegamos a diario están ubicadas en un único lugar físico, por lo que, para acceder a ellas, todo lo que contienen tiene que viajar desde su servidor a nuestro dispositivo, y cuanto más lejos están el uno del otro, mayor es el tiempo de carga y peor la experiencia del usuario.

El papel de los CDN como Fastly es precisamente que eso no ocurra. Para ello, replican las webs de sus clientes o algunos de sus contenidos estáticos, como el diseño o las imágenes, en varios servidores distribuidos geográficamente para que la persona pueda acceder a la página desde el que tiene más cerca, de tal forma que la velocidad de carga se reduce considerablemente. Además, también cumplen un importante papel de respaldo, ya que si un servidor falla, conectan con otro que siga funcionando, de tal manera que ni el acceso ni la velocidad de carga de la página se vean perjudicadas.

Sin embargo, cuando es la arquitectura que te respalda la que se cae, el problema es mayúsculo, porque no sólo se deja de funcionar una página, sino todas las que están en la red del CDN, que es lo que ha pasado hoy con Fastly. Un problema que no suele ser habitual y que, por la cantidad de las páginas afectadas y el tiempo que han estado inoperativas, evidencia un fallo relativamente serio en la infraestructura. Fastly, por el momento, no ha explicado a qué se ha debido el fallo.

Un único CDN para medio internet

La caída de Fastly ha puesto de manifiesto que la dependencia de un único proveedor en un punto clave de las telecomunicaciones puede ser crítico si éste falla de forma masiva. Sin importar los servidores en los que estuviesen alojados estas webs -propios, AWS, Azure, Google Cloud u otros-, todos han dejado de funcionar porque Fastly se ha caído.

Particularmente llamativo ha sido el caso de Amazon, cuyas diferentes webs se han visto afectadas por la caída de Fastly cuando AWS tiene su propio CDN, Amazon Cloudfront. Pero los de Jeff Bezos no utilizan el servicio que comercializan para sus propias webs, ya que han preferido descentralizarse para evitar un punto de fallo.

La intención era que, si caía su infraestructura, al menos tuviesen el respaldo de un CDN que no dependiese de sus servidores. Sin embargo, el fallo de Fastly ha tenido el efecto inverso: ha evidenciado lo frágil que es incluso el gigante tecnológico que actualmente domina la computación en la nube, cuyas webs han seguido operativas, pero sin diseño, imágenes o vídeos.

Fastly, el CDN de las grandes empresas

El impacto de la caída de Fastly ha sido considerable por las empresas a las que ha afectado, muchas de ellas grandes multinacionales como la propia Amazon o Spotify, Twitch, Vimeo, Shopify o Quora, o importantes medios de comunicación como The New York Times, la CNN, El Mundo, The Verge, Financial Times, The Guardian o Vice.

El motivo de que la caída haya afectado a todas estas grandes empresas es sencillo: Fastly es un CDN orientado, fundamentalmente, a grandes empresas, a las que ofrece ventajas respecto a sus rivales como una mayor velocidad de carga, APIs de largo alcance y actualizaciones en tiempo real.

Su principal competidor en el mercado, Cloudflare, en cambio, está más enfocado en pequeñas y medianas empresas. Lo que no quita, claro está, que algunas grandes compañías, como Discord, Dropbox o Pinterest, confíen en ella. Esta tecnológica proporciona a sus clientes servicios de CDN ‘llave en mano’, es decir, listos para funcionar sin necesidad de saber de programación. Las herramientas de Fastly, en cambio, son más complejas y difíciles de manejar para alguien que no sea programador.

Así, tanto Cloudfare como Fastly ofrecen una red de servidores que replican las webs o algunos de los contenidos de las páginas de sus clientes para acelerar la carga de estas en zonas remotas, además de protección y seguridad DDoS, pero sus clientes son distintos.

Cloudfare es más antigua -fundada en 2009- que Fastly -2011- y es más conocida que ésta, fundamentalmente porque sus servicios son usados por más clientes. Sin embargo, Fastly ha obtenido una sólida posición pese a ser más joven gracias a que ha desarrollado un lenguaje de edge computing que se considera el mejor del sector de los CDN.

La desafortunada historia de cómo un usuario de Fastly provocó la caída mundial de internet

Aunque no lo creas, la caída mundial de internet "fue culpa" de un usuario de Fastly que solo quería hacer ajustes a su servicio.

Imagina que eres un usuario de alguna plataforma de servicios en la nube. Un día cualquiera tienes la necesidad de hacer algunos ajustes al sistema y tus acciones generan la caída mundial de internet. Sí, parece un historia de comedia/tragedia, pero fue lo que sucedió ayer cuando múltiples webs, incluyendo Amazon, Twitch, Reddit, Twitter y Spotify, por mencionar algunas, quedaron fuera de línea debido a un problema en el CDN de Fastly.

A través de un comunicado, Fastly explicó cómo es que una persona inocente desató la caída de internet. En primer lugar, es importante mencionar que el usuario involucrado no lo hizo intencionalmente. Jamás imaginó que sus acciones harían realidad un Apocalipsis —como si no fuera suficiente estar viviendo una pandemia—. Según Fastly, el pasado 12 de mayo desplegaron una actualización de software en su plataforma; el problema es que tenía un bug crítico no identificado.

Curiosamente, para activar el fallo era necesario que se cumplieran una serie de condiciones y ajustes específicos en la cuenta de cualquier usuario. El 8 de junio, una persona realizó cambios a la configuración de su servicio y, por mala suerte, eran exactamente los parámetros requeridos para disparar el bug. Fastly dice que el 85% de su red presentó problemas tras el desafortunado suceso, lo cual ocasionó la caída de múltiples servicios y webs de internet.

Experimentamos una interrupción global debido a un error de software no descubierto que surgió el 8 de junio. Fue provocado por un cambio en la configuración de un cliente.

La caída de internet era evitable

La buena noticia es que los ingenieros de la plataforma identificaron el fallo rápidamente y desplegaron una actualización para solucionarlo. En 49 minutos ya habían recuperado el 95% de su red. Evidentemente, Fastly está consciente de que esta situación se pudo haber evitado. Para que no se vuelva a repetir, están haciendo una investigación para saber por qué no identificaron el error durante el proceso de control de calidad de software.

"Aunque hubo condiciones específicas que desencadenaron esta interrupción, debimos haberlo anticipado", menciona Fasly. Por supuesto, aprovecharon el espacio para ofrecer disculpas. No solo a sus clientes, también a los millones de internautas que se vieron afectados por la caída mundial de internet: "Pedimos disculpas a nuestros clientes y a aquellos que dependen de ellos por la interrupción. Agradecemos sinceramente a la comunidad por su apoyo".