icon Ver más entradas

Caída

David Treviño Chief Technology Officer at CITI Value in Real Time

Octubre 06, 2021

Pues este pasado lunes 4 de octubre de 2021 una caída en Facebook afectó por aproximadamente 6 horas todas las propiedades de Facebook incluyendo a Messenger, Instagram, WhatsApp y Oculus VR. Para muchos esto ocasionó problemas en sus actividades diarias (sobre todo a los influencers y a algunos políticos, aunque otros políticos pudieron dedicar tiempo al trabajo según indicaron), sin embargo no se preocupen, la información disponible indica que no fue un ciberataque sino un error en una actualización fallida del ruteo interno de la empresa. Para algunos esto puede causar extrañeza, desde preguntas cómo ¿Qué no tienen un DRP o rollback? Hasta ¿Tienen todo en un solo site? Aparentemente todas las propiedades de Facebook dependen de una infraestructura de red común y aunque estén distribuidos todo el tráfico se anuncia desde un solo mecanismo, el cual fue afectado como consecuencia de la mala configuración del ruteo interno. Para mí la única duda que me queda es ¿Por qué todas las propiedades dependen de infraestructura común si es que son servicios independientes? Claro que la respuesta es obvia: no son independientes. Aunque tampoco puedo descartar un “insider” molesto.

Según la información disponible el problema de ruteo impacto a BGP (Border Gateway Protocol) que “cascadeó” a otros servicios como el DNS (Domain Nave Server). Estos dos protocolos, DNS y BGP, son de lo más estable que existe en Internet, por lo que la causa más probable fue un error humano (de capa 8 se dice coloquialmente), complicado por el trabajo remoto y aparentemente por la falta de conocimiento del personal que estaba en sitio, además de que los que sabían no podían entrar al sitio debido a mecanismos que buscan hacer más seguro el acceso físico. Aunque como dice, en tono de broma,  Javier Salazar en un grupo (en Signal) al que pertenecemos: “Lo que si es que tienen un diseño de red novedoso. Por ejemplo todo es ipv6 y todo el ruteo interno es BGP, cuando se supone que BGP es exterior”.

Algunos reportes indicaron que los dispositivos IoT de control de acceso también dejaron de funcionar por lo que el personal que se trasladó al sitio tuvo problemas para entrar físicamente, sin embargo de acuerdo a Facebook el acceso físico también está endurecido para evitar acceso no autorizado. Es necesario darle una repasada a los conceptos de “Fail Safe” y “Fail Secure”.

Creo que existen varias lecciones de esto, si es que la causa fue un error humano, tener personal capacitado en sitio, tener mecanismos de respaldo para el control de acceso y también, para una actualización de este tipo tener un mecanismo de “rollback” y claro, presencia física. Probablemente el “no poner todos los huevos en una misma canasta virtual. Es muy diferente unificar una tecnología que depender de una sola instancia. Ahora esa instancia puede ser distribuida o clonada incluso difusa pero si es una sola esta expuesta siempre a un evento catastrófico”, (como también comentó Javier Salazar en el grupo) podría haber tenido menos impacto . Esperemos que no haya sido un acto de sabotaje interno ya que Facebook trae algunos temas pendientes de forma interna y de imagen sobre cómo hace dinero.

Este incidente pondrá más en los reflectores si todas esas propiedades deben estar bajo un mismo dueño y “canasta virtual”, sobre todo ahora que los legisladores y reguladores traen en la mira a las grandes empresas de tecnología. No podemos minimizar el impacto, aunque muchos “memes” surgieron y algunos dijeron “get a life”, ya que con la pandemia muchas PyMEs recurrieron a estos medios para estar en contacto con sus clientes, empleados y hasta para vender. No debe de sorprender que la última propiedad en restablecerse fue WhatsApp (lo digo por que es la menos monetizada).

Y aunque solo las propiedades de Facebook debieron ser afectadas por este incidente, la realidad es que mucha infraestructura también sintió el impacto de casi 3 mil millones de usuarios que intentaban solicitar el servicio, desde DNS’s hasta algunas redes. Imaginen los dispositivos de 3 mil millones de usuarios tratando de acceder a Facebook sin lograrlo o recurriendo a mecanismos alternos de comunicación como Telegram (qué dice haber recibido a 70 millones de refugiados) o Twitter. Eso sí, podemos decir que la infraestructura en general aguantó. Esperemos que Facebook también aprenda algo de esto, pero soy escéptico. Dos análisis que me parecieron interesantes de lo que sucedió los pueden encontrar aquí y aquí, si es que la explicación oficial se les hace que está muy "light".

En temas más “mundanos”, William Shatner, el actor que interpretó al legendario capitán James Tiberius Kirk del U.S.S. Enterprise en la franquicia Star Trek a sus 90 años de edad irá (casi) al espacio en un vuelo “turístico” de Blue Origin. Digo casi ya que existe un debate sobre si la altura que alcanza Blue Origin es considerada “espacio”. Es bueno ver que la edad no es determinante para poder hacer turismo espacial y sobre todo tener ganas de hacerlo.

Y con el tema de la pandemia, en donde todo se hizo remoto, el CoDi se enfrenta a retos, según un banco mexicano. CoDi fue diseñado para ser presencial (aunque es tecnología contactless), por lo que a lo mejor se debe repensar. En fin, ya veremos, por lo pronto el CoDi no parece despegar.

Que disfruten de un excelente miércoles mis estimados lectores.

 

BITCASTING ES POSIBLE GRACIAS A INSIGHT LEVEL Y CITI VALUE IN REAL TIME.

CITI NUESTRO ENFOQUE DE NEGOCIO

 
EL NÚMERO DEL DÍA DE HOY ES PATROCINADO POR
AURUMCORE

 

 

Photo by Firmbee.com on Unsplash