Analítica Federada: Ciencia de datos en colaboración sin recopilación de datos

En una entrada de blog de ayer, Google expuso el concepto de análisis federado, una práctica para aplicar métodos de ciencia de datos al análisis de datos en bruto que se almacenan localmente en los dispositivos. Como explica el gigante tecnológico, funciona ejecutando cálculos locales sobre los datos de un dispositivo y poniendo a disposición de los ingenieros autorizados sólo los resultados agregados, no los datos del dispositivo en particular.

Mientras que la analítica federada está estrechamente relacionada con el aprendizaje federado, una técnica de IA que entrena un algoritmo a través de múltiples dispositivos que contienen muestras locales, sólo apoya las necesidades básicas de la ciencia de los datos. Es “aprendizaje federado ligero (lite)” – la analítica federada permite a las empresas analizar el comportamiento de los usuarios de forma segura y preservando la privacidad, lo que podría conducir a mejores productos. Google, por su parte, utiliza técnicas federadas para potenciar las sugerencias de palabras de Gboard y la función de respuesta inteligente de los mensajes de Android.

“La primera exploración de la analítica federada fue en apoyo del aprendizaje federado: ¿cómo pueden los ingenieros medir la calidad de los modelos de aprendizaje federado con datos del mundo real cuando esos datos no están disponibles en un centro de datos? La respuesta fue reutilizar la infraestructura del aprendizaje federado pero sin la parte del aprendizaje”, dijeron en un comunicado el científico investigador de Google Daniel Ramage y el ingeniero de software Stefano Mazzocchi. “En el aprendizaje federado, la definición del modelo puede incluir no sólo la función de pérdida que debe ser optimizada, sino también el código para computar las métricas que indican la calidad de las predicciones del modelo. Podríamos usar este código para evaluar directamente la calidad del modelo en los datos de los teléfonos”.

Por ejemplo, en un estudio de usuarios, los ingenieros de Gboard midieron la calidad general de los modelos de predicción de palabras con datos brutos de mecanografía conservados en los teléfonos. Los teléfonos participantes descargaron un modelo candidato, calcularon localmente una métrica de cuán bien las predicciones del modelo coincidían con las palabras que realmente se habían tecleado, y luego cargaron la métrica sin ningún ajuste en el propio modelo o ningún cambio en la experiencia de tecleo de Gboard. Al promediar las métricas cargadas por muchos teléfonos, los ingenieros aprendieron un resumen del rendimiento del modelo a nivel de la población.

Analítica Federada: Ciencia de datos en colaboración sin recopilación de datos 2
Gboard de Google

En un estudio separado, los ingenieros de Gboard querían descubrir las palabras comúnmente escritas por los usuarios y añadirlas a los diccionarios para revisar la ortografía y hacer sugerencias de escritura. Entrenaron una red neuronal recurrente a nivel de personajes en los teléfonos, usando sólo las palabras escritas en estos teléfonos que no estaban ya en el diccionario global. Ninguna palabra tecleada salió de los teléfonos, pero el modelo resultante pudo ser utilizado en el centro de datos para generar muestras de secuencias de caracteres tecleados con frecuencia, es decir, las nuevas palabras.

Más allá de la evaluación del modelo, Google utiliza análisis federados para apoyar la función “Now Playing” en sus teléfonos Pixel, que muestra qué canción podría estar sonando cerca. “Bajo el capó”, Now Playing utiliza una base de datos de huellas dactilares de canciones en el dispositivo para identificar la música que se encuentra cerca de un teléfono sin necesidad de una conexión de red activa.

Cuando reconoce una canción, Now Playing graba el nombre de la pista en el historial del dispositivo, y cuando el teléfono está inactivo y cargándose mientras está conectado a Wi-Fi, el servidor de aprendizaje y análisis federado de Google a veces lo invita a unirse a una “ronda” de cómputo con cientos de teléfonos. Cada teléfono de la ronda calcula la tasa de reconocimiento de las canciones de su historial de Now Playing y utiliza un protocolo de agregación seguro para cifrar los resultados. Las tasas cifradas se envían al servidor de análisis federado, que no tiene las claves para descifrarlas individualmente; cuando se combinan con los recuentos cifrados de los otros teléfonos de la ronda, el servidor puede descifrar el recuento final de todos los recuentos de canciones.

El resultado permite a los ingenieros de Google mejorar la base de datos de canciones sin que ningún teléfono revele qué canciones se escucharon, por ejemplo, asegurándose de que la base de datos contiene canciones verdaderamente populares. Google afirma que en su primera iteración de mejora, la analítica federada dio como resultado un aumento del 5% en el reconocimiento general de canciones en todos los teléfonos Pixel a nivel mundial.

“También estamos desarrollando técnicas para responder a preguntas aún más ambiguas sobre conjuntos de datos descentralizados como ‘¿qué patrones en los datos son difíciles de reconocer para mi modelo?’ mediante la formación de modelos generativos federados. Y estamos explorando formas de aplicar el entrenamiento de modelos privados diferenciales a nivel de usuario para asegurarnos de que estos modelos no codifiquen información exclusiva de ningún usuario”, escribieron Ramage y Mazzocchi. “Todavía es pronto para el enfoque de la analítica federada y se necesita más progreso para responder con buena precisión a muchas preguntas comunes de la ciencia de los datos… La analítica federada nos permite pensar en la ciencia de los datos de forma diferente, con datos descentralizados y agregación de preservación de la privacidad en un papel central”.

Mi reflexión: Esto presenta un panorama en la que nuestros dispositivos no sólo sirven información sino que además están generando valor a los productos de Google, a los contenidos que manejan utilizando el proceso computacional de los dispositivos personales o componentes externos que posen sus sistemas operativos o servicios.

Como todo, tendrá sus pros y cons

Deja un comentario

Enable Notifications    OK No thanks