Tabla de Contenidos
Google ha anunciado el lanzamiento de una tecnología mejorada que facilita y agiliza la investigación y el desarrollo de nuevos algoritmos que se pueden implementar rápidamente.
Esto permite a Google crear rápidamente nuevos algoritmos de protección contra correo no deseado, mejorar el procesamiento del lenguaje natural y los algoritmos de clasificación, y poder ponerlos en producción más rápido que nunca.
1 La clasificación mejorada de TF coincide con las fechas de las últimas actualizaciones de Google
Esto es de interés, ya que Google introdujo varios algoritmos anti-spam y dos actualizaciones importantes del algoritmo en junio y julio de 2021. Estos desarrollos siguieron directamente al lanzamiento de esta nueva tecnología en mayo de 2021.
El momento puede ser aleatorio, pero dado todo lo que hace la nueva versión del ranking TF basado en Keras, puede ser importante familiarizarse con él para comprender por qué Google ha aumentado el ritmo de lanzamiento de nuevas actualizaciones relacionadas con el ranking.
2 Nueva versión del ranking TF basado en Keras
Google ha anunciado una nueva versión de TF-Ranking que se puede utilizar para mejorar el aprendizaje neuronal para los algoritmos de clasificación, así como los algoritmos de procesamiento del lenguaje natural como BERT.
Esta es una forma poderosa de crear nuevos algoritmos y expandir los existentes, por así decirlo, y hacerlo de una manera increíblemente rápida.
3 Clasificación de TensorFlow
Según Google, TensorFlow es una plataforma de aprendizaje automático.
En un video de YouTube de 2019, la primera versión de TensorFlow Ranking se describió como:
“La primera biblioteca de código abierto de código abierto para clasificación a gran escala (LTR)”.
La innovación de la plataforma de clasificación TF original es que cambió la forma en que se clasifican los documentos relevantes.
Anteriormente, los documentos relevantes se compararon entre sí en lo que se denomina doble clasificación. La probabilidad de que un documento sea relevante para una consulta se compara con la probabilidad de otro elemento.
Esta fue una comparación entre pares de documentos, no una comparación de la lista completa.
La innovación de TF-Ranking es que permite comparar la lista completa de documentos a la vez, lo que se denomina puntuación de muchos elementos. Este enfoque permite una mejor clasificación de las soluciones.
4 La clasificación TF mejorada permite el rápido desarrollo de nuevos y potentes algoritmos
Un artículo de Google publicado en su blog de IA dice que el nuevo TF-Ranking es una edición grande que hace que sea más fácil que nunca configurar modelos de ranking (LTR) e incorporarlos más rápido a la producción en vivo.
Esto significa que Google puede crear nuevos algoritmos y agregarlos para buscar más rápido que nunca.
El articulo dice:
“Nuestro modelo de clasificación nativo de Keras tiene un diseño de flujo de trabajo completamente nuevo, que incluye un ModelBuilder flexible, un DatasetBuilder para crear datos de entrenamiento y un Pipeline para el entrenamiento de modelos con el conjunto de datos proporcionado.
Estos componentes facilitan más que nunca la construcción de un modelo LTR personalizado y facilitan la exploración rápida de nuevas estructuras de modelos para la producción y la investigación. “
5 BERT de clasificación TF
Cuando un artículo o trabajo de investigación indica que los resultados son un poco mejores, advierte y sugiere que se necesita más investigación, esto es una indicación de que el algoritmo en discusión puede no ser utilizado porque no está listo o en un punto muerto.
Este no es el caso de TFR-BERT, una combinación de clasificación TF y BERT.
BERT es un enfoque de aprendizaje automático de lenguaje natural. Esta es una forma de conocer las consultas de búsqueda y el contenido de la página web.
BERT es una de las actualizaciones más importantes de Google y Bing en los últimos años.
El artículo señala que combinar TF-R con BERT para optimizar el orden de los datos de entrada en la lista genera “mejoras significativas”.
Esta afirmación de que los resultados son significativos es importante porque aumenta la probabilidad de que se utilice algo como esto en este momento.
La conclusión es que las clasificaciones TF basadas en Keras han hecho que BERT sea más poderoso.
Según Google:
“Nuestra experiencia muestra que esta arquitectura TFR-BERT proporciona mejoras significativas en el rendimiento de modelos de lenguaje previamente entrenados, lo que lleva a resultados de vanguardia para varias tareas de clasificación populares …”
6 TF-ranking y GAM
Existe otro tipo de algoritmo llamado Modelos Aditivos Generalizados (GAM), que TF-Ranking también mejora y hace una versión aún más poderosa que la original.
Una de las cosas que hace que este algoritmo sea importante es que es transparente, porque todo lo que implica generar un ranking se puede ver y comprender.
Google explicó la importancia de la transparencia de la siguiente manera:
“La transparencia y la interpretabilidad son factores importantes en la implementación de modelos LTR en los sistemas de clasificación, que pueden incluirse en la determinación de los resultados de procesos como la evaluación de la elegibilidad de préstamos, la focalización de publicidad o las soluciones de tratamiento de focalización.
En tales casos, la contribución de cada característica individual a la clasificación final debe ser verificable y comprensible para garantizar la transparencia, la responsabilidad y la equidad de los resultados. “
El problema con GAM es que no se sabía cómo aplicar esta tecnología a los problemas de clasificación.
Para resolver este problema y poder usar GAM en un entorno de clasificación, se utilizó TF-Ranking para crear modelos aditivos generalizados (GAM) clasificados neuronales que están más abiertos a cómo se clasifican las páginas web.
Google llama a esto “Entrenamiento de clasificación interpretable”.
Esto es lo que dice el artículo de Google AI:
“Con este fin, hemos desarrollado un GAM para clasificación neuronal, una extensión de modelos aditivos generalizados para problemas de clasificación.
A diferencia de los GAM estándar, los GAM con calificación neuronal pueden tener en cuenta tanto las características de los elementos clasificados como las características contextuales (como una consulta o un perfil de usuario) para derivar un modelo compacto e interpretable.
Por ejemplo, en la figura siguiente, el uso de GAM para la clasificación neuronal deja en claro cómo la distancia, el costo y la relevancia, en el contexto de un dispositivo de consumo, contribuyen a la clasificación final del hotel.
Los GAM de clasificación neuronal ahora están disponibles como parte de la clasificación TF … “
Le pregunté a Jeff Coyle, cofundador de la tecnología de optimización de contenido AI MarketMuse (@MarketMuseCo), sobre las clasificaciones TF y GAM.
Jeffrey, que tiene experiencia en informática y décadas de experiencia en marketing de búsqueda, señaló que las GAM son una tecnología importante y su mejora es un evento importante.
Coyle compartió:
“Pasé mucho tiempo investigando innovaciones en GAM para la clasificación neuronal y el posible impacto en el análisis contextual (para consultas), que es un objetivo a largo plazo de los equipos de evaluación de Google.
Neural RankGAM y las tecnologías relacionadas son armas mortales para la personalización (especialmente los datos del usuario y la información de contexto, como la ubicación) y el análisis de intenciones.
Con keras_dnn_tfrecord.py, disponible como ejemplo público, vemos la innovación en un nivel básico.
Recomiendo a todos que revisen este código. “
7 Árboles de decisión de gradiente superior (BTDT)
Superar el estándar en algoritmos es importante porque significa que el nuevo enfoque es un logro que mejora la calidad de los resultados de búsqueda.
En este caso, el estándar son los árboles de solución mejorados por gradiente (GBDT), una técnica de aprendizaje automático que tiene varias ventajas.
Pero Google también explica que los GBDT tienen inconvenientes:
“Los GBDT no se pueden aplicar directamente a grandes espacios de características individuales, como el texto del documento sin formato. También son generalmente menos escalables que los modelos de clasificación neuronal. “
En un artículo de investigación titulado “¿Los líderes neuronales aún son mejores que los árboles de decisión mejorados por gradientes? Los investigadores dicen que el entrenamiento neuronal para clasificar modelos es “una gran diferencia menor” que … basado en madera.
Los investigadores de Google utilizaron el nuevo TF-Ranking basado en Keras para crear el llamado modelo de cruz latente confiable mejorada con datos (DASALC).
DASALC es importante porque puede igualar o superar el estado actual de las líneas de base modernas:
“Nuestros modelos pueden funcionar relativamente bien con una base sólida basada en árboles, al tiempo que superan el entrenamiento neuronal publicado recientemente para clasificar los métodos por un amplio margen. Nuestros resultados también sirven como punto de referencia para el entrenamiento neuronal para modelar modelos. “
8 Desarrollo de algoritmos de ranking basados en Keras TF-Ranking Speed
Es importante destacar que este nuevo sistema acelera la investigación y el desarrollo de nuevos sistemas de clasificación, que incluyen la identificación de spam para clasificarlos fuera de los resultados de búsqueda.
El artículo concluye:
“En general, creemos que la nueva versión de Keras, basada en TF-Ranking, facilitará la investigación de LTR neuronales y la implementación de sistemas de clasificación de clases de producción”.
En los últimos meses, Google ha estado innovando a un ritmo cada vez mayor, con varias actualizaciones de los algoritmos de spam y dos algoritmos básicos durante dos meses.
Es posible que estas nuevas tecnologías sean la razón por la que Google está lanzando tantos algoritmos nuevos para mejorar la lucha contra el spam y el ranking de los sitios web en general.
9 Citas
Publicación de blog de Google AI Avances en las clasificaciones de TF
El nuevo algoritmo DASALC de Google ¿Son las clasificaciones neuronales aún mejores que los árboles de gradiente?
Sitio web oficial de TensorFlow
Clasificación de la página de GitHub de TensorFlow v0.4.0 https://github.com/tensorflow/ranking/releases/tag/v0.4.0
Ejemplo difícil hard_dnn_tfrecord.py