Spanish English French German Italian Portuguese
Marketing Social
InicioIALas bases de datos vectoriales están teniendo su momento en el ciclo...

Las bases de datos vectoriales están teniendo su momento en el ciclo de exageración de la IA

Las bases de datos vectoriales están de moda, a juzgar por la cantidad de nuevas empresas que ingresan al espacio y los inversores que pagan por una parte del pastel. La proliferación de grandes modelos de lenguaje (LLM) y el movimiento de IA generativa (GenAI) han creado un terreno fértil para que florezcan las tecnologías de bases de datos vectoriales.

Si bien las bases de datos relacionales tradicionales como Postgres o MySQL son adecuadas para datos estructurados (tipos de datos predefinidos que se pueden archivar ordenadamente en filas y columnas), esto no funciona tan bien para datos no estructurados como imágenes, videos, correos electrónicos, redes sociales, publicaciones y cualquier dato que no se asocie a un modelo de datos predefinido.

Las bases de datos vectoriales, por otro lado, almacenan y procesan datos en forma de incrustaciones de vectores, que convierten texto, documentos, imágenes y otros datos en representaciones numéricas que capturan el significado y las relaciones entre los diferentes puntos de datos. Esto es perfecto para el aprendizaje automático, ya que la base de datos almacena datos espacialmente según la relevancia de cada elemento con respecto al otro, lo que facilita la recuperación de datos semánticamente similares.

Esto es particularmente útil para LLM, como GPT-4 de OpenAI, ya que permite que el chatbot de IA comprenda mejor el contexto de una conversación analizando conversaciones similares anteriores. La búsqueda vectorial también es útil para todo tipo de aplicaciones en tiempo real, como recomendaciones de contenido en redes sociales o aplicaciones de comercio electrónico, ya que puede ver lo que un usuario ha buscado y recuperar elementos similares en un instante.

La búsqueda de vectores también puede ayudar a reducir las «alucinaciones» en las aplicaciones de LLM, al proporcionar información adicional que podría no haber estado disponible en el conjunto de datos de entrenamiento original.

«Sin utilizar la búsqueda de similitud de vectores, aún se pueden desarrollar aplicaciones de IA/ML, pero sería necesario realizar más reentrenamiento y ajustes» explicó Andre Zayarni CEO y cofundador de la startup de búsqueda vectorial Qdrant. «Las bases de datos vectoriales entran en juego cuando hay un gran conjunto de datos y se necesita una herramienta para trabajar con incrustaciones de vectores de una manera eficiente y conveniente».

En enero, Qdrant obtuvo 28 millones de dólares en financiación para capitalizar el crecimiento que la llevó a convertirse en una de las 10 empresas emergentes comerciales de código abierto de más rápido crecimiento el año pasado. Y está lejos de ser la única startup de bases de datos vectoriales que ha recaudado dinero últimamente: Vespa, Weaviate, Pinecone y Chroma recaudaron colectivamente 200 millones de dólares el año pasado en varias ofertas.

Desde principios de año, también se ha visto a Index Ventures liderar una ronda inicial de 9,5 millones de dólares en superlinked, una plataforma que transforma datos complejos en incrustaciones de vectores. Y hace unas semanas, Y Combinator (YC) presentó sus inversiones de Winter ’24, que incluía Lanter una startup que vende un motor de búsqueda vectorial para Postgres.

Por otra parte, Marqo recaudó una ronda inicial de 4,4 millones de dólares a finales del año pasado, seguida rápidamente por una ronda Serie A de 12,5 millones de dólares en febrero. La plataforma Marqo proporciona una gama completa de herramientas vectoriales listas para usar, que abarcan la generación, el almacenamiento y la recuperación de vectores, lo que permite a los usuarios eludir herramientas de terceros como OpenAI o Hugging Face, y ofrece todo a través de una única API.

Los cofundadores de Marqo Tom Hamer y Jesse Clark anteriormente trabajaron en puestos de ingeniería en Amazon, donde se dieron cuenta de la «enorme necesidad insatisfecha» de búsqueda semántica y flexible en diferentes modalidades, como texto e imágenes. Y fue entonces cuando abandonaron el barco para formar Marqo en 2021.

«Trabajar con búsqueda visual y robótica en Amazon provocó que realmente mirase la búsqueda de vectores; estaba pensando en nuevas formas de descubrir productos, y eso convergió muy rápidamente en la búsqueda de vectores», dijo Clark. “En robótica, estaba usando la búsqueda multimodal para buscar en muchas de nuestras imágenes e identificar si había cosas errantes como mangueras y paquetes. «De lo contrario, sería muy difícil de resolver”.

Si bien las bases de datos vectoriales están teniendo su momento en medio del alboroto de ChatGPT y el movimiento GenAI, no son la panacea para todos los escenarios de búsqueda empresarial.

«Las bases de datos dedicadas tienden a centrarse completamente en casos de uso específicos y, por lo tanto, pueden diseñar su arquitectura para el desempeño de las tareas necesarias, así como la experiencia del usuario, en comparación con las bases de datos de propósito general, que deben adaptarse al diseño actual». Peter Záitsev comentó el fundador de la empresa de servicios y soporte de bases de datos Percona.

Si bien las bases de datos especializadas pueden destacar en una cosa respecto a otras, por eso que se empiezan a ver titulares de bases de datos como Elastic, RedisOpenSearchCassandraOracle y MongoDB agregando inteligencia de búsqueda de bases de datos vectoriales a su solución, al igual que los proveedores de servicios en la nube como Azure de Microsoft, AWS de Amazon y Cloudflare.

Zaitsev compara esta última tendencia con lo que ocurrió con JSON hace más de una década, cuando las aplicaciones web se volvieron más frecuentes y los desarrolladores necesitaban un formato de datos independiente del lenguaje que fuera fácil de leer y escribir para los humanos. En ese caso, surgió una nueva clase de base de datos en forma de bases de datos de documentos como MongoDB, mientras que las bases de datos relacionales existentes también incorporaron el soporte JSON.

«Creo que es probable que suceda lo mismo con las bases de datos vectoriales», dijo Zaitsev. “Los usuarios que están creando aplicaciones de IA muy complicadas y a gran escala utilizarán bases de datos de búsqueda de vectores dedicadas, mientras que las personas que necesitan crear un poco de funcionalidad de IA para su aplicación existente tienen más probabilidades de utilizar la funcionalidad de búsqueda de vectores en las bases de datos que ya utilizan.»

Pero Zayarni y sus colegas de Qdrant están apostando a que las soluciones nativas construidas enteramente alrededor de vectores proporcionarán la “velocidad, seguridad de la memoria y escala” necesarias a medida que los datos vectoriales crecen, en comparación con las empresas que incorporan la búsqueda de vectores como una ocurrencia tardía.

!Su argumento es: ‘también podemos realizar búsquedas vectoriales, si es necesario'», dijo Zayarni. “Nuestro argumento es: ‘hacemos búsqueda vectorial avanzada de la mejor manera posible’. Todo es cuestión de especialización. De hecho, recomendamos comenzar con cualquier base de datos que ya tenga en su arquitectura tecnológica. En algún momento, los usuarios se enfrentarán a limitaciones si la búsqueda vectorial es un componente crítico de su solución y deberán adoptarla”.

RELACIONADOS

SUSCRÍBETE A TRPLANE.COM

Publica en TRPlane.com

Si tienes alguna historia interesante sobre transformación, IT, digital, etc con cabida en TRPlane.com por favor envíanosla y la compartiremos con toda la Comunidad

MÁS PUBLICACIONES

Activar Notificaciones OK No gracias