Spanish English French German Italian Portuguese
Marketing Social
InicioBigTechsGoogleLo que hay que saber de Google Gemini

Lo que hay que saber de Google Gemini

Google está intentando causar impacto con Gemini, una nueva plataforma de IA generativa que recientemente hizo su gran debut. Pero si bien Gemini parece prometedor en algunos aspectos, se queda corto en otros. Entonces, ¿qué es Gemini? ¿Cómo puede usarse? ¿Y cómo se compara con la competencia?

Esta guía, actualizada a medida que se lancen nuevos modelos y funciones de Gemini, busca responder estas preguntas

Qué es Gemini

Gemini la promesa de Google desde hace mucho tiempo respecto a una familia de modelos de IA generativa de próxima generación, desarrollada por los laboratorios de investigación de IA de Google, DeepMind y Google Research. Viene en tres sabores:

  • Gemini Ultra el modelo insignia de Gemini
  • Gemini profesional un modelo Gemini “lite”
  • Gemini Nano un modelo “destilado” más pequeño que se ejecuta en dispositivos móviles como el Pixel 8 Pro

Todos los modelos Gemini fueron entrenados para ser “nativamente multimodales”; en otras palabras, capaces de trabajar y utilizar algo más que texto. Fueron entrenados previamente y ajustados en una variedad de audio, imágenes y videos, un gran conjunto de bases de código y texto en diferentes idiomas.

Esto distingue a Gemini de modelos como el modelo de lenguaje grande LaMDA de Google, que solo fue entrenado con datos de texto. LaMDA no puede comprender ni generar nada más que texto (por ejemplo, ensayos, borradores de correos electrónicos, etc.), pero ese no es el caso de los modelos Gemini. Su capacidad para comprender imágenes, audio y otras modalidades aún es limitada, pero es mejor que nada.

Cuál es la diferencia entre Bard y Gemini

El bardo de Google

Google, demostrando una vez más que carece de habilidad para las marcas, no dejó claro desde el principio que Gemini es independiente y distinto de Bard. Bard es simplemente una interfaz a través de la cual se puede acceder a ciertos modelos de Gemini; considérelo como una aplicación o cliente para Gemini y otros modelos de IA Generativa. Gemini, por otro lado, es una familia de modelos, no una aplicación o una interfaz. No existe una experiencia Gemini independiente, ni probablemente la habrá nunca. Si se comparara con los productos de OpenAI, Bard corresponde a ChatGPT, la popular aplicación de IA conversacional de OpenAI, y Gemini corresponde al modelo de lenguaje que la impulsa, que en el caso de ChatGPT es GPT-3.5 o 4.

Por cierto, Gemini también es totalmente independiente de Imagen-2, un modelo de conversión de texto a imagen que puede encajar o no en la estrategia general de IA de la empresa. ¡No te preocupes, no eres el único confundido por esto!

Qué puede hacer Gemini

Debido a que los modelos Gemini son multimodales, en teoría pueden realizar una variedad de tareas, desde transcribir voz hasta subtitular imágenes y videos hasta generar obras de arte. Pocas de estas capacidades han llegado a la etapa de producto todavía, pero Google promete todas ellas, y más, en algún momento en un futuro no muy lejano.

Por supuesto, es un poco difícil creer a la empresa en el momento inicial de lanzamiento.

Google no cumplió con creces con el lanzamiento original de Bard. Y más recientemente causó revuelo con un video que pretendía mostrar las capacidades de Gemini y que resultó haber sido muy manipulado y era más o menos aspiracional. Gemini es el crédito del gigante tecnológico, está disponible de alguna forma hoy, pero bastante limitada.

Aún así, suponiendo que Google sea más o menos sincero con sus afirmaciones, esto es lo que los diferentes niveles de modelos Gemini podrán hacer una vez que se lancen:

Géminis Ultra

Pocas personas han conseguido hasta ahora Gemini Ultra, el modelo “base” sobre el que se construyen los demás: sólo un “conjunto selecto” de clientes en un puñado de aplicaciones y servicios de Google. Eso no cambiará hasta finales de este año, cuando el modelo más grande de Google se lance de manera más amplia. La mayor parte de la información sobre Ultra proviene de demostraciones de productos dirigidas por Google, por lo que es mejor tomarlo con cautela.

Google dice que Gemini Ultra puede usarse para ayudar con cosas como tareas de física, resolver problemas paso a paso en una hoja de trabajo y señalar posibles errores en respuestas ya completadas. Gemini Ultra también se puede aplicar a tareas como identificar artículos científicos relevantes para un problema particular, dice Google, extrayendo información de esos artículos y “actualizando” un gráfico de uno generando las fórmulas necesarias para recrear el gráfico con datos más recientes.

Gemini Ultra técnicamente admite la generación de imágenes, como se mencionó anteriormente. Pero esa capacidad no llegará a la versión productiva del modelo en el momento del lanzamiento, según Google, tal vez porque el mecanismo es más complejo que la forma en que aplicaciones como ChatGPT generan imágenes. En lugar de enviar indicaciones a un generador de imágenes (como DALL-E 3, en el caso de ChatGPT), Gemini genera imágenes de forma «nativa» sin un paso intermedio.

Géminis Profesional

A diferencia de Gemini Ultra, Gemini Pro está disponible públicamente hoy. Pero, de manera confusa, sus capacidades dependen de dónde se usa.

Google dice que en Bard, donde Gemini Pro se lanzó por primera vez en formato de solo texto, el modelo es una mejora con respecto a LaMDA en sus capacidades de razonamiento, planificación y comprensión. En un estudio independiente los investigadores de Carnegie Mellon y BerriAI descubrieron que Gemini Pro es de hecho mejor que GPT-3.5 de OpenAI en el manejo de cadenas de razonamiento más largas y complejas.

Pero el estudio también encontró que, como todos los modelos de lenguaje grandes, Gemini Pro tiene dificultades especiales con problemas matemáticos que involucran varios dígitos, y los usuarios han encontrado muchos ejemplos de malos razonamientos y errores. Cometió muchos errores fácticos en consultas simples como quién ganó los últimos premios Oscar. Google ha prometido mejoras, pero no está claro cuándo llegarán.

Gemini Pro también está disponible a través de API en Vertex AI, la plataforma de desarrollo de IA totalmente administrada de Google, que acepta texto como entrada y genera texto como salida. Un punto final adicional, Gemini Pro Vision, puede procesar texto e imágenes, incluidas fotos y videos, y texto de salida siguiendo las líneas del modelo GPT-4 con Vision de OpenAI.

Geminis

Usando Gemini Pro en Vertex AI.

Dentro de Vertex AI, los desarrolladores pueden personalizar Gemini Pro para contextos y casos de uso específicos mediante un proceso de ajuste o «conexión a tierra». Gemini Pro también se puede conectar a API externas de terceros para realizar acciones particulares.

En algún momento a “principios de 2024”, los clientes de Vertex podrán aprovechar Gemini Pro para potenciar agentes de chat y voz conversacionales personalizados (es decir, chatbots). Gemini Pro también se convertirá en una opción para impulsar las funciones de resumen de búsqueda, recomendación y generación de respuestas en Vertex AI, basándose en documentos en todas las modalidades (por ejemplo, PDF, imágenes) de diferentes fuentes (por ejemplo, OneDrive, Salesforce) para satisfacer las consultas.

Geminis

En AI Studio, la herramienta web de Google para desarrolladores de aplicaciones y plataformas, hay flujos de trabajo para crear mensajes de chat estructurados y de forma libre utilizando Gemini Pro. Los desarrolladores tienen acceso a los puntos finales Gemini Pro y Gemini Pro Vision, y pueden ajustar la «temperatura» del modelo para controlar el rango creativo de salida y proporcionar ejemplos para dar instrucciones de tono y estilo, y también ajustar las configuraciones de seguridad.

Géminis Nano

Gemini Nano es una versión mucho más pequeña de los modelos Gemini Pro y Ultra, y es lo suficientemente eficiente como para ejecutarse directamente en (algunos) teléfonos en lugar de enviar la tarea a un servidor. Hasta ahora, incluye dos funciones en el Pixel 8 Pro: resumir en la grabadora y respuesta inteligente en Gboard.

La aplicación Recorder, que permite a los usuarios presionar un botón para grabar y transcribir audio, incluye un resumen desarrollado por Gemini de sus conversaciones, entrevistas, presentaciones y otros fragmentos grabados. Los usuarios obtienen estos resúmenes incluso si no tienen una señal o conexión Wi-Fi disponible y, en un guiño a la privacidad, no salen datos de su teléfono en el proceso.

Gemini Nano también está en Gboard, la aplicación de teclado de Google, en una vista previa para desarrolladores. Allí, activa una función llamada Respuesta inteligente, que ayuda a sugerir lo siguiente que querrás decir cuando tengas una conversación en una aplicación de mensajería. Inicialmente, la función solo funciona con WhatsApp, pero llegará a más aplicaciones en 2024, dice Google.

Es Gemini mejor que el GPT-4 de OpenAI

No hay manera de saber cómo funciona la familia Gemini. En realidad no se sabrá hasta que Google lance Ultra a finales de este año, pero la compañía ha afirmado mejoras en la versón actual, que la acerca a GPT-4 de OpenAI.

Google ha promocionado varias veces la superioridad de Gemini en los puntos de referencia, afirmando que Gemini Ultra supera los resultados actuales en «30 de los 32 puntos de referencia académicos ampliamente utilizados en la investigación y el desarrollo de grandes modelos de lenguaje». Mientras tanto, la compañía dice que Gemini Pro es más capaz de realizar tareas como resumir contenido, generar ideas y escribir que GPT-3.5.

Pero dejando de lado la cuestión de si los puntos de referencia realmente indican un modelo mejor, los puntajes que señala Google parecen ser sólo marginalmente mejores que los modelos correspondientes de OpenAI. Y, como se mencionó anteriormente, algunas de las primeras impresiones no han sido muy buenas, ya que los usuarios y académicos señalan que Gemini Pro tiende a equivocarse en los datos básicos, dificultades con las traducciones y ofrece sugerencias de codificación deficientes.

Cuánto costará Gemini

Gemini Pro es de uso gratuito en Bard y, por ahora, en AI Studio y Vertex AI.

Sin embargo, una vez que Gemini Pro salga de la vista previa en Vertex, el modelo costará $0,0025 por carácter, mientras que la salida costará $0,00005 por carácter. Los clientes de Vertex pagan por 1.000 caracteres (entre 140 y 250 palabras) y, en el caso de modelos como Gemini Pro Vision, por imagen (0,0025 dólares).

Supongamos que un artículo de 500 palabras contiene 2000 caracteres. Resumir ese artículo con Gemini Pro costaría $5. Por otro lado, generar un artículo de longitud similar costaría 0,1 dólares.

Dónde se puede probar Gemini

Gemini Profesional

El lugar más fácil para experimentar Gemini Pro es Bard. Una versión mejorada de Pro está respondiendo consultas de Bard basadas en texto en inglés en los EE. UU. en este momento, con idiomas adicionales y países admitidos que llegarán en el futuro.

También se puede acceder a Gemini Pro en versión preliminar en Vertex AI a través de una API. La API es de uso gratuito “dentro de límites” por el momento y admite 38 idiomas y regiones, incluida Europa, así como funciones como el chat y el filtrado.

En otros lugares, Gemini Pro se puede encontrar en AI Studio. Al utilizar el servicio, los desarrolladores pueden iterar indicaciones y chatbots basados ​​en Gemini y luego obtener claves API para usarlas en sus aplicaciones, o exportar el código a un IDE con más funciones.

Duet AI para desarrolladores, es el conjunto de herramientas de asistencia impulsadas por la inteligencia artificial de Google para completar y generar código, comenzará a utilizar un modelo Gemini en las próximas semanas. Google planea llevar los modelos Gemini a las herramientas de desarrollo para Chrome y su plataforma de desarrollo móvil Firebase aproximadamente al mismo tiempo, a principios de 2024.

Gemini Nano

Gemini Nano está en el Pixel 8 Pro y llegará a otros dispositivos en el futuro. Los desarrolladores interesados ​​en incorporar el modelo a sus aplicaciones de Android pueden inscribirse para una primera vista.

RELACIONADOS

SUSCRÍBETE A TRPLANE.COM

Publica en TRPlane.com

Si tienes alguna historia interesante sobre transformación, IT, digital, etc con cabida en TRPlane.com por favor envíanosla y la compartiremos con toda la Comunidad

MÁS PUBLICACIONES

Activar Notificaciones OK No gracias