Spanish English French German Italian Portuguese
marketing social
Iníciograndes tecnologiasGoogleO que você precisa saber sobre o Google Gemini

O que você precisa saber sobre o Google Gemini

O Google está tentando causar impacto com o Gemini, uma nova plataforma generativa de IA que recentemente fez sua grande estreia. Mas embora Gêmeos pareça promissor em alguns aspectos, é insuficiente em outros. Então, o que é Gêmeos? Como pode ser usado? E como isso se compara à concorrência?

Este guia, atualizado à medida que novos modelos e recursos do Gemini são lançados, busca responder a essas perguntas

O que é Gêmeos

Gemini A promessa de longa data do Google em relação a uma família de modelos de IA generativos de próxima geração, desenvolvidos pelos laboratórios de pesquisa de IA do Google, DeepMind e Google Research. Vem em três sabores:

  • Gêmeos Ultra Modelo carro-chefe da Gemini
  • Gêmeos Profissional um modelo “leve” de Gêmeos
  • Gêmeos Nano um modelo menor “destilado” que roda em dispositivos móveis como o Pixel 8 Pro

Todos os modelos Gemini foram treinados para serem “nativamente multimodais”; em outras palavras, capaz de trabalhar e usar mais do que apenas texto. Eles foram pré-treinados e sintonizados em uma variedade de áudios, imagens e vídeos, um grande conjunto de bases de código e textos em diferentes idiomas.

Isso distingue o Gemini de modelos como o modelo de linguagem grande LaMDA do Google, que foi treinado apenas em dados de texto. O LaMDA não consegue compreender ou gerar nada além de texto (por exemplo, ensaios, rascunhos de e-mails, etc.), mas esse não é o caso dos modelos Gemini. Sua capacidade de compreender imagens, áudio e outras modalidades ainda é limitada, mas é melhor que nada.

Qual é a diferença entre Bardo e Gêmeos

O bardo do Google

O Google, provando mais uma vez que carece de habilidades de branding, não deixou claro desde o início que Gemini é independente e distinto de Bard. Bard é simplesmente uma interface através da qual certos modelos Gemini podem ser acessados; Pense nisso como um aplicativo ou cliente para Gemini e outros modelos de IA generativa. Gemini, por outro lado, é uma família de modelos, não um aplicativo ou interface. Não existe uma experiência autônoma de Gêmeos, nem provavelmente jamais existirá. Se comparado aos produtos OpenAI, Bard corresponde ao ChatGPT, o popular aplicativo de IA conversacional da OpenAI, e Gemini corresponde ao modelo de linguagem que o alimenta, que no caso do ChatGPT é GPT-3.5 ou 4.

A propósito, o Gemini também é completamente independente do Image-2, um modelo de conversão de texto em imagem que pode ou não se enquadrar na estratégia geral de IA da empresa. Não se preocupe, você não é o único confuso com isso!

O que Gêmeos pode fazer

Como os modelos Gemini são multimodais, eles podem, teoricamente, realizar uma variedade de tarefas, desde a transcrição de fala até a legenda de imagens e vídeos e a geração de obras de arte. Poucos desses recursos atingiram o estágio de produto ainda, mas o Google promete todos eles, e mais, em algum momento em um futuro não muito distante.

Claro, é um pouco difícil acreditar na empresa no momento do lançamento inicial.

O Google mais do que entregou o lançamento original do Bard. E, mais recentemente, causou polêmica com um vídeo que pretendia mostrar as capacidades de Gemini, que se revelaram fortemente manipuladas e mais ou menos ambiciosas. Gêmeos es crédito ao gigante da tecnologia, está disponível de alguma forma hoje, mas bastante limitado.

Ainda assim, supondo que o Google seja mais ou menos verdadeiro em suas afirmações, eis o que os diferentes níveis de modelos Gemini serão capazes de fazer assim que forem lançados:

Gêmeos Ultra

Até agora, poucas pessoas adquiriram o Gemini Ultra, o modelo “base” sobre o qual os outros são construídos: apenas um “conjunto seleto” de clientes em um punhado de aplicativos e serviços do Google. Isso não mudará até o final deste ano, quando o modelo maior do Google for lançado de forma mais ampla. A maior parte das informações sobre o Ultra vem de demonstrações de produtos realizadas pelo Google, então é melhor aceitá-las com cautela.

O Google diz que o Gemini Ultra pode ser usado para ajudar em tarefas como trabalhos de física, resolver problemas passo a passo em uma planilha e apontar possíveis erros em respostas já concluídas. O Gemini Ultra também pode ser aplicado a tarefas como identificar artigos científicos relevantes para um problema específico, diz o Google, extrair informações desses artigos e “atualizar” um gráfico de um, gerando as fórmulas necessárias para recriar o gráfico com dados mais recentes.

Gemini Ultra suporta tecnicamente imagens, conforme mencionado acima. Mas essa capacidade não chegará à versão de produção do modelo no lançamento, segundo o Google, talvez porque o mecanismo seja mais complexo do que a forma como aplicativos como o ChatGPT geram imagens. Em vez de enviar dicas para um gerador de imagens (como o DALL-E 3, no caso do ChatGPT), o Gemini gera imagens “nativamente” sem uma etapa intermediária.

Gêmeos Profissional

Ao contrário do Gemini Ultra, o Gemini Pro está disponível publicamente hoje. Mas, confusamente, suas capacidades dependem de onde é usado.

O Google diz que em Bard, onde o Gemini Pro foi lançado pela primeira vez em formato somente texto, o modelo é uma melhoria em relação ao LaMDA em seu habilidades de raciocínio, planejamento e compreensão. Em um estudo independente Pesquisadores da Carnegie Mellon e BerriAI descobriram que o Gemini Pro é na verdade melhor que o GPT-3.5 da OpenAI no tratamento de cadeias de raciocínio mais longas e complexas.

Mas o estudo também descobriu que, como todos os grandes modelos de linguagem, o Gemini Pro tem dificuldades especiais com problemas matemáticos que envolvem vários dígitos, e os usuários encontraram muitos exemplos de raciocínio deficiente e erros. Ele cometeu muitos erros factuais em perguntas simples, como quem ganhou o último Oscar. O Google prometeu melhorias, mas não está claro quando elas chegarão.

O Gemini Pro também está disponível via API no Vertex AI, a plataforma de desenvolvimento de IA totalmente gerenciada do Google, que aceita texto como entrada e gera texto como saída. Um endpoint adicional, Gemini Pro Vision, pode processar texto e imagens, incluindo fotos e vídeos, e gerar texto nos moldes do modelo GPT-4 com Vision da OpenAI.

Geminis

Usando Gemini Pro na Vertex AI.

No Vertex AI, os desenvolvedores podem personalizar o Gemini Pro para contextos e casos de uso específicos por meio de um processo de ajuste ou “aterramento”. O Gemini Pro também pode se conectar a APIs externas de terceiros para realizar ações específicas.

Em algum momento do “início de 2024”, os clientes da Vertex poderão aproveitar o Gemini Pro para capacitar agentes de conversação e bate-papo personalizados (ou seja, chatbots). O Gemini Pro também se tornará uma opção para potencializar funções de resumo de pesquisa, recomendação e geração de respostas no Vertex AI, com base em documentos em todas as modalidades (por exemplo, PDF, imagens) de diferentes fontes (por exemplo, OneDrive, Salesforce) para satisfazer consultas.

Geminis

No AI Studio, a ferramenta web do Google para desenvolvedores de aplicativos e plataformas, há fluxos de trabalho para criar mensagens de bate-papo estruturadas e de formato livre usando o Gemini Pro. Os desenvolvedores têm acesso aos endpoints Gemini Pro e Gemini Pro Vision e podem ajustar o «temperatura» do modelo para controlar a gama criativa de resultados e fornecer exemplos para fornecer instruções de tom e estilo, além de ajustar as configurações de segurança.

Gêmeos Nano

Gemini Nano é uma versão muito menor dos modelos Gemini Pro e Ultra e é eficiente o suficiente para ser executado diretamente em (alguns) telefones, em vez de enviar a tarefa para um servidor. Até agora, inclui dois recursos no Pixel 8 Pro: resumo no gravador e resposta inteligente no Gboard.

O aplicativo Recorder, que permite aos usuários pressionar um botão para gravar e transcrever áudio, inclui um resumo desenvolvido pelo Gemini de suas conversas, entrevistas, apresentações e outros trechos gravados. Os usuários recebem esses resumos mesmo que não tenham sinal ou conexão Wi-Fi disponível e, em uma homenagem à privacidade, nenhum dado sai do telefone no processo.

O Gemini Nano também está no Gboard, aplicativo de teclado do Google, em um visualização do desenvolvedor. Lá, ative um recurso chamado Resposta Inteligente, que ajuda a sugerir o que você quer dizer a seguir ao conversar em um aplicativo de mensagens. Inicialmente, o recurso funciona apenas com o WhatsApp, mas chegará a mais aplicativos em 2024, afirma o Google.

O Gemini é melhor que o GPT-4 da OpenAI

Não há como saber como funciona a família Gêmeos. Na realidade Não será conhecido até que o Google lance o Ultra ainda este ano, mas a empresa reivindicou melhorias na versão atual, aproximando-a do GPT-4 da OpenAI.

O Google elogiou várias vezes a superioridade do Gemini em benchmarks, afirmando que o Gemini Ultra supera os resultados atuais em "30 dos 32 benchmarks acadêmicos amplamente utilizados na pesquisa e desenvolvimento de grandes modelos de linguagem". Enquanto isso, a empresa afirma que o Gemini Pro é mais capaz de realizar tarefas como resumir conteúdo, gerar ideias e escrever do que o GPT-3.5.

Mas deixando de lado a questão de saber se os benchmarks realmente indicam um modelo melhor, as pontuações apontadas pelo Google parecem ser apenas marginalmente melhores do que os modelos OpenAI correspondentes. E, como mencionado acima, algumas das primeiras impressões não foram muito boas, pois os utilizadores e acadêmico Eles ressaltam que o Gemini Pro tende a errar nos dados básicos, tem dificuldades com traduções e oferece sugestões de codificação ruins.

Quanto custará Gêmeos?

Gemini Pro é gratuito para uso no Bard e, por enquanto, no AI Studio e Vertex AI.

No entanto, assim que o Gemini Pro sair da versão prévia no Vertex, o modelo custará US$ 0,0025 por personagem, enquanto o lançamento custará US$ 0,00005 por personagem. Os clientes Vertex pagam por 1.000 caracteres (entre 140 e 250 palavras) e, no caso de modelos como o Gemini Pro Vision, por imagem (US$ 0,0025).

Suponha que um artigo de 500 palavras contenha 2000 caracteres. Resumir esse artigo com o Gemini Pro custaria US$ 5. Por outro lado, gerar um item de comprimento semelhante custaria US$ 0,1.

Onde você pode experimentar o Gêmeos

Profissional Gêmeos

O lugar mais fácil para experimentar o Gemini Pro é o Bard. Uma versão aprimorada do Pro está respondendo a perguntas do Bard baseadas em texto em inglês nos EUA no momento, com idiomas e países adicionais suportados no futuro.

O Gemini Pro também pode ser acessado em versão prévia no Vertex AI por meio de uma API. A API é gratuita para uso “dentro dos limites” no momento e oferece suporte a 38 idiomas e regiões, incluindo a Europa, além de recursos como bate-papo e filtragem.

Em outros lugares, o Gemini Pro pode ser encontrado no AI Studio. Ao usar o serviço, Os desenvolvedores podem iterar prompts e chatbots com base em Gemini e, em seguida, obtenha chaves de API para usar em seus aplicativos ou exporte o código para um IDE com mais recursos.

Duet AI para desenvolvedores, é o conjunto de ferramentas de suporte baseadas em IA do Google para completar e gerar código, começará a usar um modelo Gemini nas próximas semanas. O Google planeja trazer modelos Gemini para ferramentas de desenvolvimento para Chrome e sua plataforma de desenvolvimento móvel Firebase na mesma época, no início de 2024.

Gêmeos Nano

Gemini Nano está no Pixel 8 Pro e chegará a outros dispositivos no futuro. Os desenvolvedores interessados ​​em incorporar o modelo em seus aplicativos Android podem registrar para uma primeira visualização.

RELACIONADO

INSCREVA-SE NO TRPLANE.COM

Publicar no TRPlane.com

Se você tiver alguma história interessante sobre transformação, TI, digital, etc. com um lugar no TRPlane.com, envie para nós e compartilharemos com toda a Comunidade.

MAIS PUBLICAÇÕES

Ativar notificações OK Sem gracias