HomeGroße TechsGoogleWas Sie über Google Gemini wissen müssen

Google IA Künstliche Intelligenz Startups

Was Sie über Google Gemini wissen müssen

Google versucht mit Gemini für Aufsehen zu sorgen, einer neuen generativen KI-Plattform, die kürzlich ihr großes Debüt feierte. Aber während Zwillinge in mancher Hinsicht vielversprechend aussehen, sind sie in anderer Hinsicht unzureichend. Was sind also Zwillinge? Wie kann es verwendet werden? Und wie schneidet es im Vergleich zur Konkurrenz ab?

Dieser Leitfaden wird aktualisiert, sobald neue Gemini-Modelle und -Funktionen veröffentlicht werden, und versucht, diese Fragen zu beantworten

Was sind Zwillinge?

Gemini Das langjährige Versprechen von Google in Bezug auf eine Familie generativer KI-Modelle der nächsten Generation, die von Googles KI-Forschungslabors DeepMind und Google Research entwickelt wurden. Erhältlich in drei Geschmacksrichtungen:

Zwillinge Ultra Das Flaggschiffmodell von Gemini
Professionelle Zwillinge ein Gemini „Lite“-Modell
Zwillinge Nano ein kleineres „destilliertes“ Modell, das auf Mobilgeräten wie dem Pixel 8 Pro läuft

Alle Gemini-Modelle wurden darauf trainiert, „nativ multimodal“ zu sein; mit anderen Worten: Sie sind in der Lage, mit mehr als nur Text zu arbeiten und ihn zu verwenden. Sie wurden vorab auf eine Vielzahl von Audio-, Bild- und Videodateien, einen großen Satz an Codebasen und Text in verschiedenen Sprachen vorbereitet und abgestimmt.

Dies unterscheidet Gemini von Modellen wie dem großen Sprachmodell LaMDA von Google, das nur auf Textdaten trainiert wurde. LaMDA kann nichts anderes als Text verstehen oder generieren (z. B. Aufsätze, E-Mail-Entwürfe usw.), aber das ist bei Gemini-Modellen nicht der Fall. Seine Fähigkeit, Bilder, Audio und andere Modalitäten zu verstehen, ist immer noch begrenzt, aber es ist besser als nichts.

Was ist der Unterschied zwischen Barde und Zwillinge?

Der Barde von Google

Google beweist einmal mehr, dass es ihm an Branding-Fähigkeiten mangelt, und hat nicht von Anfang an klargestellt, dass Gemini unabhängig und anders als Bard ist. Bard ist einfach eine Schnittstelle, über die auf bestimmte Gemini-Modelle zugegriffen werden kann; Betrachten Sie es als eine Anwendung oder einen Client für Gemini und andere generative KI-Modelle. Gemini hingegen ist eine Modellfamilie, keine Anwendung oder Schnittstelle. Es gibt kein eigenständiges Gemini-Erlebnis und wird es wahrscheinlich auch nie geben. Im Vergleich zu OpenAI-Produkten entspricht Bard ChatGPT, der beliebten Konversations-KI-Anwendung von OpenAI, und Gemini entspricht dem zugrunde liegenden Sprachmodell, das im Fall von ChatGPT GPT-3.5 oder 4 ist.

Gemini ist übrigens auch völlig unabhängig von Image-2, einem Text-zu-Bild-Konvertierungsmodell, das möglicherweise in die gesamte KI-Strategie des Unternehmens passt oder auch nicht. Machen Sie sich keine Sorgen, Sie sind nicht der Einzige, den das verwirrt!

Was Zwillinge können

Da Gemini-Modelle multimodal sind, können sie theoretisch eine Vielzahl von Aufgaben ausführen, von der Transkription von Sprache über das Untertiteln von Bildern und Videos bis hin zur Erstellung von Kunstwerken. Nur wenige dieser Funktionen haben bisher das Produktstadium erreicht, aber Google verspricht sie alle und noch mehr, irgendwann in nicht allzu ferner Zukunft.

Natürlich ist es beim ersten Start ein wenig schwer, dem Unternehmen zu glauben.

Google hat die Originalveröffentlichung von Bard mehr als erfüllt. Und zuletzt sorgte ein Video für Aufsehen, in dem angeblich die Fähigkeiten der Zwillinge zur Schau gestellt wurden, das sich jedoch als stark manipuliert und mehr oder weniger ehrgeizig herausstellte. Zwillinge es Dank des Technologieriesen ist es heute in irgendeiner Form verfügbar, aber recht begrenzt.

Unter der Annahme, dass Google mit seinen Behauptungen mehr oder weniger wahr ist, können die verschiedenen Stufen der Gemini-Modelle nach ihrer Einführung Folgendes tun:

Zwillinge Ultra

Bisher haben nur wenige Menschen Gemini Ultra erhalten, das „Basismodell“, auf dem die anderen basieren: lediglich eine „ausgewählte Gruppe“ von Kunden in einer Handvoll Google-Apps und -Diensten. Das wird sich erst später in diesem Jahr ändern, wenn das größere Modell von Google breiter auf den Markt kommt. Die meisten Informationen über Ultra stammen aus Produktdemos von Google, daher ist es am besten, sie mit Vorsicht zu genießen.

Google sagt, dass Gemini Ultra zum Beispiel bei Physik-Hausaufgaben, beim Lösen von Schritt-für-Schritt-Aufgaben auf einem Arbeitsblatt und beim Hinweisen auf mögliche Fehler in bereits ausgefüllten Antworten verwendet werden kann. Gemini Ultra kann auch für Aufgaben wie die Identifizierung wissenschaftlicher Artikel, die für ein bestimmtes Problem relevant sind, verwendet werden, sagt Google, das Extrahieren von Informationen aus diesen Artikeln und das „Aktualisieren“ eines Diagramms eines Artikels durch Generieren der Formeln, die erforderlich sind, um das Diagramm mit neueren Daten neu zu erstellen.

Gemini Ultra unterstützt die Bildgebung technisch, wie oben erwähnt. Laut Google wird diese Funktion jedoch beim Start nicht in die Produktionsversion des Modells gelangen, möglicherweise weil der Mechanismus komplexer ist als die Art und Weise, wie Apps wie ChatGPT Bilder generieren. Anstatt Hinweise an einen Bildgenerator zu senden (z. B. DALL-E 3 im Fall von ChatGPT), generiert Gemini Bilder „nativ“ ohne Zwischenschritt.

Professionelle Zwillinge

Im Gegensatz zu Gemini Ultra ist Gemini Pro heute öffentlich verfügbar. Aber verwirrenderweise hängen seine Fähigkeiten davon ab, wo es verwendet wird.

Google sagt, dass in Bard, wo Gemini Pro erstmals im Nur-Text-Format eingeführt wurde, das Das Modell ist in seiner Hinsicht eine Verbesserung gegenüber LaMDA Denk-, Planungs- und Verständnisfähigkeiten. In einem unabhängig Lernen Forscher von Carnegie Mellon und BerriAI fanden heraus, dass Gemini Pro bei der Handhabung längerer, komplexerer Argumentationsketten tatsächlich besser ist als GPT-3.5 von OpenAI.

Die Studie ergab jedoch auch, dass Gemini Pro wie alle großen Sprachmodelle besondere Schwierigkeiten mit mathematischen Problemen mit mehreren Ziffern hat und Benutzer auf viele Beispiele für schlechtes Denken und Fehler gestoßen sind. Bei einfachen Fragen, etwa wer die letzten Oscars gewonnen hat, hat er viele sachliche Fehler gemacht. Google hat Verbesserungen versprochen, es ist jedoch unklar, wann diese eintreffen werden.

Gemini Pro ist auch über die API auf Vertex AI verfügbar, der vollständig verwalteten KI-Entwicklungsplattform von Google, die Text als Eingabe akzeptiert und Text als Ausgabe generiert. Ein zusätzlicher Endpunkt, Gemini Pro Vision, kann Text und Bilder, einschließlich Fotos und Videos, verarbeiten und Text nach dem Vorbild des GPT-4 mit Vision-Modells von OpenAI ausgeben.

Geminis

Verwendung von Gemini Pro auf Vertex AI.

Innerhalb von Vertex AI können Entwickler Gemini Pro durch einen Tuning- oder „Grounding“-Prozess für bestimmte Kontexte und Anwendungsfälle anpassen. Gemini Pro kann auch eine Verbindung zu externen APIs von Drittanbietern herstellen, um bestimmte Aktionen auszuführen.

Irgendwann „Anfang 2024“ werden Vertex-Kunden Gemini Pro nutzen können, um benutzerdefinierte Konversations-Sprach- und Chat-Agenten (d. h. Chatbots) zu betreiben. Gemini Pro wird auch eine Option für Suchzusammenfassungs-, Empfehlungs- und Antwortgenerierungsfunktionen in Vertex AI sein, die auf Dokumenten in allen Modalitäten (z. B. PDF, Bilder) aus verschiedenen Quellen (z. B. OneDrive, Salesforce) basieren, um Anfragen zu erfüllen.

Geminis

In AI Studio, dem Webtool von Google für App- und Plattformentwickler, gibt es Workflows zum Erstellen freier, strukturierter Chatnachrichten mit Gemini Pro. Entwickler haben Zugriff auf die Endpunkte Gemini Pro und Gemini Pro Vision und können die „Temperatur» des Modells, um den kreativen Ausgabebereich zu steuern, Beispiele für Ton- und Stilanweisungen bereitzustellen und auch Sicherheitseinstellungen anzupassen.

Zwillinge Nano

Gemini Nano ist eine viel kleinere Version der Modelle Gemini Pro und Ultra und effizient genug, um direkt auf (einigen) Telefonen ausgeführt zu werden, anstatt die Aufgabe an einen Server zu senden. Bisher sind beim Pixel 8 Pro zwei Funktionen enthalten: Zusammenfassung auf dem Rekorder und intelligente Antwort auf Gboard.

Die Recorder-App, mit der Benutzer per Knopfdruck Audio aufnehmen und transkribieren können, enthält eine von Gemini bereitgestellte Zusammenfassung Ihrer aufgezeichneten Gespräche, Interviews, Präsentationen und anderen Ausschnitte. Benutzer erhalten diese Zusammenfassungen auch dann, wenn kein Signal oder keine WLAN-Verbindung verfügbar ist, und aus Datenschutzgründen verlassen dabei keine Daten ihr Telefon.

Gemini Nano ist auch auf Gboard, der Tastatur-App von Google, verfügbar Entwicklervorschau. Aktivieren Sie dort eine Funktion namens „Smart Reply“, mit der Sie vorschlagen können, was Sie als Nächstes sagen möchten, wenn Sie ein Gespräch in einer Messaging-App führen. Zunächst funktioniert die Funktion nur mit WhatsApp, im Jahr 2024 soll sie aber auf weitere Apps kommen, sagt Google.

Ist Gemini besser als GPT-4 von OpenAI?

Es gibt keine Möglichkeit zu wissen, wie die Zwillingsfamilie funktioniert. Eigentlich Es wird nicht bekannt sein, bis Google Ultra später in diesem Jahr veröffentlicht, aber das Unternehmen hat Verbesserungen in der aktuellen Version behauptet, die sie näher an OpenAIs GPT-4 bringen.

Google hat die Überlegenheit von Gemini bei Benchmarks mehrfach angepriesen und erklärt, dass Gemini Ultra die aktuellen Ergebnisse in „30 der 32 akademischen Benchmarks, die häufig in der Forschung und Entwicklung großer Sprachmodelle verwendet werden“ übertrifft. Unterdessen gibt das Unternehmen an, dass der Gemini Pro Aufgaben wie das Zusammenfassen von Inhalten, das Generieren von Ideen und das Schreiben besser bewältigen kann als GPT-3.5.

Abgesehen von der Frage, ob die Benchmarks tatsächlich auf ein besseres Modell hinweisen, scheinen die von Google angegebenen Ergebnisse nur unwesentlich besser zu sein als die entsprechenden OpenAI-Modelle. Und wie oben erwähnt, waren einige der ersten Eindrücke nicht sehr gut, da Benutzer und Akademiker Sie weisen darauf hin, dass Gemini Pro dazu neigt, grundlegende Daten falsch zu verstehen, Schwierigkeiten mit Übersetzungen hat und schlechte Codierungsvorschläge bietet.

Wie viel wird Gemini kosten?

Gemini Pro kann kostenlos auf Bard und vorerst auf AI Studio und Vertex AI verwendet werden.

Sobald der Gemini Pro jedoch die Vorschau auf Vertex verlässt, wird das Modell 0,0025 US-Dollar pro Charakter kosten, während die Veröffentlichung 0,00005 US-Dollar pro Charakter kosten wird. Vertex-Kunden zahlen pro 1.000 Zeichen (zwischen 140 und 250 Wörtern) und bei Modellen wie dem Gemini Pro Vision pro Bild (0,0025 $).

Angenommen, ein Artikel mit 500 Wörtern enthält 2000 Zeichen. Die Zusammenfassung dieses Artikels mit Gemini Pro würde 5 $ kosten. Andererseits, generar Ein Artikel ähnlicher Länge würde 0,1 $ kosten.

Wo Sie Gemini ausprobieren können

Zwillinge-Profi

Der einfachste Ort, um Gemini Pro zu erleben, ist Bard. Eine verbesserte Version von Pro beantwortet derzeit in den USA textbasierte Bard-Anfragen auf Englisch. Weitere Sprachen und Länder werden in Zukunft unterstützt.

Auf Gemini Pro kann über eine API auch in der Vorschau auf Vertex AI zugegriffen werden. Die API kann derzeit „im Rahmen von Grenzen“ kostenlos genutzt werden und unterstützt 38 Sprachen und Regionen, darunter Europa, sowie Funktionen wie Chat und Filterung.

An anderer Stelle ist Gemini Pro in AI Studio zu finden. Durch die Nutzung des Dienstes Entwickler können Eingabeaufforderungen und Chatbots basierend darauf iterieren Gemini und erhalten Sie dann API-Schlüssel zur Verwendung in Ihren Anwendungen oder exportieren Sie den Code in eine IDE mit mehr Funktionen.

Duet AI für Entwickler, Googles Reihe von KI-gestützten Support-Tools für die Code-Vervollständigung und -Generierung, wird in den kommenden Wochen mit der Verwendung eines Gemini-Modells beginnen. Google plant, ungefähr zur gleichen Zeit, Anfang 2024, Gemini-Modelle in Entwicklungstools für Chrome und seine mobile Entwicklungsplattform Firebase zu integrieren.

Zwillinge Nano

Gemini Nano ist auf dem Pixel 8 Pro verfügbar und wird in Zukunft auch auf anderen Geräten verfügbar sein. Entwickler, die daran interessiert sind, das Modell in ihre Android-Apps zu integrieren, können dies tun inscribirse für einen ersten Einblick.

Vorherige Artikel

Amazons neue Initiative, um Menschen mit digitaler Gesundheit zu helfen

weiter >>

Parallel sichert die Finanzierung der Teletherapie für Kinder mit besonderen Bedürfnissen

VERBUNDEN

Was Sie über Google Gemini wissen müssen

Was sind Zwillinge?

Was ist der Unterschied zwischen Barde und Zwillinge?

Was Zwillinge können

Zwillinge Ultra

Professionelle Zwillinge

Zwillinge Nano

Ist Gemini besser als GPT-4 von OpenAI?

Wie viel wird Gemini kosten?

Wo Sie Gemini ausprobieren können

Zwillinge-Profi

Zwillinge Nano

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

WEITERE PUBLIKATIONEN