HomeIAGoogle gibt zu, die Kontrolle über die bildgenerierende KI verloren zu haben

Google gibt zu, die Kontrolle über die bildgenerierende KI verloren zu haben

Google hat sich diese Woche für einen weiteren peinlichen KI-Fehler entschuldigt (oder war kurz davor, sich zu entschuldigen), ein Bildgenerierungsmodell, das den Bildern Vielfalt verlieh und dabei den historischen Kontext lächerlich missachtete. Während das zugrunde liegende Problem vollkommen verständlich ist, wirft Google dem Modell vor, „zu empfindlich zu werden“. Das Modell hat sich nicht selbst erstellt, Leute von Google.

Bei dem betreffenden KI-System handelt es sich um Gemini, die Flaggschiff-Konversations-KI-Plattform des Unternehmens, die bei entsprechender Aufforderung eine Version des Modells aufruft Imagen 2 um Bilder auf Abruf zu erstellen.

Vor kurzem stellten Benutzer jedoch fest, dass die Aufforderung, Bilder bestimmter historischer Umstände oder Personen zu erstellen, zu lächerlichen Ergebnissen führte. Beispielsweise wurden die Gründerväter, von denen wir wissen, dass sie weiße Sklavenhalter waren, als eine multikulturelle Gruppe dargestellt, zu der auch farbige Menschen gehörten.

Dieses peinliche und leicht reproduzierbare Problem wurde schnell von Online-Verlegern verspottet. Es überrascht nicht, dass es auch in die anhaltende Debatte über Diversität, Gerechtigkeit und Inklusion einfing (derzeit auf einem lokalen Reputationstief) und von Experten als Beweis dafür aufgefasst wurde, dass der Virus des erwachten Geistes weiter in den bereits liberalen Technologiesektor eindringt.

_{Ein vom Twitter-Nutzer Patrick Ganley erstelltes Bild.}

„DEI ist verrückt geworden“, riefen sichtlich besorgte Bürger. Das ist Bidens Amerika! Google ist eine „ideologische Echokammer“, ein Stalking Horse der Linken! (Es sollte angemerkt werden, dass auch die Linke durch dieses seltsame Phänomen angemessen beunruhigt war.)

Aber wie Ihnen jeder, der mit der Technologie vertraut ist, sagen kann und wie Google in seinem eher schäbigen kleinen Beitrag neben der Entschuldigung erklärt, war dieses Problem das Ergebnis einer einigermaßen vernünftigen Problemumgehung für systemische Verzerrungen in den Trainingsdaten.

Nehmen wir an, Sie möchten mit Gemini eine Marketingkampagne erstellen und bitten darum, 10 Bilder von „einer Person, die mit einem Hund in einem Park spazieren geht“ zu generieren. Da die Art der Person, des Hundes oder des Parks nicht spezifiziert ist, ist es die Entscheidung des Händlers: Das generative Modell zeigt, was ihm am vertrautesten ist. Und in vielen Fällen ist das kein Produkt der Realität, sondern von Trainingsdaten, die alle möglichen Verzerrungen enthalten können.

Welche Arten von Menschen, und tatsächlich Hunde und Parks, kommen in den Tausenden relevanten Bildern, die das Model aufgenommen hat, am häufigsten vor? Tatsache ist, dass Weiße in vielen dieser Bildsammlungen (Stockbilder, lizenzfreie Fotos usw.) überrepräsentiert sind und das Modell daher in vielen Fällen standardmäßig auf Weiße zurückgreift, wenn Sie dies nicht tun. angeben.

nämlich nur ein Artefakt der Daten Aber wie Google betont: „Da unsere Nutzer aus der ganzen Welt kommen, möchten wir, dass es für alle gut funktioniert.“ Wenn Sie ein Foto von Fußballspielern oder jemandem, der mit einem Hund spazieren geht, anfordern, möchten Sie möglicherweise eine Vielzahl von Personen erhalten. Sie möchten wahrscheinlich nicht nur Bilder von Menschen nur einer bestimmten ethnischen Zugehörigkeit (oder eines anderen Merkmals) erhalten.“

_{Stellen Sie sich vor, Sie würden nach einem Bild wie diesem fragen: Was wäre, wenn es sich nur um eine Person handeln würde? Schlechtes Ergebnis!}

Es ist nichts Falsches daran, ein Foto von einem weißen Mann zu machen, der mit einem Golden Retriever in einem Vorstadtpark spazieren geht. Aber wenn Sie 10 bestellen und sie sind todos Weiße Kerle, die in Vorstadtparks mit Goldmünzen spazieren gehen? Und Sie leben in Marokko, wo die Menschen, Hunde und Parks anders aussehen? Das ist einfach kein wünschenswertes Ergebnis. Wenn jemand ein Merkmal nicht spezifiziert, sollte sich das Modell für Vielfalt und nicht für Homogenität entscheiden, auch wenn seine Trainingsdaten es möglicherweise verzerren.

Dies ist ein häufiges Problem bei allen Arten generativer Medien. Und es gibt keine einfache Lösung. Aber in Fällen, die besonders häufig, sensibel oder beides sind, können Unternehmen wie Google, OpenAI, Anthropic usw. Sie enthalten unsichtbar zusätzliche Anweisungen für das Modell.

Ich kann nicht genug betonen, wie verbreitet diese Art impliziter Anweisungen ist. Das gesamte LLM-Ökosystem basiert auf impliziten Anweisungen: Systemaufforderungen, wie sie manchmal genannt werden, bei denen dem Modell vor jedem Gespräch Dinge wie „seien Sie prägnant“, „schwören Sie nicht“ und andere Richtlinien gegeben werden. Wenn Sie nach einem Witz fragen, bekommen Sie keinen rassistischen Witz, denn obwohl das Model Tausende davon verschluckt hat, wurde ihm, wie den meisten von uns, beigebracht, sie nicht zu erzählen. Dabei handelt es sich nicht um eine geheime Agenda (auch wenn sie mehr Transparenz vertragen könnte), sondern um Infrastruktur.

Der Fehler bei Googles Modell bestand darin, dass es keine impliziten Anweisungen für Situationen enthielt, in denen der historische Kontext wichtig war. Während also eine Botschaft wie „Eine Person, die mit einem Hund in einem Park spazieren geht“, durch den stillen Zusatz „Die Person hat ein zufälliges Geschlecht und eine zufällige ethnische Zugehörigkeit“ oder was auch immer sie sagen, verbessert wird, „haben die Gründerväter der Vereinigten Staaten, die das unterzeichnet haben.“ „Verfassung“ wird durch die gleichen Anweisungen definitiv nicht verbessert.

Wie Google Senior Vice President Prabhakar Raghavan es ausdrückte:

Erstens berücksichtigte unsere Anpassung, um sicherzustellen, dass Zwillinge eine Vielfalt an Menschen zeigten, Fälle nicht, die eindeutig keine Vielfalt zeigen sollten. Und zweitens wurde das Modell mit der Zeit viel vorsichtiger als wir beabsichtigt hatten und weigerte sich überhaupt, auf bestimmte Aufforderungen zu reagieren, und interpretierte einige sehr langweilige Aufforderungen fälschlicherweise als sensibel.

Diese beiden Dinge führten dazu, dass das Modell in einigen Fällen überkompensierte und in anderen zu konservativ war, was zu peinlichen und fehlerhaften Bildern führte.

Ich weiß, wie schwer es manchmal ist, „Es tut mir leid“ zu sagen, deshalb verzeihe ich Prabhakar, dass er nicht dazu gekommen ist, es zu sagen. Wichtiger ist die darin enthaltene interessante Sprache: „Das Modell wurde viel vorsichtiger, als wir beabsichtigt hatten.“

Wie könnte nun aus einem Modell etwas „werden“? Es ist Software. Jemand (Tausende von Google-Ingenieuren) hat es erstellt, getestet und iteriert. Jemand hat implizite Anweisungen geschrieben, die einige Antworten verbesserten und andere zum komischen Scheitern brachten. Wenn dies fehlschlug und jemand in der Lage gewesen wäre, die gesamte Nachricht zu überprüfen, hätte er wahrscheinlich herausgefunden, was das Google-Team falsch gemacht hat.

Google macht das Modell dafür verantwortlich, dass es zu etwas „geworden“ ist, wofür es nicht „bestimmt“ war. Aber sie haben das Modell gemacht! Es ist, als würden sie ein Glas zerbrechen und statt zu sagen: „Es ist heruntergefallen“, sagen sie: „Es ist heruntergefallen.“

Die Fehler dieser Modelle sind sicherlich unvermeidlich. Sie halluzinieren, sie reflektieren Vorurteile, sie verhalten sich auf unerwartete Weise. Die Verantwortung für diese Fehler liegt jedoch nicht bei den Modellen, sondern bei den Menschen, die sie gemacht haben. Heute ist das Google. Morgen wird OpenAI sein. Am nächsten Tag und wahrscheinlich für ein paar Monate am Stück wird es X.AI sein.

Diese Unternehmen haben ein begründetes Interesse daran, Sie davon zu überzeugen, dass KI ihre eigenen Fehler macht. Wir dürfen diese Geschichte nicht bestehen lassen.

Vorherige Artikel

CodeSignal führt Lernplattform mit KI-gestütztem Leitfaden ein

weiter >>

Fintechs, die 2024 an die Börse gehen könnten

VERBUNDEN

Der Markt zwingt Cloud-Anbieter, die Gebühren für den Datenausgang zu lockern

Humanoide Roboter verstehen

Rabbit arbeitet mit ElevenLabs zusammen, um Sprachbefehle auf Ihrem Gerät zu ermöglichen

Die britische Kartellbehörde warnt vor der Kontrolle von Big Tech über GenAI

Der Aufbau einer starken Startup-Entwicklungskultur erfordert ständige Anpassung

Goody-2, KI ist zu ethisch, um irgendetwas zu diskutieren

DEI: aktuelle rechtliche und unternehmerische Herausforderungen

Wichtige KI-Richtlinien: Schöpfen Sie Ihr Potenzial aus und schützen Sie sich vor Risiken am Arbeitsplatz

Es ist nie zu spät, damit anzufangen

Poe führt ein Preis-pro-Nachricht-Umsatzmodell für KI-Bot-Ersteller ein

Mit TikTok können YouTuber jetzt in mehr Ländern Geld mit ihren Effekten verdienen

Die Kreativwirtschaft ist bereit für eine Arbeiterbewegung

Achten Sie auf die versteckten Kosten von KI, um Innovationen nicht zu ruinieren

Cambio setzt Roboter mit künstlicher Intelligenz am Telefon ein, um Schulden zu verhandeln und mit Bankkunden zu sprechen

Die neue „grüne Bank“ der USA will mehr als 160.000 Milliarden US-Dollar für die Klimatechnologie bereitstellen

Ohne ein bezahlbares Elektrofahrzeug riskiert Tesla, seinen Vorsprung zu verlieren

Das lernende Einhorn Multiverse erwirbt das KI-fokussierte Searchlight

Robinhood-Kreditkarte will mit Apple Card konkurrieren

Rabbit arbeitet mit ElevenLabs zusammen, um Sprachbefehle auf Ihrem Gerät zu ermöglichen

Das lernende Einhorn Multiverse erwirbt das KI-fokussierte Searchlight

Die Buffet-App bekämpft die Einsamkeitsepidemie, indem sie Menschen in der realen Welt miteinander verbindet

AirMyne nutzt Geothermie, um Kohlenstoff direkt aus der Luft zu binden

Apple erwirbt KI-Startup, um die Herstellung von Komponenten zu überwachen

Die Chronologie, die Sie über den KI-Chatbot wissen müssen

KI: Zusammenfassung der Hauptkonzepte

Wie man ein Startup Investoren präsentiert

OKR-Modell

Erstellung eines strategischen Plans

Google gibt zu, die Kontrolle über die bildgenerierende KI verloren zu haben

Humanoide Roboter verstehen

Rabbit arbeitet mit ElevenLabs zusammen, um Sprachbefehle auf Ihrem Gerät zu ermöglichen

Die britische Kartellbehörde warnt vor der Kontrolle von Big Tech über GenAI

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

WEITERE PUBLIKATIONEN

Pinterest startet TwoTwenty, einen internen Inkubator für Projekte

SnapCalorie nutzt KI, um den Kaloriengehalt von Lebensmitteln anhand von Fotos zu berechnen

Die Amazonifizierung von Uber

Nvidia aktualisiert GeForce Now mit RTX 4080-Leistung für Premium-Benutzer

FTC-Klage wegen Preiskürzungsalgorithmus für „Project Nessie“ brachte Amazon 1.400 Milliarden US-Dollar ein