Die Kombination von Vision und Sprache ist der Schlüssel zu einer effektiveren KI

Je nachdem, welcher Theorie der Intelligenz Sie sich anschließenUm KI auf „menschlicher Ebene“ zu erreichen, ist ein System erforderlich, das mehrere Modalitäten nutzen kann, zum Beispiel: Ton, Bild und Text, um über die Welt zu urteilen. Wenn ein Bild eines umgestürzten Lastwagens und eines Polizeiautos auf einer verschneiten Autobahn gezeigt wird, könnte eine KI auf menschlicher Ebene schlussfolgern, dass gefährliche Straßenverhältnisse einen Unfall verursacht haben. Oder sie laufen auf einem Roboter, wenn sie gebeten werden, eine Dose Soda aus dem Kühlschrank zu holen, und navigieren zwischen Menschen, Möbeln und Haustieren, um die Dose zu holen und in Reichweite des Anforderers zu platzieren.

Die aktuelle KI greift zu kurz. Neue Forschungen zeigen jedoch Anzeichen für ermutigende Fortschritte, von Robotern, die sich Schritte ausdenken können, um grundlegende Befehle zu befolgen (z. B. „Nimm eine Flasche Wasser“), bis hin zu texterzeugenden Systemen, die aus Erklärungen lernen.

OpenAI Enhanced DALL-E AI Research Lab, DALL-E2, ist leicht die beeindruckendstes Projekt aus den Tiefen eines KI-Forschungslabors auftauchen. Während der ursprüngliche DALL-E bemerkenswerte Fähigkeiten bei der Erstellung von Bildern bewies, die praktisch jeder Botschaft entsprechen (z. B. "ein Hund in einer Baskenmütze"), DALL-E2 Es geht darüber hinaus. Die erzeugten Bilder sind viel detaillierter und DALL-E2 kann einen bestimmten Bereich in einem Bild intelligent ersetzen, indem Sie beispielsweise einen Tisch in ein Foto eines Marmorbodens einfügen, der mit den entsprechenden Reflexionen gefüllt ist.

Forscher aus Google haben auch ein ebenso beeindruckendes visuelles Verständnissystem genannt Prosodie Visuell gesteuert für Text-to-Speech: VDTTS – in einem Beitrag, der auf dem AI-Blog von veröffentlicht wurde Google. VDTTS kann realistisch klingende, lippensynchrone Sprache erzeugen, wenn nur Textrahmen und ein Video der sprechenden Person vorhanden sind.

Die Rede erzeugt durch VDTTSObwohl es kein perfekter Ersatz für aufgezeichnete Dialoge ist, ist es dennoch ziemlich gut, mit überzeugend menschenähnlicher Ausdruckskraft und Tempo. Google sieht, dass es eines Tages in einem Studio verwendet wird, um Original-Audio zu ersetzen, das möglicherweise unter lauten Bedingungen aufgenommen wurde.

Natürlich visuelles Verstehen ist nur ein Schritt auf dem Weg zu einer leistungsfähigeren KI. Ein weiterer Bestandteil ist die Sprachverständnis, das in vielerlei Hinsicht hinterherhinkt, selbst wenn man die gut dokumentierten Probleme der Toxizität und KI-Voreingenommenheit außer Acht lässt. In einem klaren Beispiel ist ein hochmodernes System von Google, Pathways-Sprachmodell (Palme), 40 % der Daten auswendig gelernt, mit denen er „trainiert“ wurde, so ein Dokument, was dazu führt, dass PaLM Text plagiiert, bis hin zu Urheberrechtsvermerken auf Codeschnipseln.

Glücklicherweise DeepMind, das von Alphabet unterstützte Labor für künstliche Intelligenz, gehört zu den Forschungstechniken, um dieses Problem anzugehen. In einer neuen Studie haben Forscher aus DeepMind untersuchen, ob KI-Sprachsysteme, die lernen, Text aus vielen Beispielen von vorhandenem Text zu generieren (denken Sie an Bücher und soziale Medien), vom Erhalt profitieren könnten Erklärungen dieser Texte. Nachdem Sie Dutzende von Sprachaufgaben (z. B. „Beantworten Sie diese Fragen, indem Sie feststellen, ob der zweite Satz eine angemessene Paraphrase des ersten metaphorischen Satzes ist“) mit Erklärungen (z. B. „Davids Augen waren nicht buchstäblich Dolche, ist eine Metapher, die verwendet wird, um dies zu implizieren) bewertet haben David starrte Paul an.“) und bewertete die Leistung verschiedener Systeme auf ihnen, Das Team von DeepMind fanden heraus, dass Beispiele tatsächlich die Systemleistung verbessern.

Der Fokus von DeepMind, wenn Sie die Prüfung innerhalb der akademischen Gemeinschaft bestehen, könnte eines Tages in der Robotik Anwendung finden, bilden die Bausteine eines Roboters, der auch ohne Schritt-für-Schritt-Anleitung vage Aufforderungen verstehen kann (z. B. „Wirf den Müll raus“).

Vorherige Artikel

Mit einer Bewertung von 13 Milliarden US-Dollar trotzt Celonis der aktuellen Startup-Ökonomie

weiter >>

Die neuen Fahrräder von Rad Power Bikes

VERBUNDEN

Lassen Sie eine Antwort Abbrechen Antwort

Bitte geben Sie Ihren Kommentar ein!

Bitte geben Sie hier Ihren Namen ein

Sie haben eine falsche E-Mail-Adresse eingegeben!

Bitte geben Sie hier Ihre E-Mail-Adresse ein

Die Kommentarmoderation ist aktiviert. Es kann einige Zeit dauern, bis Ihr Kommentar erscheint.

Diese Seite verwendet Akismet, um Spam zu reduzieren. Erfahren Sie, wie Ihre Kommentardaten verarbeitet werden.

Die Kombination von Vision und Sprache ist der Schlüssel zu einer effektiveren KI

Lassen Sie eine Antwort Abbrechen Antwort

ABONNIEREN SIE TRPLANE.COM

Veröffentlichen Sie auf TRPlane.com

WEITERE PUBLIKATIONEN