Multimodalna AI. Nowe zastosowania w biznesie

Czy kiedykolwiek zastanawiałeś się, jak to jest, że możesz jednocześnie słuchać muzyki, czytać książkę i rozpoznawać zapach świeżo zaparzonej kawy? To wszystko dzięki ludzkiej zdolności do przetwarzania wielu typów danych jednocześnie, czyli temu, że jesteśmy istotami multimodalnymi.

Multimodalna AI - omówione zagadnienia:

Bard, inteligentny czatbot od Google, jest multimodalny od lipca 2023. Zaś od października także ChatGPT został wzbogacony o rozumienie wielu rodzajów informacji. Oba potrafią już nie tylko rozumieć tekst, ale także odczytywać i wizualizować dane, prowadzić rozmowę głosową i rozpoznawać obrazy. Multimodalna AI zyskuje zatem jeszcze większy potencjał do rewolucjonizowania świata biznesu. Przyjrzyjmy się jej bliżej, żeby zrozumieć, jak ogromne możliwości kryją się w wielozadaniowej sztucznej inteligencji.

Co to jest multimodalna sztuczna inteligencja?

Multimodalna AI to bardzo zaawansowana forma AI, która naśladuje ludzką zdolność do interpretowania świata, wykorzystując treści i dane pochodzące z różnych zmysłów. Podobnie jak ludzie rozumieją tekst, obrazy i dźwięki, tak multimodalna AI integruje te różne typy danych, aby zrozumieć kontekst i złożone znaczenie zawarte w informacjach. Przykładowo, w biznesie może to umożliwić lepsze zrozumienie opinii klientów poprzez analizę zarówno tego, co mówią, jak i tego, jak to wyrażają poprzez ton głosu lub wyraz twarzy.

Tradycyjne systemy AI są zazwyczaj unimodalne, co oznacza, że specjalizują się w jednym rodzaju danych, np. tekście lub obrazach. Są one w stanie szybko przetwarzać duże ilości danych i dostrzegać wzorce, których nie jest w stanie wychwycić ludzka inteligencja. Jednak mają one poważne ograniczenia. Są niewrażliwe na kontekst, oraz mniej sprawnie radzą sobie z nietypowymi i niejednoznacznymi sytuacjami.

Dlatego właśnie multimodalna AI idzie o krok dalej, integrując modalności. Pozwala to na głębsze rozumienie i znacznie ciekawsze interakcje pomiędzy człowiekiem i sztuczną inteligencją.

Co potrafi multimodalna AI?

Rozwijane dziś modele sztucznej inteligencji wykorzystują następujące pary modalności:

od tekstu do obrazu — taka multimodalna AI umożliwia tworzenie obrazów na podstawie tekstowych wskazówek; to podstawowa umiejętność słynnego Midjourney, stworzonego przez OpenAI DALL·E 3, dostępnego w przeglądarce jako Bing Image Creator, zaawansowanego Stable Diffusion, czy najmłodszego w tej rodzinie narzędzia Ideogram, które nie tylko rozumie tekstowe prompty, ale także potrafi umieszczać tekst na obrazie:
Źródło: Ideogram (https://ideogram.ai)

Multimodalne modele sztucznej inteligencji potrafią także korzystać równocześnie ze wskazówek tekstowych i obrazu, którym się „inspirują”. Pozwalają uzyskiwać jeszcze ciekawsze, bardziej precyzyjnie zdefiniowane rezultaty i wariacje stworzonych obrazów. To bardzo przydatne, jeśli chcemy uzyskać tylko trochę inną grafikę czy banner, dodać albo usunąć jeden element, na przykład kubek z kawą:

Źródło: Ideogram (https://ideogram.ai)
od obrazu do tekstu — sztuczna inteligencja potrafi znacznie więcej, niż rozpoznać i przetłumaczyć tekst widoczny na zdjęciu czy znaleźć podobny produkt. Może także opisać obraz słowami – tak jak robi to Midjourney po wpisaniu komendy /describe, Google Bard, a także model Salesforce (wykorzystywany głównie do tworzenia automatycznych opisów produktów i obrazów na stronach e-commerce),
Źródło: HuggingFace.co (https://huggingface.co/tasks/image-to-text)
od głosu do tekstu— multimodalna AI pozwalająca rozumieć głosowe polecenia kryje się pod maską Google Barda, jednak najlepiej radzi sobie w wykonaniu Bing Chata, a także ChataGPT dzięki doskonałemu Whisper API, który radzi sobie z rozpoznawaniem i zapisem mowy wraz z interpunkcją w wielu językach, co może m.in. znacząco ułatwić pracę międzynarodowych centrów obsługi klienta, a także przygotowywać szybką transkrypcję spotkań i tłumaczenie rozmów biznesowych na inne języki w czasie rzeczywistym,
od tekstu do głosu — narzędzie ElevenLabs umożliwia przekształcenie dowolnie wybranego tekstu na realistycznie brzmiącą wypowiedź, a nawet „klonowanie głosu”, dzięki któremu możemy nauczyć sztuczną inteligencję własnego brzmienia i ekspresji, aby stworzyć nagranie dowolnego tekstu na przykład w obcym języku na potrzeby marketingu czy prezentacji dla zagranicznych inwestorów,
od tekstu do wideo — przekształcanie tekstu na wideo z mówiącym awatarem możliwe jest między innymi w narzędziach D-ID, Colossyan oraz Synthesia,
od obrazu do wideo — generowanie filmów, także muzycznych, na podstawie obrazów i tekstowych wskazówek umożliwia już dzisiaj Kaiber, a Meta zapowiada wydanie wkrótce narzędzia Make-A-Video,
obraz i model trójwymiarowy — to szczególnie obiecująca dziedzina multimodalnej AI, w której celują Meta i Nvidia, umożliwiająca tworzenie realistycznych awatarów ze zdjęć, a także budowanie trójwymiarowych modeli przedmiotów oraz produktów Masterpiece Studio, NeROIC , 3DFY, dzięki którym można na przykład zwrócić inną stroną do kamery produkt zaprototypowany w dwóch wymiarach, stworzyć szybką wizualizację 3D na podstawie szkicu mebla, albo nawet tekstowego opisu:

Źródło: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)

od obrazu do ruchu w przestrzeni — ta modalność pozwala na wykroczenie multimodalnej AI poza ekrany w strefę Internetu Rzeczy (Internet of Things, IoT), autonomicznych pojazdów i robotyki, gdzie dzięki zaawansowanemu rozpoznawaniu obrazu i możliwości reagowania na zmiany otoczenia, urządzenia mogą wykonywać precyzyjne czynności.

Istnieją również eksperymenty z multimodalną AI przekładające na przykład muzykę na obraz , jednak przyjrzyjmy się bliższym, biznesowym zastosowaniom multimodalnej AI. Jak zatem wygląda zagadnienie multimodalności w najpopularniejszych czatbotach wykorzystujących sztuczną inteligencję, ChatGPT i Google Bard?

Multimodalność w Google Bard, BingChat i ChatGPT

Google Bard potrafi opisywać proste zdjęcia i wykorzystuje komunikację głosową od lipca 2023 roku, czyli od momentu, gdy pojawił się w Europie. Pomimo zmiennej jakości rezulatów rozpoznawania obrazu, dotychczas był to jeden z atutów odróżniających rozwiązanie Google od ChataGPT.

BingChat dzięki korzystaniu z DALL·E 3 potrafi generować obrazy na podstawie tekstowych lub głosowych wskazówek. I chociaż brakuje mu umiejętności opisywania słowami obrazów załączanych przez użytkownika, potrafi je modyfikować lub wykorzystać jako inspirację do tworzenia nowych obrazów.

Od października 2023 OpenAI zaczęło także wprowadzać nowe funkcje głosowe i obrazowe do ChataGPT Plus, czyli płatnej wersji narzędzia. Dzięki nim możliwe jest prowadzenie rozmowy głosowej lub pokazanie ChatowiGPT obrazu, dzięki któremu będzie wiedział, o co pytamy bez konieczności dokładnego opisywania słowami.

Przykładowo, można zrobić zdjęcie zabytku podczas podróży i prowadzić na żywo rozmowę na temat tego, co w nim jest interesującego. Albo zrobić zdjęcie wnętrza swojej lodówki, aby dowiedzieć się, co możesz przygotować na obiad z dostępnych składników i poprosić o przepis krok po kroku.

3 zastosowania multimodalnej AI w biznesie

Opisywanie obrazów może służyć, chociażby do inwentaryzacji towarów na podstawie danych z kamer CCTV lub identyfikacji brakujących produktów na sklepowych półkach. Manipulację obiektami można wykorzystać do uzupełniania zidentyfikowanych w poprzednim kroku brakujących towarów. Jak jednak multimodalne czaty mogą być wykorzystywane w biznesie? Oto trzy przykłady:

Obsługa klienta: Multimodalny czat zaimplementowany w sklepie internetowym może służyć jako zaawansowany asystent obsługi klienta, który nie tylko odpowiada na pytania tekstowe, ale także rozumie obrazy i pytania zadawane głosem. Na przykład, klient może zrobić zdjęcie uszkodzonego produktu i wysłać je do czata, który pomoże zidentyfikować problem i zaproponować odpowiednie rozwiązanie.
Analiza mediów społecznościowych: Multimodalna sztuczna inteligencja może analizować posty w mediach społecznościowych, które zawierają zarówno tekst, jak i obrazy, a nawet filmy, aby zrozumieć, co klienci mówią o firmie i jej produktach. Może to pomóc firmie w lepszym zrozumieniu opinii klientów i szybszym reagowaniu na ich potrzeby.
Szkolenie i rozwój: ChatGPT może być wykorzystany do szkolenia pracowników. Na przykład, może prowadzić interaktywne sesje szkoleniowe, które obejmują zarówno tekst, jak i obrazy, aby pomóc pracownikom lepiej zrozumieć skomplikowane koncepcje.

Przyszłość multimodalnej sztucznej inteligencji w biznesie

Świetnym przykładem przyszłościowej multimodalnej AI jest optymalizacja procesów biznesowych firmy. Na przykład, system AI mógłby analizować dane z różnych źródeł, takich jak dane sprzedażowe, dane klientów i dane z mediów społecznościowych, aby zidentyfikować obszary, które wymagają poprawy i zasugerować możliwe rozwiązania.

Inny przykład to wykorzystanie multimodalnej AI do organizacji logistyki. Połączenie danych z GPS, stanu magazynu odczytywanego z kamery i danych o dostawach, aby zoptymalizować procesy logistyczne i zredukować koszty to naprawdę niedaleka przyszłość biznesu.

Wiele z tych funkcjonalności jest już dziś wykorzystywanych w złożonych systemach takich jak autonomiczne samochody i inteligentne miasta. Nie były one jednak stosowane na taką skalę w mniejszych biznesowych kontekstach.

Podsumowanie

Multimodalność, czyli zdolność do przetwarzania różnorodnych typów danych, takich jak tekst, obrazy i dźwięk, sprzyja głębszemu zrozumieniu kontekstu oraz lepszej interakcji pomiędzy ludźmi a systemami AI.

Otwartym pytaniem pozostaje, jakie nowe połączenia modalności mogą zaistnieć w najbliższej przyszłości? Czy na przykład możliwe będzie połączenie analizy tekstu z mową ciała, tak aby multimodalna AI mogła przewidywać potrzeby klienta, analizując jego mimikę i gestykulację? Tego typu innowacje mogą otworzyć przed biznesem nowe horyzonty, pozwalając na spełnianie oczekiwań klientów.

Jeśli podobają Ci się treści, które tworzymy, sprawdź również: Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest.

Autor: Marta Matylda Kania
Założycielka Superpowered by AI. Opracowuje dla biznesu procesy tworzenia treści przez generatywną sztuczną inteligencję. Interesuje się przyszłością AI w biznesie, pisze zaawansowane prompty i prowadzi szkolenia z ChataGPT dla firm.
Zobacz wszystkie posty