Bard, inteligentny czatbot od Google, jest multimodalny od lipca 2023. Zaś od października także ChatGPT został wzbogacony o rozumienie wielu rodzajów informacji. Oba potrafią już nie tylko rozumieć tekst, ale także odczytywać i wizualizować dane, prowadzić rozmowę głosową i rozpoznawać obrazy. Multimodalna AI zyskuje zatem jeszcze większy potencjał do rewolucjonizowania świata biznesu. Przyjrzyjmy się jej bliżej, żeby zrozumieć, jak ogromne możliwości kryją się w wielozadaniowej sztucznej inteligencji.
Multimodalna AI to bardzo zaawansowana forma AI, która naśladuje ludzką zdolność do interpretowania świata, wykorzystując treści i dane pochodzące z różnych zmysłów. Podobnie jak ludzie rozumieją tekst, obrazy i dźwięki, tak multimodalna AI integruje te różne typy danych, aby zrozumieć kontekst i złożone znaczenie zawarte w informacjach. Przykładowo, w biznesie może to umożliwić lepsze zrozumienie opinii klientów poprzez analizę zarówno tego, co mówią, jak i tego, jak to wyrażają poprzez ton głosu lub wyraz twarzy.
Tradycyjne systemy AI są zazwyczaj unimodalne, co oznacza, że specjalizują się w jednym rodzaju danych, np. tekście lub obrazach. Są one w stanie szybko przetwarzać duże ilości danych i dostrzegać wzorce, których nie jest w stanie wychwycić ludzka inteligencja. Jednak mają one poważne ograniczenia. Są niewrażliwe na kontekst, oraz mniej sprawnie radzą sobie z nietypowymi i niejednoznacznymi sytuacjami.
Dlatego właśnie multimodalna AI idzie o krok dalej, integrując modalności. Pozwala to na głębsze rozumienie i znacznie ciekawsze interakcje pomiędzy człowiekiem i sztuczną inteligencją.
Rozwijane dziś modele sztucznej inteligencji wykorzystują następujące pary modalności:
Źródło: Ideogram (https://ideogram.ai)
Multimodalne modele sztucznej inteligencji potrafią także korzystać równocześnie ze wskazówek tekstowych i obrazu, którym się „inspirują”. Pozwalają uzyskiwać jeszcze ciekawsze, bardziej precyzyjnie zdefiniowane rezultaty i wariacje stworzonych obrazów. To bardzo przydatne, jeśli chcemy uzyskać tylko trochę inną grafikę czy banner, dodać albo usunąć jeden element, na przykład kubek z kawą:
Źródło: Ideogram (https://ideogram.ai)
Źródło: HuggingFace.co (https://huggingface.co/tasks/image-to-text)
Źródło: NeROIC (https://zfkuang.github.io/NeROIC/resources/material.png)
Istnieją również eksperymenty z multimodalną AI przekładające na przykład muzykę na obraz , jednak przyjrzyjmy się bliższym, biznesowym zastosowaniom multimodalnej AI. Jak zatem wygląda zagadnienie multimodalności w najpopularniejszych czatbotach wykorzystujących sztuczną inteligencję, ChatGPT i Google Bard?
Google Bard potrafi opisywać proste zdjęcia i wykorzystuje komunikację głosową od lipca 2023 roku, czyli od momentu, gdy pojawił się w Europie. Pomimo zmiennej jakości rezulatów rozpoznawania obrazu, dotychczas był to jeden z atutów odróżniających rozwiązanie Google od ChataGPT.
BingChat dzięki korzystaniu z DALL·E 3 potrafi generować obrazy na podstawie tekstowych lub głosowych wskazówek. I chociaż brakuje mu umiejętności opisywania słowami obrazów załączanych przez użytkownika, potrafi je modyfikować lub wykorzystać jako inspirację do tworzenia nowych obrazów.
Od października 2023 OpenAI zaczęło także wprowadzać nowe funkcje głosowe i obrazowe do ChataGPT Plus, czyli płatnej wersji narzędzia. Dzięki nim możliwe jest prowadzenie rozmowy głosowej lub pokazanie ChatowiGPT obrazu, dzięki któremu będzie wiedział, o co pytamy bez konieczności dokładnego opisywania słowami.
Przykładowo, można zrobić zdjęcie zabytku podczas podróży i prowadzić na żywo rozmowę na temat tego, co w nim jest interesującego. Albo zrobić zdjęcie wnętrza swojej lodówki, aby dowiedzieć się, co możesz przygotować na obiad z dostępnych składników i poprosić o przepis krok po kroku.
Opisywanie obrazów może służyć, chociażby do inwentaryzacji towarów na podstawie danych z kamer CCTV lub identyfikacji brakujących produktów na sklepowych półkach. Manipulację obiektami można wykorzystać do uzupełniania zidentyfikowanych w poprzednim kroku brakujących towarów. Jak jednak multimodalne czaty mogą być wykorzystywane w biznesie? Oto trzy przykłady:
Świetnym przykładem przyszłościowej multimodalnej AI jest optymalizacja procesów biznesowych firmy. Na przykład, system AI mógłby analizować dane z różnych źródeł, takich jak dane sprzedażowe, dane klientów i dane z mediów społecznościowych, aby zidentyfikować obszary, które wymagają poprawy i zasugerować możliwe rozwiązania.
Inny przykład to wykorzystanie multimodalnej AI do organizacji logistyki. Połączenie danych z GPS, stanu magazynu odczytywanego z kamery i danych o dostawach, aby zoptymalizować procesy logistyczne i zredukować koszty to naprawdę niedaleka przyszłość biznesu.
Wiele z tych funkcjonalności jest już dziś wykorzystywanych w złożonych systemach takich jak autonomiczne samochody i inteligentne miasta. Nie były one jednak stosowane na taką skalę w mniejszych biznesowych kontekstach.
Multimodalność, czyli zdolność do przetwarzania różnorodnych typów danych, takich jak tekst, obrazy i dźwięk, sprzyja głębszemu zrozumieniu kontekstu oraz lepszej interakcji pomiędzy ludźmi a systemami AI.
Otwartym pytaniem pozostaje, jakie nowe połączenia modalności mogą zaistnieć w najbliższej przyszłości? Czy na przykład możliwe będzie połączenie analizy tekstu z mową ciała, tak aby multimodalna AI mogła przewidywać potrzeby klienta, analizując jego mimikę i gestykulację? Tego typu innowacje mogą otworzyć przed biznesem nowe horyzonty, pozwalając na spełnianie oczekiwań klientów.
Jeśli podobają Ci się treści, które tworzymy, sprawdź również: Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest.
Autor: Marta Matylda Kania
Założycielka Superpowered by AI. Opracowuje dla biznesu procesy tworzenia treści przez generatywną sztuczną inteligencję. Interesuje się przyszłością AI w biznesie, pisze zaawansowane prompty i prowadzi szkolenia z ChataGPT dla firm.
Produktywność jest w ostatnim czasie szczególnie często poruszanym zagadnieniem. Powodem takiego stanu rzeczy jest fakt,…
Specjaliści od zarządzania zasobami ludzkimi są odpowiedzialni za szereg ważnych decyzji. Wybór odpowiedniego kandydata przyczyni…
Wraz z ukształtowaniem się nowych pokoleń, zmianom ulega również środowisko i kultura pracy. Generacja Y,…
Badania przeprowadzone przez firmę Owl Labs wskazują, że już 16% organizacji pracuje w trybie zdalnym,…
Wykorzystanie sztucznej inteligencji sprawia, że możemy komunikować się z naszymi urządzeniami używając języka naturalnego –…
“Zamknij okno!” wypowiedziane do asystenta AI będzie oznaczać co innego, gdy pracujemy w edytorze tekstu,…