Współcześnie dostępne dla biznesu modele sztucznej inteligencji różnią się od inteligencji ludzkiej przede wszystkim tym, że w większości są unimodalne. Oznacza to, że potrafią korzystać tylko z jednego typu informacji. Multimodalna AI jest kolejnym krokiem na drodze do ogólnej AI, dzięki wykorzystywaniu danych różnego typu podobnie, jak człowiek używa wielu zmysłów do poznawania świata, w którym żyje. Jakie jednak zastosowania w biznesie ma multimodalna sztuczna inteligencja?
Multimodalna AI i jej zastosowania w biznesie – omówione zagadnienia:
Wstęp
Większość dzisiejszych modeli sztucznej inteligencji trenowanych jest na jednym rodzaju danych. Mogą to być między innymi:
- teksty – tak jak w przypadku Natural Language Processing (NLP)
- obrazy tak jak ma to miejsce w technologiach rozpoznawania obrazu (Computer Vision), które pozwalają między innymi na identyfikację twarzy, czy
- dane liczbowe – w przypadku analizy danych biznesowych
Tego typu modele unimodalne są w stanie szybko przetwarzać duże ilości danych i dostrzegać wzorce, których nie jest w stanie wychwycić ludzka inteligencja. Jednak mają one poważne ograniczenia. Są niewrażliwe na kontekst, oraz niezbyt sprawnie radzą sobie z nietypowymi i niejednoznacznymi sytuacjami.
Z tymi najtrudniejszymi dla sztucznej inteligencji zadaniami znacznie lepiej radzą sobie modele multimodalne. Mogą one tak jak ludzie, poznawać świat różnymi “zmysłami” i uczyć się z różnych źródeł. A dzięki temu lepiej kojarzyć odległe fakty i łączyć różne formy wiedzy.
W kontekście biznesowym jedna przyszłościowa multimodalna AI mogłaby zajmować się na przykład optymalizacją procesów biznesowych w firmie, analizą wpisów mediach społecznościowych i organizacją logistyki, a nawet fizycznym ustawianiem towarów w magazynie. Dzięki dostępowi do różnych typów danych byłaby w stanie zarządzać firmą w sposób scentralizowany, dysponując zarazem rozległą i szczegółową wiedzą o każdym mierzalnym aspekcie działalności biznesowej.
Multimodalna AI dziś
Jednym z modeli sztucznej inteligencji wykorzystujących multimodalność jest DALL-E 2, autor zaskakujących obrazów tworzonych na podstawie tekstowych wskazówek. Jednak możliwości dzisiejszej “wielozmysłowej” sztucznej inteligencji nie ograniczają się do tworzenia materiałów wizualnych. Rozwijane dziś modele wykorzystują pary modalności takie jak:
- tekst i obraz
- tekst i audio
- tekst i wideo
- obraz i model trójwymiarowy
Jednym z najciekawszych narzędzi, które zyskało już ogromną popularność jest Synthesia. Jest to działająca w przeglądarce platforma służąca do tworzenia wideo na bazie wprowadzonego tekstu, który odczytywany jest przez awatara-lektora i uzupełniony o wizualną prezentację. Synthesia wykorzystywana jest szeroko do tworzenia:
- prezentacji produktów
- instrukcji obsługi oprogramowania i sprzętu technicznego
- tworzenia materiałów szkoleniowych.
Zamiast zatrudniania aktorów, lektorów i projektantów prezentacji można więc skorzystać z usług jakie gwarantuje multimodalna AI dla biznesu i w parę minut stworzyć materiał filmowy na podstawie dobrze napisanego tekstu. Dzięki zastosowaniu modułu tłumaczenia, możliwe jest także przygotowanie materiałów w wielu wersjach językowych.
Gato i przyszłość multimodalnej AI w biznesie
Najdoskonalszym ze współczesnych modeli multimodalnych jest Gato. Jest to głęboka sieć neuronowa stworzona przez Deep Mind. Dzięki temu, że pozyskuje ona równocześnie informacje z różnych źródeł, uczy się szybciej i skuteczniej niż unimodalne modele. Może również wykonywać zadania takie jak:
- opisywanie obrazów – czyli przekształcanie danych wizualnych w tekstowe
- manipulacja obiektami w fizycznej przestrzeni – wykorzystując robotyczne ramię wyposażone w sensory dotykowe i obraz z kamery potrafi rozwiązywać zadania związane z przestawianiem przedmiotów
- prowadzenie tekstowego czatu – czyli realizacja zadań czatbota
- uczenie się, rozumienie reguł gry oraz podejmowanie decyzji, jakie działanie należy podjąć
Wiele z tych funkcjonalności jest już dziś wykorzystywanych w złożonych systemach takich jak autonomiczne samochody i inteligentne miasta. Nie były one jednak stosowane na taką skalę w mniejszych biznesowych kontekstach.
Możemy jednak wyobrazić sobie biznesowe zastosowania wymienionych wyżej funkcjonalności. Opisywanie obrazów może służyć chociażby do inwentaryzacji towarów na podstawie danych z kamer CCTV lub identyfikacji brakujących produktów na sklepowych półkach. Manipulację obiektami można wykorzystać do uzupełniania zidentyfikowanych w poprzednim kroku brakujących towarów.
Podsumowanie
Multimodalna AI obiecuje bardzo wiele. Z naszej perspektywy jest to przede wszystkim zapowiedź rewolucyjnych zmian w sposobie stosowania AI w biznesie. Zamiast rozproszonych, punktowych rozwiązań pozwalających na automatyzację prostych, powtarzalnych zadań, rysuje się horyzont powstania potężnych narzędzi pozwalających na zbieranie danych pochodzących z różnych źródeł i wyciąganie wniosków z ilości danych wykraczających poza ludzkie możliwości percepcyjne.
Być może w niedalekiej przyszłości pozwoli to na tworzenie autonomicznych firm? A w bliższej perspektywie – na realizację w czasie rzeczywistym materiałów audiowizualnych odpowiadających bezpośrednio na pytanie o produkt zadane przez klienta.
Jeśli podobają Ci się treści, które tworzymy, sprawdź również: Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest.

Autor: Robert Wilczycki
Ekspert i wykładowca JavaScript, który zajmuje się szkoleniem działów IT. Jego głównym celem jest zwiększanie produktywności zespołów poprzez uczenie innych efektywnej współpracy.
AI w biznesie:
- Sztuczna inteligencja w biznesie. Wprowadzenie
- AI w biznesie: zagrożenia i szanse cz.1
- AI w biznesie: zagrożenia i szanse cz.2
- Zastosowania AI w biznesie. Przegląd
- Co to jest NLP, czyli przetwarzanie języka naturalnego w biznesie
- Automatyczne przetwarzanie dokumentów
- AI i media społecznościowe – co o nas mówią?
- Automatyczny tłumacz. Inteligentna lokalizacja produktów cyfrowych
- Czatboty tekstowe wspomagane przez AI
- O działaniu i biznesowych zastosowaniach voicebotów
- Wirtualny asystent, czyli jak rozmawiać z AI?
- Dziś i jutro biznesowego NLP
- Jak sztuczna inteligencja może pomóc w BPM?
- Czy sztuczna inteligencja zastąpi analityków biznesowych?
- Rola AI w podejmowaniu decyzji biznesowych
- Czym jest Business Intelligence?
- Planowanie wpisów w mediach społecznościowych. W czym może pomóc AI?
- Automatyczne wpisy w mediach społecznościowych? Co może dzisiejsza AI
- Sztuczna inteligencja w zarządzaniu contentem
- Dziś i jutro kreatywnej AI w biznesie
- Multimodalna AI i jej zastosowania w biznesie
- Nowe interakcje. Jak AI zmienia sposób obsługi urządzeń?
- Jak to wszystko połączyć? RPA i API w cyfrowej firmie
- Nowe produkty i usługi oparte o działanie sztucznej inteligencji
- Przyszłość pracy i zawody przyszłości
- Zielona AI i AI dla Ziemi. Odpowiedzialność ekologiczna sztucznej inteligencji i tworzenie zielonych rozwiązań
- EdTech. Sztuczna inteligencja w edukacji
- Narzędzia AI dla managera