Współcześnie dostępne dla biznesu modele sztucznej inteligencji różnią się od inteligencji ludzkiej przede wszystkim tym, że w większości są unimodalne. Oznacza to, że potrafią korzystać tylko z jednego typu informacji. Multimodalna AI jest kolejnym krokiem na drodze do ogólnej AI, dzięki wykorzystywaniu danych różnego typu podobnie, jak człowiek używa wielu zmysłów do poznawania świata, w którym żyje. Jakie jednak zastosowania w biznesie ma multimodalna sztuczna inteligencja?

Multimodalna AI i jej zastosowania w biznesie – omówione zagadnienia:

  1. Wstęp
  2. Multimodalna AI dziś
  3. Gato i przyszłość multimodalnej AI w biznesie
  4. Podsumowanie

Wstęp

Większość dzisiejszych modeli sztucznej inteligencji trenowanych jest na jednym rodzaju danych. Mogą to być między innymi:

  • teksty – tak jak w przypadku Natural Language Processing (NLP)
  • obrazy tak jak ma to miejsce w technologiach rozpoznawania obrazu (Computer Vision), które pozwalają między innymi na identyfikację twarzy, czy
  • dane liczbowe – w przypadku analizy danych biznesowych

Tego typu modele unimodalne są w stanie szybko przetwarzać duże ilości danych i dostrzegać wzorce, których nie jest w stanie wychwycić ludzka inteligencja. Jednak mają one poważne ograniczenia. Są niewrażliwe na kontekst, oraz niezbyt sprawnie radzą sobie z nietypowymi i niejednoznacznymi sytuacjami.

Z tymi najtrudniejszymi dla sztucznej inteligencji zadaniami znacznie lepiej radzą sobie modele multimodalne. Mogą one tak jak ludzie, poznawać świat różnymi “zmysłami” i uczyć się z różnych źródeł. A dzięki temu lepiej kojarzyć odległe fakty i łączyć różne formy wiedzy.

W kontekście biznesowym jedna przyszłościowa multimodalna AI mogłaby zajmować się na przykład optymalizacją procesów biznesowych w firmie, analizą wpisów mediach społecznościowych i organizacją logistyki, a nawet fizycznym ustawianiem towarów w magazynie. Dzięki dostępowi do różnych typów danych byłaby w stanie zarządzać firmą w sposób scentralizowany, dysponując zarazem rozległą i szczegółową wiedzą o każdym mierzalnym aspekcie działalności biznesowej.

Multimodalna AI dziś

Jednym z modeli sztucznej inteligencji wykorzystujących multimodalność jest DALL-E 2, autor zaskakujących obrazów tworzonych na podstawie tekstowych wskazówek. Jednak możliwości dzisiejszej “wielozmysłowej” sztucznej inteligencji nie ograniczają się do tworzenia materiałów wizualnych. Rozwijane dziś modele wykorzystują pary modalności takie jak:

  • tekst i obraz
  • tekst i audio
  • tekst i wideo
  • obraz i model trójwymiarowy

Jednym z najciekawszych narzędzi, które zyskało już ogromną popularność jest Synthesia. Jest to działająca w przeglądarce platforma służąca do tworzenia wideo na bazie wprowadzonego tekstu, który odczytywany jest przez awatara-lektora i uzupełniony o wizualną prezentację. Synthesia wykorzystywana jest szeroko do tworzenia:

  • prezentacji produktów
  • instrukcji obsługi oprogramowania i sprzętu technicznego
  • tworzenia materiałów szkoleniowych.

Zamiast zatrudniania aktorów, lektorów i projektantów prezentacji można więc skorzystać z usług jakie gwarantuje multimodalna AI dla biznesu i w parę minut stworzyć materiał filmowy na podstawie dobrze napisanego tekstu. Dzięki zastosowaniu modułu tłumaczenia, możliwe jest także przygotowanie materiałów w wielu wersjach językowych.

Gato i przyszłość multimodalnej AI w biznesie

Najdoskonalszym ze współczesnych modeli multimodalnych jest Gato. Jest to głęboka sieć neuronowa stworzona przez Deep Mind. Dzięki temu, że pozyskuje ona równocześnie informacje z różnych źródeł, uczy się szybciej i skuteczniej niż unimodalne modele. Może również wykonywać zadania takie jak:

  • opisywanie obrazów – czyli przekształcanie danych wizualnych w tekstowe
  • manipulacja obiektami w fizycznej przestrzeni – wykorzystując robotyczne ramię wyposażone w sensory dotykowe i obraz z kamery potrafi rozwiązywać zadania związane z przestawianiem przedmiotów
  • prowadzenie tekstowego czatu – czyli realizacja zadań czatbota
  • uczenie się, rozumienie reguł gry oraz podejmowanie decyzji, jakie działanie należy podjąć

Wiele z tych funkcjonalności jest już dziś wykorzystywanych w złożonych systemach takich jak autonomiczne samochody i inteligentne miasta. Nie były one jednak stosowane na taką skalę w mniejszych biznesowych kontekstach.

Możemy jednak wyobrazić sobie biznesowe zastosowania wymienionych wyżej funkcjonalności. Opisywanie obrazów może służyć chociażby do inwentaryzacji towarów na podstawie danych z kamer CCTV lub identyfikacji brakujących produktów na sklepowych półkach. Manipulację obiektami można wykorzystać do uzupełniania zidentyfikowanych w poprzednim kroku brakujących towarów.

Podsumowanie

Multimodalna AI obiecuje bardzo wiele. Z naszej perspektywy jest to przede wszystkim zapowiedź rewolucyjnych zmian w sposobie stosowania AI w biznesie. Zamiast rozproszonych, punktowych rozwiązań pozwalających na automatyzację prostych, powtarzalnych zadań, rysuje się horyzont powstania potężnych narzędzi pozwalających na zbieranie danych pochodzących z różnych źródeł i wyciąganie wniosków z ilości danych wykraczających poza ludzkie możliwości percepcyjne.

Być może w niedalekiej przyszłości pozwoli to na tworzenie autonomicznych firm? A w bliższej perspektywie – na realizację w czasie rzeczywistym materiałów audiowizualnych odpowiadających bezpośrednio na pytanie o produkt zadane przez klienta.

Jeśli podobają Ci się treści, które tworzymy, sprawdź również: Facebook, Twitter, LinkedIn, Instagram, YouTube, Pinterest.

Multimodalna AI i jej zastosowania w biznesie | AI in business #21 robert whitney avatar 1background

Autor: Robert Wilczycki

Ekspert i wykładowca JavaScript, który zajmuje się szkoleniem działów IT. Jego głównym celem jest zwiększanie produktywności zespołów poprzez uczenie innych efektywnej współpracy.

AI w biznesie:

  1. Sztuczna inteligencja w biznesie. Wprowadzenie
  2. AI w biznesie: zagrożenia i szanse cz.1
  3. AI w biznesie: zagrożenia i szanse cz.2
  4. Zastosowania AI w biznesie. Przegląd
  5. Co to jest NLP, czyli przetwarzanie języka naturalnego w biznesie
  6. Automatyczne przetwarzanie dokumentów
  7. AI i media społecznościowe – co o nas mówią?
  8. Automatyczny tłumacz. Inteligentna lokalizacja produktów cyfrowych
  9. Czatboty tekstowe wspomagane przez AI
  10. O działaniu i biznesowych zastosowaniach voicebotów
  11. Wirtualny asystent, czyli jak rozmawiać z AI?
  12. Dziś i jutro biznesowego NLP
  13. Jak sztuczna inteligencja może pomóc w BPM?
  14. Czy sztuczna inteligencja zastąpi analityków biznesowych?
  15. Rola AI w podejmowaniu decyzji biznesowych
  16. Czym jest Business Intelligence?
  17. Planowanie wpisów w mediach społecznościowych. W czym może pomóc AI?
  18. Automatyczne wpisy w mediach społecznościowych? Co może dzisiejsza AI
  19. Sztuczna inteligencja w zarządzaniu contentem
  20. Dziś i jutro kreatywnej AI w biznesie
  21. Multimodalna AI i jej zastosowania w biznesie
  22. Nowe interakcje. Jak AI zmienia sposób obsługi urządzeń?
  23. Jak to wszystko połączyć? RPA i API w cyfrowej firmie
  24. Nowe produkty i usługi oparte o działanie sztucznej inteligencji
  25. Przyszłość pracy i zawody przyszłości
  26. Zielona AI i AI dla Ziemi. Odpowiedzialność ekologiczna sztucznej inteligencji i tworzenie zielonych rozwiązań
  27. EdTech. Sztuczna inteligencja w edukacji