Deep Learning od Google rozpozna obiekty na filmach, a to dopiero początek

Deep Learning w wykonaniu giganta z Mountain View pozwoli na określanie konkretnych obiektów na filmach. To może być przełom.

Rozpoznawanie obiektów na zdjęciach towarzyszy usługom giganta od dawna, co jest sprawą naturalną, zwłaszcza jeśli weźmiemy pod uwagę potęgę wyszukiwarki. Katalogowanie grafik, dostępne w Google pozwoliło na rozwój mechanizmu określającego rodzaj obiektu dostępnego na fotce, a z czasem umożliwiło rozpoznanie osoby. Zgadza się – dzięki analizie twarzy, algorytm przyporządkowywał ją do danej jednostki (osoby). To fascynujące, ale przyszła pora na więcej.

Deep Learning, czyli znajdź na filmie kota

Podczas konferencji Google Cloud Next zaprezentowano kilka nowości związanych z nowymi technologiami, ale to właśnie kwestia rozpoznawania obiektów na filmach przykuła moją uwagę najmocniej.

Prowadzący twierdzą (co poparto odpowiednią prezentacją), iż rozróżnianie obiektów w materiałach filmowych to przyszłość katalogowania wideo. Dla przykładu – wyszukiwanie w serwisie streamingowym YouTube ograniczy się do wyboru jednego z elementów dostępnych na filmie, a nie jak to miało miejsce dotychczas – za pomocą tagów. To zdaje się mieć sens, ale na czym polega działanie?

Jak to działa?

Cloud Video Intelligence API – tak dokładnie nazywa się technologia pozwalająca na opisywane rozpoznawanie obiektów na filmach. API przeskanuje materiał w tępie iście ekspresowym, klatka po klatce i w razie wykrycia interesującego nas obiektu zostaniemy o tym poinformowani. Proste? Owszem.

Algorytm we wczesnej fazie rozwoju, w jakiej aktualnie się znajduje, robi wrażenie. Bez problemu poradził sobie z rozpoznaniem rasy psa będącego bohaterem filmiku. Mało tego – bez problemu odgadł również kontekst, czyli fakt udziału czworonoga w reklamie. To pokazuje prawdziwą potęgę rozwiązania i daje nadzieję na przyszłość, która pokaże jak banalne może okazać się przeszukiwanie zasobów sieciowych pod kątem konkretnego wideo. Ja to kupuję, ale chciałbym zwrócić uwagę na coś jeszcze…

Co z rozpoznawaniem osób?

„Wykrywanie” obiektów na zdjęciach to świetna sprawa, szczególnie że po pewnym czasie rozwiązanie ewoluowało i pozwoliło na rozpoznawanie twarzy konkretnych osób. Katalogowanie i segregowanie fotek stało się przyjemniejsze i efektywniejsze.

Wobec powyższego pojawia się pytanie, ile będziemy musieli czekać na implementacje podobnych algorytmów, które zadziałają w przypadku wideo? Myślę, że stosunkowo niedługo. Nie zdziwiłbym się, gdyby Google już teraz dysponował w pełni działającą technologią i pracował jedynie nad wewnętrznymi regulacjami dotyczącymi wykorzystania takowego ficzera.

To część większej całości

Należy dodać, że opisywane API to jedynie wycinek potężnego innowacyjnego projektu związanego z Deep Learning. Poznaliśmy jedynie namiastkę możliwości rozwiązania, które może zmienić przyszłość, przyszłość katalogowania oraz wyszukiwania informacji graficznych, w tym filmowych.

Konferencje pokroju Google Cloud Next pokazują, jak zmieniła się technologia w ostatnich latach i w jakim kierunku zmierzają giganci branży. Żyjemy w pięknych czasach, w których firmy i instytucje chętnie dzielą się ze społecznością efektami swoich prac, co jeszcze kilkanaście lat temu było nie do pomyślenia. Technologię były możliwie długo skrywane przed opinią publiczna. W jakim celu? Myślę, że w grę wchodziła obawa przed ich wykorzystaniem w niewłaściwy sposób. Myślę, że to jest już jednak za nami i musimy przywitać nowe.

Źródło: Techspot, Google

Foto: Flikr