La realtà aumentata (AR) è qualcosa che aggiunge contenuti digitali a uno strumento di ripresa dal vivo, facendo in modo che i contenuti digitali sembrino parte del mondo fisico che ti circonda. Pensa a Pokémon Go, ad esempio. Quello è un ottimo esempio di realtà aumentata.
In pratica, la realtà aumentata potrebbe fare qualsiasi cosa, dal far apparire il tuo viso come quello di un demone infernale al sovrapporre oggetti digitali come mostri ed altre cose alle dimensioni fisiche intorno a te. La realtà aumentata può farti vedere come appariranno i mobili nel tuo salotto o giocare a un gioco da tavolo digitale su una scatola di cereali. Tutti questi esempi richiedono la comprensione del mondo fisico dal feed della tua telecamera, cioè il sistema AR deve capire che cosa è dove nel mondo attorno a te (quello inquadrato dalla tua fotocamera, quindi) prima di aggiungere contenuti digitali pertinenti nel posto giusto. Ciò è ottenuto utilizzando la visione artificiale, che è ciò che differenzia l’AR dalla VR (Virtual Reality, la realtà virtuale), in cui gli utenti vengono trasportati in mondi completamente digitali. Continuiamo a leggere per scoprire qualcosa di più.
Realtà aumentata: come funziona?
Quindi ora che conosci il significato di AR, come funziona? In primo luogo, la visione computerizzata comprende ciò che è nel mondo intorno all’utente dal contenuto del feed della telecamera. Ciò gli consente di mostrare contenuti digitali pertinenti a ciò che l’utente sta guardando. Questo contenuto digitale viene quindi visualizzato in modo realistico, in modo che sembri parte del mondo reale – questo è chiamato rendering. Prima di scendere nei dettagli, usiamo un esempio concreto per rendere il tutto più chiaro.
Considera di giocare a un gioco di realtà aumentata usando una vera scatola di cereali come supporto fisico come nella figura qui sotto. In primo luogo, la visione artificiale elabora l’immagine grezza dalla fotocamera e riconosce la scatola di cereali. Questo fa scattare il gioco. Il modulo di rendering aumenta il fotogramma originale con il gioco AR assicurandosi che si sovrapponga perfettamente alla scatola di cereali. Per questo utilizza la posizione 3D e l’orientamento della scatola determinata dalla visione artificiale. Poiché la realtà aumentata è live, tutto quanto sopra deve accadere ogni volta che un nuovo frame proviene dalla fotocamera. La maggior parte dei telefoni moderni funziona a 30 frame al secondo, il che ci dà solo 30 millisecondi per fare tutto questo. In molti casi l’oggetto in AR che vedi attraverso la fotocamera viene ritardato di circa 50 ms per consentire a tutto ciò di accadere, ma il nostro cervello non se ne accorge nemmeno nella maggior parte dei casi, quindi…!
Mentre il nostro cervello è estremamente bravo a comprendere le immagini, questo rimane un problema molto difficile per i computer. C’è un’intera branca di Informatica dedicata alla visione virtuale chiamata proprio visione artificiale. La realtà aumentata richiede la comprensione del mondo intorno all’utente in termini di semantica e geometria 3D, che funzionano ovviamente in maniera diversa dal nostro cervello. La semantica risponde alla domanda “cosa?”, Ad esempio riconoscendo la scatola di cereali o che nell’immagine c’è una faccia. La geometria risponde alla domanda “dove?” E deduce dove la scatola di cereali o la faccia si trovano nel mondo 3D e in che modo si trovano di fronte.
Senza geometria, il contenuto AR non può essere visualizzato nel punto e nell’angolo giusti, il che è essenziale per farlo sentire parte del mondo fisico. Spesso, abbiamo bisogno di sviluppare nuove tecniche per ogni dominio. Ad esempio, i metodi di visione artificiale che funzionano per una scatola di cereali sono molto diversi da quelli usati per una faccia.
Semantica e geometria del mondo
Tradizionalmente, le tecniche di visione artificiale utilizzate per comprendere questi due aspetti sono piuttosto diverse. Dal punto di vista della semantica abbiamo visto molti progressi grazie al Deep Learning, che di solito capisce cosa c’è in un’immagine senza preoccuparsi della sua geometria 3D. Da solo, abilita forme base di AR. Ad esempio, ogni volta che la visione artificiale riconosce un oggetto, è possibile visualizzare le informazioni rilevanti che galleggiano sullo schermo, ma non sembra ancorato all’oggetto fisico. Per fare ciò richiederebbe il lato geometrico di Computer Vision, che si basa sui concetti della geometria proiettiva2. Nell’esempio della scatola di cereali abbiamo bisogno di conoscere la sua posizione e il suo orientamento rispetto alla fotocamera per ancorare correttamente il gioco AR quando lo mostriamo.
In che modo l’AR visualizza i contenuti digitali?
Per ogni esperienza di realtà aumentata abbiamo bisogno di definire una certa logica in anticipo. Specifica quali contenuti digitali devono essere attivati quando viene riconosciuto qualcosa. Nel sistema AR live, una volta riconosciuto il modulo di rendering, visualizza il contenuto pertinente sul feed della telecamera, l’ultimo passaggio nella pipeline AR. Rendere tutto ciò veloce e realistico è molto impegnativo, in particolare per i display indossabili come gli occhiali (un’altra area di ricerca molto attiva). Un altro modo per spiegare come funziona l’AR è considerare la visione artificiale come rendering inverso. Intuitivamente, la visione computerizzata riconosce e comprende il mondo 3D da un’immagine 2D (c’è una faccia e dove si trova nel mondo 3D), così che possiamo aggiungere contenuti digitali (una maschera 3D ancorata al viso, come i filtri di Instagram) che viene poi resa sullo schermo del telefono 2D.
L’AR è un campo molto attivo, e in futuro ci aspettiamo di vedere molti nuovi sviluppi interessanti. Con l’aumentare della visione dei computer nella comprensione del mondo che ci circonda, le esperienze AR diventeranno più coinvolgenti ed emozionanti. Inoltre, la realtà aumentata oggi vive principalmente sugli smartphone, ma può esserci su qualsiasi dispositivo con una fotocamera. Quando sarà disponibile una potenza computazionale sufficiente per gli occhiali AR, ci aspettiamo che questo mezzo renda la realtà aumentata praticamente mainstream, migliorando il modo in cui viviamo, lavoriamo, acquistiamo e giochiamo.