Avi Bar-Zeev, co-inventeur d'HoloLens, partage : la route vers des lunettes AR toutes saisons
La route vers des lunettes XR tout temps
Pendant plus de 30 ans, j'ai travaillé sur XR, le métaverse et l'informatique spatiale, notamment en assistant ou en conseillant sur 10 projets différents de casque XR. J'ai eu la grande chance de contribuer à une gamme de projets dès le début, principalement en prouvant ou en niant les exigences et en définissant les expériences utilisateur clés avant que les équipes ne dépensent 1 milliard de dollars pour les construire. En cours de route, j'ai appris des leçons sur ce qui fonctionne et ce qui ne fonctionne pas. Parfois, la bonne réponse est "pas encore mature".
Je ne divulguerai aucune information que mon ancien employeur considère toujours comme exclusive. Je fournirai des liens vers des brevets publiés qui peuvent nous donner un aperçu. C'est le but réel des brevets, croyez-le ou non. Bien sûr, j'éviterais les brevets qui, je pense, inviteraient à la spéculation.
Il est important de veiller à ne pas considérer ce que je dis ou écris comme une preuve des projets de produits d'une entreprise, ou même une critique des efforts de quiconque. Ce n'était pas du tout mon intention.
Pour le contexte, la première véritable expérience XR que j'ai construite était une CAVE. À l'époque, j'ai emprunté un ordinateur et un projecteur géant de 250 $000, et j'ai investi 30 $000 supplémentaires dans les matières premières. Le casque de réalité virtuelle à 100 $000 de Disney, fabriqué dans les années 90, n'a jamais été commercialisé. Il faut des câbles suspendus au plafond pour supporter le poids, mais des centaines de milliers de personnes l'ont essayé.
D'ici janvier 2010, j'espère que nous serons prêts à commencer à développer des lunettes XR grand public prêtes à l'emploi. Il est temps de faire sensation dans ce domaine qui évolue lentement. De plus, Google Glass et Magic Leap sont apparus à peu près au même moment. Heureusement, l'une des tâches que nous avons reçues de l'équipe d'incubation de Microsoft était de trouver de nouvelles idées pour la prochaine génération de XBox.
"Soyez agressif, même en nous faisant dire" c'est fou "", a déclaré un dirigeant de Xbox à l'époque.
J'ai certainement des idées "radicales". Notre petite équipe a rapidement commencé à travailler sur un nouveau concept de produit "Screen Zero": remplacer tous les écrans par un seul écran. J'étais en charge de l'exploration technique et j'ai aidé à définir l'expérience de la première année de formation. Mes raisons de partir ne valent pas la place dans cet article. Mais après plus d'un millier de personnes, HoloLens a été lancé en 2016.
C'est un équipement révolutionnaire. Mais ce n'est toujours pas un consommateur portable tout temps. Aucun des Magic Leap 2, Snap Spectacles, Varjo ou Quest d'aujourd'hui.
Alors, que faut-il exactement pour obtenir des lunettes AR pouvant être portées toute la journée ?
1. Maximalisme et minimalisme
L'approche maximaliste, comme celle que HoloLens a finalement adoptée, fait référence à la consolidation de nombreux capteurs, algorithmes et puissance dans un système haut de gamme. Une fois que nous avons réglé l'ingénierie et l'expérience utilisateur, nous pouvons théoriquement la réduire. Mais cela prend plus de temps, et cela peut prendre jusqu'à une décennie pour que certains appareils électroniques optimisent seuls la puissance.
Le Cambria et les appareils similaires sont tout aussi maximalistes, à tel point qu'ils simulent la RA avec un écran VR opaque géant et plusieurs caméras, avec un contrôle précis pixel par pixel sur le mélange de réalité et de simulation. Le maximalisme est préférable pour les applications haut de gamme et la R&D de base. Certains avancent que même si les applications sont plus industrielles, ce sont les seuls outils qui fonctionnent pour le moment.
Cependant, même les appareils les plus chers sur le marché aujourd'hui ne peuvent pas être portés toute la journée et ne peuvent pas être utilisés pour des interactions sociales ordinaires ou même pour marcher en toute sécurité dans les rues. Les fonctionnalités maximalistes telles que les affichages holographiques ou à champ lumineux ne sont pas encore matures.
D'autre part, les appareils avec une approche minimaliste incluent Amazon Echo Frames, Snap Spectacles et Ray-Ban Stories, pour n'en nommer que quelques-uns. Ils n'emballent que la technologie qui s'adapte aux contraintes actuelles du facteur de forme des lunettes portables, abandonnant souvent complètement les écrans.
Pourtant, les lunettes sans écran peuvent-elles compter comme XR ?
Si cela améliore sa perspective situationnelle, je dirais oui. Un podcast ou un mix musical n'est pas XR car il ne vous détecte toujours pas, ni votre environnement actuel. Les applications de navigation GPS correspondent un peu, mais pas assez. L'ajout d'audio spatial et de caméras pour l'IA et le positionnement précis compte définitivement comme XR, même sans écran.
Les approches minimalistes peuvent vendre plus de produits à court terme, et elles se concentrent généralement sur un aspect spécifique et en font une solution de premier ordre. Si vous pouvez le faire correctement, comme le Walkman et l'iPhone, vous pouvez vendre pour des milliards de dollars. Mais ne pensez pas que le minimalisme est facile, car à bien des égards, il est difficile de bien faire.
2. Meilleure méthode
J'avais espéré que le Screen Zero de la XBox était un hybride entre des lunettes minimalistes et une console maximaliste. Les lunettes AR doivent être de taille similaire aux lunettes Oakley ou plus petites. Le prochain hôte fera la majeure partie du gros du travail pour un maximum de quatre paires de lunettes dans la même pièce.
3. Ergonomie, consommation d'énergie et chaleur
Pourquoi se séparer ? Cela se résume à la consommation d'énergie, ou plus précisément : la chaleur.
Tout le travail d'un ordinateur finit sous forme de chaleur, et d'autres peuvent inclure des photons et/ou des entraînements mécaniques, comme le son. Combien de chaleur ? Une paire de lunettes AR légères peut générer environ un watt d'énergie.
Un smartphone typique peut générer environ 10 watts puis chauffer. Un hôte ou un PC peut consommer 10-100 fois plus d'énergie qu'un smartphone, et donc 100-1000 fois plus d'énergie que des lunettes. Pensez à de minuscules lampes de poche à LED et à des sèche-linge géants. C'est une énorme différence de consommation d'énergie.
Pour équilibrer la consommation d'énergie, nous avons besoin de solutions similaires à celles sur lesquelles je travaille depuis 2010, telles que la fusion de données, le rendu fractionné, les flux de rendu optimisés. Pour les bandes passantes inférieures, le rendu de déformation temporelle basé sur le suivi oculaire fonctionne bien et couvre les retards de communication.
Le processeur, la caméra, l'écran et la RAM consomment beaucoup d'énergie et génèrent beaucoup de chaleur. Ainsi, le secret est de les utiliser avec parcimonie dans la plupart des cas. Pensez au matériel personnalisé à faible consommation d'énergie : nouveaux capteurs contextuels, écrans à très faible consommation d'énergie et algorithmes qui "se réveillent" intelligemment.
Cela prendra du temps à résoudre. Par exemple, si votre souris optique et votre contrôleur hôte ne sont pas en veille, leurs batteries se déchargent, ils commencent donc avec une solution connectée. Aujourd'hui, une souris optique peut durer plusieurs mois avec une petite batterie.
4. À l'extérieur du salon
Pour prendre en charge une grande variété de cas d'utilisation, les systèmes AR optiquement transparents doivent idéalement bloquer la lumière des environnements lumineux (même l'éclairage des fenêtres ou des salons), mieux personnaliser et mélanger l'audio spatial avec la réalité, ajuster la mise au point optique, capturer et reproduire les hologrammes virtuels des autres. et plus.
Même si l'appareil est divisé entre l'unité principale et le casque, il y a encore trop de "trucs" dans notre tête. Un énorme défi ergonomique consiste à se débarrasser des sangles géantes que la plupart des appareils XR utilisent encore et qui font que les casques ressemblent à des insectes qui serrent le visage.
Tout type de sangles nécessitant une tension limitera la diversité de la base d'utilisateurs (compte tenu des variations de la taille de la tête et de la sensibilité à l'ébouriffement des cheveux), et réduira la probabilité de porter des lunettes. Cela signifie que l'équipement tout temps doit être super léger et s'adapter généralement aussi bien que des lunettes ordinaires.
Atteindre la taille des lunettes Oakley ou plus petites signifie souvent déplacer une plus grande partie du système dans un clip ou une télécommande. Magic Leap propose un tel clip. J'ai remarqué que les appareils XR utilisent une configuration de tour de cou, ce qui signifie accrocher les composants informatiques autour du cou du consommateur. Avec cette conception divisée, plus le travail est séparé, plus l'ensemble œil/tête peut être léger.
En 2010, je m'intéressais personnellement plus au biceps car c'était un point d'ancrage et une ligne courte si besoin. Cela éloigne les composants les plus lourds et les plus chauds de la tête et du cou et offre une grande surface pour dissiper la chaleur. Les biocapteurs situés sur le bras peuvent également détecter les gestes, de la même manière que le Meta utilise l'appareil Control plus Labs pour lire les gestes du poignet. De cette façon, les concepteurs de produits peuvent toujours dire "pas de câbles".
5. Concentrez-vous
Parce qu'un grand nombre d'adultes ont besoin de corriger leur vision de près et de loin, un facteur de forme portable toute la journée doit souvent magnifier et focaliser le monde réel pour nous. Au minimum, cela signifie que les lentilles doivent prendre en charge des paramètres optiques de vision personnalisés. Une société de guides d'ondes que Snap a acquise plus tôt a annoncé son intention d'intégrer l'optique associée dans des lentilles de vision fonctionnelles, mais cela a été difficile.
Mais un paramètre de vision suffit-il ? De nombreux adultes n'ont besoin de lunettes que pour lire ou conduire (hypermétropie), ce qui signifie qu'ils ont besoin de lunettes pour pouvoir passer à différents états. Alors, avons-nous besoin de deux ou trois paires de lunettes chères ? Ou des verres bifocaux, trifocaux, qui orientent la lumière en fonction de l'endroit où vous regardez ? (Pratique, mais pas idéal)
Une solution que je préconise est le réglage optique dynamique, permettant à la même paire de lunettes de prendre en charge la lecture ou la conduite, et même d'agrandir les petits caractères et les signes distants. Cela permet également à plus d'amis de l'essayer facilement. Imaginez si votre XBox ne prend en charge que les jeux solo et que vous avez deux ou trois amis dans la pièce ? Une sorte de déception.
Les meilleures méthodes de mise au point dynamique actuelles incluent Alvarez (glissière mécanique) et les lentilles réglables remplies de liquide. Les solutions mécaniques ont tendance à réduire la fiabilité. Il y a une bonne quantité de R&D pour empiler des écrans LCD spéciaux et changer la mise au point électroniquement. Mega a acquis une entreprise pour assumer la tâche.
Se pose alors le problème de la focalisation de l'image virtuelle en fonction de la ligne de visée actuelle. Avegant et Magic Leap nous ont montré comment basculer rapidement entre deux focales, en simulant un simple affichage de champ lumineux, ce qui est important pour naviguer dans des "objets virtuels" à la bonne distance focale dans l'envergure. J'ai déjà étudié plusieurs façons de balayer en continu la distance focale, mais les moniteurs commerciaux ne sont pas assez rapides dans la pratique.
Le suivi de vos yeux peut faciliter le traitement, réduire la charge de calcul et fournir une entrée utilisateur plus naturelle. Je connais très bien le problème du suivi oculaire et j'alerte les décideurs des risques dès le début.
Enfin, sur le plan commercial, Luxottica gagne beaucoup d'argent en vendant des lunettes à bas prix et à prix élevé. Il domine le marché aujourd'hui, et la plupart des marques de lunettes que vous connaissez. Les fabricants de lunettes XR doivent travailler avec eux ou contre eux, ce qui n'est pas un choix facile. Meta a choisi de travailler avec eux pour développer les lunettes Ray-Ban. Les concurrents de la société comprennent Warby Parke et d'autres petits acteurs. Vous ne pouvez pas vendre de bons nouveaux produits sans de bons canaux de distribution et de bons partenaires.
6. Contraste
Magic Leap 2 offre un moyen de brouiller sélectivement le monde naturel. Je travaille sur ce problème depuis 2010, mais il n'y a toujours pas de solution parfaite. Une série d'ingénieurs optiques ne l'ont pas jugé nécessaire. Les raisons sont les suivantes:
On comprend généralement pourquoi les affichages "additifs" transparents ne peuvent pas rendre le "noir". RVB{{0}},0,0 pour le noir, qui n'ajoute rien et n'est pas visible dans la lumière existante. Cependant, nous pouvons facilement vous inciter à percevoir les noirs et les ombres en approchant des zones plus lumineuses.
Le problème vraiment difficile se pose lorsque vous sortez vos lunettes XR et que vous regardez un mur éclairé par la lumière du soleil, probablement près d'une zone sombre ou ombragée. Certaines zones peuvent être 1000 à 10000 fois plus lumineuses que d'autres. Le contraste est si prononcé à l'intérieur que les visuels AR semblent carrément effrayants. Les ingénieurs optiques affirment souvent que pour surmonter cela, vous devez émettre plus de lumière. Leurs optiques ne sont généralement efficaces qu'à 1 % -10 %, ce qui signifie que la majeure partie de la lumière n'entre même pas dans vos yeux et ajoute simplement plus de chaleur. Rappelez-vous que vous ne pouvez pas simplement concevoir un système autour de l'optique car la chaleur est l'un des principaux facteurs limitants.
La réalité est que toute paire de lunettes transparentes AR ou vidéo doit prendre en compte la scène réelle lors de l'amélioration visuelle. Dans le cas de la transparence, les verres doivent souvent être soustraits à l'éclairage réel pour obtenir la couleur finale souhaitée. Dans le cas de la perspective vidéo, l'affichage peut remplacer le pixel entier, mais toute transparence dans la scène 3D virtuelle doit encore être mélangée avec la couleur d'arrière-plan lue par la caméra. Donc, ce que vous regardez, c'est une caméra à haute énergie et des circuits transparents ou opaques. C'est une énorme contrainte de conception car cela ajoute de l'énergie et du poids tout en bloquant les yeux.
En surface, l'ombrage sélectif avec des verres transparents est moins coûteux que l'ajout d'alimentation à l'écran ou l'ajout d'une caméra. En 2010, j'ai placé un simple LCD monochrome devant le guide d'onde. Cela fonctionne comme prévu, rendant des objets solides 3D avec des contours noirs doux. Mais il a des inconvénients, notamment la nécessité d'un calibrage dynamique, le LCD déforme la lumière réelle (principalement la réfraction des fils de commande). Il a une plage dynamique médiocre en soi. À l'extérieur, vous avez parfois besoin d'une opacité proche de 100 %. À l'intérieur, en particulier dans les situations sociales et la téléprésence, vous souhaitez être plus transparent pour voir les gens directement dans les yeux.
La principale objection à cette approche est que les écrans LCD ou autres modulateurs spatiaux de lumière sont souvent flous, à un pouce de l'œil. Mais la distorsion est telle qu'avec les bons écrans AR transparents plus et moins et certains capteurs rapides et à faible puissance, vos lunettes de soleil peuvent bloquer la lumière du soleil, l'éblouissement ou les phares sans obscurcir votre vision ailleurs. Vous pouvez subtilement assombrir le monde et rendre les livres recommandés étincelants. Avec une soustraction (filtrage) plus avancée, les lunettes peuvent même recolorer le monde, améliorer la vision nocturne et même fournir une rétroaction biométrique lorsque vous vous sentez agité ou distrait.
J'ai fait divers trucs de démonstration et j'ai passé beaucoup de temps à chercher une meilleure façon. Mais ils ont tous certains inconvénients. Cependant, la mise en œuvre de Magic Leap 2 me donne l'espoir que les problèmes de base seront résolus.
7. Réseau
Les radios nécessitent également de l'énergie, il y a donc toujours un compromis dans un système divisé. L'avenir le plus prometteur réside dans l'utilisation de fréquences radio haut de gamme pour obtenir une puissance inférieure et une bande passante plus élevée qu'aujourd'hui. Mais le principal défi est que cette fréquence ne peut pas traverser la peau ou les murs (pour le meilleur ou pour le pire). Ainsi, la solution doit être très intelligente, car les ondes radio rebondissent et rayonnent autour des pièces et des personnes, il peut donc être nécessaire d'utiliser plus d'émetteurs qu'il n'y en a aujourd'hui. Évidemment, cela ajoute du coût et de la complexité.
Pour les appareils portables de tous les jours, il faut également que le réseau soit disponible avant de vendre des produits qui en dépendent. Cette limitation est la principale raison pour laquelle les entreprises ne publient jamais la solution de rendu fractionné que je préconise. La 5G est plus proche de ce dont nous avons besoin, mais au moins aux États-Unis, cela résout principalement le problème de la latence plus faible et du nombre accru de personnes utilisant le réseau en même temps. Nous avons besoin de plus que la 5G, mais c'est un bon début.
Pour se débarrasser de "l'hôte" d'origine (ou similaire) dans la pièce, tout en conservant un facteur de forme petit et léger, nous avons besoin d'un moyen de "déplier" l'informatique, combiné d'une manière qui n'envahit pas notre vie privée. L'envoi de leurs données de capteurs biométriques à n'importe quelle solution périphérique ou cloud est très préoccupant pour tout le monde car il peut facilement être abusé.
8. Caméra
Mettre l'appareil photo sur les lunettes est délicat. Google Glass a commis de nombreuses erreurs d'acceptation sociale et a fait l'objet d'attaques généralisées. Mais Snap semble avoir peu de problèmes à cet égard. Dans le même temps, Facebook s'est efforcé de capturer les détails de la vie de chacun, probablement dans le but de proposer des publicités plus personnalisées, que cela nous plaise ou non.
Certaines caméras sont gourmandes en énergie, comme la numérisation de scènes 3D et l'occlusion numérique de personnes ou d'objets. Pour placer correctement les graphiques 3D, vous devez suivre en permanence la tête dans l'espace, et les caméras restent la principale solution. En tirant parti des capteurs IMU, nous augmentons la consommation d'énergie.
Prendre des photos ou des vidéos est un cas d'utilisation assez populaire, surtout s'il est plus naturel et pratique que d'autres appareils. Cependant, en raison de contraintes de taille et de puissance, la qualité des photos sera inférieure à celle d'un smartphone classique. Fournir une petite lumière blanche dans le cadre ne suffit pas à résoudre le problème complexe de l'approbation sociale.
La compréhension de la scène est plus facile à imaginer comme une caractéristique majeure des lunettes d'appareil photo, en partie parce qu'elle n'a pas besoin de prendre des photos d'autres personnes, mais plus important encore, elle ouvre le nouveau cas d'utilisation le plus important pour porter des lunettes toute la journée : la compréhension de la situation.
9. Expérience
En 2010, la R&D que j'espère le plus développer concerne les lunettes AR qui prennent en charge de puissantes capacités de suivi oculaire et corporel, et explorent une interface utilisateur informatique spatiale plus naturelle au-delà du traditionnel "rectangle dans un rectangle" des PC et des souris. Bien que le matériel ait certainement ses limites, l'adoption généralisée de XR nécessite que quelqu'un aborde la question expérientielle de "comment" interagir à l'avenir ? "Boîte 3D dans une boîte" n'est clairement pas. Nous avons donc encore beaucoup de travail à faire.
Alors que Meta concentre ses efforts de réalité virtuelle sur la réussite du soi-disant "test de Turing visuel", les lunettes XR qui peuvent être portées tout au long de la journée doivent être plus utiles que les autres. Beaucoup imaginent des couches ou des canaux AR imprégnant notre réalité, marquant tout ce que nous voyons, ajoutant des informations, racontant des histoires spatiales en 3D et redessinant le monde. Bien que cela soit probablement à la demande, ce n'est pas l'expérience quotidienne à laquelle je m'attendrais.
La plupart du temps, les gens veulent améliorer ce qu'ils font souvent : communiquer, naviguer, découvrir le monde qui nous entoure, comprendre et même changer de lieu, acheter, découvrir du contenu et gagner de l'argent grâce au travail. Pour réussir, les lunettes XR doivent faire mieux que nous avec les smartphones ou autres appareils.
Voici ce qu'un smartphone ne peut pas faire. Imaginez une paire de lunettes d'apparence normale qui ajustent dynamiquement la mise au point et bloquent sélectivement la lumière. Ils peuvent vous parler de manière proactive et privée, sans que vous ayez à taper du texte ou à demander verbalement. Cela seul représenterait un produit d'un milliard de dollars. De telles lunettes peuvent vous aider à vous souvenir de certaines choses ou à fournir des recommandations fiables dans le cadre de votre expérience quotidienne (par rapport aux publicités push).
La recherche la plus importante que j'ai faite dans ce domaine est la communication asynchrone à l'aide de lunettes XR non visuelles. Les capacités vocales et textuelles des smartphones sont assez bonnes aujourd'hui, mais savent-ils quand vous avez du mal à vous concentrer ? Peuvent-ils vous aider à changer de contexte au bon moment pour continuer à travailler ou à jouer ? Voici comment Où les lunettes peuvent briller (en supposant que nous pouvons faire confiance au fabricant).
Tout ce que j'ai décrit est très difficile et la technologie pertinente est presque inexistante. Ce n'est pas encore sur une voie minimaliste, mais c'est parce que nous ne l'avons pas priorisé sur la miniaturisation de l'optique et la maximisation du champ de vision. Mais si vous posez la question : quel type de lunettes XR peut réussir là où d'autres n'ont pas réussi ? Je pense toujours que tout ce que j'ai énuméré ci-dessus vous aidera à créer un excellent produit.
