László Gaál utilise l’IA pour faire tourner les Porsche au pays de Ferrari

"L’humour derrière la machine", par François Reumont

Contre-Champ AFC n°364

[ English ] [ français ]

Avec un humour, un savoir faire et une qualité troublante, la fausse publicité Porsche “The Pisanos”, réalisée par l’étalonneur hongrois László Gaál, est devenue depuis quelques jours une des vedettes de la génération de film par IA sur YouTube. Fabriquée entièrement sur le moteur Google Veo2 auquel il a pu avoir accès en primeur, ce petit film rassemblant à peu près tous les poncifs de la publicité (la Toscane, les sourires, la vitesse…) trouble par sa qualité d’exécution et surtout par son making of. Un deuxième clip qui prend le spectateur à contrepied pour mieux le cueillir quand il apprend que tout est (presque) faux. László, qui se paie le luxe - dans l’unique plan réellement tourné - de répondre face caméra et prêter sa voix au commentaire dans le making of, vient nous parler (avec son ravissant tee shirt Claude Monet) de création avec ce nouvel outil. (FR)

Comment avez-vous conçu le projet ?

László Gaál : Le processus de fabrication pour cette fausse pub est un peu drôle car rien n’était prévu à l’avance. Beaucoup de gens m’ont demandé si j’avais un storyboard des plans alors que je ne savais même pas que j’aurais accès à Veo, et je n’avais pas du tout développé cette idée.
J’ai donc commencé par générer 2 ou 3 plans de gens marchant et tournant la tête quand une belle voiture passait. Ensuite, j’ai réalisé que je pouvais inclure plusieurs modèles de la même marque d’âges différents et créer un joli petit montage de différentes générations d’un modèle de voiture. Mais le mot "génération" a aussi un aspect humain, alors j’ai changé les gens en différentes générations dans la même famille, et ensuite cela est devenu la base de l’histoire des Pisano et le reste n’était que des essais et des erreurs issues de différentes idées. Puis est venu le slogan "Faire tourner les têtes depuis des générations". Ce n’est donc pas un processus simplifié : chaque fois que j’avais une nouvelle pensée, assis dans un café ou sur ma moto, je m’arrêtais et la notais. Puis, en revenant à l’ordinateur, j’ai commencé à voir s’il était possible à partir d’invites… Enfin j’ai expérimenté comment rendre cela possible. Je pense beaucoup aux limites du cinéma de nos jours, car généralement le budget, les décors font que souvent vos mains sont liées… mais que se passe-t-il si vous les supprimez ?
Le problème, c’est qu’il est difficile de s’arrêter, car si tout devient possible, rien ne peut vous empêcher de transformer votre nouvelle idée en un véritable plan et de recommencer encore et encore. La première semaine, je me réveillais vers 2h30 du matin chaque jour parce qu’une nouvelle idée me venait à l’esprit et je voulais voir si ça fonctionnait ou non… Créer avec ce genre d’outil ce n’est vraiment pas très sain !


Combien de temps vous a-t-il fallu pour fabriquer le film ?

LG : De mémoire, j’ai passé 12 jours à générer les plans pour la fausse pub et 4 ensuite pour le making of… Ensuite j’ai passé quelques jours sur le montage, le son, la voix off, etc. Au total, je pense que cela a duré trois semaines, premiers tests compris.

Beaucoup se plaignent du manque de contrôle sur l’outil… Qu’en pensez-vous ?

LG : Je pense que pour certains genres, le contrôle est nécessaire et même indispensable. Par exemple, pour les publicités, il faut avoir beaucoup de contrôle. Mais pour les histoires narratives, les outils actuels sont largement suffisants pour raconter une histoire comme l’ont déjà prouvé plusieurs personnes talentueuses. Je pense que, comme dans le domaine des images fixes, on commence à avoir maintenant beaucoup de finesse de contrôle sur l’IA en matière de plans pour un film. Et à mon avis nous verrons encore plus de fonctionnalités déployées cette année, qui donneront encore plus de contrôle sur le résultat…


Est-ce la fin du travail en équipe ?

LG : Je ne pense pas que cela mettra fin au travail d’équipe, c’est juste une phase transitoire où nous voyons de nombreuses personnes “seules sur scène” créer des vidéos complètes. Lorsque la production devra augmenter, nous verrons plus de personnes travailler ensemble sur un seul projet. Il y aura aussi également des réalisateurs traditionnels qui se mettront à travailler avec des gens de l’IA, les instruire, diriger les générations, etc. Je pense qu’à l’heure actuelle, nous verrons de nouveaux types de talents et même d’emplois émerger, si quelqu’un est bon dans la fabrication de produits, il se spécialisera dans tel ou tel domaine… Par exemple, si quelqu’un est bon avec les personnages, il le fera, etc.

Vous sentez-vous parfois à la traîne face aux évolutions de l’AI ?

LG : C’est l’un des trucs les plus ennuyeux actuellement : au moment où quelqu’un apprend un nouvel outil, nous avons une autre plate-forme qui sort un autre outil de meilleure qualité. Je pense que nous devrons arriver à une phase où nous aurons 1 à 2 bons modèles d’IA généraux et peut-être 1 à 2 modèles spécialisés, mais cela n’arrivera peut-être pas de sitôt car ces modèles se développent à un rythme beaucoup plus rapide que les outils humains. Comparez cela au développement de graphiques 3D, de courts métrages d’animation 3D qui ont pris des décennies. Jusqu’à 2023 avec l’IA, la vidéo était quasiment inutilisable… Elle est devenue très intéressante en 2024, et cette année je pense que nous verrons de plus en plus de productions céder à cette manière d’utiliser l’IA générative.


Qu’est-ce qui change pour vous fondamentalement dans cette nouvelle manière de raconter des histoires ?

LG : En ce qui concerne le flux de travail, je pense que la chose la plus intéressante c’est qu’avec Google VEO 2, on utilise uniquement du texte vers la vidéo. Bien sûr, il faut qu’il y ait une sorte de cohérence, comme des mouvements prédéfinis, mais tout était guidé uniquement par le texte. Et pour tout vous dire, la génération de plans, le montage, le mixage sonore, la voix off et même l’écriture du scénario se déroulaient pour moi en parallèle. C’est vraiment la partie la plus novatrice du travail avec l’IA générative : le flux de travail n’est plus du tout linéaire ! Vous passez en permanence entre la réflexion sur une nouvelle partie du script, la génération de l’idée précédente, l’édition de celle déjà générée, etc. C’est un nouveau type de narration où il est possible d’insérer une idée de plan qui a été généré il y a seulement quelques secondes, et qui a été imaginé il y a seulement quelques minutes…


Donc le seul truc réel là-dedans, c’est vous qui parlez à la caméra ?

LG : Oui, je pensais que la synchronisation labiale de l’IA serait trop étrange alors je me suis filmé pour l’interview. Le tee shirt Monet est une série de Pull&Bear !

(Propos recueillis par François Reumont pour l’AFC)

  • Voir la vidéo :

    https://youtu.be/VqLWWYfCEbI?si=bwkp2g8LYTuADN8F