"Roommate From Hell", un court métrage entièrement réalisé avec l’IA

Une discussion avec Tyler B. Cohen, par François Reumont pour l’AFC

16 janvier 2025 - Modifié le 22/01 Contre-Champ AFC n°363

[ English ] [ français ]

Tyler B. Cohen est un directeur créatif renommé, reconnu pour son expertise dans le numérique. Chez Tool, il codirige les initiatives d’IA, révolutionnant la façon dont certaines des plus grandes marques du monde créent et proposent des récits et des expériences grâce à des systèmes d’IA génératives sur mesure. Le travail de Tyler comprend des projets collaboratifs menés sous sa direction avec des marques de renommée mondiale, des musiciens de premier plan, des athlètes superstars, des ligues sportives et tous les spécialistes du marketing intéressés à embrasser le monde de demain. Google lui a donné l’opportunité de tester son dernier générateur de texte vers vidéo VEO2, et il a ainsi réalisé Roommate From Hell. Ce court métrage très réussi est en ligne depuis début janvier. (FR)

Comment ce film a-t-il été conçu ?

Tyler B. Cohen : J’ai commencé avec les contraintes de l’outil et j’ai travaillé à rebours. Une fois que j’ai identifié Jésus-Christ comme un personnage souvent représenté de la même manière – pour le meilleur ou pour le pire – l’idée s’est pratiquement écrite d’elle-même : et si Jésus avait une chambre à louer et, dans un moment de folie divine, la louait au diable ? Le principe était absurde mais a immédiatement fait sens : simple, drôle et plein de potentiel visuel. Il y a aussi une leçon sournoise sur les créatifs qui apprennent à adopter l’IA.

À partir de là, j’ai structuré le récit autour de quelques moments-clés – comment passer du point A au point B puis au point C – en m’assurant que chaque étape semblait utile. Jésus est devenu le point d’ancrage, non pas pour une raison noble au début, mais parce que son image est universellement reconnaissable. La robe, la barbe, les cheveux, c’est un raccourci que tout le monde comprend. Le diable, comme son faire-valoir, m’a donné la liberté de jouer, ce qui n’a fait que rendre le jeu encore plus amusant.
ChatGPT s’est chargé du gros travail, mais les idées ? Tout cela était à moi, du début à la fin. Cet outil ne fonctionne qu’avec la conversion texte-vidéo, donc tout devait être écrit comme un récit : pas de story-boards, pas de visuels, juste un texte méticuleusement rédigé. J’ai construit tout le cadre dès le départ : l’appartement, les personnages, le ton, tout ce qui définissait le monde. Le rôle de l’outil était simple : prendre la structure que j’ai créée et aider à combler les lacunes. Je dirais : « Voici le décor, voici la scène, voici le scénario – maintenant, donnez-moi quelque chose qui correspond à ma vision ». ChatGPT a craché des prompts de 200 à 300 mots, gardant le processus efficace et cohérent tout en laissant la direction créative fermement entre mes mains.
En fin de compte, le rôle de l’IA était de gérer le travail fastidieux. L’humour, l’histoire, le chaos, tout cela était humain. Cela a simplement rendu le processus plus rapide, plus flexible et lui a permis de se dérouler comme un effort solo, de haut en bas.

Aviez-vous des clichés en tête dès le début ?

TBC : La scène de l’eau qui se transforme en vin lors de la fête était dans les tuyaux dès le début. Je savais que c’était le tournant du film, donc tout le reste a été construit pour mener et découler de ce moment. Cela m’a donné une structure claire – début, milieu et fin – avec cette scène comme axe.

À partir de là, c’est devenu un processus de génération et de superposition. L’IA rend cela absurdement flexible et bon marché, donc une fois que j’ai eu trois ou quatre clichés d’ancrage, j’ai commencé à générer des lots. Des tonnes d’options, prêtes à être ajoutées au montage. Ce n’était pas un processus linéaire, comme si on tournait d’abord tout, puis on montait. Si quelque chose ne fonctionnait pas, je le coupais, générais un autre plan et continuais d’avancer.
C’est la beauté de travailler de cette façon. Ce n’est pas rigide ; c’est fluide, comme l’improvisation jazz. Mais vous avez besoin de structure – ces moments-clés – pour empêcher le chaos de devenir incontrôlable.

La réalisation de films est par nature un effort d’équipe. Comment voyez-vous l’expérience de réalisation de films IA ?

TBC : L’IA donne du pouvoir au généraliste. Si vous avez un bon œil, un bon sens du timing et que vous pouvez rédiger une ligne de texte à moitié décente, vous disposez soudainement des outils nécessaires pour réaliser un film cohérent sans vous appuyer sur toute une équipe. Pour ce projet, 75 % de la conception sonore a été générée par l’IA, et le montage (à peine un jour et demi) consistait à définir le rythme. Le véritable défi n’était pas la création elle-même ; il s’agissait de savoir quoi couper. Lorsque vous pouvez générer tout et n’importe quoi, le budget cesse d’être le limiteur – la retenue oui. Lâcher les plans que vous aimez mais dont le film n’a pas besoin est bien plus difficile qu’il n’y paraît !
Cela dit, ne négligeons pas l’élément humain. Ma femme était mon joker ici. Elle n’a aucun problème à dénoncer ce qui ne fonctionne pas : « Laisse tomber ce plan, échange celui-ci » - et elle avait toujours raison. Ses commentaires ont rendu le tout meilleur. Ainsi, même si l’IA permettait de gérer le travail technique en solo, le processus reposait toujours sur la collaboration. Cela peut ressembler à un one-man show, mais c’est toujours mieux avec une deuxième paire d’yeux !

L’IA est-elle difficile à contrôler ?

TBC : L’idée selon laquelle l’IA est incontrôlable est un mythe. Pour les images fixes, les flux de travail sont suffisamment avancés pour que vous puissiez composer presque tous les détails si vous savez ce que vous faites. Cependant, en matière de vidéo, c’est quand même un peu comme tirer le levier d’une machine à sous. Vous pouvez le pousser dans la bonne direction, mais il y a toujours un élément d’imprévisibilité.
Certains des meilleurs moments proviennent d’heureux accidents, de ces surprises imprévues qui élèvent un plan au-delà de ce que vous aviez imaginé. Mais il y a un revers. Vous obtenez par exemple une superbe photo, vous en aimerez 90 %, mais les 10 % restants sont tout simplement ratés. Réparer ce plan peut être une authentique torture, et parfois vous êtes obligé de vivre avec ou de tout recommencer.
Au crédit de Google, VEO 2 a une longueur d’avance sur tout ce qui existe. Des années-lumière, honnêtement. Lorsque je l’ai testé, j’avais l’impression que l’outil comprenait réellement ce que je demandais. Ce n’est pas un hasard : ils exploitent clairement des milliards de points de données de YouTube, et cela se voit. Les résultats sont plus nets, plus cohérents et globalement meilleurs que tout ce que propose la concurrence.
Alors, des images fixes ? Beaucoup de contrôle. Vidéo ? Nous n’en sommes pas encore là, mais VEO 2 constitue un énorme pas en avant. Pour l’instant, vous travaillez avec le chaos, en le façonnant du mieux que vous pouvez. Et parfois, le chaos vous façonne.

Quel a été le plan le plus difficile ?

TBC : Sans aucun doute, celui avec Méduse. Imaginez ceci : un démon un peu bourré essayant de discuter avec elle pendant qu’elle fume une cigarette avec désinvolture... Elle reste totalement indifférente, tandis que chacun de ses serpents fait de même. Hilarant, mais un cauchemar dans l’exécution. Faire en sorte que l’IA comprenne et fournisse ce niveau de détails absurdes, c’était comme essayer d’enseigner le calcul à un chat. Itération après itération, cela a pris tellement de temps que je l’appellerais le plan le plus "cher" du film. Mais il fallait que cela fonctionne, ne serait-ce qu’à l’écran pendant une seconde.
Puis il y avait Jésus promenant le chien à trois têtes de Satan. Assez simple, non ? Sauf que je suis obsédé par les crottes de chien. Il fallait que cela ait l’air parfait, mais le système n’arrêtait pas de le signaler comme quelque chose d’obscène. La solution ? Un sac en plastique transparent avec de copieuses montagnes de chocolat fumant. Ridicule avec le recul.

Quant aux heureux accidents, ils étaient partout, disséminés tout au long du projet. Lorsque vous travaillez avec des invites limitées à 200 à 300 mots, vous êtes obligé de laisser des espaces. Et c’est dans ces espaces que le chaos s’installe. Vous n’obtenez pas chaque objet ou mouvement exactement comme vous l’aviez imaginé, mais ce que vous obtenez peut être surprenant, voire fortuit. Le film lui-même est essentiellement un collage de ces accidents. Mon travail consistait à repérer ceux qui avaient du potentiel, à doubler leur mise et à laisser les moments imprévus façonner certaines parties du récit. Il s’agit moins de contrôler que d’exploiter la tempête.

Avez-vous parfois l’impression de courir après la technologie ?   

TBC : D’une certaine manière, oui. Le rythme est incessant : de nouveaux outils sont publiés chaque semaine, parfois quotidiennement. J’ai la chance de travailler dans une agence entouré de gens à gros cerveaux qui mangent, dorment et respirent ce genre de choses. Mais en dehors de cette bulle, je peux voir à quel point cela doit être accablant. Le flot de contenu, constitué pour la plupart de déchets, est sans fin. Repérer les pierres précieuses demande une vigilance constante.
Manquer une semaine, c’est comme rater une année canine. Le défi ne consiste pas seulement à suivre le rythme : il s’agit également d’éliminer le bruit pour trouver le signal. C’est une boucle épuisante, bien sûr, mais si vous êtes partant, le chaos est aussi ce qui la rend exaltante.

Pensez-vous que les humains pourraient en avoir assez des images de l’IA, comme la vague des films en 3D nous a lassés ?

TBC : Le problème ne vient pas de l’imagerie de l’IA en elle-même, mais de la surabondance de résultats médiocres qui lui donnent une mauvaise réputation. On suppose que l’art généré par l’IA a un "look" spécifique, mais cela n’est vrai que lorsque les outils sont exploités de manière inefficace. Lorsque l’IA est entre les mains de quelqu’un qui sait ce qu’il fait, les résultats fonctionnent. La ligne se brouille et vous arrêtez de penser à la façon dont cela a été créé et commencez à vous concentrer sur ce que vous ressentez.
Nous nous dirigeons vers un moment où les outils sont si avancés et la curation si nuancée que la distinction entre l’IA et les visuels créés par l’homme ne sera plus pertinente. La flexibilité sera là pour tout créer – animation, film, stop-motion, hybrides – et le public ne le saura pas, car il n’en aura pas besoin. Ce qui compte, c’est le résultat, pas le processus.
À l’heure actuelle, certains cinéastes apposent des mises en garde sur leur travail – « Aucune IA n’a été utilisée » ou, à l’inverse, « Ceci a été réalisé avec l’IA » – comme une sorte de signal de vertu éthique ou une étiquette d’avertissement sur un paquet de cigarettes. C’est une phase. Une fois que l’IA deviendra omniprésente, ces étiquettes disparaîtront et nous ne nous soucierons plus de savoir si un plan a été dessiné à la main, appris par machine ou les deux. L’économie est incontournable. Les outils d’IA ne sont pas seulement plus rapides : ils sont également moins chers. Et dans des secteurs comme la publicité, où la réduction des coûts est en réalité une religion, l’IA est le nouveau messie. Ce n’est pas une question de savoir si ; c’est une question de quand.
Pensez à la technique ancestrale en typo avec les blocs métalliques ou à la façon dont les flux de travail Photoshop étaient laborieux, lents et inefficaces il y a vingt ans. La différence entre hier et aujourd’hui est stupéfiante. J’utilise Photoshop depuis deux décennies, et ce qui prenait des heures peut désormais être réalisé en quelques secondes. L’IA est la prochaine étape logique dans cette évolution. Elle n’est pas là pour remplacer la créativité mais pour la démocratiser, en offrant aux créateurs plus d’outils, plus de rapidité et plus de portée. Cela ne disparaîtra pas, et ce n’est pas quelque chose dont nous nous lasserons, c’est juste quelque chose à laquelle nous apprendrons à nous attendre. La crème montera toujours au sommet.

J’ai découvert votre film le jour du dixième anniversaire de la tuerie de Charlie Hebdo à Paris. Bien sûr, les dessins animés et la religion me sont immédiatement venus à l’esprit. En tant que créateur, êtes-vous libre de faire n’importe quoi avec l’IA ?

TBC : Tout d’abord, quelle folle coïncidence ! Le choix de représenter Jésus n’était pas une déclaration, du moins pas au départ. Cela se résumait à une question de praticité. Jésus est inscrit dans le lexique visuel : la robe blanche, le châle rouge, les cheveux ondulés, la barbe. Ce sont des symboles abrégés qui garantissent la cohérence, ce qui est essentiel lorsque vous travaillez avec des outils génératifs qui aiment parfois se promener.
Mais le diable, c’était une toute autre histoire. C’est un personnage aux mille visages : la bête cornue, le négociateur en costume élégant, l’ombre qui se cache dans un coin. J’ai dû établir des règles strictes dès le départ pour que tout reste cohérent. VEO 2 a fait un travail impressionnant en reliant les points là où je n’avais pas expliqué les choses explicitement, mais même avec cela, c’était un exercice d’équilibre pour maintenir l’alignement visuel à travers les scènes.
Quant à Mahomet ? Oui, j’envisagerais d’explorer n’importe quel sujet. Mais voilà : il n’y a pas de données. C’est un vide, un trou noir culturel. Cette absence n’est pas due aux limites de la technologie, mais plutôt au reflet des données qui la façonnent. Ces outils ne peuvent extraire que des données sous-jacentes dont ils ont été alimentés.
Et cela nous amène à la plus grande question de la liberté dans l’IA. À l’heure actuelle, nous vivons un moment doré, un lieu idéal pour la création où le contrôle repose en grande partie entre les mains des créateurs. Mais des fissures se forment. Certains outils signalent déjà des prompts impliquant des personnalités politiques ou des sujets sensibles. D’autres vous empêchent carrément de générer certains contenus. Nous entrons dans l’ère de l’IA d’État nounou, et même si je comprends pourquoi cela se produit, c’est profondément troublant.
Les modèles Open Source offrent une bouée de sauvetage, même si leur qualité est souvent à la traîne par rapport aux résultats raffinés des systèmes propriétaires. Pourtant, la philosophie de l’open source semble plus fidèle à l’esprit de créativité : décousue, démocratique et profondément humaine. C’est David contre Goliath, et je parierai toujours sur David, même si sa petite fronde a peut être besoin d’une mise à niveau.
La racine du problème, ce sont les données. L’IA reflète les préjugés de ses ensembles de formation, et ceux-ci sont façonnés par les institutions qui les sous-tendent. Prenez Jésus, par exemple. Il revient presque toujours sous la forme d’un homme blanc – un écho algorithmique des préjugés culturels. Et si vous utilisez un modèle formé en Chine, taper "Taiwan" ou "Place Tiananmen" est un exercice futile. Ces outils ne sont gratuits que dans la mesure où leurs ensembles de données le permettent.
Au fond, je suis un fauteur de troubles. Je ne veux pas de garde-fous dictant ce que je peux ou ne peux pas créer. La liberté de création n’est pas un luxe ; c’est le moteur de l’innovation. Le défi consiste à protéger cette liberté à mesure que ces outils deviennent de plus en plus réglementés et marchandisés. Pour l’instant, nous vivons dans le Far West de l’IA. J’ai l’intention de surfer sur cette vague aussi longtemps que possible.

Alors l’Open Source pourrait être la solution ?

TBC : C’est une généralisation grossière, mais l’Open Source semble attirer les gens soucieux d’accorder le crédit là où il est dû. Ce sont eux qui estiment que les créateurs devraient être reconnus et rémunérés pour le travail qui alimente ces ensembles de données. Comparez cela aux grands acteurs qui profitent du contenu volé, puis y imposent des frais de licence avec un visage impassible. Ridicule.
C’est David contre Goliath, clair et simple. L’Open Source n’est pas parfait, mais il repose sur des principes. C’est un contrepoids nécessaire à un système qui récompense trop souvent l’exploitation au détriment de l’équité.

Informations techniques :

Nombre de plans : 125 ont été retenus pour le montage final
Générations totales : environ 700 clips ont été générés
Chronologie : 5 jours au total ; 3,5 jours de génération d’images et 1,5 jour de montage.
Dialogue : même si le dialogue est actuellement possible avec d’autres outils, j’ai choisi de ne pas l’utiliser. L’humour et la pertinence de l’histoire se devaient de transparaitre à travers la narration visuelle. En effet, les colocataires de merde sont un langage universel.

Ce projet a été entièrement créé à l’aide de Google Veo 2, tirant parti de la génération texte-vidéo seulement. Voici une description étape par étape du processus :

1. Structurer l’histoire
Le projet prévoyait trois actes, ils ont été décrits au début ainsi que quelques plans clés très tôt.
Les scénarios ont été inspirés par diverses expériences personnelles avec de mauvais colocataires, mais en appliquant ces souvenirs à travers une lentille biblique.
Il n’y avait pas de story-boards, seulement une séquence d’invites détaillées et de descriptions.

2. Tirer parti de ChatGPT pour plus d’efficacité
L’histoire a été écrite dans ChatGPT, en décrivant la structure de chaque acte et en affinant le flux narratif.
Ensuite ont été ajoutés des détails sur les personnages pour plus de cohérence, en m’assurant qu’ils étaient présents dans chaque invite de texte pour gagner du temps et ajouter de la cohérence lors des itérations.
Les invites comptaient en moyenne entre 250 et 300 mots.
Le travail a été maintenu sur un seul fil, où je décrivais des scènes et scénarios, tandis que GPT les optimisait en invites efficaces. Ceci a considérablement rationalisé le processus de conversion texte-vidéo.

Voici un exemple d’invite :
“A gritty, medium-wide shot captures Jesus walking away through a rundown urban neighborhood. Dressed in his white robe with a red shawl, his glowing halo ring softly lights the cracked sidewalks and graffiti-covered rowhouses. He carries a massive semi-transparent green plastic bag bulging with steaming chunky chocolate fudge.
Beside him, Cerberus strides calmly—a massive three-headed dog, each head scanning the surroundings with intense, synchronized gazes. Jesus holds a golden leash attached to intricate silver chains as they jingle faintly with each step.
In the background, neighbors peek cautiously through their windows, while a stray cat perched on a chain-link fence arches its back and hisses. The contrast between Jesus’s calm presence and Cerberus’s intimidating three-headed form highlights the surreal humor of the scene.”

3. Générer avec Google VEO 2
Les visuels ont été générés avec un workflow texte-vidéo, produisant 4 clips de 8 secondes chacun par invite.
Veo a permis aussi la génération par lots et le raffinement itératif. Des 700 clips au total générés, 125 plans ont été retenus pour le montage final.

4. Montage dans Premiere Pro
Après génération des clips, je les ai importés dans Premiere Pro. Cela a révélé des lacunes que j’ai comblées en générant des clips supplémentaires pour mieux raconter l’histoire.
Le processus de montage a pris 1,5 jour, pendant lequel j’ai affiné le rythme, les transitions et la cohérence visuelle.
Une seule petite correction mineure a été effectué : un seul plan a vu la couleur rouge du châle modifié pour des questions de raccord.
Aucun étalonnage des couleurs a été appliqué au projet, seuls de modestes corrections d’ambiances via des invites en amont.

5. Conception audio
Après l’image verrouillée, je suis passé à l’audio. J’ai utilisé un mélange de sons sous licence et d’effets sonores générés, avec environ 75 % des SFX créés en utilisant ElevenLabs.

6. Touches finales et téléchargement
Après le mixage final audio, j’ai ajouté le titre sur le plan d’ouverture de début et je l’ai mis en ligne sur les réseaux sociaux.

7. Pourquoi Google VEO 2 se démarque de la concurrence
Google VEO 2 était inégalé pour la génération de texte en vidéo. Aucun autre outil ne s’en rapproche en termes de qualité, de cohérence ou d’adhésion rapide à ce jour.

(Propos reccueillis par François Reumont pour l’AFC)

–

Roommate From Hell
par Tyler Cohen

https://www.youtube.com/watch?v=oMu48Mt8vHM