OpenAI intègre la génération d’images dans GPT-4o : une révolution pour la création visuelle ?

OpenAI vient de franchir une nouvelle étape en intégrant la génération d’images directement dans son modèle multimodal GPT-4o. Cette nouveauté permet aux utilisateurs de créer et d'affiner des images en conversation avec l'IA, offrant une précision et une cohérence sans précédent. Accessible à tous les utilisateurs de ChatGPT, y compris les abonnés gratuits, cet outil pourrait redéfinir l'usage de l'IA dans la création de contenu.

Ce qu'il faut retenir :

Contrairement à DALL-E, cette génération d’images fait partie intégrante du modèle, améliorant la cohérence et la qualité des résultats.
GPT-4o comprend le contexte de la conversation et permet des modifications progressives des visuels.
Des capacités étendues : Texte intégré, styles variés, génération basée sur des images références et rendu de scènes complexes.
Quelques limites subsistent : Difficultés avec les langues non latines, pertes de détails sur de petites tailles et imprécisions dans certaines éditions ciblées.

Une avancée majeure dans la génération d'images

Avec cette nouvelle mise à jour, GPT-4o passe un cap dans la génération d'images. Jusque-là, ChatGPT utilisait DALL-E 3, un modèle de diffusion classique capable de transformer du texte en image. Mais aujourd'hui, la génération d’images devient native et fait partie intégrante de GPT-4o.

Cela signifie que ChatGPT peut à présent créer des images en prenant en compte l’ensemble du contexte conversationnel, garantissant une cohérence visuelle plus importante. Cette approche multimodale améliore la précision du rendu, notamment en ce qui concerne l'affichage du texte dans les images, la mise en scène d'objets multiples (jusqu'à 20), et la conservation d'un style cohérent à travers plusieurs générations.

Des capacités étendues pour un usage varié

GPT-4o ne se contente pas de générer des images aléatoires, il permet aussi d'affiner et d'itérer sur les visuels déjà produits. Voici quelques-unes de ses principales fonctionnalités :

Intégration précise du texte : Contrairement aux modèles précédents qui avaient du mal à placer du texte lisible dans une image, GPT-4o parvient à intégrer du texte de manière fluide et lisible dans des panneaux, affiches et menus.
Respect des contraintes stylistiques : Que vous souhaitiez un visuel photoréaliste, une illustration stylisée ou un croquis, l'IA adapte la création selon vos besoins.
Référence d’images existantes : En uploadant une image, les utilisateurs peuvent demander à ChatGPT de s'en inspirer pour produire une variante ou la transformer.
Précision dans la composition : L’IA peut gérer des scènes complexes et maintenir des proportions cohérentes même avec plusieurs objets.
Amélioration et modifications progressives : Un même personnage ou objet peut être modifié en conversation tout en restant cohérent à travers les différentes itérations.

*Transformation d'une image déjà existante - Source : OpenAi*

Des limites encore présentes

Malgré ces avancées, OpenAI reconnaît que son modèle présente encore certaines limites, parmi lesquelles :

Problèmes de cadrage : Lors de la génération d'affiches ou d'images longues, l’IA peut rogner involontairement certaines parties essentielles.
Difficultés avec les langues non latines : L’implémentation du texte dans les alphabets non latins reste imparfaite, générant parfois des erreurs ou des symboles incorrects.
Rendu dégradé pour les petites tailles : Plus une image contient d’informations denses, plus il devient difficile pour...

Derniers événements

Derniers Articles