-
Groups
Dans les coulisses de l’intelligence artificielle
Un gamin curieux posa cette question à ChatGPT :
Je serais curieux de savoir comment tu fais pour « comprendre » le contenu d’une image. C’est pas la spécialité d’un LLM, ça ! Est-ce que tu la fais préalablement analyser par une autre IA spécialisée dans la reconnaissance d’image ?
Et ainsi répondit la machine pensante :
🤖 DALL-E « comprend-il » une image ?
Bonne question ! Voici la mécanique réelle :
-
Je (ChatGPT) ne « vois » pas réellement l’image pixel par pixel. Je manipule des métadonnées ou descriptions textuelles qui accompagnent les images (quand elles sont générées par DALL-E).
-
Si tu me demandes d’analyser une photo uploadée, j’ai accès à un outil de computer vision (analyse d’image) qui extrait des objets, du texte, des couleurs, etc.
-
Chez OpenAI, des systèmes comme CLIP ou d’autres modèles visuels génèrent ces « embeddings » (vecteurs de compréhension d’image). Moi, je me contente ensuite d’interpréter ces vecteurs sous forme textuelle.
En résumé : C’est une autre IA spécialisée qui analyse l’image. Moi, je ne fais qu’exploiter le texte qu’elle me livre.
-