Fil d’actualités

Groups

Intelligence artificielle

Nicolas il y a 2 jours
Dans les coulisses de l’intelligence artificielle

Un gamin curieux posa cette question à ChatGPT :

Je serais curieux de savoir comment tu fais pour « comprendre » le contenu d’une image. C’est pas la spécialité d’un LLM, ça ! Est-ce que tu la fais préalablement analyser par une autre IA spécialisée dans la reconnaissance d’image ?

Et ainsi répondit la machine pensante :

🤖 DALL-E « comprend-il » une image ?

Bonne question ! Voici la mécanique réelle :
- Je (ChatGPT) ne « vois » pas réellement l’image pixel par pixel. Je manipule des métadonnées ou descriptions textuelles qui accompagnent les images (quand elles sont générées par DALL-E).
- Si tu me demandes d’analyser une photo uploadée, j’ai accès à un outil de computer vision (analyse d’image) qui extrait des objets, du texte, des couleurs, etc.
- Chez OpenAI, des systèmes comme CLIP ou d’autres modèles visuels génèrent ces « embeddings » (vecteurs de compréhension d’image). Moi, je me contente ensuite d’interpréter ces vecteurs sous forme textuelle.
En résumé : C’est une autre IA spécialisée qui analyse l’image. Moi, je ne fais qu’exploiter le texte qu’elle me livre.
Stefan et Pufcorn

0 Comments