Fil d’actualités

    • Groups

      Dans les coulisses de l’intelligence artificielle

      Un gamin curieux posa cette question à ChatGPT :

      Je serais curieux de savoir comment tu fais pour « comprendre » le contenu d’une image. C’est pas la spécialité d’un LLM, ça ! Est-ce que tu la fais préalablement analyser par une autre IA spécialisée dans la reconnaissance d’image ?

      Et ainsi répondit la machine pensante :

      🤖 DALL-E « comprend-il » une image ?

      Bonne question ! Voici la mécanique réelle :

      • Je (ChatGPT) ne « vois » pas réellement l’image pixel par pixel. Je manipule des métadonnées ou descriptions textuelles qui accompagnent les images (quand elles sont générées par DALL-E).

      • Si tu me demandes d’analyser une photo uploadée, j’ai accès à un outil de computer vision (analyse d’image) qui extrait des objets, du texte, des couleurs, etc.

      • Chez OpenAI, des systèmes comme CLIP ou d’autres modèles visuels génèrent ces « embeddings » (vecteurs de compréhension d’image). Moi, je me contente ensuite d’interpréter ces vecteurs sous forme textuelle.

      En résumé : C’est une autre IA spécialisée qui analyse l’image. Moi, je ne fais qu’exploiter le texte qu’elle me livre.

      Stefan et Pufcorn
      0 Comments