Documentation IAPONT

Transformez vos données brutes en carburant pour IA. Guide technique pour l'ingestion, le nettoyage et l'exportation structurée.

1

Importation & Traitement par Lot

IAPONT Studio n'est pas limité aux PDF. Le moteur d'ingestion "Universal Loader" prend en charge une variété de formats structurés et non structurés : PDF, EPUB, JSON, Markdown (.md) et Texte brut (.txt).

Le "Batch Processing" (Traitement par lot) :
Vous pouvez glisser jusqu'à 50 fichiers simultanément. L'application va créer une file d'attente intelligente et traiter chaque fichier séquentiellement dans des Web Workers isolés pour ne pas ralentir votre navigateur.

💡 Astuce Pro : Pour fusionner plusieurs petits PDF en un seul contexte pour ChatGPT, activez l'option "Mode Fusion" dans la vue d'import. Cela générera un fichier unique concaténé au lieu d'une archive ZIP.
⚡ Capacités Techniques
  • 📂 Formats : PDF, JSON, EPUB, MD, TXT
  • ⚖️ Limite : ~2GB (Dépend de la RAM)
  • 🚀 Concurrency : 1 fichier à la fois (Queue)
  • 🔒 Sécurité : Lecture binaire locale
2

Stratégie de Découpage (Chunking)

Le "Chunking" est l'art de découper un long document en morceaux digestes pour l'IA. Un mauvais découpage peut faire perdre le contexte (coupure au milieu d'une phrase) ou noyer l'IA sous trop d'informations.

Nous utilisons un algorithme de découpage sémantique qui tente de respecter les paragraphes et les phrases pour garantir la cohérence des données extraites.

🎯 Quel réglage choisir ?
Taille (Chars) Usage Idéal Cible
4000 RAG / Vector DB Pinecone, Qdrant
8000+ Analyse Longue Claude 3, GPT-4o
Infini Contexte Global NotebookLM
3

Nettoyage & Confidentialité

Les documents bruts contiennent souvent du "bruit" : en-têtes répétés, numéros de page, bas de page légaux. IAPONT nettoie ces éléments via des Regex avancées.

Le Mode "Haute Confidentialité" :
En activant ce mode, deux actions se produisent :

  • La mémoire tampon est purgée immédiatement après l'export.
  • Une couche d'anonymisation (PII) détecte et remplace les emails et numéros de téléphone par des placeholders [EMAIL_REDACTED].
🛡️ Sécurité des Données

Tout se passe dans le Blob Storage de votre navigateur. En cas de fermeture accidentelle de l'onglet, les données sont perdues par design (sécurité volatile).

Lire le Manifeste
4

Formats d'Exportation

Une fois vos données propres, vous devez les extraire pour les utiliser.

  • Format JSON : Idéal pour les développeurs. Il contient le texte dans un champ content, mais aussi les métadonnées (source, page, date). Parfait pour peupler une base de données.
  • Format TXT : Le format universel. Idéal pour faire un copier-coller rapide dans ChatGPT ou Claude.
📦 Structure du JSON
{
  "filename": "contrat.pdf",
  "processed_at": "2024-10-24...",
  "chunks": [
    {
      "id": 1,
      "content": "Texte nettoyé...",
      "tokens": 450
    }
  ]
}

Prêt à optimiser vos documents ?

Lancer IAPONT Studio ➔