Documentation IAPONT
Transformez vos données brutes en carburant pour IA. Guide technique pour l'ingestion, le nettoyage et l'exportation structurée.
Importation & Traitement par Lot
IAPONT Studio n'est pas limité aux PDF. Le moteur d'ingestion "Universal Loader" prend en charge une variété de formats structurés et non structurés : PDF, EPUB, JSON, Markdown (.md) et Texte brut (.txt).
Le "Batch Processing" (Traitement par lot) :
Vous pouvez glisser jusqu'à 50 fichiers simultanément. L'application va créer une file d'attente intelligente et traiter chaque fichier séquentiellement dans des Web Workers isolés pour ne pas ralentir votre navigateur.
- 📂 Formats : PDF, JSON, EPUB, MD, TXT
- ⚖️ Limite : ~2GB (Dépend de la RAM)
- 🚀 Concurrency : 1 fichier à la fois (Queue)
- 🔒 Sécurité : Lecture binaire locale
Stratégie de Découpage (Chunking)
Le "Chunking" est l'art de découper un long document en morceaux digestes pour l'IA. Un mauvais découpage peut faire perdre le contexte (coupure au milieu d'une phrase) ou noyer l'IA sous trop d'informations.
Nous utilisons un algorithme de découpage sémantique qui tente de respecter les paragraphes et les phrases pour garantir la cohérence des données extraites.
| Taille (Chars) | Usage Idéal | Cible |
|---|---|---|
| 4000 | RAG / Vector DB | Pinecone, Qdrant |
| 8000+ | Analyse Longue | Claude 3, GPT-4o |
| Infini | Contexte Global | NotebookLM |
Nettoyage & Confidentialité
Les documents bruts contiennent souvent du "bruit" : en-têtes répétés, numéros de page, bas de page légaux. IAPONT nettoie ces éléments via des Regex avancées.
Le Mode "Haute Confidentialité" :
En activant ce mode, deux actions se produisent :
- La mémoire tampon est purgée immédiatement après l'export.
- Une couche d'anonymisation (PII) détecte et remplace les emails et numéros de téléphone par des placeholders
[EMAIL_REDACTED].
Tout se passe dans le Blob Storage de votre navigateur. En cas de fermeture accidentelle de l'onglet, les données sont perdues par design (sécurité volatile).
Formats d'Exportation
Une fois vos données propres, vous devez les extraire pour les utiliser.
- Format JSON : Idéal pour les développeurs. Il contient le texte dans un champ
content, mais aussi les métadonnées (source, page, date). Parfait pour peupler une base de données. - Format TXT : Le format universel. Idéal pour faire un copier-coller rapide dans ChatGPT ou Claude.
{
"filename": "contrat.pdf",
"processed_at": "2024-10-24...",
"chunks": [
{
"id": 1,
"content": "Texte nettoyé...",
"tokens": 450
}
]
}