Module: modelFileReader

Diese Datei enthält Funktionen zum Extrahieren von Textinhalten aus verschiedenen Dateiformaten. Sie unterstützt PDF, DOCX, Textdateien und Bilder (mittels OCR).
Author:
  • Miray Die Funktionen wurden mit Unterstützung von KI-Tools angepasst und optimiert.
Source:

Methods

(async, inner) extractTextContent(buffer, mimetype, filename) → {Promise.<string>}

Extrahiert den Textinhalt einer Datei basierend auf ihrem MIME-Typ. Unterstützt PDF, DOCX, Textdateien und Bilder (OCR).
Parameters:
Name Type Description
buffer Buffer Der Dateiinhalt als Buffer.
mimetype string Der MIME-Typ der Datei.
filename string Der Name der Datei (optional für Logging und OCR).
Source:
Throws:
Falls das Dateiformat nicht unterstützt wird oder die Extraktion fehlschlägt.
Type
Error
Returns:
Der extrahierte Textinhalt der Datei.
Type
Promise.<string>
Example
const buffer = fs.readFileSync('image.png');
const text = await extractTextContent(buffer, 'image/png', 'image.png');
console.log(text);

(async, inner) extractTextFromDOCX(buffer) → {Promise.<string>}

Extrahiert reinen Text aus einer DOCX-Datei.
Parameters:
Name Type Description
buffer Buffer Der Dateiinhalt als Buffer.
Source:
Returns:
Der extrahierte Text aus dem DOCX-Dokument.
Type
Promise.<string>
Example
const docxBuffer = fs.readFileSync('document.docx');
const text = await extractTextFromDOCX(docxBuffer);
console.log(text);

(async, inner) extractTextFromPDF(buffer) → {Promise.<string>}

Extrahiert Text aus einer PDF-Datei mithilfe eines externen Python-Skripts. Führt mehrere Versuche durch, falls ein Fehler auftritt.
Parameters:
Name Type Description
buffer Buffer Der Dateiinhalt als Buffer.
Source:
Throws:
Falls die Extraktion fehlschlägt oder das Python-Skript einen Fehler zurückgibt.
Type
Error
Returns:
Der extrahierte Text aus dem PDF.
Type
Promise.<string>
Example
const pdfBuffer = fs.readFileSync('document.pdf');
const text = await extractTextFromPDF(pdfBuffer);
console.log(text);