Diese Datei enthält Funktionen zum Extrahieren von Textinhalten
aus verschiedenen Dateiformaten. Sie unterstützt PDF, DOCX, Textdateien und Bilder (mittels OCR).
- Source:
Methods
(async, inner) extractTextContent(buffer, mimetype, filename) → {Promise.<string>}
Extrahiert den Textinhalt einer Datei basierend auf ihrem MIME-Typ.
Unterstützt PDF, DOCX, Textdateien und Bilder (OCR).
Parameters:
Name | Type | Description |
---|---|---|
buffer |
Buffer | Der Dateiinhalt als Buffer. |
mimetype |
string | Der MIME-Typ der Datei. |
filename |
string | Der Name der Datei (optional für Logging und OCR). |
Throws:
-
Falls das Dateiformat nicht unterstützt wird oder die Extraktion fehlschlägt.
- Type
- Error
Returns:
Der extrahierte Textinhalt der Datei.
- Type
- Promise.<string>
Example
const buffer = fs.readFileSync('image.png');
const text = await extractTextContent(buffer, 'image/png', 'image.png');
console.log(text);
(async, inner) extractTextFromDOCX(buffer) → {Promise.<string>}
Extrahiert reinen Text aus einer DOCX-Datei.
Parameters:
Name | Type | Description |
---|---|---|
buffer |
Buffer | Der Dateiinhalt als Buffer. |
- Source:
Returns:
Der extrahierte Text aus dem DOCX-Dokument.
- Type
- Promise.<string>
Example
const docxBuffer = fs.readFileSync('document.docx');
const text = await extractTextFromDOCX(docxBuffer);
console.log(text);
(async, inner) extractTextFromPDF(buffer) → {Promise.<string>}
Extrahiert Text aus einer PDF-Datei mithilfe eines externen Python-Skripts.
Führt mehrere Versuche durch, falls ein Fehler auftritt.
Parameters:
Name | Type | Description |
---|---|---|
buffer |
Buffer | Der Dateiinhalt als Buffer. |
- Source:
Throws:
-
Falls die Extraktion fehlschlägt oder das Python-Skript einen Fehler zurückgibt.
- Type
- Error
Returns:
Der extrahierte Text aus dem PDF.
- Type
- Promise.<string>
Example
const pdfBuffer = fs.readFileSync('document.pdf');
const text = await extractTextFromPDF(pdfBuffer);
console.log(text);