JSDoc: Module: modelFileReader

Diese Datei enthält Funktionen zum Extrahieren von Textinhalten aus verschiedenen Dateiformaten. Sie unterstützt PDF, DOCX, Textdateien und Bilder (mittels OCR).

Author:

Miray Die Funktionen wurden mit Unterstützung von KI-Tools angepasst und optimiert.

Source:

backend/models/modelFileReader.js, line 1

Methods

(async, inner) extractTextContent(buffer, mimetype, filename) → {Promise.<string>}

Extrahiert den Textinhalt einer Datei basierend auf ihrem MIME-Typ. Unterstützt PDF, DOCX, Textdateien und Bilder (OCR).

Parameters:

Name	Type	Description
`buffer`	Buffer	Der Dateiinhalt als Buffer.
`mimetype`	string	Der MIME-Typ der Datei.
`filename`	string	Der Name der Datei (optional für Logging und OCR).

Source:

backend/models/modelFileReader.js, line 103

Throws:

Falls das Dateiformat nicht unterstützt wird oder die Extraktion fehlschlägt.
Type Error

Returns:

Der extrahierte Textinhalt der Datei.

Type: Promise.<string>

Example

const buffer = fs.readFileSync('image.png');
const text = await extractTextContent(buffer, 'image/png', 'image.png');
console.log(text);

(async, inner) extractTextFromDOCX(buffer) → {Promise.<string>}

Extrahiert reinen Text aus einer DOCX-Datei.

Parameters:

Name	Type	Description
`buffer`	Buffer	Der Dateiinhalt als Buffer.

Source:

backend/models/modelFileReader.js, line 78

Returns:

Der extrahierte Text aus dem DOCX-Dokument.

Type: Promise.<string>

Example

const docxBuffer = fs.readFileSync('document.docx');
const text = await extractTextFromDOCX(docxBuffer);
console.log(text);

(async, inner) extractTextFromPDF(buffer) → {Promise.<string>}

Extrahiert Text aus einer PDF-Datei mithilfe eines externen Python-Skripts. Führt mehrere Versuche durch, falls ein Fehler auftritt.

Parameters:

Name	Type	Description
`buffer`	Buffer	Der Dateiinhalt als Buffer.

Source:

backend/models/modelFileReader.js, line 19

Throws:

Falls die Extraktion fehlschlägt oder das Python-Skript einen Fehler zurückgibt.
Type Error

Returns:

Der extrahierte Text aus dem PDF.

Type: Promise.<string>

Example

const pdfBuffer = fs.readFileSync('document.pdf');
const text = await extractTextFromPDF(pdfBuffer);
console.log(text);