Die Einstellungen im Abschnitt [QDF] steuern die Konfiguration des im Dokumentkonvertierungsdienst (DCS) verwendeten QDF-Filters (Quality Document Filter). Die Dokumentkonvertierungsfilter konvertieren Dokumente zum Anzeigen oder Indizieren aus ihren ursprünglichen Formaten in HTML oder einfachen Text. Die Details des Konvertierungsprozesses hängen vom ursprünglichen Dateiformat ab. Beispielsweise konvertieren Dokumentkonvertierungsfilter Microsoft Outlook-Dateien in HTML oder einfachen Text. Soweit verfügbar, greifen die Dokumentkonvertierungsfilter standardmäßig auf die Unicode-Version einer Microsoft Outlook-Datei zurück; ist dies jedoch nicht möglich, wird die RTF-Version genutzt. Wenn weder eine Unicode- noch eine RTF-Version zur Verfügung steht, verwenden die Dokumentkonvertierungsfilter die HTML-Version. Steht weder die Unicode-, noch die RTF- oder die HTML-Version zur Verfügung, greifen die Dokumentkonvertierungsfilter auf eine Version im einfachen Textformat zurück. Wenn die Dokumentkonvertierungsfilter die RTF- oder HTML-Version einer Microsoft Outlook-Datei zum Indizieren nutzen, wird der Inhalt extrahiert und wie ein Anhang an den Dokumentkonvertierungsdienst zurückgegeben. Mit dem RTF-Filtermechanismus der QDFs wird dann der RTF-Inhalt zur Indizierung in HTML oder einfachen Text konvertiert. Weitere Informationen zu QDFs finden Sie unter Dokumentkonvertierungsfilter.

Im Abschnitt [QDF] wird auch die Extraktion benutzerdefinierter OLE-Dokument-Eigenschaften aus unterstützten Microsoft Office-Dokumenten konfiguriert. Die exportierten Metadaten-Attributnamen sind abgesehen von den folgenden beiden Ausnahmen mit den Namen der OLE-Dokument-Eigenschaften identisch: Sie haben das Präfix OTDoc und ignorieren alle Leerstellen und Schrägstriche.

Im Abschnitt [QDF] der Datei opentext.ini sind Informationen zu folgenden Parametern enthalten:

DefaultLatinEncoding

  • Beschreibung:

    Legt den zu erkennenden Latin-Standardzeichensatz fest.

    Einem Zeichensatz können mehrere Varianten zugeordnet sein. Zum Beispiel verfügen die beiden Zeichensätze ISO-8859-* und EUC jeweils über verschiedene regionale Varianten. Da sich die Varianten nur geringfügig unterscheiden, können Sie den Standardzeichensatz festlegen, den die Dokumentkonvertierungsfilter erkennen.

  • Syntax:

    DefaultLatinEncoding=ISO-8859-1

  • Werte:

    ISO-8859-1 ~ ISO-8859-15, WinANSI. Dieser Parameter wird standardmäßig nicht in der Datei „opentext.ini“ angezeigt. Dies entspricht der Einstellung DefaultLatinEncoding=ISO-8859-1.

lib

  • Beschreibung:

    Gibt den Namen der Bibliothek an, die vom DCS geladen werden soll. Eine Bibliothek ist eine Liste von Vorgängen, die mit einem Konvertierungsfilter verknüpft sind. Diese Liste wird vom DCS gelesen, um die Konvertierung durchzuführen. Dieser Parameter ist eine erforderliche Einstellung für den DCS.

    Wenn der Wert dieses Parameters geändert wird, funktioniert der DCS möglicherweise nicht bzw. nicht einwandfrei.

     

    Wichtig

    Wichtig:
    Sie sollten den Wert dieses Parameters nur ändern, wenn Sie vom OpenText-Kundendienst dazu aufgefordert werden.

     
  • Werte:

    Der Standardwert ist dcsqdf.

showcdata

  • Beschreibung:

    Gibt an, ob CDATA-Abschnitte in XML-Dokumenten (XML = Extensible Markup Language) extrahiert werden sollen, damit sie vom DCS indiziert werden können.

  • Syntax:

    showcdata=FALSE

  • Werte:

    TRUE oder FALSE, wobei FALSE den DCS anweist, beim Extrahieren von Daten aus XML-Dokumenten, die CDATA-Abschnitte auszulassen, um sie indizieren zu können. Der Standardwert ist FALSE.

     

    Hinweis

    Hinweis:
    Das Einstellen dieses Parameters auf TRUE kann sich auf die Suchleistung auswirken.

     

maxfilesunzip

  • Beschreibung:

    Legt die maximale Anzahl an Dateien fest, die die Dokumentkonvertierungsfilter beim Konvertieren aus einer komprimierten Datei extrahieren können. Die zu extrahierenden Dateien werden durch die Reihenfolge bestimmt, in der sie vom Dateiersteller ursprünglich hinzugefügt worden sind.

     

    Hinweis

    Hinweis:
    Die DCS-Regeldatei-Konfiguration unterstützt die rekursive Verarbeitung von komprimierten Dateien, d. h. einer LZH-Datei in einer LZH-Datei oder einer ZIP-Datei in einer LZH-Datei.

     
  • Syntax:

    maxfilesunzip=250

  • Werte:

    Positive Ganzzahl. Der Standardwert ist 250.

MinAsianAvgLength

  • Beschreibung:

    Gibt den Mindestwert für die durchschnittliche Lauflänge benachbarter Multibyte-Tokens an.

    Wenn die Dokumentkonvertierungsfilter feststellen, dass eine Datei nicht nur 7-Bit-Zeichen enthält, wird normalerweise eine Erkennung asiatischer Zeichensätze durchgeführt. Wenn der Wert des Parameters MinHighLowRatioForSJIS oder des Parameters MinHighLowRatioForEUC erreicht ist, überprüfen die QDFs anhand des Textes, welcher Zeichensatz verwendet werden soll.

    Beim Scannen von Multibyte-Text unterziehen die Filter den Text dabei einer zusätzlicher Bewertung. Die Dokumentkonvertierungsfilter stellen zum Beispiel die durchschnittliche Lauflänge von benachbarten Multibyte-Tokens fest, um festzustellen, ob der gescannte Text tatsächlich asiatischen Text oder nur einige Tokens enthält. Für eine solche Bewertung muss die durchschnittliche Lauflänge benachbarter Tokens größer sein als der für den Parameter MinAsianAvgLength eingestellte Mindestwert.

     

    Hinweis

    Hinweis:
    Bei der Ermittlung der durchschnittlichen Lauflänge von benachbarten Multibyte-Tokens ignorieren die Dokumentkonvertierungsfelder alle Leerzeichen und Tabulatorzeichen im gescannten Text.

    Weitere Informationen zu den zusätzlichen Bedingungen, die für eine Bewertung von Multibyte-Text erfüllt sein müssen, finden Sie in den Themen zu den Parametern MinAsianTextRatio und MinAsianTokens.

     
  • Syntax:

    MinAsianAvgLength=6

  • Werte:

    Ganzzahl größer als 1. Der Standardwert ist 6.

MinAsianTextRatio

  • Beschreibung:

    Legt den erforderlichen Mindestanteil an Bytes von asiatischem Text für eine Erkennung von asiatischem Text in Prozent fest.

    Wenn die Dokumentkonvertierungsfilter feststellen, dass eine Datei nicht nur 7-Bit-Zeichen enthält, wird normalerweise eine Erkennung asiatischer Zeichensätze durchgeführt. Wenn der Wert des Parameters MinHighLowRatioForSJIS oder des Parameters MinHighLowRatioForEUC erreicht ist, überprüfen die QDFs anhand des Textes, welcher Zeichensatz verwendet werden soll.

    Beim Scannen von Multibyte-Text unterziehen die Filter den Text dabei einer zusätzlicher Bewertung. Zuerst ermitteln die Dokumentkonvertierungsfilter die durchschnittliche Lauflänge benachbarter Multibyte-Tokens. Weitere Informationen finden Sie unter dem Parameter MinAsianAvgLength. Dann muss mindestens eine der beiden folgenden Bedingungen erfüllt sein:

    • Der Prozentanteil an asiatischen Text-Bytes liegt über dem im Parameter MinAsianTextRatio eingestellten Wert.

    • Die Anzahl der erkannten Tokens liegt über dem im Parameter MinAsianTokens eingestellten Wert. Weitere Informationen finden Sie unter MinAsianTokens.

  • Syntax:

    MinAsianTextRatio=50

  • Werte:

    Eine Ganzzahl zwischen 1 und 100. Der Standardwert ist 50.

MinAsianTokens

  • Beschreibung:

    Gibt die Anzahl der Multibyte-Tokens an, die für eine Erkennung von asiatischem Text festgestellt werden müssen.

    Wenn die Dokumentkonvertierungsfilter feststellen, dass eine Datei nicht nur 7-Bit-Zeichen enthält, wird normalerweise eine Erkennung asiatischer Zeichensätze durchgeführt. Wenn der Wert des Parameters MinHighLowRatioForSJIS oder des Parameters MinHighLowRatioForEUC erreicht ist, überprüfen die QDFs anhand des Textes, welcher Zeichensatz verwendet werden soll.

    Beim Scannen von Multibyte-Text unterziehen die Filter den Text dabei einer zusätzlicher Bewertung. Zuerst ermitteln die Dokumentkonvertierungsfilter die durchschnittliche Lauflänge benachbarter Multibyte-Tokens. Weitere Informationen finden Sie unter dem Parameter MinAsianAvgLength. Dann muss mindestens eine der beiden folgenden Bedingungen erfüllt sein:

    • Der Prozentanteil an asiatischen Text-Bytes liegt über dem im Parameter MinAsianTextRatio eingestellten Wert. Weitere Informationen finden Sie unter [MinAsianTextRatio].

    • Die Anzahl der erkannten Tokens liegt über dem im Parameter MinAsianTokens eingestellten Wert.

  • Syntax:

    MinAsianTokens=5000

  • Werte:

    Eine Ganzzahl größer als 0. Der Standardwert ist 5000.

MinHighLowRatioForEUC

  • Beschreibung:

    Legt den Quotienten zwischen hoch- und niederwertigen Bytes fest, der für eine Erkennung von asiatischen Zeichensätzen in EUC-Dateien erreicht werden muss.

    Wenn die Dokumentkonvertierungsfilter feststellen, dass eine Datei nicht nur 7-Bit-Zeichen enthält, wird normalerweise eine Erkennung asiatischer Zeichensätze durchgeführt. Diese Stufe der Zeichensatzerkennung kann zeitaufwändig sein und die MIME-Typerkennung verlangsamen. Es hängt daher von den Inhalten der Dokumentinhalten auf Ihrer Content Server-Site ab, ob diese Erkennungsstufe generell ratsam ist oder nur in Betracht kommt, wenn das Verhältnis zwischen hoch- und niederwertigen Bytes in einem Dokument über einem bestimmten Quotienten liegt. Sie können diesen Quotienten mit dem Parameter MinHighLowRatioForEUC verändern.

  • Syntax:

    MinHighLowRatioForEUC=60

  • Werte:

    Eine Ganzzahl zwischen 1 und 100. Der Standardwert ist 60.

MinHighLowRatioForSJIS

  • Beschreibung:

    Legt den Quotienten zwischen hoch- und niederwertigen Bytes fest, der für eine Erkennung von asiatischen Zeichensätzen in Shift-JIS-Dateien erreicht werden muss.

    Wenn die Dokumentkonvertierungsfilter feststellen, dass eine Datei nicht nur 7-Bit-Zeichen enthält, wird normalerweise eine Erkennung asiatischer Zeichensätze durchgeführt. Diese Stufe der Zeichensatzerkennung kann zeitaufwändig sein und die MIME-Typerkennung verlangsamen. Es hängt daher von den Inhalten der Dokumente auf Ihrer Content Server-Site ab, ob diese Erkennungsstufe generell ratsam ist oder nur in Betracht kommt, wenn das Verhältnis zwischen hoch- und niederwertigen Bytes in einem Dokument über einem bestimmten Quotienten liegt. Sie können diesen Quotienten ändern, indem Sie den Wert für den Parameter MinHighLowRatioForSJIS ändern.

  • Syntax:

    MinHighLowRatioForSJIS=50

  • Werte:

    Eine Ganzzahl zwischen 1 und 100. Der Standardwert ist 50.

outputoleinfo

  • Beschreibung:

    Gibt an, ob die QDF-Filter OLE-Eigenschaften aus dem Dokument extrahieren und diese Eigenschaften als Content Server-Metadatenattribute exportieren sollen. OLE ist ein von allen Microsoft Office-Anwendungen unterstütztes Programmintegrationsverfahren. OLE ermöglicht die gemeinsame Verwendung von Informationen durch verschiedene Anwendungen.

    Wenn dieser Parameter aktiviert ist, extrahieren die Dokumentkonvertierungsfilter die OLE-Standardeigenschaften sowie alle benutzerdefinierten OLE-Eigenschaften des Dokuments. Die OLE-Standardeigenschaften werden als die folgenden Metadatenattribute in Content Server extrahiert und exportiert:

    OTDocTitle

    OTDocSubject

    OTDocAuthor

    OTDocKeywords

    OTDocComments

    OTDocTemplate

    OTDocLastSavedBy

    OTDocRevisionNumber

    OTDocTotalEditingTime

    OTDocLastPrinted

    OTDocCreateTimeDate

    OTDocLastSavedTimeDate

    OTDocNumberofPages

    OTDocNumberofWords

    OTDocNumberofCharacters

    OTDocThumbnail

    OTDocNameofCreatingApplication

    OTDocSecurity

    OTDocCategory

    OTDocPresentationTarget

    OTDocBytes

    OTDocLines

    OTDocParagraphs

    OTDocSlides

    OTDocNotes

    OTDocHiddenSlides

    OTDocMMClips

    OTDocScaleCrop

    OTDocHeadingPairs

    OTDocTitlesofParts

    OTDocManager

    OTDocCompany

    OTDocLinksUpToDate

    Die folgende Abbildung zeigt ein Beispiel für exportierte Metadatenattribute, die in einem Suchergebnis angezeigt werden:

    Beispiel für Suchergebnisse

  • Syntax:

    outputoleinfo=TRUE

  • Werte:

    TRUE oder FALSE, wobei TRUE einen QDF-Filter anweist, die durch OLE eingebetteten Metadaten aus der Datei zu extrahieren. Die in Content Server integrierte standardmäßige Konfigurationsdatei opentext.ini enthält den Wert TRUE. Wenn der Wert in der Konfigurationsdatei nicht festgelegt ist, wird der Standardwert FALSE angenommen.

x-maxcalls

  • Beschreibung:

    Legt fest, wie oft ein Arbeitsprozess zum Verarbeiten von Dokumenten wieder verwendet wird. Bei der Dokumentkonvertierung wird vom DCS ein Arbeitsprozess geladen. Der Arbeitsprozess wiederum lädt den geeigneten Konvertierungsfilter und verwendet ihn zum Konvertieren des Dokuments. Um die Leistung zu erhöhen, wird der Arbeitsprozess vom DCS für mehrere Konvertierungen wieder verwendet. Wenn der Arbeitsprozess einen Fehler feststellt, wird der Prozess abgebrochen, bevor er den in der Datei opentext.ini festgelegten Wert erreicht.

     

    Wichtig

    Wichtig:
    OpenText empfiehlt dringend, den Wert dieses Parameters nicht zu ändern.

     
  • Werte:

    Der Standardwert wird vom Parameter maxcalls im Abschnitt [DCSworker] der Datei opentext.ini übernommen.

     

    Hinweis

    Hinweis:
    Der Parameter x-maxcalls hat nur dann eine Funktion, wenn der von ihm geänderte Konvertierungsfilter von einem Arbeitsprozess verwaltet wird. Weitere Informationen zum Konfigurieren eines Arbeitsprozesses finden Sie unter Protokolleinstellungen.

    Durch die Angabe eines Werts für x-maxcalls wird der Wert von maxcalls im Abschnitt [DCSworker] der Datei opentext.ini überschrieben.

     

x-timeout

  • Beschreibung:

    Legt fest, wie viele Sekunden maximal gewartet wird, bevor ein Arbeitsprozess zur Dokumentkonvertierung beendet wird. Sie konfigurieren diesen Parameter, wenn der im Parameter timeout angegebene Standardwert ungeeignet ist. Sie konfigurieren den Parameter timeout für jeden Konvertierungsfilter. Mit einigen Konvertierungsfiltern werden beispielsweise die Dokumente langsamer konvertiert als mit anderen Konvertierungsfiltern. In diesem Fall ist der Standardwert von 30 Sekunden für timeout möglicherweise nicht geeignet, da die durchschnittliche Konvertierungszeit länger als 30 Sekunden dauert. In diesem Fall können Sie den Wert von x-timeout in einen höheren und besser geeigneten Wert ändern.

     

    Wichtig

    Wichtig:
    OpenText empfiehlt dringend, den Wert dieses Parameters nicht zu ändern.

     
  • Werte:

    Der Standardwert wird vom Parameter timeout im Abschnitt [DCSworker] der Datei opentext.ini übernommen.

     

    Hinweis

    Hinweis:
    Der Parameter x-timeout hat nur dann eine Funktion, wenn der von ihm geänderte Konvertierungsfilter von einem Arbeitsprozess verwaltet wird. Weitere Informationen zum Konfigurieren eines Arbeitsprozesses finden Sie unter Protokolleinstellungen.

    Durch die Angabe eines Werts für x-timeout wird der Wert von timeout im Abschnitt [DCSworker] der Datei opentext.ini überschrieben.