Das Content Server-System der natürlichen Abfragesprache verwendet die vom Content Server-Summarizer bereitgestellten Funktionen, um den Text zu analysieren, den die Benutzer beim Senden von Abfragen in natürlicher Sprache eingeben. Der Abschnitt [nlqsearch] enthält die meisten Parameter, die auch im Abschnitt [Summarizer] enthalten; allerdings können die Standardwerte dieser Parameter voneinander abweichen.

Der Abschnitt [nlqsearch] der Datei opentext.ini enthält folgende Parameter:

SumAbbrevFile

  • Beschreibung:

    Legt die Abkürzungsdatei fest, mit der der Content Server-Summarizer gängige Abkürzungen und alle aus drei Buchstaben bestehenden Kombinationen, bei denen es sich nicht um Wörter handelt, definiert.

  • Syntax:

    SumAbbrevFile=../config/abbrev.eng

  • Werte:

    Ein relativer Pfad und Dateiname. Die Abkürzungsdatei wird standardmäßig abbrev.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.

SumDefFile

  • Beschreibung:

    Legt die Definitionsdatei fest, mit der der Content Server-Summarizer seine Vorgänge definiert. Die Definitionsdatei enthält fünf Zahlen, je eine pro Zeile, die jeweils folgendes repräsentieren:

    • Einen Resultatmultiplikator für Sätze in den ersten 20 % des Dokuments. Diese Sätze enthalten aller Wahrscheinlichkeit nach die Einführung und sind daher gut als Zusammenfassungssätze geeignet.

    • Eine maximale Anzahl an Word-Token, die in einem Zusammenfassungssatz zulässig sind. Ein Word-Token ist eine Kombination aus Buchstaben, Zahlen, Bindestrichen und Entitätsverweisen. Der Summarizer markiert Sätze, die mehr Word-Token als maximal zulässig enthalten, als unlesbar und verwendet sie nicht als Zusammenfassungssätze.

    • Eine Mindestanzahl an Word-Token, die in einem Zusammenfassungssatz zulässig sind. Der Summarizer markiert Sätze, die weniger Word-Token als minimal zulässig enthalten, als unlesbar und verwendet sie nicht als Zusammenfassungssätze.

    • Ein maximales Verhältnis von Nicht-Word-Token zu Word-Token. Wenn das tatsächliche Verhältnis von Nicht-Word-Token zu Word-Token diesen Wert überschreitet, markiert der Summarizer den Satz als unlesbar und verwendet ihn nicht als Zusammenfassungssatz.

    • Die Anzahl der Dokumente, die verwendet werden, um die Daten für die statistische Signifikanz von Wörtern in der Worthäufigkeitsdatei zu bilden.

  • Syntax:

    SumDefFile=../config/natlang.eng

  • Werte:

    Ein Pfad, der relativ zum Wert des Parameters otpath im Abschnitt [OTCommon] der Datei opentext.ini ist. Die Definitionsdatei wird standardmäßig natlang.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.

SumDocFreqFile

  • Beschreibung:

    Legt die Worthäufigkeitsdatei fest, die die notwendigen Daten enthält, mit denen der Content Server-Summarizer die statistische Bedeutung von Wörtern in Dokumenten berechnen kann. Diese Datei enthält eine Liste von Wörtern, die in über 1.000 der 1.371.876 Dokumente vorkommen, die von OpenText zum Erstellen des statistischen Hintergrunds für die Standardeinstellungen des Summarizers herangezogenen werden.

  • Syntax:

    SumDocFreqFile=../config/docfreq.eng

  • Werte:

    Ein relativer Pfad und Dateiname. Die Worthäufigkeitsdatei wird standardmäßig docfreq.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.

SumStopWordFile

  • Beschreibung:

    Legt die Füllwortdatei fest, mit der der Content Server-Summarizer eine Liste der gängigsten Füllwörter definiert. Füllwörter sind Wörter, die einem Satz keinen semantischen Wert verleihen. Dabei handelt es sich meist um funktionale Wörter wie z. B. ein, und sowie der, die, das. Durch Unterscheiden der Füllwörter von den Wörtern mit semantischer Bedeutung erkennt der Content Server-Summarizer, welche Wörter mit höherer Wahrscheinlichkeit zur individuellen Bedeutung des Dokuments beitragen, wodurch die Richtigkeit seiner Zusammenfassungen und Schlüsselwortfolgen gesteigert wird.

  • Syntax:

    SumStopWordFile=../config/nlstopword.eng

  • Werte:

    Ein relativer Pfad und Dateiname. Die Füllwortdatei wird standardmäßig nlstopword.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.

SumTagFile

  • Beschreibung:

    Gibt die Tag-Datei an, die eine Liste von Markierungs-Tags enthält, die in Dokumenten angezeigt werden. Beispiele für Markierungs-Tags sind HTML, XML und SGML. Neben jedem Tag befindet sich eine Zahl, die die Bedeutung des Tags für den Content Server-Summarizer angibt.

    Tabelle Wertebereich von Tag-Signifikanz-Einstellungen:

    Nummer Bezeichnung Beschreibung
    0 IGNORE_TAG Der Summarizer ignoriert diese Tags, nicht aber die enthaltenen Daten. Wenn ein Satz vor diesem Tag beginnt und außerdem ein Tag enthält, teilt der Summarizer den Satz nicht in zwei Sätze. Unbekannte Tags werden mit dieser Zahl markiert.
    1 SENTENCE_BREAKING_IGNORE_TAG Der Summarizer ignoriert diese Tags, nicht aber die enthaltenen Daten. Wenn ein Satz vor diesem Tag beginnt und außerdem ein Tag enthält, teilt der Summarizer den Satz in zwei Sätze.
    2 IGNORE_BETWEEN_TAGS Der Summarizer ignoriert diese Tags und die enthaltenen Daten.
    3 ABSTRACT Dieser Wert markiert die in diesen Tags enthaltenen Daten als Überblicksätze (kurze Zusammenfassung). Der Summarizer gibt Sätzen im Titel, Überblick und der Schlussfolgerung (in dieser Reihenfolge) beim Erstellen der Zusammenfassung vor allen anderen Sätzen Vorrang.
    4 CONCLUSION Dieser Wert markiert die in diesen Tags enthaltenen Daten als abschließende Sätze. Der Summarizer gibt Sätzen im Titel, Überblick und der Schlussfolgerung (in dieser Reihenfolge) beim Erstellen der Zusammenfassung vor allen anderen Sätzen Vorrang.
    5 TITLE_MAJOR Dieser Wert markiert die in diesen Tags enthaltenen Daten als Titelsätze. Der Summarizer gibt Sätzen im Titel, Überblick und der Schlussfolgerung (in dieser Reihenfolge) beim Erstellen der Zusammenfassung vor allen anderen Sätzen Vorrang.

  • Syntax:

    SumTagFile=../config/tags.eng

  • Werte:

    Ein relativer Pfad und Dateiname. Die Tag-Datei wird standardmäßig tags.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.