Das Content Server-System der natürlichen Abfragesprache verwendet die vom Content Server-Summarizer bereitgestellten Funktionen, um den Text zu analysieren, den die Benutzer beim Senden von Abfragen in natürlicher Sprache eingeben. Der Abschnitt [nlqsearch] enthält die meisten Parameter, die auch im Abschnitt [Summarizer] enthalten; allerdings können die Standardwerte dieser Parameter voneinander abweichen.
Der Abschnitt [nlqsearch] der Datei opentext.ini enthält folgende Parameter:
Legt die Abkürzungsdatei fest, mit der der Content Server-Summarizer gängige Abkürzungen und alle aus drei Buchstaben bestehenden Kombinationen, bei denen es sich nicht um Wörter handelt, definiert.
Ein relativer Pfad und Dateiname. Die Abkürzungsdatei wird standardmäßig abbrev.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.
Legt die Definitionsdatei fest, mit der der Content Server-Summarizer seine Vorgänge definiert. Die Definitionsdatei enthält fünf Zahlen, je eine pro Zeile, die jeweils folgendes repräsentieren:
Einen Resultatmultiplikator für Sätze in den ersten 20 % des Dokuments. Diese Sätze enthalten aller Wahrscheinlichkeit nach die Einführung und sind daher gut als Zusammenfassungssätze geeignet.
Eine maximale Anzahl an Word-Token, die in einem Zusammenfassungssatz zulässig sind. Ein Word-Token ist eine Kombination aus Buchstaben, Zahlen, Bindestrichen und Entitätsverweisen. Der Summarizer markiert Sätze, die mehr Word-Token als maximal zulässig enthalten, als unlesbar und verwendet sie nicht als Zusammenfassungssätze.
Eine Mindestanzahl an Word-Token, die in einem Zusammenfassungssatz zulässig sind. Der Summarizer markiert Sätze, die weniger Word-Token als minimal zulässig enthalten, als unlesbar und verwendet sie nicht als Zusammenfassungssätze.
Ein maximales Verhältnis von Nicht-Word-Token zu Word-Token. Wenn das tatsächliche Verhältnis von Nicht-Word-Token zu Word-Token diesen Wert überschreitet, markiert der Summarizer den Satz als unlesbar und verwendet ihn nicht als Zusammenfassungssatz.
Die Anzahl der Dokumente, die verwendet werden, um die Daten für die statistische Signifikanz von Wörtern in der Worthäufigkeitsdatei zu bilden.
Ein Pfad, der relativ zum Wert des Parameters otpath im Abschnitt [OTCommon] der Datei opentext.ini ist. Die Definitionsdatei wird standardmäßig natlang.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.
Legt die Worthäufigkeitsdatei fest, die die notwendigen Daten enthält, mit denen der Content Server-Summarizer die statistische Bedeutung von Wörtern in Dokumenten berechnen kann. Diese Datei enthält eine Liste von Wörtern, die in über 1.000 der 1.371.876 Dokumente vorkommen, die von OpenText zum Erstellen des statistischen Hintergrunds für die Standardeinstellungen des Summarizers herangezogenen werden.
Ein relativer Pfad und Dateiname. Die Worthäufigkeitsdatei wird standardmäßig docfreq.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.
Legt die Füllwortdatei fest, mit der der Content Server-Summarizer eine Liste der gängigsten Füllwörter definiert. Füllwörter sind Wörter, die einem Satz keinen semantischen Wert verleihen. Dabei handelt es sich meist um funktionale Wörter wie z. B. ein, und sowie der, die, das. Durch Unterscheiden der Füllwörter von den Wörtern mit semantischer Bedeutung erkennt der Content Server-Summarizer, welche Wörter mit höherer Wahrscheinlichkeit zur individuellen Bedeutung des Dokuments beitragen, wodurch die Richtigkeit seiner Zusammenfassungen und Schlüsselwortfolgen gesteigert wird.
Ein relativer Pfad und Dateiname. Die Füllwortdatei wird standardmäßig nlstopword.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.
Gibt die Tag-Datei an, die eine Liste von Markierungs-Tags enthält, die in Dokumenten angezeigt werden. Beispiele für Markierungs-Tags sind HTML, XML und SGML. Neben jedem Tag befindet sich eine Zahl, die die Bedeutung des Tags für den Content Server-Summarizer angibt.
Tabelle Wertebereich von Tag-Signifikanz-Einstellungen:
Ein relativer Pfad und Dateiname. Die Tag-Datei wird standardmäßig tags.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert. Zum Beispiel <Content_Server_home>/config. <Content_Server_Start> fungiert hierbei als Stamm Ihrer Content Server-Installation.