Der Abschnitt [Summarizer] der Datei opentext.ini steuert einen Aspekt des Dokumentkonvertierungsdienstes (DCS). Dieser Dienst konvertiert Dokumente zum Anzeigen oder Indizieren aus ihren ursprünglichen Formaten in HTML oder einfachen Text. Dokumentkonvertierungsdienste werden von Admin-Servern verwaltet. Die vom DCS verwalteten Konvertierungsdienste verwenden gemeinsam dieselben Parameter in der Datei opentext.ini. Diese Parameter steuern das Verhalten der Konvertierungsdienste. Der Abschnitt [Summarizer] ist als Bestandteil des DCS standardmäßig aktiviert.
Content Server-Summarizer arbeitet mit den Suchfunktionen von Content Server zusammen, um automatisch generierte Zusammenfassungen für Dokumente bereitzustellen. Wenn der Summarizer aktiviert ist und die Anzeigeoptionen in Content Server auf das Anzeigen von Zusammenfassungen eingestellt sind, werden von Content Server auf der Seite Suchergebnis Dokumentzusammenfassungen angezeigt, nachdem Sie eine Suche durchgeführt haben. Der Summarizer generiert Zusammenfassungen, indem er Sätze anhand ihrer Position im Dokument, der Beschaffenheit ihrer Umgebung im Dokument sowie der statistischen Signifikanz der in den Sätzen enthaltenen Wörter zusammenstellt. Diese Sätze werden in Verbindung mit der Worthäufigkeitsdatei identifiziert, bei der es sich um eine Konfigurationsdatei handelt, die die statistische Häufigkeit von Wörtern angibt, die einer großen Menge von Dokumenten entnommen wurden.
Darüber hinaus generiert der Summarizer die mit einem Dokument verknüpften Schlüsselwortfolgen. Schlüsselwortfolgen sind Wortfolgen in einem Dokument, die auf seinen Inhalt schließen lassen. Standardmäßig bestimmt der Summarizer auf der Grundlage verschiedener Faktoren wie zum Beispiel der Wiederholung von Wortfolgen innerhalb des Dokuments und ihrer Position fünf Wortfolgen zu Schlüsselwortfolgen. Wenn das Dokument keine fünf geeigneten Schlüsselwortfolgen enthält, generiert der Summarizer so viele wie er kann. Schlüsselwortfolgen werden auch auf der Seite Suchergebnis angezeigt, nachdem Sie eine Suche durchgeführt haben, sofern die Anzeigeoptionen in Content Server auf das Anzeigen von Schlüsselwortfolgen eingestellt sind und falls der Summarizer aktiviert ist.
Der Summarizer beginnt mit dem Tokenisieren von Quelldateien, um zu ermitteln, bei welchen Elementen es sich um Wörter, Abkürzungen usw. handelt. Nach dem Definieren der Elemente in der Quelldatei ermittelt der Summarizer, bei welchen Folgen von Token es sich um lesbare Sätze handelt. Er analysiert außerdem die Struktur der Quelldatei, um herauszufinden, welche Attribute nützliche Zusammenfassungsdaten enthalten. Danach beurteilt der Summarizer die Sätze anhand der Bedeutung von Wörtern sowohl im Dokument als auch in der Worthäufigkeitsdatei und generiert anschließend die Zusammenfassung. Wenn der Summarizer eine Datei aufgrund ihrer Struktur oder der Lesbarkeit ihrer Sätze nicht zusammenfassen kann, besteht ihre Zusammenfassung aus den ersten 10 Wörtern der Datei. Wenn die Quelldatei keine Wort-Token besitzt, generiert der Summarizer weder eine Zusammenfassung noch Schlüsselwortfolgen.
OpenText hat den Summarizer für in englischer Sprache vorliegende Dokumente entwickelt und konfiguriert, Sie können seine Konfiguration jedoch anpassen, um Dokumente zusammenzufassen, die in anderen Sprachen vorliegen. Wenn Sie den Summarizer anpassen möchten, sollten Sie folgende Punkte beachten:
Der Summarizer ist in der Lage, Zusammenfassungen für japanische, französische und deutsche Dokumente zu generieren, wurde aber nur mit der englischen Sprache getestet.
Der Summarizer unterstützt die meisten Satzendezeichen von Fremdsprachen, d. h. von anderen Sprachen als Englisch.
Die Zusammenfassung von Multibyte-Sprachen ist möglich. Die Erstellung von Token beruht auf Unicode.
Zusammenfassungen für Sprachen, die eine auf einem Wörterbuch basierende Tokenisierung erfordern, sind möglicherweise unvollständig.
Der Abschnitt [Summarizer] der Datei opentext.ini enthält folgende Parameter:
|
|
Wichtig: |
Diese Seite enthält auch Informationen zu DCS-Parametern. Die folgende Tabelle enthält erforderliche Einstellungen, die nur vom DCS verwendet werden.
Gibt den relativen Pfad und den Namen der Abkürzungsdatei an, die der Summarizer verwendet, um häufige Abkürzungen und alle dreistelligen Zeichenkombinationen, die keine Wörter sind, zu definieren.
Ein Pfad und ein Dateiname, der sich auf den Ablageort des DCS in der Content Server-Installation bezieht. Die Abkürzungsdatei wird standardmäßig abbrev.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert.
Gibt den relativen Pfad und den Namen der Definitionsdatei an, die der Summarizer zum Definieren seiner Operation verwendet. Die Definitionsdatei enthält fünf Zahlen, je eine pro Zeile, die jeweils folgendes repräsentieren:
Einen Resultatmultiplikator für Sätze in den ersten 20 % des Dokuments. Diese Sätze enthalten aller Wahrscheinlichkeit nach die Einführung und sind daher gut als Zusammenfassungssätze geeignet.
Eine maximale Anzahl an Word-Token, die in einem Zusammenfassungssatz zulässig sind. Ein Word-Token ist eine Kombination aus Buchstaben, Zahlen, Bindestrichen und Entitätsverweisen. Der Summarizer markiert Sätze, die mehr als die maximal zulässige Anzahl von Wort-Token enthalten, als nicht lesbar und verwendet sie nicht als Zusammenfassungssätze.
Eine Mindestanzahl an Word-Token, die in einem Zusammenfassungssatz zulässig sind. Der Summarizer markiert Sätze, die weniger Wort-Token enthalten, als durch die Mindestanzahl festgelegt wird, als nicht lesbar und verwendet sie nicht als Zusammenfassungssätze.
Ein maximales Verhältnis von Nicht-Word-Token zu Word-Token. Wenn das tatsächliche Verhältnis der Wörter, die keine Wort-Token sind, zu den Wort-Token diese Zahl überschreitet, markiert der Summarizer den Satz als nicht lesbar und verwendet ihn nicht als Zusammenfassungssatz.
Die Anzahl der Dokumente, die verwendet werden, um die Daten für die statistische Signifikanz von Wörtern in der Worthäufigkeitsdatei zu bilden.
Ein Pfad und ein Dateiname, der sich auf den Ablageort des DCS in der Content Server-Installation bezieht. Die Definitionsdatei wird standardmäßig summdef.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert.
Gibt den relativen Pfad und den Namen der Worthäufigkeitsdatei an, in der die Daten enthalten sind, die der Summarizer zum Berechnen der statistischen Signifikanz von Wörtern in Dokumenten benötigt. Diese Datei enthält eine Liste von Wörtern, die in über 1.000 der 1.371.876 Dokumente vorkommen, die von OpenText zum Erstellen des statistischen Hintergrunds für die Standardeinstellungen des Summarizers herangezogenen werden.
Ein Pfad und ein Dateiname, der sich auf den Ablageort des DCS in der Content Server-Installation bezieht. Die Worthäufigkeitsdatei wird standardmäßig docfreq.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert.
Gibt den relativen Pfad und den Namen der Füllwortdatei an, die der Summarizer zum Definieren einer Liste häufiger Stopp-Wörter verwendet. Füllwörter sind Wörter, die einem Satz keinen semantischen Wert verleihen. Dabei handelt es sich meist um funktionale Wörter wie z. B. „ein“, „und“ sowie „der, die, das“. Durch Unterscheiden der Füllwörter von den Wörtern mit semantischer Bedeutung erkennt der Summarizer, welche Wörter mit höherer Wahrscheinlichkeit zur individuellen Bedeutung des Dokuments beitragen, wodurch die Richtigkeit seiner Zusammenfassungen und Schlüsselwortfolgen gesteigert wird.
Ein Pfad und ein Dateiname, der sich auf den Ablageort des DCS in der Content Server-Installation bezieht. Die Füllwortdatei wird standardmäßig stopword.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert.
Legt den relativen Pfad und Namen der Tag-Datei fest, die eine Liste von in Dokumenten verwendeten Markierungs-Tags enthält. Beispiele für Markierungs-Tags sind HTML, XML und SGML. Neben jedem Tag befindet sich eine Zahl, die die Bedeutung des Tags für den Summarizer angibt. In der folgenden Tabelle wird die Bedeutung jeder Zahl beschrieben.
Tabelle zum Wertebereich von Tag-Signifikanz-Einstellungen:
Ein Pfad und ein Dateiname, der sich auf den Ablageort des DCS in der Content Server-Installation bezieht. Die Tag-Datei wird standardmäßig tags.eng genannt und im Konfigurationsverzeichnis der Content Server-Installation gespeichert.
Gibt den Namen der Bibliothek an, die vom DCS geladen werden soll. Eine Bibliothek ist eine Liste von Vorgängen, die mit einem Konvertierungsfilter verknüpft sind. Diese Liste wird vom DCS gelesen, um die Konvertierung durchzuführen.
Wenn der Wert dieses Parameters geändert wird, funktioniert der DCS möglicherweise nicht bzw. nicht einwandfrei.
|
|
Wichtig: |
Gibt an, ob der DCS Zusammenfassungen der Dokumente generiert, die er in HTML konvertiert. Wenn der Benutzer in den Anzeigeoptionen für die Suche festlegt, dass Zusammenfassungen angezeigt werden sollen, zeigt Content Server diese Zusammenfassungen mit den Suchergebnissen auf der Seite Suchergebnis an.
TRUE oder FALSE, wobei TRUE den DCS anweist, Zusammenfassungen zu generieren. Standardmäßig wird der Parameter summary in der Befehlszeile jedes DCS auf TRUE eingestellt.
Um den Parameter summary auf FALSE einzustellen, müssen Sie die Befehlszeile jedes DCS ändern (siehe dazu
Gibt die Anzahl der Schlüsselwörter an, die der Summarizer zum Generieren einer Dokumentzusammenfassung verwendet. Das Senken dieses Wertes kann das Generieren einer Zusammenfassung beschleunigen, es gibt aber noch viele weitere Variablen, die die Geschwindigkeit dieses Prozesses beeinflussen.
|
|
Wichtig: |
Eine Ganzzahl größer oder gleich 1. Der Standardwert ist 20.
Gibt den Teil des konvertierten Dokuments in Byte an, der von Content Server zum Generieren einer Zusammenfassung verwendet wird. Durch einen niedrigen Wert wird die Zusammenfassung auf die ersten <n> Byte des Dokuments beschränkt. Das Ändern dieses Wertes kann sich auch auf die Leistung der Dokumentkonvertierung bei umfangreichen Dokumenten auswirken.
|
|
Wichtig: |
Eine beliebige Ganzzahl größer als 1. Der Standardwert ist 256000 Byte.
Legt fest, wie oft ein Arbeitsprozess zum Verarbeiten von Dokumenten wieder verwendet wird. Bei der Dokumentkonvertierung wird vom DCS ein Arbeitsprozess geladen. Der Arbeitsprozess wiederum lädt den geeigneten Konvertierungsfilter und verwendet ihn zum Konvertieren des Dokuments. Um die Leistung zu erhöhen, wird der Arbeitsprozess vom DCS für mehrere Konvertierungen wieder verwendet. Wenn der Arbeitsprozess einen Fehler feststellt, wird der Prozess abgebrochen, bevor er den in der Datei opentext.ini festgelegten Wert erreicht.
|
|
Wichtig: |
Der Standardwert wird vom Parameter maxcalls im Abschnitt [DCSworker] der Datei opentext.ini übernommen.
|
Hinweis: Durch die Angabe eines Werts für x-maxcalls wird der Wert von maxcalls im Abschnitt [DCSworker] der Datei opentext.ini überschrieben. | |
Legt fest, wie viele Sekunden maximal gewartet wird, bevor ein Arbeitsprozess zur Dokumentkonvertierung beendet wird. Sie konfigurieren diesen Parameter, wenn der im Parameter timeout angegebene Standardwert ungeeignet ist. Sie konfigurieren den Parameter Zeitüberschreitung in der Datei opentext.ini für jeden Konvertierungsfilter. Mit einigen Konvertierungsfiltern werden beispielsweise die Dokumente langsamer konvertiert als mit anderen Konvertierungsfiltern. In diesem Fall ist der Standardwert von 30 Sekunden für timeout möglicherweise nicht geeignet, da die durchschnittliche Konvertierungszeit länger als 30 Sekunden dauert. In diesem Fall können Sie den Wert von x-timeout in einen höheren und besser geeigneten Wert ändern.
|
|
Wichtig: |
Der Standardwert wird vom Parameter timeout im Abschnitt [DCSworker] der Datei opentext.ini übernommen.
|
Hinweis: Durch die Angabe eines Werts für x-timeout wird der Wert von timeout im Abschnitt [DCSworker] der Datei opentext.ini überschrieben. | |