Vorbetrachtung
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
Vorbetrachtung
Vorbetrachtung
Vorbetrachtung
Vorbetrachtung
Vorbetrachtung
Vorbetrachtung
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Xcerpt-Abfragesprache
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Xcerpt-Interpreter
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Nutzung externer Programme
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Xcerpt-Abfragesprache
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Xcerpt-Interpreter
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Nutzung externer Programme
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Xcerpt-Abfragesprache
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Xcerpt-Interpreter
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Nutzung externer Programme
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Xcerpt-Abfragesprache
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Xcerpt-Interpreter
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Nutzung externer Programme
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Xcerpt-Abfragesprache
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Xcerpt-Interpreter
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Nutzung externer Programme
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Xcerpt-Abfragesprache
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Xcerpt-Interpreter
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Nutzung externer Programme
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |
Das durch Xcerpt vorgestellte patternbasierte Prinzip erlaubt es, Inhalte einfach aus Web-Dokumenten mit einer Toleranz in Breite und Tiefe zu entnehmen.
Aus der Struktur geschlossen, existieren folgende Ansätze, um dieses System mit den vorgestellten Abarbeitungsschritten aufzuwerten:
- Xcerpt-Abfragesprache
- Xcerpt-Interpreter
- Zugriff auf externe Applikationen
Alle diese Umsetzungsansätze besitzen Vor- und Nachteile, welche folgend vorgestellt werden.
Xcerpt-Abfragesprache
Statements werden in Form von deduktiv abzuarbeitenden Regeln dargestellt. Dabei werden nur diejenigen abgearbeitet, welche für die Herleitung der Ergebnisregel benötigt werden. Einmal durch lazy instantiation berechnete Zwischenergebnisse bleiben für weitere Schritte im Zwischenspeicher verfügbar.
Zur Identifizierung benötigter Quellen wird eine Unifikationsmatrix aufgebaut, welche während der Bearbeitung durch identifizierte und noch nicht aufgelöste Regeln erweitert wird.
Der Befehlssatz der Web-Abfragesprache ist Turing-vollständig. Jede computerberechenbare Aufgabe ist daher in Xcerpt umsetzbar.
Allgemeine Programmumsetzungen wirken jedoch schnell unübersichtlich und praktisch nicht verwaltbar. Ein Modulkonzept ist derzeit in Bearbeitung. Die Ausrichtung der Interpretationssprache liegt deutlich im Query- und Information-Retrieval-Bereich. Der Quellcode selbst wird zur Laufzeit eingelesen, analysiert und ausgeführt, was zu einer hohen Flexibilität führt.
Eine Dokumentabfrage externer Resourcen im XML-Format ist überraschend leicht möglich. Aktive Abfragen im Sinne von WebServices wurden durch die Diplomarbeit von [Schefels06] erarbeitet.
Durch die Unifikationsmatrix sind statistische Abfragen auf die gesammelten Daten möglich, so daß beispielsweise die Wortauftrittszahl leicht errechenbar ist. Die Implementierung reguläre Ausdrücke erweitert Xcerpts Mächtigkeit und kann für die Erkennung von Schlüsselworten und Formatanpassungen genutzt werden.
Xcerpt-Interpreter
Das Hinzufügen von Befehlen in den Xcerpt-Sourcecode entspricht einem Paradigmenwechsel. Die aktuelle Implementationsprache, das rein funktionale „Haskell“ [Haskell98], besitzt ihren Schwerpunkt in der Verarbeitung von Listen und Tupeln.
Aufgrund der Kompilierung von Regeln in den Sprachkern wird deren Ausführung performanter und der Quellcode des eigentlichen Programmes gewinnt an Übersichtlichkeit. Haskell besitzt einen hohen Befehlsumfang im mathematisch-statistischen Bereich. Listenumformungen und Matrizenoperationen sind performant durchführbar, in Haskell verwendete Funktionen werden nativ-rekursiv abgearbeitet.
Nutzung externer Programme
Die dritte Dimension stellt eine Erweiterung Xcerpts um die Mächtigkeit externer Programme dar. Diese können spezialisierte Aufgaben besser ausführen und werden von einer meist größeren Entwicklergemeinschaft gewartet und weiterentwickelt. Die Kommunikation zu ihnen mit einem Request-/Response-Protokoll herzustellen, wodurch mit funktionalen Paradigmen gebrochen wird.
Die Grundstruktur logischer Programmierung besagt demnach, daß eine bestimmte Regel stets die selbe Antwort gibt. Diese kann nicht gehalten werden, da vom externen System keine konstante Antwort erwartet werden kann. Arbeiten in dieser Richtung wurden durch Henrik Eric Svenson [Sven06][Wilk06] durchgeführt, der einen Ontologie-Reasoner über das DIG-Interface anspricht.
Um einen solchen Ansatz performant nutzen zu können, muss
- entweder die zu erwartende Abarbeitungszeit höher als die Initialisierungs-, und Übertragunszeit der Daten an die externe Anwendung sein
- oder die dadurch erreichten Ergebnisse von höherer Güte, als dies durch interne Lösungen möglich ist.
Bei großen Ontologie-Abfragen, wo eine kleine Datenmenge einem großen Implementierungs- oder Rechenaufkommen gegenübersteht, ist dies sicherlich sinnvoll.
. | Xcerpt | Interpreter | Subsystem |
---|---|---|---|
Sprachstil | interpretiert | kompiliert | Request-Response |
Update-Zeit | gering | hoch | sehr hoch |
Abarbeitungszeit | mittel | gering | hoch |
Befehlssatz | Turing-Vollständig | Turing-V., Modulkonzept | Web-Services |
Spezialisierung | Information-Retrieval | mathematische Berechnungen, Listen- u. Matrizenbearbeitung | domänenabhängig |