Zusammenfassung
Zusammenfassung
Zusammenfassung
Zusammenfassung
Zusammenfassung
Zusammenfassung
Zusammenfassung
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Einschränkungen
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Schwierigkeiten
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Ergebnisse
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Einschränkungen
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Schwierigkeiten
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Ergebnisse
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Einschränkungen
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Schwierigkeiten
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Ergebnisse
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Einschränkungen
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Schwierigkeiten
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Ergebnisse
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Einschränkungen
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Schwierigkeiten
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Ergebnisse
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Einschränkungen
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Schwierigkeiten
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Ergebnisse
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.
Auf den vorangegangenen Seiten wurde eine auf dem Mediator-Muster basierende Beispielanwendung für die Nutzung verteilter Datenquellen eingeführt. Daraus hervorgehende Aufgaben zur Verknüpfung heterogener Instanzen wurden identifiziert und in ein Abarbeitungsschema überführt. Die dazu nötigen Bearbeitungsschritte wurden vorgestellt und die Webabfragesprache „Xcerpt“ in den Gesamkontext eingepflegt.
Paradigmen und Syntax von Xcerpt wurden im zweiten Kapitel gezeigt und zu alternativen Sprachen abgegrenzt. Die Möglichkeiten des Mappings, der Artikulation und des Mergings, welche zur Abfrage benötigte Datenterme semiautomatisch erstellen können, wurden daraufhin im Abschnitt 2.3 analysiert und mit Beispielanwendungen belegt.
Ontologien werden im Harmonisierungbereich genutzt, um semantische Ausgleiche am Quellmaterial durchzuführen. Ihr Aufbau, bestehende Repräsentationsformate und die daraus entstehenden Möglichkeiten für Wertangleichungen wurden im Kapitel 3 eingeführt. Da bei der Verwendung heterogener Quellen mitunter eine Menge sich überschneidender Wissensbereiche zusammengefügt werden müssen, wurden Ontology-Alignment-Methoden und dazu passende, aktuelle Software vorgestellt.
Kapitel 4 behandelte die Inhaltsintegration, deren Aufbau zu Beginn theoretisch eingeführt wurde. Die Schritte Suchraumbestimmung, frequenzbasierte Gewichtung statische Zeichenkettenvergleiche und Klassifizierung der gewonnenen Erkenntnisse wurden mit entsprechenden Algorithmen erörtert. Eine auf Maschinenlernerbasis arbeitende Trainingsumgebung wurde gegen zwei weitere Konzepte abgegrenzt.
Die Umsetzung dieser Algorithmen in den bestehenden Xcerpt-Interpreten stellte die Aufgabe in Kapitel 5 dar. Genauen Spezifikation des Prototypen wurden dafür genannt, Stärken und Schwächen gegeneinander abgewogen und eine lauffähige Implementierung erstellt, deren Einsatz und Performance zur Diplomverteidigung aufgezeigt werden kann.
Einschränkungen
Ziel dieser Arbeit war es, Lösungsansätze zur Konsolidierung von Instanzdaten zusammenzutragen und darzustellen. Es sollten demnach keine neuen Algorithmen erstellt werden.
Da das aktuelle Forschungsgebiet der Datenharmonisierung sehr weitverbreitet arbeitet, wird keine Garantie auf Vollständigkeit übernommen. Die berührten Themengebiete und Spezialisierungen würden bei einer komplettierten Auflistung den Rahmen dieser Arbeit sprengen lassen, so daß sich auf die erfolgsreichsten bzw. interessantesten Vertreter zurückgegriffen wurde. Es sei in diesem Sinne auf die beigelegten Quelldokumente verwiesen.
Gewonnene Erkenntnisse dienen dazu, eine entsprechende Erweiterung des Xcerpt-Interpreter zu entwerfen und prototypisch zu realisieren. Dies umfasste den Datenharmonisierungsbereich. Autonome Strukturanalyse- sowie Ontology-Alignment-Aufgaben sind von Xcerpt-unabhängigen, externen Applikationen durchzuführen, deren Installation und Einbindung nicht zur Aufgabe dieser Arbeit gehörte.
Die prototypische Implementierung einer geeigneten Erweiterung wurde durchgeführt. Aufgrund aktueller Einschränkungen im Prototypen ist diese Lösung mit bestimmten Restriktionen belegt. Dazu gehört beispielsweise das fehlende rekursive Retrieval von Unterseiten einer Datenquelle.
Schwierigkeiten
Bei der Bearbeitung einer neuartigen und auf innovativen Entwicklungen beruhenden Aufgabe lassen sich Probleme nie vollständig vermeiden. So waren erwartungsgemäß wenige Dokumentationen zur Nutzung der Xcerpt-Abfragesprache vorhanden. Aufgrund der ständigen Weiterentwicklung des Prototypen waren die wenigen vorhandenen Unterlagen bereits oft unvollständig oder Befehle anders umgesetzt. Die ausgegebenen Fehlermeldungen besaßen oft verwirrenden Charakter, an einer entsprechenden Verbesserung wird aktuell gearbeitet.
Die funktionale Programmiersprache „Haskell“ sowie der dazugehörigen Parser- und Lexer „Happy“ besaßen eine bedeutend stärkere Lernkurve als vermutet. Diese konnte durch eine breite Unterstützung der Haskell-Community überwunden werden. Der genaue innerer Ablauf des Prototypen musste in einem langwierigen Prozess iterativ und explorativ gefunden werden.
Ergebnisse
Mit der Bearbeitung der gestellten Diplomaufgabe entstand eine Vielzahl aussagekräftiger Ergebnisse. So wurde eine Übersicht aktueller Methoden der Strukturanalyse, des Ontology-Alignment und der Datenharmonisierung erarbeitet. Diese konnten in Äquivalenzklassen eingeteilt und an geeigneten Stellen mit Vertretern des Forschungs- und OpenSource-Umfeldes untermauert werden. Auf den Bereich der Datenharmonisierung wurde dabei genauer eingegangen und eine umfassende Erläuterung der verwendeten Techniken geliefert. Geeignete Vertreter der Ähnlichkeitsmessung wurden in funktionaler Programmierweise implementiert und miteinander verglichen. Anschließend wurden diese als Gruppierungsfunktion in den Xcerpt-Interpreter übernommen. Dieses Clustering unterstützt dort die Fähigkeit, nicht nur äquivalente sondern auch lediglich ähnliche Wert-Kombinationen zu Reasoning-Aufgaben innerhalb der Abfragesprache „Xcerpt“ heranzuziehen.