Ich bin jung und kenne meine Stadt. Es gibt viele Ecken, wo nur laut geschrien wird und andere, wo wirklich 'was los ist. Ich habe mittlerweile viele Adressen gefunden, bei denen ich mich zu unterschiedlichsten Events informieren kann. Das Abgrasen der individuellen Quellen ist aber mit sehr viel Aufwand verbunden, den ich mir sparen will.


Einführung

      Ich bin jung und kenne meine Stadt. Es gibt viele Ecken, wo nur laut geschrien wird und andere, wo wirklich 'was los ist. Ich habe mittlerweile viele Adressen gefunden, bei denen ich mich zu unterschiedlichsten Events informieren kann. Das Abgrasen der individuellen Quellen ist aber mit sehr viel Aufwand verbunden, den ich mir sparen will.


      Einführung

          Ich bin jung und kenne meine Stadt. Es gibt viele Ecken, wo nur laut geschrien wird und andere, wo wirklich 'was los ist. Ich habe mittlerweile viele Adressen gefunden, bei denen ich mich zu unterschiedlichsten Events informieren kann. Das Abgrasen der individuellen Quellen ist aber mit sehr viel Aufwand verbunden, den ich mir sparen will.


          Einführung

              Ich bin jung und kenne meine Stadt. Es gibt viele Ecken, wo nur laut geschrien wird und andere, wo wirklich 'was los ist. Ich habe mittlerweile viele Adressen gefunden, bei denen ich mich zu unterschiedlichsten Events informieren kann. Das Abgrasen der individuellen Quellen ist aber mit sehr viel Aufwand verbunden, den ich mir sparen will.


              Einführung

                  Ich bin jung und kenne meine Stadt. Es gibt viele Ecken, wo nur laut geschrien wird und andere, wo wirklich 'was los ist. Ich habe mittlerweile viele Adressen gefunden, bei denen ich mich zu unterschiedlichsten Events informieren kann. Das Abgrasen der individuellen Quellen ist aber mit sehr viel Aufwand verbunden, den ich mir sparen will.


                  Einführung

                      Ich bin jung und kenne meine Stadt. Es gibt viele Ecken, wo nur laut geschrien wird und andere, wo wirklich 'was los ist. Ich habe mittlerweile viele Adressen gefunden, bei denen ich mich zu unterschiedlichsten Events informieren kann. Das Abgrasen der individuellen Quellen ist aber mit sehr viel Aufwand verbunden, den ich mir sparen will.


                      Einführung

                          Ich bin jung und kenne meine Stadt. Es gibt viele Ecken, wo nur laut geschrien wird und andere, wo wirklich 'was los ist. Ich habe mittlerweile viele Adressen gefunden, bei denen ich mich zu unterschiedlichsten Events informieren kann. Das Abgrasen der individuellen Quellen ist aber mit sehr viel Aufwand verbunden, den ich mir sparen will.


                          Einführung


                              In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

                              Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

                              Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

                              Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

                              Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

                              In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

                              Integrationsschichten einer Datenharmonisierung

                              Es besteht aus

                              • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
                              • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
                              • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

                              Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

                              Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

                              Schema-Architektur

                              Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

                              In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

                              Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

                              Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

                              In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

                              Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

                              Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

                              Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

                              Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

                              Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

                              Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

                               

                          Motivation

                          In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

                          Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

                          Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

                          Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

                          Ansatz

                          Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

                          In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

                          Integrationsschichten einer Datenharmonisierung

                          Es besteht aus

                          • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
                          • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
                          • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

                          Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

                          Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

                          Schema-Architektur

                          Aufgabenstellung

                          Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

                          In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

                          Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

                          Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

                          Vorgehensweise

                          In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

                          Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

                          Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

                          Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

                          Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

                          Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

                          Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

                           

                      Motivation

                      In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

                      Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

                      Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

                      Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

                      Ansatz

                      Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

                      In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

                      Integrationsschichten einer Datenharmonisierung

                      Es besteht aus

                      • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
                      • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
                      • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

                      Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

                      Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

                      Schema-Architektur

                      Aufgabenstellung

                      Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

                      In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

                      Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

                      Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

                      Vorgehensweise

                      In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

                      Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

                      Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

                      Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

                      Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

                      Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

                      Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

                       

                  Motivation

                  In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

                  Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

                  Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

                  Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

                  Ansatz

                  Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

                  In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

                  Integrationsschichten einer Datenharmonisierung

                  Es besteht aus

                  • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
                  • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
                  • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

                  Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

                  Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

                  Schema-Architektur

                  Aufgabenstellung

                  Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

                  In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

                  Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

                  Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

                  Vorgehensweise

                  In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

                  Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

                  Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

                  Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

                  Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

                  Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

                  Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

                   

              Motivation

              In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

              Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

              Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

              Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

              Ansatz

              Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

              In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

              Integrationsschichten einer Datenharmonisierung

              Es besteht aus

              • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
              • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
              • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

              Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

              Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

              Schema-Architektur

              Aufgabenstellung

              Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

              In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

              Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

              Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

              Vorgehensweise

              In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

              Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

              Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

              Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

              Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

              Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

              Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

               

          Motivation

          In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

          Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

          Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

          Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

          Ansatz

          Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

          In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

          Integrationsschichten einer Datenharmonisierung

          Es besteht aus

          • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
          • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
          • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

          Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

          Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

          Schema-Architektur

          Aufgabenstellung

          Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

          In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

          Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

          Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

          Vorgehensweise

          In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

          Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

          Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

          Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

          Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

          Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

          Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

           

      Motivation

      In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

      Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

      Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

      Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

      Ansatz

      Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

      In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

      Integrationsschichten einer Datenharmonisierung

      Es besteht aus

      • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
      • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
      • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

      Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

      Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

      Schema-Architektur

      Aufgabenstellung

      Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

      In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

      Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

      Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

      Vorgehensweise

      In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

      Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

      Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

      Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

      Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

      Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

      Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

       

Motivation

In einer durchschnittlichen deutschen Großstadt finden jedes Wochenende eine unüberschaubare Anzahl öffentlicher Musikveranstaltungen statt, welche von unterschiedlich interessiertem Publikum besucht werden.

Aus der Sicht eines Veranstaltungsvermittlers stellt das obige Zitat eine typische und doch individuelle Meinung dar. Für jede Anfrage möchte er die richtige Anlaufstelle sein und die passenden Vorschläge parat haben. Dafür ist es wichtig, auf jedes persönliche Interesse einzugehen und selbst auf eine breite Palette an Informationsquellen in der jeweiligen Richtung zugreifen zu können. Dabei soll der Einzelne jedoch selbst auch in die Lage versetzt werden, Quellen zu wählen und andere ausschließen zu können. Somit wird eine individuelle Interessenausrichtung garantiert.

Weniger geübte Informationslieferanten gestalten ihre Informationen teils schwer verständlich und mehrdeutig. Der gute Veranstaltungsvermittler versteht es, diese Aussagen in die Sprache seiner Kunden zu übersetzen. Im Detail bedeutet das oft, die Wortaneinanderreihung in einen dem jeweiligen Sprachgebrauch üblichen Satzbau zu bringen, irrelevante Bestandteile zu entfernen und die Wortwahl den üblichen Normen anzupassen.

Diese angepassten Aussagen werden mit den Informationen anderer Quellen verglichen, gegenseitig ergänzt und eventuell mehrfach auftretende Sachverhalte zu einer Antwort zusammengefasst.

Ansatz

Genauer betrachtet gleicht der Vermittler die Aussagen verschiedener Quellen zunächst in struktureller Weise an, indem er die Sprache der Quellen in eine Repräsentationssprache umwandelt. In einem zweiten Verarbeitungsschritt werden die Wortwahl und Begriffsbedeutungen konzeptionell vereinheitlicht. Nun vergleicht er das gewonnene Wissen der voneinander unabhängigen Quellen inhaltlich miteinander. Dabei werden fehlende Informationen ggf. mit eigenem Wissen ergänzt und mehrfach genannte Events als „identisch“ gekennzeichnet.

In der Informationsverarbeitung wird dieses Vorgehen als das Schichtenmodell für die Datenintegration bezeichnet [Studer05].

Integrationsschichten einer Datenharmonisierung

Es besteht aus

  • einer Schema-Integration, welche die Struktur des Quellmaterials analysiert und auf eine gemeinsame Syntax anpasst
  • einer Ontologie-Integration, durch die abweichende Begriffstermini und Relationsbezeichnungen ausgeglichen werden,
  • sowie einer Record/Entity-Integration, in der die nun angepassten Daten inhaltlich abgestimmt werden, um beispielsweise Duplikate zu entfernen

Die allgemeine Notwendigkeit begründet sich in der Tatsache, dass aufgrund der Autonomie der jeweiligen Einzelinstitution in jeglicher Art von Informationsbereitstellung diese ihre Datenbasen nach subjektiven Punkten aufbaut. Der Versuch, dem durch Standardisierungen wie der „Dublin Core Initiative“ [dublinCore06] entgegenzuwirken, kann die Abweichung lediglich minimieren, jedoch nicht verhindern.

Mögliche Lösungen stellen förderative Datenbanksysteme sowie Vermittler („Mediatoren“) dar [Balouch03] [Gamma94]. Erstere besitzen eine homogenisierte Softwareschicht auf verteilte Datenbanken. Mediatoren dagegen bieten eine integrierte Sicht auf heterogene Datenbestände, indem sie diese abrufen, auf eine geeignete Auswahl an Informationen reduzieren, Unterschiede in der Datenkonsistenz bezgl. Struktur, Repräsentation und Semantik ausgleichen und so in die gewünschte Form aufbereitet an eine Anwendung ausliefern.

Schema-Architektur

Aufgabenstellung

Das „Institut für Programmier- und Modelliersprachen“ der "Ludwig Maximilian Universität" München entwickelt als Teil der Arbeitsgruppe IV „Query“ des Europäischen Forschungsprojektes „Rewerse“ eine Abfragesprache, mit welcher der Zugriff sowie die Vereinigung von Teilergebnissen verschiedenster Ressourcen mit „Reasoning-Capabilities“ ermöglicht wird.

In dieser Arbeit sollen allgemeine Lösungsansätze zur Konsolidierung von Ressourceninstanzen zusammengetragen und dargestellt werden.

Dabei wird auf die drei Integrationsschichten der Daten- , Ontologie- und Inhaltsschicht eingegangen, welche zusammen das Domänenwissen darstellen. Das jeweilige Vorgehen wird strukturiert aufgezeigt, wobei typische technische Umsetzungen beleuchtet werden.

Auf Grundlage der daraus gewonnenen Erkenntnisse wird die Web-Anfragesprache „Xcerpt“ mit Fähigkeiten zur Datenharmonisierung ausgestattet sowie ein Mediator entworfen und prototypisch realisiert.

Vorgehensweise

In den bisherigen Betrachtungen wurde der Leser anhand eines praktischen Beispieles in das Thema eingeführt und mit grundlegendem Verständnis ausgestattet. Die Aufgabenstellung dieser Arbeit wurde erläutert und der weitere Ablauf vorgestellt.

Im nächsten Kapitel wird die Integration abweichender Strukturen, wie sie in Illustration 1 aufgezeigt werden, näher beleuchtet. Es soll die Mächtigkeit sowie der Befehlsumfang der Abfragesprache „Xcerpt“ vorgestellt werden, welche die Grundlage der praktischen Umsetzung der hier vorgestellten Konzepte darstellt. Weiterhin werden Methoden und Programmsammlungen zur automatischen Erkennung der für Xcerpt benötigten Muster besprochen und Beispiele aus dem universitären Umfeld evaluiert, welche mit diesen Technologien arbeiten.

Der Inhalt des 3. Kapitels wird das Vorgehen bei der ontologischen Anpassung von Datenquellen vorstellen. Der Begriff „Ontologien“ wird eingeführt, zur Auswertung benötigte Formate werden erläutert sowie Methoden zur kooperativen Nutzung unterschiedlicher Ontologie-Systeme vorgestellt. Eine Auflistung praktischer Programmumsetzungen soll den Abschnitt praktisch untermauern und abrunden.

Kapitel 4, welches den Schwerpunkt dieser Arbeit darstellt, führt den Leser in den stufenweisen Ablauf klassischer Inhaltsintegration ein. Datensätze, welche auf keinen Fall identisch sind, werden durch Grobtechniken sofort von einer näheren Untersuchung ausgeschlossen. Gewichtungsmethoden werden vorgestellt, welche die Wichtigkeit bestimmter Vergleichsduplikate festlegen.

Statische Vergleichsmethoden für Zeichenketten finden einen Ähnlichkeitsgrad zweier Wörter, so das typographische Abweichungen übergangen werden können. Durch Klassifikationsalgorithmen werden die Ergebnisse der davor angewendeten Techniken ins Verhältnis gebracht und identische von nicht-identischen Datenpaaren unterschieden.

Im 5. Kapitel werden schließlich die Komponenten von Xcerpt herausgearbeitet und die Möglichkeit der Umsetzung jeder Integrationsstufe innerhalb dieser evaluiert. Als Ergebnis wird der in der Einleitung erwähnte Veranstaltungsvermittler technisch umgesetzt.

Das abschließende Kapitel beinhaltet eine Zusammenfassung sowie einen Ausblick, in wieweit eine weiterführende Untersuchung dieses Wissensbereiches durchgeführt werden kann.

 

top