l-ray.de: Ontology Alignment

Ontology Alignment

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.

Ontologie bieten also ein Vokubular, welches eine bestimmte Domäne beschreibt, sowie eine Spezifikation der Bedeutungen der genutzen Terme in diesem Vokabular. Sie orientieren sich nicht an objektiven Gegebenheiten, sondern an den Erfordernissen aus der subjektiven Sichtweise ihres Erstellers (Dinge, wie ein Einzelner sie auffasst).

Verweisen dabei Ontologien auf sich untereinander, entsteht ein heterogenes System. Verschiedene Ontologien streifen hierbei gleiche Domänen /Anwendungsgebiete. „Ontology Alignment“ bzw. „Ontology-Matching“ sind ein vielversprechender Ansatz, diese Heterogenität zu beseitigen, indem sie Korrespondenzen zwischen semantisch verwanden Entitäten einer Ontologie finden und

Ontologien verschmelzen (Ontology-Merging)
Abfragen (Queries) beantworten
Daten übersetzen
und dadurch eine Navigation durch das Semantic Web erlauben

Beispiele

Als Erweiterung der unter "Strukturanalyse" vorgestellten Struktur-Matcher sollen hier Applicationen mit Schwerpunkt auf Ontologie-Analyse und -Merging aus dem universitären Umfeld vorgestellt werden. [Ehrig05] nennt ONION, SMART, LSD/GLUE, OLA sowie im Zuge der Dissertation umgesetzte FOAM als die verbreitetsten Vertreter.

ONION

Das „Ontology compositION system“ ist eine Applikation, um Heterogenitäten zwischen Ontologien zu erkennen. Der Ansatz geht dabei davon aus, daß die komplette Neuerstellung aus 2 vorhandenen Ontologien („Merging“) zu teuer und ineffizient ist. Daher liegt der Fokus auf der Kreation von Artikulationsregeln [vergl.Einleitung] welche daraufhin korrespondierende Konzepte verlinkt. Um ein manuelles Erstellen dieser Regeln zu vermeiden, wird ein semi-automatischer Ansatz genutzt, welcher heuristisch auf verschiedene einfache Relationen wie Bezeichner, Kommentare, Einordnungshierarchien und Attributwerte zurückgreift. Dem Nutzer wird das jeweilige Zwischenergebnis zur manuellen Bestätigung vorgestellt. Die Artikulationsregel-Verlinkung kann angewendet werden, wenn eine Anwendung Informationen von beiden Ontologien anfordert.

SMART / Prompt, Anchor-Prompt

SMART ist ebenfalls ein auf Linguistik basierender Ansatz, welcher in [NoyMusen99] vorgestellt, als Plugin for „Protoge“, dem Program für Ontologie-Erstellung der Stanford-University, weit verbreitet ist. Es überprüft, ähnlich „Onion“ Konzeptnamen auf Ähnlichkeit sowie findet übereinstimmende Relationen und Attribute, worauf es 1:1-Übereinstimmungen von Ontologie-Entitäten identifiziert.

Prompt stellt die semi-automatische Annäherung an die Herausforderung des Ontology-Mergings und -Alignments dar. Diese basiert auf dem SMART-Algorithmus. Nachdem über das Label-Matching gefundene Übereinstimmungen dem Nutzer angezeigt wurde, entscheidet dieser, welche Mergings durchgeführt werden sollen. „Prompt“ zeigt hierbei während des Mergins mögliche Inkonsistenzen wie Namenskonflikt, o.ä.. Dem Nutzer bleibt die Entscheidung, wie er manuell damit umgeht.

Anchor-Prompt erweitert diesen Workflow um zusätzliche Ontologie-Strukturuntersuchungen. Es werden erkennbar gleiche Abschnitte beider Ontologien, sog. „Alignment Pairs“ durch Ankerpunkte festgesetzt (meist identifiziert aus zeichenbasierten Vergleich der Entitäten oder direkt durch den Nutzer. Mit diesem Ankerpunkt-Wissen wird die Ontologie mit dem Ergebnis traversiert, das Vorschläge für zusätzliche Übereinstimmungen für Entitäten zwischen den bekannten Ankerpunkten gezeigt werden. Nach der Zuweisung durch den Nutzer folgt die nächste Iteration.

LSD/GLUE

Das „Learning Source Description“-System nutzt maschinen-lern-techniken, um eine unbekannte Datenquelle gegen ein vorher bereits determiniertes (erkundetes) globales Schema zu vergleichen. Durch ein vom Nutzer gegebenes Übereinstimmung einer Datenquelle zum globalen Schema, untersucht der Einleitungs-Schritt Instanzen dieser Datenquelle, um den Lernalgorithmus zu trainieren, und entdeckt dabei charakteristische Instanz-Muster und Übereinstimmungsregeln. Falls die Konzeptinstanzen des zweiten Schemas mit dem ersten Klassifizierer übereinstimmen, kann das Konzept als identisch angesehen werden. Das individuelle Matcher-Ergebnis wird daraufhin wiederverwendet, um einen allumfassenden „globalen“ Matcher zu trainieren. Mit Annahme dieses Matchers ist es nun möglich, Übereinstimmungen zwischen globalen Datenquellen und neuen Quellen zu erkennen.

LSD wurde später zu GLUE erweitert . GLUE orientiert sich mehr in Richtung Ontologien. Wie auch für LSD, sucht es die ähnlichsten Konzepte in 2 Ontologien unter Verwendung verschiedener Matcher.

Seine Lernkomponente erkennt Konzept-Klassifizierer (matcher) für Instanzen, basierend auf Instanz-Beschreibungen, bspw. den textuellen Inhalt einer Webseite. oder ihre Bezeichnung. Faktisch ist GLUE eine Multi-Learning-Strategie, weil es eine Vielzahl unterschiedlicher Typen von Informationen gibt, welche Konzeptklassifizierer nutzen können. Sie reichen von Instanz-namen zu Wort-Frequenzen in Dokumenten oder Werte-Formaten. (Value-Formats)

Von diesen gelernten Konzeptklassifizierern leiten sie ab, ob Konzepte in 2 schemen zueinander korrespondieren .

Konzepte und Relationen werden zusätzlich durch Nutzung von „relaxation Labeling“ verglichen . Diese „relaxation labeling“ besitzen den Hintergrund, dass die Bezeichner eines Knotens, oder auch Übereinstimmungen zu einer Eintität typischerweise von den Merkmalen der Knotennachbarschaft im Graphen beeinflußt werden.

Eine lokal optimale Übereinstimmung für jede Entität wird unter Nutzung der Ähnlichkeitsresultate von benachbarten Entitätspaaren einer vorhergehenden Runde erkannt. Die individuellen Constraint-ähnlichkeiten werden für die finale Alignment addiert – Wahrscheinlichkeit- die zusätzlichen relaxation-labelling, welche die ontologische Struktur angeht, basiert wiederum auf manuell enkodierten, vordefinierten Regeln. Normalerweise muss man alle möglichen Labeling-Konfigurationen überprüfen, welche die Alignments aller weiteren Entitäten mit einbeschließt. Die Komplexität der hier vorgestellten Konzepte wird durch eine sensible Partitionierung der Ergebnisse performant gehalten. So werden z.B. Bezeichnergrupen mit gleichen Merkmalen gruppiert und damit nur einmal verarbeitet

Der Glue-Maschinenlearning-approach ist angebracht für ein Scenario mit extensive textuellen Instance-Beschreibungen, aber wird nicht auf rein Ontologie-schema behafteten Quellen wirken. Weiterhin können Relationen oder Instanzen nicht direkt in GLUE verbunden werden.

OLA

Der OWL Lite Aligner nutzt verschiedene Komponenten der involvierten Ontologien, um Ähnlichkeiten zu erkennen. Die Basis-Ähnlichkeit werden von den Bezeichnern berechnet - Iterativ beeinflußen sich diese basis-ähnlichkeit gegenseitig, bis die Ähnlichkeiten zwischen allen Paaren der beiden Ontologien untereinander gut ausbalanciert sind. In jeder Iteration werden die Ähnlichkeiten unter Hinzunahme der Ähnlichkeiten der Nachbarknoten rekalkuliert, wobei Nachbarschaft heißt, daß eine Beziehung zu ihnen besteht.

OLA ist somit eine Annäherung, welche neben element- ebenfalls strukturinformationen nutzt, Die fließenden Ähnlichkeiten sind in Abhängigkeit zu ihrer Art (subsumption, instantiation,...) unterschiedlich gewichtet, . Der Nutzer setzt diese Gewichte in Abhängigkeit zu seinen Präferenzen. Das Finden der korrekten Übereinstimmung ist ein Optimisierungsproblem mit maximaler Ähnlichkeiten. Der OLA gibt 1:1-Alignments von Konzepten, Realtionen und Instanzen zurück.

FOAM

Das „Framework for Ontology Alignment and Mapping.“ ist aus der Dissertation von Dr. Marc Ehrig entstanden und setzt die in dieser Arbeit erarbeiteten Erkenntnisse um. Es nutzt KAON2 als OWL-DL-interpreter und greift auf WEKA, ein Open-Source-Tools für maschinenlernbare Algorithmen, sowie das bereits mehrfach erwähnte WordNet, ein Online-Synonym-Datenbank für englische Begriffe, zurück. FOAM unterstützt OWL-DL-Formate und ist durch seine flexiblen Klassen für Feature-Selektion sowie einer Vielzahl von Bibliotheken für Ähnlichkeitsmessungen (vergl. Kapitel Datenharmoisierung) sehr gut erweiterbar. Verschiedene Kombiationsstrategien für die einzeln erzielten Ähnlichkeitsmessungen sind möglich, von simpler Durchschnittsberechnung, hin zu maschinenerlernbaren Entscheidungsbäumen bis zu neuronalen Netzen. Eine Eingreifen des Nutzers in den iterativen Prozeß, z.B. zur Korrektur von Zwischenergebnissen ist möglich. Ein Plugin für die Plattform OntoMap ist ebenfalls vorhanden.