In unserem Zeitalter übermäßiger Werbung und Datenflut ist es wichtig, die Nadel im Heuhaufen bei der Trennung von Spreu und Weizen nicht zu übersehen.


Schemaintegration

In der folgenden Phase der Datenaufbereitung werden von unterschiedlichen Domänen, welche für die Suche ausgewählt wurden, relevante Informationen erkannt und auf ein weiterverarbeitbare Struktur gebracht.

Das heißt im Einzelnen,

  • Schemas erkennen
  • mit Muster manuell übersetzen und
  • dadurch Instanzen extrahieren.

Durch diesen Schritt wird garantiert, dass nur relevante Informationen erfasst und weiterverarbeitet werden, während redundante und nicht informationstragende Bestandteile vernachlässigt werden.

Bei der Transformation kann bereits domänenabhängige Syntax angepasst werden, beispielsweise das Datumsformat. Im integrierten Schema sollte auf eine standardisierte Darstellung wie DublinCore zurückgegriffen werden.

Im Folgenden wird nach einer kurzen Definition die Mächtigkeit der Web-Abfragesprache „Xcerpt“ näher vorgestellt. Um die dabei genutzten Pattern automatisch erstellen zu können, folgt im Anschluß eine Ausarbeitung möglicher Struktur-Matching-Methoden. Das darin vermittelte Wissen findet anschließend durch eine Übersicht aktueller, auf individueller oder kombinatorischer Basis arbeitenden Strukturanalyse-Applikationen Anwendung.

Wenn S das Schema einer Datensammlung A ist, welches aus verschiedenen Entitätsklassen besteht, besitzt S folgenden Eigenschaften:

  • Jede Entitätsklasse c aus A wird mit Hilfe von S durch ein Tupel von Attributen (attr1,...,attrn) charakterisiert.
  • Jedes Attribut attr besitzt einen Bezeichner l und hat entweder einen einfachen Datentyp, oder referenziert eine Menge aus A (Fremdschlüssel).
  • Jede Entitätsklasse (kurz Klasse) enthält eine Menge von Einträgen ai . Diese Einträge setzen sich aus Attributen zusammen.
  • Jede Klasse c aus A ist eine Menge von Einträgen a1,...,an . Dabei enthält jeder Eintrag ai für jedes Attribut attr (das für die Klasse durch das Schema festgelegt wird) eine Menge von Attributwerten ai=(attr1,...attrn) .

Ziel dieses Abschnittes ist die Angleichung zweier Schemata S1 und S2 zu einem Gesamtschema S0 , so daß für jedes Attribut attr1n in S1 im Idealfall ein equivalentes Attribut attr2n in S2 gefunden wird und diese in S0 als attr0n repräsentiert werden.

Strukturelle Divergenzen werden dabei in 2 Formen auftreten:

  • als unterschiedliche Modellierungskonzepte,
  • als Meta-Konflikte, wenn eine Eigenschaft attr1 in S1 als Wert und in einer anderen S2 als Information auf Schema-Ebene abgebildet wird.

Unterkapitel

Xcerpt
Die Web-Abfrage hat sich zu einer komfortablen und modernen Art entwickelt, Informationen aus dem Netz zu gewinnen. Durch XSLT und XQuery für XML-Formate als auch SPARQL für RDF stellt das W3C erste Ansätze automatisierter Informationsgewinnung zur Verfügung.
Regeln
Ein Xcerpt-Programm besteht aus einer Menge von Regeln, welche aus einem Körper und einem Kopf bestehen.
Terme
in Xcerpt
Strukturanalyse
Aufgrund des subjektiven Architekturansatzes werden kaum auf einem Gebiet exakt passende Strukturen zu finden sein. Die Identifizierung und Nutzung semantischer Korrespondenzen zwischen den Elementen zweier Schemata wird mit „Schema-Alignment“ bezeichnet und gilt es in einer Vielzahl von Anwendungen zu lösen. Im Bereich der Daten-Integrationen sowie XML-Message-Mapping in heterogenen Systemen beispielsweise vorgefunden, kommen Struktur-Analysen bei e-Commerce- oder Data-Warehousing-Applicationen stark zum Einsatz.
top