In here, thi trik is thinkin rite. Thas all u 1/2 2 do. U ½ 2 think rite. U ½ 2 b dairing & koshis, u ½ 2 b ver sensibil & totily mad. Moast ov ol u ½ 2 b cluvir, u ½ 2 b ingenius. U ½ 2 b abil 2 use whatevir is aroun u, & thass whot it reely cums doun; [...] so iss up 2 u reely what yoos u make ov it aftir that; iss ol about injinooty [...]

[Iain M. Banks "Feersum Endjinn", 1994]

Inhaltsintegration

Bei einer abstrakten Datensammlung, handelt es sich um eine Reihe von Entitätsklassen, die jeweils durch eine bestimmte Menge von im Schema vereinbarten Attributen charakterisiert werden. Diese Attribute können sowohl informationshaltende Zeichenketten (einfaches Attribut) als auch Fremdschlüssel auf andere Datensätze (referenzierte Attribute) darstellen.

Nachdem im Kapitel 2 bereits ein allgemeingültiges Vorgehen bei der Anpassung der Schemata heterogener Quellen vorgestellt wurde, folgt hier der entsprechende Part auf Instanzebene.

Diese Standardisierung umfasst i.A. die Auflösung von Inkonsistenzen in der Art und Weise, wie Informationen in den Daten repräsentiert oder umgesetzt sind.

Im Gegensatz zu reinen Schema-Integrationen ist die Entitätenanzahl hier um ein Vielfaches höher. Daraus ergibt sich das Bedürfnis, auf iterative Techniken weitesgehend zu verzichten und die Abarbeitung linear zu gestalten.

Sie besteht bei großen Datenbeständen meist aus den Stufen:

  • Grobauswahl
  • Ähnlichkeitsfindung
  • Bewertung

Ausgewählte Vertreter der jeweiligen Techniken werden darauf folgend genauer untersucht und gegeneinander gewichtet.

Abschließend soll auf Software verwiesen werden, welche die vorgestellten Algorithmen implementiert und zur Verfügung stellt.

Unterkapitel

Ansatz
Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.
Suchraumbestimmung
Aus Gründen der Effizienz und Skalierbarkeit soll ein Vergleich aller Tupel in jeder Relation verhindert werden. Analog zu Schritt 2 aus dem Abschnitt "Strukturanalyse" wird daher für jeden Datensatz der Suchraum zur Ableitung möglicher Abbildungen begrenzt.
Gewichtung
Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.
statische Zeichenketten
Der Annäherungs-Vergleich ist ein wichtiges Feature für die erfolgreiche Gewichtsermittlung wenn Zeichenketten von Namen und Adressen verglichen werden sollen. Anstelle einer einfachen Ja-Nein-Gewichtung ganzer Terme oder x Anfangsbuchstaben, erlauben Annäherungsvergleiche partielle Übereinstimmungen...
Klassifizierung
Die letzte Stufe einer Harmonisierung nachdem die Datensätze verglichen und Gewichtungsvektoren sowohl für den Einfluß bestimmter Entitätsklassen als auch der verschiedenen Testmethoden erstellt wurden, ist die Gewichtung der Paare in "Link", "Nicht-Link" oder ob die Entscheidung durch einen menschliches Review überprüft werden soll, ein "possible link"
Zusammenfassung
Datenharmonisierung kann demnach in verschiedenen Dimensionen durchgeführt werden. Es gibt die Gewichtung einzelner Attribute, was sehr häufig getan wird. Innerhalb der Attributwerte können durch TF-IDF häufiger und seltener auftretende Terme gewichtet werden. Parallel angewendete Metriken können gegeneinander gewichtet bzw. als sequentieller Entscheidungsbaum Top-Down-Traversierung aufgebaut werden. Abschließend soll an dieser Stelle ein kleiner Überblick zu frei verfügbaren Datenharmonisierungs-Tools bzw. Frameworks gegeben werden.
top