In here, thi trik is thinkin rite. Thas all u 1/2 2 do. U ½ 2 think rite. U ½ 2 b dairing & koshis, u ½ 2 b ver sensibil & totily mad. Moast ov ol u ½ 2 b cluvir, u ½ 2 b ingenius. U ½ 2 b abil 2 use whatevir is aroun u, & thass whot it reely cums doun; [...] so iss up 2 u reely what yoos u make ov it aftir that; iss ol about injinooty [...]
[Iain M. Banks "Feersum Endjinn", 1994]
Inhaltsintegration
Bei einer abstrakten Datensammlung, handelt es sich um eine Reihe von Entitätsklassen, die jeweils durch eine bestimmte Menge von im Schema vereinbarten Attributen charakterisiert werden. Diese Attribute können sowohl informationshaltende Zeichenketten (einfaches Attribut) als auch Fremdschlüssel auf andere Datensätze (referenzierte Attribute) darstellen.
Nachdem im Kapitel 2 bereits ein allgemeingültiges Vorgehen bei der Anpassung der Schemata heterogener Quellen vorgestellt wurde, folgt hier der entsprechende Part auf Instanzebene.
Diese Standardisierung umfasst i.A. die Auflösung von Inkonsistenzen in der Art und Weise, wie Informationen in den Daten repräsentiert oder umgesetzt sind.
Im Gegensatz zu reinen Schema-Integrationen ist die Entitätenanzahl hier um ein Vielfaches höher. Daraus ergibt sich das Bedürfnis, auf iterative Techniken weitesgehend zu verzichten und die Abarbeitung linear zu gestalten.
Sie besteht bei großen Datenbeständen meist aus den Stufen:
- Grobauswahl
- Ähnlichkeitsfindung
- Bewertung
Ausgewählte Vertreter der jeweiligen Techniken werden darauf folgend genauer untersucht und gegeneinander gewichtet.
Abschließend soll auf Software verwiesen werden, welche die vorgestellten Algorithmen implementiert und zur Verfügung stellt.