Ansatz

      Ansatz

          Ansatz

              Ansatz

                  Ansatz

                      Ansatz

                          Ansatz

                              Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

                              In der „Ontologie-Integration“ wurden Inkonsistenzen durch

                              • Synonymen,
                              • Homonymen,
                              • Abkürzungen und
                              • Füllwörtern ohne Informationsgehalt

                              beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

                              Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

                              In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

                              • typographische Fehler,
                              • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
                              • falsche Buchstabierung
                              • Integration multipler Quellen

                              Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

                              Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

                              Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

                              Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

                              Die Menge geordneter Paare

                              A×B=(a,b):aA,bB

                              ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

                              M={(a,b):a=b,aA,bB}

                              und Abweichungen

                              U={(a,b):ab,aA,bB}

                              Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

                                γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

                              wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

                              Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

                              m(γ)=P{γ[α(a),β(b)](a,b)M}

                              m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

                              analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

                              Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

                              A1 den gleichen Sachverhalt ausdrückend,

                              A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

                              A3 abweichende Sachverhalte ausdrückend

                              ausweisen zu können.

                              Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

                              d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

                              und

                              i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

                              Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

                              Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

                              P(A1U)=γΓu(γ)P(A1γ)

                              Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

                              P(A1U)=γΓm(γ)P(A1γ)

                              Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

                              Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

                              Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

                              R(A,R)=RAR gilt.

                              Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

                              Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

                              P(A,R)=RAA

                              Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

                              Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

                              Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

                              F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

                              wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

                              Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

                              Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

                              Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

                              Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

                               falls R>Obergrenze , dann bezeichne (a,b) als Link.

                               falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

                               falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

                              Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

                              Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

                              Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

                          Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

                          In der „Ontologie-Integration“ wurden Inkonsistenzen durch

                          • Synonymen,
                          • Homonymen,
                          • Abkürzungen und
                          • Füllwörtern ohne Informationsgehalt

                          beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

                          Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

                          In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

                          • typographische Fehler,
                          • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
                          • falsche Buchstabierung
                          • Integration multipler Quellen

                          Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

                          Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

                          Duplikate

                          Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

                          Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

                          Die Menge geordneter Paare

                          A×B=(a,b):aA,bB

                          ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

                          M={(a,b):a=b,aA,bB}

                          und Abweichungen

                          U={(a,b):ab,aA,bB}

                          Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

                            γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

                          wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

                          Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

                          m(γ)=P{γ[α(a),β(b)](a,b)M}

                          m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

                          analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

                          Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

                          A1 den gleichen Sachverhalt ausdrückend,

                          A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

                          A3 abweichende Sachverhalte ausdrückend

                          ausweisen zu können.

                          Klassifikation

                          Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

                          d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

                          und

                          i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

                          Fehler

                          Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

                          Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

                          P(A1U)=γΓu(γ)P(A1γ)

                          Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

                          P(A1U)=γΓm(γ)P(A1γ)

                          Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

                          Vollständigkeit

                          Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

                          Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

                          R(A,R)=RAR gilt.

                          Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

                          Präzision

                          Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

                          P(A,R)=RAA

                          Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

                          Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

                          f-measure

                          Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

                          F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

                          wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

                          Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

                          Verlinkung

                          Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

                          Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

                          Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

                           falls R>Obergrenze , dann bezeichne (a,b) als Link.

                           falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

                           falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

                          Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

                          Fazit

                          Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

                          Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

                      Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

                      In der „Ontologie-Integration“ wurden Inkonsistenzen durch

                      • Synonymen,
                      • Homonymen,
                      • Abkürzungen und
                      • Füllwörtern ohne Informationsgehalt

                      beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

                      Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

                      In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

                      • typographische Fehler,
                      • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
                      • falsche Buchstabierung
                      • Integration multipler Quellen

                      Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

                      Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

                      Duplikate

                      Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

                      Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

                      Die Menge geordneter Paare

                      A×B=(a,b):aA,bB

                      ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

                      M={(a,b):a=b,aA,bB}

                      und Abweichungen

                      U={(a,b):ab,aA,bB}

                      Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

                        γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

                      wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

                      Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

                      m(γ)=P{γ[α(a),β(b)](a,b)M}

                      m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

                      analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

                      Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

                      A1 den gleichen Sachverhalt ausdrückend,

                      A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

                      A3 abweichende Sachverhalte ausdrückend

                      ausweisen zu können.

                      Klassifikation

                      Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

                      d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

                      und

                      i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

                      Fehler

                      Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

                      Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

                      P(A1U)=γΓu(γ)P(A1γ)

                      Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

                      P(A1U)=γΓm(γ)P(A1γ)

                      Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

                      Vollständigkeit

                      Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

                      Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

                      R(A,R)=RAR gilt.

                      Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

                      Präzision

                      Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

                      P(A,R)=RAA

                      Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

                      Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

                      f-measure

                      Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

                      F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

                      wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

                      Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

                      Verlinkung

                      Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

                      Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

                      Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

                       falls R>Obergrenze , dann bezeichne (a,b) als Link.

                       falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

                       falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

                      Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

                      Fazit

                      Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

                      Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

                  Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

                  In der „Ontologie-Integration“ wurden Inkonsistenzen durch

                  • Synonymen,
                  • Homonymen,
                  • Abkürzungen und
                  • Füllwörtern ohne Informationsgehalt

                  beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

                  Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

                  In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

                  • typographische Fehler,
                  • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
                  • falsche Buchstabierung
                  • Integration multipler Quellen

                  Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

                  Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

                  Duplikate

                  Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

                  Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

                  Die Menge geordneter Paare

                  A×B=(a,b):aA,bB

                  ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

                  M={(a,b):a=b,aA,bB}

                  und Abweichungen

                  U={(a,b):ab,aA,bB}

                  Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

                    γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

                  wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

                  Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

                  m(γ)=P{γ[α(a),β(b)](a,b)M}

                  m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

                  analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

                  Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

                  A1 den gleichen Sachverhalt ausdrückend,

                  A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

                  A3 abweichende Sachverhalte ausdrückend

                  ausweisen zu können.

                  Klassifikation

                  Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

                  d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

                  und

                  i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

                  Fehler

                  Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

                  Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

                  P(A1U)=γΓu(γ)P(A1γ)

                  Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

                  P(A1U)=γΓm(γ)P(A1γ)

                  Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

                  Vollständigkeit

                  Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

                  Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

                  R(A,R)=RAR gilt.

                  Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

                  Präzision

                  Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

                  P(A,R)=RAA

                  Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

                  Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

                  f-measure

                  Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

                  F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

                  wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

                  Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

                  Verlinkung

                  Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

                  Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

                  Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

                   falls R>Obergrenze , dann bezeichne (a,b) als Link.

                   falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

                   falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

                  Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

                  Fazit

                  Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

                  Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

              Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

              In der „Ontologie-Integration“ wurden Inkonsistenzen durch

              • Synonymen,
              • Homonymen,
              • Abkürzungen und
              • Füllwörtern ohne Informationsgehalt

              beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

              Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

              In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

              • typographische Fehler,
              • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
              • falsche Buchstabierung
              • Integration multipler Quellen

              Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

              Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

              Duplikate

              Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

              Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

              Die Menge geordneter Paare

              A×B=(a,b):aA,bB

              ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

              M={(a,b):a=b,aA,bB}

              und Abweichungen

              U={(a,b):ab,aA,bB}

              Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

                γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

              wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

              Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

              m(γ)=P{γ[α(a),β(b)](a,b)M}

              m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

              analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

              Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

              A1 den gleichen Sachverhalt ausdrückend,

              A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

              A3 abweichende Sachverhalte ausdrückend

              ausweisen zu können.

              Klassifikation

              Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

              d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

              und

              i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

              Fehler

              Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

              Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

              P(A1U)=γΓu(γ)P(A1γ)

              Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

              P(A1U)=γΓm(γ)P(A1γ)

              Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

              Vollständigkeit

              Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

              Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

              R(A,R)=RAR gilt.

              Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

              Präzision

              Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

              P(A,R)=RAA

              Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

              Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

              f-measure

              Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

              F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

              wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

              Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

              Verlinkung

              Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

              Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

              Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

               falls R>Obergrenze , dann bezeichne (a,b) als Link.

               falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

               falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

              Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

              Fazit

              Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

              Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

          Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

          In der „Ontologie-Integration“ wurden Inkonsistenzen durch

          • Synonymen,
          • Homonymen,
          • Abkürzungen und
          • Füllwörtern ohne Informationsgehalt

          beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

          Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

          In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

          • typographische Fehler,
          • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
          • falsche Buchstabierung
          • Integration multipler Quellen

          Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

          Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

          Duplikate

          Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

          Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

          Die Menge geordneter Paare

          A×B=(a,b):aA,bB

          ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

          M={(a,b):a=b,aA,bB}

          und Abweichungen

          U={(a,b):ab,aA,bB}

          Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

            γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

          wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

          Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

          m(γ)=P{γ[α(a),β(b)](a,b)M}

          m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

          analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

          Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

          A1 den gleichen Sachverhalt ausdrückend,

          A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

          A3 abweichende Sachverhalte ausdrückend

          ausweisen zu können.

          Klassifikation

          Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

          d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

          und

          i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

          Fehler

          Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

          Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

          P(A1U)=γΓu(γ)P(A1γ)

          Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

          P(A1U)=γΓm(γ)P(A1γ)

          Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

          Vollständigkeit

          Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

          Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

          R(A,R)=RAR gilt.

          Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

          Präzision

          Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

          P(A,R)=RAA

          Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

          Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

          f-measure

          Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

          F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

          wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

          Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

          Verlinkung

          Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

          Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

          Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

           falls R>Obergrenze , dann bezeichne (a,b) als Link.

           falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

           falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

          Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

          Fazit

          Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

          Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

      Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

      In der „Ontologie-Integration“ wurden Inkonsistenzen durch

      • Synonymen,
      • Homonymen,
      • Abkürzungen und
      • Füllwörtern ohne Informationsgehalt

      beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

      Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

      In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

      • typographische Fehler,
      • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
      • falsche Buchstabierung
      • Integration multipler Quellen

      Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

      Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

      Duplikate

      Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

      Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

      Die Menge geordneter Paare

      A×B=(a,b):aA,bB

      ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

      M={(a,b):a=b,aA,bB}

      und Abweichungen

      U={(a,b):ab,aA,bB}

      Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

        γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

      wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

      Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

      m(γ)=P{γ[α(a),β(b)](a,b)M}

      m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

      analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

      Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

      A1 den gleichen Sachverhalt ausdrückend,

      A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

      A3 abweichende Sachverhalte ausdrückend

      ausweisen zu können.

      Klassifikation

      Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

      d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

      und

      i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

      Fehler

      Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

      Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

      P(A1U)=γΓu(γ)P(A1γ)

      Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

      P(A1U)=γΓm(γ)P(A1γ)

      Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

      Vollständigkeit

      Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

      Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

      R(A,R)=RAR gilt.

      Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

      Präzision

      Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

      P(A,R)=RAA

      Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

      Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

      f-measure

      Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

      F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

      wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

      Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

      Verlinkung

      Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

      Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

      Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

       falls R>Obergrenze , dann bezeichne (a,b) als Link.

       falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

       falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

      Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

      Fazit

      Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

      Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

Nach der Definition aus Kapitel 2 wurden die bisher abweichende Schemata S1,...,Sn auf ein gemeinsames Schema S0 angepasst. Jede Entitätsklasse der beiden Datensammlungen A und B besitzt somit die selben Attribute (attr1,...,attrn) .  

In der „Ontologie-Integration“ wurden Inkonsistenzen durch

  • Synonymen,
  • Homonymen,
  • Abkürzungen und
  • Füllwörtern ohne Informationsgehalt

beseitigt, so daß die in den jeweiligen Attributen verwendeten Konzepte sich so weit wie möglich ähneln.

Duplikate entstehen durch die mehrmalige Erfassung eines Meta-Datensatzes innerhalb von verteilten Datenbasen. Die erfassten Daten besitzen aufgrund der autonomen Einzelinstitutionen immer noch Abweichungen, seien dies Eingabefehler, Erfassung in unterschiedlichen Sprachen, Erfassung an unterschiedlichen Orten, usw.

In diese Stufe sollen folgende Abweichungen erkannt und über eine Ähnlichkeit klassifiziert werden:

  • typographische Fehler,
  • Datenaufnahme-Fehler wie Wortvertauschungen (Name Vorname = Vorname Name)
  • falsche Buchstabierung
  • Integration multipler Quellen

Die Aufgabe der Harmonisierung besteht in diesem Bereich demnach in der Identifizierung und der Zuordnung von Duplikaten anhand inhaltlicher Informationen aus einer begrenzten Anzahl von Datenfelder, sowie der Verknüpfung von als identisch erkannter Klassen.

Die Grundlage eines entscheidungstheoretischen Ansatz bildet das Modell von Fellegi und Sunter [Fellegi69] . Um einen Überblick zu geben, wird das Modell durch Terme geordneter Paare in einem Produktraum beschrieben.

Duplikate

Seien nun die Elemente einer Datensammlungen A und B mit a und b benannt. Es wird angenommen, dass einige Elemente in A und B identisch sind.

Im Falle einer Duplikatesammlung bestehe B aus nur einer Entitätsklasse mit n Attributen attr1,...,attrn .

Die Menge geordneter Paare

A×B=(a,b):aA,bB

ist demnach die Vereinigung von zwei disjunkten Mengen von Übereinstimmungen

M={(a,b):a=b,aA,bB}

und Abweichungen

U={(a,b):ab,aA,bB}

Die Datensätze, welche sowohl mit Elementen aus A als auch aus B übereinstimmen, werden durch α(a) und β(b) abgebildet. Der mit den Datensätzen verbundene Vergleichsvektor γ ist definiert durch:

  γ[α(a),β(b)]={γ1[α(a),β(b)],γ2[α(a),β(b)],...,γK[α(a),β(b)]} ,

wobei jeder der γi,i=1,...,K Stützstellen je einen Vergleichsoperator repräsentiert . So könnte   γ1 die Übereinstimmung des Geschlechts zweier Vergleichssätze umfassen, γ2 wäre bspw. der Vergleich auf Idendität der Nachnamen.

Bei Eindeutigkeit wird die Funktion γ über A×B mit γ(α,β) , γ(a,b) oder γ bezeichnet. Die Menge aller möglichen Realisationen von γ wird mit Γ bezeichnet. Die Auftrittswahrscheinlichkeit von γ(a,b) falls (a,b)M ist gegeben durch

m(γ)=P{γ[α(a),β(b)](a,b)M}

m(γ)=(a,b)MP{γ[α(a),β(b)]}P[(a,b)M]

analog dazu wird die Auftrittswahrscheinlichkeit von γ für (a,b)U durch u(γ) angegeben.

Wird ein Vektor von Informationen γ(a,b) verbunden mit einem Paar (a,b) betrachtet, so soll man die Möglichkeit haben, ein Paar als

A1 den gleichen Sachverhalt ausdrückend,

A2 möglicherweise den gleichen Sachverhalt ausdrückend oder

A3 abweichende Sachverhalte ausdrückend

ausweisen zu können.

Klassifikation

Eine Verlinkungsregel L ist dafür eine Abbildung auf dem Vergleichsbereich Γ , auf einer Menge von zufälligen Entscheidungsregeln D={d(γ)} , wo

d(γ)={P(A1γ),P(A2γ),P(A3γ)},γΓ

und

i=13P(Aiγ)=1. , so daß jedes Element einer der drei Gruppen angehört.

Fehler

Dabei können 2 Typen von Fehlern auftreten, die mit den Link-Regeln verbunden sind:

Ein Typ I- Fehler tritt auf, wenn ein unpassender Vergleich fälschlicherweise verlinkt ist. Dieser besitzt die Wahrscheinlichkeit

P(A1U)=γΓu(γ)P(A1γ)

Ein Typ II -  Fehler tritt auf, wenn ein passender Vergleich fälschlicherweise nicht verlinkt ist. Er besitzt die Wahrscheinlichkeit

P(A1U)=γΓm(γ)P(A1γ)

Die Güte einer Duplikate-Analyse wird gekennzeichnet von der Vollständigkeit („Recall“) und der Präsizion („Precision“).

Vollständigkeit

Der Recall beschreibt die Anzahl der als Duplikate erkannten Paare zu den in Wirklichkeit existierenden Paaren.

Zur Definition dieser Größen sei eine ideale Referenz-Duplikate-Zuordnung R sowie eine weitere Duplikate-Zuordnung A gegeben, so daß

R(A,R)=RAR gilt.

Abgeleitet kann gesagt werden, daß ein hoher Recall auf viele gefundene Duplikate hinweist, ohne anzugeben, wieviele davon korrekt ermittelt wurden. Ist der Recall also sehr hoch, kann von vielen falsch-positiven ausgegangen werden.

Präzision

Die Präzision beschreibt daraufhin, wieviele der gefundenen Duplikate auch wirklich welche sind. Es wird damit das Verhältnis von korrekt-positiven und falsch-positiven bestimmt.

P(A,R)=RAA

Die Präzision, invers zur Fehlerrate der Erkennung, gibt die als korrekt erkannten Richtigen eines Duplikatevergleichs an. Sind alle Duplikate korrekt erkannt, umfaßt die Präzision demnach den Wert 1.0, ohne dabei auszusagen, wie viele korrekte Duplikate insgesamt gefunden wurden.

Daher wird oftmals das Verhältnis aus beiden Werten gebildet, und nach [vanReijsenbergen75] mit f-measure bezeichnet.

f-measure

Bei gegebener Referenz-Duplikatezuordnung, einer beliebigen Zuordnung A sowie der Präzision und der Vollständigkeit dieser Werte ergibt sich das f-Maß mit

F(A,R)=(+1)P(A,R)R(A,R)P(A,R)+R(A,R)

wobei b=1 der Standard-Gewichtungsfaktor ist: F1(A,R)=2P(a,R)R(A,R)P(A,R)+R(A,R)

Das F-Maß stellt das harmonisierte Verhältnis von Präzision und Vollständigkeit dar und soll als Haupt-Meßwert genutzt werden. Um die Ausgewogenheit dennoch erkennen zu können, werden bei etwaigen Graphen oftmals dennoch Precision und Recall gegeneinander abgedruckt.

Verlinkung

Es ist zu beobachten, daß falls γ einen Vergleich von K Attributen attr repräsentiert, mindestens 2K Möglichkeiten der Form m(γ) existieren. Falls γ die Übereinstimmung von K Attributen repräsentiert, wäre zu erwarten, dass dies öfter für Duplikatetreffer M als für Fehlschläge U zutrifft. Das Verhältnis R wäre dann sehr groß.

Alternativ, falls γ aus Fehlschlägen besteht, wäre das Verhältnis R sehr klein.

Falls der Zähler positiv und der Nenner 0 ist, wird eigenmächtig eine sehr große Zahl als Verhältnis zugewiesen. Die Fellegi-Sunter Verlinkungsregel L0 nimmt dann folgende Form an:

 falls R>Obergrenze , dann bezeichne (a,b) als Link.

 falls UntergrenzeRObergrenze , dann bezeichne (a,b) als möglichen Link.

 falls R<Untergrenze , dann bezeichne (a,b) als Nicht-Link.

Die Übergänge „Untergrenze“ und „Obergrenze“ sind determiniert durch die gewünschten Fehlerrate-Grenzen.

Fazit

Die Stufe der Ähnlichkeitsfindung ist als die wohl Aufwendigste anzusehen, da in ihr die γ -Vergleichsoperationen durchgeführt werden, welche letzlich eine Einteilung in A1 , A2 und A3 erlauben.

Abschließend werden in der Bewertungsstufe die Ergebnisse angewendet, Übereinstimmungen transitiv geschlossen und ggf. über diverse Lernalgorithmen die Gewichtungsparameter für zukünftige Harmonisierungsaufgaben verbessert.

top