Gewichtungsmethoden

      Gewichtungsmethoden

          Gewichtungsmethoden

              Gewichtungsmethoden

                  Gewichtungsmethoden

                      Gewichtungsmethoden

                          Gewichtungsmethoden

                              Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                              Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

                              Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

                              Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

                              Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

                              c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

                              Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

                              Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

                              Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                              Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

                              s(x,y)={xy}xy=i=1dxiyixy

                              Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

                              Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

                              Beispiel Stoppwortliste und Termgewichtung

                              Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

                              Jaccard

                              Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

                              In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

                              Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

                              Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

                              Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

                              Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

                              Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

                              Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

                              Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

                              Inverse Dokument-Frequenz

                              Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

                              wi,j=idf(j)=1d(j) ,

                              wobei wiederum D=(a1,...,an) die Menge der Dokumente und

                              T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

                              TF-IDF

                              Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

                              Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

                              wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

                              Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

                              Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

                          Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                          Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

                          Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

                          Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

                          Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

                          c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

                          Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

                          Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

                          Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                          Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

                          s(x,y)={xy}xy=i=1dxiyixy

                          Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

                          Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

                          Beispiel Stoppwortliste und Termgewichtung

                          Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

                          Jaccard

                          Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

                          Term-Frequenz

                          In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

                          Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

                          Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

                          Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

                          Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

                          Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

                          Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

                          Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

                          Inverse Dokument-Frequenz

                          Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

                          wi,j=idf(j)=1d(j) ,

                          wobei wiederum D=(a1,...,an) die Menge der Dokumente und

                          T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

                          TF-IDF

                          Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

                          Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

                          wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

                          Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

                          Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

                      Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                      Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

                      Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

                      Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

                      Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

                      c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

                      Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

                      Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

                      Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                      Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

                      s(x,y)={xy}xy=i=1dxiyixy

                      Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

                      Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

                      Beispiel Stoppwortliste und Termgewichtung

                      Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

                      Jaccard

                      Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

                      Term-Frequenz

                      In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

                      Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

                      Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

                      Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

                      Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

                      Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

                      Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

                      Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

                      Inverse Dokument-Frequenz

                      Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

                      wi,j=idf(j)=1d(j) ,

                      wobei wiederum D=(a1,...,an) die Menge der Dokumente und

                      T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

                      TF-IDF

                      Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

                      Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

                      wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

                      Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

                      Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

                  Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                  Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

                  Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

                  Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

                  Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

                  c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

                  Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

                  Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

                  Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

                  Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

                  s(x,y)={xy}xy=i=1dxiyixy

                  Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

                  Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

                  Beispiel Stoppwortliste und Termgewichtung

                  Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

                  Jaccard

                  Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

                  Term-Frequenz

                  In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

                  Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

                  Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

                  Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

                  Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

                  Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

                  Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

                  Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

                  Inverse Dokument-Frequenz

                  Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

                  wi,j=idf(j)=1d(j) ,

                  wobei wiederum D=(a1,...,an) die Menge der Dokumente und

                  T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

                  TF-IDF

                  Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

                  Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

                  wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

                  Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

                  Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

              Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

              Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

              Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

              Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

              Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

              c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

              Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

              Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

              Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

              Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

              s(x,y)={xy}xy=i=1dxiyixy

              Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

              Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

              Beispiel Stoppwortliste und Termgewichtung

              Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

              Jaccard

              Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

              Term-Frequenz

              In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

              Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

              Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

              Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

              Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

              Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

              Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

              Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

              Inverse Dokument-Frequenz

              Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

              wi,j=idf(j)=1d(j) ,

              wobei wiederum D=(a1,...,an) die Menge der Dokumente und

              T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

              TF-IDF

              Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

              Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

              wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

              Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

              Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

          Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

          Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

          Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

          Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

          Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

          c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

          Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

          Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

          Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

          Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

          s(x,y)={xy}xy=i=1dxiyixy

          Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

          Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

          Beispiel Stoppwortliste und Termgewichtung

          Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

          Jaccard

          Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

          Term-Frequenz

          In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

          Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

          Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

          Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

          Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

          Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

          Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

          Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

          Inverse Dokument-Frequenz

          Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

          wi,j=idf(j)=1d(j) ,

          wobei wiederum D=(a1,...,an) die Menge der Dokumente und

          T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

          TF-IDF

          Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

          Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

          wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

          Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

          Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

      Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

      Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

      Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

      Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

      Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

      c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

      Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

      Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

      Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

      Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

      s(x,y)={xy}xy=i=1dxiyixy

      Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

      Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

      Beispiel Stoppwortliste und Termgewichtung

      Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

      Jaccard

      Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

      Term-Frequenz

      In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

      Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

      Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

      Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

      Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

      Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

      Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

      Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

      Inverse Dokument-Frequenz

      Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

      wi,j=idf(j)=1d(j) ,

      wobei wiederum D=(a1,...,an) die Menge der Dokumente und

      T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

      TF-IDF

      Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

      Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

      wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

      Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

      Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

Eine Ähnlichkeitsfunktion s:Rn×RnR definiert für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

Hier sollen nun Methoden vorgestellt werden, mit denen einzelne Terme in einem Dokument/Datensatz oder einer Anfrage gewichtet, also Gewichtsvektoren für Dokumente und Anfragen bestimmt werden können. Sie geben Auskunft darüber, in wieweit diese Ähnlichkeit Auswirkungen für das Gesamtergebnis besitzt.

Falls für eine Duplikatefindung keine Trainingsdaten in der Form "Duplikate" / "kein Duplikat" vorliegen, so kann die Namensübereinstimmung über bedingte Wahrscheinlichkeiten mit Hilfe frequenzbasierter Schätzungen ermittelt werden.

Dabei sieht man einen Datensatz/Dokument als ein festes Vokabular von Termen. Die Auftrittshäufigkeit einzelner Terme gibt diesen dabei eine Gewichtung welche für die Inhaltsbeschreibung nutzbar ist. Die Reihenfolge der Terme im Datensatz wird jedoch vernachlässigt.

Es sei demnach D={a1,...,an} eine Menge von Datensätzen einer Entitätsklasse sowie

c={attr1,...,attrn} eine Menge von Attributen attrj:DR auf diesen Datensätzen.

Für jeden Datensatz aiD sei zu jedem Attribut attrkc ein Gewicht wi,kR gegeben, was manuell oder über die im Abschnitt "TF-IDF" vorgestellte Methode errechnet werden kann.

Diese Gewichte des Datensatzes ai lassen sich zu einem Vektor wi=(wi,1,...,wi,n)Rn zusammenfassen. Dieser Vektor beschreibt das Dokment im Vektorraummodell: Er ist seine Repräsentation und wird Dokumentenvektor genannt.

Anfragen "Queries" werden durch einen Vektor qRn repräsentiert und bei der Anfrage durch eine Menge gewichteter Terme dargestellt. Eine Ähnlichkeitsfunktion s:Rn×RnR definiere für je zwei Vektoren x,yRn einen reellen Ähnlichkeitswert s(x,y) .

Beim Beispiel TF-IDF ist diese Ähnlichkeitsfunktion zum Beispiel das Skalarprodukt zwischen ihren Vektorraum-Darstellungen x und y, also der Cosinus des Winkels zwischen beiden:

s(x,y)={xy}xy=i=1dxiyixy

Der Ähnlichkeitswert gibt an, wie viele Terme sowohl im Anfrage-Term, als auch im Datensatz vorkommen. Nach diesem Ähnlichkeitswert können die Datensätze in eine Rangfolge gebracht werden. Dabei ist zu erwarten, daß Datensätze, welche viele Terme aus der Anfrage enthalten, einen oberen Rang besitzen und Datensätze mit wenigen Anfragetermen am unteren Ende zu finden sind.

Über eine damit verknüpfte Gewichtungsfunktion ist es möglich, die auftretenden Attribute nochmals feiner abzustimmen, so z.B. über Stoppwort-Listen oder Gewichtung einzelner Attribute.

Beispiel Stoppwortliste und Termgewichtung

Praktisch bedeutet dies, daß beispielsweise eine Übereinstimmung zweier seltener Bezeichnungen eine höhere Priorität geniessen wird, als eine Übereinstimmung zweier allgemein gängiger Bezeichnungen.

Jaccard

Für 2 Wortmengen S und T is die Jaccard-Distanz, als tokenbasierte Distanz definiert durch (ST)/(ST)

Term-Frequenz

In einer überschaubaren Term-Menge ist eine manuelle Gewichtung der Terme der Datensatz-Vektoren von humanen Indexierern denkbar, z.B. in Form einer Stoppwort-Liste.

Dabei werden bestimmte Terme wegen ihres allgemeinen Auftretens und fehlenden semantischen Inhalts ignoriert bzw. bestimmte Wortteile über manuell erstellte Auswahllisten mit einer Gewichtung belegt.

Per Hand entstehen dadurch neben hohem Arbeits-, Zeit- und Kostenaufwand ebenfalls Inkonsistenzen durch die subjektive Meinung und Tagesform der Personen. Daher sind halb-automatisch bzw. vollautomatisch Methoden zu nutzen.

Termgewichtungen sind unterscheidbar in globale/kontextunabhängige und lokale/kontextabhängige Faktoren. Ein lokales Kriterium für eine Gewichtung ist beispielsweise die Häufigkeit des Terms innerhalb einer Datenmenge.

Unter den globalen oder kontextabhängigen Gewichtungsfaktoren tritt die Häufigkeit eines Terms in der Sprache bzw. in einer Datensatzsammlung häufig auf.

Daraus folgt, daß eine kleine Anzahl von häufigen Wörtern einen großen Anteil der Datensammlung abdeckt und die großen Anzahl der seltenen Wörter nur einen kleinen Anteil dieser Sammlung ausmacht.

Terme mittlerer Häufigkeit sind optimal, welche zwar häufig genug sind, um genügend relevante Inhalte abzudecken, aber auch signifikant genug, um nichtrelevante Texte auszuschließen.

Anstelle der Häufigkeit von Termen kann hierbei die Dokumenten-/ oder Datensatzhäufigkeit (document frequency) verwendet werden, die Anzahl der Datensätze/Dokumente, in denen ein Term auftritt. Bei einer zufälligen Verteilung eines Wortes in einem Korpus von Datensätzen werden durch den Übergang von der Häufigkeit zur Dokumentenhäufigkeit die Häufigkeitsunterschiede besonders für häufige Terme verringert: Bei der Bestimmung der Dokumentenhäufigkeit spielt es keine Rolle, ob ein Term oft in einem Dokument vorkommt oder nur einmal.

Inverse Dokument-Frequenz

Während eine Stoppwortliste beim boolschen Retrieval also eine harte Häufigkeitsschranke für den Ausschluss setzt, läßt sich der Einfluss der Häufigkeit mit der Möglichkeit, Terme zu gewichten, differenzierter modellieren. Meistens wird dazu eine Form der so genannten inversen (oder auch invertierten) Dokumenthäufigkeit (inverted document frequency - idf) verwendet:

wi,j=idf(j)=1d(j) ,

wobei wiederum D=(a1,...,an) die Menge der Dokumente und

T=(t1,...,tn) die der Terme und a(j) die Anzahl der Dokumente, in denen Term tj vorkommt. In der Praxis wird oft die modifizierte Form wi,j=ln(md(j)) oder wi,j=ln(md(j)d(j)) verwendet, wobei der natürliche Logarithmus ln hierbei große Werte dämpft, also in diesen Formeln die Gewichte seltener Terme wieder abschwächt.

TF-IDF

Auch bei kontextabhängigen Einflussfaktoren wird vor allem die Häufigkeit eines Terms in einer Datensammlung zur Berechnung von Termgewichten herangezogen (TF). Dabei kann im Allgemeinen davon ausgegangen werden, dass häufig auftretende Terme für die inhaltliche Beschreibung wichtiger sind als solche, die nur selten auftreten. Im einfachsten Fall kann die Häufigkeit eines Terms in einer Datensammlung direkt in der Form wi,j=h(i,j) bei h(i,j) als Bezeichnung für die Häufigkeit von Term ti im Datensatz aj berechnet werden. Andere Formeln beschränken die Gewichte auf ein Intervall und dämpfen den Einfluss sehr häufiger Terme, wie z.B. die Formel wi,j=h(i,j)a+h(i,j)

Außerdem kann man die Häufigkeit eines Terms zu der des häufigsten im Text in Relation setzen und damit die unterschiedlichen Gesamttext-längen ausschalten.

wi,j=K+(1K)h(i,j)maxl{1,...,n}h(i,l) wobei K den Parameter bezeichnet, mit dem bestimmt werden kann, wie groß der Einfluss der Gewichtung sein soll. K=0 verwendet nur die Häufigkeitsgewichtung, bei K=1 spielt sie keine Rolle und es wird für alle Terme das konstante Gewicht 1 vergeben.

Häufig werden lokale und globale Gewichtungen zu Formeln vom Typ wi,j=h(i,j)d(j) verknüpft, indem die Termhäufigkeit (TF) mit der invertierten Dokumentenhäufigkeit (IDF) multipliziert wird.

Gewichtsformeln von diesem Typ werden auch als TF-IDF -Gewichtung bezeichnet.

top