Umsetzung

      Umsetzung

          Umsetzung

              Umsetzung

                  Umsetzung

                      Umsetzung

                          Umsetzung

                              Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

                              SVG - Ablauf Strukturanalyse

                              Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

                              Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

                              Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

                              Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

                              CONSTRUCT
                              date { &join(var DATE_11, „20“, var DATE_12) }
                              FROM
                              orig_date {
                              /^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
                              }
                              END

                              CONSTRUCT
                              date { var DATE_21 }
                              FROM
                              orig_date {
                              /^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
                              }
                              END

                              Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

                              Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

                              In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

                              CONSTRUCT
                              subClasses { all classes { var Class,
                              optional sub [ all var SubClass ],
                              optional datatypes [ all var dataType ]
                              } }
                              FROM
                              ... Namespace - Definition ...
                              in {
                              esource { "file:data/Countries_iso.owl", "xml" },
                              or {
                              desc
                              wl:Class {{
                              attributes {{ rdf:ID [ var Class ] }},
                              rdfs:subClassOf {{
                              desc owl:Class {{
                              attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
                              }}
                              }}
                              }},

                              desc owl:DatatypeProperty {{
                              attributes {{ rdf:ID [ var DataType ] }},
                              desc rdfs:domain {{
                              attributes {{
                              df:"resource" [ /^#(var Class ->.*)$/ ] }}
                              }},

                              desc rdfs:range {{
                              attributes {{ rdf:"resource" [ "http://
                              ww.w3.org/2001/XMLSchema#string" ] }}
                              }}
                              }},
                              desc owl:FunctionalProperty {{
                              attributes {{ rdf:ID [
                              var dataType ] }},
                              desc rdfs:domain {{
                              attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
                              }}
                              }}
                              }
                              }
                              END

                              Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

                          Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

                          SVG - Ablauf Strukturanalyse

                          Schemaintegration

                          Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

                          Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

                          Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

                          Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

                          CONSTRUCT
                          date { &join(var DATE_11, „20“, var DATE_12) }
                          FROM
                          orig_date {
                          /^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
                          }
                          END

                          CONSTRUCT
                          date { var DATE_21 }
                          FROM
                          orig_date {
                          /^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
                          }
                          END

                          Ontologie-Integration

                          Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

                          Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

                          In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

                          CONSTRUCT
                          subClasses { all classes { var Class,
                          optional sub [ all var SubClass ],
                          optional datatypes [ all var dataType ]
                          } }
                          FROM
                          ... Namespace - Definition ...
                          in {
                          esource { "file:data/Countries_iso.owl", "xml" },
                          or {
                          desc
                          wl:Class {{
                          attributes {{ rdf:ID [ var Class ] }},
                          rdfs:subClassOf {{
                          desc owl:Class {{
                          attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
                          }}
                          }}
                          }},

                          desc owl:DatatypeProperty {{
                          attributes {{ rdf:ID [ var DataType ] }},
                          desc rdfs:domain {{
                          attributes {{
                          df:"resource" [ /^#(var Class ->.*)$/ ] }}
                          }},

                          desc rdfs:range {{
                          attributes {{ rdf:"resource" [ "http://
                          ww.w3.org/2001/XMLSchema#string" ] }}
                          }}
                          }},
                          desc owl:FunctionalProperty {{
                          attributes {{ rdf:ID [
                          var dataType ] }},
                          desc rdfs:domain {{
                          attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
                          }}
                          }}
                          }
                          }
                          END

                          Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

                      Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

                      SVG - Ablauf Strukturanalyse

                      Schemaintegration

                      Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

                      Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

                      Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

                      Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

                      CONSTRUCT
                      date { &join(var DATE_11, „20“, var DATE_12) }
                      FROM
                      orig_date {
                      /^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
                      }
                      END

                      CONSTRUCT
                      date { var DATE_21 }
                      FROM
                      orig_date {
                      /^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
                      }
                      END

                      Ontologie-Integration

                      Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

                      Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

                      In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

                      CONSTRUCT
                      subClasses { all classes { var Class,
                      optional sub [ all var SubClass ],
                      optional datatypes [ all var dataType ]
                      } }
                      FROM
                      ... Namespace - Definition ...
                      in {
                      esource { "file:data/Countries_iso.owl", "xml" },
                      or {
                      desc
                      wl:Class {{
                      attributes {{ rdf:ID [ var Class ] }},
                      rdfs:subClassOf {{
                      desc owl:Class {{
                      attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
                      }}
                      }}
                      }},

                      desc owl:DatatypeProperty {{
                      attributes {{ rdf:ID [ var DataType ] }},
                      desc rdfs:domain {{
                      attributes {{
                      df:"resource" [ /^#(var Class ->.*)$/ ] }}
                      }},

                      desc rdfs:range {{
                      attributes {{ rdf:"resource" [ "http://
                      ww.w3.org/2001/XMLSchema#string" ] }}
                      }}
                      }},
                      desc owl:FunctionalProperty {{
                      attributes {{ rdf:ID [
                      var dataType ] }},
                      desc rdfs:domain {{
                      attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
                      }}
                      }}
                      }
                      }
                      END

                      Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

                  Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

                  SVG - Ablauf Strukturanalyse

                  Schemaintegration

                  Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

                  Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

                  Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

                  Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

                  CONSTRUCT
                  date { &join(var DATE_11, „20“, var DATE_12) }
                  FROM
                  orig_date {
                  /^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
                  }
                  END

                  CONSTRUCT
                  date { var DATE_21 }
                  FROM
                  orig_date {
                  /^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
                  }
                  END

                  Ontologie-Integration

                  Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

                  Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

                  In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

                  CONSTRUCT
                  subClasses { all classes { var Class,
                  optional sub [ all var SubClass ],
                  optional datatypes [ all var dataType ]
                  } }
                  FROM
                  ... Namespace - Definition ...
                  in {
                  esource { "file:data/Countries_iso.owl", "xml" },
                  or {
                  desc
                  wl:Class {{
                  attributes {{ rdf:ID [ var Class ] }},
                  rdfs:subClassOf {{
                  desc owl:Class {{
                  attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
                  }}
                  }}
                  }},

                  desc owl:DatatypeProperty {{
                  attributes {{ rdf:ID [ var DataType ] }},
                  desc rdfs:domain {{
                  attributes {{
                  df:"resource" [ /^#(var Class ->.*)$/ ] }}
                  }},

                  desc rdfs:range {{
                  attributes {{ rdf:"resource" [ "http://
                  ww.w3.org/2001/XMLSchema#string" ] }}
                  }}
                  }},
                  desc owl:FunctionalProperty {{
                  attributes {{ rdf:ID [
                  var dataType ] }},
                  desc rdfs:domain {{
                  attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
                  }}
                  }}
                  }
                  }
                  END

                  Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

              Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

              SVG - Ablauf Strukturanalyse

              Schemaintegration

              Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

              Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

              Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

              Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

              CONSTRUCT
              date { &join(var DATE_11, „20“, var DATE_12) }
              FROM
              orig_date {
              /^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
              }
              END

              CONSTRUCT
              date { var DATE_21 }
              FROM
              orig_date {
              /^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
              }
              END

              Ontologie-Integration

              Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

              Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

              In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

              CONSTRUCT
              subClasses { all classes { var Class,
              optional sub [ all var SubClass ],
              optional datatypes [ all var dataType ]
              } }
              FROM
              ... Namespace - Definition ...
              in {
              esource { "file:data/Countries_iso.owl", "xml" },
              or {
              desc
              wl:Class {{
              attributes {{ rdf:ID [ var Class ] }},
              rdfs:subClassOf {{
              desc owl:Class {{
              attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
              }}
              }}
              }},

              desc owl:DatatypeProperty {{
              attributes {{ rdf:ID [ var DataType ] }},
              desc rdfs:domain {{
              attributes {{
              df:"resource" [ /^#(var Class ->.*)$/ ] }}
              }},

              desc rdfs:range {{
              attributes {{ rdf:"resource" [ "http://
              ww.w3.org/2001/XMLSchema#string" ] }}
              }}
              }},
              desc owl:FunctionalProperty {{
              attributes {{ rdf:ID [
              var dataType ] }},
              desc rdfs:domain {{
              attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
              }}
              }}
              }
              }
              END

              Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

          Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

          SVG - Ablauf Strukturanalyse

          Schemaintegration

          Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

          Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

          Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

          Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

          CONSTRUCT
          date { &join(var DATE_11, „20“, var DATE_12) }
          FROM
          orig_date {
          /^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
          }
          END

          CONSTRUCT
          date { var DATE_21 }
          FROM
          orig_date {
          /^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
          }
          END

          Ontologie-Integration

          Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

          Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

          In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

          CONSTRUCT
          subClasses { all classes { var Class,
          optional sub [ all var SubClass ],
          optional datatypes [ all var dataType ]
          } }
          FROM
          ... Namespace - Definition ...
          in {
          esource { "file:data/Countries_iso.owl", "xml" },
          or {
          desc
          wl:Class {{
          attributes {{ rdf:ID [ var Class ] }},
          rdfs:subClassOf {{
          desc owl:Class {{
          attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
          }}
          }}
          }},

          desc owl:DatatypeProperty {{
          attributes {{ rdf:ID [ var DataType ] }},
          desc rdfs:domain {{
          attributes {{
          df:"resource" [ /^#(var Class ->.*)$/ ] }}
          }},

          desc rdfs:range {{
          attributes {{ rdf:"resource" [ "http://
          ww.w3.org/2001/XMLSchema#string" ] }}
          }}
          }},
          desc owl:FunctionalProperty {{
          attributes {{ rdf:ID [
          var dataType ] }},
          desc rdfs:domain {{
          attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
          }}
          }}
          }
          }
          END

          Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

      Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

      SVG - Ablauf Strukturanalyse

      Schemaintegration

      Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

      Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

      Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

      Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

      CONSTRUCT
      date { &join(var DATE_11, „20“, var DATE_12) }
      FROM
      orig_date {
      /^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
      }
      END

      CONSTRUCT
      date { var DATE_21 }
      FROM
      orig_date {
      /^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
      }
      END

      Ontologie-Integration

      Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

      Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

      In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

      CONSTRUCT
      subClasses { all classes { var Class,
      optional sub [ all var SubClass ],
      optional datatypes [ all var dataType ]
      } }
      FROM
      ... Namespace - Definition ...
      in {
      esource { "file:data/Countries_iso.owl", "xml" },
      or {
      desc
      wl:Class {{
      attributes {{ rdf:ID [ var Class ] }},
      rdfs:subClassOf {{
      desc owl:Class {{
      attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
      }}
      }}
      }},

      desc owl:DatatypeProperty {{
      attributes {{ rdf:ID [ var DataType ] }},
      desc rdfs:domain {{
      attributes {{
      df:"resource" [ /^#(var Class ->.*)$/ ] }}
      }},

      desc rdfs:range {{
      attributes {{ rdf:"resource" [ "http://
      ww.w3.org/2001/XMLSchema#string" ] }}
      }}
      }},
      desc owl:FunctionalProperty {{
      attributes {{ rdf:ID [
      var dataType ] }},
      desc rdfs:domain {{
      attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
      }}
      }}
      }
      }
      END

      Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:

SVG - Ablauf Strukturanalyse

Schemaintegration

Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.

Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.

Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.

Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.

CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END

CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END

Ontologie-Integration

Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.

Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.

In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:

CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},

desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},

desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END

Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.

top