Umsetzung
Umsetzung
Umsetzung
Umsetzung
Umsetzung
Umsetzung
Umsetzung
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Schemaintegration
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Ontologie-Integration
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Schemaintegration
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Ontologie-Integration
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Schemaintegration
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Ontologie-Integration
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Schemaintegration
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Ontologie-Integration
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Schemaintegration
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Ontologie-Integration
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Schemaintegration
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Ontologie-Integration
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.
Auf Grundlage der identifizierten Anforderungen kann folgende Verteilung der anstehenden Teilaufgaben erstellt werden:
Schemaintegration
Die Schema-Integration fordert eine hohe Flexibilität. Wrapper-Regeln für die Abfrage heterogener Quellen werden hier zusammengestellt, wobei jede Quelle mindestens eine eigene Regel benötigt. Weiterhin sind Datums- und Währungsinformationen in dieser Phase durchzuführen. Externe Quelle können sich jederzeit ändern, so daß auch entsprechende Wrapper einer Anpassung bedürfen.
Zur Umsetzung wird die Xcerpt-Abfragesprache verwendet. Der interpretationsbasierte Ansatz gewährleistet eine zügige Anpassung des Abfrageterms an die externe Quelle. Zusätzlich erlauben die Unvollständigkeit in Tiefe und Breite eine gewisse Fehlertoleranz für das Ausgansmaterial.
Datums-, Uhrzeit- und Maßeinheiten werden über reguläre Ausdrücke extrahiert und können durch die integrierte Arithmetik angepasst werden.
Folgendes Beispiel zeigt, wie das Datumsformat zweier Quellen vereinheitlicht werden kann. Quelle 1 nutzt dabei ein Format der Form „dd.mm.yy“, Quelle 2 die Form „dd.mm.yyyy“.
CONSTRUCT
date { &join(var DATE_11, „20“, var DATE_12) }
FROM
orig_date {
/^(var DATE_11 ->[0-9]{1,2}\.[0-9]{1,2}\.)(var DATE_12 ->[0-9]{2})$/
}
END
CONSTRUCT
date { var DATE_21 }
FROM
orig_date {
/^(var DATE_21 ->[0-9]{1,2}\.[0-9]{1,2}\.[0-9]{4})$/,
}
END
Ontologie-Integration
Die Ontologie-Integration umfasst die Abarbeitung von Korrekturlisten, Morphemzerlegung, Stemming sowie Tagging. Die dafür benötigten Informationen sind domänenabhängig und anwendungsspezifisch anzugeben. Die eigentliche Anwendung beschränkt sich meist auf Identifikation und Vereinheitlichung der verwendeten Konzepte.
Durch den deduktiven Ansatz Xcerpts kann auf Ontologie-Resourcen bei Bedarf zurückgegriffen werden. Ist diese in Bezeichnungslogik notierte, so kommt das im Abschnitt 3.2.3 vorgestellte Web Ontology Format OWL zur Anwendung. Alternativ kann für mengenorientierte Sammlungen RDF-S aus Abschnitt 3.2.2 eingesetzt werden.
In folgendem Beispiel werden Datentypen und Subklasse einer Ontologie abgefragt und anschliessend auf die Subklassenelemente übertragen:
CONSTRUCT
subClasses { all classes { var Class,
optional sub [ all var SubClass ],
optional datatypes [ all var dataType ]
} }
FROM
... Namespace - Definition ...
in {
esource { "file:data/Countries_iso.owl", "xml" },
or {
desc
wl:Class {{
attributes {{ rdf:ID [ var Class ] }},
rdfs:subClassOf {{
desc owl:Class {{
attributes {{ rdf:about [ /^#(var SubClass ->.*)$/ ] }}
}}
}}
}},
desc owl:DatatypeProperty {{
attributes {{ rdf:ID [ var DataType ] }},
desc rdfs:domain {{
attributes {{
df:"resource" [ /^#(var Class ->.*)$/ ] }}
}},
desc rdfs:range {{
attributes {{ rdf:"resource" [ "http://
ww.w3.org/2001/XMLSchema#string" ] }}
}}
}},
desc owl:FunctionalProperty {{
attributes {{ rdf:ID [
var dataType ] }},
desc rdfs:domain {{
attributes {{ rdf:"resource" [ /^#(var Class ->.*)$/ ] }},
}}
}}
}
}
END
Für den Fall, auf größere Ontologie-Sammlungen zurückgreifen zu müssen, sei an dieser Stelle nochmals auf die Arbeit von Hans Eric Svenson [Sven06] verwiesen, welche die Anbindung Xcerpts an externe Ontologie-Reasoner behandelt. Zusätzliche Vereinfachungen werden auf die Inhaltsintegration übertragen, da diese für den Nutzer transparent zu geschehen haben. Auf diese wird im folgenden Abschnitt mit eingegangen.