Semantic Web und LOD

En Fr
Emerging Technology

Das Konzept des Semantic Web geht auf Tim Berners-Lee /tbl/ zurück und wird derzeit vom /w3c/ standardisiert und weiterentwickelt. Semantik Web ist eine Zukunfts-Technologie, um Daten mit andersartigen Daten über URI’s miteinander zu verlinken, d. h. eindeutig in Beziehung zu setzen. Ein ähnliches Prinzip ist bei den heutigen Webseiten vorhanden, wobei auf einer Webseite Verweise (Links) auf weitere Webseiten vorkommen. Daten im Semantik Web werden nicht über Web-Seiten sondern über sogenannte Tripletten untereinander mittels URI’s in Beziehung gesetzt. Ein Triplett enthält immer drei Elemente in Form eines einfachen Satzes: Subjekt-Verb/Prädikat-Objekt. Alles, was in einem Triplett vorkommt sind Daten oder Metadaten.

Um einen komplexeren Gegenstand oder auch eine Ressource „X“ zu beschreiben, wird somit ein endlicher (aber a priori nicht fest definierter) Satz von Tripletten verwendet, wobei alle dasselbe Subjekt „X“ haben.

Jede Eigenschaft von „X“ wird somit über ein Triplett definiert, das „X“ eine Eigenschaft (Verb/Prädikat) und einen Wert (Objekt) hinzufügt (Bereits 2008 wurden Tripletten auf sogenannten Quadrupel („Quads“) erweitert – das vierte Element im Quad ist dann der Kontext, in der die Triplettenaussage gelten soll /quads/). Interessanterweise werden Ressourcen wie „X“ über Tripletten ebenfalls untereinander geeignet in Beziehung gesetzt, womit dann ein semantischer Graph entsteht, bei dem jeder Knoten ein Subjekt (oder ein Objekt) ist und die Knoten verbindenden Kanten die Eigenschaften (Verbs/Prädikate) unter den betroffenen Knoten darstellen, bzw. konnotieren (Beispiel siehe /skos/). Ein semantischer Graph kann Abertausende von derartig konnotierten Konzepten enthalten. Daten im Semantik Web sind in Graphen vorhanden, sie sind in der Regel öffentlich. Derartige öffentliche, frei zugängliche Daten in Form von semantischen Graphen sind sehr einfach zu navigieren, sie bieten präzise Informationen und Informationsbeziehungen an und reduzieren die Suchzeit enorm. Sie heissen mit einem aktuellen Akronym auch LOD-Daten, LOD = „Linked Open Data“ /lod1/ oder oder auch LOD-Data-Cloud. LOD-Daten werden per Ende 2011 auf ca. 30 Mrd. Tripletten und ca. 500 Mio. Verbindungen unter semantischen Graphen geschätzt /lod2/. Somit kann eine Ressource (ein Ding) über Tripletten – nicht notwendigerweise im selben semantischen Graph (!) – durch eine a priori unbekannte Anzahl von Tripletten definiert werden. Die Ressource wird damit semistrukturiert dargestellt/beschrieben, d. h. mit einer Struktur, die (in Zeit und Raum) an sich variabel gehalten wird. Die LOD-Technik setzt Standardformate voraus wie z. B. RDF – siehe /rdf/.

Warum Semantik Web?
Semantik Web ist nicht nur die offene LOD-Darstellung, unter Semantik Web wird eine Reihe von Technologien verstanden, die es gestatten, auf einer LOD-Darstellung mit logischen Operatoren vorzugehen und damit „neue“ (implizite, bzw. implizierte) Daten zu entdecken (validieren, inferieren, /inf/). Sogenannte „Reasoners“ (das sind nichts weiter als Computer-Programme, die die Semantic Web oder auch LOD-Repräsentationsformate geeignet analysieren können) finden innerhalb von semantischen Graphen Daten schnell und sicher wieder – wo sonst eine einfache Suchanfrage Abertausende von Ergebnisse liefern kann. Grössere Anwendungen im Semantik Web sind bei /wea/ und /swx/ nachzulesen. Komplexe Problemstellungen sind damit schnell und effizient zu lösen. Somit werden Semantic Web-Techniken (präzise Repräsentation und logische Verarbeitung) bei wissensintensiven Unternehmen unabdingbar um:
1.) Unternehmensdaten untereinander präzise und doch flexibel (semistrukturiert) zu verlinken,
2.) Wissenseinheiten (Rezepturen, Praktiken, Rechte …) über Unternehmensprozesse modular, flexibel und nachhaltig abzubilden (im Sinne des Knowledge Management /knr/),
3.) Unternehmensdaten mit Lieferantendaten und Daten der Belieferten exakt aber flexibel untereinander zu verlinken und damit eine homogene, schnell navigierbare Datenrepräsentation zu gewinnen, wodurch sich die Such-, Report- und Antwortzeiten unternehmensweit drastisch verringern, da die Informationen präzise verlinkt vorliegen.

Unternehmenswissen kann in Ontologien bereitgestellt werden – wie?
Domainspezifisches Spezialwissen (Rezepturen, Praktiken, Prozesse, Rechte, Empirische Ergebnisse) wird in strukturierten Dokumenten seit Jahrhunderten festgehalten. Spezialwissen sollte insbesondere auf geeignete Weise in LOD-Form gebracht und dessen spezielle Verhaltensweisen darin dokumentiert werden. Das daraus entstehende Dokument – ein semantischer Graph oder auch semantischer Teilgraph – heisst „Ontologie“. Eine Ontologie ist eine systematische Wissensbeschreibung der Subjekte und Objekte einer Domaine. Unterschiedliche Branchen bedienen sich der Ontologien und teilen diese untereinander. Ontologien beschreiben somit spezielle Sachverhalte und können somit als Spezialfall von semantischen Graphen angesehen werden. Genetiker nutzen z. B. seit geraumer Zeit Ontologien – siehe z. B. /gno/.

Wie kommen Sie zur LOD-Cloud?
Getrieben durch die Notwendigkeit, eine klar strukturierte, schnell suchbare Informationsplatform nachhaltig aufzubauen, möchten Sie eine Portion Ihrer Unternehmensdaten „LOD-ifizieren“, um
1.) mit einfachen Anwendungen darin präzise zu suchen,
2.) den Überblick über die Unternehmensdaten/-wissen zu gewinnen, bzw. zu behalten,
3.) Unternehmensdaten mit anderen Daten präzise aber flexibel zu verknüpfen.

In einer IST-Analyse wird festgehalten, welche Arten von Daten wie vorhanden sind. In der daraus resultierenden Spezifikation wird festgehalten, was die Zieldienste wie leisten sollen. Wesentliche Schritte bei der LOD-ifizierung sind:
a) Sorgfältige Wahl der Vokabulare zur Beschreibung der Unternehmensdaten,
b) Betroffene Unternehmensdaten werden auf semantische Graphen abgebildet; dabei entstehen Tripletten, die in Ihrem Unternehmen geeignet gehostet werden,
c) Entwicklung der spezifizierten Anwendungen zur Verarbeitung Ihrer Unternehmensdaten.

Für den Betrieb der so gewonnenen semantischen Graphen als LOD-Daten werden anschliessend opportune Skalierungsmassnahmen getroffen, um den Speed bei den neuen Anwendungen zu gewährleisten.

Muss mein Unternehmen dann alle Daten öffentlich machen?
Obwohl im Prinzip LOD-Daten die Veröffentlichung voraussetzen und fördern, ist es klar, dass die Barrieren im rechtlichen und wettbewerbsrechtlichen Einschränkungen liegen. Ein Unternehmen muss oder soll demnach nicht alle LOD-Daten veröffentlichen, aber es kann wohl die damit verbundenen Semantic Web Technologien unternehmensintern und mit vertrauten Partnern gewinnbringend nutzen.
Da LOD-Daten per se die Web-Technologie voraussetzen, ist der Zugang auf diese Daten über geeignete URI’s (Uniform Resource Identificators) im LOD-Repository abzulegen, die unter Einsatz eines geeigneten Rechte-Modells die betroffenen Web-Bereiche schützen und die Daten damit nicht öffentlich machen. Der Zugang zu einem gewonnenen semantischen Graph – sei es zum internen oder kontrollierten Gebrauch – wird somit über die heutige Web-Technologie hinreichend geschützt. Sollten Teilnehmergruppen und Marktkräfte die Empfehlung zur Vereinigung einiger Bereiche (z. B. Lieferanten) nahelegen, kann der entsprechende semantische Graph über die vorhandene Web-Technologie kontrolliert geöffnet werden.

Was ist eigentlich der „Preis“ für eine LOD-ifizierung?
Die nach Semantic Web-Technologien gerechte, präzise und flexible Verarbeitung von LOD-Daten setzt natürlich voraus, dass die LOD-Daten logisch und nach Standards aufgebaut und gepflegt werden. Saubere Datenhaltung ist unabdingbar für die spätere Verwendung der Unternehmensdaten. Die damit verbundene Tätigkeit des Knowledge Engineers /seng/ nimmt dann eine wichtige Rolle im Unternehmen ein.

Was sind die Risiken bei einer LOD-ifizierung?
Grundsätzlich sehen wir die Risiken einer LOD-ifizierung darin, dass die Datenpflege nicht Schritt hält, und dass damit der semantische Graph des Unternehmens veraltete oder unpassende Konzepte beinhaltet. Da es sich bei nach Semantic Web organisierten LOD-Daten um ein logisches Gerüst – ähnlich wie spezielle Stücklisten – handelt,
können „Löcher“ im Gerüst zu grösserer Ergebnisverlusten bei Anfragen führen. Ein weiteres Risiko kann aus einer zu schwachen logischen Modellierung (Darstellung) der Unternehmensdaten entstehen, womit spätere Verknüpfungen mit künftig freigegebenen und damit „angeschlossenen“ LOD-Daten partiell oder gar nicht möglich sind. Zu schwach LOD-ifizierte Unternehmensdaten müssen remodelliert werden. Dies kann auch nur für einzelne Teilgraphen der Fall sein.

Wie verhalten sich LOD-Clouds bzgl. Datenarchivierung?
Daten werden nach den Prinzipien des Records Management dann archiviert oder gar gezielt vernichtet, wenn die dazugehörige Record-Klasse aus rechtlichen, strukturellen und zeitlichen Gründen archiviert werden soll. Zur Archivierung von LOD-Inhalten dienen geeignete Reports, die die relevante Portion der Unternehmensdaten in ein lesbares und zeitbeständiges Format überführt. Ein Anschluss archivierter Unternehmensdaten an die LOD-Cloud wird in der Regel nicht angestrebt.

Wie unterstützt mich Semweb bei der LOD-ifizierung?
Semweb kann Sie bei allen Schritten der LOD-ifizerung, bei Support und Betrieb der LOD-ifizierten Daten unterstützen.