4. Versionierung und Zitationsprozesse

vorgelegt von Timo Steyer (Forschungsverbund MWW/HAB Wolfenbüttel)

4.1. Zitationsprozesse

Das Rückgrat jeder digitalen Publikation im wissenschaftlichen Kontext bildet die Zitierfähigkeit und die Stabilität des Textes. Ohne die Möglichkeit von zuverlässigen und beständigen Identifizierungen  sind wissenschaftliche Texte in digitaler Form nur eingeschränkt nutzbar und Potentiale des digitalen Publizierens bleiben ungenutzt.  Während im Druck der Buchtitel in Verbindung mit Seitenzahlen oder Zeilenzählungen die Grundlage für wissenschaftliches Arbeiten dadurch schuf, dass Aussagen durch Zitate verlässlich überprüft werden konnten, müssen für elektronische Medien Mechanismen geschaffen werden, die Ähnliches leisten. Anders als im Druck können aber nicht mehr physische, materialgebundene Einheiten wie Seitenzahlen verwendet werden, sondern es bedarf spezieller Identifier, die idealerweise weltweit eindeutig sind und die so verlässliche Zugriffsmöglichkeiten auf die Dokumente bieten.[6]

Identifizierung findet in bisherigen digitalen Publikationsvorhaben meist nur auf der Ausgabenebene oder bei Digitalisaten nach Vorgabe der DFG-Praxisregeln auf der Seitenebene (Image) statt.[7] Mit der Etablierung elektronischer Volltexte eröffnen sich jedoch nun neue Möglichkeiten. Zitierbar ist hier theoretisch jeder Buchstabe, sofern sichergestellt ist, dass er im Gesamtsystem des oder der Texte einen eindeutigen Identifier trägt oder aber sich aus einer feststehenden Position im Text ergibt.

Diese feineren Granulierungen auf Wort- oder Buchstabenebene sind ohne Weiteres technisch möglich, aber bis auf exemplarische Einzelfälle noch nicht in einer Form umgesetzt, die ein standardisiertes Modell erkennen lässt.[8] Die derzeitige Schnelligkeit des technischen Wandels lässt aber die Durchsetzung feinerer Granulierungen als wahrscheinlich erachten.

Um die soeben skizzierten Ziele zu erreichen, sollten die Vorteile und die Notwendigkeit einer persistenten Adressierung stärker in den Fokus der digitalen Infrastrukturmaßnahmen rücken und auch als Best Practice beim wissenschaftlichen Arbeiten angesehen werden.

Vorteile der persistenten Adressierung

-        Dauerhafte Identifikation der publizierten Ressourcen,

-        gewährleistete Nachhaltigkeit der Texte,

-        Das Verlinken der Texte wird gefördert, was sich positiv auf die wissenschaftliche Reputation auswirkt,

-        Verfügbarkeit, Sichtbarkeit und Nachnutzbarkeit der Texte werden erhöht,

-        Einfache Zitation, bessere Nachvollziehbarkeit für die Forschung,

-        Nachweismöglichkeit des Impacts (Datenzitationsraten),

-        Semantische Interoperabilität der Publikation ist durch die Metadaten, die bei der Erhebung von persistenten Adressierungen anfallen, erhöht. Informationen über miteinander in Beziehung stehender Texte können so festgehalten werden.

Welche Technik das jeweilige (trusted) Repository für die persistente Adressierungen verwendet, ist zwar grundsätzlich abhängig vom vorliegenden Material und dem Verwendungszweck. Daher kann in diesem Rahmen keine eindeutige Empfehlung ausgesprochen werden. Allerdings sprechen mehrere Faktoren für die Verwendung von Digital Object Identifier (DOI) im Publikationskontext von Texten. Ein wesentlicher Vorteil von DOIs ist die Vergabe und Kontrolle durch eine Registrierungsagentur,[9] sowie die zusätzlich stattfindende Qualitätsprüfung und Langzeitarchivierung vergebener DOIs durch die DOI Foundation.[10] Zwar werden auch Uniform Resource  Names (URN) qualitätsgeprüft und unterliegen einer Langzeitarchivierung, allerdings können sie im Gegensatz zu DOIs nur auf Seiten der Vergabeeinrichtung aufgelöst werden. Handles sind dagegen eher für große Datenmengen (Big Data) geeignet, da sie aber durch keine übergeordnete Einrichtung geprüft werden, sind sie für wissenschaftliches Zitieren von Texten ungeeignet.

Varianten bei Zitierstilen

Bei der Verwendung von Persitent Identifier sind zwei Anwendungsszenarien zu unterscheiden, während für die maschinelle Weiterverarbeitung die Angabe des Principal Investigator vollkommen ausreichend ist, benötigen Forscher/innen zusätzlich weiterhin die Angabe der gewohnten bibliographischen Angaben. In diesem Bereich existieren eine Reihe von etablierten Zitierrichtlinien, die sich bei den einzelnen Fachdisziplinen unterschiedlicher Beliebtheit erfreuen. Eine Festlegung auf einen Standard erscheint aufgrund der diversen Zitiertraditionen als nicht aussichtsreich. Als gemeinsamer Standard würde jedoch die ISO-Norm 690:2010 am ehesten in Frage kommen. Unabhängig von der gewählten Zitierrichtlinie sollte beachtet werden, dass die verwendete Zitierweise obligatorische Angaben für digitale Ressourcen standardisiert:

     -        Persitent Identifizier,

     -        Versionnummer oder ID,

    -        Medien/Objekttyp verbunden mit einem kontrollierten Vokabular (z. B. text/html, XML/TEI-P5 usw.).

Durch diese Angabe würden die bisher üblichen Angaben der URL und des Zugriffzeitpunktes obsolet werden. Denn diese Praxis ist derart unsicher, dass sie nur als temporär befristetes Phänomen gelten kann. Die Variante Screenshots oder Snapshots von Webseiten zu machen, ist allein aufgrund der damit verbundenen Umständlichkeit realistisch nicht langfristig in der Wissenschaft zu etablieren. Jedoch ist diese Methode, z. B. über das Archiveren von Screenshots bei archive.org und die Angabe des generierten Permalinks in der Publikation, wesentlicher genauer als die reine Angabe des Zugriffpunktes verbunden mit der Zeitangabe.[11] Gerade im Bereich des Zitierens von komplexen Webansichten oder von Forschungsergebnissen, die über Tools generiert worden sind, stellt diese Methode die zurzeit einzige Möglichkeit dar. Gerade durch die Etablierung der Digital Humanities stellt sich in Zukunft die Frage, wie Forschungsdaten jenseits der Textebene zitiert werden sollen. Aber auch die gegenwärtige digitale Publikationspraxis jenseits von PDF wirft die Frage auf, welche Ebene zitiert werden soll: die Ebene der Webansicht oder die semantische Ebene, die dahinter legt? Denn nicht immer werden z. B. alle Auszeichnungen von XML-Dateien auf der Weboberfläche angezeigt, gleiches für den Bereich des Semantic Web.

In dem hier vorliegenden Rahmen liegt der Schwerpunkt auf dem Zitieren der Oberfläche der Texte, aber diese Fragen werden sicherlich in der zukünftigen AG-Arbeit eine wesentliche Rolle einnehmen.

Für das Ziterien der Oberflächen (HTML-Ansichten) von Texten können dagegen Best Practice-Empfehlungen ausgesprochen werden und natürlich ist dies der Bereich, welcher am dringensten Standardisierung benötigt. Hierfür kann folgendes Beispiel angeführt werden:

Katja Kwastek: Vom Bild zum Bild – Digital Humanities jenseits des Textes. In: Grenzen und Möglichkeiten der Digital Humanities. Hg. von Constanze Baum / Thomas Stäcker. 2015 (= Sonderband der Zeitschrift für digitale Geisteswissenschaften, 1). text/html Format. DOI: 10.17175/sb001_002

Für die Durchsetzung einer persistenten Adressierung sollte der Vorgang der Registrierung einer digitalen Publikationen entweder für den Autor/die Autorin intuitiv und mit wenig Aufwand möglich sein und/oder als Dienstleistung von Forschungseinrichtungen angeboten werden. Die Verpflichtung einer dauerhaften verbindlichen DOI-Registrierung sollte durch die Anbieter durch Absichts- und Garantieerklärungen deutlich gemacht werden, zu denen ergänzend auch eine Exit-Strategie gehört.

4.2. Versionierung

Eine persistente Adressierung alleine ist jedoch nicht ausreichend, um eine wissenschaftliche Zitierfähigkeit herzustellen. Zusätzlich bedarf es einer Versionierung des Textes mit der Angabe der Versionsunterschiede. Die jeweilige Version des Textes muss dabei jederzeit wiederherstellbar sein, was eine verlässliche Archivierung bedingt. Durch ein Versionierungssystem werden die im Druck unvereinheitlichten Faktoren der Textstabilität und der Modifizierbarkeit von Texten vereinbar und abbildbar. Ähnlich wie bei Wikipedia ließen sich so frühere Zustände leicht rekonstruieren. Um Möglichkeiten zu schaffen, Texte auch nach deren verbindlicher Veröffentlichung zu bearbeiten, sollten Anbieter von Publikationsumgebungen daher ein Versionierungsystem (z.B. SVN) anbieten. Grundvoraussetzung für die Wahl eines geeigneten Versionssystems ist wiederum die öffentliche Zugänglichkeit der Texte und die Vergabe von freien Lizenzen.

Darüber hinaus sollten die Betreiber der Publikationsplattformen auf eine schnelle und nutzerfreundliche Auffindbarkeit der Texte achten. Die Mechanismen der Versionierung und Identifikation von digitalen Publikationen können nur dann ihre Wirkung entfalten, wenn die entsprechenden Veröffentlichungen im Nachweissystem recherchierbar und somit leicht auffindbar sind. Anstatt Texte also in geschlossenen Systemen zu publizieren, sollten wissenschaftliche Arbeiten in Open-Access-Repositorien und -Publikations­diensten, die standardisierte Publikationsformate unterstützen, veröffentlicht werden.[12]

4.3. Fazit und Empfehlungen:

Forscher/innen sollten bei der Zitierung von wissenschaftlichen Texten auf die Angabe der Principal Investigator achten und bei eigenen Publikationsvorhaben Umgebungen bevorzugen, die die Vergabe von Principal Investigators anbieten. Voraussetzung dafür ist aber, dass die Anbieter von Publikationsformen neben der Vergabe von Principal Investigators auch die Versionierung der Texte unterstützen. Des Weiteren sollten sie über die Nutzungsbedinungen der Publikationsumgebung ausreichend informiert werden.[13]

Diese Punkte sollten bei Projektanträgen auch von den Förderinstitutionen als fester Bestandteil gefordert werden. Zusätzlich sollten Fördereinrichtungen die Qualität von Publikationsinfrastrukturen durch die Vergabe von Zertifikaten und durch das Werben für Open-Access-Repositorien und -Publikations­diensten fördern.[14]

Pflege und Wartung der Publikationssysteme verbunden mit der Vergabe von Principal Investigators erzeugen erhöhte Betriebskosten, so dass die Publikationsumgebungen auf eine beständige Mittelzuweisung angewiesen sind. Die Fördereinrichtungen sollten daher bedenken, dass eine zuverlässige wissenschaftliche Publikation auch im OPEN ACCESS-Bereich Kosten verursacht.