1. Was sind digitale wissenschaftliche Publikationen und welche Möglichkeiten bieten sie?

vorgelegt von Christian Schwaderer (Universität Tübingen), (Thomas Stäcker (Herzog August Bibliothek Wolfenbüttel) und Niels Oliver Walkowski (Berlin-Brandenburgische Akademie der Wissenschaften / KU Leuven)

Digitale wissenschaftliche Publikationen zeichnen sich durch die Möglichkeiten des Mediums aus und erweitern methodisch die Verfahren wissenschaftlicher Ergebnissicherung. Durch die neuen Möglichkeiten des Internets wird zugleich eine Begriffsbestimmung, was eine Publikation sei, schwerer. Vor allem die Unterscheidung von Kommunikation und Publikation ist kaum noch möglich und beide Welten durchdringen einander. Der folgende Abriss geht daher von einem eher weiten Publikationsbegriff aus. Dazu zählen ohne Anspruch auf Vollständigkeit:

  • Digitale Texte in traditionellen Formen: Monografien, Aufsätze, Rezensionen, Editionen, Kommentare    

  • Visualisierungen, Bilder, multimediale Inhalte

  • Forschungsdaten

  • Tools, Software und Algorithmen

  • Wissenschaftskommunikation in sozialen Medien (Blogposts, Tweets u.ä)

Der wissenschaftliche Qualitätsanspruch der digitalen Publikation ist derselbe wie bei gedruckten Publikationen. Nachprüfbarkeit, logischer Aufbau, klar formulierte Fragestellungen, kritische Auseinandersetzung mit den bisherigen Forschungsergebnissen, Reflexion von Methoden, sprachliche und strukturelle Exaktheit und schließlich die Erwähnung von den eigenen Schlüssen zuwider laufenden Fakten sind selbstverständlich auch Basis digitalen wissenschaftlichen Arbeitens.

Bei der Bereitstellung digitaler Ressourcen spielt die Möglichkeit zur maschinellen Verarbeitung bzw. Prozessierbarkeit die entscheidende Rolle und kann als konstitutiv für den Begriff der digitalen Publikation angesehen werden. Dabei muss allerdings das Ziel, auf das hin die digitale Aufbereitung erfolgen soll und die Form der Prozessierung, mitbedacht werden.  Digitale Ressourcen werden in dieser Funktion oft auch als Forschungsdaten bezeichnet. Zu diesen zählen alle strukturierten oder semistrukturierten Datenobjekte, wie z.B Datenbanken, RDF triple oder mit Markup ausgezeichnete Volltexte, aber auch Images und andere multimedialen Objekte, sofern sie Gegenstand eines Algorithmus werden können. Zu den Forschungsdaten gehören auch alle Daten, die die Hypertextualität des Objektes ermöglichen.

In diesem Sinne digital re-kodierte oder direkt erzeugte Ressourcen bieten insofern einen Mehrwert, als sie vermittels geeigneter Algorithmen Gegenstand von Forschungsfragen werden können, die sich digitaler Methoden bedienen. So kann z.B. die zum Zwecke der digitalen Verarbeitbarkeit modellierte Textstruktur mit einem variablen Layout versehen, dynamisch modifiziert, in verschiedene Forschungskontexte eingebettet, im Hypertext referenziert oder mit einem Interface versehen werden, das für den an den Daten Interessierten passende spezifische Abfragen und Ansichten ermöglicht. Mit Text-Mining-Techniken sind z.B. Aussagen über den Urheber (Stilometrie) oder automatische Identifikation von Themen (Topic Modelling) möglich. Digitale Publikationen können auch selbst Gegenstand von Forschungsfragen sein, funktional also zu Forschungsdaten werden. Diese Prozesse werden unter Begriffen wie Data Lifecycle u.ä. diskutiert. Ein solches Publikationsdesign bzw. –modell erfordert konzeptionelle Arbeit, ist integraler Bestandteil und Ergebnis geisteswissenschaftlicher Forschung und keine technisch-abstrakte Routine.  

Bislang gibt es in den Geisteswissenschaften jedoch keine etablierten Verfahren, die ähnlich wie in der Printkultur vorschreiben, wie eine Publikation von in diesem Sinne verstandener Forschungsdaten technisch und organisatorisch erfolgen soll. Immerhin zeichnet sich ab, dass in technischer Hinsicht auf eingeführte offene Standards für Daten und Metadaten wie XML (konkret: Schemata wie TEI, MEI, etc.) für strukturierte Volltexte, METS, EAD, LIDO für Metadaten, RDF für semantische Daten und REST, SPARQL o.ä. für Schnittstellen oder Abfragemöglichkeiten zurückgegriffen werden sollte. Nicht-strukturierte Dateiformate für Texte wie z.B. PDF sind demgegenüber zu vermeiden und allenfalls als Lesederivate oder Simulacra für den Druck nützlich.

Auch wenn Kommunikationsmedien wie Blogs und soziale Netzwerke eine zunehmend wichtigere Rolle spielen, ist der nach wie vor häuftigste Fall digitalen Publizierens im geisteswissenschaftlichen Feld die Publikationen eines längeren Textes (Monografie, Artikel). Da die Transformation der jeweiligen Ressource in eine maschienenlesbare und damit prozessierbare Form, d.h. die Umwandlung einer Ressource zu Forschungsdaten, Voraussetzung für deren Nutzung im Kontext der Digital Humanities ist, muss auch die Monografie oder der Artikel in Anmessung an die jeweilige Forschungsfrage so aufbereitet werden, dass er diesen neuen Nutzungszusammenhängen genügt. Texte werden nicht mehr nur gelesen, sondern auch gerechnet. Hier muss es also darum gehen, die Struktur und Bedeutung des Textes so zu modellieren, dass er Gegenstand algorithmischer Auswertungs- und Visualisierungsprozesse werden kann. Typischerweise erfolgt dies mit deskriptiven Markup (im Unterschied zu prozeduralem Markup)[1] in XML nach dem OHCO-Modell, auch wenn letzteres mit Blick auf überlappendes Markup immer wieder in die Kritik geraten ist und auch grundsätzliche Kritik an der Adäquatheit des OHCO Models zur Abbildung sprachlicher und begrifflicher Phänomene geäußert wurde. Damit soll erreicht werden, dass ein digitaler Text (im weitesten Sinne) nicht nur auf der Grundlage von Wörtern und Sätzen analysiert werden kann, sondern auch, dass seine Bedeutung durch die Einbringung von inhaltlichen (deskriptiven bzw. semantischen) Markup explizit und damit prozessierbar gemacht wird.

Wenn der kodierte Text sich je nach Kontext oder nach Wunsch des Nutzers/der Nutzerin in unterschiedlichen Viewport- oder Layoutformen präsentieren lässt, verwandelt sich die sichtbare Oberfläche und ist nur noch ein dynamisches und volatiles Produkt unsichtbarer, aber werkkonstitutiver Grundstrukturen, auf die Algorithmen angewendet werden. Er ist damit prinzipiell anders zu bewerten als die starre und unveränderbare Oberfläche zweidimensionaler gedruckter Publikationen, die bedeutungstragendes Markup im Layout kodieren (etwa: kleine Zahl unten ist eine Fußnote, kleine Zahl über dem Textblock ist eine Seitenzahl etc.).

Einen solchen Grundtext schreiben heißt daher, seine Nutzung in einem digitalen Kontext zu antizipieren und analytische Auswertungsmöglchkeiten wie Darstellungsmöglichkeiten mit zu konzipieren. Wichtiger als die typografische Ausgestaltung ist daher die Kodierung der Bedeutung des Textes durch sachgerechtes und standardkonformes Markup.

Mit deskriptivem Markup versehene Texte müssen, um in vollem Sinne für DH-Anwendungen nachnutzbar zu sein, auch Auskunft über ihren Dokumenteninhalt und Kodierungspraxis geben. Mit anderen Worten, maschinenlesbare bibliographische, strukturelle, administrative und technische Metadaten und die Kodierungsvorschriften müssen bekannt sein. Insofern ist die Beigabe und Bereitstellung von Metadaten sowie Schemadateien, die Inhalt und Struktur des deskriptiv kodierten Textes dokumentieren, essentiell.

An dieser Stelle muss offen bleiben, wie die „Semantik” praktisch in den Text kommt. Wünschbar wäre, dass das descriptive markup direkt durch den/die Wissenschaftler/Wissenschaftlerin erstellt wird. Dazu müssen jedoch leicht zu bediende Editoren und Tools entwickelt werden, um zu einer breiten Akzeptanz für diese Art zu schreiben zu kommen. Denkbar ist aber auch, dass diese Arbeit durch das jeweilige Publikationsorgan, die Plattform, die Online-Zeitschrift o.ä. übernommen wird. Wichtig ist, dass die in den Text hineinkodierten Strukturen allen an der Textherstellung beteiligten Personen bekannt sind, weil sie einen wesentlichen Teil des digitalen Textes bilden und ihn ebenso charakterisieren wie die in ihm enthaltenen Worte und Formulierungen. Das descriptive markup beschränkt sich nicht nur auf Text (als schriftlichen Ausdruck), sondern erstreckt sich auch auf nicht-textliche Daten wie Abbildungen, Videos oder Programmcode.

Ein markantes Kennzeichen digitaler Texte ist deren Veränderbarkeit und prinzipielle Offenheit. Sie können nach der (Erst)Publikationen fortgeschrieben werden. Vor diesem Hintergrund zeichnet sich ein Trend von der Ergebnispublikation zur Prozesspublikation ab. Ob dies in allen Fällen klug und geraten ist, kann hier nicht entschieden werden, wenn aber von dieser Möglichkeit Gebrauch gemacht wird, sollte eine digitale Publikation Auskunft über ihren Status geben, indem entweder technisch Versionierungsverfahren angeboten werden oder aber sie mit einer Erklärung über ihren jeweiligen Zustand sowie mit einer Erläuterung zur Nachvollziehbarkeit der Entwicklungsschritte ausgestattet wird. Gerade in diesem Moment unterscheidet sich eine digitale Publikation deutlich von ihrem gedruckten Pendant, das solche Prozesse nur in verschiedenen Auflagen zu realisieren vermochte.

Darüber hinaus sind digitale Texte vor allem auch Knoten in Netzwerken. Ein Buch öffnet das andere, wie ein altes Sprichwort sagt. Die Vernetzungfähigkeit ist eines der wichtigsten Eigenschaften des digitalen Textes (Hypertextualität). Genutzt wird heute vor allem die Möglichkeit, Quellen bzw. die Aussagen belegende Dokumente und Literatur einzubinden, so dass implizit ein Netz entsteht, das seinerseits Gegenstand der Analyse werden kann (Netzwerkforschung, Bibliometrie, Relevanzanaylse, citation index etc.). Über den klassischen Link hinaus gewinnt zunehmend auch das semantic web an Bedeutung. Hier werden Verknüpfungsinformationen in Gestalt von Linked Open Data (LOD) angeboten. Darin mitgedacht ist, dass digitale Texte soziale oder sozialisierbare Produkte sind, die Anknüpfungs- und Zielpunkt nicht nur der engeren wissenschaftlichen Interaktion und des Diskurses, sondern auch der breiteren Öffentlichkeit sind, der sich wieder in Texten (Annotationen, Blogs, Büchern, etc.) niederschlägt und neue Formen der Transparenz und Rückwirkung auf die wissenschaftliche Praxis und des wissenschaftlichen Erkenntnisprozesses mit sich bringt. Es geht also nicht nur um einen engeren vernetzten Dokumentenraum, sondern ein offenes Netz, in dem sich kommunikative mit literarisch-wissenschaftlichen Publikationsfomen mischen.

Zur Nutzung im Netz gehört auch die weltweit eindeutige und verlässliche Referenzierbarbeit und Langzeitverfügbarkeit von Dokumenten. Während Zitierformen für elektronische Texte unterhalb der Dokumentebene noch ungenügend standardisiert sind (der Wegfall der physikalischen Seitenreferenz erzwingt neue Zitierformen), haben sich für die Dokumentebene eine Reihe von Services etabliert, die ein persistentes Zitieren erlauben (DOI, URN, HANDLE und PURL sind die häufigsten). Die Frage der dauerhaften Verfügbarkeit und Archivierung der Dokumente ist auf der bitstream Ebene weitgehend gelöst, die komplexe Ebene der information representation  (nach der OAIS Formulierung) harrt jedoch weiterhin geeigneter Sicherungsverfahren und solte Gegenstand intensivierter Forschung der dokumentverwahrenden und - sicherenden Einrichtungen (Bibliotheken, Archive, Museen) werden. Die transparente Kodierung mit deskriptivem Markup kann ein wichtiger Schritt in diese Richtung sein.

Empfehlungen an

a. DH-Community

  • Nehmen Sie neue Publikationsformen ernst – sowohl aktiv-schreibend als auch passiv-rezipierend.

  • Publizieren Sie Forschungsergebnisse zusammen mit Forschungsdaten.

  • Berücksichtigen und kodieren Sie die semantische Struktur Ihrer Publikation, machen Sie Dokumente maschinenlesbar und prozessierbar. Daraus folgt: Nutzen Sie PDF nicht als primäres Publikationsformat (Kodierungsschicht), sondern, wenn überhaupt, als derivatives Lesefomat.

  • Sorgen Sie für die Vernetzung Ihrer Publikation.  

  • Sorgen Sie für persistentes Adressieren und Langzeitverfügbarkeit.

  • Bedenken Sie die Notwendigkeit der Versionierung Ihrer Dokumente.

  • Arbeiten Sie transparent durch Beigabe von Metadaten und Schemadateien und wirken Sie an der Gestaltung neuer Formen mit.

  • Nutzen Sie eingeführte Standards. Etwa XML-Standards wie TEI oder MEI oder Metadatenstandards wie METS, EAD oder LIDO sowie Normdaten zur Entitätenbeschreibung wie GND, Geonames oder TGN und Standards des semantic web wie RDF.

  • Arbeiten Sie kollaborativ und nutzen Sie Infrastrukturen, die Sie in der offenen Publikation (Open Access s. unten) und Archivierung unterstützen.

b. Politik/Förderinstitutionen/akademische Institutionen

  • Nehmen Sie die neuen Publikationsformen ernst. Fördern Sie eine neue Art der Anerkennungskultur für digitale Publikationen.

  • Fördern Sie Innovationen und bedenken Sie die Möglichkeiten des Scheiterns: Fördern Sie nicht nur Projekte, die sich auf ausgetretenen Pfaden bewegen und/oder bei denen sich ein Erfolg bereits abzeichnet.

  • Ermöglichen Sie durch Projektförderungen die Entwicklung passender Tools.

  • Fördern Sie die Neuentwicklung und den Umbau von Publikationsinfrastrukturen und den Aufbau neuer Dienstleistungsformen im Bereich der digitalen Publikation, z.B. durch die engere Verschränkung von Forschung und Forschungsinfrastrukturen (Bibliotheken, Archive, Museen etc.).

  • Fördern Sie Projekte, bei denen die Aufbereitung von Ergebnissen und Daten in einer digitalen Publikation integraler Bestandteil des Arbeitsplans ist. Vermeiden Sie die alleinige Förderung statischer Publikationsformen wie PDF.

  • Bringen Sie die Forderung nach dem Aufbau der „digitalen Gesellschaft“ in Einklang mit den Bedingungen der wissenschaftlichen Realität. Die Geisteswissenschaften verstehen sich als Spiegel der digitalen Gesellschaft und haben einen besonderen Bedarf an Anpassung der Rahmenbedingungen ihres Arbeitens und Schaffung von digitalen Infrastrukturen.

  • [1] descriptiv markup steht hier als Bezeichnung für eine von mehreren Varianten zur Bezeichnung der Kodierung von “Bedeutung”.