RegisterUmsetzung:
Automatische Umsetzung eines Literaturregisters in ein XML Schema
Studienprojekt 2002 für Lehrstuhl Computerlinguistik
an der Universität Heidelberg

   home05.gif

Autor: Heejung Parkmail11.gif

 

bar01a.gif

 

 

Thomas Mann Projekt

Im Verlagswesen eröffnet die Technik mittlerweile die Möglichkeit, literarische Werke als Buch und parallel als elektronische Ausgabe zu planen. S. Fischer arbeitet an einem neuen Publikationskonzept der Werke Thomas Manns. 

Herbst 1929: Der Knaur-Verlag will eine preiswerte Volksausgabe der Buddenbrooks veröffentlichen und sucht dafür um eine Sonderlizenz beim S. Fischer Verlag nach. Dies führt zu Meinungsverschiedenheiten zwischen Thomas Mann und seinem Verleger Samuel Fischer. Der ist grundsätzlich gegen die Idee der Volksausgabe; Mann befürwortet sie und führt als Argument die ‘geänderte Zeit’ ins Feld. Die Verhandlungen mit Knaur scheitern; Fischer bringt schließlich selbst eine Volksausgabe der Buddenbrooks heraus, die ein Riesenerfolg wird.

Herbst 2001: Bei S. Fischer erscheinen die ersten drei Bände der ‘Großen kommentierten Frankfurter Ausgabe’ (GKFA) der Werke Thomas Manns als Buchausgabe und CD-ROM. Im Vorfeld bewarben sich mehrere Softwarehersteller um die Lizenz für eine elektronische Version. Fischer beschloss jedoch, sie in eigener Regie herzustellen. Diese Entscheidung leitete gleichzeitig einen Strategiewechsel im Verlag bezüglich der neuen Medien ein: Die Inhalte selber werden zur Sache des Verlags, unabhängig von ihrem Publikationsmedium.

War 1929 die Volksausgabe eine Neuerung im Verlagsbereich, sind es heute die elektronischen Medien. Mit der Veränderung der Medienlandschaft entstehen neue Publikationsmöglichkeiten neben - nicht statt - der alten: CD-ROMs, Internet, E-Books. Mehr denn je geht es heute um die Inhalte als solche. Sie werden nicht mehr ausschließlich zu Papier gebracht, sondern vielmehr zu entmaterialisierten Datenströmen, die idealerweise unabhängig von ihrem aktuellen Publikationsmedium sind und in unterschiedlichen Medien manifest werden können.

Umsetzbarkeit und Kosten analysieren

Solche Möglichkeiten entstehen nicht von selbst, man muss sie schaffen. Dafür sind tragfähige Konzepte notwendig, die für die jeweiligen Inhalte maßgeschneidert sind, aber auch die praktische Umsetzbarkeit und die Kosten nicht aus den Augen verlieren. Standards spielen in diesem Zusammenhang eine Rolle, wenn es darum geht, bei langfristig anzulegenden Planungen auf sicherem Boden zu stehen. Im Publikationsbereich sind SGML, XML und alle ihre Verwandten hier an erster Stelle zu nennen. Visionen sind vonnöten, um heute schon zukunftsweisende Wege beschreiten zu können. Semantische Netze oder Topic Maps, ihre XML- beziehungsweise SGML-Version werden eine zunehmend wichtige Rolle spielen, wenn es darum geht, die Inhalte großer Datenmengen gezielt recherchierbar zu machen. Ein Sachverhalt, der heute ‘Knowledge Management’ oder ‘wissensbasiertes Publizieren’ heißt.

Für den S. Fischer Verlag ist Thomas Mann bis heute einer der umsatzstarken Autoren. Der Verlag hält bis 2025 die exklusiven Publikationsrechte an seinem Werk. Zwischen 2001 und 2015 wird Fischer in jährlichem Rhythmus eine 58-bändige Referenzausgabe der Werke, Briefe und Tagebücher Thomas Manns veröffentlichen.

Planung: als Buch und elektronisch

Die Entscheidung zu dieser neuen Referenzausgabe ging im Verlag mit einer Reihe weiterer Überlegungen einher. Bei einem auf so lange Zeit angelegten Projekt lag es auf der Hand, die Ausgabe nicht nur als Buch, sondern auch elektronisch zu publizieren. Nach Sichtung am Markt vorhandener Editionen war klar, dass diese Produkte nicht der Vorstellung einer elektronischen Version der GKFA entsprachen. Nicht klar war allerdings, wie genau die aussehen sollte; auf keinen Fall war ein einfaches Abbild des Buches angestrebt. Es sollte sichergestellt sein, dass die elektronische Ausgabe den hohen Anforderungen der Buchausgabe entspricht. Qualitativ hochwertig war dabei auf die Inhalte und deren mediengerechte Umsetzung bezogen. Darüber hinaus war gefordert, im Zuge dieser großen Ausgabe die Inhalte so aufzubereiten, dass sie langfristig nutzbare Ressourcen werden. Bei einem anderen großen Projekt - dem Fischer Weltalmanach - hatte sich seit einigen Jahren SGML/XML für die langfristige Datenhaltung bewährt. Grund genug, auch für Thomas Mann auf diese Standards zu setzen. Daraus resultierten als zentrale Projektvorgaben erstens, dass die GKFA als Buchausgabe und als elektronische Ausgabe erscheinen wird, und zweitens, dass die Texte der GKFA SGML/XML-strukturiert vorliegen sollen.

Mit der ersten Projektvorgabe war nicht angestrebt, sich an das gängige Publikationsmodell für literarische Editionen anzulehnen. Herkömmlich entsteht die elektronische Version in der Regel auf der Datenbasis der gedruckten Ausgabe. Diese Datenbasis, die zunächst die Herstellung der Buchausgabe durchlaufen hat, transportiert folgerichtig in erster Linie typographische und layoutorientierte Informationen. Eine elektronische Version kann sich unter solchen Voraussetzungen nur mit erheblichem Zusatzaufwand von der Buchausgabe lösen. Die Folge ist ein elektronisches Buchimitat, das gerade wegen dieser Imitation erheblich an Qualität einbüßt: Es entsteht eine Art Buch, das weder das klassische Medium Papier mit all seinen sinnlichen Eigenschaften benutzt, noch die Eigenschaften des elektronischen Mediums ausschöpft. Einzig über Volltextsuche und einige festgelegte semantische Suchmöglichkeiten wird eine Annäherung an die Möglichkeiten der neuen Medien erreicht. Das für die GKFA angestrebte Modell hingegen zielt gerade darauf ab, die spezifischen Eigenschaften - den Werkzeugcharakter - elektronischer Medien nutzbar zu machen. Gleichzeitig sollte sichergestellt sein, dass es sich um eine Referenzausgabe handelt, die in zwei Medien realisiert ist.

Die zweite Projektvorgabe zielte darauf ab, den Workflow des herkömmlichen Modells dahingehend zu verändern, dass die verschiedenen Publikationsmedien aus einer Datenbasis parallel bedient werden können. Dieser so genannte Informationspool besteht aus

  • einer Textbasis, die ihrerseits SGML/ XML-Instanzen, Textdaten in anderen Formaten, Grafiken, Musik et cetera umfasst,
  • den zu den SGML/XML-Instanzen gehörigen Document Type Definitions (DTDs) sowie
  • aus der Metastruktur, welche die verschiedenen Teile der Textbasis miteinander verknüpft.

In seiner Rolle als zentrale Ressource für den Verlag dient der Informationspool nicht nur als Herstellungsbasis, sondern auch für verschiedene andere Publikationen, wie eine Schulausgabe oder ein Themenband ‘Thomas Mann und Goethe’. Solche Abfragen für die Erstellung von Sonderpublikationen nutzen genauso das semantische Netz aus, wie es die elektronische Version tut, wenn sie es ermöglicht, nach den für Thomas Mann relevanten russischen Autoren des 19. Jahrhunderts zu fragen. Im Lektorat verschieben sich mit dieser Veränderung des Workflows traditionelle Aufgaben: Nicht mehr die spezifische Ausgabe steht im Mittelpunkt der Arbeit, sondern mehr und mehr die Arbeit rund um den Informationspool. Er wird zur eigentlichen Arbeitsbasis, um die gesamte Textmenge zu editieren, miteinander zu verknüpfen und dabei auf den verschiedenen Ebenen konsistent zu halten. Der Informationspool ist nicht auf einen einzelnen Autor beschränkt. Er soll nach und nach um andere kommentierte und unkommentierte literarische Editionen sowie Einzelwerke erweitert werden.

 

 

bar01c.gif

 

Copyright (c) 2002 Heejung Park All rights reserved.