RegisterUmsetzung:
Automatische Umsetzung eines Literaturregisters in ein XML Schema
Studienprojekt 2002 für Lehrstuhl Computerlinguistik
an der Universität Heidelberg

   home05.gif

Autor: Heejung Parkmail11.gif

 

bar01a.gif

 

 

[Thomas Mann Projekt][Abstrakt][Spezifikation]
[
RTF-DirectoryConverter][Programm-Instruktion]

    Abschlussbericht am 7.11.2002 
    Achtung! MS PowerPoint notwendig

    Java Programm Source als zip.File

Programm-Instruktion

1. Menü: File

1.1. Select RTF File

Auswählen eines im RTF-Format gespeicherten Literaturverzeichnis, das der Benutzer automatisch in ein XML-Schema konvertieren will. Das Programm "RTF Directory Converter" lässt sich auf alle Literaturverzeichnisse vom S. Fischer Verlag in Frankfurt am Main anwenden.

Selektieren Sie die mitgelieferte Datei register.rtf (Literaturverzeichnis: Gesamtwerk Thomas Mann).

1.2. Select Meta Data File

Auswählen einer Metadaten-Datei.

Die Metadaten-Datei definiert die Tags und die Struktur des XML-Schemas, das aus dem im RTF-Format gespeicherten Literaturverzeichnis erzeugt wird. Das heisst, die Metadaten-Datei enthält die Bildungselemente, die <tags>. Die Tags sind bereits vordefiniert und können je nach Bedürfnis umbenannt werden. Es werden zwei Metadaten-Dateien mit deutschen und englischen Tags mitgeliefert: META.csv und META_en.csv. Diese Dateien können zum Beispiel mit Microsoft Excel geöffnet und bearbeitet werden. Die anschliessende Speicherung muss wieder als Comma Separated Value File erfolgen.

In der erste Zeile der Metadaten-Datei enthält die Spaltenbezeichner, Context, Keys und String Values. Die Spaltenwerte von Context und String Values können umbenannt werden.

Um eine einfache Verwaltung und Korrektur der Metadaten zu gewährleisten, erfolgt die Speicherung der Metadaten im CSV-Format. Die im CSV-Format gespeicherten Daten können im Excel-Programm von Microsoft geöffnet und dann in einer Tabelle bearbeitet werden.

1.3. Create empty XML Document (Conversion)

Anlegen einer neuen Datei bzw. einens neuen Dokuments für das zu generierende XML-Schema.

Nach Anlegen dieses zunächst leeren XML-Dokuments kann der Menüpunkt „Convert to XML“ in der Menüleiste „Run“ ausgewählt werden. Mit "Convert to XML" wird aus der RTF-Datei ein XML-Schema erzeugt.

1.4. Select XML Document (Separation)

Auswählen einer XML-Datei, die nach bestimmten Tags (sog. Filterklassen) gefiltert werden soll. Die Voraussetzung dieser Funktion ist das Vorhandensein einer Datei mit dem generierten XML-Schema.

Bevor eine XML-Datei nach bestimmten Tags gefiltert werden kann, muss die zu filternde XML-Datei ausgewählt werden. Desweiteren muss die Metadaten-Datei, mit der die XML-Datei erzeugt worden ist, ausgewählt werden. Aus der Metadaten-Datei werden die Filterklassen gebildet.

Mit der Filterung kann ein grosses XML-Dokument in sinnvolle Teile zerlegt werden.

1.5. Filter Classes

Nach der Auswahl der Metadaten-Datei zeigt der Menüpunkt "Filter Classes" in der Menüleiste „File“  unterschiedliche Klassenwerte an. Hier kann der Benutzer einen Eintrag auswählen, mit dem gefiltert werden soll.  Wenn zum Beispiel in einem XML-Dokument die Metadaten bzw. XML-Tags wie <person>, <werk>, <figur> und <kapitel> verwendet worden sind, kann der Benutzer eine von den Tags auswählen. Das getrennte XML-Dokument wird automatisch unter dem Namen der ausgewählten Filterklasse (Tag) i gespeichert, zum Beispiel person.xml oder werk.xml.  

<MetaTable.java>

Die Klasse MetaTable ist von der Klasse Hashtable abgeleitet. Das heisst, die Klasse MetaTable erbt alle Eigenschaften (Methoden und Attribute) der Klasse Hashtable.   Beim Aufruf von MetaTable kann man also alle Methoden von Hashtable nutzen. Im Rahmen der Vererbung könnte man diese Methoden von Hashtable auch in der Klasse MetaTable überschreiben.

Die Methode „fillMetaTable“ sucht nach ";"(Semikolons) in der ausgewählten Metadaten-Datei, die als CSV-Datei (Comma separated value file) vorliegt, und baut die interne Metadaten-Tabelle auf.

Hashtable

Eine Hashtabelle speichert zu einem Schlüssel (Key) einen Wert (Value) und dient zum schnellen Wiederauffinden eines Werts anhand eines Schlüssels. Der interne Index eines Eintrags wird aus dem int hashCode( ) des Schlüssels errechnet. Im Eintrag werden Schlüssel und Wert gespeichert.

Iterator(Schleife) erzeugt die Filterliste:

Die Methode sucht in der Hashtabelle das Zeichen „&“ und nimmt die Werte, die vor „&“ stehen, in die Filterliste auf. Wenn ein Wert bereits in der Liste steht, wird er nicht noch einmal hinzugefügt. 

1.6. Exit

Beendet das Programm.

 

2. Menü: RUN

2.1. Convert RTF to XML

Eigentliches Hauptprogramm. Konvertiert das im RTF-Format gespeicherte Literaturverzeichnis in das XML-Format.

Die Auswertung der Metadaten-Tabelle ist fest programmiert, d.h. die Struktur (der Tabellenaufbau) und die Namen der Keys dürfen nicht geändert werden. Die Namen der Tags (StringValues) und des Kontext-Feldes dürfen verändert werden und können z. B. in einer unterschiedlichen Sprache abgespeichert werden.

2.2. Separate First Level with Filter

Dieser Menüpunkt ist einer von zwei Filterfunktionen.

Der Benutzer wählt zuerst eine XML-Dokument aus, das aus dem im RTF-Format gespeicherten Literaturverzeichnis konvertiert wurde.

Der Menüpunkt Separate First Level with Filter ist eine Funktion, die nur die erste Ebene des XML-Dokuments auswertet. Es werden also nur die Tags der ersten Hierarchiestufe bei der Filterung berücksichtigt. Das herausgefilterte XML-Dokument wird automatisch unter dem Namen der ausgewählten Klasse gespeichert. Wenn zum Beispiel die Filterklasse bzw. das Tag <werk> ausgewählt wurde, dann werden alle Einträge, die mit <werk> auf der ersten Hierarchiestufe beginnen, gefiltert und automatisch unter dem Namen werk.xml gespeichert.              

2.3. Separate All Levels with Filter

Dieser Menüpunkt ist die zweite Filterfunktion.

Der Menüpunkt Separate All Levels with Filter ist eine Funktion, die im Gegensatz zum Menüpunkt Separate First Level with Filter alle Ebenen des XML-Dokuments auswertet. Es werden also die Tags aller Hierarchiestufen bei der Filterung berücksichtigt. Das herausgefilterte XML-Dokument wird automatisch unter dem Namen der ausgewählten Klasse gespeichert. Wenn zum Beispiel die Filterklasse bzw. das Tag <werk> ausgewählt wurde, dann werden alle Einträge, die mit <werk> beginnen, gefiltert und automatisch unter dem Namen werk.xml gespeichert.              

3. Help

3.1. About

Eine kurze Information über das Programm.


[
Thomas Mann Projekt][Abstrakt][Spezifikation]
[
RTF Directory Converter][Programm-Instruktion]

 

 

bar01c.gif

 

Copyright (c) 2002 Heejung Park All rights reserved.