# Filename: stop_out.py # Author: Marina Stegarescu # Description: Vergleicht zwei Dateien, schreibt in die Dritte den Inhalt # der ersten Datei abzueglich der Woerter aus der zweiten. import sys stopDict ={} #dieses Woerterbuch wird die Menge der Stopwoerter enthalten stopList=open(sys.argv[1], "rb") #die Datei mit den Stopwoerter wird geoeffnet #und jedes Element wird in das Woerterbuch aufgenommen; #dabei steht pro Zeile ein Stopwort for stopWord in stopList: stopDict[stopWord.strip()]=None stopList.close() wordsFile=open(sys.argv[2], "rb") #Datei, aus der die Stopwoerter entfernt werden muessen, #wird in eine Liste eingelesen; dabei wird davon ausgegangen, dass #pro Zeile ein Wort steht rawList=wordsFile.readlines () wordsFile.close() resultFile=open(sys.argv[3], "wb") #in diese Datei wird das Ergebnis abgelegt: #geschrieben werden nur die Woerter, die nicht im Stopwoerter- #woerterbuch enthalten sind''' for word in rawList: if stopDict.has_key(word.strip()): continue else: resultFile.write(word) resultFile.close()