Navigation überspringen
nordwest-zeitung
Abo-Angebote ePaper Newsletter App Prospekte Jobs Immo Trauer Shop

Forschung Computer als Waschmaschine für Texte

Oldenburg - Eine Methode zur automatischen Reinigung verschmutzter und bekritzelter Texte, etwa von Kaffeeflecken oder Durchstreichungen, haben Forscher der Universitäten Oldenburg, Frankfurt am Main, Sheffield (Großbritannien) und der Technischen Universität Berlin entwickelt. Wie sich ein Computer nebst Scanner und Drucker mithin als „Waschmaschine“ für Texte einsetzen lässt, hat der interdisziplinäre Oldenburger Forscher Prof. Dr. Jörg Lücke gemeinsam mit seinem Sheffielder Kollegen Dr. Zhenwen Dai in der Oktober-Ausgabe der renommierten Fachzeitschrift TPAMI („IEEE Transactions on Pattern Analysis and Machine Intelligence“) veröffentlicht.

Reinigung mit Statistik

Die neu entwickelte Software zur Textreinigung ist Ergebnis eines von der Deutschen Forschungsgemeinschaft (DFG) geförderten Projekts. Für die Arbeiten unter dem Titel „Nicht-lineare probabilistische Modelle für repräsentationsbasiertes Erkennen und unüberwachtes Lernen auf visuellen Daten“ sind bisher etwa eine halbe Million Euro an Fördergeldern zugesagt.

Der Schlüssel zum Reinigungserfolg ist Statistik. Buchstaben – etwa in einem Zeitungsartikel – sind regelmäßige, sich wiederholende Muster, während Schmutz-Muster wie Kaffee- oder Tintenflecken sehr selten gleich aussehen.

Das neu entwickelte Computerprogramm schaut sich einen verunreinigten Text zunächst viele Male an und lernt dabei, aus welchen sich regelmäßig wiederholenden Mustern (also Buchstaben) er besteht. Danach merkt sich das Programm die „saubersten“ Beispiele für jeden Buchstaben, um Schritt für Schritt jeden einzelnen damit zu ersetzen. Das Ergebnis ist ein sauberer Text.

Besonderer Clou ist die Unabhängigkeit von Sprache oder Alphabet des Textes: Da das Programm zunächst die Buchstaben lernt, funktioniert es zum Beispiel auch mit einem Text in der Fantasiesprache Klingonisch (aus der Serie „Raumschiff Enterprise“). Ein weiterer Unterschied zu handelsüblichen Texterkennungs-Programmen ist seine Fähigkeit, mit besonders schweren Verschmutzungen umgehen zu können.

Hohe Rechenkapazität

Eine Herausforderung stellt dabei bislang noch der große Bedarf an Rechenkapazität dar, wie Projektleiter Lücke berichtet: „Wegen des enormen Rechenaufwandes können wir derzeit nur recht kleine Alphabete behandeln und dennoch benötigen wir einen Rechen-Cluster mit 15 Grafikkarten-Prozessoren, um zu den vorgestellten Ergebnissen zu gelangen.“

Eine direkte Anwendbarkeit sei aber auch nicht das primäre Ziel der Forschung gewesen, sondern zunächst die grundsätzliche Erprobung der neuen Methode. Von ihr könnten in Zukunft automatische Texterkennungs-Programme oder Software zur Restauration alter Zeitschriftentexte profitieren. Lücke sieht auch einen Nutzen der Resultate für die Erkennung gesprochener Sprache und die Analyse medizinischer Bild-Daten.

„In beiden Fällen stellen starke ‚Verschmutzungen‘ in Form von Rauschen und Signal-Verzerrungen derzeit die größten Herausforderungen dar.“ Ein Beispiel dafür seien die oft schlechten Leistungen heutiger Spracherkennungs-Programme bei Hintergrundgeräuschen. „Mit unserer neuen Methode haben wir nun ein Werkzeug, um diese Herausforderungen angehen zu können.“

Themen
Artikelempfehlungen der Redaktion
Kleine Kinder haben Fragen zu Schwangerschaft, Geburt und Stillen. In Oldenburg wollen Hebammen Unterrichtsstunden zu diesen Themen in den vierten Klassen geben.

PILOTPROJEKT IN OLDENBURG Schwangerschaft, Geburt und Stillen – Was Grundschüler bei Hebammen lernen

Anja Biewald
Oldenburg
Analyse
Bundeskanzler Olaf Scholz besucht den Katholikentag in Erfurt

SPD-WAHLKAMPF ZUR EUROPA-WAHL Zieht der Kanzler im Osten?

Kerstin Münstermann Büro Berlin
Delitzsch
Blick in die Räucherkammer bei Aal Bruns in Kayhauserfeld: Marco Pawlik ist mit der Qualität zufrieden.

DELIKATESSE NACH ÜBERLIEFERTER REZEPTUR Woher kommt der Zwischenahner Aal?

Kerstin Schumann
Kayhauserfeld
Der Bergpark Wilhelmshöhe: Hier befinden sich etliche Sehenswürdigkeiten.

NWZ-REISETIPPS: ABSTECHER NACH ... KASSEL Entspannte Stunden in historischen Parks

Kerstin Schumann
Kassel
Vor etwa einem Jahr eröffnete der Pflegedienst Paul-Lina seinen neuen Hauptsitz in Wittmund. Wegen eines Insolvenzverfahrens musste der Pflegedienst seinen Betrieb aufgeben.

STANDORTE IN WITTMUND UND EMDEN Insolvenz bei Pflegedienst Paul-Lina – So geht es für die Kunden weiter

Kim-Christin Hibbeler
Wittmund