Re: "Reinigung" einer grossen Datenbank



piotr.pilarek@xxxxxxxx:

Ich habe mir das Levensthein-Ding angeschaut, als ich den Code gesehen
habe, hat es mich natürlich beinahe umgeschlagen.

Der Pseucode in der Wikipedia hat gerade mal 15 Zeilen Code. Wenn dich das bereits aus der Fassung bringt, würde ich sagen, da musst du wohl oder übel "manuell" die Adressen reinigen. Oder ein wenig Programmieren lernen. Oder dir jemand in deinem Umfeld suchen, der dir das programmiert.


Es ist klar, dass das Problem sehr komplex ist, der Unterschied
zwischen einem "l" und einem polnischen "ł" ist in der Praxis meistens
sehr gering und bei älteren Daten aus den uralten EDV Anlagen waren
gar keine polnischne Sonderzeichen. Ein Teil der Listen wurde gescannt
und OCR aufbereitet, dabei sind bestimmte Sonderzeichen weggefallen
und auch unsinnige Ersatzzeichen eingesetzt worden.

Sieht sehr danach aus, dass der Ansatz mit der Levenshtein-Funktion dir wirklich weiterhelfen könnte.

Grüße

- Michael -
.


Loading