Re: "Reinigung" einer grossen Datenbank
- From: "Michael v. Fondern" <spammehere@xxxxxxxxxxx>
- Date: Sat, 10 Nov 2007 09:55:58 +0100
piotr.pilarek@xxxxxxxx:
Ich habe mir das Levensthein-Ding angeschaut, als ich den Code gesehen
habe, hat es mich natürlich beinahe umgeschlagen.
Der Pseucode in der Wikipedia hat gerade mal 15 Zeilen Code. Wenn dich das bereits aus der Fassung bringt, würde ich sagen, da musst du wohl oder übel "manuell" die Adressen reinigen. Oder ein wenig Programmieren lernen. Oder dir jemand in deinem Umfeld suchen, der dir das programmiert.
Es ist klar, dass das Problem sehr komplex ist, der Unterschied
zwischen einem "l" und einem polnischen "ł" ist in der Praxis meistens
sehr gering und bei älteren Daten aus den uralten EDV Anlagen waren
gar keine polnischne Sonderzeichen. Ein Teil der Listen wurde gescannt
und OCR aufbereitet, dabei sind bestimmte Sonderzeichen weggefallen
und auch unsinnige Ersatzzeichen eingesetzt worden.
Sieht sehr danach aus, dass der Ansatz mit der Levenshtein-Funktion dir wirklich weiterhelfen könnte.
Grüße
- Michael -
.
- References:
- "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- Re: "Reinigung" einer grossen Datenbank
- From: Mark Doerbandt
- Re: "Reinigung" einer grossen Datenbank
- From: Sascha Trowitzsch
- Re: "Reinigung" einer grossen Datenbank
- From: Mark Doerbandt
- Re: "Reinigung" einer grossen Datenbank
- From: Michel Fouquet
- Re: "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- Re: "Reinigung" einer grossen Datenbank
- From: Michel Fouquet
- Re: "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- Re: "Reinigung" einer grossen Datenbank
- From: Josef Poetzl
- Re: "Reinigung" einer grossen Datenbank
- From: Michael v. Fondern
- Re: "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- "Reinigung" einer grossen Datenbank
- Prev by Date: Re: "Reinigung" einer grossen Datenbank
- Next by Date: Re: Vorbereitung für Upgrade auf SQL-Server
- Previous by thread: Re: "Reinigung" einer grossen Datenbank
- Next by thread: Re: "Reinigung" einer grossen Datenbank
- Index(es):
Loading