Re: "Reinigung" einer grossen Datenbank



Hallo Piotr,

piotr.pilarek@xxxxxxxx schrieb:

Ich sehe da nicht ganz wie ihr Euch diese Funtionen vorstellt, also
ich pick mir mal eine Strasse in Wrocław hinaus, z.B.

ul. Strzegomska

ul. am Anfang heisst Strasse und ist ein Knacknuss für sich, man macht
es nicht immer, und oft fehlt der Punkt und manchmal sind 2 Abstände
nachher, und dann kann das noch ein Platz oder Gässchen sein. Also
muss mal erst überall das ul. und seine z.T. falschen Varianten weg
und in ein sep. Feld, damit man nachher noch weiss, wo ul. stand!

Also habe dann das Wort "Strzegomska" extrahiert und vergleiche das
mit der ganzen DB phonetisch? Das kann kaum aufgehen, weil in unser
Sprache ein z und ein s manchmal praktisch gleich tönen und manchmal
überhaupt nicht...

Z.B. der polnische Buchstabe "ł" (das ist ein durchgestrichenes
kleines "l") kann wie ein weiches "r" tönen und die falschen Varianten
sind dann dementsprechend. Sicherer wäre ein reiner
Buchstabenvergleich.

hier ist zwar viel Sachverstand versammelt, aber in einer deutschsprachigen Newsgroup sind vertiefte Kenntnisse über die polnische Sprache wohl eher eine große Ausnahme. Das betrifft auch die Anwendung eines Algorithmus auf eine Fremdsprache, wie es das Polnische für uns ist.

Suchbegriffe, die dich in diesem Zusammenhang weiterbringen könnten, wären neben "Soundex" und "Metaphone" auch "Levenshtein" usw.

Siehe dazu z.B.

Phonetischer Abgleich vs. String-Matching
http://www.sound-ex.de/soundex_links.htm

Weitere Suchbegriffe wie Adressprüfung, Adressbereinigung, Adressabgleich geben dir einen Eindruck davon, wie andere mit der Fragestellung umgehen - also z.B. der Abgleich mit dem elektronischen Adressverzeichnis der Deutschen Post, den Daten der Meldebehörden usw.. Es ist ja kein Zufall, dass Adresshändler viel Arbeit (und Geld) darin investieren, ihren Datenbestand aktuell und korrekt zu halten.

Wenn nun weder das Geld oder die entsprechend korrekten Datenbestände zur Verfügung stehen, muss man die Arbeit eben per Hand erledigen. Früher war die Adressprüfung eine (schlecht bezahlte) Heimarbeit, um sich ein paar D-Mark dazuzuverdienen.

Dass bei einem Anbieter der Abgleich einer einzelnen Adresse 5 Cent kostet, könnte dir klarmachen, was deine Arbeit eigentlich wert ist.

Gruß,
Michel
.


Loading