Re: "Reinigung" einer grossen Datenbank
- From: Michel Fouquet <MaPoubelleNoSpam@xxxxxxxxx>
- Date: Thu, 08 Nov 2007 01:08:38 +0100
Hallo Piotr,
piotr.pilarek@xxxxxxxx schrieb:
Ich sehe da nicht ganz wie ihr Euch diese Funtionen vorstellt, also
ich pick mir mal eine Strasse in Wrocław hinaus, z.B.
ul. Strzegomska
ul. am Anfang heisst Strasse und ist ein Knacknuss für sich, man macht
es nicht immer, und oft fehlt der Punkt und manchmal sind 2 Abstände
nachher, und dann kann das noch ein Platz oder Gässchen sein. Also
muss mal erst überall das ul. und seine z.T. falschen Varianten weg
und in ein sep. Feld, damit man nachher noch weiss, wo ul. stand!
Also habe dann das Wort "Strzegomska" extrahiert und vergleiche das
mit der ganzen DB phonetisch? Das kann kaum aufgehen, weil in unser
Sprache ein z und ein s manchmal praktisch gleich tönen und manchmal
überhaupt nicht...
Z.B. der polnische Buchstabe "ł" (das ist ein durchgestrichenes
kleines "l") kann wie ein weiches "r" tönen und die falschen Varianten
sind dann dementsprechend. Sicherer wäre ein reiner
Buchstabenvergleich.
hier ist zwar viel Sachverstand versammelt, aber in einer deutschsprachigen Newsgroup sind vertiefte Kenntnisse über die polnische Sprache wohl eher eine große Ausnahme. Das betrifft auch die Anwendung eines Algorithmus auf eine Fremdsprache, wie es das Polnische für uns ist.
Suchbegriffe, die dich in diesem Zusammenhang weiterbringen könnten, wären neben "Soundex" und "Metaphone" auch "Levenshtein" usw.
Siehe dazu z.B.
Phonetischer Abgleich vs. String-Matching
http://www.sound-ex.de/soundex_links.htm
Weitere Suchbegriffe wie Adressprüfung, Adressbereinigung, Adressabgleich geben dir einen Eindruck davon, wie andere mit der Fragestellung umgehen - also z.B. der Abgleich mit dem elektronischen Adressverzeichnis der Deutschen Post, den Daten der Meldebehörden usw.. Es ist ja kein Zufall, dass Adresshändler viel Arbeit (und Geld) darin investieren, ihren Datenbestand aktuell und korrekt zu halten.
Wenn nun weder das Geld oder die entsprechend korrekten Datenbestände zur Verfügung stehen, muss man die Arbeit eben per Hand erledigen. Früher war die Adressprüfung eine (schlecht bezahlte) Heimarbeit, um sich ein paar D-Mark dazuzuverdienen.
Dass bei einem Anbieter der Abgleich einer einzelnen Adresse 5 Cent kostet, könnte dir klarmachen, was deine Arbeit eigentlich wert ist.
Gruß,
Michel
.
- Follow-Ups:
- Re: "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- Re: "Reinigung" einer grossen Datenbank
- References:
- "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- Re: "Reinigung" einer grossen Datenbank
- From: Mark Doerbandt
- Re: "Reinigung" einer grossen Datenbank
- From: Sascha Trowitzsch
- Re: "Reinigung" einer grossen Datenbank
- From: Mark Doerbandt
- Re: "Reinigung" einer grossen Datenbank
- From: Michel Fouquet
- Re: "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- "Reinigung" einer grossen Datenbank
- Prev by Date: Re: "Reinigung" einer grossen Datenbank
- Next by Date: Re: Automation von ACCESS aus Visio heraus, Multitasking??
- Previous by thread: Re: "Reinigung" einer grossen Datenbank
- Next by thread: Re: "Reinigung" einer grossen Datenbank
- Index(es):
Loading