Re: "Reinigung" einer grossen Datenbank
- From: piotr.pilarek@xxxxxxxx
- Date: Thu, 08 Nov 2007 01:13:28 -0800
Hallo zusammen
On Nov 8, 1:08 am, Michel Fouquet <MaPoubelleNoS...@xxxxxxxxx> wrote:
Hallo Piotr,
piotr.pila...@xxxxxxxx schrieb:
Ich sehe da nicht ganz wie ihr Euch diese Funtionen vorstellt, also
ich pick mir mal eine Strasse in Wrocław hinaus, z.B.
ul. Strzegomska
ul. am Anfang heisst Strasse und ist ein Knacknuss für sich, man macht
es nicht immer, und oft fehlt der Punkt und manchmal sind 2 Abstände
nachher, und dann kann das noch ein Platz oder Gässchen sein. Also
muss mal erst überall das ul. und seine z.T. falschen Varianten weg
und in ein sep. Feld, damit man nachher noch weiss, wo ul. stand!
Also habe dann das Wort "Strzegomska" extrahiert und vergleiche das
mit der ganzen DB phonetisch? Das kann kaum aufgehen, weil in unser
Sprache ein z und ein s manchmal praktisch gleich tönen und manchmal
überhaupt nicht...
Z.B. der polnische Buchstabe "ł" (das ist ein durchgestrichenes
kleines "l") kann wie ein weiches "r" tönen und die falschen Varianten
sind dann dementsprechend. Sicherer wäre ein reiner
Buchstabenvergleich.
hier ist zwar viel Sachverstand versammelt, aber in einer
deutschsprachigen Newsgroup sind vertiefte Kenntnisse über die polnische
Sprache wohl eher eine große Ausnahme. Das betrifft auch die Anwendung
eines Algorithmus auf eine Fremdsprache, wie es das Polnische für uns ist.
Suchbegriffe, die dich in diesem Zusammenhang weiterbringen könnten,
wären neben "Soundex" und "Metaphone" auch "Levenshtein" usw.
Siehe dazu z.B.
Phonetischer Abgleich vs. String-Matchinghttp://www.sound-ex.de/soundex_links.htm
Weitere Suchbegriffe wie Adressprüfung, Adressbereinigung,
Adressabgleich geben dir einen Eindruck davon, wie andere mit der
Fragestellung umgehen - also z.B. der Abgleich mit dem elektronischen
Adressverzeichnis der Deutschen Post, den Daten der Meldebehörden usw..
Es ist ja kein Zufall, dass Adresshändler viel Arbeit (und Geld) darin
investieren, ihren Datenbestand aktuell und korrekt zu halten.
Wenn nun weder das Geld oder die entsprechend korrekten Datenbestände
zur Verfügung stehen, muss man die Arbeit eben per Hand erledigen.
Früher war die Adressprüfung eine (schlecht bezahlte) Heimarbeit, um
sich ein paar D-Mark dazuzuverdienen.
Dass bei einem Anbieter der Abgleich einer einzelnen Adresse 5 Cent
kostet, könnte dir klarmachen, was deine Arbeit eigentlich wert ist.
Gruß,
Michel- Hide quoted text -
- Show quoted text -
Erst einmal vielen Dank für das Beileid...Die Sache ist kompliziert,
weil ich (nicht nur ich, auch meine Kollegen) eigentlich der "Neger"
bin, der das für die 5 Cent pro Adresse machen sollte. Leider sind es
nicht 5 und es sind nicht Cent! Abgesehen dass das eine richtig blöde
Arbeit ist, fehlt es dann an der Konsistenz, d.h. einer macht die
Strassennamen abgekürzt (z. J. W. Goethe-Strasse), der andere
ausgeschrieben, oder teilweise. Der Lohn dazu ist absolut "sub",
umgerechnet 2 € für 1000 fertige Adressen, ohne Rücksicht, ob da was
war oder nicht. Für eine Stadt wie Breslau kriegen wir also und 300 €,
und noch Abzug für Fehler, ich glaube euer Harz 4 ist besser...
Ich habe aber gelernt - auch aus den anderen Postings, dass das
wirklich ein lebendiges Thema ist, leider studiere ich nicht IT.
Noch wegen dem SQL Server, ich habe eigentlich kein
Geschwindigkeitsproblem und kann die Grösse der "Kuchenstücke" selbst
wählen und dann nach Bearbeitung in die grosse DB zurückspielen. Mit
256 MB RAM würde der SQL Server sicher nicht besonders leistungsfähig.
Danke an alle nochmals!
Piotr
.
- Follow-Ups:
- Re: "Reinigung" einer grossen Datenbank
- From: Josef Poetzl
- Re: "Reinigung" einer grossen Datenbank
- References:
- "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- Re: "Reinigung" einer grossen Datenbank
- From: Mark Doerbandt
- Re: "Reinigung" einer grossen Datenbank
- From: Sascha Trowitzsch
- Re: "Reinigung" einer grossen Datenbank
- From: Mark Doerbandt
- Re: "Reinigung" einer grossen Datenbank
- From: Michel Fouquet
- Re: "Reinigung" einer grossen Datenbank
- From: piotr . pilarek
- Re: "Reinigung" einer grossen Datenbank
- From: Michel Fouquet
- "Reinigung" einer grossen Datenbank
- Prev by Date: Re: Access 2003
- Next by Date: Access 2000 merkt sich nicht die Positionen der internen Symbolleisten
- Previous by thread: Re: "Reinigung" einer grossen Datenbank
- Next by thread: Re: "Reinigung" einer grossen Datenbank
- Index(es):
Loading