Re: MBCS oder Unicode
- From: "Andreas Heyer" <postbox@xxxxxxxxxxxxxxxxxxxxxxxxx>
- Date: Fri, 1 Dec 2006 16:10:15 +0100
Hallo Jochen!
"Jochen Kalmbach [MVP]" <nospam-Jochen.Kalmbach@xxxxxxxxx> wrote:
Es mag dir nicht wichtig erscheinen, aber wenn ich in meiner DB zu 90% Texte habe, der aus lateinischen Buchstaben bestehen, dann ist die Frage nach UTF-8 oder UTF-16 IMHO wohl berechtigt. Oder hast du gerne 50% nutzlose Nullen rumhängen?Hattest Du nicht das Konzept von Windows angezweifelt? Dann hab ich es falsch verstanden.
Aber wenn Du von Datenbanken anfängt: Die Datenbank muss aber das Encoding kennen was Du in sie reinstopfst! Sonst funktioniert das ganze Collation/Sorting und LIKE gar nicht mehr...
Gut, dann eine bessere Frage: Was ist denn besser für die DB, wenn sie z.B. mit ASP.NET kommuniziert? Nehme ich UTF-8, dann spare ich Platz bei Westeuropäern, der Provider muss aber immer zw. UTF-8 und UTF-16 bei ..NET wandeln.
Nehme ich UTF-16 entfällt die Wandlung, aber ich verschwende unter Umständen zu viel Platz.
Es gibt Combining Character, da benötigst Du ca. 200 UTF32-Codepoints um *ein* Zeichen darzustallen!!!
http://blogs.msdn.com/michkap/archive/2006/02/17/533929.aspx
Ah, das ist die Erklärung! Ich konnte ja auch nicht ahnen, dass jemand auf die Idee kommt, jedes Diakrit mit jedem (Basis-) Zeichen kombinieren zu wollen. IMHO ist da auch Blödsinn und geht an der Aufgabenstellung von UNICODE vorbei. Brauche ich jetzt etwa kein Satzprogramm wie Tex mehr?
Und es bleibt auch strittig, was als Zeichen zu interpretieren ist! Wenn ich in deinem Post das 'a' lösche, sollen dann die zig folgenden Diakrits mit rausfliegen? Ich wollte doch nur das 'a' gegen ein 'e' tauschen! Mist, jetzt muss ich alle x Modifizierer noch einmal eingaben. ;-)
Zeichen != Codepoint
Ist jetzt klar geworden. Ist UNICODE nun ein Zeichensatz oder eine Satzvorschrift??? Und wo ist die Trennung?
Gebe ich ein Integralzeichen ein, gefolgt von 2 Grenzen, was erhält man dann? Eine Kombination oder nicht?
Grüsse zurück,
Andreas
.
- Follow-Ups:
- Re: MBCS oder Unicode
- From: Jochen Kalmbach [MVP]
- Re: MBCS oder Unicode
- References:
- MBCS oder Unicode
- From: Stefan Binder
- Re: MBCS oder Unicode
- From: Martin Richter [MVP]
- Re: MBCS oder Unicode
- From: Andreas Heyer
- Re: MBCS oder Unicode
- From: Jochen Kalmbach [MVP]
- Re: MBCS oder Unicode
- From: Andreas Heyer
- Re: MBCS oder Unicode
- From: Jochen Kalmbach [MVP]
- MBCS oder Unicode
- Prev by Date: Re: GetCommandLine()
- Next by Date: Re: MBCS oder Unicode
- Previous by thread: Re: MBCS oder Unicode
- Next by thread: Re: MBCS oder Unicode
- Index(es):
Relevant Pages
|