Codierungsproblem mit UTF-8

From: Thomas (anonymous_at_discussions.microsoft.com)
Date: 09/17/04


Date: Fri, 17 Sep 2004 01:38:59 -0700

Hallo NG

Ich versuche mit ASP ein XML-Dokument zu erzeugen, was an
und für sich auch ganz gut klappt. Ich erzeuge ein paar
Schleifen und Datenbankabfragen einen String, welchen ich
in einer Datei speichere.
Das Problem dabei ist, dass die Daten in UTF-16 gespeichert
werden, obwohl ich bei dem Skript @CodePage=65001 für UTF-8
notiert habe. Man sieht eigentlich keinen Unterschied - nur
mit einem Hex-Editor kann man sich die BOM-Bytes anschauen.
Dort stehen dann die UTF-16 BOM-Bytes und auch ganz normale
ASCII-Zeichen werden in zwei Bytes abgespeichert. Dadurch
ist die Datei natürlich doppelt so gross, wie sie mit UTF-8
wäre.

Was muss ich anders machen, damit die Daten richtig
gespeichert werden?

Oder liegt es nur am Speichern selbst? Ich speichere mit
der CreateTextFile()-Methode des FileSystem-Objekts. Dabei
kann ich nur sagen, ob ich Unicode will oder nicht. Das
Ändern dieses Parameters hat aber dem Anschein nach auch
keinen Einfluss darauf. Wie kriege ich das richtig hin?

Freundliche Grüsse und besten Dank

Thomas



Relevant Pages

  • Re: Codierungsproblem mit UTF-8
    ... > Schleifen und Datenbankabfragen einen String, ... > ist die Datei natürlich doppelt so gross, ... Das FileSystemObject kann meines Wissens nur UTF-16 oder aber 8-bit code ... Per MSXML kann man aber sicher eine UTF-8 kodierte XML-Datei erzeugen. ...
    (microsoft.public.de.inetserver.iis.asp)
  • Re: GAS-style syntax issue...
    ... but, alas, the issue becomes a little more hairy than a few simple parser ... I guess it is an issue right up there with making the assembler UTF-8 ... (UTF-16 just wastes too much memory IMO, ... majority of text is ASCII... ...
    (alt.lang.asm)
  • Re: UTF-16 file input, C programming.
    ... However, you are only partly correct, from the fact that all standard ASCII chars, are mapped on a single byte as you mention. ... UTF-8 only maps the standard ASCII chars in one byte and anything above is represented in two or more bytes. ... I believe unicode.org has some source, providing functions, that can convert UTF-16 surrogate pairs, into UTF-8 multibyte characters, but I will have to look into that. ...
    (comp.unix.programmer)
  • Re: MBCS oder Unicode
    ... 90% Texte habe, der aus lateinischen Buchstaben bestehen, dann ist die Frage nach UTF-8 oder UTF-16 IMHO wohl berechtigt. ... UTF-8 und UTF-16 bei ..NET wandeln. ... jedes Diakrit mit jedem Zeichen kombinieren zu wollen. ...
    (microsoft.public.de.vc)
  • Re: Was =?ISO-8859-1?Q?erz=E4hle_ich_meinen_Studenten_zu?= =?ISO-8859-1?Q?_LaTeX=3F_
    ... Ich sage doch nur, wenn nicht ASCII, dann UTF-8. ... Was hat die Kodierung denn mit der Tastatur zu tun? ... Wenn man ueberhaupt Umlaute eingeben kann und die Datei in latin1 speichern kann, dann kann man sie auch in UTF-8 speichern. ... Der Punkt ist doch nur der, dass das Zeichen dann in der Datei eindeutig festgelegt ist, und man nicht neu codieren muss, wenn man ploetzlich feststellt, dass man ein Zeichen benoetigt, was in latin1 zufaellig nicht drin ist. ...
    (de.comp.text.tex)