Re: Unicode und ASCII-File-Textsuche

Tech-Archive recommends: Fix windows errors by optimizing your registry

From: Ulrich Eckhardt (doomster_at_knuut.de)
Date: 03/16/05


Date: Wed, 16 Mar 2005 06:36:10 +0100

Jochen Kalmbach wrote:

> Hi Ulrich Eckhardt,
>
>>> Warum nicht? Das ganze heisst BOM:
>>> http://www.unicode.org/faq/utf_bom.html
>>>
>>
>> Genaugenommen funktioniert BOM nur wenn man bereits weiss dass es sich
um
>> eine Unicode Datei handelt, also bereits diverse Encodings
ausgeschlossen
>> werden koennen.
>> Ich meinte das es keine 100%-ige Loesung gibt bei einer
>> beliebigen Textdatei deren Encoding festzustellen, man muss immer mit
>> Wahrscheinlichkeiten Arbeiten.
>
> Da kann ich Dir nicht ganz rechtgeben...
> Wir hatten hier nicht von Encodings geredet, sondern von UNICODE und
> ASCII.
>
> Es geht also nicht darum mit welcher Codepage die (ASCII/ANSI) Datei
> encodiert wurde (da ja ASCII gar keine Codepages hat).
> Falls Du dieses gemeint haben solltest gebe ich Dir natürlich recht.

Naja, ich glaube wir (bzw der OP) sollten uns darauf einigen was Unicode-
bzw ASCII-File bedeutet. Fuer ASCII, sage ich mal das die Datei nur Bytes
mit den Werten von 0-127 exclusive der Steuerzeichen (DEL, STX, ETX...)
enthalten darf. Eine Datei ist fuer mich Unicode wenn man sie mit
irgendeinem Encoding als Folge von Unicode Codepoints interpretieren kann.
Ja, ASCII ist damit per Definition Unicode.

> Aber eine Unicode-Datei ist immer mit einem BOM versehen (ihn kenne
> zumindest kein Programm was keinen BOM reinschreibt).

Unicode kommt in diversen Encodings (UTF-{7,8,16}, UCS4, Punicode) vor und
keines dieser Encodings schreibt zwingend ein BOM vor. Was Programme
angeht kann ich Dir nur yudit (ein Texteditor) nennen von dem ich weiss
dass es nicht automatisch ein BOM schreibt, aber ich wuerde insbesondere
im Zusammenhang mit XML nicht von BOMs ausgehen, weil die ja sowieso per
Default in UTF-8 kodiert sind. Andere Beispiele fuer APIs sind C++
IOStreams oder C stdio, wobei letzteres in dem Zusammenhang eh ziemlich
eingeschraenkt ist.

Uli

-- 
VC FAQ: http://www.mpdvc.de/
C++ FAQ: http://parashift.com
Quoting: http://got.to/quote/  und  http://learn.to/quote/


Relevant Pages

  • Re: Unicode und ASCII-File-Textsuche
    ... Wir hatten hier nicht von Encodings geredet, sondern von UNICODE und ASCII. ... Es geht also nicht darum mit welcher Codepage die Datei ... Aber eine Unicode-Datei ist immer mit einem BOM versehen (ihn kenne ...
    (microsoft.public.de.vc)
  • Re: Unicode und ASCII-File-Textsuche
    ... >> wie 'die Loesung' dafuer. ... Das ganze heisst BOM: ... eine Unicode Datei handelt, also bereits diverse Encodings ausgeschlossen ...
    (microsoft.public.de.vc)
  • Re: Unicode Support
    ... if two Unicode strings are the same? ... UTF-16 is basically telling everyone "ok we all got to start ... character, and will likely support *both* endians. ... UTF-8 encodings are also easy to learn to ...
    (alt.lang.asm)
  • Re: Quieter glyphs than parentheses
    ... ASCII or 16-bit Unicode characters, it did not require rewriting the entire ... by non ISO8859 language scripts. ... Japanese has three popular non-Unicode-based encodings, ... display fonts is one reason I would caution against using characters from ...
    (comp.lang.lisp)
  • Re: Trouble importing foreign language accents into Access 2003
    ... Unicode file. ... to only a field that has the accents, and I save it first in UTF-8, then ... I have also tried UTF-16, with and without BOM. ...
    (microsoft.public.access.externaldata)