Re: Unicode und ASCII-File-Textsuche
From: Ulrich Eckhardt (doomster_at_knuut.de)
Date: 03/16/05
- Next message: Torsten Mueller: "Re: String Klasse selber stricken..."
- Previous message: Andreas Heyer: "Re: ToplevelWindow"
- In reply to: Jochen Kalmbach: "Re: Unicode und ASCII-File-Textsuche"
- Messages sorted by: [ date ] [ thread ]
Date: Wed, 16 Mar 2005 06:36:10 +0100
Jochen Kalmbach wrote:
> Hi Ulrich Eckhardt,
>
>>> Warum nicht? Das ganze heisst BOM:
>>> http://www.unicode.org/faq/utf_bom.html
>>>
>>
>> Genaugenommen funktioniert BOM nur wenn man bereits weiss dass es sich
um
>> eine Unicode Datei handelt, also bereits diverse Encodings
ausgeschlossen
>> werden koennen.
>> Ich meinte das es keine 100%-ige Loesung gibt bei einer
>> beliebigen Textdatei deren Encoding festzustellen, man muss immer mit
>> Wahrscheinlichkeiten Arbeiten.
>
> Da kann ich Dir nicht ganz rechtgeben...
> Wir hatten hier nicht von Encodings geredet, sondern von UNICODE und
> ASCII.
>
> Es geht also nicht darum mit welcher Codepage die (ASCII/ANSI) Datei
> encodiert wurde (da ja ASCII gar keine Codepages hat).
> Falls Du dieses gemeint haben solltest gebe ich Dir natürlich recht.
Naja, ich glaube wir (bzw der OP) sollten uns darauf einigen was Unicode-
bzw ASCII-File bedeutet. Fuer ASCII, sage ich mal das die Datei nur Bytes
mit den Werten von 0-127 exclusive der Steuerzeichen (DEL, STX, ETX...)
enthalten darf. Eine Datei ist fuer mich Unicode wenn man sie mit
irgendeinem Encoding als Folge von Unicode Codepoints interpretieren kann.
Ja, ASCII ist damit per Definition Unicode.
> Aber eine Unicode-Datei ist immer mit einem BOM versehen (ihn kenne
> zumindest kein Programm was keinen BOM reinschreibt).
Unicode kommt in diversen Encodings (UTF-{7,8,16}, UCS4, Punicode) vor und
keines dieser Encodings schreibt zwingend ein BOM vor. Was Programme
angeht kann ich Dir nur yudit (ein Texteditor) nennen von dem ich weiss
dass es nicht automatisch ein BOM schreibt, aber ich wuerde insbesondere
im Zusammenhang mit XML nicht von BOMs ausgehen, weil die ja sowieso per
Default in UTF-8 kodiert sind. Andere Beispiele fuer APIs sind C++
IOStreams oder C stdio, wobei letzteres in dem Zusammenhang eh ziemlich
eingeschraenkt ist.
Uli
-- VC FAQ: http://www.mpdvc.de/ C++ FAQ: http://parashift.com Quoting: http://got.to/quote/ und http://learn.to/quote/
- Next message: Torsten Mueller: "Re: String Klasse selber stricken..."
- Previous message: Andreas Heyer: "Re: ToplevelWindow"
- In reply to: Jochen Kalmbach: "Re: Unicode und ASCII-File-Textsuche"
- Messages sorted by: [ date ] [ thread ]
Relevant Pages
|