Re: Text in Sätze zerlegen mit Regex
- From: Frank Dzaebel <post@xxxxxxxxxxxxxx>
- Date: Thu, 7 Aug 2008 23:23:01 -0700 (PDT)
Hallo Harald,
Satzabschließende Zeichen sind ja '.', '!' und '?'. Dementsprechend habe ich
das Pattern [.!?] verwendet, um den Text zu splitten.
Das funktioniert auch prima, nur das ein '.' auch eine Abkürzung ('z.B.,
Dr., s.o.') beenden kann, und somit in diesem Fall kein satzabschließendes
Zeichen ist. [...] Wie kann ein solches Pattern aussehen?
Da es im Deutschen viele tausend Abkürzungen gibt,
ist soetwas mit wenig Aufwand nur unvollständig darstellbar.
Du könntest aber pragmatischerweise Heuristiken nehmen.
Dass nur ein Buchstabe mit Punkt wohl als Abkürzung
genommen werden kann. Dass ein Wort aus reinen
Konsonanten als Abkürzung zu interpretieren wäre.
Dass nach dem Satzendzeichen gross geschrieben wird.
Damit kannst Du schon mal einiges erschlagen.
ciao Frank
--
Dipl.Inf. Frank Dzaebel [MCP/MVP C#]
http://Dzaebel.NET
.
- References:
- Text in Sätze zerlegen mit Regex
- From: Harald Klingel
- Text in Sätze zerlegen mit Regex
- Prev by Date: Re: Mehrere Controls, aktives statisch zugreifen?
- Next by Date: Re: Problem bei einem UPDATE-SqlCommand - Exception..
- Previous by thread: Text in Sätze zerlegen mit Regex
- Next by thread: Re: Text in Sätze zerlegen mit Regex
- Index(es):
Relevant Pages
|