www.blafusel.de

  Home  |   Privat  |   Impressum  |   Bücher  |   Computer  |   Misc  |   OBD  |   Forum
Sonderzeichen
Email Alarm
Phishing E-Mail

Wenn Sie diese Seite lesen, haben Sie vielleicht eine Email von mir bekommen, in der ich Sie bat, diese Seite mal zu besuchen.
Wenn dem so ist, dann deshalb, weil Ihnen der gleiche Fauxpas unterlaufen ist, wie vielen anderen auch: Sie schrieben "Sehr geehrter Herr Schaeffer" o. ä. Dabei schreibt sich mein Name "Schäffer" (und wird als schef-fer gesprochen). Sicherlich ist eine Schreibweise mit ae nicht wirklich schlimm, doch irgendwie will man ja auch, daß der eigene Name richtig geschrieben wird, zumal es immer wieder zu ärgerlichen Fehlern kommt (wie z. B. bei einem meiner Buchtitel). Ich will dabei nicht kleinkariert oder pingelich erscheinen, doch kommt es einfach immer wieder vor und deshalb dachte ich mir, ich erstelle mal diese Seite, um die Sache aufzuklären - ganz ohne Ihnen dabei böse zu sein.

Wie kommt es nun zu diesem Irrtum?
Vermutlich ganz einfach: Sie haben von mir eine Email bekommen und mir geantwortet. Für die Anrede haben Sie einen Blick in Ihrem Email-Progamm (nach oben) geworfen und gesehen, daß dort als Absender (From) "Florian Schaeffer" steht. Hätten Sie allerdings in meiner Email die Signatur am Ende des Textes beachtet, so wäre Ihnen vielleicht aufgefallen, daß dort mein Name mit ä geschrieben steht und ich ggf. auch mit dieser Schreibweise die Grußfloskel abgeschlossen habe.

Wieso zwei Schreibweisen?
Um die unterschiedliche Schreibweise zu erläutern, muß ich ein wenig technisch werden:
Im Internet (und Email stellt einen Dienst dessen dar), wird mehr oder weniger alles in RFCs (request for comment) geregelt. Vereinfacht ausgedrückt denkt sich jemand einen technischen Vorschlag aus, schreibt dazu eine Definition und läßt diese von anderen Leuten diskutieren, bis ein Konsens gefunden wird, an den sich dann alle halten. Für Emails stammt das entsprechende Dokument aus dem Jahr 1982 und betrifft den Urahn des Internets, das ARPA-Net. Im RFC 822 verbirgt sich der heute gängige Begriff Email hinter dem Titel "Standard for ARPA Internet Text Messages". Darin wird u. a. festgelegt, daß eine Textnachricht lediglich 7-Bit ASCII-Zeichen (American Standard Code for Information Interchange) enthalten darf.

Mit sieben Bit lassen sich die Zahlen von 0Dezimal=000 0000Binär bis 127D=111 1111B darstellen, die dann einzelnen Zeichen zugeordnet werden. Wie die Übersicht zeigt, sind in diesem Bereich lediglich ein paar Steuerzeichen, wenige Sonderzeichen, Zahlen und die Buchstaben von a-z und A-Z enthalten. Um ein A zu speichern, merkt sich der Computer also die Zahl 65D=100 0001B. Erst im erweiteren Zeichensatz sind u. a. deutsche Umlaute vorhanden. Für diesen erweiterten Zeichensatz wird das achte Bit benötigt, so daß bei diesen zusätzlichen Zeichen an achter Stelle (das ist ganz links, denn Bit-Angaben werden von rechts nach links gelesen) immer eine Eins steht (128D=1000 0000B bis 255D=1111 1111B. Acht Bits bilden ein Byte und werden der besseren Lesbarkeit wegen oft in zwei vierer-Blöcken (so genannten Nibbles) geschrieben.

Anzumerken sei noch, daß die gezeigte Übersicht lediglich für MS-DOS gilt. Andere Systeme, wie z. B. Windows, Unix und Mac codieren Ihre Zeichen anders. In der Regel stimmen die unteren 128 Zeichen überall überein, nur bei den erweiterten Zeichen gibt es Abweichungen, so repräsentiert die Zahl 228D unter Windows den Buchstaben ä (einfach mal ausprobieren: in einem beliebigen Textprogramm <Alt> drücken und bei gedrückter Taste auf dem Nummernblock 0228 eingeben und dann erst <Alt> loslassen), unter MS-DOS aber das Zeichen ∑ (Sigma). Schreiben Sie also den Umlaut unter Windows, so bekommt ein Leser des Textes ihn unter MS-DOS nicht zu sehen, sondern wundert sich, daß Sie Sch∑ffer heißen. Auf einem Macintosh wird der Name zu Sch‰ffer (Promille-Zeichen) - wie Sie sehen, nähern wir uns der Ausgangsfrage.

Um einen Weg aus dem Chaos zu finden, und um nationale Zeichen auch in Emails und anderen Texten so zu speichern, daß sie immer richtig angezeigt werden, gibt es verschiedene Lösungsansätze. Der aktuelle und zukunftsweisende ist Unicode, bei dem statt 8 Bit im UTF-16 16 Bit verwendet werden, um so 65.536 Zeichen codieren zu können (bis hin zu sogar 32 Bit mit 4.294.967.296 Zeichen).

Für Emails hat Unicode aber keine Bedeutung, weshalb hier nur der folgende Lösungsansatz interessant ist: MIME (Multipurpose Internet Mail Extensions). Auch im 21. Jahrhundert darf eine Email immer noch nur aus 7-Bit Zeichen bestehen (u. a. auch deswegen, weil es immer noch alte Netzwerk-Router geben könnte, die auf einer 7-Bit Architektur aufbauen und beim Weiterleiten einer 8-Bit Nachricht einfach das achte Bit abschneiden würden (aus dem ä, das durch die Zahl 228D=1110 0100B gespeichert wird, wird dann ein d mit 100D=110 0100B). Im RFC 1522 wird festgelegt, wie mit MIME Sonderzeichen codiert werden: Ein Text mit Sonderzeichen wird eingeleitet durch einen Hinweis, welcher Zeichensatz benutzt werden soll. Die einzelnen Sonderzeichen werden dann durch hexadezimale Zahlen codiert. Für verschiedene Länder gibt es entsprechende Zeichensätze, die regionale Sonderzeichen enthalten. So enthält beispielsweise der vom ISO (International Organization for Standardization) bzw. ANSI (American National Standards Institute) standarisierte Zeichensatz ISO-8859-1 die lateinischen Zeichen und deutschen Umlaute. Aber es gibt auch systemspezifische Zeichensätze, wie z. B. Windows-1252 (auch als Western bezeichnet). Auf dem Mac wird oft der Zeichensatz MacRoman benutzt, der zwar ähnlich ISO-8859-1 ist, aber eben nicht identisch. Der MIME-codierter Text "Schäffer" sieht dann z. B. so aus:

=?Windows-1252?Q?Sch=E4ffer?=
Es wird der Windows-1252 Zeichensatz benutzt und =E4 bedeutet, daß das Zeichen ä mit dem hexadezimalen Wert E4H=228D=1110 0100B verwendet werden soll. Betrachtet man die Email genauer und läßt sich alle Angaben anzeigen, die vom Email-Programm im Kopfbereich (dem Header) eingetragen wurde, so sieht man, daß die Angaben
MIME-Version: 1.0
Content-Type: text/plain; charset="iso-8859-1"
auf die MIME-Codierung und den verwendeten Zeichensatz für den eigentlichen Nachrichtentext hinweisen.

Der Vollständigkeit halber soll nur erwähnt werden, daß es bei Webseiten das gleiche Problem gibt, weshalb hier Entitäten verwendet werden können. Mehr dazu u. a. bei SelfHTML, wobei im Anhang (ca. 160 KB) zu meinem Buch Das große Buch Webdesign eine umfangreichere PDF-Tabelle der Entities enthalten ist.

Die Lösung
Doch was passiert, wenn auf dem System desjenigen, der diesen Text liest, gar nicht der angegebene Zeichensatz zur Verfügung steht? In diesem Fall kann das Anzeigeprogramm das Sonderzeichen nicht darstellen und schreibt die obige Codierungsanweisung aus. In Email- und News-Programmen passiert es immer wieder, daß der Absender oder auch das Betreff kryptisch aussieht, weil die MIME-Codierung angezeigt wird, statt der gewünschten Sonderzeichen. Schuld daran sind mehrere Umstände: So ist der Zeichensatz Windows-1252 nur unter Windows-Systemen vorhanden und alle anderen Systeme können damit nichts anfangen. Das unter Windows beliebte Programm Outlook (Express) nutzt gerne mal diesen Zeichensatz. ISO-8859-1 ist zwar fast überall verfügbar, doch auch hier gibt es immer wieder Anwender, die sich bei der Einrichtung des Email-Programms vertippen oder andere Unterzeichensätze verwenden, so daß der angegebene Zeichensatz auf dem Zielsystem nicht bekannt ist. Und obwohl ISO-8859-1 so verbreitet ist, kann es immer mal vorkommen, daß die Software des Empfängers den Zeichensatz gerade doch nicht entschlüsseln kann.

Damit wenigstens die Angaben im Email-Header lesbar sind und der Empfänger nicht verunsichert wird, wenn er in seinen Posteingang schaut (und die Nachricht eventuell sogar löscht ohne sie zu lesen, da er den komischen Absender nicht kennt und denkt, es ist Spam), empfiehlt es sich, bei den Angaben zum Absender (From) und dem Betreff (Subject) auf Sonderzeichen zu verzichten und lediglich die ersten 128 ASCII-Zeichen zu benutzen, um sicherzustellen, daß diese wichtigen Informationen garantiert lesbar sind.

Aus diesem Grund steht bei meinen Emails konform zum RFC 822 als Absender "Florian Schaeffer". Der eigentliche Nachrichtentext ist natürlich ISO-8859-1 codiert und enthält Sonderzeichen. Sobald diese korrekt angezeigt werden, gibt meine Grußfloskel und die Signatur Auskunft über die richtige Schreibweise meines Nachnamens.