Rubrikauswahl:

Die Verweise zu einzelnen Seiten der aktuell ausgewählten Rubrik finden Sie unterhalb des folgenden Textes.


Tipps für Selbermacher

Thema KodierenVerwendung von Zeichensätzen

Wer Text ins Internet stellt, sollte sich darüber im Klaren sein, dass die Inhalte nicht nur vom Nachbarn, sondern weltweit abgerufen werden können. Diese Feststellung wird wohl niemanden überraschen. Dennoch ist es immer wieder erstaunlich, wie häufig Quellcode keine Hinweise darauf enthält, wie Browser die einzelnen Zeichen interpretieren sollen.

Zwar kann jeder Websurfer für seinen Browser einen Zeichensatz festlegen, der verwendet wird, wenn das angezeigte Dokument kein eigenes Set definiert. Auf eine korrekte Anzeige Ihrer Texte können Sie in diesem Fall aber nur bauen, wenn Sie annehmen, dass der Besucher den gleichen Standardsatz verwendet, wie Sie selbst. Dies wird in der Regel im Inland und in vielen Nachbarländern der Fall sein. Besucht jedoch jemand Ihre Seiten, der zum Beispiel in Osteuropa oder Asien lebt und seinen Browser auf dort übliche Zeichensätze eingestellt hat, so erlebt er bei der Anzeige Ihrer Inhalte sein blaues Wunder, selbst wenn er der deutschen Sprache mächtig ist.

Daher sollten Sie unbedingt für alle eigenen Webseiten festlegen, welcher Zeichensatz ihnen zu Grunde liegt. In der Regel ist dies der erste der ISO-8859-Zeichensätze: Latin-1. Die korrekte Zuoordnung zu diesem Set erreichen Sie durch folgende Zeile innerhalb des HEAD-Bereiches:

<head>
<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" />
</head>

Die Familie der ISO-8859-Zeichensätze besteht aus zehn verschiedenen Sets. Jedes Set umfasst 256 Zeichen. Bei allen dieser zehn Zeichensätze sind die ersten 128 Zeichen identisch und stimmen mit dem sogenannten ASCII-Code überein, der das lateinische Basisalphabet, Ziffern, sowie einige Sonderzeichen enthält.

Solange Sie sich auf diese grundlegenden Zeichen beschränken, können Sie davon ausgehen, dass Ihre Seiten auch ohne die oben erwähnte Festlegung auf Latin-1 korrekt angezeigt werden, zumindest in Browsern, die standardmäßig auf eines der ISO-8859-Sets eingetellt sind. Wenn Sie jedoch regionale Sonderzeichen verwenden wollen, etwa Umlaute oder das ß, sollten Sie unbedingt die genannte Definition verwenden.

Die einzelnen ISO-8859-Zeichensätze umfassen mit wenigen Ausnahmen alle Sonderzeichen der folgenden Sprachen.

ISO-8859-1: Albanisch, Dänisch, Deutsch, Englisch, Farörisch, Finnisch, Französisch, Galizisch, Irisch, Isländisch, Italienisch, Katalanisch, Niederländisch, Norwegisch, Portugiesisch, Schwedisch und Spanisch
ISO-8859-2: Kroatisch, Polnisch, Rumänisch, Slowakisch, Slowenisch, Tschechisch und Ungarisch
ISO-8859-3: Esperanto, Galizisch, Maltesisch und Türkisch
ISO-8859-4: Estnisch, Lettisch und Litauisch
ISO-8859-5: Bulgarisch, Mazedonisch, Russisch, Serbisch und Ukrainisch
ISO-8859-6: Arabisch
ISO-8859-7: Neugriechisch
ISO-8859-8: Hebräisch
ISO-8859-9: Türkisch
ISO-8859-10: Grönländisch (Inuit) und Lappisch (Sami)

Die Theorie besagt, dass Sie Texte in einer dieser Sprachen einfach auf Ihrer gewohnten Tastatur erzeugen und ins Netz stellen können. Alle Browser, die Zeichensätze auf Basis der Norm ISO 8859 verarbeiten können, sollten den Text korrekt darstellen, sofern eine entsprechende Festlegung im HEAD-Bereich der Webseite besteht.

Angesichts dieser vagen Formulierung werden Sie vielleicht bereits mutmaßen, dass es dennoch Probleme geben kann. Tatsächlich ist es ratsam, im Zusammenhang mit Sonderzeichen aller Art zusätzlich einen anderen Weg beim Kodieren zu beschreiten. Einzelheiten dazu finden Sie in meinem Artikel über HTML-Zeichensätze.

^