Dock-ev / Wahrnehmung und Darstellung des Umfelds
    mit freundlicher Unterstützung:
 

homepage Computertechnik Thomas Ullrich

html-Sonderzeichen

HTML Zeichencodierung

Alphabet (Latein) griechisches Alphabet Mathematik Dingbats Numerischer Code Sonstige

Der meist verwendete und zuverlässigste Zeichensatz des Internets ist Ascii (nicht zu verwechseln mit einer Schriftart, also einem "Font"). Ascii ist ein Verfahren zur Kodierung alphnumerischer Schriftzeichen und Steuerzeichen: Für jedes Zeichen gibt es einen eindeutigen Zahlencode, nicht aber eine Anweisung, wie das Zeichen auf dem Monitor oder im Druck darzustellen ist. Mit Ascii stehen nur 128 Zeichencodes zur Verfügung, davon sind auch noch 32 Zeichen Steuerzeichen, die nicht angezeigt und nicht gedruckt werden können.

Um an einen größeren Zeichenvorrat zu kommen, wurden über die Jahre erweiterte Zeichencodes entwickelt, die allesamt nicht besonders kompatibel waren.

Mit ISO 8859 gibt es dann endlich einen standardisierten Zeichensatz, der die freien oberen 128 Zeichen für die Sonderzeichen der verschiedenen Kulturen nutzt.

Der (moderne) Server prüft anhand der ersten paar Bytes eines Dokuments, welche Zeichenkodierung gilt und benachrichtigt das Benutzerprogramm durch den "Charset"-Parameter im Content-Type-Header des HTTP-Protokolls. Da aber manche Server nicht gestatten, einen Charset-Parameter zu senden und andere einfach nicht entsprechend konfiguriert sind, bietet HTML seit Version 4 die Angabe des Zeichensatzes

<meta http-equiv="content-type" content="text/html; charset=iso-8859-1">

Die Angabe des Zeichensatzes ISO-8859-1 sorgt für eine breite Unterstützung der Sonderzeichen in modernen Browsern und macht die Seiten einem westeuropäischen Publikum zugänglich, denn so kann schon der Browser für die richtige Darstellung der Seite sorgen. Auf die Codierung von Umlauten, Satzzeichen und kaufmännischen Zeichen im HTML-Dokument darf verzichtet werden, um den Quelltext lesbarer zu gestalten: "ä, Ä, ö, Ö, ü, Ü, ß, ©, è, à". Deutsch und Französisch, Spanisch und Schwedisch (und mehr...) können in einem Dokument geschrieben werden, aber Deutsch und Russisch oder Französisch und Häbräisch können nicht zusammen verwendet werden. Erst Unicode bringt die "große Freiheit" durch die Angabe von . Dann gibt's auch einen €, "typografische" Anführungszeichen unten und oben und einen - korrekten - Gedankenstrich, aber insbesondere Deutsch, Russisch, Hebräisch, Arabisch in einem Dokument. Dabei verbraucht ein Dokument keinesfalls den doppelten Speicherplatz, wie häufig noch zu lesen ist (dieses Dokument ist in UTF-8 sogar ein paar Bytes "leichter"), sondern UTF-8 belässt die Ascii-Zeichen in einem Byte und ist so zu älteren Dokumenten kompatibel.Kategorie