Der meist verwendete und zuverlässigste Zeichensatz des
Internets ist Ascii (nicht zu verwechseln mit einer Schriftart, also einem "Font"). Ascii ist ein Verfahren zur Kodierung alphnumerischer
Schriftzeichen und Steuerzeichen: Für jedes Zeichen gibt es einen eindeutigen Zahlencode, nicht aber eine Anweisung, wie das
Zeichen auf dem Monitor oder im Druck darzustellen ist. Mit Ascii stehen nur 128 Zeichencodes zur Verfügung, davon sind auch noch
32 Zeichen Steuerzeichen, die nicht angezeigt und nicht gedruckt werden können.
Um an einen größeren Zeichenvorrat zu kommen, wurden über die Jahre erweiterte Zeichencodes entwickelt, die allesamt
nicht besonders kompatibel waren.
Mit ISO 8859 gibt es dann endlich einen standardisierten Zeichensatz, der die freien oberen 128 Zeichen für die Sonderzeichen
der verschiedenen Kulturen nutzt.
Der (moderne) Server prüft anhand der ersten paar Bytes eines Dokuments, welche Zeichenkodierung gilt und benachrichtigt das
Benutzerprogramm durch den "Charset"-Parameter im Content-Type-Header des HTTP-Protokolls. Da aber manche Server nicht gestatten,
einen Charset-Parameter zu senden und andere einfach nicht entsprechend konfiguriert sind, bietet HTML seit Version 4 die Angabe des
Zeichensatzes
<meta http-equiv="content-type" content="text/html; charset=iso-8859-1">
Die Angabe des Zeichensatzes ISO-8859-1 sorgt für eine breite Unterstützung der Sonderzeichen in modernen Browsern und macht
die Seiten einem westeuropäischen Publikum zugänglich, denn so kann schon der Browser für die richtige Darstellung der Seite
sorgen. Auf die Codierung von Umlauten, Satzzeichen und kaufmännischen Zeichen im HTML-Dokument darf verzichtet werden, um den
Quelltext lesbarer zu gestalten: "ä, Ä, ö, Ö, ü, Ü, ß, ©, è, à". Deutsch und Französisch,
Spanisch und Schwedisch (und mehr...) können in einem Dokument geschrieben werden, aber Deutsch und Russisch oder Französisch
und Häbräisch können nicht zusammen verwendet werden. Erst Unicode bringt die "große Freiheit" durch die Angabe
von . Dann gibt's auch einen €, "typografische" Anführungszeichen unten und oben und einen - korrekten - Gedankenstrich,
aber insbesondere Deutsch, Russisch, Hebräisch, Arabisch in einem Dokument. Dabei verbraucht ein Dokument keinesfalls den doppelten
Speicherplatz, wie häufig noch zu lesen ist (dieses Dokument ist in UTF-8 sogar ein paar Bytes "leichter"), sondern UTF-8
belässt die Ascii-Zeichen in einem Byte und ist so zu älteren Dokumenten kompatibel.Kategorie
|
|
|
|
|
|
|
|
|