Ein Zeichensatz ist die Gesamtheit aller zur Darstellung von Informationen verwendeten Zeichen. Unter Zeichen versteht man zum Beispiel die Buchstaben eines Alphabetes, Ziffern, aber auch andere Symbole wie Sonderzeichen, Piktogramme und Steuerzeichen. In der elektronischen Datenverarbeitung (EDV) wird die Anzahl der Zeichen eines Zeichensatzes durch die Anzahl der Bits begrenzt.
Computer und digitale Schaltkreise können nur die Symbole 0 und 1 (Binärziffern) speichern und verarbeiten. Deshalb wird jedes Zeichen in einer Zeichenkette, dem sogenannten Bit-Code, gespeichert. Es gibt circa 100 wichtige Zeichen – darunter Zahlen, Buchstaben, Umlaute, Satzzeichen, Symbole, Sonderzeichen, Steuerzeichen und Formelzeichen – für deren Darstellung 7 Bit ausreichen. Der Zeichensatz legt fest, welches Zeichen welchem Bit-Code entspricht. Aufgrund der Internationalisierung des Internets müssen die Zeichencodes genormt sein, um Sprachen-unabhängig einen reibungslosen Datenaustausch zu gewährleisten.
Besonders bei technischen Übersetzungen ist ein korrektes Verständnis wichtig.
Entwicklung des Zeichensatzes
Schon früh reifte die Idee, Signalen eine Bedeutung zu geben. Mit der Entwicklung der elektrischen Telegrafie 1837 wurden für die Übertragung der Zeichen erstmals elektrische Impulse verwendet. Um die übermittelte Nachricht verstehen zu können, mussten zunächst die Signale in Zeichen umgewandelt werden. Dafür wurden um 1900 Zeigertelegrafen und Fernschreiber entwickelt, die Signale in lesbaren Text umwandelten. Die Kodierung revolutionierte der französische Ingenieur Émile Baudot, der Texte als Folge von fünf Binärziffern abbildete. Die 32 möglichen Signale, kombiniert aus 5 Tasten, musste der Versender eigenhändig eingeben – die Geburtsstunde des ersten 5-Bit-Zeichensatzes. Da Computer eine größere Einheit zur Datenverarbeitung benötigen, wurde 1963 der 7-Bit-Zeichensatz ASCII entwickelt, der lange Zeit Standard-Zeichensatz der EDV war. Der erste 8-Bit-Zeichensatz EBCDIC entstand zeitgleich zu ASCII und war bis in die jüngere Vergangenheit auf Großrechnern in Gebrauch. Mit ihm können 256 verschiedene Zeichen zugeordnet werden. Um in einem Zeichensatz alle Sprachen der Welt abbilden zu können, wurde Ende der 1980er-Jahre eine universelle Zeichentabelle entwickelt: Unicode.
ASCII, ISO und Unicode…
Ein PC Zeichensatz umfasst nicht nur die einzelnen Elemente eines Zeichensatzes, sondern auch deren Regeln zur Kodierung. Die bekanntesten Zeichencodierungen sind der ASCII, die ISO/IEC 8859-Familie und der international standardisierte Unicode. Darüber hinaus existieren einige Zeichensätze von Computer-Firmen und spezifische nationale Varianten.
ASCII Zeichensatz
ASCII steht für ‚American Standard Code for Information Interchange‘ und ist einer der ersten Zeichensätze, der auf 7-Bit-Informationen basiert. Der Zeichenvorrat umfasst das lateinische Alphabet in Groß- und Kleinschreibung, die zehn arabischen Ziffern sowie einige Satzzeichen. Im Laufe der Jahre wurde ASCII erweitert, es wurden etwa Umlaute und Rahmenzeichen ergänzt. Eine einheitliche Norm gibt es jedoch nicht, weshalb es beim Austausch von ASCII-Dateien zu Problemen in der Darstellung von Zeichen kommen kann.
ISO 8859 Zeichensatz
Die ISO 8859-Familie umfasst 15 verschiedene 8-Bit Zeichensätze. Als Grundlage dient der ASCII-Code, der für verschiedene Sprachräume, darunter alle europäischen Sprachen, Arabisch, Hebräisch, Thailändisch und Türkisch erweitert wurde. Weil die Begrenzung des ISO-Systems auf 256 Zeichen jedoch nicht ausreicht, um alle international gültigen Zeichen abzubilden, wird ISO 8859 nicht mehr weiterentwickelt und durch Unicode abgelöst.
Unicode Zeichensatz
Der bedeutendste Zeichensatz der EDV ist der Unicode. Er ist internationaler Standard und enthält Zeichen und Elemente aller bekannten Schriftkulturen und Zeichensysteme. Ziel ist es, inkompatible Codierungen in verschiedenen Ländern zu beseitigen. Jedes Unicode-Zeichen hat einen stabilen Code und festgelegte Eigenschaften wie den jeweiligen Zeichentyp oder Groß- und Kleinschreibung. Außerdem stellt Unicode Schriftfolgen zur Verfügung, die der Sortierung von Zeichen dienen. Unicode wird ständig ergänzt und durchbricht dabei die alte 8-Bit-Grenze von ISO 8859. Einmal eingeführte Codierungen werden nicht mehr entfernt, weil nur auf diese Weise die Langlebigkeit digitaler Daten gewährleistet wird. Zeichensatzkodierungen für Unicode sind UTF-8, UTF-16 und UCS-4.
Codierung im Unicode
Neben den eigentlichen Zeichen sind im Unicode auch eine Reihe von Codierungen festgelegt – im Unicode Transformation Format (UTF). Dadurch soll sich der gesamte Unicode Zeichensatz in eine Website implementieren lassen. Im Header verfügen moderne Internetseiten über eine Zeichensatzinformation UTF-8, die einen Zugriff auf alle Zeichen erlaubt. Auch UTF-16 kommt inzwischen in zahlreichen Betriebssystemen zum Einsatz.
Mehr laden
FAQ: Weitere Fragen zu Zeichensatz
Welche Zeichencodierungen gibt es?
Es gibt drei verschiedene Zeichencodierungen für Unicode: UTF-8, UTF-16 und UTF-32.
Was versteht man unter Unicode?
Unicode ist der internationale Standard zur Kodierung von Schriftzeichen oder Textelementen. Das System ermöglicht das Speichern und Verarbeiten von Texten in digitalen Systemen.
Wie viele Zeichen hat UTF-8?
Ohne Unicode-Einschränkung wären mit UTF-8 ganze 4.398.046.511.104 Zeichenzuordnungen möglich. Aufgrund der 4-Byte-Begrenzung in Unicode sind es effektiv 221, was 2.097.152 Zeichen entspricht.
Wie editiert man Zeichen, die nicht auf der Tastatur sind?
Es existieren zahlreiche Sonderzeichen, die über Tastenkombinationen eingefügt werden können. Nachschlagen können Sie diese zum Beispiel unter https://wintipps.com/tastenkombination-sonderzeichen
Was sind Sonderzeichen?
Sonderzeichen sind alle Buchstaben und Ziffern jenseits des lateinischen Alphabets. Dazu gehören Interpunktions-Zeichen ( ? ! . , ; : – ), Symbole (§ / # $ %), Ligaturen aus zwei Buchstaben (ß æ œ) und Buchstaben mit so genannten diakritischen Zeichen (ü á ô è ñ).
Was ist ein Zeichenvorrat?
Unter einem Zeichenvorrat, auch Zeichensatz genannt, versteht man die Menge aller zur Darstellung von Informationen verwendeten Zeichen. Der Zeichenvorrat ist vom Darstellungssystem abhängig.
Was ist eine Zeichencodierung?
Die Zeichencodierung (auch Zeichenkodierung) bezeichnet in der EDV den Prozess des Übersetzens einer bestimmten Zeichenfolge in ein spezielles Format.
Wie bezeichnet man einen Zeichensatz im Druckwesen?
Im Druckwesen wird ein Zeichensatz Font genannt.
Test-Popup
News-Club
This site is registered on wpml.org as a development site.