Unicode

Der englische Begriff Unicode lässt sich ins Deutsche am besten als Einheitsschlüssel übersetzen. Dabei handelt es sich um einen alphanumerischen Zeichensatz, der von der internationalen ISO (internationale Standardisierungsorganisation) zum Kodieren von Textzeichen verwendet wird. Im Rahmen der Globalisierung hat ein einheitlicher Zeichensatz mehr und mehr an Bedeutung gewonnen. Mithilfe dieses Zeichensatzes werden alle weltweit bekannten Textzeichen zusammengefasst. Darunter fallen alle Ziffern und Buchstaben, sowie Satz- und Sonderzeichen, Ideogramme und Silbenzeichen. Außerdem funktioniert die Logik sprachübergreifend. Mit diesem Zeichensatz wird unter anderem das lateinische, griechische, arabische und hebräische Alphabet für alle verständlich übersetzt. Selbst die oft komplexen asiatischen Zeichen und Schriften aus China, Japan, Korea und Thailand finden beim Einheitscode Berücksichtigung.

Textzeichen als binäre Zahlen

Der Unicode stellt die Textzeichen als binäre Zahlen dar. Das gesamte System beruht auf genormten Zuordnungsregeln. Die Zeichensätze sind in Tabellen hinterlegt. Jedem Textzeichen wird genau ein Byte-Wert zugeordnet. Die im Unicode enthaltenen Zeichen bekommen immer eine eindeutige Nummer zugewiesen. Es gibt verschiedene Ebenen innerhalb des Zeichensatzes. Im Standard kommt nur die erste Ebene zur Anwendung. Diese wird als Basic Multilingual Plane, kurz BMP, bezeichnet. Die Kodierung auf dieser Ebene beruht auf 16 Bit, was zwei Byte entspricht. Es stehen 65.536 Zeichen zur Verfügung. Diese Anzahl ist mehr als ausreichend, um alle gängigen Sprachen, deren Alphabete und Sonderzeichen darzustellen. Die höheren Ebenen werden extrem selten verwendet. Dabei handelt sich ausschließlich um historische Schriften, wie zum Beispiel Hieroglyphen aus dem alten Ägypten oder nicht mehr im Gebrauch befindliche chinesische Zeichen.

Sie haben noch Fragen?

Kontaktieren Sie uns