Digitale documenten bestaan uit nullen en enen. De eindeloze reeksen nullen en enen krijgen pas betekenis voor mensen wanneer software ze omzet. Wanneer je een foto opent, worden ze een verzameling pixels die een bepaalde kleur krijgt om een beeld op te bouwen.
In een tekstueel document worden ze tekens die we kunnen lezen. De omzetting lijkt vanzelf te gebeuren, maar niets is minder waar. Iedereen is vertrouwd met de term kilobyte als eenheid om aan te geven hoeveel geheugen een bestand inneemt. Net zoals een kilometer duizend meter is, is een kilobyte duizend byte.
Een byte is een opeenvolging van 8 bits. Een bit is simpelweg een binaire eenheid die ofwel 0 of 1 als waarde heeft. Een byte is dus een achtcijferig binair getal, (bv. 00110101). In totaal zijn er 256 manieren (2⁸) om een byte te vullen.
Computers werken met bepaalde conventies (standaarden) om die binaire getallen naar een voor mensen zinvol teken te vertalen. Die conventies noemen we tekensets. Tekencodering is dus het omzetten van achtcijferige binaire getallen naar betekenisvolle tekens volgens de logica van een bepaalde tekenset.
Of andersom: het omzetten van een teken op het toetsenbord van jouw computer naar de nullen en enen die een computer moet opslaan. In de meeste gevallen verloopt dat probleemloos.
De meeste documenten die je vandaag in je mailbox vindt, zijn gecodeerd volgens een hedendaags gangbare tekenset. De software die je gebruikt om die documenten te openen, slaagt er meestal ook in om die tekenset te achterhalen en het document leesbaar weer te geven.
Toch zal het in sommige gevallen nodig zijn om zelf een tekenset te specificeren, bijvoorbeeld wanneer je tekstbestanden in een spreadsheet wilt openen of wanneer je oude documenten in een hedendaagse tekstverwerker wilt openen.