Az adathalmazok ismétlődő (redundáns) jeleket tartalmaznak, terjengősek, nem a lehető legrövidebbek, legtömörebbek. Sokszor ugyanazt az információt rövidebben is le lehet írni, kódolni, erre szolgálnak az adatok tömörítésének lehetőségei. A tömörítés a jelsorozat redundanciájának csökkentése, az adatok matematikai alapon történő átkódolása úgy, hogy ugyanazt az információt kevesebb jellel fejezzük ki. Az eredményként kapott adathalmaz mérete az átkódolás révén kisebb az eredeti adatokénál, gyakran csak töredéke. A felhasználásához általában vissza kell alakítani az eredeti formátumra, amihez külön programra van szükség. Az adatok visszaalakítását kicsomagolásnak nevezzük.
A tömörített adatok érzékenyebbek a sérülésre, mint a tömörítés nélküliek. Sérülés esetén a kicsomagoló program jelzi, hogy hiányosak az adatok, visszaállítani nem tudja őket, esetleg a sérülés előtti részeket. Hátránya még, hogy lehetséges az adatok esetleges vesztése, és egy-egy fájl csak kicsomagolás után olvasható ill. módosítható. Az adatok tömörített tárolásának előnye, hogy kisebb helyet foglal az adat számítógépen, az Interneten keresztül gyorsabban továbbítható, és lehetővé teszi az adat jelszavas védelmét.
A tömörítésnek alapvetően két típusa van, a veszteségmentes és a veszteséges tömörítés.
Veszteségmentes tömörítés
A veszteségmentes tömörítés olyan kódolás, melynek eredményeként létrejött kódolt (tömörített) jelhalmaz rövidebb, mint az eredeti, azaz kisebb az adatmennyisége, és a tömörített adathalmazból tökéletesen visszaállítható az eredeti, tehát a tömörítés nem okoz adatvesztést. Ilyen módon tömörítünk programokat, dokumentumokat, hiszem ezeknél fontos a tökéletes visszaállítás lehetősége.
Mivel mindenféle adatot digitálisan (számokkal) kódolunk, a tömörítő program a számsorozatot rövidíti le. Például a 3555555227777 számsor 13 db egyjegyű számból áll, melyet a program oly módon tömörít, hogy balról haladva megadja a számot, és azt, hogy hányszor ismétlődik. Így az eredmény 31562274, ami csupán 8 db szám, tehát 8/13 arányban történt az eredeti adatsor tömörítése. Képek esetében gyakori, hogy sok azonos színű pont van egymás mellett, így jelentős rövidítést érhetünk el.
A tömörítés mértéke nem csak a tömörítési eljárástól, hanem az adathalmaz tulajdonságaitól is függ, például vannak-e ismétlődő adatok, az egyes jelek vagy jelcsoportok milyen gyakorisággal fordulnak elő?
Veszteségmentes tömörítés például a ZIP, ARJ, RAR, Huffman-kódolás, LZW
Ezek a tömörítőprogramok elemzik az állomány szerkezetét, és annak függvényében határozzák meg a tömörítési eljárást.
A veszteségmentes tömörítő eljárások csoportosítása:
Parancssorban, vagy DOS környezetben elérhető tömörítők
Windows alapú alkalmazások
Az operációs rendszerbe integrált tömörítési eljárások
Veszteséges tömörítés
A veszteséges tömörítés olyan kódolás, aminek eredményeként létrejött kódolt (tömörített) jelhalmaz sokkal rövidebb, mint az eredeti, azaz kisebb az adatmennyisége, de a tömörített adathalmazból nem állítható tökéletesen vissza az eredeti, csak jó közelítéssel, tehát információt vesztünk, bár nem túl sokat.
Ezt a tömörítési típust használjuk például digitális fényképek, hangok, mozgóképek esetén, mert ezeknél nem fontos a tökéletes visszaállítás lehetősége. A kis eltéréseket a szem nem érzékeli, bár valamit romlik a tömörített anyag minősége. Minél nagyobb mértékben tömörítünk egy adatot, annál rosszabb lesz annak minősége. A veszteségesen tömörítő programok esetében be lehet állítani a tömörítés mértékét, van, ahol állományméretben, van, ahol minőségben. Ezzel a tömörítési típussal sokkal nagyobb megtakarítást lehet elérni, míg a veszteségmentes eljárások az eredeti méretet csak harmadára-negyedére csökkenti, addig a veszteséges eljárások hatodára-tizedére. Veszteséges tömörítés például hangok esetében az MP3, színes képeknél a JPEG, mozgóképeknél pedig az MPEG.
Tömörítés a gyakorlatban
A Windows XP-ben tömörített mappát a Fájl →Új →Tömörített mappa paranccsal hozhatunk létre. Ebbe a tömörített mappába másolt fájlokat a rendszer ZIP kiterjesztéssel tömöríti, a kimásolt fájlokat pedig kicsomagolja.
– Egyes alkalmazásokkal tömörítve is menthetünk. Például: Paint rajzolóprogramban JPEG formátumban mentve tömörítjük a képet.
– WINRAR (Általános fájltömörítő)
A WinRAR két különböző formátumú archívumot képes létrehozni: RAR-t és ZIP-et.
ZIP archívumok:
A ZIP formátum fő előnye a népszerűsége. Például az Interneten a legtöbb archívum ZIP archívum. Egy archívumban egy ZIP fájl maximális mérete 2 GB.
RAR archívumok
A RAR formátum lényegesen jobb tömörítést nyújt, mint a ZIP. A RAR másik fontos tulajdonsága a többkötetes archiválás támogatása.
A RAR formátumnak van néhány olyan fontos tulajdonsága, ami a ZIP-ben hiányzik, mint például
a helyreállítási bejegyzés (ami lehetővé teszi a sérült adatok fizikai helyreállítását,)
a fontos archívumok lezárása (az eseti módosulás megelőzése céljából.)
A RAR formátum gyakorlatilag korlátlan méretű fájlokat tud kezelni.
– Önkitömörítő archívum (nem csak a tömörített fájlt tartalmazza, hanem a kicsomagolóprogramot is)
Az SFX (SelF-eXtracting) archívum olyan archívum, amely egyesítve van egy végrehajtható modullal, amit az archívumból történő fájlkicsomagolásra használunk a végrehajtás során. Így nem szükséges külső program egy SFX archívum tartalmának kicsomagolásához, elég lefuttatni. Mindemellett a WinRAR ugyanúgy tud dolgozni egy SFX archívummal, mint bármilyen más archívummal, így ha nem akar lefuttatni egy kapott SFX archívumot (például vírus lehet benne), a WinRAR-ral megtekintheti, vagy kicsomagolhatja a tartalmát. Az SFX archívumok általában .exe kiterjesztésűek, mint bármely más végrehajtható fájl. Az SFX archívumok használata sok kényelemmel jár, ha oda akarunk adni valakinek egy archívumot, de nem tudjuk, hogy van-e megfelelő archiválójuk a fájlok kicsomagolására. Az önkitömörítő archívumok mérete kicsit nagyobb, mint a zip vagy rar archivumok mérete.
– Fájlmenedzser programok
A fájlmenedzser programok, mint a Norton Commander és a Windows Commander képesek adattömörítésre, kibontásra sőt a tömörített állományok tartalmát közvetlenül meg tudják jeleníteni.
Hangtömörítés
A hangtömörítési eljárás digitális hangtechnikai, tágabb értelemben számítástechnikai fogalom. Ezen eljárások fő célja az, hogy a nagyon nagy méretű (nagy adatmennyiséget tartalmazó) audioanyagok méretét csökkentse, és így gazdaságosabbá tegye tárolásukat, illetve lehetővé tegye azok tárolását korlátozott kapacitású médiákon (mint amilyen a CD és a DVD).
Veszteségmentes tömörítés
A veszteségmentes tömörítés lényege az, hogy az adatok mérete csökken amellett, hogy annak minősége bármilyen módon változna; adatvesztés nem következik be. Az eljárások között azok jobbak, melyek nagyobb tömörítést érnek el.
Az eljárások elve az, hogy a hanganyagok jellegzetességeire alapulva speciálisan ezen célra kialakított algoritmusokat használnak. A veszteségmentesen elérhető méretcsökkenés jelentősen kisebb, mint a veszteségesen elérhető, tipikus mértéke 15%–50%.
Eljárások:
Meridian Lossless Packing – MLP
Free Lossless Audio Codec – FLAC
Apple Lossless – ALAC
Monkey’s Audio – APE
Shorten – SHN
WMA Lossless – WMA
The True Audio codec –
Vawpack – VW
Veszteséges tömörítés
A hangtömörítési eljárások nagy része veszteséges tömörítés, vagyis a tömörítés folyamán információ vész el: a cél az, hogy ez az információvesztés ne okozzon hallható minőségromlást, illetve a minőségromlás minél kisebb legyen. Az, hogy ezt a célt mennyire sikerül elérni (vagyis hogy egy adott mértékű tömörítés esetén mekkora a minőségromlás) határozza meg az eljárás sikerességét, jóságát.
(Szigorúan véve ezen eljárások nem adattömörítések, hanem lényegtelen adatokat mellőző kódolások (irrelevance coding), mivel adatvesztést okoznak.)
A módszer lényege az úgynevezett pszichoakusztika, vagyis hogy az emberi fül nem minden létező hangot hall meg, illetve nem minden hangmagasságra egyformán érzékeny. Az eljárások megpróbálják a kevéssé hallott, vagy nem hallható részeket elhagyni, vagy beolvasztani a jobban hallható részekbe úgy, hogy ezzel adatcsökkenést tudjanak elérni. A módszerek jóságát a pszichoakusztikai modelljük jósága, hatékonysága nagyban meghatározza. Ha a modell hibás, akkor a hanganyagból hallható részek hiányoznak, ami minőségromlást jelent.
Mivel a kódolások adatvesztéssel járnak, és az eltérő eljárások eltérő módon okoznak adatvesztést, minden ezen eljárásokkal kódolt hanganyag (veszteséges tömörítéssel való) újrakódolása vagy átalakítása jelentős minőségromlást eredményez.
Eljárások:
Ogg Vorbis
Ogg Speex (speciális beszédtömörítő eljárás)
MP3
MP2
RealAudio
AAC (az Apple által favorizált formátum)
Dolby AC-3
Windows Media Audio