Čo Je To Entropia Súboru

Čo Je To Entropia Súboru
Čo Je To Entropia Súboru

Video: Čo Je To Entropia Súboru

Video: Čo Je To Entropia Súboru
Video: Entropia Universe. Почему большинство новичков уходят в первую неделю 2024, Apríl
Anonim

Akýkoľvek počítačový súbor sa skladá z bajtov. Bajt môže nadobúdať hodnoty od 0 do 255. Informačná entropia je štatistický parameter, ktorý ukazuje pravdepodobnosť výskytu určitých bajtov v súbore.

Čo je to entropia súboru
Čo je to entropia súboru

Stupeň entropie môžete vizuálne posúdiť pomocou histogramu - rozdelenia pravdepodobnosti opakovania rovnakých bajtov v súbore. Z entropie súboru môžeme hádať, aký typ súboru je pred nami, pričom vidíme iba jeho histogram.

Na ukážku si vezmime tri súbory rôznych typov a porovnajme ich histogramy. Prvý musí byť textový súbor (*. TXT). Jeho histogram je znázornený na obrázku:

гистограмма=
гистограмма=

Textový súbor obsahuje iba text. Každý znak textu je kódovaný určitými bajtmi v súlade s tabuľkou kódovania. Aj keď existuje veľké množstvo typov kódovania, je zrejmé, že existuje obmedzený počet alfanumerických znakov, ktorý je zvyčajne nižší ako 255. Preto sú na prvom histograme obsadené iba niektoré oblasti a niektoré bajty vôbec.

Nasledujúci súbor bude vo formáte PDF:

гистограмма=
гистограмма=

Tento súbor obsahuje všetky možné bajty, pretože PDF je kódované inak ako textové súbory. Ukladá veľa servisných informácií: formátovanie, písma, obrázky atď. Jeho histogram však ukazuje, že niektoré z bajtov sa vyskytujú s približne rovnakou pravdepodobnosťou, zatiaľ čo iné - oveľa častejšie ako iné. Preto pochádza z histogramu niekoľko ostrých výbojov a vo všeobecnosti má pomerne „členitý“vzhľad, hoci zaberá celú dostupnú šírku.

A posledný súbor je zazipovaný vo formáte 7Z:

гистограмма=
гистограмма=

Tento histogram má dve hlavné črty: po prvé, všetky bajty sa nachádzajú v komprimovanom súbore s viac-menej rovnakou pravdepodobnosťou (pomerne plochý horný okraj), po druhé, nad histogramom nie je prakticky žiadne voľné miesto, čo naznačuje takmer úplnú absenciu nadbytočnosti taký súbor. Môžeme teda dospieť k záveru, že algoritmus archivátora nejakým zvláštnym spôsobom „zmieša“bajty súboru s cieľom dosiahnuť ich maximálne rovnomerné rozdelenie.

Entropia vo výpočtovej technike, rovnako ako vo fyzike, je teda mierou poruchy v systéme, v tomto prípade poruchy distribúcie bajtov v súbore. Entropia umožňuje posúdiť stupeň kompresie súboru a nepriamo aj jeho typ.

Odporúča: