Magika je open-source nástroj od Google zaměřený na rozpoznávání typů souborů pomocí machine learningu. Nahrazuje tradiční přístupy založené na heuristikách a magic numbers přesnějším modelem, který analyzuje obsah souboru.
Za projektem stojí Google, který Magiku vyvinul pro potřeby bezpečnostních a analytických systémů. Cílem je spolehlivě určit typ souboru i v situacích, kdy jsou metadata neúplná nebo záměrně upravená.
Nástroj se hodí pro bezpečnostní analýzu, práci s neznámými soubory nebo systémy, které potřebují automaticky klasifikovat velké množství dat. Typicky jde o malware detection, data pipelines nebo archivaci.
Základní princip spočívá v použití trénovaného modelu, který se dívá na obsah souboru místo jeho názvu nebo přípony. Díky tomu dokáže identifikovat typ i u souborů, které jsou přejmenované nebo poškozené.
Výsledkem je robustnější klasifikace než u klasických nástrojů. Projekt ukazuje, jak lze ML použít i na úlohy, které byly dlouhodobě řešené statickými pravidly.
Zdroje: