RAG-Anything pro multimodální RAG

3 dny ago

RAG-Anything míří na slabé místo běžných RAG pipeline: většina z nich pracuje hlavně s textem, zatímco reálné dokumenty míchají odstavce, tabulky, grafy, obrázky a rovnice. Tenhle open-source framework se to snaží řešit v jednom systému, takže nad jedním dokumentem můžete hledat a odpovídat i ve chvíli, kdy důležitá informace neleží jen v textu, ale třeba v tabulce nebo schématu. Právě to je hlavní rozdíl proti jednodušším RAG stackům, které netextový obsah často převádějí jen napůl nebo ho ignorují. Projekt je postavený na LightRAG a je navržený jako end-to-end pipeline od ingestu dokumentu po multimodální dotazování. Repo už má na GitHubu přes 15 tisíc hvězd, takže nejde o okrajový experiment, ale o nástroj, který si rychle našel publikum.

Za projektem stojí HKUDS, tedy Data Intelligence Lab při University of Hong Kong, a technický report je podepsaný autory Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang a Chao Huang. V materiálech k projektu se opakuje jedna praktická ambice: místo skládání několika specializovaných nástrojů pro OCR, parsing, retrieval a multimodální analýzu nabídnout jeden společný framework. To dává smysl hlavně u akademických paperů, technické dokumentace, finančních reportů nebo enterprise znalostních bází, kde význam často vzniká až kombinací více typů obsahu. RAG-Anything proto necílí jen na lepší extrakci dat, ale na to, aby se vztahy mezi textem, obrazem a strukturou dokumentu zachovaly i ve fázi retrievalu.

Jak to funguje v jednodušší verzi: systém nejdřív dokument rozparsuje, potom rozliší různé typy obsahu, nad nimi spustí specializované zpracování a nakonec je propojí do společné reprezentace pro vyhledávání. Pro parsing používá mimo jiné MinerU, ale umí i obejít parsování a vzít rovnou předpřipravený seznam obsahových bloků z jiného zdroje. V README popisuje multimodální knowledge graph, cross-modal relationship discovery a hybrid retrieval, tedy kombinaci strukturálních vazeb a sémantického hledání. Prakticky to znamená, že dotaz nemusí mířit jen na textový chunk, ale může se opřít i o vazby mezi tabulkou, obrázkem a okolním kontextem. Vedle PDF podporuje také Office dokumenty, obrázky a další běžné formáty, takže cílí na situace, kde se klasický text-only RAG začíná rozpadat.

Zdroje:

Related posts

Open Lovable pro klonování webů

AI Engineering from Scratch učí stavět AI bez berliček

Claude-Mem přidává paměť do Claude Code