RAG-Anything pro multimodální RAG

RAG-Anything míří na slabé místo běžných RAG pipeline: většina z nich pracuje hlavně s textem, zatímco reálné dokumenty míchají odstavce, tabulky, grafy, obrázky a rovnice. Tenhle open-source framework se to snaží řešit v jednom systému, takže nad jedním dokumentem můžete hledat a odpovídat i ve chvíli, kdy důležitá informace neleží jen v textu, ale třeba v tabulce nebo schématu. Právě to je hlavní rozdíl proti jednodušším RAG stackům, které netextový obsah často převádějí jen napůl nebo ho ignorují. Projekt je postavený na LightRAG a je navržený jako end-to-end pipeline od ingestu dokumentu po multimodální dotazování. Repo už má na GitHubu přes 15 tisíc hvězd, takže nejde o okrajový experiment, ale o nástroj, který si rychle našel publikum.

Za projektem stojí HKUDS, tedy Data Intelligence Lab při University of Hong Kong, a technický report je podepsaný autory Zirui Guo, Xubin Ren, Lingrui Xu, Jiahao Zhang a Chao Huang. V materiálech k projektu se opakuje jedna praktická ambice: místo skládání několika specializovaných nástrojů pro OCR, parsing, retrieval a multimodální analýzu nabídnout jeden společný framework. To dává smysl hlavně u akademických paperů, technické dokumentace, finančních reportů nebo enterprise znalostních bází, kde význam často vzniká až kombinací více typů obsahu. RAG-Anything proto necílí jen na lepší extrakci dat, ale na to, aby se vztahy mezi textem, obrazem a strukturou dokumentu zachovaly i ve fázi retrievalu.

Jak to funguje v jednodušší verzi: systém nejdřív dokument rozparsuje, potom rozliší různé typy obsahu, nad nimi spustí specializované zpracování a nakonec je propojí do společné reprezentace pro vyhledávání. Pro parsing používá mimo jiné MinerU, ale umí i obejít parsování a vzít rovnou předpřipravený seznam obsahových bloků z jiného zdroje. V README popisuje multimodální knowledge graph, cross-modal relationship discovery a hybrid retrieval, tedy kombinaci strukturálních vazeb a sémantického hledání. Prakticky to znamená, že dotaz nemusí mířit jen na textový chunk, ale může se opřít i o vazby mezi tabulkou, obrázkem a okolním kontextem. Vedle PDF podporuje také Office dokumenty, obrázky a další běžné formáty, takže cílí na situace, kde se klasický text-only RAG začíná rozpadat.

Zdroje:

Trending News

Recent Posts

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Reviews

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

Rubriky

Subscribe Now

Trending News

RAG-Anything pro multimodální RAG

Related posts

Taste Skill pro lepší AI frontend

TrueCourse AI generování personalizovaných kurzů

Nanobot lehký framework pro AI agenty

Gas Town: workspace pro AI agenty

Magika rozpoznání typů souborů pomocí AI

AI Engineering from Scratch učí stavět AI bez berliček

Recent Posts

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code

OpenAI přidává do Agents SDK sandbox a model-native harness

Claude Design v praxi, jak funguje a co s ním zvládnete

Beads jako paměť pro coding agenty

Actual

Claude-Mem přidává paměť do Claude Code

Beads jako paměť pro coding agenty

Gas Town: workspace pro AI agenty

AI Engineering from Scratch učí stavět AI bez berliček

Přihlašte se k odběru našeho newsletteru

Google vydal Gemini 3.1 Flash TTS s audio tagy a SynthID

Stanford AI Index 2026: Anthropic vede, benchmarky vzrostly pětinásobně

Claude-Mem přidává paměť do Claude Code