Translations:FACTS About Building Retrieval Augmented Generation-based Chatbots/31/ja
マルチモーダルデータの処理: エンタープライズデータはマルチモーダルです。構造化データ、非構造化データ、マルチモーダルデータを処理することは、多用途なRAGパイプラインにとって重要です。我々の経験から、文書の構造が一貫しており、事前に知られている場合(例えば、Scoutボットが扱っていた金融収益分野のSEC提出データのEDGARデータベースに見られるようなもの)、セクションレベルでの分割を実施し、セクションタイトルや小見出しを使用してそれらをチャンクのコンテキストに組み込むことで、検索の関連性が向上します。また、Unstructured.ioのような、PDFからコンテンツを抽出し構造化することに特化したソリューションが、非構造化文書をコンテキストを持たせて解析しチャンク化する際に役立つこともわかりました。