JAPAN AI、マルチモーダルRAG実装 〜図面検索から設計データ抽出まで、製造業の技術資料活用を効率化〜
- プレスリリース

JAPAN AI株式会社(本社:東京都新宿区、代表取締役社長:工藤 智昭、以下JAPAN AI)は、画像とテキストを統合的に理解するマルチモーダルRAGを実装いたしました。
本機能の実装背景
これまでJAPAN AIでは、製造業を含む多くの企業のAI導入と伴走支援を実施してまいりました。
その中でも多くの製造業を営む企業においては、技能継承と知見活用の課題に直面していることが明らかになっています。製造業では熟練技術者の持つノウハウや経験値が非常に大きな役割を果たします。
しかし、技術者の退職や異動で、設計図面、作業手順書、品質管理データ、過去のトラブル対応事例などの膨大な技術資料が社内には存在するものの、長年蓄積された技術的ノウハウや経験値が部門や個人へ分散して管理され、必要な時に適切な情報にアクセスすることが困難な状況となってしまうケースが多発しています。
JAPAN AIでは、業界最高水準の82.7%の精度を誇るRAG(※)でテキスト情報検索の支援を行ってきましたが、図面や写真、グラフなどの視覚的情報に含まれるデータについては、従来のRAGでは取得できる情報が限られており、貴重な活用機会が失われていました。
このような背景から、画像とテキストを統合的に理解する「マルチモーダルRAG」の実装に至りました。
マルチモーダルRAGとは
マルチモーダルRAG(Retrieval-Augmented Generation)は、画像・文書・音声など複数のデータ形式を検索して、その結果を元に生成AIが回答を出力する仕組みです。
従来のRAGでは、社内に点在していた図面などの技術文書を検索して見つけることはできましたが、その図面に記載された具体的な数値や仕様を抽出し、回答を生成することは困難でした。
今回マルチモーダルRAGが実装されたことで、PDFファイル内のテキストと画像を自動判別し、両方の情報を統合的に理解して、回答を生成することができるようになりました。従来のテキスト抽出やOCRによる画像認識のみの処理から大幅に進化し、図面の詳細な寸法情報やグラフのデータなどの情報を理解して読み取ることが可能となります。
(※本実装は文書と画像の2つの形式に対応)

具体的な使用例
PDFファイルをアップロードすると、システムが高度な画像解析技術を用いてテキスト部分と画像部分を自動判別し、それぞれに最適化された処理を実行します。
〈使用例① 図面検索〉
図面検索機能では「船舶の設計図面で全長50メートル級の事例を探して詳細な仕様を教えて」といった具体的な条件での検索が可能になり、該当する図面を特定するとともに「全長52メートル、全幅8メートル、喫水3メートル、総トン数450トン、エンジン出力1200馬力」といった詳細な寸法情報や仕様データが自動的に抽出されて出力されます。設計者は過去の類似事例を効率的に参照でき、新規設計の参考資料として活用できるようになります。
〈使用例② グラフ理解〉
「四半期売上推移のグラフから2023年第3四半期の数値を教えて」という質問に対し、グラフの画像を詳細に解析して軸の値や線の位置を読み取り、「2023年第3四半期の売上は前年同期比15%増の1,200万円で、前四半期比では8%の増加を記録しており、年間目標達成に向けて順調な推移」といった具体的な数値データと傾向分析を含めた包括的な回答を提供します。
今後の展望
過去の設計事例に基づいた最適な業務改善提案機能や、過去の設計図面と見積を参照して、類似製品製造時の見積を作成できるようなAIエージェントの開発も予定しております。今後も、より複雑な図面や多様なグラフ形式への対応範囲を拡大できるようRAG技術の向上に努めてまいります。単なる情報検索を超えた知識活用支援システムとして、製造業をはじめとする各業界の業務効率化と技術革新に貢献してまいります。
※:約300の質問に対する回答の正答率