アライン株式会社、生成AIを利用したファイル検索サービス「デジタルライブラリ」をリリース。類似検索が可能に

アライン株式会社(代表取締役:清水 剛)は7月23日、ファイル検索サービス「デジタルライブラリ」をリリースした。

デジタルライブラリとは

デジタルライブラリは、共有ストレージにアップロードされたあらゆる形式のファイル(テキスト、画像、PDFなど)の内容を解析し、ユーザーの検索意図を汲んだ検索を行う生成AIを利用した検索サービス。

たとえば「デジタル化」をキーワードとして検索した場合、「DX」などの関連キーワードも一緒に抽出して質問意図に合致する資料を表示できる。

▼デジタルライブラリの検索画面イメージ

デジタルライブラリの特徴

デジタルライブラリの主な特徴は、以下のとおり。

  1. 「登録」「検索」のみのシンプルなサービス
  2. ユーザーの検索意図に沿った類似検索ができる
  3. 数百ページに及ぶ大きなファイルでもページ単位で解析・検索できる
  4. OCRにより画像やPDFなどのファイルに含まれるテキストも解析・検索できる
  5. 英語や日本語の他、あらゆる言語に対応している

デジタルライブラリの仕組み

キーワード一致ではなく類似検索を可能にする仕組みとして、ファイルの登録時に作成するEmbeddingと呼ばれるベクトルデータベースを採用している。
ファイルに含まれるテキストデータを解析・抽出して、ページごとにEmbeddingとしてベクトル化してデータベースに保存する。

検索時には、ユーザーが入力したキーワードやセンテンスも同様にEmbeddingとしてベクトル化し、データベースの全てのベクトルと総当たりでコサイン類似度を計算する。
最終的に、コサイン類似度が高い順に、ファイル名、表紙のサムネイル、該当ページ番号、該当ページに含まれるテキストの一部抜粋を表示する。

<リンク>

https://prtimes.jp/main/html/rd/p/000000009.000085096.html