アライン株式会社(代表取締役:清水 剛)は7月23日、ファイル検索サービス「デジタルライブラリ」をリリースした。
デジタルライブラリとは
デジタルライブラリは、共有ストレージにアップロードされたあらゆる形式のファイル(テキスト、画像、PDFなど)の内容を解析し、ユーザーの検索意図を汲んだ検索を行う生成AIを利用した検索サービス。
たとえば「デジタル化」をキーワードとして検索した場合、「DX」などの関連キーワードも一緒に抽出して質問意図に合致する資料を表示できる。
▼デジタルライブラリの検索画面イメージ
デジタルライブラリの特徴
デジタルライブラリの主な特徴は、以下のとおり。
- 「登録」「検索」のみのシンプルなサービス
- ユーザーの検索意図に沿った類似検索ができる
- 数百ページに及ぶ大きなファイルでもページ単位で解析・検索できる
- OCRにより画像やPDFなどのファイルに含まれるテキストも解析・検索できる
- 英語や日本語の他、あらゆる言語に対応している
デジタルライブラリの仕組み
キーワード一致ではなく類似検索を可能にする仕組みとして、ファイルの登録時に作成するEmbeddingと呼ばれるベクトルデータベースを採用している。
ファイルに含まれるテキストデータを解析・抽出して、ページごとにEmbeddingとしてベクトル化してデータベースに保存する。
検索時には、ユーザーが入力したキーワードやセンテンスも同様にEmbeddingとしてベクトル化し、データベースの全てのベクトルと総当たりでコサイン類似度を計算する。
最終的に、コサイン類似度が高い順に、ファイル名、表紙のサムネイル、該当ページ番号、該当ページに含まれるテキストの一部抜粋を表示する。
<リンク>