専門家コラム
2022年に「ChatGPT」が登場したことにより、ドキュメント検索への生成AIの利用も着目されています。チャットボットやFAQシステムの場合、システムに合致するフォーマットでデータを作成する必要があるため、準備に手間がかかります。また、検索方法がキーワードマッチ主流で検索性に課題があります。一方、生成AIによるドキュメント検索は、「既存のドキュメントをそのまま投入し、自然な文章から検索ができる」点が大きな期待をされており、注目を集めています。しかし、ドキュメント検索に生成AIを活用するには、押さえておくべきポイントがいくつかあります。本記事では、ドキュメント検索における生成AI活用のポイントをご紹介します。
生成AIでドキュメント検索を行う際のコツをまとめた資料を無料でダウンロード
- 生成AIでドキュメントを検索する際の問題点
- 1. Hallucination:ハルシネーションの問題(誤回答してしまうリスク)
- 2. 回答範囲の制限の問題(登録したドキュメントすべてを検索対象にする)
- 3. セキュリティの問題(内部情報の漏洩など)
- 問題を解決するための3つの方法
- 1. Hallucinationの問題に対する解決策
- 2. 回答範囲の制限の問題に対する解決策
- 3. セキュリティの問題に対する解決策
- 生成AIによるドキュメント検索の流れとメリット
- 検索精度向上のためにはチャンク分けがポイント
- 生成AIを活用したドキュメント検索サービスの一例をご紹介
- ドキュメント検索に生成AIを活用しコンタクトセンター業務の高度化を
生成AIでドキュメントを検索する際の問題点
個人の利用においては、「GPTs」や「GPT Store」の登場によって、誰もが容易に自分専用のチャットボットを作成できるようになりました。とはいえ、企業が生成AIをドキュメント検索用途で利用するケースでは、主に3つの問題を懸念する声が聞こえてきます。
1. Hallucination:ハルシネーションの問題(誤回答してしまうリスク)
生成AIは、必ずしも正解の文章を生成するとは限りません。たとえば、対象のドキュメント内に類似した文章が複数存在する場合、それらの文章からどれにも合致しない新たな回答文を生成してしまう場合があります。
2. 回答範囲の制限の問題(登録したドキュメントすべてを検索対象にする)
登録したドキュメントすべてを検索対象にしてしまうため、毎回領域の異なる質問をする場合には、対象ドキュメントを限定する必要が出てきます。すべてのドキュメントを対象にした場合、まったく関係のない要素のドキュメントも回答生成対象になってしまうため、誤回答のリスクが高まります。
3. セキュリティの問題(内部情報の漏洩など)
多くの生成AIサービスでは、生成AIのAPIを利用したSaaSサービスを提供しています。しかし、API利用の場合、企業内部の情報の漏洩や学習に利用されるのではないかといった懸念が多く聞かれます。Azure OpenAI Serviceでは、オプトアウト申請などの方法で回避することも可能ですが、複雑な申請手続きが必要なため、誰でも容易には申請できません。
コンタクトセンターで生成AIによるドキュメント検索を利用する場合は、保留時間短縮や新人研修の省力化を目的に、オペレーターの検索補助機能としての活用が着目されています。しかし、これらの問題が解決されないと、実利用にはまだまだ耐えられない状況です。
問題を解決するための3つの方法
これらの問題を解決するため、さまざまな方法が検討されています。
1. Hallucinationの問題に対する解決策
まず「どこまで頑張ってもHallucinationが100%なくなることはない」ことを理解しましょう。そのうえで、実利用に耐えうる回答精度を担保するためには、さまざまな工夫が必要です。
たとえば、
- プロンプトを具体的に記載する
- 対象ドキュメントの章立てを細分化して、文章として読み取りやすくする
- 対象ドキュメントに含まれる図やフローは極力文章に落とし込む
などの工夫を行うことで、Hallucinationのリスクを抑制できます。また、少し技術的な工夫として、ドキュメントを事前にチャンク分け(分割処理)することで、精度を向上させることも可能です。チャンク分けは、ChatGPT等の生成AIで文章生成する前に文章を分割することで、精度を向上させる仕組みです。これを取り入れることで、Hallucinationを極力防ぐことが可能になります。
2. 回答範囲の制限の問題に対する解決策
RAG(Retrieval-Augmented Generation)※と呼ばれるフレームワークを用いることで、対象ドキュメントを絞って回答させることができます。
その他、
- 対象ドキュメントにタグを付与し、検索する際に対象ドキュメントを更に絞る
- プロンプトに回答範囲に関わる内容を含める
などの工夫で回答範囲を制限し、Hallucinationを抑制することができます。
※RAGは、大規模言語モデルによるテキスト生成に、外部の情報の検索を組み合わせることで、回答精度を向上させる技術のこと。この技術を利用し、限定した範囲の知識ベースから回答生成を行うことができる。
3. セキュリティの問題に対する解決策
たとえば、Azure OpenAI Serviceを利用する場合は、Microsoft Azureのセキュリティとコンプライアンス基準に準拠した、高度なガバナンス・セキュリティで管理されたシステム構成を構築することで、セキュリティリスクを回避できます。仮にAzure OpenAI Service側に個人情報等のデータが流入してしまった場合も、都度オプトアウト申請することでデータ流出を回避できます(申請には一定の条件があります)。また、ClaudeなどChatGPTに類似した生成AIを活用する場合は、Amazon Bedrock などでシステムを構成することで、閉域環境での生成AI利用が実現できます。
生成AIによるドキュメント検索の流れとメリット
ドキュメント検索のための準備と運用は、一般的にFAQシステムの運用サイクルと大きな違いはありません。ドキュメントの作成後、同義語や類義語の辞書登録を行ったり、ドキュメント自体にメタタグを付与したりしながら、検索にヒットしやすいように工夫をします。
〈ドキュメント検索における一般的な流れ〉
エーアイスクエア社にて作成
また、各種サービスや製品の追加・変更に伴い、ドキュメントの登録や各種設定も更新する必要があります。さらには、ドキュメント更新に伴い、辞書や検索設定も常に修正する必要があります。この際、ルールが複雑化し、設定の手間やルールの不一致が発生することがよくあります。
生成AIによるドキュメント検索は、この一連の作業を省力化できる可能性があります。
〈生成AIによるドキュメント検索における流れ〉
エーアイスクエア社にて作成
生成AIを活用する最大のメリットは、「既存のドキュメントをそのまま投入して利用でき、事前の準備が少ない」点です。さまざまな言い回しの質問でも、生成AIがドキュメントから最良の回答を生成してくれます。
しかしながら、生成AIによるドキュメント検索を利用するために最も重要なことは、「検索精度」です。前に記述した通り、Hallucinationは一定量発生する前提とはなりますが、極力発生しないよう、工夫することが重要です。
そこで、重要となるのが「チャンク分け」です。
検索精度向上のためにはチャンク分けがポイント
ドキュメント検索におけるチャンク分けとは、「意味の固まりでの分割」です。数100ページあるドキュメントから生成AIに都度検索をさせ、回答を生成させると、関係のないページからも回答文を生成してしまう可能性があります。また、回答生成速度が遅くなる可能性もあります。生成AIを利用する前に、チャンク分けを行い、事前に大きな括りでドキュメントを分割することで、Hallucinationや生成スピード等の生成AIの課題を極力解消できるようになります。
わかりやすい例としては、製品説明書や論文等でよくある章立て形式のドキュメントを、章ごとやタイトルごとに区切って検索範囲を事前に絞るイメージです。
チャンク分けを利用する場合、「分割の仕方」に工夫が必要です。この設定は、企業ごとに保有しているドキュメントの形式や構成によって最適な設定が異なります。具体的には、文章の固まりのサイズ(Text chunkSize)や文章のかぶりの領域(Text chunkOverlap)などをさまざまなパターンで設定し、Hallucinationが最も省力化される領域を確認し、設定します。
たとえば、チャンクサイズ1,000・500・200といった3パターンを設定し、それぞれに同一の質問を投入して検証すると、「1,000は広すぎてHallucinationが発生しやすい」「200は狭すぎて生成された情報に不足が多い」などの傾向がつかめます。この検証結果に基づき、最適な設定を行いますが、対象ドキュメントの構成によって最適な設定が変わります。
チャンク分けを行うと精度が向上するため、最初に検証・設定を行うことが望ましいのですが、従来のドキュメント検索システムと異なるのは、「最初に設定すれば、その後に辞書登録等のルールの設定が不要になる点」です。
チャンク分けの検証は、プログラミングスキルのある人材が行う必要があり、多くの企業にとってハードルになります。しかし最近では、プログラミングやAIのスキルを持ち合わせなくても検証が行えるようなツールが登場し始めています。
生成AIを活用したドキュメント検索サービスの一例をご紹介
業界に先駆けて取り組んでいるサービスを1つご紹介します。ドキュメント検索サービスHEROZ ASKは、ChatGPT(Azure OpenAI Service)によってドキュメントから回答生成を行うAIアシスタントで、業務に使いやすい各種機能が充実しています。また、先に記載した生成AIを上手に活用するために必要な設定が、管理ツール上で容易に行えるサービスとなっています。
ドキュメント検索に生成AIを活用しコンタクトセンター業務の高度化を
コンタクトセンターの問い合わせ対応業務においてドキュメント検索は重要であり、その高度化にはChatGPTをはじめとする生成AIの活用が必要不可欠です。しかし、いくつかの懸念点からその活用をためらう声も少なくありません。エーアイスクエアではそれらの課題を解決するためのサービスを提供しており、TMJのクライアントにおいても検討が進んでいます。本記事の内容が、コンタクトセンター業務高度化のご支援に繋がれば幸いです。
キーワード
関連するサービス |
---|