FAQ生成機能を持つ新しい電子掲示板の提案
1 はじめに
電子掲示板は知識の宝庫であるが、そのままでは再利用が困難である。もし掲示板から自動的に質問・回答を整理して抽出できれば、さらに有益な知識源となることは疑いがない。そこで、従来型の掲示板から質問・回答を抽出し、分かりやすく提示する手法を検討した。しかし従来型の掲示板を用いる場合、質問部分はどこで、要点は何か、といった深い自然言語処理を行う必要がある。それよりも、掲示板が質問・回答を自動抽出できるような仕組みを持つべきである、と考えられる。たとえば、投稿者が投稿する際、質問部分や要点部分等をメタ情報として与えることにより、収集や抽出などの処理が効率的に行えるシステムを目指している。このような手法を用いることによって、質問・回答構造に限らず、応用として様々な意図構造を抽出できると考えられる。そこで、表層的なルールに基づく仕組みの限界と、質問・回答構造を効率よく抽出するために適したメタ情報としてどのようなものがあると適切かを調査する予備実験を行い、その結果を踏まえて、意図構造の抽出が容易な新しい掲示板を試作した。
関連研究にダイアログナビがあるが、これは、あらかじめ抽出された質問・回答集の中から対話的に目的の回答を含むテキストへナビゲートする仕組みである。本研究では、よりピンポイントに質問・回答の組み合わせを抽出し、提示することを試みる。
2 FAQの自動生成
掲示板の投稿から、質問の意図を端的に表した質問文を作成するとき、投稿中のどの部分を抽出すべきかを考える必要がある。そこで、投稿中の各部分の意図表現を調べ、それに従って取捨選択した。意図表現は、実際の投稿を見ながら分類・定義した。意図表現の定義と決定方法の一例を表に示す。なおでは電子メールの談話表現を解析しており、本論文の意図表現に相当するものを「質問内容表現」と呼んでいる。
各部分に意図表現が付与されたら、質問文を構成するのに必要な部分を抽出する。抽出する部分は、意図表現の並びを元に決定する。抽出部分の決定ルールは、質問投稿の意図表現の並びと、必要と思われる部分とを統計的に分析し、作成した(表)。この表からも分かるように、質問の要点は投稿の最初の部分に現れることが多い。
FAQにおいて、質問は短く端的に表されるのに対し、回答は長く詳しく表される場合が多い。そこで本手法では、回答は1投稿中の全文とした。回答投稿としては、質問投稿に直接返信している投稿の中で、質問者以外が返信した、(時間的に)最初の投稿を選択した。
予備実験で用いた掲示板は、Yahoo!掲示板における質問専用のスレッドである。すべての投稿には返信関係が付与されている。また、質問専用スレッドを用いることで、スレッド作成者へ直接返信している投稿はすべて質問投稿と見なすことができ、問題を簡単化している。まず、Yahoo!掲示板の質問スレッド「Windows XP Q&A」の各投稿の本文を句読点や「!」「?」等の記号で区切ってできた各部分に対して意図表現を付与した。さらに、各部分の取捨選択ルールによってFAQの質問文としてふさわしい質問文を生成した。最後に、各質問文に対する回答投稿を選択し、それらを組にしたXMLとして保存した。得られた結果の画面イメージを、図に示す。
スレッド作成者に対する返信が652投稿あり、そのうち71.2%にあたる464投稿に何らかの返信があった。それらの投稿から質問・回答を作成できた投稿は76.1%にあたる353投稿であった。生成した質問文は、1投稿あたりの平均が70.3文字、文字数は約5分の1になった。また出力されたFAQのうち、無作為に選んだ141投稿に関して評価を行った。評価項目は「質問文の短さ」「質問文の正確さ」「回答投稿の正確さ」であり、主観により3段階評価を行った。その結果を表に示す。ただし「回答投稿の正確さ」は、回答の内容ではなく選択として正しいか否かを判定した。特に質問投稿に多かったが、タイトルが本文の一部になっているものが目立った。
3 新しい掲示板の提案
予備実験によって、意図表現に関する単純なルールで可能なことの限界がかなり明らかになった。掲示板のデータをより効率的に、正確に扱うためには、掲示板の仕組みが変わる必要があると考えている。すなわち、投稿にはメタ情報が投稿者によって付与されることによって、掲示板はより知的なコンテンツとなる。そこで前章の実験を踏まえて、投稿時にあらかじめ投稿を構造化して書き込む、質問・回答専用の掲示板を作成した(図)。投稿内容は、各意図表現に対応したフレーズ(例えば「意思」なら「こんな風にしたい」等)によって構造化する。また、「これは○○についての質問」の「○○」の部分を入力させることによって、適切な質問投稿のタイトルを自然に入力させようとしている。このように投稿者が投稿を構造化することによって、意図表現付与における誤りを大幅に減らすことができ、FAQ等への再利用が容易になると考えられる。
この新しい掲示板では、実験によって獲得した談話構造パターンを利用している。すなわち、行為表現の後にはそれを受けて状況表現・質問表現が来る、などというパターンに基づいて、投稿者は構造化された投稿を作成する。またこの「行為→状況」などの議論の展開パターンはXMLファイルに記述されているため、パターンの追加・変更は容易にできるほか、質問以外の構造についても拡張しやすい。
将来的には、提案する掲示板によって収集された議論構造つきコーパスを利用することで、従来の非構造化掲示板データからの情報抽出も可能になると考えられる。
4 おわりに
電子掲示板の質問スレッドからFAQを生成する手法について述べた。質問投稿の本文に対して、5種類の意図表現「挨拶」「状況」「行為」「質問」「意思」を付与し、取捨選択ルールを用いてFAQの質問文としてふさわしい部分を抽出した。抽出した質問文に対する回答投稿を選択し、それらを組にして表示するようなシステムを実装したところ、質問文は5分の1程度に短くなったほか、返信があったもののうち76.1%の投稿はFAQが作成できた。またこの実験を踏まえて、投稿者が投稿に対して行為・状況などの構造をあらかじめ与えた上で投稿する掲示板を作成した。
今回は質問・回答の構造化を行ったが、同様に、製品等の評価スレッドや雑談スレッドなど多種多様なスレッドの議論構造において、要約・検索などが高い精度で実現可能な仕組みを目指している。