自然言語処理プロジェクト
1 概要
自然言語処理とは、計算機が(日本語や英語などの)言語を「理解」「解析」「生成」「要約」「分類」「抽出」「換言」「翻訳」する技術の総称です。
Webや会話など、私たちの生活は膨大の言語情報に囲まれています。その多くは有用で、また貴重な情報であるにも関わらず、十分には活用されていません。知的活動のさまざまな場面でこれらをうまく利用できれば、私たちの生活はもっとハッピーで価値あるものになるでしょう。
自然言語処理プロジェクトでは、論文の執筆やゼミでの議論などの研究活動を、効果的に進めるための知的支援環境の実現を目指しています。具体的には、「論文データベースを用いた用例の検索・提示」「発言履歴を用いた参加者への適応的な情報提示」などをテーマに掲げています。
2 用例文検索・提示による論文執筆支援
日本の大学に在学する者は、日本語論文を執筆することが多いです。しかし、外国人留学生や論文作成経験が乏しい学生は、論文特有の表現や決まった言い回しを身につけていないことが多く、日本語論文を作成することは容易ではありません。また、日本人学生は日本語が母語であるため、論文に不適切な表現があるかどうかを調べようとは思いません。したがって、論文を執筆しながら自分の間違いに気づくことができる仕組みが求められます。本研究では、論文執筆システムTDEditorと連携し、論文作成中に関連する用例文を提示することによって、日本語論文の執筆を支援します。
2.1 用例文数提示
エディタで論文を執筆中に、ユーザが入力した形態素の組み合わせとそれを含む用例文の件数を常に提示するシステムを開発しています。用例文数の少ない組み合わせは、論文ではあまり使われず、不適切である可能性が高いと考えられます。このように、用例文数を観察することによって、ユーザは自分の間違いに気付き、作成した文を考え直すことができます。
2.2 詳細な用例文提示
文に不適切な表現があると気づいても、正しい表現が分からない場合があります。この場合、具体的な用例文を見て、使われている表現を参考にする必要があります。本システムでは、用例文数をクリックすれば、詳細な用例文が表示されます。また、大量の用例文から有用な用例文をユーザが効率的に見つけるために、複数キーでソートし、また、長文を圧縮して提示します。
3 議事録集合からの知識発見による会議支援
一般に、過去の会議の内容は、後から振り返ることができるように議事録に記録されます。議事録を閲覧して過去の会議を振り返ることは、今後の会議を円滑に行うために有効な手段だと考えられます。しかし、大量に蓄積された議事録をすべて読むことは、会議の参加者にとってコストが高いと言えます。
会議の内容すべてを振り返らずとも、会議に登場した用語とその意味や、過去の会議で問われた内容など、最低限必要な前提知識となる情報のみを把握しておけば、会議の理解の助けになると考えられます。そこで、本プロジェクトでは、議事録集合からの知識発見・提示によって会議支援を行う研究に取り組んでいます。
3.1 議事録コンテンツからの情報抽出
本研究室では、研究の進捗報告などの会議にディスカッションマイニングシステムを導入することにより、意味構造化された議事録コンテンツを作成・蓄積しています。
ディスカッションマイニングシステムによって作成された議事録コンテンツは、発表スライド・参加者の発言内容(テキスト)・音声・映像などによって構成されています、また、議事録コンテンツは、発言間の関係(議論構造)や発言・スライド間の関係、発言・映像間の関係などの情報も保持しています。これらの構成要素から新たな知識を発見し、会議支援に役立てることを本プロジェクトでは目指しています。
議事録集合からの効率的な情報取得のために、マーキングボタン・プラスボタン・マイナスボタンが押された記録、発言間の親子関係(議論構造)、スライド上の要素間の親子関係、などの情報を新たに議事録コンテンツから抽出し、データベースに格納するようにしました。これにより、発言に対するマーキング情報、会議で発言しているときに表示されているスライドの内容、発言の親となる発言の内容などの取得が容易にできるようになりました。
ディスカッションマイニングシステムの概要については、ディスカッションマイニングプロジェクトの紹介ページをご覧ください。
3.2 入力候補提示による議事録作成支援
書記を対象とした支援として、過去の議事録を利用した議事録作成支援に関する研究を行っています。
会議中、書記は議事録作成のためにリアルタイムで発言の要約・記録を行います。テキストの入力が議論に追いつかないことはたびたび起こり、書記は会議終了後に会議の映像を確認しながら議事録を補完・修正する必要があります。議事録作成にかかる人的コストは非常に高いというのが現状です。
書記のテキスト入力にかかるコストの低減を目指して、入力候補提示による議事録作成支援システムの開発に取り組んでいます。会議中に、次に入力される文字列を過去の議事録からリアルタイムに予測し、予測結果を入力候補として提示するというものです。ユーザ(書記)は、提示された入力候補を選択することによって入力時間の短縮を行うことができます。
発表者・発言者・現在の発言に対して議論構造的に親となる発言・発言時のスライド内の文章などといった背景情報を利用することで、状況に合った入力候補の予測・提示を目指します。