ディスカッションマイニングにおける発言中の指示対象の取得とその応用に関する研究
概要
我々はディスカッションマイニングと呼ばれる、人間同士の知識活動の場であるミーティング活動から映像・音声やテキスト情報、メタデータなどの実世界情報を獲得し、それらを統合して構造化し、再利用可能な会議コンテンツを作成する技術の研究を行ってきた。この研究では、獲得したメタデータを用いることで、会議コンテンツの検索・閲覧を支援するシステムを構築している。その一手法として、レーザーポインタの指示対象を利用することにより、会議コンテンツを協調的に統合・提示する手法について提案してきた。
しかし、一般のレーザーポインタの指示対象の取得は、検出精度がスクリーンに対する照射角度に影響されることや、レーザーポインタの使用者の情報や指示動作の開始時間・終了時間の取得が困難であるといった問題があった。そのため、これらの情報を利用した、会議コンテンツの検索や閲覧はきわめて困難であった。
このような問題を解決するために、我々は、スライド内のオブジェクトの明示的な選択や、指示者の識別、指示動作の開始時間・終了時間の取得が可能な、ポインタリモコンと呼ばれるポインティングデバイスを開発した。このデバイスが新たに実現した主な機能は次の二つである。一つは下線表示と呼ばれる機能で、スライド上の任意のテキストに対して、下線を引くことで指示を行う。もう一つは、矩形表示と呼ばれる機能で、スクリーン上でマウスカーソル操作を行うことにより矩形領域を表示し、その矩形領域に接触するスライド上のオブジェクトをすべて選択することで指示を行う。この機能により、グループ化された図形、JPEGやBMPなどのイメージ、表、グラフを指示することができる。指示者の情報や指示対象の情報は、時間情報と共に、データベースに登録される。
さらに、本研究では、ポインタリモコンにより取得した情報を用いた会議コンテンツの新しい検索・閲覧の手法を提案する。取得した情報を用いることで、誰がどこに対して指示を行ったかという情報を、会議コンテンツの検索や閲覧に反映することが可能となった。
また、会議コンテンツの検索に関しては、ポインタリモコンの使用傾向と発言の内容の関連性を利用した検索も考えられる。本研究では実際に、ポインタリモコンを運用し、取得されたデータを分析することで、「下線表示によって、スライド上のテキストの一部分に対して指示が行われた発言は、質問の可能性が高い」という仮説を検証した。検証の結果、この仮説の妥当性を示すことができたため、質問を探すような検索に関しては取得したデータが有効であると言える。
1 はじめに
会社や研究室などの様々な場所で、活動内容や進捗状況の報告、未解決の問題への意見やアドバイスの獲得などのために会議が開かれている。会議の参加者は一人一人自分の考えを持っており、それらを他者と交換・共有することにより、自分一人では気がつかない新たな知見を得ることができる。会議は様々な人間の知識が集約される場であり、会社経営や研究活動において非常に重要な役割をもつ。
しかし、会社や研究室で行われるような対面式の会議は会話を主体とするため揮発性が高く、かなりの部分が議事録などの記録には残されず、失われる情報が多い。有益な情報を失わないためにも、映像・音声のような網羅性の高い情報を会議コンテンツとして再利用可能な形で保存しておくことは極めて重要であると考えられる。これらの情報を用いて会議の内容を再確認することで、その時には理解できなかった、あるいは気付かなかった有益な情報を獲得できる可能性がある。会議に参加していなかった人であっても、過去の会議において行われた議論の内容を確認することで、重要な知見が得られる場合があり、そのような人にとっても会議の記録が簡単な方法で参照できる形で残っていることが望ましい。
しかしながら、会議の映像・音声だけを記録するだけでは、会議の内容を効率的に確認することは困難である。たとえば、ある発言がいつ行われた会議のどの時間になされたかが分からず、会議の映像・音声をそれぞれ最初から最後まで見直さなければならない場合もあり、それは時間的なコストが高く、現実的ではない。特に会議に参加していた人にとっては、会議の概要や重要な発言の存在自体は記憶している場合が多いため、その人にとって必要な部分のみを見直すことができるのが望ましい。そのためには、会議コンテンツおよびそれに含まれる発言の検索が重要になる。それに加えて、単に会議の映像・音声を見直すのではなく、重要な発言がどこにあるのか、どのように話題が推移していったのかといった、会議全体を俯瞰できるような閲覧が必要であると考えられる。以下に会議コンテンツの検索や閲覧が重要になると思われる具体的なケースを述べる。
一つの例として、研究室に所属している学生が、過去に参加していたゼミにおいて重要な発言がなされた事自体は覚えているが、その発言がいつのゼミで行われたか、もしくはゼミ中のどの時間で行われたか思い出せない場合があったとする。その場合、映像・音声を一つ一つ見直すことなく、検索や閲覧方法の工夫により、短い時間でその発言を見つけ出せることが望ましい。他の例としては、会議に参加していない人、たとえば新たに研究室に配属された人が、自分が取り組むことになった研究テーマに関連するトピックについて調査したいという場合があったとする。その場合、その研究室の以前のゼミにおいてそのトピックについて言及している発言、およびその発言が含まれる会議コンテンツを検索できることが望ましい。
このような要求の存在から、我々はこれまで、ディスカッションマイニングと呼ばれる、人間同士の知識活動の場であるミーティングでの活動から、映像・音声やテキスト情報、メタデータなどの実世界情報を獲得し、それらを半自動的に構造化することによって、そこから再利用可能な会議コンテンツを作成する技術の研究を行ってきた。
上述のような会議コンテンツの検索・閲覧を行うためには、映像・音声および発言を書き起こしたテキストに加えて、数々の会議に関する補足情報(メタデータ)が必要になると考えられる。特に、会議コンテンツの検索の対象や、閲覧の際に重要な手がかりとなると考えられるのは会議中の発言に関する情報である可能性が高い。したがって、会議中の発言に関する各種のメタデータを取得することが重要であると考えられる。具体的には、発言のタイムコード(発言の開始時間と終了時間)、発言者の情報、発言に対する評価情報(賛成・反対)、議論構造(発言間の依存関係)、発表資料と発言との対応関係などのデータが取得できることが望ましい。
これらのメタデータを用いることによって、高度な検索・閲覧が可能になると考えられる。たとえば、発言のタイムコードを用いることで、特定の発言を繰り返し見るといった閲覧が可能になる。発言者や発言に関する評価情報を用いれば、特定の人が行った発言で、評価の高い(賛成意見の多い)ものを探すといった検索が可能になる。議論構造を取得することにより、単一の発言ではなく、あるトピックに関連する一連の発言として可視化することができ、ユーザは発言単位ではなく、議論を単位として会議コンテンツを閲覧することができる。発表資料と発言との対応関係を取得できれば、その発言がどのような内容に関して言及しているのかを発表資料から確認することが可能になる。
しかし、従来のディスカッションマイニングシステムにおいて取得していたメタデータには、発表資料と発言との対応関係の情報が不足していた。ディスカッションマイニングシステムでは、Microsoft PowerPointのプレゼンテーション資料を用いて発表を行うことを前提としているが、従来のシステムではプレゼンテーション資料のスライド各一枚ずつと、各発言の対応関係しか取得できず、スライドの一部分と発言の対応関係は取得できなかった。
もし、スライド全体ではなく、スライドの一部分と発言の対応関係が取得できれば、発言がスライド内のどの内容について言及しているかをより詳細に知ることが可能となる。ディスカッションマイニングにおいては、発言の内容は書記が書き起こしたテキストによって表現されているが、このテキストは会議時間内で記述される要約文であるため、発言者の意図が十分に含まれていない場合がある。それぞれの発言に対してスライド内のどの部分に対して話しているのかという発言者の明確な意図を表現することによって、会議コンテンツの閲覧者の理解の促進につながると考えられる。
スライドの一部分と発言の対応関係を取得する一つの方法として、レーザーポインタのようなポインティングデバイスによる指示情報が利用できると考えられる。すなわち、発言中におけるレーザーポインタによる指示対象を機械的な処理で自動的に取得し、その対象を発言と対応づけることにより、上記の対応関係が取得できる。我々は実際に、これまでの研究において、プレゼンテーション資料が表示されたスクリーン映像を記録するカメラと、レーザーポインタ検出用のカメラを利用することで、レーザーポインタの指示対象を取得し、会議コンテンツに含まれる、スライド情報、発言者名、発言テキストと、レーザーポインタの指示対象を、映像の再生に合わせて同期的に提示する手法を提案してきた。
しかしながら、レーザーポインタの指示対象の取得にはいくつかの問題があった。一つは、検出精度がスクリーンに対しての座席位置(照射角度)などの環境に影響されるという問題である。また、指示動作に付随する情報が取得できないこと、たとえばレーザーポインタの使用者の情報が取得できない、指示動作の開始時間・終了時間の正確な値が取得できないといった問題があった。そのため、これらの情報を利用した、会議コンテンツの検索や閲覧はきわめて困難であった。
このような問題を解決するために、我々は、スライド内の任意のテキストおよび図形や表、ビットマップイメージなどの明示的な選択や、指示者の識別、指示動作の開始時間や終了時間の取得が可能な、ポインタリモコンと呼ばれるポインティングデバイスを開発した。本研究では、このポインタリモコンによって取得される、会議における発言中の指示対象およびその他の補足情報を利用することで、会議コンテンツの検索や閲覧をより高度なものにすることを目的とする。
本研究で新たに実現した明示的な選択には二種類ある。一つ目は、スクリーン上の任意のテキストに対して下線を引くことによる選択である。二つ目は、スクリーン上でマウスカーソル操作を行うことにより矩形領域が表示され、その矩形領域に接触するスライド内のテキストや図形などのオブジェクトをすべてハイライトすることによる選択である。
従来のレーザーポインタによる指示対象は、スクリーン映像に対する画像処理により時間ごとにポイントされている点の集合として取得されているが、それはあくまで光点の集合であり、その軌跡は残らず、画面上にフィードバックもされない。すなわち、レーザーポインタ情報の機械処理により求められた指示対象が正しいかどうかは、会議が終了するまで確認できない。
新たなポインティングデバイスであるポインタリモコンによる指示は、レーザーポインタを用いた指示とは異なり、スライド内の指示・選択された対象がハイライトされ、さらにそれは適宜変更が可能である。すなわち、この方法で選択可能なスライド内のオブジェクトであれば、指示者が操作を誤らない限り、指示対象を正確に取得することが可能である。また、発言中にスライド内で指示対象が表示され続けることは、他の参加者がその発言の内容を理解するためにも有効であると考えられる。
以下では、ポインタリモコンによって取得した情報を用いることで、会議コンテンツの検索や閲覧において、どのようなことが可能になるかについて簡潔に述べる。
まず会議コンテンツの検索への応用例について述べる。従来のディスカッションマイニングにおける会議コンテンツの全文検索では、発表スライド内のテキストおよび書記が書き起こした発言のテキストのみを利用していた。新たに取得した、発言中の指示対象を利用することにより、たとえば「このようなテキストをあの人が指示していたが、その発言がいつ行われたのか思い出せない」「このようなテキストをポインティングデバイスで指示している発言を探したい」「表に対して言及している発言を探したい」といった、より詳細な検索が可能となる。
次に、会議コンテンツの閲覧への応用例について述べる。ディスカッションマイニングシステムにおける会議コンテンツ中のそれぞれの発言の内容は、書記が会議中に書き起こしたテキストによって記述されているが、そのテキストには発言者の意図が十分に含まれていない場合がある。新たに取得したスライド内の指示対象と、発言を関係づけることにより、それぞれの発言に対して、スライド内のどの部分に対して話しているのかという発言者の明確な意図を確認することが可能となる。
また、会議コンテンツの検索においては、発言中の指示対象等の情報を単純にクエリとして用いた検索だけでなく、ポインタの使用傾向を利用した検索も可能であると考えられる。本研究では、ディスカッションマイニングシステムを用いた研究室におけるゼミにおいて、参加者がポインタリモコンを用いて行った指示動作に関するデータを収集し、ポインタリモコンの使用傾向と発言内容との関係を分析した。具体的には、「スライド内のテキストの一部分に対して指示が行われた発言は、質問の可能性が高い」というような仮説を検証した。その結果、他のメタデータと組み合わせることによりその妥当性を示すことができた。これにより、質問を伴う発言の検索に関しては、取得したデータが有効であると言える。
以下に本論文の構成を示す。第2章ではディスカッションマイニングシステムの詳細について述べる。第3章では、本研究で新たに開発したポインティングデバイスであるポインタリモコンおよび指示対象の取得方法の詳細について述べる。第4章では、ポインタの使用傾向と発言内容の関係について分析した結果と、システムの有用性について述べる。第5章では、ポインタリモコンによって取得した発言中の指示対象を利用した会議コンテンツの検索・閲覧の詳細について述べる。第6章では、本研究に関連する研究について述べ、第7章でまとめと今後の課題について述べる。
2 ディスカッションマイニングによる議論内容の獲得と利用
本研究では、前章で述べたようにポインティングデバイスによる指示情報から、会議中の発言と発表資料の対応関係、すなわち発言中の指示対象を取得し、取得した情報を利用して会議中の発言の効率的な検索・閲覧を実現することを目的としている。
本章では、まず本研究において前提となっている、会議の活動から、映像・音声情報や各種のメタデータを含む会議コンテンツを作成する技術であるディスカッションマイニングについて述べる。その後、獲得した会議コンテンツを検索・閲覧するためのシステムであるディスカッションブラウザについて説明する。
2.1 ディスカッションマイニング
ディスカッションマイニングは、人間同士の知識交換の場であるミーティングにおける活動から、映像・音声情報やテキスト情報、メタデータなどの実世界情報を獲得し、それらを統合して構造化し、会議コンテンツと呼ばれる再利用可能なコンテンツを作成するための技術である。ディスカッションマイニングでは意思決定を目的とするのではなく、発表を主体とした議論を行う会議を対象としている。対象とする会議ではモデレータとなる発表者、その発表を聴き意見を述べる参加者、そして会議の記録を行う書記がいる。会議のモデレータは、発表資料としてMicrosoft PowerPointによって作成されたスライドをプロジェクタで投影して発表を行うことを前提にしている。
会議を行うミーティングルームは図のような空間を想定している。ミーティングルームには音声を記録するためのマイクが設置されている。ミーティングルーム内の参加者の様子を記録するために1台のパンチルトカメラ(参加者カメラ)が設置され、またスライドを投影するメインスクリーンを記録するために固定カメラ(スクリーンカメラ)が1台、そして発表者の様子を記録するために固定カメラ(発表者カメラ)が1台設置されている。また、ディスカッションマイニングではミーティングルームの他に会議コンテンツの作成を行うためのサーバが用意されている。
発言者は発言時間、後述する発言タイプといった発言情報を記録するためにポインタリモコンと呼ばれるデバイスを用いる(図)。ポインタリモコンには赤外線を受信するためのデコーダが装着されている。受信する赤外線信号にはスクリーンの識別子および座席の位置情報が含まれており、ポインタリモコンがどこに向けられているかを判別する。また、ポインタリモコンは常にBluetoothを通じてリモコンに記憶されている参加者のIDやボタン情報を送信している。そして参加者は発言を行うとき、図のようにポインタリモコンを上に掲げて発言を行う。このときポインタリモコンは天井の位置情報を表す信号を赤外線LEDから受信する。そして受信した赤外線信号に含まれる位置情報をもとにカメラの向きを決定し、Bluetoothを通じて情報が送信される。そしてリモコンを掲げたときの角度(ひねり)により後述する発言タイプが決定する。サーバには、これらの情報に加えて受信した時刻が送信・記録される。また、発言の終了時刻を記録する際にもポインタリモコンを用いる。
ディスカッションマイニングでは、発言者の発言タイプを会議コンテンツ構造化の視点から「導入(Start-up)」と「継続(Follow-up)」の2つに大きく分類する。議論において、現在行っている発言が直前の発言(あるいはいくつか前の発言)を受けてなされるものなのか(継続)、それとも新しい話題の起点なのか(導入)が議論理解に大きな影響を与えているという考えに基づき、これを議論の構造化の主要な手がかりとしている。ディスカッションマイニングでは、導入発言を起点とし、継続発言が連なるまとまりを議論セグメントと呼ぶ。
また、ポインタリモコンには会議中の発表者の発言や参加者の発言に対して、随時自分のスタンスを入力できるボタンがある。スタンスに応じたボタンを押下することでサーバに自分のスタンスの情報を送信する。本システムでは参加者のスタンスを「同意(Agree)」、「非同意(Disagree)」としている。加えて会議終了後、検索しやすくするための目印として発言に対しマーキングを施す機能もある。
さらに、ポインタリモコンはメインスクリーン上のスライドに対しての指示や描画を行うためのポインティングデバイスとしての機能を持っており、操作ログは逐次指示者情報、および時間情報と共に記録される。その詳細な機能と、取得可能なデータについては第3章で示す。
参加者カメラは、会議中スウィングしながら参加者の様子を記録している。また、発表者以外の任意の参加者が発言を始めた時、参加者カメラがポインタリモコンで取得した座標位置に固定され、発言者の様子を撮影する。発言終了後には再びディスカッションルーム内を記録するためにスウィングを再開する。スクリーンカメラは、メインスクリーンに投影されるプレゼンテーションに用いたスライドやデモ、参考資料の様子を記録する。
発表者は、図に示されるブラウザベースの専用ツールを使用してプレゼンテーションの操作を行う。まず、会議開始時に専用ツールから発表に用いるスライドファイルをサーバにアップロードする。アップロード時には発表者の氏名や所属するプロジェクト名、さらに発表のカテゴリ(サーベイレポートや研究進捗報告など)を選択する。アップロードが終了すると、会議が開始され開始時刻がサーバに送信される。発表者は専用ツール、あるいはポインタリモコンを用いてスライド操作を行う。スライドの切り替えタイミングやスライドアニメーションの表示タイミングは随時サーバに送信され、記録される。また、スライド以外の資料(デモやWebの参照)を用いてプレゼンテーションを進める場合には、資料を追加することもできる。会議終了時には、終了時間がサーバに送信・記録される。
書記は図に示されるWebブラウザベースの専用ツールを用いて議論の構造化と発言内容の記録を行う。また、録画の開始・終了の制御や、データベースへの登録作業などもこの書記ツールから行うことができる。書記ツールは前述のポインタリモコンと連動しており、発言者と発言タイプが付与されたノードが随時追加されていく。書記はこのノードを選択し、テキストを入力することで発言内容を記録することができ、議論のまとめや説明などのノードも追加できる。
2.2 ディスカッションブラウザ
前述のディスカッションマイニングシステムによって、発言者や発言内容、発言時間など議論に関する様々なメタデータを取得できる。そして、取得したメタデータを用いて効率的な議論内容の閲覧を実現することによって、議論内容のより深い理解につながり、知識活動の活性化を促すことが期待できる
議論内容の正確な把握には、映像・音声を含むマルチメディア情報を用いた閲覧が有効であると考えられる。筆者らはテキスト主体の議事録に、映像・音声情報やメタデータを組み合わせたものを会議コンテンツと呼んでいる。
マルチメディア情報には膨大な量の情報が含まれているため、閲覧目的に合わせた閲覧方法を提供する必要がある。会議コンテンツの閲覧目的は、重要な発言の再確認や自分が参加できなかった議論の内容把握など数多く存在する。このように様々な閲覧目的を包括できるような仕組みを実現するために筆者の所属する研究室ではディスカッションブラウザと呼ばれる会議コンテンツを効率的に閲覧するためのシステムの研究・開発を行っている。
ディスカッションブラウザで会議コンテンツを閲覧するときは、まず、システムのトップページに表示される会議コンテンツの一覧を見て、その中から閲覧したい会議コンテンツを選択する。システムは要求された会議コンテンツをデータベースから取得し、閲覧インタフェースを提示する。
ディスカッションブラウザは以下に示すコンポーネントから構成されている。
-
ビデオビュー
-
層状シークバー
-
議論内容詳細ビュー
-
検索テーブル
-
設定テーブル
これらのコンポーネントがそれぞれ相互に連携しながら動作することによって議論内容の効率的な閲覧を実現している。以下で、それぞれのコンポーネントの詳細について述べる。
2.2.1 ビデオビュー
議論中の様子を閲覧するためのビデオには、参加者ビデオ、発表者ビデオ、スクリーンビデオの 3種類がある。ビデオビューはこれら3つのビデオの同時閲覧を実現している(図)。また、閲覧する環境や閲覧者の要求に合わせてビデオの表示・非表示を切り替えたり、縮小された映像では確認できないスクリーンの文字などを確認するためにビデオの拡大を行うことができる。そして、再生や停止、スキップなどのビデオ操作を行うことも可能である。
このビデオビューは後述する層状シークバーや議論内容詳細ビュー上の操作と連動しており、発言単位やスライド操作単位でのスキップ再生を行うことができる。逆にビデオビューにおけるビデオの再生時間に応じて層状シークバー内のスライダーや議論内容詳細ビューの表示が変化することで、議論全体の中でどの時点を閲覧しているのかを確認することができる。
2.2.2 層状シークバー
ディスカッションマイニングシステムで取得したメタデータは、層状シークバーと呼ばれる図に示すコンポーネント内のタイムライン上に表現される。層状シークバーはスライダーと複数のバーによって構成される。
スライダーの上部には現在再生されているビデオの再生時間が表示されており、再生時間に応じてタイムライン上を移動する。また、スライダーをドラッグすると、ビデオビューにそれぞれのビデオのサムネイル画像が表示され、議論中の任意の位置にアクセスすることができる。ドラッグが終了するとその時点からビデオの再生が開始される。
層状シークバーでは、ディスカッションマイニングシステムで取得したメタデータごとにタイムライン上にバーを作成することによって、様々な視点から議論全体を俯瞰することができる。スライドバーは発表者のスライド操作を表現している。色の変わり目がスライドの切替を表しており、それぞれの箇所にマウスカーソルを合わせるとその時に表示されていたスライドのタイトルを確認することができる。また、それぞれの箇所をクリックすることによって、該当するスライドの開始時間からビデオの再生が開始される。
発表中に行われた議論の情報は議論バーに表示される。議論バーは議論セグメントを単位とするアイテムから構成されており、それぞれの議論セグメントにおける単位時間当たりの発言数によって表示される色が異なる。アイテムをクリックすると、その議論セグメント内の導入発言からビデオの再生を開始する。また、それぞれのアイテムにマウスカーソルを合わせると図のように該当する議論セグメントの概要がポップアップウィンドウに表示される。議論セグメントの概要には、その議論セグメントにおける発言者のリスト、発言者数、発言数に加え、発言に含まれるキーワードが表示される。これらの情報を手がかりに、その議論セグメントではどのような内容の議論が行われていたかを把握することができる。
ボタンバーは、発言に対して入力されたスタンスの数を表している。バーをクリックすると該当する発言の再生を開始する。賛成ボタンを多く押された発言ほど青く、反対ボタンを多く押された発言ほど赤く表示される。また、その発言に対して押された賛成・反対ボタンの情報全てを確認することも可能である。また、マーキング情報もこのバーで確認することができる。その際、ある発言に対して押された賛成・反対の情報とマーキング情報が重なってしまう可能性がある。ボタンバーの情報は、どの発言を閲覧すればいいのかを判断するための手がかりであるという観点から捉えると、賛成・反対の情報よりも個人が「重要である」「役に立つ」と判断した情報をより重視すべきである。そのため、賛成・反対・中立の情報とマーキング情報が重なったときはマーキング情報を優先的に表示する。
検索テーブル上で行われた検索の結果は検索結果バーに表示される。ディスカッションブラウザにおける検索は、スライドや発言に対して行うことができ、スライドに関する検索結果はピンク色で、発言に関する検索結果はオレンジ色で表示される。結果をクリックすると、該当箇所がスライドの検索結果ならばそのスライドの開始時間から、発言の検索結果ならばその発言の開始時間からビデオの再生を開始する。
また、発表や議論の内容を巨視的に把握するために、層状シークバーにはキーワードバーが用意されている。キーワードバーは、発表・議論に現れたテキスト情報を形態素解析することによって得られたキーワードを表示するバーである。そのキーワードが現れている箇所がスライドならば濃い緑色、発言ならば薄い緑色によって表現される。検索結果バーと同様にクリックしたアイテムに該当する箇所がスライドか発言かによって再生を開始する時間が異なる。また、キーワードバーは設定テーブルによって、表示する数を変更することができる。
2.2.3 議論内容詳細ビュー
層状シークバーによって様々な視点から議論全体の俯瞰を行った後は議論内容詳細ビューによってその詳細を閲覧することができる。議論内容詳細ビューは、議事録ビュー (図)とグラフビュー(図)の2種類のビューから構成されており、右側のタブによってどちらかのビューを選択することで、閲覧したい内容に合わせた情報提示を実現する。
議論内容をテキスト中心に閲覧するには議事録ビューを利用する。議事録ビューは、発表に用いられたスライドのサムネイルや個々の発言内容を表すテキスト情報、メタデータから構成されている。スライドのサムネイルをクリックすることによって、別ウィンドウに拡大表示され、より詳細な発表内容を確認することができる。そして、個々の発言内容には書記が入力したテキストに加え、発言者ID、発言時間、その発言に対して入力されたスタンス情報、マーキングの情報が含まれる。ユーザは、これらの情報を元にビデオの閲覧を行う。また、ビデオの再生時間に対応するスライドや発言はハイライト表示され、現在閲覧している箇所を容易に把握することができる。さらに、設定テーブルで自動スクロール機能を有効にしておくことによって、再生しているスライドや発言が切り替わった時、議事録ビューは該当するスライドや発言に自動にスクロールし、フォーカスを当てる。
議事録ビューでは、個々の発言を時系列順に表示しているため、議論を順番に閲覧することには適しているが、書記が追加したリンク関係を把握することはできない。この関係を把握しやすいグラフ形式で提示するのがグラフビューである。グラフビューは、親子関係グラフ、発言グラフ、議論グラフという 3つのグラフによって構成されている。
親子関係グラフは、ある発言を中心とする発言間の関係を表現したグラフである。グラフの中央にある発言の上下には、その発言の派生元である親発言、派生先である子発言が表示されている。最上部には中央の発言が含まれている議論セグメントの導入発言が表示されているが、もし中央の発言が導入発言であるときはひとつ前の議論セグメントの導入発言が表示される。中央の発言をクリックすることによって、その発言のビデオを閲覧することができる。また、親発言や子発言、導入発言をクリックすれば、その発言が中央に移動し、その発言の親子関係が新たに表れる。これにより、発言間の関係を容易に把握することができ、テキストだけでは理解することが困難な文脈情報の理解を促すことができる。
2.2.4 検索テーブル
検索テーブルは、あいまいな手がかりをもとに閲覧者とスライドや発言を結びつける役割を果たす。同時に、検索結果に対してインタラクティブな操作を行うことによって、閲覧目的を明確にし、より具体的な閲覧対象へと閲覧者を導く手助けを行う。
検索テーブルでは、検索を行う対象(スライドか発言、もしくは両方)、その対象が発言ならば発言者名、テキストを入力することによって検索を行う。検索例を図に示す。検索を行うと該当した件数が検索テーブルの下部に表示される。また、議事録ビューや層状シークバー内の検索結果バーの該当箇所がハイライトされる。検索テーブル下部に表示された4つのボタンによって、検索で該当した箇所を移動することができる。また、同期再生ボタンを押した状態で検索結果間の移動を行ったときは、移動した先のスライドや発言のビデオ再生を開始する。
閲覧者は、検索テーブルと層状シークバー・議事録ビューとの操作を繰り返すことによって会議コンテンツの鳥瞰的・局所的な閲覧を適切に行うことができる。従来の検索に比べ、よりインタラクティブな操作を行うことで効率的に閲覧目的を達成し、内容の理解を深めることが期待される。
2.2.5 設定テーブル
設定テーブルでは、ビデオの再生に関する設定と層状シークバー内のキーワードバーに関する設定を行うことができる。ある発言の再生が終了したときに「自動停止」が有効になっていれば、自動的にビデオの再生が停止される。また「自動スクロール」が有効になっているときは、再生している発言やスライドに合わせて議事録ビュー、もしくはグラフビューのハイライト箇所が自動的にスクロールされる。これらの設定をユーザが行うことによって、スムーズにビデオを閲覧するという目的と時間をかけて内容を閲覧するという目的の両方を満たすことができる。
「キーワード数」というテキストボックスに0から20までの数を入力することによって、層状シークバー内のキーワードバーの数を変更することができる。キーワードバーの数を増やすことによって発表・議論内容の概要の把握を、数を減らすことによって議事録ビューやグラフビューなどの表示領域が拡大され、詳細な議論内容の把握を促すことが期待される。
2.3 おわりに
本章では、ミーティングにおける活動から会議コンテンツと呼ばれる再利用可能な知識を構築するための技術であるディスカッションマイニングの詳細について述べた。また、会議コンテンツを検索・閲覧するためのシステムであるディスカッションブラウザについて説明した。本研究では、ディスカッションブラウザによる会議コンテンツの検索や閲覧をより高度にするために、ポインティングデバイスの指示情報を利用することを提案する。
3 ポインタリモコンを用いた発言中の指示対象の取得
前章では、会議内容を獲得するための手法であるディスカッションマイニングシステムと、獲得した会議内容を会議コンテンツとして検索・閲覧するためのシステムであるディスカッションブラウザについて述べた。しかし、第1章で述べたように、ディスカッションマイニングシステムにおいては発表資料と発言との対応関係を十分に取得しておらず、このような情報を検索や閲覧に利用できなかった。このような問題を解決するための方法として、レーザーポインタのようなポインティングデバイスの指示情報を用いることで、発表資料と発言の対応関係を取得するということが考えられる。
前章において、ディスカッションマイニングシステムでは、ポインタリモコンと呼ばれるデバイスを用いて、各種のメタデータの入力を行うことを述べた。本研究では、ポインタリモコンを拡張し、メタデータの入力だけでなく、スライドテキストの明示的な選択や、ユーザ情報の取得など、一般のレーザーポインタでは不可能な機能を実現した。
本章では、ポインティングデバイスによる指示情報から、発言と発表資料を対応づけることの有用性を述べるとともに、ポインタリモコンを用いて発言中の指示対象を取得する方法の詳細について述べる。
3.1 発言中の指示対象を取得することの有用性
筆者は、レーザーポインタのようなポインティングデバイスの指示情報を用いて、発言中の指示対象や、その付加情報(ポインタの使用者の情報や指示動作の開始時間・終了時間など)を取得することにより、会議コンテンツの検索や閲覧をより高度なものにすることが可能であると考えている。以下にそのような検索や閲覧の具体例を示す。
3.1.1 会議コンテンツの検索への利用
これまでのディスカッションブラウザにおける会議コンテンツの全文検索においては、スライド内のテキストおよび書記が書き起こした発言のテキストのみを利用していた。ポインタの指示対象を利用することにより、たとえば「このようなテキストをあの人が指示していたが、その発言が思い出せない」「このようなテキストをポインタで指示している発言を探したい」「表に対して言及している発言を探したい」といった、より意味的な検索が可能となる。また、指示対象を用いた検索を行うだけでなく、ポインタの使用傾向を利用した検索も考えられる。たとえば、スライド内のテキストの一部分に対して指示が行われた発言は質問である可能性が高いので、そのような発言を探す、といった検索が可能になる。
3.1.2 会議コンテンツの閲覧への利用
3.1.2.1 発言者の明確な意図の表現
会議コンテンツにおけるそれぞれの発言は、会議中に書記が書き起こしたテキストによって表現されているが、そのテキストは実時間内で記述される要約文で発言者の意図が十分に含まれていない場合がある。また、書記の知識不足によって、発言者の発話内容を十分に理解していなかったり、経験不足によって、発話内容を聞き逃した結果、正確に記述されない可能性がある。さらに、発話中の指示代名詞をすべて指示先の名詞と置き換えることは、書記に掛ける負担が大きい。そこで、レーザーポインタのようなポインティングデバイスによる指示対象とそれぞれの発言を関係づけることにより、各発言に対して、スライド内のどの部分に対して話しているのかという発言者の明確な意図を確認することが可能となると考えられる。
3.1.2.2 ミーティング全体の俯瞰
ポインティングデバイスによって取得された指示対象および、指示動作の開始時間と終了時間は、会議コンテンツ全体の俯瞰に役立つと思われる。具体的には、会議コンテンツをディスカッションブラウザで閲覧する際に、層状シークバーにおいて指示動作が行われた区間を表示し、それぞれの指示対象を確認することで、ミーティング全体で発言の指示対象がどのように推移していったのかを知ることが可能となる。
3.2 これまでの指示対象の取得の問題点
一般の会議や大学における講義などにおいてPowerPointなどのスライドを用いたプレゼンテーションを行う場合、スライドの部分を指し示すためにはレーザーポインタが用いられることが多い。そして、従来研究において、スライド画面が写されたスクリーン映像からレーザーポインタの光点座標を抽出し、その指示対象を取得することで、会議映像や講義映像の検索や閲覧に応用することが行われてきた。
しかし、レーザーポインタによる指示対象の取得には数々の問題点が存在する。
第一の問題点としては、レーザーポインタの光点座標を抽出する際に、スクリーン映像に対して画像認識を含む解析を行うため、その検出精度が十分ではないことである。また、その検出精度はスクリーンに対する座席位置や、部屋の明るさなどの環境に大きく影響される。
第二の問題点としては、レーザーポインタによる指示情報はあくまで光点の集合であり、それ以上の情報は取得できないことがあげられる。たとえば、レーザーポインタの使用者の情報を取得することはできない。すなわち、ポインタを複数の人間が同時に使用した場合であっても、それぞれの光点を区別することは困難である。その他にも、指示動作の開始時間と終了時間の情報を自動的に取得できないことがあげられる。これらの情報を用いて、検索や閲覧に対する応用は基本的にできないことになる。
第三の問題点としては、レーザーポインタによって指示を行った際に、画像認識の結果としてどの部分を指示対象と認識されたのかを、その場にいる人間が確認できない点があげられる。もし指示者の意図とは異なった部分が指示対象として認識されたとしても、そのことをその場で確認することは従来研究においてもしておらず、その場合は誤ったデータとしてデータベースに登録されることになる。データを正しく取得するためには、指示を行った結果をスライド内でハイライトするなどの方法で、その場で指示対象を提示し、修正できるようにしておくことが望ましい。また、指示対象の取得とは直接関係はないが、会議における発言中に指示対象が残せるということは、参加者にとって発言の意味内容の理解の促進という点にも有効であると考えられる。
3.3 ポインタリモコンを用いた指示対象の取得
ポインタリモコンは、前節で述べたような一般のレーザーポインタの問題点を解決した、新しいポインティングデバイスである。このデバイスを用いることによって、スライド内の対象を明確に指示することや、指示者の情報や指示動作の開始時間・終了時間の情報を自動的に取得することなどが可能となった。
3.3.1 システム構成
前章の図で示したポインタリモコンには、電源ボタン、A・B・十字ボタン、マイナス・ホーム・プラスボタン、そして1・2ボタン、計12個のボタンが搭載されている。また、赤外線LEDの光点を4点まで認識することのできるIRカメラが搭載されている。
ポインタリモコンの動作原理について述べる。ポインタリモコンにはリモコン固有のID(以降、ポインタIDと呼ぶ)を割り当てることができる。本システムではミーティング参加者それぞれに一台ずつ、ポインタIDを割り当てた専用のポインタリモコンを用意する。発表スライドが表示されるメインスクリーンの上部中央には、図下部のように、赤外線LEDを並べて輝度を高めたIRバーが設置されている。これは、ポインタリモコンでスクリーンを指示する時の基準点としての役割を果たす。また、IRバーはLEDを点滅させることでスクリーン固有のID(以後、スクリーンIDと呼ぶ)を出力することが可能である。LEDが送信するスクリーンIDは図下部に示すようなIRデコーダ(LEDが送信した赤外線を受信するデバイス)を用いて認識される。そして、ポインタIDやスクリーンID、ポインタリモコンに搭載されたIRカメラが認識したカメラ座標系におけるIRバーの光点の座標をポインタサーバに送信する。ポインタサーバは受け取った座標をサーバに接続しているクライアントにUDPパケットとして送信する。このような一連の仕組みによって、「誰が、スクリーン上のどの部分を指示しているのか」を知ることができる。
ポインタサーバは、ミーティング環境に存在するポインタリモコンのデバイスの管理と、ポインタリモコンが取得したIRバーの光点の座標情報を処理し配信する機能を持つ。図にポインタサーバのシステム図を示す。ポインタサーバとポインタリモコン間の通信はBluetoothを用いて行われる。ポインタサーバでは、ミーティング環境に存在するポインタリモコンを認識するためのディテクタと呼ばれるソフトウェアが動作しており、環境内でディテクタに登録されているポインタリモコンの電源がONになると、ディテクタが自動的に検知しポインタサーバに接続される。1台のポインタサーバに接続できるポインタリモコンの最大数は理論的には7台であるが、本システムでは転送量を考慮し1台のポインタサーバに3-5台のポインタリモコンを接続する。
先に述べたとおり、ポインタサーバに接続されたポインタリモコンは、LEDバーの光点の座標、スクリーンID、ポインタIDをポインタサーバに送信する。ポインタサーバはポインタリモコンから送信されてきた情報を接続されている全てのクライアントに対して UDPプロトコルを用いて配信する。そして、ポインタサーバから送信された座標情報やIDなどの情報を処理することによって、ポインタリモコンのポインティングデバイスとしての機能を実現している。
3.3.2 指示対象の正確な取得のための機能
ポインタリモコンにはポインティングデバイスの機能として次のような機能がある。
-
【ドット】 ポインタリモコンを向けた先に、単一の点を表示する機能。従来のレーザーポインタの機能に該当する。
-
【下線表示】 スクリーン上の任意のテキストに対して、下線を引くことで指示をするための機能。その指示対象は自動的にデータベースに登録される。
-
【矩形表示】 スクリーン上でマウスカーソル操作を行うことにより矩形領域が表示され、その矩形領域に接触するスライド内のオブジェクトをすべて選択する機能。その指示対象は自動的にデータベースに登録される。
ポインタリモコンのBボタンを押しながらAボタンを押すことで、ポインタリモコンのモードが切り替わり、それぞれの機能を使い分けることができる。以下では特に3と4の機能の詳細を述べる。
3.3.2.1 下線表示
図に示すようにスクリーン上の任意のテキストに対して、下線を引くことで指示をするための機能である。この機能は発表スライドが表示されているスクリーンに対してOCR(Optical Character Recognition)を行った結果を利用している。OCRによる認識結果は誤りを含んでいるため、スライドテキスト(発表開始前のスライドのアップロード時に解析・取得している)とのDPマッチングの結果を指示対象のテキストとしている。また、スクリーン上のスライドの表示が変更されたときに、自動的にスクリーンに対してOCRを実行し、スライド内の文字の座標を適宜計算している。したがって、OCRにより取得できるテキストであれば、それが図の中のテキストであったとしても、下線を引くための手掛かりとなる文字の座標を取得可能である。
図に示される下線表示による指示の流れを説明する。まず、図の1番目のようにポインタリモコンを向けた先に表示されるカーソルを用いて、指示を行いたいテキストの上でAボタンを押しながらなぞることによって、図の2番目のようにオレンジ色の下線が表示される。このときの状態を、仮選択状態と呼ぶ。仮選択状態では、下線表示による選択を消去してもデータベースに指示対象の情報は登録されない。すなわち、間違って選択した場合でもこの状態の段階で選択を解除すればデータベースに誤ったデータは登録されない。仮選択状態のときに、ポインタリモコンのAボタンを押すことで、図の3番目のように下線がポインタリモコン内に記録されているポインタID毎に異なる色に変化し、選択が確定された状態となる。選択が確定された状態であっても、ポインタリモコンの左右キーを用いて図の4番目のように、下線の始点および終点の変更を行うことができる。最後に、画面からカーソルを外してポインタリモコンのBボタンを押すことにより、下線が消去される。
選択が確定した下線が消去された時点で、どの発言中に、どのテキストに対して、どの参加者が下線を引いていたのかという情報が下線の座標情報、指示動作の開始時間と終了時間とともに自動的にデータベースに登録される。
3.3.2.2 矩形表示
図に示すようにスクリーン上でマウスカーソル操作をすることにより矩形領域が表示され、その矩形領域に接触するスライド内のオブジェクトをすべて選択する機能である。スライド内のオブジェクトに関する情報(オブジェクトのタイプやバウンディングボックス、スライドショーでの表示タイミング等)は、MicrosoftのCOM技術によって取得・解析し、その結果を保存して利用している。よって、この機能はPowerPointのスライドが用いられていることを前提としている。現在この機能で選択可能なスライド内のオブジェクトは、以下の通りである。
この機能では、単一のオートシェイプ(Microsoft Officeアプリケーションで利用できる、多角形や楕円、矢印等の図形)を選択できないようにしている。PowerPointによって作成されたスライドにおいては、オートシェイプを複数組み合わせて作成された図形が含まれる場合があり、図形全体に対して指示を行った場合にもそれぞれのオートシェイプについて選択されてしまうからである。よって、選択可能な図形の単位は、発表者がグループ化した単位に限定している。
図に示される矩形表示による指示の流れを説明する。まず、ポインタリモコンを向けた先に表示されるカーソルを用いて、スライド内でポインタリモコンのAボタンを押しながらマウスカーソルを動かすと、図の1番目のように矩形領域が表示される。マウスカーソル操作を終えたとき(Aボタンを離したとき)、この矩形領域に接触するスライド内のオブジェクトが、図の2番目のようにオレンジ色の矩形によってハイライトされる。このときの状態を、仮選択状態と呼ぶ。仮選択状態では、矩形表示による選択を消去してもデータベースに指示対象の情報は登録されない。仮選択状態で一定時間が経過すると、図の3番目のように、矩形の色がポインタリモコン内に記録されているポインタID毎に異なる色に変化し、選択が確定された状態となる。この状態になっても、再度同じ領域を選択することによって、仮選択状態に戻すことが可能である。選択が確定した状態で、スライド内のオブジェクト上でクリック(Aボタンを短時間押す動作)することにより、図の4番目のように、オブジェクトの追加選択および選択解除が可能である。最後に、画面からカーソルを外してポインタリモコンのBボタンを押すことにより、矩形が消去される。
選択が確定した矩形が消去された時点で、どの発言中に、どのような種類(表・図・グループ化された図形などの種別)のオブジェクトに対して、どの参加者が指示を行ったのかという情報が、指示動作の開始時間と終了時間とともに自動的にデータベースに登録される。
3.3.3 最後に消去された下線表示や矩形表示の再表示
上記の下線表示や矩形表示が消去された場合に、Aボタンを長押しすることで、その下線表示や矩形表示を各参加者が再表示するための機能である。一般に、一連の関連する発言において、導入発言でスライドに対する指示が行われていた場合、それに継続する発言では、指示対象が同じであったとしても、繰り返しその対象を選択することは稀である。すなわち、暗黙的に直前の発言の指示対象を継承するものとして、指示が行われない場合が多く、その場合は発言の指示対象は曖昧になる。この機能を用いて直前の選択を簡単な操作で再表示できるようにすることで、各発言の指示対象をより正確に取得できると考えられる。
3.4 おわりに
下線表示や矩形表示を用いることで直接スライド内情報への指示が可能なため、従来のレーザーポインタを用いた指示と比較して高精度に指示対象が取得可能である。
さらに、最後に消去された下線表示や矩形表示を再表示する機能により、従来は暗黙的に指示対象を継承していた発言について、より正確な指示対象を取得することが可能となった。
また、レーザーポインタとは異なり、各リモコンには固有のIDが付加されているため、各指示動作を誰が行ったかの情報も取得可能であり、指示動作の開始時間(選択を確定した時間)・終了時間(選択を終了した時間)も自動的に取得しているため、それらの情報を会議コンテンツの検索・閲覧に利用することが可能である。
4 指示対象の取得に関する実験と考察
本章では、提案手法の有効性を検証するために、ディスカッションマイニングシステムを用いた研究室でのゼミにおいて、参加者がポインタリモコンを用いてスライド内の対象への指示を行ったデータの収集結果を分析し、考察する。
4.1 分析・検証内容
4.1.1 ポインタリモコンによる指示方法の妥当性
発言者がポインタリモコンの機能である、下線表示や矩形表示のみで指示を行う場合、発言者の意図と合った対象を選択できるかを検証した。言い換えれば、発言者が選択したかったスライド内の部分要素が選択できたか、ということである。ここでは発言者の意図した指示対象と選択箇所が一致した場合を適切な指示と呼ぶ。適切でない指示の例として、図の部分に対して指示がしたいにも関わらず、図の全体にしか指示できなかった場合が挙げられる。
前述した下線表示や矩形表示を用いれば、テキストに関しては大半のケースにおいて適切な選択が可能であると考えられるが、図形を矩形選択で選択する場合には、選択したい箇所が選択できないケースが起こりうる。たとえば、スクリーンショットをそのまま貼り付けたような図に対して指示を行う場合に、その図の一部分に対して矩形選択で指示を行うことは不可能である。しかし、この問題は、ミーティングの発表者が指示対象となりうる単位を意識してPowerPointのスライドを作成することで、ある程度の解決が可能であると考えた。具体的には、図の一部分にキャプションをつける行為などである。今回は、発表者が指示対象となりうる単位を意識してスライドを作成した場合に、どの程度適切な指示が行われたかを検証した。
適切な指示がどの程度可能かということを検証するにあたって、ポインタリモコンによって指示が行われていない発言に関しても、本来は指示を行うべきであった発言について調査した。指示対象を含む発言において、指示を行っていないケースがあることは望ましいことではない。特に、ポインタリモコンの仕様やユーザビリティが理由で指示動作が行われなかったケースがあるのであれば、それは改善すべき点である。
4.1.2 ポインタデータと発言内容の関連性
ポインタの使用傾向から発言の意味内容が推測可能であるかについての検証を行った。
第5章で述べる会議コンテンツの検索は、ポインタリモコンにより取得できるデータ(指示対象の情報や指示者の情報、指示動作の開始時間と終了時間)をそのままクエリとして用いるものである。
しかしそれだけではなく、ポインタリモコンの使用傾向を利用することで、より高度な会議コンテンツの検索が可能であると考えられる。具体例を挙げると、「スライド内のテキストの一部分に対して指示が行われた発言は、言葉の意味や定義を要求・確認するための質問の可能性が高い」という仮説である。もしこの仮説が正しいとすれば、特定のキーワードに関する質問を伴う発言の検索に関しては、ポインタの使用傾向が有効に利用できると言える。逆に、特定のキーワードについてコメントが行われた発言を探したいとする。このような場合には、そのキーワードの意味や定義についての質問を伴う発言が検索対象となる可能性は低いと考えられる。そのような場合に、質問に該当する発言を検索結果から除外するといったことが可能となる。
今回、実際に検証した仮説は以下のようなものである。
-
「下線表示によって、スライド内のパラグラフ(PowerPointにおけるインデントの単位)の一部分に対して指示が行われた発言で、指示対象が単一のものは、質問の可能性が高い」
-
「上記の条件に加えて、導入発言であった場合は、質問の可能性が高い」
ここでいう「質問」とは、「言葉の意味や定義を要求または確認する発言」と定義する。すなわち、何かについて問いかける発言であっても、たとえば真偽や根拠を確認するような発言はここでは「質問」とは見なさない。
また、「指示対象が単一」の定義を述べる。一つの発言において指示対象は一つとは限らず、複数の指示対象を含む場合がある。例として、スライド内の二つの指示対象を比較するような発言や、二つの指示対象について順番に話している発言が挙げられる。「指示対象が単一」である発言は、そのようなものではなく、一つの指示対象に対して言及しているものと定義する。
二つの仮説のうち、一つ目の仮説はポインタリモコンによる指示情報から取得できる情報だけを用いた場合、二つ目の仮説はそれに加えてその他の取得可能なメタデータを利用した場合の仮説である。二つ目の仮説は、単純にポインタリモコンによる指示情報から取得できる情報だけでなく、他のあらゆるデータを用いることで、より詳細な発言の内容を推測できるのではないかという考えによるものである。導入の発言であるという条件を加えたのは、議論の開始となる発言は、発表者への何らかの問いかけである可能性が高いという推測からである。
4.2 実験環境
前節で述べた内容を検証するために、ディスカッションマイニングシステムを用いた研究室でのゼミにおいて、参加者がポインタリモコンを用いてスライド内の対象への指示を行ったデータを収集した。
本実験における被験者は男性11名、女性2名であり、被験者らには、ディスカッションマイニングシステムを用いてそれぞれの研究活動に関する発表・議論を計7回行ってもらった。 その際、発言の指示対象がメインスクリーン上のスライド内に存在する場合、ポインタリモコンによってそのオブジェクトを指示するように依頼した。
ディスカッションマイニングシステムを用いたゼミを行うにあたって、参加者にはいくつかのルールを課した。
4.2.1 発表者に課したルール
発表者には、ゼミにおける発表資料、つまりPowerPointによって作成されたスライドの作成方法に関して、いくつかのルールを課した。一つは図形のグループ化の方法についてである。図形を作成する際に図形全体をグループ化すると、矩形表示機能の仕様上、グループ内の要素に指示ができなくなるため、指示対象となりうる最小の要素をグループ化するように依頼した。作成されたスライドのグループ化の最小要素を揃えるために、発表の前に筆者がスライドを確認した。もう一つはビットマップイメージのような図の部分への指示を可能にするために、図に対してキャプションなどをつけることを可能な限り行うように依頼した。図にキャプションを付けたスライドの例を示す。
4.2.2 発表者以外の参加者に課したルール
発表者以外の参加者には、ポインタの使用方法についてルールを課した。ポインタリモコンによる指示方法には、ドット、ストローク、下線表示、矩形表示の4つが存在するが、今回はこの4つの指示方法のうち、基本的に下線表示および矩形表示によって指示を行うように依頼した。ドットやストロークによる指示では、指示対象を正確に取得することが困難なためである。ストロークについては、スライド上に図形や矢印などを描画する場合のみ利用するよう限定した。しかし実際には、下線表示および矩形表示のどちらでも指示できないオブジェクトも存在するため(たとえばグループ化された単位のさらに内部への指示、キャプションの付いていないビットマップイメージの一部分への指示など)、その場合にのみストロークによる指示を許可した。
4.3 評価方法
4.3.1 指示方法の妥当性の評価
4.1.1項で述べた内容について評価を行った。ゼミの参加者である被験者に、計7回分の会議コンテンツをディスカッションブラウザを用いて自らの発言をすべて見直してもらい、それぞれの発言を表1のように分類してもらった。
表1におけるポインタの使用とは、矩形表示または下線表示による指示のみを意味する。ストロークによって指示が行われた発言はE1に属する。適切な指示ができているかの評価に際しては、以下の式を評価指標とする。
-
E1,E2,E3,E4,E5:それぞれの分類に該当する発言数
-
S:総発言数
-
P:下線表示・矩形表示による指示を含む発言数
(4.1)式で表わされるR1は、下線表示または、矩形表示によって指示が行われた発言(指示の必要がなかった発言は除外)のうち、意図した範囲を選択できたケースの割合を示す。この数値が高いほど、発言者が意図した範囲を選択できている、すなわち、適切な指示ができているとする。
(4.2)式で表わされるR2は、ポインタの使い勝手の理由などから指示が行われなかった発言の割合の最大値を示す。この数値が低いほど、発言の指示対象を漏れなく取得できていると考えられる。
4.3.2 ポインタと発言内容の関連性の検証
4.1.2項で述べた内容を検証した。実験期間中に行われた発言のうち、下線表示によってスライド内のパラグラフの一部分に対して指示が行われた発言で指示対象が単一なもの(および導入発言であるもの)を抽出し、4.1.2項で述べた「質問」の定義に基づき、主観的判断に基づいて発言を分類した。
4.4 結果と考察
本研究室でのゼミにおいて、ディスカッションマイニングシステムを用いた発表を計7回行い、その期間においてポインタリモコンによる指示データを収集した。平均発表時間は2時間10分30秒、総発言数は526回、一回のゼミにおける平均発言数は75.1回、下線表示・矩形表示による指示を含む発言は78回、下線表示・矩形表示による指示を含む発言の割合は14.8%であった。
4.4.1 指示方法の妥当性の評価結果と考察
被験者に発言の分類を行ってもらった結果、表2のようになった。
この結果から、(4.1)式および(4.2)式の計算を行うと、表3のようになる。
R1の値から、下線表示や矩形表示によって指示が行われた場合には、90%に近い精度でポインタリモコンの使用者の意図に合った適切な指示ができていることがわかる。ポインタリモコンによる指示が行われた場合には、その指示対象を高精度に取得することが可能であると考えられる。
R2の値から、ポインタリモコンによって指示が行われていない発言のうち、約15%の発言(65発言)について、実際には指示対象が存在したということが言える。指示対象が存在する発言のうち、E2に属する発言(43発言)については単純に忘れていたなどの理由と考えられるが、E1に属する発言(22発言)についてはポインタリモコンの使い勝手により指示対象が取得できなかったため、これについての対策を考える必要がある。E1に属する発言者の意見として特に多かったのは、「スライド全体を指示する適切な方法がない」というものである。ミーティングの参加者が発言するときに、その指示対象がスライドの一部分ではなくて、スライド全体という広い範囲について言及するケースが起こりうるが、ポインタリモコンではそのケースについては考慮していなかった。このため、ポインタリモコンにスライド全体、さらに言えば複数のスライドに対して指示を行えるような仕組みを追加する必要性があると考えられる
E1に属する発言として次に多かったのは、下線選択や矩形表示で指示を行わずに、ストロークによって指示を行ったケースである(9発言)。現状のポインタリモコンではビットマップのような図の一部分に指示を行うことはできない。今回は発表者に図にキャプションをつけてもらうなどの工夫を行ってもらったが、それでも矩形表示で選択できないようなケースが見られた。図の一部分に対して、矩形表示で指示を行えるようにするためには、画像処理などによる方法を含めた、より詳細なスライド情報の解析が必要になると考えられる。
4.4.1.1 被験者毎のポインタリモコンの使用率
図に、被験者毎の(ポインタリモコンの使用に関わらず)指示対象を含む発言の割合と、ポインタリモコンの使用率を示す。を被験者iのE1,E2に該当する発言数、を被験者iの総発言数、を被験者iの下線表示・矩形表示による指示を含む発言数とする。
で表わされるのは、各被験者が行った発言のうち、指示対象を含む発言の割合である。で表わされるのは、各被験者の全発言のうち実際にポインタリモコンによって指示が行われた割合である。
被験者1と、被験者11を見ると、指示対象を含む発言の割合に50%以上の差がある。この結果から、被験者1はスライドの内容に具体的に言及した発言が多く、逆に被験者11はスライドの内容とは関係性の低い、一般的な内容の発言が多いことが推測される。
また、被験者7は指示対象を含む発言数と、実際にポインタリモコンによって指示が行われた発言に大きな開きがある。被験者7は、スライド全体に言及するような発言が多いために、ポインタリモコンによって指示が行えなかった可能性がある。
このような分析を行うことで、それぞれの被験者の発言傾向を推測できると思われる。
4.4.2 ポインタと発言内容の関連性の検証結果と考察
下線表示による指示を含む発言についての詳細を表4にまとめた。
単純に下線表示によって指示を行った発言の内、質問に該当した発言の割合は、55.6%(10/18)程度でしかなかったが、これに、指示対象が単一であるという条件を加えた場合、81.8%(9/11)の発言が質問に該当した。さらに、発言タイプが導入であるという条件を付け加えた場合は、100%(9/9)の発言が質問に該当した。
上記の結果から、ポインタリモコンによって取得された情報から、発言が質問であるなどの、発言の意味的内容を推測することが可能であると考えられる。このことは、会議コンテンツの検索をより高度にするために重要であると考えられる。たとえば、「○○という語を含む発言(を含む会議コンテンツ)を探したい」といった、単なるキーワードによる検索ではない、より意味的な検索が可能になる。
また、今回ポインタリモコンにより取得したデータだけではなく、その他のメタデータを組み合わせた場合のほうが良い結果が得られた。単純にポインタリモコンにより取得可能なデータのみを用いるだけではなく、たとえば、発言時間や発言タイプ、参加者の発言に対するスタンス(同意・非同意)、マーキング情報などの、ディスカッションマイニングシステムによって取得している、発言に関する様々なデータを組み合わせることで、発言のより意味的な内容やより詳細な内部構造が取得できると考えられる。
今回収集したデータ量は仮説を検証するためには、あまり十分とは言えないため、大量のデータに基づく分析については今後の課題とする。
5 指示対象の会議コンテンツの検索・閲覧への応用
第3章では、ポインタリモコンと呼ばれる新たなポインティングデバイスを用いることにより、レーザーポインタと比較して、会議中における発言の指示対象や、その指示者の情報、指示動作の開始時間や終了時間が取得可能になることを述べた。本研究では、ポインタリモコンによって取得したデータを会議コンテンツの検索・閲覧に応用した。
本章では、そのインタフェースと機能を示す。
5.1 取得したデータに基づく会議コンテンツの検索
従来のディスカッションマイニングにおける会議コンテンツの全文検索では、発表スライド内のテキストおよび書記が書き起こした発言のテキストしか利用していなかった。発言中の指示対象を利用することにより、たとえば「このようなテキストをあの人が指示していたが、その発言がいつ行われたのか思い出せない」「このようなテキストを指示している発言を探したい」「図に対して言及している発言を探したい」といった、より詳細な検索が可能となる。
ユーザは、目的の発言(あるいは会議コンテンツ)を検索するために、まず図の上部にてクエリの入力を行う。ポインタリモコンによって取得した情報を含めた、詳細な検索を行う場合は、まずクエリの入力部分右側の検索オプションと書かれたリンクをクリックする。すると、図に示されるような詳細な検索フォームが開かれる。この検索フォームにおいて、ポインタリモコンによって取得可能な情報を含めたクエリの入力を行うことができる。
具体的に入力できるクエリの項目には、ポインタの使用・未使用、使用した場合はその指示方法(下線表示、矩形表示、またはそのどちらか)、指示対象の種別(テキスト、図、表など)、指示対象がテキストの場合はそのテキスト、その指示者がある。
クエリを送信すると、図の左部分が、クエリにマッチした会議コンテンツのリストの一覧表示となる。また、そのリストの右側のアイコンをクリックすると、その会議コンテンツ内で、クエリにマッチした発言またはスライドのリストを表示する。図左に、クエリにマッチした発言のリストを表示した例を示す。
各発言のテキストは、マッチしたキーワードがハイライトされる。また、ポインタリモコンによって指示が行われた発言の場合、その使用を表わすアイコンが表示され、そのアイコンにカーソルを合わせると、その発言中にメインスクリーンに表示されていたスライドがポップアップ表示され、その時に選択された指示対象がハイライト表示される。図右にその例を示す。
図左に、クエリにマッチした指示対象を含むスライドのリストを表示した例を示す。
各スライドにおいて、マッチした指示対象がハイライトされている。このハイライトされた部分にカーソルを合わせると、同じ指示対象に対する発言のリストを確認することができる。図右にその例を示す。
各発言・スライドの右下に表示されるアイコンをクリックすると、ディスカッションブラウザによって該当する発言・スライドが含まれる会議コンテンツが表示され、該当する部分から自動的に会議映像の再生が開始される。
5.2 取得したデータに基づく会議コンテンツの閲覧
第2章において述べた、ディスカッションブラウザの議事録ビューにおいて、各発言ごとに、ポインタリモコンによって指示が行われたことを示すアイコンを追加した。このアイコンにカーソルを合わせると、その発言中にメインスクリーンに表示されていたスライドがポップアップ表示され、その時に選択された指示対象がハイライト表示される(図)。これにより、それぞれの発言に対して、スライド内のどの部分に対して話しているのかという発言者の明確な意図を確認することができる。
さらに、第2章で述べた層状シークバーにおいて、ポインタリモコンによって指示が行われた時間区間を表示する(図)。この時間区間をクリックすることにより、その指示が行われた発言を再生することが可能である。
発言ノードのポインタの使用を表わすアイコンを、議事録ビューをスクロールして順番に確認したり、層状シークバーにおいて指示動作が行われた区間を表示し、それぞれの指示対象を確認したりすることで、ミーティング全体で発言の指示対象がどのように推移していったのかを知ることが可能となる。
その他の機能として、議事録ビューのスライドサムネイル上において、指示が行われたすべての対象がハイライト表示されており、その部分にカーソルを合わせると、その部分に対して指示が行われた発言が表示される(図)。
これにより、議事録ビューにおいて表示されているそれぞれのスライドサムネイルを見て、「このスライド内のこの部分に対して指示している発言を見る」というような閲覧が可能である。
5.3 おわりに
本章においては、第3章で述べたポインタリモコンによって取得した、発言中の指示対象や指示の開始時間・終了時間などのデータを利用して、会議コンテンツの検索・閲覧を行うインタフェースについて述べた。
従来の会議コンテンツの検索では、発表スライド内のテキスト、および書記が書き起こした発言のテキストのみを利用していたが、ポインタリモコンにより取得された情報を用いることで、あるテキストに対して指示している発言を探すといった、より詳細な検索が可能となった。
また、会議コンテンツの閲覧では、発言ごとに指示対象によって発言者の明確な意図を確認でき、シークバー上で指示が行われた区間を表示することで、ミーティング全体を俯瞰するような閲覧が可能となった。
6 関連研究
本章では、「スクリーン上の指示対象の取得と応用」および「会議における議論内容の記録」の2つの観点において、本研究と関連する研究について述べる。
6.1 指示対象の取得と応用に関する研究
6.1.1 レーザーポインタ指示情報に基づく会議コンテンツの協調的提示手法の提案
大平らは、ディスカッションマイニングシステムにおいて、プレゼンテーション資料が表示されたスクリーン映像を記録するカメラと、レーザーポインタ検出用のカメラを利用することで、レーザーポインタの指示対象を取得し、会議コンテンツに含まれる、スライド情報、発言者名、発言テキストと、レーザーポインタの指示対象を、映像の再生に合わせて同期的に提示する手法を提案した。しかしながら、レーザーポインタの指示対象の取得には、検出精度がスクリーンに対しての座席位置に影響されるという問題や、指示動作の開始時間・終了時間の正確な値が取得できないといった問題があった。本研究では、ポインタリモコンという新たなポインティングデバイスを開発することで、これらの問題を解決している。
6.1.2 UPRISE
UPRISEは、教育コンテンツの統合、蓄積、および統合コンテンツに対する高度な検索機能を実現するシステムである。UPRISEでは、動画ストリームを資料スライドの切り替えタイミングによってシーンという単位に分割し、各シーンとそこで使用された資料スライドを対応づけることでそれらを統合する。また、各シーンに対して、対応する資料スライドの文字・構造情報、シーンの時間等の情報から検索用インデックスを作成することで、高度な検索を可能にしている。これに加えて、シーン検索精度を向上させるために、講師が用いたレーザーポインタの照射情報に着目し、その情報を統合した、より高度な検索を実現する手法を提案している。この研究においては、その指示対象および検索のクエリとして利用されるのはテキストのみであり、その指示対象はスライド資料中の行単位に限定している。また、テキストに対するレーザーポインタの照射情報を取り出すために、図や表を説明する際に補助的に用いるものや、複数の対象間の関係を示すものをフィルタリングにより取り除いているが、本研究においてはフィルタリングの必要はなく、行中の単語、行全体、図などの指示対象を正確に取得可能である。
6.1.3 講義における教材中の指示対象の抽出
遠隔講義や講義アーカイブにおいて、映像やスライドの組み合わせによって提供されるコンテンツを講義コンテンツと呼ぶ。講義コンテンツの利用者からの要求として、コンテンツ中の映像を見るときに講師が指示しているときの指示対象を知りたい、またアーカイブを検索するときにスライドのページ単位のような大まかな単位でなくスライド中の重要な語句や図といった講師が指示を行う個々の領域の単位で検索したい、などがある。そこで、この研究では、指示棒先端の軌跡・講師の体の位置・講師の体の向きと指示動作との関係を整理し、それに基づきセンサ情報から自動で表示スライド内の指示対象を抽出する方法を提案している。抽出した指示対象を用いることで、講師の撮影時に指示対象を捉えるようカメラを移動させたり、講義コンテンツの重要部分を検索するときに指示対象に基づいて行うことを目指している。この研究では、強調表示のように基本的に100%の成功率が要求されるような用途に関しては、本手法の指示対象の抽出精度が十分ではないため、抽出精度の向上を今後の課題としている。本研究においては、ポインタリモコンによる指示対象は会議中にも強調表示され、その指示対象は適宜修正が可能であるため、このような用途にも十分に利用可能であると考えられる。
6.2 議論内容の記録に関する研究
6.2.1 TimeMachineBoard
石戸谷らは、会議の中でも目的・時間・場所・議題を問わず行われている少人数対面同期型の手軽な会議に着目し、それをカジュアルミーティングと総称して、その支援技術の研究を行っている。この研究では、カジュアルミーティングで行われる議論を柔軟に検索・再利用できる、TimeMachineBoardと呼ばれる、複数ディスプレイ環境に対応したカジュアルミーティングシステムを実現している。TimeMachineBoardでは、ホワイトボードの替わりに大型ディスプレイを利用してミーティング中の参加者に情報を提示し、ペンストローク・テキスト・イメージの位置や内容を編集できるようにすることで、会議参加者の議論内容の理解を支援している。また、本研究と類似した方法で、画面に表示されているディスプレイオブジェクトを選択して,移動・拡大縮小したり、アンダーラインを引くことができる。本研究においては、発表資料としてスライドを用いて特定の発表者が発表を行い、他の参加者が質疑を行う形式の会議を対象としているため、カジュアルミーティングよりも、事前に入念に準備された会議を対象としている。
6.2.2 ReSPoM
ReSPoMは、会議中に書かれるメモから、会議の様子を記録した一次記録の検索を行うシステムである。ReSPoMではマイクと液晶タブレットを用いて会議を行うことで、音声情報とメモ情報を自動的に記録する。その際リアルタイムに行われている発話情報とメモ情報間に記録用インタフェースを用いてリンク情報を付与する。そしてこのリンク情報をもとに検索用インタフェースを用いて会議中に使用した資料やメモ、発話の再生を行う。ReSPoMにおいては、発話情報とメモ情報について、明示的にリンクを記録している。本研究では、ミーティング中のポインティング動作から発言と発表資料間の関係を記録しているため、参加者に意識させることなく発表資料の部分と発言間のリンク情報を取得可能である。
7 まとめと今後の課題
7.1 まとめ
筆者の所属する研究室では、ディスカッションマイニングと呼ばれる、複数の人間の知識活動の場であるミーティングでの活動から、再利用可能な会議コンテンツを作成する技術の研究を行ってきた。本研究では、ディスカッションマイニングにおいて、新たに開発したポインティングデバイスであるポインタリモコンを用いて発言中の指示対象の情報を取得し、それを利用することで、会議コンテンツの検索・閲覧をより高度にする手法の提案を行った。
検索や閲覧をより高度にするための一つの方法として、ミーティングの参加者のポインティングデバイスによる指示情報を利用することが有効であると考えた。検索に関しては、たとえば「このようなテキストをあの人が指示していたが、その発言が思い出せない」といった、より詳細な検索が可能となる。閲覧に関しては、たとえば、各発言に対して、スライド内のどの部分に対して話しているのかという発言者の明確な意図を確認することが可能となる。
しかし、従来行われていたレーザーポインタによる指示情報の取得には、いくつかの問題があった。一つは、検出精度がスクリーンに対しての座席位置(照射角度)などの環境に影響されるという問題である。また、指示動作に付随する情報が取得できないこと、たとえばレーザーポインタの使用者の情報が取得できない、指示動作の開始時間・終了時間の正確な値が取得できないといった問題があった。そのため、これらの情報を利用した、会議コンテンツの検索や閲覧はきわめて困難であった。
この問題を解決するため、スライド内のオブジェクトの明示的な選択や、指示者の識別、指示動作の開始時間・終了時間の取得が可能な、新しいポインティングデバイスであるポインタリモコンを開発した。このデバイスが新たに実現した主な機能は次の二つである。一つは下線表示と呼ばれる機能で、スライド内の任意のテキストに対して、下線を引くことで指示を行う。もう一つは、矩形表示と呼ばれる機能で、スクリーン上でマウスカーソル操作を行うことにより矩形領域を表示し、その矩形領域に接触するスライド内のオブジェクトをすべて選択することで指示を行う。この機能により、グループ化された図形、JPEGやBMPなどのイメージ、表、グラフを指示することができる。指示者の情報や指示対象の情報は、時間情報と共に、データベースに登録される。
また、ポインタリモコンの有効性を確かめるために被験者実験を行った。まず、ディスカッションマイニングシステムを用いた研究室でのゼミにおいて、参加者がポインタリモコンを用いてスライド内の対象への指示を行ったデータを収集した。このデータを分析することで、ポインタリモコンによる指示方法の妥当性、ポインタデータと発言内容の関連性を確かめた。その結果、高精度にスライド内の対象を指示できることや、ポインタデータから発言の意味的内容を推測することが可能であることを示すことができた。
さらに、取得した発言中の指示対象を利用した会議コンテンツの検索・閲覧を実現した。検索に関しては、たとえば「このようなテキストをあの人が指示していたがその発言が思い出せない」といった状況で、指示対象の情報や指示者の情報をクエリとした検索が可能となった。閲覧に関しては、たとえば、ミーティング中の各発言について、スライド内のどの部分に対して話しているのかという明確な意図を確認することが可能となった。
7.2 今後の課題
7.2.1 図の部分要素に対しての指示
本研究では、ポインタリモコンの機能の一部である下線表示や矩形表示を利用することによって、発言中の指示対象、特にスライド内のテキストや図形に対する指示をより正確に取得可能となった。しかしながら、ビットマップイメージやグラフなどへの指示に関しては問題がある。矩形表示では、基本的にイメージの部分要素に対しての指示はできず、イメージ全体に対してしか指示ができない。この場合は、指示対象を正確に取得することは困難である。
解決法として、イメージをより細かい単位に分解する、図中に細かくキャプションを付けるなど、発表者がスライドの作成方法を工夫することにより、ある程度この問題を解決できると考えられる。理想的には、機械的にそれらの部分要素に対しての指示を可能にすることが望ましいが、そのためには、画像処理などによる、より詳細なスライド情報の解析が必要になると思われる。
7.2.2 長期的な運用に基づく評価
今回の研究で分析を行ったポインタデータは、約1ヵ月間、計7回のミーティングによって取得した。ポインタデータを分析するにあたっては、この期間と回数はあまり十分ではないと考えられる。より詳細なデータの分析を行うためには、年単位にわたる長期的なデータの収集が必要になると考えられる。
7.2.3 書記テキストの指示語と指示対象の関連付け
ポインタリモコンによる指示が行われた発言の内容を書記がテキストに書き起こす場合、その指示対象の内容が書記テキストにおいては「ここ」や「その」といった指示語によって表現されていることがある。書記テキスト内の指示語と、ポインタリモコンによって指示されたものを結びつけることによって、より発言の意味的な内容を表現できると考えられる。
7.2.4 会議中におけるポインタ情報の有効活用
本研究では、ポインタリモコンにより取得できる指示対象などの情報を取得し、会議コンテンツの検索や閲覧に応用することが主な目的であった。そこで、会議の終了後に、いかにポインタリモコンによって取得された情報を有効に活用できるかという点について論じた。
今回は会議中におけるポインタリモコンの有効活用に関してはほとんど論じていないが、ポインタリモコンの利用が、会議そのものの活発化、参加者の理解の促進などにつながる可能性があると考えている。たとえば、レーザーポインタと違い、ポインタリモコンによる指示は、その対象を強調表示しておくことが可能である。このことは、発言者が今、何について話しているのかということを他の参加者が理解するために有効であると考えられる。
謝辞
本研究を進めるにあたり、指導教員である長尾確教授、大平茂輝助教には、研究の心構えなど基礎的なことから、ゼミなどを通しての貴重な御意見、論文執筆に関する御指導等を賜り、大変お世話になりました。心よりお礼申し上げます。
本研究を進めるにあたり、指導教員である長尾確教授には、研究に対する姿勢や心構えといった 基礎的な考え方から、研究に関する貴重な御意見、論文執筆に関する御指導など、大変お世話になりました。 心より御礼申し上げます。
ディスカッションマイニングプロジェクトのリーダーである土田貴裕さんには、実装や論文執筆、研究生活におけるご指導など、様々な面で大変お世話になりました。深く感謝いたします。
石戸谷顕太朗さんには、研究生活全般やプログラミングに関するご指導など様々な場面でお世話になりました。深く感謝いたします。
木内啓輔さんには、同じプロジェクトの一員として、研究に関する意見や、研究生活におけるアドバイスをいただきました。ここに感謝いたします。
安田知加さん、森直史さん、井上泰佑さん、山本圭介さん、小幡耕大さんには、ゼミ等での貴重な御意見など、研究に関する様々なアドバイスや御指導を頂きました。ここに感謝いたします。
岸佳奈恵さん、笠嶋公一朗さんには研究生活など様々な場面において協力して頂きました。ありがとうございました。
長尾研究室秘書の鈴木美苗さんには、学生生活や研究活動のための様々なサポートを頂きました。ありがとうございました。
最後に、影ながら見守っていただき、日々の生活を支えてくださった両親にも感謝の気持ちをここに表します。ありがとうございました。