部分引用の管理に基づくWebコンテンツのマッシュアップ
1 はじめに
近年,Web上に存在するビデオや音楽などのコンテンツの増加に伴い,それらの検索・推薦・変換を行う研究が進められている.また複数の技術やコンテンツを複合させて新しいサービスやコンテンツを形成するマッシュアップは,既存のコンテンツを再利用し,コンテンツの価値を高める手法として注目されてきている.
様々な種類のコンテンツを組み合わせるためには,関連性の認められるコンテンツ同士を選出することが必要となる.そこで我々は,Nelsonらもその重要性を指摘する引用情報に着目した.あるコンテンツ内で同時に引用される複数コンテンツ間には明らかな関連性を認めることができる.これらのことから,引用・被引用情報をコンテンツマッシュアップに利用することが有効であると考えられる.
また近年ブログやビデオ投稿システムなど,消費者がコンテンツを作成し投稿するCGM(Consumer Generated Media)が盛んになってきており,今後Web 上のコンテンツの多くはCGMサービスによって管理されることになると予想される.しかし現在CGMで管理されるコンテンツは引用・被引用を行うために十分な機能を備えていない.
そこで本稿では,CGMサービスが,コンテンツの任意の箇所の部分引用を可能にし,その引用・被引用情報を扱うことを支援するために,任意のコンテンツに対する引用情報の管理を行うプラットフォームAnnphonyを構築した.また引用先のCGMサービスとしてブログに,被引用対象のCGMサービスとしてビデオ共有システムSynvieと認知科学辞典システムに本プラットフォームを適用し,ブログで同時引用されるビデオと辞典を組み合わせたマッシュアップコンテンツを自動生成する仕組みを開発した.
2 Annphony
コンテンツ間の引用情報を扱うためのプラットフォームとして,Annphonyを構築した.
本プラットフォームは,コンテンツの部分引用を扱うために,任意のコンテンツの内部を指し示す形式であるElementPointerを採用した.ElementPointerでは,コンテンツの種類に応じてそのコンテンツの内部を指し示すためのElementPointer定義を別途用意し,その定義に基づきコンテンツの部分をURIとして記述する.ElementPointerは以下の形式をとる.
[C]#epointer([S](([P1],arg1),([P2],arg2)...))
コンテンツのURIである[C]に続き,以降にフラグメント識別子としてコンテンツのどの部分を指し示すかを記述する.本手法では,コンテンツの内部は,[S] で表されるElementPointer定義のURI以降に,[P]で表される有限個のプロパティのURI とその値を列挙することにより指し示される.実際にはフラグメント識別子はURIとしての妥当性を保つため,URLエンコーディングを行う.ElementPointer 定義はRDF(Resource Description Framework)のスキーマ言語であるRDFS(RDF Schema)によって記述される.
本形式により,「MIDIのチャンネル1における,楽曲開始後10秒から20秒までの時間範囲」や,「あるビデオ映像の特定オブジェクトの写っているシーン」など,様々なコンテンツの部分を指し示すことが可能になる.また本プラットフォームは,ElementPointer定義を管理し,さらにどのコンテンツが,どのコンテンツを引用しているかという情報をRDF形式で保存し,検索することができる機能を備える.
3 AnnphonyのCGMサービスへの適用
今後Web 上のコンテンツの多くはCGMサービスによって管理されることになると予想されるため,AnnphonyをCGMサービスに適用することで,様々なコンテンツ同士を引用し合うことを可能にした.
被引用対象のCGMサービスとしてビデオ共有システムSynvieとオンライン辞典システムである認知科学辞典にAnnphonyを適用した.コンテンツの種類はCGMサービスによって異なるため,コンテンツ内部を指し示すElementPointer の定義はCGMサービスごとに用意した.ビデオ共有システムではビデオの時間区分を指し示すためには,開始・終了時間が必要であるため,その旨をElementPointerの定義に記述した.またオンライン辞典システムの各専門用語は,文書の言語構造を表現するための言語であるGDA(GlobalDocument Annotation)形式で保持されているため,単語・文節・文など,文書の論理構造に基づく部分を指し示すための定義を記述した.
また引用元となるCGMサービスとして,ブログを採用した.ブログシステムにAnnphonyを適用し,ブログにビデオや辞典などの他のコンテンツを部分引用した記事を投稿する際に,その部分引用の情報をAnnphonyに保存する.図はブログにおいてビデオ・辞典を引用した記事を投稿した画面例である.図では,ビデオの詳細な解説として,専門用語を辞典から引用している.このように同時に引用されるビデオと辞典には明らかな関連性を認めることができる.
4 ビデオ用例付き辞典システム
Webコンテンツを用いてマッシュアップコンテンツを自動生成する例として,オンライン辞典システムを拡張し,ビデオ用例付き辞典システムを構築した.本システムでは,各専門用語の項に,ブログにおいて同時引用された,用例の一つと見なされるビデオを提示することで,その専門用語の理解を深めることができる.
キーワード検索の要求を本システムが受け取ると,まずオンライン辞典システム・ビデオ共有システムに対して,検索要求のキーワードが存在する辞典の項目・ブログエントリを検索する.次にそれらがブログにおいて過去に同時引用されているかを検索し,同時に引用されたことのあるビデオの一部と辞典項目の一部の組を列挙する.またブログに対してもキーワード検索を行い,検出されたブログエントリ内で同時引用されているビデオの一部と辞典項目の一部の組を列挙する.
こうして列挙されたビデオの一部と辞典の項目の一部の組を用い,辞典の項目の中に,同時引用されたビデオの一部へのリンクを埋め込む.図はビデオが埋め込まれた辞典の項目の例である.辞典の項目中に,具体的な例であるビデオを埋め込むことで,その項目をより深く理解することができる.
このように同時引用の情報を用いることにより,ビデオ,オンライン辞典の項目といった異種類のコンテンツ同士を結びつけてマッシュアップを行うことで,新しい意味を持ったコンテンツを作成することが可能である.
5 おわりに
本稿では,Webコンテンツのマッシュアップを行うために,任意のコンテンツに対する部分引用と,その引用・被引用情報の管理のためのプラットフォームAnnphonyを複数のCGMサービスに適用し,ビデオ用例付き辞典システムを開発した.今後はさらに多くのCGMにAnnphonyを適用することで,様々なコンテンツを組み合わせることのできる環境を整備する予定である.