半自動ビデオアノテーションとそれに基づく意味的ビデオ検索

山本大介

名古屋大学工学部電気電子・情報工学科

長尾確

名古屋大学情報メディア教育センタ

1 はじめに

近年Webページをはじめ、さまざまな情報検索が頻繁に行われている。しかしながら、ビデオコンテンツに対するWeb検索はいまだ実用化されているとは言い難い。ビデオコンテンツに対する検索にはさまざまな手法が存在するが、ビデオコンテンツを全自動で解析した結果に基づいて検索する場合、精度の観点からきわめて不十分である。検索の精度を十分に実用的なレベルに引き上げるためにはビデオコンテンツに検索や変換・編集等に有効な意味内容記述をなんらかの方法により付加する必要がある。そこで、コンピュータによるビデオコンテンツの自動解析を行い、人間がその解析結果を効率よく修正・補完できるツールを作成した。さらにそのツールを使用して得られたアノテーションデータに基づいて、高度な意味的ビデオ検索をWebブラウザを用いて自然言語で行うシステムを試作した。

将来的にはMPEG7への対応も考えている。

2 ビデオアノテーションエディタ

本研究で作成したアノテーションツールをビデオアノテーションエディタ（以下VAEと略す）と呼ぶ。長尾らが作成したバージョンのVAEをベースに新たに作り直した。 VAEは動画像に対してカット検出、オブジェクトトラッキング、シーンおよびオブジェクトへのアノテーション、音声認識を用いたトランスクリプトの作成、 XMLデータ出力等が行えるツールである。

主要な機能として以下のものを備えている。

カット検出

カット検出は、RGB空間を4096分割したカラーヒストグラムを用いて各画素の絶対値差分の合計がある閾値以上になれば新たなカットであると認識している。
オブジェクトトラッキング

オブジェクトトラッキングダイアログ(図) を利用しておこなう。アルゴリズムは、矩形範囲をキー画像として、テンプレートマッチングを行っている。トラッキングしたオブジェクトの始めの画像と終わりの画像・さらにその前後 0.1秒の画像を表示し、トラッキングが成功しているかどうか、一目でわかるように工夫してある。また、手動での修正も可能である。

また、MPEGコンテンツはランダムアクセスが遅いために、 3秒ごとに動画をメモリ上に展開し処理を行った。
複数選択式アノテーション

あらかじめ、アノテーションに対する3つの定義ファイル(オブジェクトの属性を定義するobjectDefinitions.xml, オブジェクトの動作を定義するmotionDefinitions.xml, シーンの状況を定義する sceneDefinitions.xml)を用意し、それぞれプルダウンメニューを選択することにより意味内容を記述する。複数の項目を同時に選択することにより、より複雑な状況も記述可能である。また、ユーザが独自にこれらのXML定義ファイルを拡張することも可能である。

XML定義ファイルには、新たな項目を作るだけでなくその項目の説明をする必要がある。RDFスキーマなどグラフ構造を用いた定義の表現方法が存在するが今回はより簡略かつ検索に使いやすいように、新しい項目に関するさまざまな同義語(日本語、英語を含む)を列挙することにした。この方式ならば、手軽に項目追加が可能であるし、検索時に完全一致、あるいは、部分一致が容易であると考えられるからである。
音声認識

IBMの音声認識ソフトViaVoiceを使って音声認識を行う。その音声が発話された時間区間の自動抽出も行う。認識結果の修正機能も備えている。
階層構造の表現とシーンの重要度の推定

文章などと同様に映像にもカットを単位とした階層構造が存在し、半自動的にアノテーションすることが可能である。類似カットのつながりを類似度に応じて自動的にグルーピングすることができる。類似度は、ヒストグラム、シーンの長さ、音声などを考慮して実現可能である。また重要度をシーンの長さとアノテーションのデータ量に応じて上げる試みもしている。
XML出力

記述内容の拡張性とWebベース検索の容易性を考慮し XMLファイルによる出力を採用した。

3 自然言語による意味的ビデオ検索

VAEによって作られたXMLアノテーションデータを、 Webブラウザを用いて検索するシステム(図)をJava Servletと XMLデータベースを用いて試作した。検索は、自然言語入力によって行っている。アルゴリズムとしては以下のようになる。

検索キーワードから茶筅を用いて、形容詞・動詞・名詞を取り出す。
形容詞から色にあたる単語（たとえば、赤い・黒い・青い・暗い・明るい等）がある場合はシーンもしくはオブジェクトのヒストグラムも利用して検索結果を絞りこむ。このとき、色にあたる形容詞にかかる名詞が「場面」「光景」「風景」「シーン」「画面」等の場合はシーンについて語っている可能性が高く、それ以外の場合はオブジェクトに関する場合が高いのでそれに応じて点数をつける。また、これ以外の名詞・形容詞・動詞は、アノテーションデータに記述されたテキスト情報もしくは、選択式アノテーションによりつけられた記述との部分もしくは完全一致により点数をつける。
オブジェクトもしくはシーンを点数順に並び替え、順位づけされた検索結果をユーザーに提示する。

図1: ビデオの検索画面例

4 終わりに

今回は、ビデオコンテンツに対するアノテーションツールと、自然言語による検索ツールを試作した。従来難しいと思われていた自然言語によるビデオコンテンツ検索が、アノテーションを併用することにより比較的容易になることを示した。これにより、ユーザはGoogleと同様の感覚で動画像データを意味的に検索できるようになる。

参考文献

[1] MPEG, Mpeg-7, http://ipsi.fraunhofer.de/delite/Projects/MPEG7/, 2002

[2] Katashi Nagao,Shigeki Ohira,Mitsuhiro Yoneoka, Annotation-based multimedia summarization and translation., In Proceedings of the Nineteenth International Conference on Computational Linguistics(COLLING-2002), 2002

[3] W3C, Resource descriotion framework(rdf), http://www.w3.org/RDF/, 2001

[4] 西尾章治朗,田中克巳,上原邦昭,有木康雄,加藤俊一,河野浩之, 情報の構造化と検索, , 2002