■概要
TRECは米国国立標準技術研究所(NIST)が主催する国際的な評価ワークショップであり、映像やテキストを対象とした検索技術の性能を世界規模で比較・検証する場です。今回参加したTREC 2025の映像検索部門(Ad-hoc Video Searchタスク)は、140万を超える映像の中から、複雑な文で与えられた検索クエリに最も関連する映像を見つけ出すという、極めて難易度の高い課題でした。
■成果について
視覚言語モデル(VLM: Vision-Language Model)を活用し、映像内容の深い理解とテキストクエリとの意味的対応を高精度に評価する仕組みを導入。従来技術を大幅に上回る検索精度を実現しました。その結果、植木研究室は、映像検索部門(Ad-hoc Video Searchタスク)において、140万本以上の映像から複雑な自然言語クエリに最も関連する映像を検索するという難易度の高い課題に挑戦。提出された29システムの中で、4つのシステムが1位から4位を独占しました。
■植木一也准教授コメント
映像検索技術については、10年以上にわたり検索精度の向上にこだわって研究を続けてきました。当初は簡単なキーワードによる検索が中心でしたが、現在では複雑な文章を入力しても高い精度で映像を検索できるようになっています。一方で、精度を追求するあまり、検索速度やユーザーインターフェースの改良には十分に取り組めていませんでした。
今後は、ユーザーが実際に使いやすい実用的なシステムの開発にも力を入れていきたいと考えています。これまでの研究成果を活用することで、安心・安全を支えるリアルタイム映像監視技術や、教育・医療・産業などの他分野への応用を進めるとともに、企業との共同開発を通じた実用化にも取り組んでいきます。