株式会社KDDI総合研究所 このページを印刷する

コンピュータビジョン分野の最難関国際学会ICCV2023に論文が採録

2023年9月29日
株式会社KDDI総合研究所

KDDI総合研究所とスタンフォード大学Jure Leskovec(ジュール レスコベック)教授の研究グループとの共同研究において、人が有する共通概念に関する情報を導入することで、AIによる明確な判断根拠に基づく高精度な画像理解を目指した、マルチモーダルな画像解析手法に関する研究論文(以下、本論文)が、コンピュータビジョン分野の最難関国際学会である「ICCV2023(注1)」に採録されました(論文採録率 26.2%:ICCV2021実績、2023年10月2日-6日発表予定)。

 

【研究概要】
AIの活用において、従来の画像認識技術では、見たままの視覚情報のみから画像の内容を理解することがほとんどで、例えば人物が置かれた状況や意図のような、画像内の状況理解までを高精度に推定することはできませんでした。また、画像認識に大規模言語モデル(LLM:Large Language Model)で得られた言語に関する大規模な知識(言語知識)を連動させる高度な画像解析を実現するアプローチも検討されていますが、事実と異なるもっともらしい情報を生成してしまうハルシネーション(注2)が課題の一つと言われています。
本論文では、画像内の状況理解をより高精度に可能とするため、LLMが事前学習した言語知識に加え、画像内の物体間の関係性を構造化した「シーングラフ」と、それらの物体に関する共通概念を抽出して構造化した「知識グラフ」を双方向に融合させたマルチモーダル知識とを活用したグラフニューラルネットワークによる推論手法(以下、本手法)を提案しました。本手法を用いて、視覚情報に基づいた常識推論タスクであるVCRタスク(注3)を行い精度評価を実施した結果、より正確な状況理解とその判断根拠を説明できることが示されました。また本手法では、明確な判断根拠を提示できるため、ハルシネーションの発生を低減することが期待されます。
今後は、本論文の知見をベースに取り扱うモダリティの種類を拡大し、解析対象を動画へ拡張することなどで、AIと人との自然で高度なコミュニケーションの実現に取り組んでいきます。

 

【原著論文情報】
Yanan Wang, Michihiro Yasunaga, Hongyu Ren, Shinya Wada, Jure Leskovec. “VQA-GNN:Reasoning with Multimodal Knowledge via Graph Neural Networks for Visual Question Answering”, International Conference on Computer Vision (ICCV 2023). 

 

なお、今回の成果は、KDDI総合研究所が進める海外最先端の研究者との共同プロジェクトによるもので、これまでVCRタスクで世界1位の精度を達成しています(2022年4月8日時点)。

 

2020年10月26日
海外最先端の研究者との共同研究プロジェクトの開始
~次世代社会構想KDDI Accelerate 5.0の実現に向けて~

 

2022年4月18日
視覚常識推論(VCR)タスクで世界1位を達成

 

<KDDI総合研究所の取組み>
KDDIとKDDI総合研究所は、2030年を見据えた次世代社会構想「KDDI Accelerate 5.0」を策定し、その具体化に向け、イノベーションを生むためのエコシステムの醸成に必要と考えられる「将来像」と「テクノロジー」の両面についてBeyond 5G/6Gホワイトペーパーにまとめました。両社は新たなライフスタイルの実現を目指し、7つのテクノロジーとそれらが密接に連携するオーケストレーション技術の研究開発を推進します。今回の成果は7つのテクノロジーの中の「AI」に該当します。KDDI総合研究所は2022年4月よりHuman-Centered AI 研究所を設立し、人とAIが共生し、インタラクションを通じて共に成長する技術の研究開発を推進しています。

 

 

 

(注1)International Conference on Computer Vision(ICCV 2023)

(注2)ハルシネーション
生成AIにおいて、事実とは異なる内容や脈絡のない文章などが生成される現象。実際には存在しないものが見えたり、聞こえたりすることになぞらえて、ハルシネーション(幻覚)と呼ばれます。
(注3)Visual Commonsense Reasoning
ある画像に関する質問と回答の選択肢が与えられたときに、それらに関する正しい選択肢を選ぶことに加えて、その選択肢を選んだ根拠を同時に答えるタスク。

 

※ニュースリリースに記載された情報は、発表日現在のものです。 商品・サービスの料金、サービス内容・仕様、お問い合わせ先などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。