先端技術研究所

視覚常識推論（VCR）タスクで世界1位を達成

2022年4月18日
株式会社KDDI総合研究所

2022年4月8日、KDDI総合研究所はスタンフォード大学Jure Leskovec（ジュールレスコベック）准教授の研究グループと共に、世界有数の企業や大学が参加するAIを活用した常設コンペ「視覚情報に基づいた常識推論（Visual Commonsense Reasoning 、以下「VCR」）」（注1）タスクで世界1位の精度を達成しました。

VCRリーダーボードの順位
（VCRリーダーボードの HPから）

【今回の成果】
VCRは、従来の画像認識技術を超えた、人の共通の概念や判断根拠を推論可能とするAIシステムの実現を目的としたデータセットです。VCRを使ったタスク（VCRタスク）において、AIシステムは、ある画像に関する質問と回答の選択肢が与えられたときに、それらに関する正しい回答を導き出すことに加えて、その回答を導いた根拠を同時に提供する必要があります。

VCRタスクの例
（VCRの HPから）

KDDI総合研究所はスタンフォード大学と共に、画像情報と人の共通概念を融合することで、VCRタスクに対して、より確からしい答えとその判断根拠を導き出す手法（以下「本手法」）を開発しました。本手法により、与えられた画像に対する質問文から正しい答えと判断根拠を導くVCRサブタスク（Q→AR）において、世界1位（注2）の精度となる74.3%を達成しました。

なお、今回の成果は、KDDI総合研究所が進める海外最先端の研究者との共同プロジェクトによるものです。

2020年10月26日
海外最先端の研究者との共同研究プロジェクトの開始
～次世代社会構想KDDI Accelerate 5.0の実現に向けて～

【今後の展望】
今後は、人の共通概念を兼ね備えたAIシステムやロボットなどの実現に向け、対象とする視覚情報を画像から動画へ拡張するとともに、アルゴリズムのさらなる高度化と適用領域拡大に向けた汎用化に取り組んでいきます。

<KDDI総合研究所の取組み>
KDDIとKDDI総合研究所は、2030年を見据えた次世代社会構想「KDDI Accelerate 5.0」を策定し、その具体化に向け、イノベーションを生むためのエコシステムの醸成に必要と考えられる「将来像」と「テクノロジー」の両面についてBeyond 5G/6Gホワイトペーパーにまとめました。両社は新たなライフスタイルの実現を目指し、7つのテクノロジーとそれらが密接に連携するオーケストレーション技術の研究開発を推進します。今回の成果は7つのテクノロジーの中の「AI」に該当します。KDDI総合研究所は2022年4月よりHuman-Centered AI研究所を設立して人とAIが共生し、インタラクションを通じて共に成長する技術の研究開発を推進します。

<スタンフォード大学 Jure Leskovec研究室（SNAP）（注3）の取組み>
SNAP研究室では、複雑なネットワーク、グラフなどの構造化データを対象とした機械学習によるモデリング技術に関する研究を行っています。細胞内のタンパク質の相互作用からソーシャルインタラクションに至るまで、あらゆるスケールのシステムに適用可能な機械学習手法の確立を目指し、常識推論、レコメンドシステム、ソーシャルサイエンス、創薬など幅広い分野に取組んでいます。

（注1）Visual Commonsense Reasoning
（注2）101エントリー中、第1位。（2022年4月8日現在）
（注3）Stanford Network Analysis Project

※ニュースリリースに記載された情報は、発表日現在のものです。商品・サービスの料金、サービス内容・仕様、お問い合わせ先などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。