株式会社KDDI総合研究所 このページを印刷する

アングルフリーな表情認識AI

~日常の多様な場面で、正確に表情を読み取ることが可能に~

2018年8月2日
株式会社KDDI総合研究所

株式会社KDDI総合研究所(本社:埼玉県ふじみ野市、代表取締役所長:中島康之、以下「KDDI総合研究所」)は、あらゆる顔の向きでも高精度に表情を分析できる表情認識AIを開発しました。さらに、処理を軽量化し、IoTデバイス上でも単独で動作させることに成功しました。本技術により、活用できる場面が飛躍的に拡大し、人の表情を漏れなく解析することが可能になるため、さまざまな新しいサービスの実現が期待されます。

 

【背景】
人の感情や状態を推測するための技術として、顔の表情認識技術が注目されています。デジタルカメラなどでは、笑顔検出による写真の自動撮影機能が実用化されているほか、広告やテレビ番組の視聴時の表情解析に基づく受容度調査など、マーケティング用途での活用も進んでいます。
しかし、既存の表情認識技術では、人間の顔の多くの部位を手掛かりとする解析手法を用いているため、両目がはっきりと見える正面向きの顔にしか対応できませんでした。また一方で、高い精度の表情認識を実現するためには、処理能力の高い計算機環境が必要になるため、既存技術の多くはクラウド上にある計算機に解析したい顔画像を送付しなければならず、利用者のプライバシー保護の観点で大きな課題になっています。

 

【今回の成果】
このたび、KDDI総合研究所は独自の機械学習技術「多角適応型モデル制御技術」を開発し、あらゆる方向を向いた顔に対する高精度な表情認識を実現しました。従来技術と異なり、本技術は真横を向いている顔でも正確に表情を認識することができるため、表情認識技術を導入する場面を大きく拡大することができます。
また、画像解析のアルゴリズムを大幅に効率化することで、従来比1/3倍以下の軽量化を実現し、高速な計算機や通信環境がない状況下での表情認識を可能にしました。具体的には、小型のIoTデバイスの上でも単独動作が可能になり、利用者の顔を含む画像をクラウド等に送信する必要がなく、利用者のプライバシーを保護しながら表情認識を行うことができます。

 

【技術的特徴】
今回開発した表情認識AI「多角適応型モデル制御技術」では、顔の向きの変化への対応可能性を高めながら、軽量な表情認識を実現するため、2段階の機械学習モデルを構築しました。第1段階では、顔の検出・顔の向き(上・下・左・右・中)を判定した後、第2段階で、顔の向きごとの表情認識モデルを適用することで、表情認識を行う方式です。

 

 

 

図1:表情認識方式の概念図

 

 

これにより、処理の高精度化と効率化を同時に実現しています。世界的な標準である顔画像データセットLFW(注1)を用いて、今回の表情認識AIと他社技術との比較実験を行った結果、顔検出の正解率、表情認識精度のそれぞれにおいて、本技術の優位性を確認しました。特に、顔の向きが45°以上で片目しか映っていない画像に対し、他社技術を大幅に上回る精度が実現できることを確認しました。

 

【本技術の利用場面】
本技術の開発により表情認識技術の導入場面が大きく広がります。たとえば、企業の会議では、室内に複数の人が任意の場所(角度)にいても、各人の表情を同時に認識することができます。これにより、会議参加者の表情から、議論の活性度などを測定することもできます。また、別の例としては、個人用の宅内ロボットに本技術を適用することにより、住人のプライバシーを保護しつつ、健康状態などをモニタリングするサービスや、利用者の心理状態に合わせて気の利いた対話を行うAIコミュニケーションなどのサービスも実現可能です。
本技術はKDDI株式会社のコールセンターに試験的に導入されています。この取り組みでは、コールセンターの応対者(以下「コミュニケーター」)がお客様と応対している際に、自身の表情(笑顔)を意識することを目的として、約300名のコミュニケーターが実際の電話応対時に利用しています。コールセンターでは、お客様からの問い合わせに対応するため、たとえば手元のスマートフォンを操作して下向きになるなど、顔の向きが正面から大きく逸れる場面があります。このような現場においても、本方式による表情認識の精度は97.05%という高い数値を達成しています。この取り組みを通じて、コミュニケーターの表情に対する意識が向上したほか、応対時のお客様の安心感や信頼度が向上する効果が確認されました。

 

【今後】
KDDI総合研究所では、顧客サービス向上や、事故防止、見守り、グループワークの活性化、人と機械の対話コミュニケーション、マーケティングなどの分野において早期の実用化を目指しています(注2)。また、今回の開発成果をスマートフォン向けのアプリや、IoTデバイス、並びに宅内ロボットなどに搭載し、多くのお客様にご利用いただくことを目指します。

 

(注1)LFW(Labeled Faces in the Wild)は名前付きの顔画像データセットであり、約5700人から13000枚の顔画像が提供されています。
(注2)本技術の想定利用場面のイメージ(例)
(1)コミュニケーターのお客様対応時の表情認識。応対時の表情をモニタリングすることにより、コミュニケーター自身の表情に対する意識向上を図る。
(2)社内会議の参加者の表情認識。任意の場所・角度にいる参加者の表情を認識。会議中の雰囲気、および会議自体の生産性を分析するためのデータとして活用可能。

 

 

※ニュースリリースに記載された情報は、発表日現在のものです。 商品・サービスの料金、サービス内容・仕様、お問い合わせ先などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。