先端技術研究所

自然言語処理分野の最難関国際学会ACL 2023で研究論文が採択

2023年6月9日
株式会社KDDI総合研究所

AIへの攻撃手法に対する新たな対策技術に関するKDDI総合研究所の研究論文（以下、本論文）が、自然言語処理分野の最難関国際学会「Findings of ACL 2023（The 61st Annual Meeting of the Association for Computational Linguistics）（注1）」に採択（論文採録率10.7%、ACL 2022実績）されました。

【研究概要】

深層学習による自然言語処理の高度化により、自然言語処理技術を文章の分類・要約、機械翻訳、質問応答などのシステムへの応用に関する研究が盛んに行われています。しかし、これらのシステムにはセキュリティーに関する特有の脅威があることが知られています。このうちの一つにテキスト分類に対する敵対的サンプル攻撃（注2）があります。例として、攻撃者がフィルタリングを回避し、スパムメールやフィッシングメールを大量に配信したり、偽のニュース記事やソーシャルメディアへの嘘の投稿を通じ、虚偽の情報を拡散したりすることが挙げられます。

これらの敵対的サンプル攻撃を検知するために、従来は、元の文章と敵対的サンプルの双方のデータを収集し、AIに前もって学習させることが必要でした。本論文で提案する検知技術（以下、提案技術）は、事前に学習させることなく、敵対的サンプル攻撃を高い精度で検知できます。具体的には、攻撃者が敵対的サンプルを生成するための手法を逆手にとって通常の文章と敵対的サンプルを判別します。攻撃者は、文章中のさまざまな単語を別の同義語に置き換えた膨大な候補の中から、AIによる誤分類を引き起こす、ごく一部の文章を敵対的サンプルとして選び出します。選び出した敵対的サンプルは、単語を置き換えるとAIによる分類結果が本来のものに戻ります。この特性を利用して、提案技術では、入力されたすべての文章のそれぞれの単語に対して、置き換え可能な同義語等の複数の単語を生成します。そこで、元の入力文章に対する分類結果と単語を置き換えた文章の分類結果に食い違いが生じる場合は、入力文章が敵対的サンプルを含むと判定できることとなります。

さらに、評価実験を通じて、提案技術は、2020年に発表された文章の分類に対する17種類の攻撃（注3）に対して適用可能であることを確認しました。今後は、本論文の知見を生かし、AIを利用した自然言語処理システムの安全性向上に向けた取り組みを進めます。

【原著論文情報】
Hoang-Quoc Nguyen-Son, Seira Hidano, Kazuhide Fukushima, Shinsaku Kiyomoto,
and Isao Echizen. VoteTRANS: Detecting Adversarial Text without Training by Voting on Hard Labels of Transformations, Findings of the 61st Annual Meeting of the Association for Computational Linguistics

KDDIとKDDI総合研究所は、2030年を見据えた次世代社会構想「KDDI Accelerate 5.0」を策定し、その具体化に向け、イノベーションを生むためのエコシステムの醸成に必要と考えられる「将来像」と「テクノロジー」の両面についてBeyond 5G/6Gホワイトペーパーにまとめました。両社は新たなライフスタイルの実現を目指し、7つのテクノロジーと、それらが密接に連携するオーケストレーション技術の研究開発を推進しており、セキュリティー分野においては「AIシステムのセキュリティー」に関する研究にも取り組んでいます。本論文の研究成果を基に、お客さまや社会の皆さまに安心してお使いいただけるAIの実現に向け、引き続き研究開発を推進していきます。

（注1）The 61st Annual Meeting of the Association for Computational Linguistics
（注2）文章に対し、人間が気づきにくい変更（単語の置き換え等）を加えることで、AIに誤分類を引き起こす攻撃。
（注3）以下の文献による。敵対的サンプルの生成方法により、17種類の攻撃に分類できる。
Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby,Di Jin, and Yanjun Qi. 2020. Textattack: A framework for adversarial attacks, data augmentation, and adversarial training in NLP. In Proceedings of the Conference on Empirical Methods in Natural Language Processing: System Demonstrations (EMNLP 2020), pages 119–126.

※ニュースリリースに記載された情報は、発表日現在のものです。商品・サービスの料金、サービス内容・仕様、お問い合わせ先などの情報は予告なしに変更されることがありますので、あらかじめご了承ください。