AIボットが人間の目を奪い、ウェブCAPTCHAコードを簡単に解読。痛っ

Table of Contents

AIボットが人間の目を奪い、ウェブCAPTCHAコードを簡単に解読。痛っ

人間の視覚野の働きを模倣したコンピュータ ソフトウェアは、テキストベースの CAPTCHA チャレンジを解決できます。これは、Web サイトで人間の訪問者とスパム ボットを区別するためによく使用される画像認識タスクです。

このコードを説明する論文が木曜日にサイエンス誌に掲載されました。ロボット向け汎用人工知能の開発に取り組んでいるカリフォルニアのスタートアップ企業Vicariousのチームがこのシステムを開発し、「再帰皮質ネットワーク(RCN)」と名付けました。このシステムは、ランダムに生成された文字列からなるCAPTCHAを、かなりの精度で正しい入力に変換できるとのことです。

CAPTCHAは、コンピュータと人間を区別するための完全に自動化された公開チューリングテスト(Completely Automated Public Turing test to tell Computers and Humans Apart)の略で、その歴史は20年前の1997年に遡ります。文字と数字の歪んだ画像は、機械にとっては理解しにくいものですが、人間にとっては容易に読み取ることができます。ウェブサイト訪問者は通常、アカウント登録やメッセージの送信などを行う前に、ランダムに生成されたCAPTCHAに表示される文字を入力して本人であることを証明する必要があります。

テキストベースの CAPTCHA コードの例...画像提供: D. George 他

CAPTCHAの実装は、1%を超える確率で自動的に解読できる場合、つまり100回のうち1回はソフトウェアで解読できる場合、破綻しているとみなされます。RCNは、GoogleのreCAPTCHA、BotDetectのCAPTCHAジェネレータ、Yahoo!とPayPalのロボットチャレンジなどのテキストベースのコードを50%以上の精度で認識できます。

このソフトウェアのモデルは、哺乳類の脳の視覚皮質がどのように機能するかについての神経学者の考えに基づく仮説からヒントを得ていると伝えられている。

ジェフ・ホーキンス

人間の大脳新皮質を模倣し、ニューラルネットワークを消滅させる可能性のあるAIを開発している男に会う

続きを読む

Vicariousの研究者兼共同創設者であるディリープ・ジョージ氏は、The Register紙に対し、視覚野が階層的なシステムであるという証拠があると語った。このシステムには、物体のエッジを検知するニューロンセットと、表面や質感を検査するニューロンセットが存在する。この2つは連携して脳内で個々の物体に対する理解を深め、認識を可能にする。

RCNも同様の仕組みで動作します。文字のエッジを識別する「子特徴」を収集するノードで構成されるサブネットワークがあります。子特徴は特定の文字の基本的な表現です。その上には、「親特徴」を識別するためにグループ化されたノードの別の層があり、そこで「子特徴」の情報を用いて、各文字のより高次の表現と全体的な形状を構築します。

別のサブネットワークは、CAPTCHAチャレンジで使用される様々なフォントスタイルを認識するために使用されます。システムは、様々な書体の現代英語アルファベット全26文字を学習します。

文字「a」のトレーニングデータの例。画像提供:D.George 他

RCNに学習させる文字の例が増えるにつれて、RCNはA、B、Cなどの様々な文字の「辞書」を構築していきます。これまでに見たことのないCAPTCHA文字に遭遇すると、RCNは記憶された知識バンクを使ってアルファベットの各文字に共通する特徴を辿り、文字を識別し、自動的に問題を解きます。

優れた辞書は多用途で、回転や大文字と小文字などのバリエーションも含まれています。

衝撃だ!これはディープラーニングではない

今日の AI 研究の大部分とは異なり、RCN は確率的生成モデルであり、流行のディープラーニング ニューラル ネットワークではありません。

グーグルが230万枚のCAPTCHA画像でトレーニングしたライバルの畳み込みニューラルネットワーク(CNN)は、reCAPTCHAで89.9パーセントの精度を達成した。これは、VicariousのreCAPTCHAの66.6パーセント、BotDetectの64.4パーセント、Yahooの57.4パーセント、PayPalの57.1パーセントの結果を大きく上回るものだった。

前述のCNNのような画像認識システムのニューラルネットワークは、本質的にはパターンマッチングのエキスパートです。十分なトレーニングデータを入力すれば、過去に見たのと同じ構造を認識できるようになります。しかし、画像がわずかにずれている場合、例えばCAPTCHAのチャレンジの文字数がトレーニングデータよりも多かったり少なかったりする場合、あるいは文字間隔が変更されている場合など、精度は大幅に低下します。

たとえば、間隔が 15 パーセント広がるだけで CNN の精度は 38.4 パーセントに低下し、間隔が 25 パーセント広がると精度はさらに低下してわずか 7 パーセントになります。

RCNは精度は低いものの、画像全体ではなくアルファベットの文字を認識する能力に優れているため、CAPTCHAの設計変更に対する耐性がはるかに高く、文字間隔などの小さな変更にもより適切に対応できます。

「物体の見た目だけでなく、形状もモデル化します」とジョージ氏は説明した。「例えば、バナナの輪郭線の中にイチゴが描かれていたら、ニューラルネットワークにとっては非常に混乱を招きます。バナナなのか?イチゴなのか?と。しかし、確率的生成モデルでは、画像の輪郭がより重要です。そのため、パターンがイチゴでできているかどうかに関わらず、形状から画像がバナナであると認識できるのです。」

RCNはCNNモデルと比較して、必要なトレーニングデータもごくわずかでした。reCAPTCHAのトレーニングにはわずか500枚の画像を使用し、テストには4つのCAPTCHA実装のうち3つから約5,000枚の画像を使用しました。BotDetectは少し複雑で、各フォントスタイルのトレーニングには50~100枚の画像を使用し、テストには10​​0枚のみを使用しました。

RCNアプローチを使用する大きな欠点は、CNNの包括的なモデルとは異なり、ネットワークを各トレーニングセットに合わせて調整する必要があることです。そのため、reCAPTCHAのRCNは、Yahoo、PayPal、BotDetectで使用されているものとは若干異なります。

文字の精神

CAPTCHAの問題は、汎用人工知能システムが克服しなければならない多くの視覚認識上の困難を包含していると、Vicariousは本日のブログ投稿で説明した。「コンピューターは、欠落した情報や不確かな情報、雑然とした情報、ノイズに対処しなければならないのです。」

機械の意識と創造性に関心を持つ認知科学教授、ダグラス・ホフスタッターは、教科書『メタマジカル・テーマ:心とパターンの本質を探る』の中で、「人間のような柔軟性で文字を扱うプログラムには、本格的な人工知能が必要だ」と述べています。ホフスタッターは、「ローマ字の小文字26文字を、多様でありながら内部的に一貫性のあるスタイルで表現する方法をモデル化する」ことを目標に、「The Letter Spirit」プロジェクトを立ち上げました。

しかし、この問題はまだ解決には程遠い。例えば、ソフトウェアが文字「A」のいくつかのデザインを識別できるからといって、文字「A」を汎用的に理解し、他の書体でも識別できるわけではない。「まだ、文字「A」そのもののあらゆる形を認識できる機械さえ存在しない」とジョージ氏は認めた。®

Discover More