日本の研究者たちは、人々を笑わせるための人工知能システムの構築を試みたが、驚いたことに、そのシステムが語るジョークはひどいものだった。
「ニューラル・ジョーク・マシン」(NJM)は、ユーモアを自動的に生成し、学術的に研究できるかどうかを検証するために、東京電機大学と産業技術総合研究所のコンピューター科学者によって作成された。
「笑いは人間だけが持つ特別な高次機能だ」と、彼らは今週オンライン発表された論文に記している。定量的に測定するのは難しいが、彼らはそれでも試みた。
ニューラルネットがキャロルを演奏すると、「サンタの赤ちゃんが優しいイエス・キリストを産んだ。」ファラララララ、ララララ
続きを読む
まず、研究チームはBoketeから画像とウィットに富んだキャプションのペアをダウンロードし、学習データを収集した。Boketeは、ネットユーザーが投稿した面白い写真やジョークに仮想の星をつけてランキング化する日本のウェブサイトだ。写真が笑いを誘うほど、星の数も増える。BoketeDBと呼ばれるこのデータセットには、70,981枚の画像に999,571個の面白いキャプションが含まれている。
画像キャプション生成はAI研究の盛んな分野です。コンピュータービジョンと自然言語処理を組み合わせたこの手法は、機械が見ているものを人間にも理解できる形で理解するための有用な方法です。研究者たちは、GoogleのShow and Tellをベースとしたモデルを使用しました。このモデルは、画像処理用の畳み込みニューラルネットワークと、テキスト生成用の長短期記憶ネットワークで構成されています。
画像とキャプションのペアを訓練した後、NJM は「人物」「2 人以上」「動物」「風景」「無機物」「イラスト」など、30 のテーマにわたる新しい画像のキャプションを考え出そうとしました。
次に研究チームは、人間が生成したキャプション、NJM、そしてMS COCO(画像33万枚と各画像に5つのキャプションが含まれたデータセット)で学習した別のニューラルネットワークキャプション生成システムであるSTAIRについて、アンケート調査を行い、それぞれをランク付けするよう依頼しました。MS COCOは、画像キャプション生成モデルのベンチマークとしてよく使用されるデータセットです。研究チームはSTAIRを基準として、そのキャプションを英語から日本語に翻訳しました。
16のアンケート調査の結果、NJMの成績は人間よりも著しく劣っていたことが示されました。少なくとも、面白いと感じた割合は約67.99%でした。一方、NJMでは22.59%、STAIRではわずか9.41%でした。
「これらの結果は、NJMによって生成されたキャプションは人間が生成したものよりも面白みに欠けることを示唆している。しかしながら、NJMはSTAIRのキャプションよりもはるかに高い評価を得ている」と論文は述べている。
トレーニング データを考慮すると、おそらく「ガベージ イン、ガベージ アウト」となるでしょう。
他の研究では、チャットボットやデジタルアシスタントへの活用を期待して、機械に皮肉を教え込むというアイデアが研究者によって試みられてきました。しかし、そこでも結果は期待外れでした。Alexa、Siri、Google Homeが私たちを笑わせてくれるようになるまでには、まだ長い時間がかかるでしょう。では、優れたスパイウェアであること以外に、これらの機器は一体何の役に立つのでしょうか?®