コンピュータサイエンスの専門家は、Redditが皮肉データベースの理想的な情報源であることを発見した

El Regでは、チャットボットはこれまでで最高のものだと考えています。

ない。

しかし、皮肉を見抜いて、自分の皮肉な発言で反撃することができれば、彼らはもっと良くなるでしょうか?

米国プリンストン大学のコンピュータ科学者グループは、まさにその通りだと考えている。ミハイル・コダック、ニクンジ・サウンシ、キラン・ヴォドラハリの3人の大学院生は、Redditをくまなく調べて「皮肉に関する大規模な自己注釈コーパス」を作成した。

「皮肉は、人間が自分の信念や欲求に反することを述べることが多いため、チャットボットやインテリジェントアシスタントが、人が皮肉を言っているのかを理解できることが重要だ」とコダック氏はThe Registerに語った。

arXivに公開された論文によると、この3人がインターネット上のちょっとした皮肉を収集した最初のグループではないことが示されています。他の研究者もTwitterで同様のことを行ってきました。実際、IBMは先週、Twitterユーザーが「イライラしている、悲しい、満足している、興奮している、礼儀正しい、失礼な、同情的な」状態にあるかどうかを検出できる新サービスを発表し、ある種の画期的な進歩を遂げたと発表しました。

この論文の著者らは、投稿がより明確に書かれており、Twitter の 140 文字制限に縛られないことから、自称「インターネットのフロントページ」である Reddit に目を向けることにしました。

Redditは基本的に、様々なトピックやテーマごとに「サブレディット」に分かれたオンラインフォーラムです。ユーザーは興味のあるサブレディットをフォローし、投稿を評価したりコメントしたりできます。

その構造は、ちょっとした皮肉を探すのに最適な場所です。個々のコメントが皮肉かどうかを人間に判断してもらう代わりに、オタクなユーザーは皮肉であることを示すために頻繁に「/s」を投稿に追加します（このマークアップは、理論上の「<sarcasm>...</sarcasm>」というHTMLタグを彷彿とさせます）。また、このサブレディット機能では、研究者がデータを主題別に並べ替えることもできます。

政治サブレディットにおける「/s」でマークされた皮肉なコメントの例。

このマークアップは研究者にとって貴重なものです。なぜなら、2009年から2016年にかけてRedditに投稿された5億～6億件のコメントの中から、皮肉を自称する130万件のデータセットを作成できたからです。政治や男性の権利といった物議を醸し、モデレーターの手が届きにくいサブレディット（「男性の権利とその侵害方法について議論したい人のための」スレッド）には、ゲームや科学よりも冷笑的な発言が多く見られます。

目標は、自然言語処理アルゴリズムをテストするために、オンラインでの会話を追跡し、皮肉なコメントの背景にある文脈を理解できるほど洗練されたデータセットを構築することです。

「機械にとっても人間にとっても、文脈のない皮肉を見分けるのは非常に困難です。私たちのコーパスの利点の一つは、それぞれの発言の直前のテキストと発言者を提供していることです。そのため、アルゴリズムは会話の文脈の中で皮肉なのか、それとも発言者の過去の発言の文脈の中で皮肉なのかを判断できます」とコダック氏は説明した。

しかし、コンテキストが与えられているにもかかわらず、機械にそれを理解させるのは難しい。「機械学習アルゴリズムにコンテキストを提供しなかったのは、それを実行するための標準的な方法が存在しないためです」とコダック氏は付け加えた。

そこで研究者たちは、既存の最も単純なアルゴリズムのいくつかを訓練し、単一の文のみから皮肉を検出することに焦点を合わせました。自然言語処理では、単語は空間上の特徴ベクトルとして表現されることが多く、「サポートベクターマシン」と呼ばれる分類器を用いています。これは、ラベル付けされたデータを空間に境界線を引くことで2つの異なるカテゴリー（この場合は「皮肉」と「皮肉ではない」）に分類する分類器です。

3つの異なる単語埋め込みアルゴリズムを人間と対比させ、発言が辛辣かどうかを判定しました。研究者を驚かせたのは、一部のモデルが文脈を追加せずに人間よりも優れた結果を示したことです。

しかし、よく見てみると、結果は鵜呑みにすべきではないことが分かります。皮肉を理解するのは明らかに人間の方が得意です。どんな機械も文章を真に理解できるほど複雑ではなく、風刺の微妙なニュアンスも理解できないのです。

代わりに、アルゴリズムは「明らかに」や「完全に」といった皮肉とより密接に関連する単語間のパターンを見つけることで学習しました。「よく使われる単語は皮肉の意図を強く示唆しているようです」とコダック氏は認めました。

オスカー・ワイルドは有名な言葉を残しています。「皮肉は最も低レベルのウィット」。データベースは研究者にとって皮肉を読み解く可能性を高めるかもしれませんが、機械が私たちの言葉を理解できるほど賢くなるまでには、まだまだ長い時間がかかるでしょう。®

コンピュータサイエンスの専門家は、Redditが皮肉データベースの理想的な情報源であることを発見した

Table of Contents

Discover More

インターネットアーカイブの裏側：教会に10PB以上のストレージ…そして真実を守るためのちょっとした戦い

中国の巨大企業ファーウェイは、米国の制裁が携帯電話業界に打撃を与えたことを認め、「オーウェイ」と発言

モデリングソフトウェアが浮体式風力タービンの計画を加速

Table of Contents

Smart Recommendations

Discover More