科学者を愛するボットは、オンライン百科事典には掲載されていない著名な科学者の研究を称えるため、新しいウィキペディアページを作成しようとしている。
インターネットに接続できる人間なら誰でも、Wikipediaに新しい項目を投稿したり、既存の項目を編集したりできます。AIソフトウェアでさえ、百科事典のページを微調整したり更新したりできるのです。彼らはサイバー空間で口論に加わり、互いの変更点を常に書き殴り合っているようです。
編集作業と、ゼロから記事を書き上げる作業は別物です。コンピューターが長くてまとまりのある文章を自動的に作成するのは、依然として困難です。Google Brainの研究者グループは、関連するウェブページから情報を集め、断片的な情報を要約することで、ニューラルネットワークに新しいページを作成させようと試みました。結果はせいぜい「まあまあ」という程度で、安っぽいローストビーフのような、かなり味気ない文章になってしまいました。
現在、自然言語処理に重点を置くシリコンバレーの AI スタートアップ企業 Primer のエンジニアたちは Google のアプローチを踏襲しているが、さらに一歩進んで、Quicksilver と名付けられた技術とともにテキスト生成モデルと並行した知識ベースを構築している。
「Quicksilverのアーキテクチャは、Google AIチームが開拓した道筋を踏襲しましたが、私たちの目標はより実践的です」と、Primerの科学ディレクターであるジョン・ボハノン氏は述べています。「Wikipediaを要約アルゴリズムの学術的なテストベッドとして使うのではなく、Wikipediaのような知識ベースの構築と維持に使えるシステムを構築しているのです。」
例
モデルが様々な知識源から生成したWikipediaのエントリ候補100件をご紹介します。ウェブ記事やジャーナルで最も多く言及されているにもかかわらず、Wikipediaページがないためボット処理の対象となった、神経科医でメイヨー・クリニックのCEOであるジョン・ノーズワーシー氏、ジョージ・ワシントン大学ミルケン研究所公衆衛生大学院の助教授であるアミ・ゾータ氏、そしてテスラのAI専門家であるアンドレイ・カルパシー氏などがいます。
ウィキオタクの皆さん、気をつけてください。GoogleがAIを訓練してWikipediaの記事を作成しています
続きを読む
クイックシルバーは、ウィキペディアにページを追加する価値があると思われる4万人の人物が欠落していることを発見しました。これには女性科学者も多数含まれています。これは、ウィキペディアの英語版にある科学者に関する記事3万件と、それに対応するウィキデータ(ウィキメディアプロジェクトで利用されている無料の知識ベース)のエントリを分析することによって行われました。
ニュース記事から収集された300万以上の文章と、20万本の科学論文の著者名と所属も機械学習ソフトウェアに投入され、ニュースや学術界でよく言及されているが、Wikipediaには記載されていない科学者が誰なのかが調べられた。
「私たちにとって決定的な進歩は、ウィキデータの科学者の種集団に関する構造データを使い、ニュース文書での言及とマッピングしたことでした」とボハノン氏は説明した。
「遠隔監視によって、関係抽出のためのモデルをブートストラップし、自己更新型の知識ベースを構築することができました。Wikipediaの記事で学習した[リカレントニューラルネットワーク]を追加することで、自然言語で自らを記述できる知識ベースが構築されます。」
あなたは裁かれるでしょう
このモデルは、誰がWikipediaのページに掲載されるに値するかを判断する権限を持ちますが、ニュースで名前が何回登場したかに基づいて選ばれる可能性が高くなります。「私たちは、このような判断をしないように細心の注意を払っています」とボハノン氏はThe Register紙に語りました。
「私たちはWikipediaの「悪評」予測モデルを調査しましたが、既存のWikipedia記事からの個人情報の分布を使用して誰がページに「値する」かを判断すると、偏見が強化されるだけだということがわかりました。
その代わりに、ニュースから科学者に関する情報をできるだけ多く抽出することにしました。一般的に、情報が多いほど、その人物が記事に掲載される可能性が高くなります。Quicksilverは、完全なソースを持つニュース記事に掲載された情報に基づいて、これらの人物のWikipediaページを作成するために必要な情報を人間の編集者に提供しますが、ページを作成するかどうかの最終的な決定は編集者に委ねられています。
生成されたページは非常に短く、他のWikipediaページほど充実しているとは言えません。セクションがなく、短い紹介と、その人物が関わった出来事の一覧が掲載されているだけです。Wikipediaにそのまま掲載できる状態ではなく、人間の編集者が基本的にスタブページとして利用するためのものです。
Quicksilverは、ネットユーザーがエントリを管理するのにも役立ちます。最新のニュース記事を定期的にチェックすることで知識ベースを最新の状態に維持し、モデルが既存のページの情報も更新できるようにするという考え方です。
「ウィキペディアが世界にとってますます不可欠な存在になるにつれ、偏った情報や欠落した情報は深刻な影響を及ぼすでしょう」とボハノン氏は結論づけた。「最も重要な公共情報源であるウィキペディアの人間による編集者は、機械学習によってサポートされる可能性があります。アルゴリズムは既に、荒らし行為の検出や読者の少ない記事の特定に利用されています。しかし、機械はさらに多くのことができるのです。」®