特別レポート:ロビー活動を行う企業、PR専門家、SEO最適化の専門家たちが、Wikipediaの派生プロジェクトであるWikidataに影響を与えようと躍起になっている。Wikidataは多額の資金援助を受けている。これは、世界のデフォルトの情報源となる可能性のあるこのプロジェクトを懸念する理由の一つに過ぎない。
Google のナレッジグラフ (検索結果ページの右側に表示される情報ボックス) の情報は、インターネット上で大いに笑いを誘っています。
WikipediaやFreebaseといったクラウドソーシングプロジェクトをベースとしているため、間違った画像(あるいはヌード画像)やWikipediaの荒らしが表示されることがあり、基盤となるFreebaseレイヤーはSEO操作の影響を受けやすいという問題がありました。Freebaseの廃止に伴い、Wikipediaから派生したWikidataがその穴を埋める予定です。しかし、これで状況は改善されるのでしょうか?
ウィキデータは3年前、マイクロソフト創業者のポール・アレン氏、Google*、そしてゴードン・アンド・ベティ・ムーア財団からの資金援助を受けてキックスタートされました。ウィキメディアの統計によると、3年間の作業(その多くはWikipediaスクレイピングボットによって行われた)を経て、ウィキデータ内の記述の半数には出典が全く示されていません。さらに30%は、Wikipediaからの引用であるとのみ記載されています。特定の記事バージョン(Wikipedia記事には数百ものバージョンが存在する可能性があります)すら示されておらず、例えば「ラトビア語版ウィキペディア」などとだけ記載されています。
ウィキデータ内の記述の全てが必ずしも参考文献を必要としているわけではないかもしれません。イエス・キリストの母がマリアと呼ばれていたことを裏付ける情報源が欠けているのは、おそらく許容できるでしょう。しかし、ウィキデータ内の記述のうち、ウィキペディアに依拠しているものは、他のすべての情報源を合わせたよりも多くあります。
検索エンジンがリンク集からコンテンツ自体の公開へと移行するにつれ、Wikidataのようなプロジェクトに関心を持つのも当然のことです。検索クエリに対して無料コンテンツを表示することで、ユーザーが他のサイトへ移動することを阻止し、有料広告をクリックするまでサイト内に留まらせることができます。
Google の回答では、インフォボックスを通じて、エルサレムがイスラエルの首都であると主張しています。
Wikidataにはもう一つの利点があります。WikipediaやFreebaseとは異なり、非常に寛容なライセンスを採用しており、第三者が出典を明記せずにコンテンツを利用できる点です。現在、BingでFreebaseやWikipediaのコンテンツを表示する際には、その旨が表示されます。Wikidataなら、その必要はありません。
ウィキメディアンのマックス・クライン氏は、昨年のインタビューでこの点について洞察力に富んだコメントをしており、グーグルとマイクロソフトによるウィキデータへの資金提供は「彼らが全知であると認識されているものの汚点を消すためにお金を払っているだけのように思えるかもしれない」と認めている(そうした疑念を払拭する前に)。
ゾンビデータ
Wikipediaにはデマが存在します。中には10年も続いたものもあります。Wikidataのボットは、情報を収集したWikipediaの記事がデマとして削除されたことに気づきません。
現在「Wikipedia:デマ一覧」に掲載されている最も長く続いているデマ 15 件のうち、6 件 (1、2、6、7、11、13) については、執筆時点でまだ Wikidata エントリがアクティブです。
2014年の5ヶ月間、ウィキデータによると、フランクリン・D・ルーズベルトは「アドルフ・ヒトラー」とも呼ばれていました。では、より巧妙な虚偽や改ざんが他のサイトに拡散する前に検知される可能性はどれくらいあるのでしょうか?
しかし、これはマックス・クラインのようなウィキメディアンが「すべてを支配する唯一の権威管理システム」になる可能性があると想像しているプロジェクトです。
ステロイドのシトジェネシス
漫画家で作家のランドール・マンローは、情報の循環的な流れを説明するために「シトジェネシス」という言葉を作り出した。
例えば、Wikidataは現在、Virtual International Authority File(VIAF)のソースとして利用されており、VIAFはWikidataのソースとして利用されています。先日開催されたWikiconference USA 2015で話を聞いたあるWikimediaのベテラン司書は、この仕組みに内在する循環性は、後々解決不可能な混乱を招く運命にあると指摘しました。
Wikidata はどこへ?
多くのウィキメディアンは、ここで述べたような問題はそれほど深刻ではないと考えています。何か間違いがあればすぐに修正できるという安心感から、主観的なコントロール感を得ているのです。ウィキですからね!そして、今日存在するかもしれない他の間違いを、いつか誰かが必ず修正してくれるだろうという確信に安堵しています。しかし、これは誤解です。
典型的なエンドユーザーは、Wikidataの存在を全く知りません。彼らにとって、WikidataやWikipediaの誤りが将来修正される可能性は取るに足らない事実です。発見されない虚偽は、彼らにとって今、重大な結果をもたらします。
ウィキデータは、入ってくる情報の品質管理にさらに重点を置く必要があります。ウィキデータ内の記述は、ウィキペディアの検証可能性に関する方針の基盤となる原則に従い、ウィキメディア以外で公開されている情報源を参照する必要があります。
情報ボックスをコントロールし、人々をコントロールする
「ウェブをより機械が読みやすくするには、それなりの代償が伴う」と、オックスフォード・インターネット研究所のマーク・グラハム氏は最近Slate誌に記した。これは、セマンティックウェブ、つまり機械が読みやすいようにデータを調整した結果である。
リーズ大学メディア・コミュニケーション学部のヘザー・フォード氏と共著した論文で、彼はウィキデータやナレッジグラフが単一の、出典の明記されていない回答を一般公開した場合に生じる可能性のある問題を検証しました。データの出所とともにニュアンスも失われ、情報生成プロセスはエンドユーザーにとってこれまで以上に不透明になっています。
Wikidataが検索エンジンやその他のサイトに情報を提供するにつれ、そのコンテンツは数十億人のユーザーに届くようになるでしょう。これは多くの人が望む力であり、きっとWikidataに集まるでしょう。
プロパガンダの夢だ。匿名アカウント。確実な個人情報保護。もっともらしい否認。法的責任なし。人間の監視なしに自動的にインポート・配信。誰が情報を発信し、どの情報源に基づいているのか読者には全く分からないまま、権威ある情報を提示。影響力は絶大。検索エンジンは選挙結果を左右するほどの力を持つ。
このような脆弱性を抱えたグローバル情報システムは、果たして本当に素晴らしいのだろうか? 国民に説明責任を果たすプレイヤーが集う、多元的なメディア環境を享受する権利は、何世紀も前に苦労して勝ち取ったものだ。今日でも、一部の国ではその贅沢を享受できていない。テクノクラートのさらなる栄光のために、進歩の名の下に軽々しく放棄されるべきではない。®
Andreas Kolbe は、Wikipedia のコミュニティ ニュースレター「The Signpost」の編集委員を務めており、この記事のより長いバージョンはそこでご覧いただけます。
*ブートノート
ウィキデータ・プロジェクトリーダーのデニー・ヴランデシック氏はGoogleの社員で、今年ウィキメディア財団の理事に就任しました。ロシアの検索エンジンYandexもウィキデータに投資しています。