MetaのAIベースのWikipedia後継は「NLPの次の大きな飛躍となるかもしれない」

Table of Contents

MetaのAIベースのWikipedia後継は「NLPの次の大きな飛躍となるかもしれない」

Meta は、将来世界最大の公開知識検証データベースとして Wikipedia に取って代わる可能性のある機械学習リソースをオープンソース化しました。

「Sphere」と名付けられたこのAIは、知識集約型自然言語処理(KI-NLP)に使用できるとのことです。具体的には、自然言語を用いて複雑な質問に答えたり、主張の根拠を見つけたりするのにも使えるということです。

使用例としては、Sphereに「ジョエル・サンビ・ンゼバとは誰ですか?」と尋ねることが挙げられます。Wikipediaには彼女の項目がありませんが、Sphereは「彼女はベルギーで生まれ、キンシャサ(コンゴ)で育ちました。現在はブリュッセルに住んでいます。作家であり、刑務所で服役する傍ら、フェミニスト運動にも参加しています」と述べ、彼女の活動に関する情報を得たウェブサイトへのリンクを貼っています。

Meta のエッグヘッドたちは、Sphere の設計について論じた論文の中で、Wikipedia が実質的に記録の集積としての役割を果たしており、ボランティアによって維持されているこの超 wiki は「正確で、構造がしっかりしており、テスト環境で簡単に使用できるほど小さい」と主張している。 

人工知能

AIの強力な新興「基盤モデル」の技術と社会への影響

続きを読む

Wikipediaよりも大きく優れたものを目指して、Metaはwikipedia.org以外のウェブ全体からコンテンツを集め、「複数のKI-NLPタスクを一度に実行できる、普遍的でキュレーションも構造化もされていない知識源」を構築しました。その結果生まれたのがSphereです。Sphereは、機械学習ツールを使ってクエリできる、いわば処理済みデータの山です。

研究チームは、KILT AIベンチマークを用いたいくつかのタスクにおいて、Sphereは「Wikipediaを基盤としたベースラインに匹敵し、それを上回るパフォーマンスを発揮できる」と付け加えている。つまり、SphereはWikipediaのコンテンツに基づいて構築されたAIシステムよりも優れたパフォーマンスを発揮するということだ。

Sphere の主な目的は、情報源としての Wikipedia を置き換えると知識集約型システムのパフォーマンスにどのような影響があるかを確認することでした。チームは Sphere にいくつかの問題があると報告しましたが、そのパフォーマンスは、少なくとも Wikipedia コーパスが提供できる以上の価値を KI-NLP タスクに追加できることを示しています。 

Sphere の研究者らは、彼らの研究が「汎用検索インデックスが常識的なタスクにおける言語モデルを改善した初めての事例」であると主張している。 

MetaがGitHubでリリースしたAIプラットフォームはSphereだけではありません。先週、MetaはNLLB-200をリリースしました。これは、200言語の閾値をクリアした初の翻訳AIです(少なくともFacebookの親会社Metaはそう主張しています)。Sphereと同様に、NLLB-200はWikipediaで活用されています。前者は編集された記事の引用を自動チェックするシステムであり、後者はより一般的に話されていない言語へのページ翻訳を改善するシステムです。

ウェブコーパスに移行すると、文書が優れているか、真実であるか、ユニークであるかという確信はなくなる。

Sphereは、9億600万の文章と1億3400万の文書を収録しており、その規模において類似のWebコーパスを凌駕しています。文章と文書の規模でこれに次ぐのは、2億5000万の文章と1億900万の文書からデータを抽出するInternet Augmented Dialogジェネレータです。 

しかし、インターネットには品質や正確性を管理する手段が存在せず、研究者たちはこれがこのツールを実際に導入する上での大きな問題であると認めている。「Wikipediaを知識源として利用することで、研究者はコーパス文書の質の高さを前提とすることができる。しかし、ウェブコーパスに移行すると、どの文書も良質で、真実で、唯一無二であるという確信はもはや持てなくなる」と研究者たちは記している。 

Sphereの開発者たちは、取得するデータの質を評価し、虚偽の主張や矛盾点を検出し、信頼できる情報源を優先させる方法を判断し、情報不足のために質問に答えない判断をするタイミングを決定することに、反復的な取り組みを重点的に行うべきだと考えています。つまり、Sphereを実際に役立つものにするということです。

Meta 氏は、Sphere を信頼性と信用性の高い情報を備えたホワイト ボックス AI に変えることができれば、Sphere は「NLP における次の大きなブレークスルーになるかもしれない」と述べた。®

Discover More