OpenAIの急速な成長は「コーナーケース」の課題に満ちているとFivetranのCEOは語る

Table of Contents

OpenAIの急速な成長は「コーナーケース」の課題に満ちているとFivetranのCEOは語る

インタビューOpenAIが昨年3月にGPT-4を発表した際、モデルの規模や開発に使用された要素については明らかにしませんでした。しかしながら、AIに関心の高いメディアや投資家が現在注目しているのは、約1ペタバイトに及ぶ多様なデータセットを用いたことです。そのデータから意味のある出力を得るという課題に加え、OpenAIはデータを適切な場所に配置することも課題としていました。

人工知能

OpenAIはGPT-4が試験で90%の受験者に勝つと主張している

続きを読む

自動データ統合企業の Fivetran は、良くも悪くも GenAI への関心の高まりを象徴する企業となった OpenAI との提携について語ることをためらいません。

CEOのジョージ・フレイザー氏はThe Registerに対し、OpenAIは同社の顧客の極端な一端を代表し、一方では消費財大手のプロクター・アンド・ギャンブルのような世界的に長い歴史を持つ企業が別の一端を代表していると語った。

「OpenAIや他のスタートアップ企業を見てみると、規模を除けば中小企業のインフラと同じようなインフラを持っていることがわかります。まるで100階建ての建物に匹敵するほどの巨大な赤ん坊のようなものです。そこで予期せぬ、これまでとは異なる問題に直面するのです」と彼は語った。

フレイザー氏は、P&G のような企業では通常、SAP などのエンタープライズ システムに分散された大量のデータが存在するが、これは複雑ではあるもののユーザーにはよく知られている、と説明した。

「プロクター・アンド・ギャンブルのように、長年大量のデータを扱っている企業の場合、参入すると課題はあるものの、概念実証の段階で解決する傾向がある」と同氏は語った。

しかし、OpenAIのようにFivetranとともに成長してきたユーザーは、データ統合の面で異なる課題を提示していると彼は述べた。

データの規模は深刻な課題をもたらしますが、それは人々が考えるようなものではありません。規模の問題というのは、多くのマシン、多くのCPUを起動して、膨大な数のデータを非常に高いハードルで処理することだと考えがちですが、実はそうではありません。その部分は簡単です。

「難しいのは、誰も考えたことのないようなAPIの特殊なケースに遭遇することです。エンドポイントを好きな頻度でプルできないことに気づいたり、データを更新しようとすると、n乗のような奇妙な動作になったりします。」

「これは、回避しなければならない他のすべてのシステムの設計に問題があるようなものです。このシステムとAPIを設計した人は、このような極端なシナリオや、そうした極端なシナリオで発生する新たな問題を予期していませんでした。これは、人々が期待するような、巨大な鉄の計算力を持つスーパーコンピュータのようなものではありません。」

ファイブトランは9月、年間経常収益が2023年の2億ドルから3億ドルを超えたと発表したが、これらの数字は上場企業の規則に従って監査されていない。

同社は、GenAI、リアルタイムの意思決定、そして最適化された業務オペレーションをサポートし、組織が安全かつ効率的にデータを移動できるよう支援することを目指していると述べている。最近の受注には、B&QとScrewfixブランドを所有する英国の小売グループ、Kingfisherが含まれる。

  • マイクロソフトとデータブリックスのコンビがデータプラットフォーム市場の独占を目指す
  • VCがMotherDuckのサーバーレス分析プラットフォームに5250万ドルの金の卵を産む
  • Fivetran、SQLサポートを中止したことで批判を浴びる。CEO「責任は私にある」
  • Fivetranが5億6500万ドルの資金調達ラウンドを獲得、Snowflakeが自社のデータ統合ツールでFivetranのシェアを奪おうとしている

Fivetranは引き続きVCからの出資を受けています。直近の資金調達は2021年に実施され、シリーズDラウンドで5億6,500万ドルを調達し、企業価値は56億ドルに達しました。同時に、スタートアップ資金の一部を活用し、広く利用されているミッションクリティカルなデータベースからのデータ複製を専門とするデータパイプライン企業HVRを買収しました。

Fivetranは人気にもかかわらず、データレイク、特に昨年開始したAWS S3ストレージを利用したデータレイクのサポートが遅いことで批判を浴びています。その後、同社はマネージドデータレイクサービスを導入しました。

人々が期待するような、巨大な鉄の計算装置やスーパーコンピュータのようなものではない。

同社は、この新サービスにより、顧客のデータレイク管理プロセスを自動化・効率化することで、反復的な作業を削減すると約束した。現在、このサービスはAmazon S3、Azure Data Lake Storage(ADLS)、Microsoft OneLakeをサポートしており、Google Cloudへの対応も近々開始される。

Fraser 氏は、データ レイクをサポートするには、テーブル形式 (特に Apache Iceberg) が十分に成熟する必要があると説明しました。

「適切な実装を開発するのにも時間がかかりました」と彼は語った。「私たちが必要としていたのはIcebergでしたが、その後、その下流で多くの作業が必要でした。これには長い時間がかかりました。何度か試行錯誤を繰り返し、開発には2年かかりました。」

フレイザー氏は、多額のエンジニアリング投資にもかかわらず、ファイブトランはさらなる資金調達に必死ではないと述べた。「私たちは何年も資金調達を行っていません。私たちはかなり成熟した事業であり、キャッシュフローは比較的予測可能です。多くの人と同じように、コロナ禍以降、効率性を再発見しました。基本的に損益分岐点のキャッシュフローで事業を運営しています。」

それでも同氏は、約4年前に長らく延期されていたIPOについて語り始めたデータレイクおよび分析企業のデータブリックスと同様に、同社を株式公開することが長期的な計画だと語った。

フレイザー氏は、「株式を公開する予定ですが、正確なところは分かりません。冗談で言えば、データブリックスの 6 か月後になるかなと思っています。」と述べた。®

Discover More