INDUSTRY
生成AI時代のオブジェクトストレージ:ルールの再構築
最新のAI対応のデータレイクは、耐久性があり、予期せぬコストが発生しないデータ基盤を構築するという、分かりやすい問題を解決するためのものでした。しかし、生成AIの登場により、データアーキテクチャはもはや単なるバックグラウンドのインフラではないことが明らかになりました。多くの場合、それが最大のボトルネックとなっています。
生成AIは通常、モデル、GPU、フレームワークといった観点から語られます。しかし実際には、最初のボトルネックはもっと早い段階、つまり「データ」で発生します。トレーニング、ファインチューニング、検索、推論、継続的学習といったライフサイクルのあらゆる段階は、大量の非構造化データへの持続的かつ反復的なアクセスに依存しています。
初期のアナリティクスのワークロードとは異なり、生成AIは「一度書き込んで、たまに読み取る」というパターンには従いません。データは次のように扱われます:
実験やイテレーション(反復)を通じて継続的に再読み込みされる
埋め込み(エンベディング)、インデックス、プロンプト、出力などの派生アーティファクト(生成物)に変換される
再現性、ガバナンス、再トレーニングのために長期保存される
変化の激しいコンピュート(計算)層から切り離される
問題は、多くのクラウドストレージプラットフォームがこのような「再利用」を想定して設計されていないことです。Wasabiのオブジェクトストレージは、従来のクラウドの常識に逆らい、ストレージの経済性とアーキテクチャを、生成AIのワークロードの実際の動作に合わせています。
新興の生成AIワークロード:ストレージへの要件
生成AIのワークロードはすべて同じというわけではありませんが、「非構造化データへの反復アクセス」という共通点があります。主要なパターンと、それがストレージに何を要求するかを以下に示します。
基盤モデルのトレーニング 基盤モデルのトレーニングは、テキスト、画像、音声、動画などの膨大な非構造化データセットに依存しており、トレーニングの実行や実験のたびに繰り返し読み込まれます。 ストレージの観点から見ると、これらのワークロードは以下の特徴を持ちます:
読み取り集約型でスループット重視
レイテンシよりもコストの予測可能性に敏感
アーカイブの効率性よりも「データの再利用」に依存
問題は、従来のクラウドストレージモデルでは、読み取りやデータの移動に対して課金(マネタイズ)されることが多い点です。この価格設定は、AIトレーニングに必要な反復アクセスパターンには逆効果です。 Wasabiは、アクセスベースの課金ではなく、容量ベースの価格設定を中心に構築されています。読み取りや下りデータ転送に対するペナルティ料金を排除することで、コスト変動の恐怖やアーキテクチャ上の妥協をすることなく、データを自由に再利用して実験を繰り返すことができます。
ファインチューニング、アライメント、反復的なモデル開発 種類のプレッシャーをもたらします。データセットは小さくなりますが、変更頻度は高くなり、結果が再現可能で追跡可能であるようにデータを慎重に保存する必要があります。これらのワークフローには以下が必要です:
データセットの不変性(イミュータビリティ)とバージョニング
データと、それが生成するモデル間の明確なリネージ
チーム間での並行実験
階層化や手動のライフサイクル移行に大きく依存するストレージでは、ここで足かせになり始めます。Wasabiは、データを異なるストレージクラスに移動させることなく、大規模なオブジェクトの不変性とバージョニングをサポートします。データセットは安定してアクセス可能な状態を保ち、チームはガバナンスを維持したまま迅速に開発を反復できます。
検索拡張生成(RAG)RAGは、生成AIがもたらした最大のアーキテクチャ的変化の1つです。 RAGパイプラインは継続的に非構造化コンテンツを取り込み、強化し、埋め込みを生成し、推論中に関連するコンテキストを検索します。ベクトルデータベースは類似性検索には優れていますが、記録システムではありません。 アクセスにペナルティを与えたり、データ移動に高額な料金を課したりするストレージモデルは、分離されたRAGアーキテクチャを必要以上に脆弱にし、コストを押し上げます。Wasabiを使用すれば、未加工データや強化されたデータを耐久性のある「信頼できる情報源」としてオブジェクトストレージに保存し、反復アクセスにかかるコストを予測可能に保つことができます。
推論、フィードバックループ、継続的学習 推論はデータの増加を遅らせるどころか、加速させます。プロンプト、出力、ユーザーのやり取りは、監査、モデル評価、将来の再トレーニングのために保持される傾向にあります。時間とともに、推論データは次世代モデルの重要な入力となります。 Wasabiの容量優先の設計は、データ移行を強制したりアクセスにペナルティを与えたりすることなく、大量のデータ取り込みと長期保存をサポートします。
AI対応データレイクからAI駆動型ビジネスインテリジェンスへ
AI対応データレイクの構築は出発点にすぎません。真の価値は、そのデータが「使いやすくなる(照会しやすく、強化しやすく、日々の意思決定を加速する答えに変換しやすくなる)」ことで現れます。 社内的には、Wasabiのビジネスインテリジェンス(BI)チームは、WasabiオブジェクトストレージとSnowflakeを組み合わせてこのパターンを適用し、セールスチーム向けに生成AIレスポンスを提供しています。未加工の資産(PDF、プレゼン資料、ログなど)はオブジェクトストレージに保存され、長期間にわたって経済的にアクセス可能な状態を維持します。一方、Snowflakeは構造化されたインテリジェンス層として機能します。
なぜ生成AIは従来のストレージの常識を打ち破るのか
ほとんどのクラウド・オブジェクトストレージは、生成AIの世界では通用しない次のような前提に基づいて構築されていました:
データは一度書き込まれ、めったに読み込まれない
ストレージ階層化がコスト最適化の主な方法である
ストレージの経済性は、コンピュートの革新ほど重要ではない
データは単一のエコシステムに密接に結びついている
生成AIは、これらの前提の限界を露呈させます。再読み込みが高額になると、運用チームはクリーンなシステムを構築するのではなく、コストを回避するためのアーキテクチャ設計を始めてしまいます。
Wasabiは、以下の点を優先することでこれらの制約に逆らいます:
アクセスベースの価格設定よりも、予測可能な経済性
階層化の複雑さよりも、データの再利用性
特定のエコシステムへのロックインを防ぐ、柔軟でポータブルなアーキテクチャ
バックエンドサービスではなく、戦略的インフラとしてのオブジェクトストレージ
生成AI対応のオブジェクトストレージ・アーキテクチャ
トレーニングからRAG、推論に至るまで、共通のアーキテクチャパターンが現れます:
オブジェクトストレージが耐久性のある「記録システム」として機能する
コンピュート層はモジュール式で交換可能にする
メタデータ、不変性、アクセス制御はストレージ層で適用される
派生した生成物は使い捨てで再生成可能にする
アーキテクトとプラットフォームチームにとっての意味
生成AIプラットフォームを構築する場合、以下の点が不可欠となります:
ストレージを後回しにせず、最優先の依存関係として扱う
データの再利用を容易かつ手頃な価格にする
未加工データは「永続的」、派生アーティファクトは「使い捨て」として扱う
経済性がシステム開発の反復(イテレーション)を妨げるのではなく、可能にするようにする
オブジェクトストレージは、もはや単なるデータの保存場所ではありません。システムが迅速に動き、ガバナンスを維持し、コストのサプライズなしに拡張できるかどうかを決定づける重要な要素なのです。
新興のAIワークロードは、常識に逆らうストレージを求めている
生成AIシステムは、反復、再利用、そして洗練を重ねることで向上していきます。アクセスにペナルティを与えたり、厳格な階層化を強制したり、データをコンピュート層に密接に結びつけたりするストレージアーキテクチャは、あらゆる段階でそうした現実と相反してしまいます。
従来のクラウドストレージモデルの常識に逆らうことで、Wasabiはオブジェクトストレージを、AI対応データレイクから本番環境の生成AIシステムに至るまで、新興の生成AIワークロードの実際の動作と適合させています。これにより、チームは技術的、運用的、そして経済的に長期にわたってスケールできるプラットフォームを構築できるようになります。
年末は立ち止まって一年を振り返る時期です。高等教育機関のITおよびセキュリティ担当者にとって、2025年は真のセキュリティコストが浮き彫りになった年でした。この影響は予算だけでなく、チームの在り方やデータの保存場所に関するあらゆる意思決定にも及んでいます。こうした背景を踏まえ、高等教育におけるサイバーレジリエンスについて、この1年間で明らかになったことを見ていきましょう。より巧妙化し、頻繁になるサイバー攻撃2025年は大学や高等教育機関に対する攻撃が増加し、平均して、教育機関は1組織あたり毎週4,388件のサイバー攻撃を受けました。これは世界平均の2倍以上であり、前年と比べて31%増加しています(DeepStrike)。もし、大学キャンパスが常に標的にされているように感じている方がいる場合、それは気のせいではありません。ランサムウェアの主な原因は、人為的ミス(PEBKAC: Problem Exists Between Keyboard and Chair)であることは以前から変わっていません。また、主な攻撃手段としてはソーシャルエンジニアリングが挙げられます。送信者がネイティブスピーカーではないことが一目瞭然な、不自然な文章のフィッシングメールやテキストメッセージは誰もがご存じでしょう。しかし、この状態は急速に変化しています。攻撃者はAIを活用し、より洗練かつパーソナライズされた、一目で見破ることが困難なメッセージを作成するようになりました。毎日大量に届くメッセージの一つ一つを精査する時間的な余裕がない場合、これは大きな問題となります。AI以外にも、RaaS(Ransomware as a Service)といったものも存在します。これはいわばサブスクリプション型のサイバー犯罪であり、攻撃者に新たな手段を提供しながら攻撃のハードルを下げています。特に高等教育機関は標的となる要素が非常に多いため、こうした状況を深刻にとらえる必要があります。教育機関には学生の記録だけでなく、応募者の財務情報、教職員のデータ、寄付者や卒業生のリストなど、詐欺行為の温床となりうる情報が豊富に存在します。さらに、高度な研究、特に医薬品や軍事用途に関連する研究などが加われば、機密性の高い知的財産の宝庫となります。さらに、サイバー犯罪者の目的はもはや身代金だけに留まりません。政治的・社会的・学術的な理由で大学を攻撃するハクティビストも増えています。この場合、入学データ、研究プロジェクト、さらには入学選考の結果までもが標的になり得ます。高い知名度と資金力のある名門大学は特に魅力的なターゲットであり、脅威の状況は一般的なランサムウェア以上に複雑になっています。IT予算の縮小とスキル不足によるセキュリティリスクの上昇高等教育には、低コストで幅広いセキュリティを実現するというプレッシャーが存在します。EDUCAUSEによると、高等教育機関の42%が2025~2026年度にIT予算の減少を見込んでいます。同時に、大学キャンパスでは学期ごとに新しいユーザーが大量に追加され、IT職の離職率も比較的高いため、環境のパッチ適用、監視、セキュリティ維持がより難しくなっています。Dellと共同で作成したeBook「The...
Veeamが新たにリリースしたSoftware Applianceには、バックアップインフラにおける構築や保護の変化が反映されています。これにより、安全なデフォルト設定、自動パッチ適用、組み込みの不変性を備えた状態で、強化されたLinuxベースのバックアップシステムを導入できるようになりました。また、一貫性があり再現可能なプロセスでの管理も行えることで、運用効率とベースラインセキュリティが大幅に改善しました。しかし、レジリエンスは導入だけで完結するものではありません。Veeam Software ApplianceにWasabi Hot Cloud Storageを組み合わせることで、データセンターを超えた保護が実現します。つまり、安全で予測可能かつコスト効率が高い保護を、独立して管理されるクラウド層に拡張することができるようになりました。この重要性を理解するには、サイバーレジリエンスの真の意味、従来のバックアップとの違い、そしてサイバーレジリエンスが現在、効果的なデータ保護戦略の基準となっている理由などを踏まえて、基本に立ち返る必要があります。今、サイバーレジリエンスがなぜ重要なのかサイバーレジリエンスは、サイバーセキュリティの単なる言い換えではありません。これは、いかなる障害が発生した場合でもシステムの稼働とデータの信頼性を維持するためのより幅広い取り組みを指す用語です。また、サイバー攻撃、停電、ソフトウェアパッチの失敗、夜中の人為的な単純ミスなど、原因を問わず障害に耐え、迅速に復旧する能力を指します。そのため、サイバーレジリエンスは現代のデータ保護の指針として重視されています。Veeam Software Applianceは、ワークロードが実行される場所で一貫性があり安全な導入と自動パッチ適用を行い、レジリエンスを根本から強化します。Wasabiは、その保護をオフサイトへと拡張し、復旧用データを検証可能な状態で安全に保管します。これにより、攻撃だけでなく、現実世界で起こりうるあらゆるトラブルに備えた、完全なエンドツーエンドの戦略が構築されますVeeam Data...
多くのCISOは、データストレージをあまり重視していません。アイデンティティ管理、アクセス制御、検知、ガバナンスを同時に管理する立場では、何かしらの問題が起きない限り、背後で働くインフラにまで目が届かないのです。そのため、サイバー脅威が発生したり、最悪のタイミングでバックアップが失敗したりして初めて、ストレージに意識が向けられることになります。実のところ、レジリエンスは単にバックアップ頻度だけの問題ではありません。重要なのは、データがどれだけ適切に保護されているか、そして問題が発生した場合にどれだけ迅速に復旧できるかという点です。そのためストレージの保存先は、ファイアウォール、エンドポイント、アクセス制御と同じく非常に重要です。ストレージが不変性、アクセス性、そして手頃なコストでテストを行える状態を考慮して構築されていない場合、想像以上のリスクを負うことになります。今こそ一歩下がって、全体的なレジリエンス計画におけるストレージの役割を見直すチャンスです。以下の質問をチームに投げかけることで、重要なタイミングで組織が効果的に回復できる状態かどうかを確認することができます。1.自社のストレージは本当にビジネスリスクを下げているか?バックアップは、ただ作成するだけで評価される傾向にあります。チェックリストを満たして監査に対応することで、安心感が生み出されるためです。しかし、その安心感がレジリエンスになるわけではありません。本質的なポイントは、バックアップがどこに保存されてどのように保護され、問題が発生した際にどれだけ確実に復旧できるかということです。つまり、ストレージをリカバリ戦略の基盤として考えてみてください。あらゆるバックアップの保存先となるストレージの復元力が不十分だった場合、データ保護計画も脆弱になります。真にサイバーレジリエントなストレージは、攻撃者、内部関係者、さらには運用コストに足を引っ張られず、クリーンな復元を可能にする安全性と耐久性を兼ね備えています。まず、バックアップデータが主要な運用システムから分離されたセカンダリストレージに保存されているかどうかを確認しましょう。次に、アーキテクチャ自体を詳しく調べます。イミュータブル機能によって、データの保存期間が終了するまで変更や削除ができない状態になっていますか?AES-256などの最新標準を使用して、転送中および保存中のデータが暗号化されるようになっていますか?多要素認証(MFA)によって、アカウントへのアクセスが安全に管理されていますか?単一の認証情報でバケットやアカウントを独自に削除されないように、マルチユーザー認証(MUA)などの機能を導入していますか?こういった制御があるかどうかで、レジリエンスが迅速で検証可能なものになるか、高額な割に不確実なものになるかが分かれます。また、依然としてゴールドスタンダードとして挙げられるのが3-2-1-1-0ルールです。これは、3つのデータコピーを2種類の媒体に保存し、そのうち1つはオフサイトに、もう1つは不変の状態に保つ手法で、復旧後のエラーをゼロにすることを目的としています。ストレージがこれらの条件を満たしていない場合、ダウンタイムのリスクがあるだけではありません。この状態では単にレジリエンス戦略を夢見ているだけで、実際には何も整っていないことを意味します。2.理論的にではなく、実際にテスト可能なレジリエンスを構築しているか? すべてのストレージがレジリエンスを前提としているわけではなく、リスクの恐れがあります。データのバックアップは多くの環境で問題なくできても、「データを復元する」のは非常に困難です。いくつかの重要な機能があるかどうかで、いつでも復旧できる状態になるか、それとも時間との戦いになるかの違いが生まれます。まず土台となるのが、クラウドオブジェクトストレージです。これは耐久性、拡張性、リージョン間の冗長性を考慮して設計されており、単一の障害で全体が停止することを防ぎます。問題が発生した際に業務を安定させるバックボーンとなる存在です。続いて、基本的な要素が揃っているかどうかを確認します。イミュータブル機能:データを書き込み後、保持期間が終了するまで不変性が維持される機能です。これにより、ランサムウェアや誤削除からクリーンなコピーを保護することができます。あらゆる場所での暗号化:AES-256などの強力な最新標準によって、転送中および保存中のデータを暗号化しましょう。また、最も簡単にデータ流出を防ぐため、キーを定期的にローテーションすることも重要です。ゼロトラストアクセス:ストレージは、自社の他環境と同じ原則に従う必要があります。つまり、暗黙の信頼は置かず、誰一人としてすべてを削除できる権限を持たせないことが重要です。マルチユーザー認証では、データ損失につながりうるアクションに対して複数の承認を要求することで、これを実現します。手頃なコストの復旧テスト:高額なAPI料金や下り転送料が課せられる場合、十分な頻度でテストが行われなくなります。定期的かつ妥協せずにテストを繰り返してこそ、データの復元が可能になります。また、テストを行うことで、復旧スピード以外に2つの基本事項を確認することができます。想定するデータが本当にバックアップされているかどうか、および、そのデータは実際のインシデント発生時に回復する必要がある内容かどうかということです。以上のポイントはそれぞれ、復旧チェーンの異なる部分を守ります。すべてが組み合わさることで、データの完全性、アクセス性、復元可能性という、レジリエントな組織に不可欠な3つの要素が保証されます。3.予算内かつSLAを守りながら復旧できるか?どんなに優れた防御策であっても、決して失敗しないということはあり得ません。ポイントは、問題が発生した際の復旧速度です。これによって、ビジネスへの影響が軽度なものでおさまるか、大規模な停止に陥るかが決まります。復旧計画がきちんと文書化されている場合でも、それが実行可能かつ、十分な頻度でテストされていなければ意味がありません。まず、ストレージとバックアップシステムがフェイルオーバーをどのように処理するかを確認します。重要なアプリケーションを迅速に復元できる状態か、もしくはデータがどのクラウド層に存在するかによって復元時間が異なるかどうかを確かめましょう。また、コストについても正直に向き合う必要があります。コールドストレージは一見、お手頃で良い選択肢に思えますが、大規模な復旧時に役に立たない場合があります。高額な下り転送料が掛かったり、インシデント発生時にデータ取得するために何時間も待たされたりすると、節約したコストもすぐに消えてしまいます。続いて、アクセスやリカバリにかかる時間について、ストレージプロバイダーのサービスレベル契約が社内のRTO(目標復旧時間)と一致しているかどうかを確認しましょう。RTOは、インシデント発生後にシステムとデータをどれだけ早くオンラインに復旧できるかを示すものです。そのスピードによって、業務停止の長さ、失われる信頼や収益、そして問題に対処できたと証明するまでの時間が左右されます。次に、RPO(目標復旧ポイント)です。ここではより具体的に、最後のバックアップからどのくらい遡ってデータを復元できるかを確かめます。これは、バックアップがどのくらいの頻度で行われるかによって完全に異なります。ストレージコストが経済的かつ予測可能であれば、頻繁にバックアップをすることでデータ損失の可能性を減らすことができます。コストが原因でバックアップの間隔を長くせざるを得なくなった場合、その分リスクが増大します。最後に、テストの頻度とコストを確認します。復旧テストは少なくとも四半期ごと、ビジネスのなかで重要もしくは更新頻度が高いシステムの場合は、より頻繁に行う必要があります。下り転送料またはAPI料金が課されるストレージプロバイダーを選んでいた場合、復旧テストの頻度は次第に減っていきます。テストが行われなくなることは、その分の信頼も低下することを意味します。費用もしくは時間がかかりすぎるテスト計画は、単なる机上の空論に終わります。定期的かつ手頃な価格でテストを実施することで、サイバーレジリエンス戦略のあらゆる側面が裏付けられます。4.自社のストレージがコンプライアンスと監査の要件を満たしているか?コンプライアンスは単なる形式的なものではなく、制御が機能していることを証明する責任を担います。ストレージはこの点において、多くの人が認識しているよりも大きな役割を果たしています。まず、組織に適用される規制と内部ポリシーを確認します。HIPAA、FERPA、GDPR、SOXなどのフレームワーク、またはPCI DSS、CJIS、FedRAMPなどの業界標準は、データ保持、プライバシー、セキュリティの領域で重なり合う部分が多くあります。これは、データの保存場所、暗号化、アクセス方法など、あらゆるストレージの決定がコンプライアンスに関わることを意味します。また、新たなEU規制により、監視がさらに強化されました。サイバーレジリエンス法とEUデータ法は、サイバーセキュリティ、データガバナンス、透明性に関する新たな義務を課しています。これらは、データの保存および保護方法を示すだけでなく、レジリエンスと信頼性の基準がより広範かつ世界的に引き上げられたことを反映しています。そのため、ストレージはコンプライアンスを実際に満たす機能を備えている必要があります。以下の要件を満たすかどうか、ストレージチームと確認してください。保持と不変性:規制の対象となるデータは、保存期間全体にわたって保持され、変更または削除できない状態になっていますか?イミュータブル機能とバージョン管理を導入することで、監査が求める保証が提供されます。暗号化とキー管理:機密データは、AES-256などの強力な最新標準を使用して、転送中・保存時に暗号化されていますか?キーは定期的にローテーションされ、ストレージ資格情報とは異なるキー専用管理サービス(KMS)で管理されていますか?ゼロトラストの原則:ストレージ環境では、管理アクションに対して最小限の権限、継続的な検証、職務の分離が課されていますか?MUAなどの機能を通して、内部リスクを減らすことができます。監査への準備と可視性:監査の際、データアクセス、保持、復旧に関するエビデンスをどれだけ迅速に提示できますか?ログとメタデータは、規制当局の基準を満たしていますか?これらのポイントの中で何かしらの不明点がある場合は、そこをさらに深掘りする必要があります。暗号化、不変性、専用キー管理、透明性のある監査ログをサポートするストレージは規制要件を満たすだけでなく、セキュリティとコンプライアンス全体にわたる信頼性を強化します。まとめレジリエンスは偶然手に入るものではありません。不可避のトラブルを想定した計画・テスト・適応を通し、意図的に積み重ねてゆくものです。ストレージはレジリエンス全体において目立つ要素ではありませんが、残りの部分がどれだけ早く復旧できるかを決定づける存在です。本稿で取り上げた不変性、アクセス、テスト、コンプライアンスに関しての質問は、今後の対応が可能かどうかを確認する指針となります。こういった問いかけに答えられない部分があったとすれば、そこが着手し始めるべきポイントということです。レジリエンスはただ考えるだけでなく、検証があってこそ構築されます。復元をテストすることで、最悪の事態が発生した場合でも組織が事業を継続できるという自信につながります。...
