DATA MANAGEMENT

AIとアーカイブの双方に適したストレージ

Sat Jun 28 2025By David Boland

AIについて確かに言えるのは、学習に大量のデータが必要だということです。大規模言語モデル(LLM)、画像生成、推奨アルゴリズムのために入力できるデータが多ければ多いほど、精度の高い結果につながります。しかし、AIは単にビッグデータを読み込めるだけでなく、私たちが所有する膨大な量のデータを理解するのにも役立ちます。

AIは、インデックス作成、カタログ化、画像認識を通じて強力な検索エンジンとなり、企業におけるデータの扱い方を再定義しました。つまり、AIエンジンを利用できるようになった途端に、ほぼすべての企業データが価値あるものとして見なされるようになったのです。長期アーカイブの「コールド」なデータでさえ、AIモデルを通せば貴重な洞察を得られる可能性があります。

アクティブアーカイブにおけるコールドデータの種類 

もちろん、組織にはアーカイブ以外にもさまざまなデータがあります。特にメディアを多用する組織では、新しいデータや積極的に利用するデータが絶えず流れ込む状況に対処する必要があります。しかし、コールドデータ資産を徹底的に理解し、その戦略的価値を最大限に引き出すことも重要です。 

Active Archive Allianceの年次レポートによると、コールドデータは主に以下の3つに分類されます。

  • 履歴データ:過去のプロジェクトや分析のために収集されたが、現在は積極的に使用および学習されていないデータ。更新されたデータによって置き換えられた、旧バージョンのデータも含まれる。

  • 長期コンプライアンスデータ:参照またはコンプライアンスの目的で保存されているが、進行中のAIタスクでは積極的にアクセスされないデータ。規制遵守や法的要件のほか、長期的な分析のために収集されたデータが含まれる。

  • 実験データ:主要なワークフローの一部としてではなく、実験目的または予備調査に使用されるデータ。これらのデータセットは参照用として保管されるが、実験が終了すると定期的にアクセスされることはない。

AIに適したアーカイブ環境を作成するコツは、AIパイプラインの各段階に適切なストレージを選択することです。Wasabiでは、データの取り込みとアーカイブの段階に重点を置いています。ストレージに求められるのは、効率的に拡張して膨大なメディアアーカイブを収容できることです。また、人間とAIの両方にシームレスなオンデマンドアクセスを提供しながら、低コストで実用的に実装できることも重要です。Wasabiは、これらの要素をすべて兼ね備えたクラウドオブジェクトストレージを提供します。さらにWasabiはこの度、Active Archive Allianceに最新のクラウドオブジェクトストレージベンダーとして参加いたします。

コスト要因 

アーカイブに携わる方であれば、「安価で大容量」という表現で販売されるアーカイブストレージを目にしたことがあるかもしれません。「安価で大容量」なクラウドストレージは、テラバイトあたりの初期コストが低いかもしれませんが、予期しない隠れたコストが発生し、全体の価格が急上昇することがよくあります。

クラウドオブジェクトストレージの領域では、ストレージに支払う料金をはるかに上回るデータアクセス料金や利用料金が発生する可能性があります。実際に、Wasabi 2025 Cloud Storage Index Reportによると、ストレージ料金の半分近くがストレージ以外の料金に充てられていたケースも確認されています。安価なコールドストレージ層では、データアクセスのインスタンスごとに料金が請求されます。そのため、1,000件あたりわずか1セントなど、少額の料金設定の場合でも、合計額がすぐに膨らんでしまいます。

こう言ったケースは、特にAIを扱う際に当てはまります。AIは、新しいモデルの学習や微調整の目的で、アーカイブデータへ定期的にアクセスします。AIを活用したアクティブアーカイブ戦略を検討している組織は、クラウドストレージを選択する際、お買い得に見える製品にも注意を払う必要があります。データへのアクセスやデータ移動に高額な料金を課して予算を圧迫することのないストレージプロバイダーを検討しましょう。

Wasabiを選ぶメリット

Wasabi Hot Cloud Storageは、高い可用性・コスト効率・安全性を備えたクラウドオブジェクトストレージです。私たちは、価格・パフォーマンス・サイバーレジリエンスを兼ね備えてアクティブアーカイブに最適なソリューションを提供します。

Wasabiは、Active Archive Allianceの最新クラウドストレージプロバイダーとして、お手頃な価格で高いパフォーマンスを提供します。3月19日に開催されたAI Virtual Showcaseでは、AIとアクティブアーカイブの関係性について講演いたしますので、ぜひご来場ください。

AIデータの保存とアーカイブ

Wasabiは、初期データの取り込みからAIモデルの長期保持まで、AIパイプラインの効率性、安全性、コスト効率を確実に維持します。

詳細はこちら(英語)
tape storage array
DATA MANAGEMENT慣性との戦い:LTOからクラウドオブジェクトストレージへの移行

AIゴールドラッシュによるクラウド予算の圧迫とその主な要因

AIや自動化ワークフローがビジネスにもたらすメリットを求めて競い合う「AIのゴールドラッシュ」の時代が到来しています。テクノロジーからできるだけ多くの価値を得るべく、企業はGPU、高価なモデルライセンス、派手なツールに多額の資金を投じています。しかし、コンピューティングに重点を置くあまり、多くの企業がAI競争に潜む隠れたコストを見落としています。AIモデルは、学習や推論を実行する段階で大量の非構造化データを必要とします。クラウドはこうしたデータの保存に適していますが、データの移動や管理によって想定外に高額なクラウド料金が発生する場合があります。AIは未来そのものであり、企業はデータにアクセスして処理し、重要な洞察と価値を引き出せるようになる必要があります。組織内でAIの目標を達成するには、AI向けクラウドコストの最適化が必須です。データ量の多いAIワークロードでは、ストレージに費用を支払いすぎている可能性が高いAIはデータを大量消費することで知られています。現在広く使われているLLMは、公開されているインターネットから情報を収集し、それを抽出・凝縮する学習を通して、質問に答えたり推論を行ったりするAIモデルです。組織がAIパイプラインを開発する際、生成AI、マルチモーダルなワークフロー、RAGアーキテクチャは、真の価値を提供するために膨大な量のデータにアクセスする必要があります。さらに悪いことに、このデータの大半を非構造化データが占めています。外部データと組織内の知見や知的財産が組み合わさることで、競争優位を生み出されます。このデータへのアクセスは、AIライフサイクルのあらゆる段階で欠かせない要素です。AIモデルは大量のデータを取り込み、それを学習してモデルの重みに圧縮します。AIシステムの日常的な使用中にモデルのバージョン管理や推論を実行するためにも、モデルの重みやデータソースへのアクセスを必ず行う必要があります。多くの場合、企業のAI予算はコンピューティングを重視し、学習や推論を高速かつ十分な容量で実行できることを条件としています。しかし、大規模なデータセットへ一貫した高性能なアクセスが求められることで、AIのコストが劇的に増加し、予算が枯渇する可能性があります。見落とされがちな隠れたコストAIワークロードのなかでも分かりやすいコストとしては、GPUへの投資、モデルのライセンス、ツール、AIデータセットの基本ストレージコストなどが挙げられます。しかし、AIソリューションのデータ保存と管理に関連する隠れた料金については、多くの企業が気づいていません。ここでは、その主な要因を詳しく掘り下げます。頻繁なデータ移動マルチクラウド環境では、用途ごとに最適なソリューションを選択するため、ストレージとコンピューティングが同じ場所に配置されないことがよくあります。その結果、データレイク、アーカイブ、GPUクラスター間でデータが移動するたびに高額な下り転送料が発生する場合があります。下り転送料とAPI料金AIシステムは、特に学習や推論を実行する際にデータを必要とします。下り転送やAPIリクエストに課金するストレージプロバイダーを利用していた場合、これらの料金は急速に積み重なり、予期せぬ大きな負担となります。過剰なストレージ使用AIデータは非構造化されていることが多く、組織が保有するデータの内容と保存場所を把握しづらい状態にあります。その結果、データの重複コピーが生まれ、不要なストレージ使用と料金が発生します。非効率的なメタデータ構造化データと効率的なメタデータが不足していると、クラウドストレージ内で必要なデータを探しにくくなります。その結果、AIシステムは全量スキャンや過剰なデータ取得を強いられ、追加のアクセス料金が発生するとともに、AIワークフロー全体の効率が低下します。こういった隠れコストの多くは、AI対応ワークフローのコア機能に直結しているものの、予測や管理が難しい傾向にあります。そのため、気づかないうちにAI予算が圧迫され、支出超過に陥ったり、AI戦略のなかで別の要素を削減をせざるを得なくなったりする可能性があります。AIストレージを再考する:シンプル、予測可能、パフォーマンス重視AIの隠れコストを管理するには、コンピューティングと同じレベルの戦略的な考え方をデータストレージ設計にも適用する必要があります。AIストレージのコストを管理するためのベストプラクティスには、以下のようなものがあります。シンプルかつホットなストレージ:AIシステムを利用する際、どのようなデータにどのくらいの頻度でアクセスする必要があるかを正確に予測するのは困難です。高性能で常に利用可能なホットストレージにAIデータを置くことで、予期しないアクセスパターンによる潜在的な取得遅延や、予想外のコスト増加を回避できます。定額課金:データへのアクセスやストレージ環境およびコンピューティング環境間のデータ移動に料金が発生し、API料や下り転送料がAIコスト超過の主な要因となる場合があります。定額課金モデルのクラウドストレージを利用すれば、予測可能性が高まり、知らないうちにクラウドコストが上がってしまう状態を防げます。不変のストレージ:AIモデルは、入力データ・重み・来歴情報・監査記録などの高価値データに依存していますが、これらはランサムウェアの格好の標的になります。イミュータブルストレージを利用することで、悪意ある変更のリスクを排除し、データを保護します。メタデータのインデックス作成と検索性:AIデータの大部分は非構造化データであるため、学習や推論に必要な情報を見つけるのが困難な場合があります。インテリジェントなメタデータインデックス化を行うことで、必要なデータを迅速に特定し、重複アクセスやデータ探索に伴うコストを削減します。多くの企業はクラウドコストが正確に予測できておらず、AIストレージのコストが超過しています。ストレージ設計を賢く実装すると、隠れた料金を回避できるだけでなく、より効率的なデータアクセスによってAIワークロードの運用効率を高めることもできます。よりスマートなAIストレージが収益にもたらす影響コスト効率の高いAIストレージを知的かつ意図的に設計することで、AI投資のビジネス効果を最大化することができます。AIストレージに重点を置く実務的なメリットとして、以下のような点が挙げられます。キャッシュフローの明確化API使用料やデータ下り転送料などの隠れた予測不可能な料金によってAIコストが圧迫されることは珍しくありません。AIシステムは、多数の小さなデータに対して頻繁にアクセスします。最適化されたAIデータストレージにより、企業はAIストレージへの支出をより正確に予測できるようになります。 運用効率構造化・インデックス化されていないデータは、データの検出を遅らせ、重複アクセスを引き起こします。データの保存場所が曖昧な場合、すべてのデータをダウンロードしてシステム内を検索する必要がありますが、この方法では時間もアクセス料金も発生します。メタデータをインデックス化することで、AIツールで必要なデータをより迅速に特定することができるようになり、反復処理が高速化し、エンジニアの生産性が向上します。戦略的なレジリエンスイミュータブルかつインデックス化されたストレージは、不正な変更からデータを守り、データアクセスを簡素化します。これがなければ、ランサムウェアへの脆弱性が高まり、規制遵守、監査、AIモデルの再トレーニングに必要なデータを見つけられない恐れがあります。まとめAI導入は競争となっており、明確な勝者と敗者が存在します。一部の企業は、GPUをアップグレードしてコンピューティングに投資することで「ゴールドラッシュ」の波に乗り、より高速なデータ処理を活用して優位性を獲得しています。一方、ストレージ戦略が原因で気づかないうちにアクセスやデータ取得料金が超過し、足を引っ張られる企業もあります。AI戦略を設計またはレビューする際には、データの移動、料金体系、メタデータ設計などのストレージワークフローを確認し、潜在的な非効率性や隠れたコストを見つけることが重要です。その際、ストレージ層がビジネスに価値をもたらしているか、AI戦略の他の要素からリソースを奪っていないかを確認する必要もあります。...

クラウドオブジェクトストレージがAIチームの注目を集める5つの理由

昨今のAIチームは、クラウドオブジェクトストレージで増え続けるデータを保存および管理し、AIモデルのトレーニング、微調整、運用に役立てています。この理由は非常に明快で、機械学習パイプライン、検索拡張生成(RAG)、推論を含むAIワークロードの多くが非構造化データを好み、オブジェクトストレージはこういった煩雑な情報やメタデータの保存に最適であるためです。現在、画像・動画・メール・文書・センサーログなどの非構造化データが、企業データの80%以上を占めています。しかし残念ながら、こうしたデータの多くはサイロ化しているか、AI向けではないシステムに保存されている場合がほとんどです。そのため、貴重なデータを一元管理することができるクラウドオブジェクトストレージがAIチームの関心を集めています。クラウドオブジェクトストレージは高い拡張性とコスト効率を備え、非構造化データを簡単にAIへ適応させることができます。本ブログでは、クラウドオブジェクトストレージがAIワークロードに適している理由についてご説明します。1. AI導入のコストとリスクを削減AIイニシアチブの立ち上げには、コンピューティング、ストレージ、人材への多大な投資が必要です。従来のオンプレミスインフラでは、特にストレージに関して初期段階で多額の設備投資が求められる傾向があります。これは、初めてAIを導入するチームにとって現実的とは言えません。一方、クラウドオブジェクトストレージの場合は設備投資(CapEx)の代わりに従量課金制を採用しており、ニーズに応じてストレージコストを調整できます。これにより、新しい高価なインフラに全財産を投じずとも、パイロット運用、新しいモデルのテスト、戦略の調整が容易に行えます。AIの実験段階でクラウドオブジェクトストレージを使用することで、ハードウェア構築のコスト負担がない状態で迅速に作業を開始できます。2. 予算内での拡張を実現AIワークロードは大量のデータを消費し、非常に動的になる傾向があります。そのため、プロジェクトが進化し、新たな変数が導入されるにつれて、ビジョンモデル、大規模言語モデル(LLM)、微調整のサイズが肥大化することがよくあります。これによって、データ量だけでなく求められる容量も予測できないほど急増する可能性があります。クラウドはこのような成長にも対応し、柔軟に拡張します。例えば、来週に容量を2倍にする必要がある場合でも、クラウドオブジェクトストレージを使えば業務を中断せずに対応することが可能です(オブジェクトストレージを使用してデータの急増を管理する方法はこちら)。ただし、AIワークロードはAPIを集中的に消費する可能性があるため、クラウドオブジェクトストレージプロバイダーを選択する際には注意が必要です。再トレーニング、推論、パイプライン自動化が同じデータセットから繰り返し行われると、APIリクエストなどの手数料が急速に増加する恐れがあります。お手頃かつ予測可能なコストで大規模なAIデータを保管するには、使用量に基づいたシンプルな価格設定のプロバイダーを探す必要があります。3. いかなる場所でも最高のコンピューティングリソースを活用最新のAIワークロードはモジュール化されています。多くの場合、チームはクラウドでコンピューティングを実行したのち、別のクラウドでオーケストレーション処理を行い、内部および外部ソースからデータを取得します。そのため、コンピューティングとストレージを単一の環境に閉じ込める手法はもはや現実的ではありません。そこで、ストレージをコンピューティングから分離すれば、各ワークロードに最適なツールとクラウドを柔軟に使用できるようになります。S3互換のオブジェクトストレージは、パブリッククラウド、ハイブリッド展開、特殊なGPU環境ともスムーズに連携します。これにより、制限のない状態で、特定のニーズや市場に応じてコンピューティング環境とストレージ環境を組み合わせることが可能になります。クラウドオブジェクトストレージは、AIアーキテクチャに含まれるGPUファーストのクラウド、オンプレミスのデータセンター、コンテナ化されたアプリ、連携済みのデータパイプラインを柔軟に結び付けます。4. データサイロを解消し、AIパイプラインにデータを供給AIモデルには、単なるデータだけでなく、コンテキストが豊富な大量の非構造化データも必要です。しかし多くの組織では、こういったデータはAIワークフローに接続されていないレガシーシステム、部門サーバー、コールドアーカイブなどに閉じ込められています。オブジェクトストレージは、こうしたサイロを解消するのに役立ちます。オブジェクトストレージで大規模な非構造化データの取り込みを行うことで、AIパイプラインの各フェーズ(トレーニング、微調整、推論など)にわたって画像、動画、ログ、ドキュメントなどの資産にアクセスできるようになります。また、フラットなメタデータ主導アーキテクチャにより、特定のデータサブセットを迅速かつ効率的にタグ付け、クエリ、取得できるため、場所やタイミングを問わずAIモデルに必要な情報を容易かつ正確に提供することが可能です。AI向けに企業データを統合する際は、クラウドオブジェクトストレージを利用することでデータを使いやすくアクセスしやすい環境が実現します。5. AI資産を保護し、レジリエンスを確保独自のモデルを構築する場合でも、機密性の高い顧客データを使用して微調整する場合でも、コンプライアンスや将来の再トレーニングのために出力をアーカイブする場合でも、取り扱うコンテンツの保護は必須です。クラウドオブジェクトストレージは、データの耐久性、不変性、地理的な冗長性を強力にサポートします。また、オブジェクトロック、バージョン管理、ネイティブ暗号化(保存時および転送中)などの機能によって、データの改ざんや不正アクセスを防ぎます。さらに、GDPR、HIPAA、FERPAなどの業界標準および規制へも準拠します。こういった状態を保つことは、AIチームにとって単なるセキュリティ以上のものを意味します。AIモデルを再構築、再トレーニング、または再検証する必要がある場合、クラウド内に信頼性が高くイミュータブルなデータソースがあるかどうかは非常に重要です。スケーラブルで持続可能なAIの基盤ストレージ戦略は、AIイニシアチブの速度、コスト、成功に大きな影響を与えます。大規模言語モデル(LLM)の試験運用や、企業全体における検索拡張生成(RAG)ベースのアプリケーション拡張などを行う際は、それに対応しうるインフラが必要です。クラウドオブジェクトストレージは、昨今のAIに合わせて構築されています。また、大規模な非構造化データを処理し、あらゆるコンピューティング環境と簡単に統合でき、多額の先行投資も必要ありません。さらに、取り込みから推論、アーカイブに至るまで、データパイプラインの進化に合わせて適応できる柔軟性も備わっています。多くのプラットフォームがオブジェクトストレージを提供していますが、すべてがAI向けに最適化されているわけではありません。ハイパースケーラーを利用した場合、複雑な価格設定で下り転送料やAPIリクエスト料金がかかり、コストが予測不可能になる傾向があります。これにより、実験が停滞し、総所有コストが押し上がる可能性があります。一方、Wasabiは高性能かつS3互換のクラウドオブジェクトストレージによってこれらの障壁を排除します。また、Wasabiでは従量課金制を採用しており、容量に対して定額料金が設定されているため、下り転送料やAPIリクエスト料などの手数料は一切かかりません。Wasabiのセキュリティに対する多層防御アプローチでは、不変性と、業界初の機能であるマルチユーザー認証が手数料なしでご利用いただけます。これにより、たとえ管理者であっても、複数の承認なしにストレージバケットやアカウント全体を削除することができなくなり、重要なAIデータの保護がさらに強化されます。こういった条件を加味して、より多くのチームがデータ集約型のAIイニシアチブをサポートする際にWasabiを選択しています。...

ランサムウェアの究極の防衛線、「Covert Copy」の登場

データは今やビジネスにおける主要な通貨となっており、それゆえに攻撃者の主要な標的となっています。ランサムウェアの増加、内部脅威の深刻化、そしてコンプライアンス要件の厳格化に伴い、企業は攻撃者に決して侵害されることのない安全策を必要としています。12月2日(火)、Wasabiは「Covert Copy(コバート コピー)」を発表しました。これはWasabi Hot Cloud Storageの特許出願中の新機能であり、ユーザーが選択したストレージバケットに対して、ロックされた不可視(隠し)コピーを作成できるようにするものです。この保護されたコピーにより、万が一ランサムウェア攻撃を受けたとしても、重要なデータは手つかずのまま確実に守られます。エンタープライズクラスの保護を、シンプルかつ手頃な価格でランサムウェア攻撃の主な手口は、ビジネスに不可欠な機密データの持ち出しと、それに続くデータの暗号化や破壊です。被害を最大化し、可能な限り高額な身代金を搾取するために、バックアップデータまでもが攻撃対象となっています。これまで、他のクラウドプロバイダーで「仮想エアギャップ」を実装するには、高度なセキュリティ知識やシステム知識に加え、複雑なツール、ポリシー、ルールの管理が必要でした。その結果、多くの顧客はリソースや時間を費やすよりも、リスクを受け入れることを選んでしまっていました。Covert Copyは、導入の合理化、つまりシンプルにすることでその複雑さを無くします。これはWasabi Hot Cloud Storageに含まれる機能であるため、ユーザーは保護したいデータを選択し、数回クリックするだけで保護プロセスを開始できます。ストレージレベルでの高度なデータ保護のセットアップと運用がシームレスに行えるため、ユーザーは何を保護すべきかを驚くほど簡単に選択できます。Covert...