コラム

SEのためのストレージ講座

第12回 ストレージシステムの課題~データ急増への対応~

更新

IT基盤のストレージの役割や課題から仮想化・統合化まで、CTCのエンジニアが解説します

著:クロスファンクショングループ プロダクトマーケティング室
インフラソリューション推進部 菅 博

すでに述べたように、データはエンタープライズから一般消費者に至るまで、いろいろな場所で重要な意味を持つようになっていますが、それ故にストレージにはいくつかの課題があります。

基本的なところで言えば、データが増えている事によるストレージ容量の不足という問題があります。また、ある種のデータは外部に漏れないように安全に管理されることが求められます。さらに、データはある場合に証拠として意味のあるものとして提出の義務があったりします。

データが存在するのはストレージですから、こうした問題に対処するのがストレージ(もしくはストレージの周辺機器)の課題となります。この章では、ストレージの課題について要点を整理したうえで、次章からその具体的な対策方法を紹介していきます。

データ急増の現状

図1

国内のストレージ出荷容量は2005年から2010年の間に10倍になると予想されます。(IDC Japan 2006年)。管理すべきデータ量がこの勢いで増えていくことを意味しています。

ストレージ容量が10倍、データが10倍とはいいますが、その内訳がどのようになっているのかを次節以降で簡単に説明していきます。

構造化データと非構造化データ

データの種別は「構造化データ」と「非構造化」データに分類されます。「構造化データ」とはデータベースのようなアプリケーションによって管理されているデータを指しています。データへのアクセスと管理は常にアプリケーションを介して行うことが前提となっているので、この種のデータはアプリケーションの管理者によって定常的な管理がなされているのが普通です。

問題視されているのは「非構造化データ」で、これはアプリケーション管理ではない通常ファイルとして存在しており、文書、画像、音声などのコンテンツは全て非構造化データに含まれます。これらはファイルシステム上に置かれますが、適切な管理を行うことが非常に難しいために、どんどん増えていくという特徴があります。

実際、データの8割は非構造化ファイルであるという定説があり、データの増加に対処するということは、こうした非構造化ファイルをどのように適切に管理していくかということに等しいとも言えます。

データ種別の推移

20年ぐらい前までは、データと言えばほとんどが構造化データであり、個人がコンピュータを使ってコンテンツを作成するということは非常に稀でした。構造化データはアプリケーションによってのみアクセスされるため、容量の増大は比較的緩やかであり、ストレージ容量がすぐに大きな問題になることはありませんでした。

しかし、パーソナル・コンピュータとネットワークが普及すると、仕事でも趣味においても個人がコンテンツを作成するようになり、それらが配信・送信、複製・更新を重ねた結果として非構造化データがストレージの容量を圧迫するようになっています。こうした背景から、現在のデータの比率は構造化データと非構造化データの割合は2:8程度と言われており、圧倒的に非構造化ファイルが多いという事態となっています。

データ複製による増加

図2

2010年までにデータが急増する背景には、コンプライアンス(法令遵守)に対応するため、もしくは企業価値と信頼性を保証するためにデータの複製と長期保存が進むことがあります。

取引データが消失したり、過去の取引の履歴が参照できない事態が発生した場合に、法令違反となったり企業価値を著しく低下させることになりかねません。これに対応するために、バックアップの徹底やアーカイブ、さらには災害対策のためにデータを遠隔複製する動きが盛んになり、結果としてデータの二重持ちや三重持ちが生じるためにストレージ容量が2倍、3倍になっていきます。構造化データと非構造化データもどんどん新規作成されるため、これらの相乗効果がストレージ容量の増大させていくことになります。

アーカイブはバックアップと混同されますが、目的と用途が全く異なります。バックアップはデータのリカバリのために複製を作成することであり、データに異常がなければ古いバックアップデータはいずれ破棄されるのが普通です。これに対してアーカイブとは、古いデータであっても参照可能なように集約して管理することであって、日本語では「記録保存(保管)」と訳される場合があります。

記録保存とは古くは紙を保管することと同意でしたが、ITが当たり前の時代では古いデータであってもオンラインですぐに参照できることが求められるようになり、アーカイブという用語は、頻繁に参照する必要の無くなった古いデータをデジタルの形で保存することを意味するようになりました。バックアップテープの長期保管という手段もありますが、テープの場合には一度どこかにデータをリストアする相当な手間と時間が必要となるだけでなく、古いテープからの読み出しは失敗するケースも多いために、安定したアーカイブを実装するためにはストレージ内に貯蔵してオンラインでアクセスさせる手法が今では一般的になっています。アーカイブデータは、頻繁に参照されるオンラインデータとテープに入ってしまったオフラインの中間に位置するためにニアライン(Near Line)と呼ばれることもあり、アーカイブデータを貯蔵する専用ストレージをアーカイブ・ストレージと呼びます。アーカイブ・ストレージは大容量が求められますが、アクセス頻度を考えるとオンライン・ストレージ程の性能も必要としないため、SATAで構成されるのが普通です。

低価格化と大容量化の因果関係

ストレージの容量が増大している背景には、HDD自体の大容量化と低価格化があります。1994年に始めて容量が1GBを超えたHDDが登場したときには1GBが200万円でしたが、今や単体で容量が1TBのHDDも出現して価格は67万円という状況です。当然、ストレージ全体として大容量・低価格が進んだ事が、結果としてデータの増大を助長した形となっています。

データが増えた事への対処として、とりあえずストレージやHDDを買い足すことを繰り返すという悪循環に入りこんだ結果、データ管理が困難になっている状況が至るところで見られるようになりました。

コラム一覧のページに戻り、続きをお読み下さい。

  • このページについてツイッターでツイート(新しいウィンドウで開く)
  • このページをフェイスブックでシェア(新しいウィンドウで開く)

このコラムに関するお問い合わせはこちら

※記載内容は掲載当時のものであり、変更されている場合がございます。