ひとつのデータベース技術だけでは生き残れない - NoSQL - Hadoop 編 - Insight Technology, Inc. 新久保 浩二 1
1. Insight Qubeなる新プロダクト開発中 2. おら オラ Oracle どっぷり検証生活 2. Oracle ACE 3. @kouji_s_0808 4. JPOUG(Japan Oracle User Group) 本日はOracle以外の話です。 本資料に使用されている社名、ロゴ、製品、サービス名およびブランドは、該当する各社の登 録商標または商標です。本資料の一部あるいは全体について、許可なく複製および転載するこ とを禁じます。 2
• 企業は今後10年で50倍のデータ量 • ビッグデータの95%は非構造化データ • 一方、IT部門は1.5倍増にとどまる が含まれる。 http://enterprisezine.jp/article/detail/3394 • 2011年には1.8ゼタバイトのデータが作成、 複製されると予想 World's Data More Than Doubling Every Two Years—Driving Big Data Opportunity, New IT Roles • Googleは94テラバイト/月のデータ処 理(2010/6時点) ACM Symposium on Cloud Computing (SOCC) 2010 大量データ 高効率 多種類 高速 3
OLTP Oracle / DB2 / SQL Server 大手RDBMSベンダーの 進出が著しいエリア PostgreSQL / MySQL Teradata / Netezza / Sybase IQ GreenPlum / Vertica / VectorWise Hadoop (NoSQL) SIZE 4
複数のディストリビューション 本家(http://hadoop.apache.org/) Cloudera社(http://www.cloudera.com/) Yahoo!社 (http://developer.yahoo.com/hadoop/) 5
複数のコンポーネント(ごくごく一部) http://hadoop.apache.org/index.html HiveQL(SQLライクな言語)によるHDFS上のデータ操作 HDFS上で動作するKey-Value型データベース 分散処理フレームワーク Hadoopのprimary Storageとなる分散ファイルシステム Hadoopサブプロジェクトをサポートするライブラリを含むユーティリティ 6
• ビッグデータと呼ばれるデータの質を正確に認識する必要がある • 構造化 / 非構造化 • 利用シーン • ビッグデータへのアプローチは様々ある中で、最適なものを選択 していく必要がある • RDBMS / New RDBMS / NoSQL (Hadoop) • 新しい領域と新しい技術を組み合わせる場合、その技術を活用す るための情報量が少ない • 実際にビッグデータに対するプロジェクトの担当者に話を聞くの が最も効果的 7
8

[INSIGHT OUT 2011] b21 ひとつのデータベース技術では生き残れない part2 no sql, hadoop

  • 1.
    ひとつのデータベース技術だけでは生き残れない - NoSQL - Hadoop 編 - Insight Technology, Inc. 新久保 浩二 1
  • 2.
    1. Insight Qubeなる新プロダクト開発中 2. おら オラ Oracle どっぷり検証生活 2. Oracle ACE 3. @kouji_s_0808 4. JPOUG(Japan Oracle User Group) 本日はOracle以外の話です。 本資料に使用されている社名、ロゴ、製品、サービス名およびブランドは、該当する各社の登 録商標または商標です。本資料の一部あるいは全体について、許可なく複製および転載するこ とを禁じます。 2
  • 3.
    企業は今後10年で50倍のデータ量 • ビッグデータの95%は非構造化データ • 一方、IT部門は1.5倍増にとどまる が含まれる。 http://enterprisezine.jp/article/detail/3394 • 2011年には1.8ゼタバイトのデータが作成、 複製されると予想 World's Data More Than Doubling Every Two Years—Driving Big Data Opportunity, New IT Roles • Googleは94テラバイト/月のデータ処 理(2010/6時点) ACM Symposium on Cloud Computing (SOCC) 2010 大量データ 高効率 多種類 高速 3
  • 4.
    OLTP Oracle / DB2 / SQL Server 大手RDBMSベンダーの 進出が著しいエリア PostgreSQL / MySQL Teradata / Netezza / Sybase IQ GreenPlum / Vertica / VectorWise Hadoop (NoSQL) SIZE 4
  • 5.
    複数のディストリビューション 本家(http://hadoop.apache.org/) Cloudera社(http://www.cloudera.com/) Yahoo!社 (http://developer.yahoo.com/hadoop/) 5
  • 6.
    複数のコンポーネント(ごくごく一部) http://hadoop.apache.org/index.html HiveQL(SQLライクな言語)によるHDFS上のデータ操作 HDFS上で動作するKey-Value型データベース 分散処理フレームワーク Hadoopのprimary Storageとなる分散ファイルシステム Hadoopサブプロジェクトをサポートするライブラリを含むユーティリティ 6
  • 7.
    • ビッグデータと呼ばれるデータの質を正確に認識する必要がある • 構造化 / 非構造化 • 利用シーン • ビッグデータへのアプローチは様々ある中で、最適なものを選択 していく必要がある • RDBMS / New RDBMS / NoSQL (Hadoop) • 新しい領域と新しい技術を組み合わせる場合、その技術を活用す るための情報量が少ない • 実際にビッグデータに対するプロジェクトの担当者に話を聞くの が最も効果的 7
  • 8.