BigQuery についてのホワイトペーパーを公開しました
2012年11月14日水曜日
Posted by 山崎富美 Developer Relations Team
Google の Solutions Architect 佐藤一憲が "An Inside Look at BigQuery" というホワイトペーパー(英語)を公開しました。さっそく佐藤にインタビューを行いました。
Q: 今回のホワイトペーパーの概要を教えてください。
A: Google が今年 5 月にリリースした大規模クエリサービス Google BigQuery の技術詳細を解説したホワイトペーパーです。BigQuery では Google の超並列クエリサービス「Dremel」を使うことで、数 100 億件のデータの集計が数 10 秒程度で完了するという圧倒的なパフォーマンスを実現しています。このホワイトペーパーでは、Dremel の中核をなす技術「カラム指向ストレージ」の解説をはじめ、既存のビッグデータ処理技術である MapReduce や Hadoop、OLAP、データウェアハウス製品と BigQuery の違いについて明らかにしています。また、MapReduce と BigQuery のそれぞれをどのような用途に適用すべきか、どう組み合わせるべきか考察しています。
Q: このホワイトペーパーを書いた理由を教えてください。
A: 私が Google で仕事をはじめて驚いたことのひとつが、鬼のような速さでビッグデータの検索や集計を実行できる超並列クエリサービス「Dremel」の存在と、それが社内のさまざまな業務を支えるインフラとして浸透していることでした。このホワイトペーパーにも書きましたが、Dremel は Bigtable や MapReduce に並ぶ Google のコアテクノロジーであり、Google においてビッグデータを扱うあらゆる部門のデータ分析担当者やエンジニアにとってなくてはならない技術として過去 6 年に渡って利用されています。今の Google は Dremel なしではありえないのです。Bigtable や MapReduce については、Cassandra や Hadoop などのオープンソースクローン実装の普及によってそのすばらしさが広く知られるようになりました。一方で、Dremel に相当する技術は、Apache Drill や Cloudera Impala などの実装がつい最近登場したばかりで、これまではほとんど見かけることがありませんでした。「なぜ世の中には Dremel のような技術がないのだろう?BigQuery を通じて Dremel の凄さを Google 以外のエンジニアにも体感してほしい」という思いが、このホワイトペーパーを書き始めた最大のモチベーションでした。
Q: どんな方に読んでもらいたいですか?
A: ビッグデータを扱うためにこれまで Hadoop やデータウェアハウス製品を利用してきたエンジニアの方を対象としています。ビッグデータと聞いて、Hadoop、もしくは高価なデータベースアプライアンス製品しか思い浮かばないという方は、ぜひこのホワイトペーパーを一読していただきたいです。
Q: 最後に、BigQuery の魅力をお願いします。
A: ビッグデータを扱う上での最大のボトルネックは、それを収めるハードディスクそのものです。であれば、クラウド上に何万台とあるハードディスクにビッグデータを分散させて、それらを一度に並列に動かせば、ものすごく高速なデータ検索を実現できるのではないか?BigQuery と Dremel はそんな単純な思いつきを Google のインフラエンジニアが本当に実現してしまった技術です。データベースエンジニアにとってはこれはほとんどサイエンスフィクションの世界で、3 年ほど前に最初にこの技術について知ったときは「Google って外の世界とは時間の進み方が違うなあ」と呆れたものです。Google 規模のクラウドとインフラエンジニアの存在なくしては実現できなかったオンリーワンな技術、それが BigQuery と Dremel の魅力です。
ありがとうございました!
ホワイトペーパーはこちらからお読みください。
Google の Solutions Architect 佐藤一憲が "An Inside Look at BigQuery" というホワイトペーパー(英語)を公開しました。さっそく佐藤にインタビューを行いました。
Q: 今回のホワイトペーパーの概要を教えてください。
A: Google が今年 5 月にリリースした大規模クエリサービス Google BigQuery の技術詳細を解説したホワイトペーパーです。BigQuery では Google の超並列クエリサービス「Dremel」を使うことで、数 100 億件のデータの集計が数 10 秒程度で完了するという圧倒的なパフォーマンスを実現しています。このホワイトペーパーでは、Dremel の中核をなす技術「カラム指向ストレージ」の解説をはじめ、既存のビッグデータ処理技術である MapReduce や Hadoop、OLAP、データウェアハウス製品と BigQuery の違いについて明らかにしています。また、MapReduce と BigQuery のそれぞれをどのような用途に適用すべきか、どう組み合わせるべきか考察しています。
Q: このホワイトペーパーを書いた理由を教えてください。
A: 私が Google で仕事をはじめて驚いたことのひとつが、鬼のような速さでビッグデータの検索や集計を実行できる超並列クエリサービス「Dremel」の存在と、それが社内のさまざまな業務を支えるインフラとして浸透していることでした。このホワイトペーパーにも書きましたが、Dremel は Bigtable や MapReduce に並ぶ Google のコアテクノロジーであり、Google においてビッグデータを扱うあらゆる部門のデータ分析担当者やエンジニアにとってなくてはならない技術として過去 6 年に渡って利用されています。今の Google は Dremel なしではありえないのです。Bigtable や MapReduce については、Cassandra や Hadoop などのオープンソースクローン実装の普及によってそのすばらしさが広く知られるようになりました。一方で、Dremel に相当する技術は、Apache Drill や Cloudera Impala などの実装がつい最近登場したばかりで、これまではほとんど見かけることがありませんでした。「なぜ世の中には Dremel のような技術がないのだろう?BigQuery を通じて Dremel の凄さを Google 以外のエンジニアにも体感してほしい」という思いが、このホワイトペーパーを書き始めた最大のモチベーションでした。
Q: どんな方に読んでもらいたいですか?
A: ビッグデータを扱うためにこれまで Hadoop やデータウェアハウス製品を利用してきたエンジニアの方を対象としています。ビッグデータと聞いて、Hadoop、もしくは高価なデータベースアプライアンス製品しか思い浮かばないという方は、ぜひこのホワイトペーパーを一読していただきたいです。
Q: 最後に、BigQuery の魅力をお願いします。
A: ビッグデータを扱う上での最大のボトルネックは、それを収めるハードディスクそのものです。であれば、クラウド上に何万台とあるハードディスクにビッグデータを分散させて、それらを一度に並列に動かせば、ものすごく高速なデータ検索を実現できるのではないか?BigQuery と Dremel はそんな単純な思いつきを Google のインフラエンジニアが本当に実現してしまった技術です。データベースエンジニアにとってはこれはほとんどサイエンスフィクションの世界で、3 年ほど前に最初にこの技術について知ったときは「Google って外の世界とは時間の進み方が違うなあ」と呆れたものです。Google 規模のクラウドとインフラエンジニアの存在なくしては実現できなかったオンリーワンな技術、それが BigQuery と Dremel の魅力です。
ありがとうございました!
ホワイトペーパーはこちらからお読みください。