なんでTreasure Data？

現在のTreasure Dataでは、毎秒45万レコード、4,000億レコード/日ものデータが投入されていて、Hiveで処理されるデータ量も3+ペタバイト/日と急速な発展をとげております。研究でもこの規模のデータ量を扱うことはGoogleやFacebook等の一部の研究者を除いてはありませんから、非常に挑戦的な課題に取り組める環境であることにDB研究者として第一に魅力を感じました。優秀なエンジニアが集まっていて刺激的な環境であることや報酬面ももちろん魅力的です :-)

Research Engineerって

トップ国際会議に限られますが、オフィシャルに論文を書く時間を確保できます*1。もちろん、プロダクトに繋がる研究開発に限られますが、これまでに取り組んできたHivemallのような大規模機械学習フレームワークの研究開発とそのサービス化に取り組んでいきます。また、これまでのDB研究の知見を生かしてMPPデータベースの開発に関わることもあると思います。

なお、データベース関連の学会活動も実のある限りは継続できる予定です*2。

Hivemallどうなるの？

エンジニアのオープンソース活動は Treasure Dataでは奨励されております。Treasure Dataに特化したインテグレーションも行うと思いますが、引き続きgithubの公開レポジトリで開発を続けます。

これまで以上に新規機能など開発は活発化させたいところです。

Hivemallについてご存知ない方はQiitaに書いた記事をこの機会に是非参照ください。

Beyond Query-as-a-Service

FacebookやGoogleのような一部の企業を除き、サーバの維持管理やエンジニアの人件費を考えますと、自社環境でHadoopを運用するのは、多くの企業にとって最早賢い選択ではなくなっているかと思います。今後、Treasure Data、Google BigQuery、Qubole、Azure HDInsight等のQuery-as-a-Serviceを使う流れはより加速するのではないでしょうか。

そうした群雄割拠のQuery-as-a-Serviceの中でもTreasure Dataの強みに次の二点があります。

FluentD / td-agentによるデータ収集のサポート AndroidアプリやIoT端末まで、ログ収集を容易にできる仕組みを用意している点がTreasure Dataの競合に対する一番の強みかと思います。 FluentDはTreasure Dataのエンジニアによって開発されておりますので、トラブルがあってもサポートを受けることもできますし、安定的にデータの収集が可能です。また、FluentDのようなログデータ収集基盤を補うバッチ型のデータ読み書きツールのEmbulkも開発中です。
PlazmaDBによるスキーマフリーDB アプリケーション側でログに新たな項目を後から追加した場合などでも、スキーマの変更に伴うDBの再構築のコストがない。また、基本的にデータをAmazon S3に保存していてHDFSに依存しないため、ワーカノードを追加するだけで容易にデータ処理がスケールするのも売りです。

こうした点がTreasure Dataを単純なQuery-as-a-Serviceではなく、BigData処理のためのプラットフォーム（Bigdata-as-a-Service）たらしめており、利用者の皆さんから評価されている点だと思います。

ML-as-a-Service on Treasure Data

一方で、現在のTreasure Dataでは、クエリでは扱えないような機械学習やデータマイニングを利用した深い分析へのサポートはまだ改善の余地があります*3。そこで、Hivemallのさらなるインテグレーションなど機械学習のサービス化（ML-as-a-Service）によって、トレジャーデータに第三の付加価値を提供していくことを当面のミッションとしていきたいと思います。

さいごに

本エントリは4/1のエイプリルフールに投稿しようと思っておりましたが、投稿タイミングを逃して、4/2の投稿となりました。

Treasure Dataには、@tagomorisさんが3月入社で、@kamipoさんと私@myuiが4月入社と、事業拡大に向けてエンジニアの採用強化中です。分散システムやHadoop/分散DBに精通したエンジニア（or 研究者）、DevOps/Chef等に精通したインフラエンジニア、サポートエンジニア等を募集しておりますので、興味のある方は次のリストをご参照の上、ご応募を検討ください。

　https://jobs.lever.co/treasure-data

機械学習のサービス化に当たっては、Hivemallに加え、Caffe等の既存DeepLearningフレームワーク *4やVowpal Wabbitなども適材適所で利用したいと考えております。機械学習やそのアルゴリズムの実装に精通し、Hadoop/Hiveを利用した大規模データ処理の素養もある方がいれば是非お力を借りたいところですので、ご応募を検討ください。

P.S. 転職祝いはこちらのwishlistから受け付けております :-) <a href="http://www.amazon.co.jp/gp/registry/wishlist/33JRG8V1VSCE6/">Amazon.co.jp</a>www.amazon.co.jp

*1:SIGMOD（のインダストリアルトラック）とかに論文をかけるシーズや課題は沢山ある。

*2:査読は企業研究者の方はどなたもそうだと思いますが、業務との兼ね合いをみてになります。

*3:Hivemallは古いバージョンのv0.2がサポートされています。また、BIツールのTableauを利用した高度なレポーティングが可能です。

*4:特徴抽出モジュール用途。