Treasure Data Summer Intern 2015

8/3〜9/30 の2ヶ月間、トレジャーデータ(以下、TD)ではSummer Internで3名の学生を受け入れ、その受入責任者を担いました。 初めての試みでしたが、いずれの学生も優秀で与えられたタスク*1を成功裏にこなしてくれました。 熱が冷めないうちに、来年度のた…

Treasure Dataを支える(中の人に必要な)技術

Treasure Data(以下、TD)に入社して早2週間が経ちました。 入社してから、平成14年度IPA未踏ユース第1期で同期でスーパークリエイタであった西田さんがTDで働いているのを知りました。MapReduceやHadoopが登場した頃、「Googleを支える技術」という技術書*…

Treasure Dataに入社しました

3/31付けで4月から国立研究開発法人になった産業技術総合研究所を退職致しまして、4/1からTreasure Dataに入社しました。第一号のResearch Engineerとして東京オフィスで働きます。 CTOの太田さんから2013年頃に一度お誘いを受けておりましたが、2014年にな…

Prestoのcodegen

以前、Prestoのバイトコード生成部分のソースコードを読んだので、hack再開時のためにメモしておく。 コード生成にはobjectwebのASMを利用している。Parser generatorはANTLR。 ExpressionCompiler#internalCompileFilterAndProjectOperator codegenしている…

Multiplexed Reservoir Sampling

Xixuan Feng Arun Kumar Benjamin Recht Christopher Ré: "Towards a Unified Architecture for in-RDBMS Analytics", In. Proc, SIGMOD, 2012. だいぶ昔に読んだ論文だけどIn-database AnalyticsのBismarckの論文にMultiplexed Reservoir Samplingというの…