RecSys'18@Vancouver trip report

10月上旬にRecSys'18というレコメンデーション分野の国際会議に初参加してきた。出張報告がてらに聴講した内容をまとめる。twitterに記録していたので文章はそこから起こした。時差ぼけもあり、全部は聞けていないので悪しからず。

レコメンデーション分野はNetflixSpotify、Hulu、Pandora、Criteoなどインダストリでの研究が盛ん。実データを持ってたり、実際にビジネス適用しているので研究背景に説得力がある。 Industrial Sessionもそうだったけど推薦だと企業もエッジな研究していて良い..(critriaがどこも異なるのでやりやすい )*1日本の推薦業界の人もこの辺まできて発表してほしい。 Netflixにおける取り組みなど企業の取り組みの方がアカデミアよりも進んでいるところもあった。日本からもGyao!(Yahoo!J)、U-next、Abema、リクルート、スマートニュースから聴講参加者がいましたが頑張ってください*2

全体的な会議の傾向として、サービスの内容に応じて色んなCriteriaが考えられるため、様々なオレオレ評価指標が導入されているという印象を受けた。 メンタルワークロード、ethnicity(社会的倫理)、serendipity、HCI的側面とか..

今年から論文はopen accessになったらしい(great)。過去最大規模ということだが参加者は4-500名ぐらい(登録は800名以上)でシングルセッションで優れた発表のみがoral発表になっているため、移動の苦もあまりなく楽しめた。このぐらいの規模がコンパクトで良い。

我々のApache Hivemallに関するデモ発表のpaperはこちら動画もある。

Day1: Session 1 Why Did I Get This? Explaining Recommendations

このセッションは説明責任でまとめられていた。

cognitive loadの評価にNASA-TLXというツールを使っていたのが気になった。メンタルワークロードの評価ツールらしいNASAというだけで謎の説得力があるツール。

online datingとか双対レコメンドの話でした。このテーマ、結構流行りらしい。 男性側の視点だけで女性をレコメンドしても成果が得られないので双方向の視点でレコメンドする。

SpotifyからContextual banditの発表。Banditは"exploit is explore" だけど実際のユーザ行動は exploit or ignoreだからというのがmotivation。

これとほぼ同じ内容でした。

GroupLensで有名なミネソタ大の発表。recommendされたものをクリックしたけどつまらなくてbackしたらレコメンドがさっきみたアイテムの関連ばかりになるInactionに対する問題設定。 user inaction feedbackを考えましょうというのでいい発表でした。Q&Aも盛り上がった。

会場からのQ1: inaction時のレコメンド結果の表示場所とか考慮しているのと的確な質問(してなさそう) 会場からのQ2: MF/FMだけど、ユーザのhistorical behaviorを考慮しているのかというこれまた的確な質問(してなさそう)

evaluationの難しさの話(レコメンドしてもほとんどconsumeしていないのでinactionアイテムの評価を正確に評価できない)だったように思う。これまたInactionがらみ。 Short paperだけどBest short paperに選ばれてた。

Day1: Industry Session 1: Core Algorithms

  • Realtor: Adapting Session Based Recommendation for Features Through Transfer Learning

RealtorというZillowみたいなReales-techの人の発表。 categorical embeddingStochastic Gradient Descent with Restartsなどfast.aiの教材サイコーだぜという話でした。よく勉強している。

  • Hulu: Hulu Video Recommendation: From Relevance to Reasoning

Reasoning in recommendation is very important at Hulu. Back to logic programming for reasoning recommendation. Differentiable Graph-based reasoning follows. ということでした。

機械学習一般よりレコメンドはレコメンド結果の説明要求があるようなのでreasoningの研究がRecsysでも盛んに。LIMEとかSHAPとかDNNでも流行り気味だけど。そういえば、キーノートの一つProbabilistic soft logicでした。

Lise Getoorさんバンケットの帰りのバスが隣で雑談したがキーノートの時の印象と異なり、すぐに気づかなかったorz...

  • Flipboard: Learning Content and Usage Factors Simultaneously to Reduce Clickbaits

Click-bait(釣り記事/広告)対応の発表でした。インダストリに近いところなのでClick-baitの話題も割と多い。

Pinterstはプロマネっぽい立ち位置(?)のおねーさんが頑張って発表していたが、他がガチのアルゴリズム話題でちょっと浮いていた。あまり先端的なことをやっていない印象。

Day1: Paper Session 2: From Browser to Buyer: Online Product Recommendations

会場からのQ: multi-stake holder optimizationでshort-term benefitだけでなくlong-term benefitを考慮しているかとのよい質問 A: solverでconstraintsが多いので lagrangian relaxation

推薦な時系列を考慮したsequential recommendationの発表 trajectoryを考慮したFM亜種transfmというのを提案。 アイデアはtrivialだが、Factorization Machines(FM)をちょっと弄るだけで時系列を考慮できるやつなので割と良さそうだという印象。

f:id:myui:20181019154915p:plain

会場からのQ: 元々のmotivationのsequential recommendationの評価でPRMEとの比較、AUCで良いのかという結構良い質問

GDPRでmissing dataができるのでそこを課題とした研究。GDPRという設定勝ち.. どうでも良いが著者の人とランチで雑談を結構した。コードはこちら

Complementary item recommendationセッティング… 要するにライト買ったら乾電池も序でにレコメンドしましょうってやつ。 なんか色々criteriaが出すぎてきて推薦とは複雑なものでmulti-taskなのだなと..

レコメンドにおけるステージ(view/click/purchase/reviewなど)の概念を入れてTensor decomposition Monotonic Constraintsでoptimizationをできるように.. 中々面白い発表でした。

f:id:myui:20181019155753p:plain

深層強化学習をpair-wiseのアイテム推薦に使った論文。深層学習を使ってみました論文はだいたい中国から。

Criteo Learning Representations team(なんてあるのか)の発表。optimal treatment recommendation policy that maximizes the reward with respect to the control recommendation policy for each user, also known as the Individual Treatment Effect (ITE)。トーナメントアルゴリズムを使ったリワード最適化の話でした。

これがBest Long Paperでした(バンケットで話した人もBest Long Paper Runner-upの方が新分野を開拓してBestに相応しいんじゃねと言ってたが同意する)。

Day2: Opening Keynote

Probabilistic soft logicの発表。門外漢であまりついて行けず。

Day2: Paper Session 3: Learning and Optimization

はじめのスピーカーがno showなのかcontextual banditの話から。deep neural memoryで過去のinteractionを考慮したとかなんとか。

またreciprocal recommenderの話。これもonline dating siteのデータを使っているようだ。日本のマッチングサイトもこういう研究やらないのかな。。。

会場からのQ: 金払っているPremium usersとかを優先するoptimizationは。 A: future work

大分基礎的からの説明からしてた。Hybrid approach CF(Latent Factor Model)+Graph-based approachというのがコアのアイデア。 特に驚きもないoptimization criteria。コードはこちら

f:id:myui:20181019162326p:plain

会場からのQ: BPRの改善が50件ぐらいでているwけどbaseline BPRで良いの?

Best Short Paper Runner-up取ってたみたい。

Motivation: Recommendation Systems for Makers 消費者じゃかくて生産者のためのレコメンデーションシステム。

VAEでユーザクラスタの為のアイテムモザイクみたいなものを作る(=> 商品開発に生かす)超早口トークでしたが、新しい問題を提起していて良い発表でした。 バンケットで話した限り周りでも評判が良かった発表。Best Long Paper Runner-upだけど、個人的にはBest Long Paper。

f:id:myui:20181019163050p:plain

Calibrated Recommendationsというまた新しい設定。ロマンス70%、サスペンス30%を見ているユーザならば推薦リストもその比率がよいのでcalibrationするという話。Netflixからの発表だけど実際に取り入れているのか気になった。

控えめに言って問題設定の勝ちで良い発表だと思いました。個人的なBest Long paper runner-up。

f:id:myui:20181019163239p:plain

会場からのQ1: exploit-or-exploreとかも関わっているんじゃね?

会場からのQ2: diversity入れた時にKPIをnetflixでどうしているの? A: 商業ベースなのでsubscription数(儲かったの)のかのA/B testingでよい*3

しましま先生とのやりとり参照のこと 

Day2: Industry Session 2: System Considerations

Zalando, Slack, Netflix, Comcast, eBayからの発表。Netflixの発表を除き、Day1のindustrial sessionの方がtechnicalで面白かった。

  • Slack / Building Recommender Systems with Strict Privacy Boundaries strict privacy boundary for building recommender

Q: differential privacyは検討したの? A: していない。

  • Artwork Personalization at Netflix

でも話題になっていた発表。Netflixの発表はレベルが高い(彼らのビジネスはしばらく安泰だろう)。

A/Bテストの前にoffline replayというのでofflineで評価しているらしい。

Future research direction 1) auto (recommended) image generation 2) Long-term profit not but short-term profit

会場からのQ: randomnessをproductionで使うのって難しくね(?) A. blablabla...

  • Comcast / Conversational Content Discovery via Comcast X1 Voice Interface

voice queryに対するレコメンド challenge: scalable context-aware recommendation to voice query たくさん音声ログがあるそうで大変そうでしかない印象。

Day2: Paper Session 4: Travel and Entertainment

Travel and Entertainmentでtoo specificなのでpass... 2日目は終了。

Day3: Paper Session 5: Towards RecSys that Care

Towards RecSys that Careなセッション。jetlagにより途中参加。

主にSocial goodとかレコメンダの倫理的な話。diversity, social welfare, fairnessなどの話題。

アルゴリズムによる推薦によるfeedback loopがあるので、アルゴリズムどとの特性をシミュレータで解析している発表。fairness/social walfare考慮しないと..

会場からのQ: evaluation metricsどうしたら良いの? A: blabla... あんまり明確な答えがない感じ..

algorithm feedback loop問題に興味あるなら参照引けるし読んだら良い感じの論文。

Motivation: contact recommendationはどうあるか? ユーザのengagementを高める以外にあるのか。ネットワークを広げる, Diversityを広げる。 同質なネットワークを広げてもsocial good的にあれなので... structured diversityを評価するためのmetricsを提案。

information gainみたいのを使うhashtag Gini complementとかいうdiversity measureを提案。twitterのデータで評価。

質問が出ないので運営からQ: 実験結果をみるとrandom popularityを入れるのがstructured diversityに意外とよいの(?) A: 良かったんでけど他にもっと良いものがあるかもしれないしFAではない Q: これ適用したらユーザの反応どうなん?BanditでExplore or Exploitみたいのすんの?

会場から Q: どうstructured diversity定義すんの? twitterのhash tagって時間的に変化していくと思うけど.. opinion graphみたいのが必要だと思うけどどうよ A: blabla... 明確な答えなし。

social goodのために推薦とかレビューのピックアップにreviewerのgenderとかdiversity考慮しようという発表。

Motivation: 昨日もあったけどprovider fairness, calibrated fairness ..とか重要だよね。だから、色んなアルゴリズムで推薦リストを作ってみて著者/レビュワーの特性とかを解析してみた。

Limitation: Genderしか今回はdiversityみれていない Summary: Balanced recommendationのためにN近傍+PFアルゴリズムは割と使える

QA: geographic distributionとかは考慮できていないけどamazonだとunknown

Day3: Paper Session 6: Does it Work? Metrics and Evaluation

Motivation: StackoverflowみたいなQAサイトのun-answered questionを減らしたい Best answerを予測できるか score(question, user)のlearning to rankにする(ちょっとありきたり)

Q: semantic/syntactic similarityのcareは?A: semanticsとかはできているよ

IR metricsをRSの評価にもっと使おうよ話。 sparsity bias/popularity biasをKendall's correlationで評価。nDCGのカットオフを色々変えてKendall’s correlationの変化を色々評価して知見が得られたよ

コードが出てた。

最近publish/clickされた記事など推薦システムもOnline update考慮しないとね。ショートペーパー。 実装コード

sequential pattern miningとか色んなアルゴリズムを推薦リストの生成に利用 BPR, Gru4Recなどstate-of-the-artと比較 Recurrent NNを使ったものなどと比較 skNN結構性能よい

Q: online updateで訓練データが十分に到達していない場合は? A: recency/ forgettingを考慮に入れるのが鍵だね。 Q: 訓練データの到着がfloodしたときに学習速度は追いつくのか...

次はgrouplesグループから。3種類のレコメンデーションアルゴリズムをmovielensに乗せて評価(それだけか..?) インターフェースとかの分析 個人的な感想: なんか卒論レベルだけどたぶんリサーチコミニティのこの手の実験ができるのが希少なだけかな。。ショートペーパー。

Q: baselineがrandomだけどふざけてんの?(意訳) Q: similarity-based approachっていってもtitle/contentとかfeatureとか色々考えられるけどsimilarityの結果をこれだけ結論付けてほんとによいの? Q: 他のdomainでどうなん? A: future work...

offline evaluation有益なのでもうちょっと見つめ直しましょう論文。

implicit feedbackのsamplingの話っぽい。popularity-biasが効きすぎるのでなんとかしようということかな。 long-tail itemsもpopular itemsとどうようにサンプリングされるべき。

既存のaverage-over-allのreward設計見直したよ Inverse-propensity-scoringというのを改善しているっぽい(incrementalな研究で細かくてよくわからん..

OpenRecのグループ。

またgrouplensのミネソタ大から。またMovielensでの評価。similarityベースで推薦したときに実際何が似ているのかhuman-judgedサーベイでcomparison...

No surprisingな結論。.. find that content-based algorithms outperform ratings- and clickstream-based algorithms in terms of how well they match user expectations for similarity and recommendation quality … この手のサーベイ分析Movielens特化でdomain移ったら…

Day3: Demoセッション

demo頑張りました。Hivemall利用者がいたのが嬉しい驚き。

f:id:myui:20181019172022j:plain

Day3: Paper Session 7: Beyond Users and Items

最初の発表は聞き逃して2番目から。

product-typeによってtrust-based, social-basedが良いかとかは理想的なitem推薦のストラテジが異なるというのをbooks、mobile phones、contraceptivesで実験して知見を得たというショートペーパー。

Spectral Graph Theoryを推薦システムに利用

user-item graphをspectral domainに写像 Graphフーリエ変換 Spectral CFというのを提案。 グラフの特性をその隣接行列の特性多項式の問題として扱う理論とのこと

multi-class classification for recommendation. Extreme multi-label classificationを推薦に利用した話っぽい。item-groupingを利用。

f:id:myui:20181019173006p:plain

drama/actionとかごとに予測してsoftmax。 結構RNNを使って既存手法以上の性能が出たっての多いな。割と気になった発表。

Pair-wise learning to rankとrating predictionをhybridにする話。 User-based Nearest-Neighbor (NN) approach for predicting unknown pairwise preferences。

streaming recommendationでadaptive collaborative topic modelingというのを提案。 MF+LDA Online LDAを使ってつけたクラスタをuser/item matrixに使う..

streamingコミュニティで提案されたdrift detection用のadaptive windowingをonline LDAに適応

その他気になったポスタ

Field-aware probabilistic embedding neural network for CTR prediction Huaweiの人のFFMをNN使ったembeddingで超えましたよっという論文。著者の人は知らなかったみたいだが、Cofactorのembeddingとかともアイデア近いよね〜という話をした。

f:id:myui:20181019221350p:plain

Matrix Factorization = Efficient Co-occurrence Representation というのを理論的に説明しているっぽいのでなんだか気になった。

まとめ

初参加でしたがNIPSとかと違ってコンテキストの共有がしやすいのと割と問題設定からよく説明するので、CF/MF/FM/Item Embedding/Evaluation Metric/Bandit/Solverの基礎知識があると大体の発表楽しめるのが良かったです。また参加したい。

この会議、割とインダストリに近いのにscalability concernが全然ない(KDDとかと違って)。質疑では企業の人で気にしている人もいた。

f:id:myui:20181019173336j:plain

Recommender Systems: The Textbook (English Edition)

Recommender Systems: The Textbook (English Edition)

情報推薦システム入門 -理論と実践-

情報推薦システム入門 -理論と実践-

*1:例えば、動画の視聴回数で推薦すると釣り動画とかがあるので視聴時間を正規化してレコメンドに使うとかだけでも異なるcriteriaになる。

*2:TDはデータは沢山あるがお客さんのデータなので発表とかには...orz

*3:確かに...アカデミアではどうすんだろ。