Kaggle Tokyo Meetup #3 開催レポート

こんにちは。tkm2261です。

今日は10/28に開催したKaggle Tokyo Meetup #3の模様をレポートします。

このmeetupは@threecourseさんや@smlyさんが2年前ぐらいから始めて不定期で開催しており、

私もニートの有り余る労働力を活かして今回運営をして来ました。

開始前

今回はsmlyさんの勤め先であるアドバンステクノロジーラボさんに会場をお借りすることが出来ました。

いよいよKaggle Tokyo Meetup当日です！
入り口入って右手のエレベーターで4Fです
お待ちしております! pic.twitter.com/80r6soIJ9H
— Takami Sato (@tkm2261) 2017年10月28日

渋谷の超良いところにあって、美術館の上という超良いところのオフィスでした。

今回、Youtubeのチャネル登録者数が100人を超えたのでライブストリーミングをスマホで出来るようになったのですが、配信に耐えられる回線がなかったため今回は見送りました。次回以降考えます。

挨拶と自己紹介

threecourseさんがTokyowebminingからもろパクリしたスライドで開始

いつもはネタですが、今回は裏開催だったため喧嘩売ってる感じになってますが、向こうとも仲良いので大丈夫ですｗ

f:id:tkm2261:20171028133452j:plain

自己紹介は数が多いので紹介することは出来ませんが、meetup参加条件がKaggleで最低1 submitだったからか、コンペ上位者等レベルの高い人が散見されました。

運営入れて40人弱でmeetupはスタート

発表① ONODERAさん『Instacart 2nd Place Solution』

Kaggle meetup #3 instacart 2nd place solution from Kazuki Onodera

www.slideshare.net

最初の発表はONODERA(@0verfit)さんによる、Instacartコンペ2位の発表でした。

概要としては

いつも買ってるコーラを買ってない時はダイエットコーラ買ってるなどの特徴を捉えたかった
- ダイエットコーラになることの特徴よりもダイエットコーラの次の購買がコーラに戻りやすさを特徴に入れた
1位の人は過去のその商品の購買有無を0-1にして、数字として特徴にいれていた。これはやるべきだった
予測値を確率として解釈するのは無理があるが、良い案がなかったため特徴の作り込みで対処した
商品購買予測モデルと購買有無(None予測)モデルを2つ作って精度がかなりあがった

ONODERAさんはKaggle公式ブログやgitリポジトリも公開しているので気になる方はそちらもどうぞ。

Instacart Market Basket Analysis, Winner’s Interview: 2nd place, Kazuki Onodera | No Free Hunch

GitHub - KazukiOnodera/Instacart: 2nd place solution

Prize Winnerの話が生で聞けるのは貴重な経験でした。ONODERAさんありがとうございました！

発表② Jackさん『Santander Product RecommendationのアプローチとXGBoostの小ネタ』

speakerdeck.com

二人目は大阪からお越し頂いた、Jackさんです。長く私にとって謎の人で凄いお会い出来て良かったです。

Twitterを始めてくれて助かりました。

内容はSantanderコンペとXGBoostの概要の2本立てでした。

非常に資料がわかりやすいので見て頂ければと思いますが、Kagglerにとって有益な知見の塊でした。

Santanderコンペでの商品特徴をみて直近データと去年同月のどちらで学習するかを見つけられた
ラップトップのみで分析したので、データをローリングして学習、最後に幾何平均をとった
- 直近重み付けとかも試したが、幾何平均が最も良かった
カテゴリカル変数をtarget平均で置き換える手法をとった
- targe-based encodingと呼ばれて最近知られてきた
- 単にやるとoverfitするのでCVのvalidationデータで特徴を作る
- CVの切り方は特に気にしなかったが上手く言った
XGBoost概要はデータサイズやcolsambleを動かした時の結果への影響度やXGBoostアルゴリズムの概要を説明
- (XGBoost使う人は一度見ておく事を強く推奨します)

途中電源が切れてLTにも回ってもらったりもしましたが、発表ありがとうございました！

発表③ mamas16kさん『画像認識コンペ(UNIQLO)にdeep learning以外の手法で殴りこんでみた』

speakerdeck.com

お次は、なんと若干学部3年生のmamas16kさんにUNIQULOコンペについて発表頂きました。

UNIQULOコンペ3位のthreecourseさんに面白いアプローチの人がいたと紹介頂き、今回知り合うことができました。

内容としては色を当てるコンペなのでひたすら色空間（RGB、HSV等）の3次元空間から特徴を如何に作るかという話で、

猫も杓子もDNNの中で良い着眼点だと思いました。Kaggleの衛星画像(DSTL)コンペでも色空間情報は有効だったらしく、頭の片隅に置いておくとコンペでも有効な場面がありそうです。

また、Probability Calibrationにも力を入れたと言っていました。

これはXGBoostなどのモデルが出す確率（スコア）は確率として解釈できない場合が多く、（というか普通できない。）

Probability Calibrationはどうにかスコアを実際の確率に近くする事を目指す手法です。

個人的にはLogistic Regressionは『訓練データの頻度=訓練データ予測値の和』となるので、こういう時はLogistic Regressionをかけてましたが、

Probability Calibrationという名前がついて一分野になっていることは知らず、非常に学びが多い発表でした。

1.16. Probability calibration — scikit-learn 0.19.1 documentation

学部2年でコレは末恐ろしく、また成果が出た折に発表をお願いしたいです。

ありがとうございました！

発表④ lyakaapさん『Carvana 3rd Place Solution』

※スライドは後ほど

やっと家着いた…
スライドはwinners callで許可が出てからあげます
運営の方はお疲れ様でした！ほんと楽しかった
— Lyaka (@lyakaap) 2017年10月28日

※スライド来ました！

speakerdeck.com

最後の発表者はCarvanaコンペ③位のlyakaapさんです。

こちらはCarvanaコンペ後にKaggler Slackに降臨した折に、発表をお願いすることが出来ました。

こちらも学部4年生の方でした。発表者の半分が学部生とは、日本の将来に期待が持てそうです。

内容はスライドが来てからですが。

領域検知はU-NETが最強
Dilated Convolutionを底の層に入れたのが聞いた。
Psedo-Labelingで学習データを増やした
今回タスクとしては検知し易いものだったので、Psedo-Labelがそのまま信用できた
Psedo-Labelingと訓練データの割合や、解像度の違いでアンサンブルをした。
1モデルを作るのに、学習に2日、予測に6時間かかった。

スライドの作りも非常に丁寧でわかりやすく、発表も落ち着いており、学部4年とは思えない風格でした。

今Smlyさんとコンペに一緒に出てるらしく、若いKagglerの台頭をまざまざと感じたmeetupでした。

こういう方々を見ると、日本の将来は実は明るいんでは無いかと思います。

LT

t_iwmrさん「Personalized Medicineコンペ4位」
- Personalized Medicine Redefining Cancer Treatment Solution // Speaker Deck
Orfeonさん「GCPの活用法」
- MLにおけるBigQueryやCloud Dataflowの活用法の紹介
Maxwellさん「SberbankコンペのTips」
- Kaggle_Tokyo_Meetup_LT_Oct2017_woadv.pptx - Microsoft PowerPoint Online
smlyさん「Kaggleネタもろもろ詰め合わせ」
- loggerはexplicitにimport、バイナリ配布は大変condaを理由なくdisるな、Doki Doki Litereture Clubはいいぞぉ
threecourseさん「データを可視化する一般的なテク（？）」
- データを可視化する一般的なテク（？）～heatmapの拡張～ kaggle meetup #3 // Speaker Deck