tkm2261's blog

研究員(OR屋) → データ分析官 → MLエンジニア → ニート → 米国CS PhDが諸々書いてます

Kaggle Tokyo Meetup #4 開催レポート

こんにちは。tkm2261です。

今日は2018/5/12に開催したKaggle Tokyo Meetup #4の模様をレポートします。

connpass.com

このmeetupも4回目となり、今回はGoogle様からサポートを頂いた事もあり、かなり大規模なmeetupになりました。

今回からMaster枠とExpert枠を設けたり、Youtube Liveをしたり、人数を増やしたりと色々新しいことを試しています。

さらに自分で言うのもアレですが超豪華なスピーカーになっています。

最終的には参加者は70名程でYoutube Liveは1072回視聴されて、常時100人位以上が視聴していました。

ここまで来るとmeetup開催も責任が増してくるので、初めての方でも参加しやすいように内輪ネタを排除してなるべくpublicな開催を心がけて行きたいです。

開始前

今回はフード・ドリンク・会場・発表者交通費などをGoogle様にサポート頂きました。ありがとうございました!

会場は普段食堂として使われているところで、広々しており卓球や色んなモノがありました。

またYoutube Liveでの配信もサポート頂き、smly氏がスイッチャーを務めるという珍しい絵も撮れました。

f:id:tkm2261:20180514021131p:plain

私としては今回の配信でノウハウを盗もうとしてましたが、ガチすぎる機材に断念しました。

もちろん配信品質はとても安定していたのでとても助かりました。

Opening Talk

毎回おなじみのthreecourseさんによるopening talk

speakerdeck.com

配信付きでのopening talkは初めてらしく少し緊張気味でしたw

今回は人数が70名ほど多かったため、いつもやっていた自己紹介はしませんでした。

これについては今後運営で議論して存続を決めたい感じです。

発表① wataさん『サンタコンペで二度全完した話』

youtu.be

資料はこちら https://speakerdeck.com/wata_orz/santakonpedeer-du-quan-wan-sitahua

Kagglerが競プロ勢に恐れおののく年1イベントのサンタコンペに関する話でした。

開催後1日で全完した話とかは、会場をざわつかせるなど圧倒的な実力をいかんなく見せて頂きました。

会場はKagglerが多いことから最小費用流の話をわかりやすく話して頂いて助かりました。

会場でアンケートを取った所、大体会場の半分ぐらいが最小費用流を当日初めて聞いたという事でKagglerにも良い刺激になったようでした。

wataさんもあとsilver一つでKaggle Masterなので引き続きKaggleに参加してほしいです。

発表② pocketさん『猫でも取れる金メダル & 猫しか取れない金メダル』

youtu.be

資料はこちら https://www.slideshare.net/ShotaOkubo/neko-kin-96769953

pocketさんからは、RecruitコンペでGoldを取った時の話とKaggle初心者がどう始めれば良いかのお話でした。

やはり手元評価を確立することと、discussionを追うことの重要性を強調していました。

pocketさんは文系出身で2016年から初めてGoldメダルなので、Kaggleを初めたい方は動画を閲覧してみることをオススメします。

発表③ terekaさん『IEEE's Signal Processing Society 10th Solutionと得られた学び』

youtu.be

資料はこちら https://www.slideshare.net/ssuser21af5b/ieees-signal-processing-society-10th-solution

terekaさんは今回見事Gold獲得でMasterとなりました。

発表は画像コンペのモデルの話と、国際チームを組んだ時の苦労点や、ods.aiがクローリングしてデータを集めていたという闇コンペっぷりを共有頂きました。

やはりディープラーニングの人気からか、質問がかなり多かったです。

発表④ Davidさん『Using NumPy efficiently』

speakerdeck.com

※動画は公開可否を確認中

今回のメインスピーカーであるscikit-learnの生みの親であるDavidさんの発表です。

私がnumpyのマニアックな話を聞きたいという依頼もあり、かなり突っ込んだNumpy arrayの話をして頂きました。

個人的にはnumpy.arrayがstrideという属性を持っている事は知りませんでしたが、strideでviewや多次元配列に対応できたりと素晴らしいideaで、C++で行列演算書いた事ある人なら誰もがうなずく内容だったと思います。

broadcasting ruleも直感的に理解するのは難しかったですが、3つのシンプルなルールであのnumpyの演算が実現できてるのは美しいと言わざるを得ない内容でした。

今回、Davidさんは英語の発表でしたが、聴衆があまり英語得意でないということで、資料にかなり書き込んだそうです。普段はやらないとのことなので、彼には感謝しかありません。

LT

もはやLTの概念とは何かというほど、議論が活発なのもありLTも普通の発表並の時間となりました。

Jackさん

youtu.be

https://speakerdeck.com/rsakata/kaggle-meetup-number-4-lightning-talks

catboostやGBDTのカテゴリカル変数の扱いやtarget encoding (Likelihood encoding)の話です。GBDTを使う人は一度は見ておくべき内容です。

OsciiArtさん

youtu.be

https://www.slideshare.net/ssuser20fb43/kaggle-tokyo-meetup-4-lightning-talk-2018-data-science-bowl

DSB2018コンペの手法や2 stage制の闇について語って頂きました。Instance SegmentationのコンペはKaggleでDSB2018が初めてだったらしく手法についても今後押さえておくべき内容でした。

flowlightさん

youtu.be

https://www.slideshare.net/TakanoriHayashi3/talkingdata-adtracking-fraud-detection-challenge-1st-place-solution

TalkingDataコンペの覇者。以上説明不要!

というのは冗談ですが、動画内でかなり丁寧に手法を説明されているので、ご視聴をオススメします。

データサイズに対してnegative downsamplingと効率的に全列挙の特徴を作って試したことが勝因のようです。

懇親会

そのまま会場で、ビールとピザで懇親会をしました。

ドリンクとフードの手配もGoogle様が手配して頂き、インターン生の手伝いもあり、今までで一番運営していて疲れないmeetupになりました。コレに慣れると後が怖い。。。

飲んでる写真は取りそこねましたが、皆さん積極的に歓談しており自己紹介はなくても大丈夫だったとホッとしました。

さらに卓球などもおいてあり、一部の方は楽しまれていました。

最後に

今回は参加頂きありがとうございました!

非常に活発な議論でKaggleや仕事にすぐ生きる知見ばかりで開催して本当に良かったです。

当日の皆さんのツイートはこちらでも確認できます。

togetter.com

また、ご支援頂いたGoogle様ありがとうございました。

私も今回は司会に集中できて、つつがなく進行することができました。

個人的にはKaggle meetupはとても運営しやすい勉強会なので、留学してしまう予定ですが、今後も運営に関わって行ければと思います。

何か質問等あればTwitterKaggler slackで気軽にお声掛けお願いします。

TalkingDataコンペ11位でした

こんにちは、tkmです。

2018年5月に終わったTolkingDataコンペですが、11位でフィニッシュして一応ゴールドは取れました。

学費を稼ぐことを目指してやってましたが、入賞の壁は大きいですね。。。

一応KaggleのDiscussionにも解法を上げています。

https://www.kaggle.com/c/talkingdata-adtracking-fraud-detection/discussion/56250

さらに自分の解法を解説した動画も今回は作っています。なんか最近はブログ書くより動画作るほうが楽になってきてます。w

留学資金を貯めるの関係であとどれだけKaggleに参加できるか分かりませんが、引き続き頑張って行こうと思います(・∀・)

コネなし論文なし英語苦手なアラサーのおっさんだけど米国CS大学院入学に頑張ったので全てを晒す ー GPA編 -

こんにちは、tkmです。

今回は出願時結構混乱したGPA(Grade Point Average)について書いていきます。

米国ではGPAが超大事

米国では卒業するだけじゃなくてGPAを非常に重視します。大学院受験だけじゃなくて就活にも効いてくるので覚醒剤使ってでも勉強しているのはこれのためですね。

大学によってはminumum GPA を設定している場合があるので出願時に注意しましょう。

GPAが成績表に明示されていない大学は要注意

私が卒業した東工大は100点満点で60で単位が貰えるシステムでGPAは導入されていません。

私の学部のGPAは平均をとって84.2/100と記載します。分母がいくつかを右に書きます。

フォームで別に分母を書かせる場合もあるので指示にしたがってください。

GPAは色んな換算式がありますが、変な疑心暗鬼を起こさないために単純平均を使うのが無難です。

UC BerkeleyのようにGPA換算式のスプレッドシートを要求してくる大学もあります。

目次

コネなし論文なし英語苦手なアラサーのおっさんだけど米国CS大学院入学に頑張ったので全てを晒す ー お金編 -

こんにちは、tkmです。

今回は学費および出願にかかる費用について書いていきます。

出願費用

大体で見積もります。

項目 単価 回数 合計
TOEFL iBT $230 10回 $2,300
GRE $205 5回 $1,025
出願費用 $120 20校 $2,400
TOEFLスコア送付費用 $20 20校 $400
GREスコア送付費用 $27 20校 $540
合計 $6,665

1ドル107円換算で713,155円となるので。かなり高額ですね。。。

ただかなり多めに見積もっています。

TOEFLGREは早めにスコアが取れれば受験回数が減らせます。出願校も10校ぐらいにすれば半額です。

お財布と相談して受験戦略を決めましょう。

学費

基本的にPh.D.はお金を貰えるので、学費の心配はありません。

そのため修士の学費について見ていきましょう。

f:id:tkm2261:20180415071101p:plain

UC Irvineの場合、部屋代が入ってないので+$10,000ぐらいを考えると、440万円vs722万円

州立は安いものの、とても安いとは言えない値段ですね。

Research MasterにはTARAの口が結構あるみたいですが、最低1年ぐらいは学費を払う必要がありそうです。

国立大学の学費が年52万円の日本はホントに良い国ですね。

目次

コネなし論文なし英語苦手なアラサーのおっさんだけど米国CS大学院入学に頑張ったので全てを晒す ー 出願後の過ごし方 -

こんにちは、tkmです。

今日は大学院出願後の過ごし方について少し書いていきたいと思います。

出願後の4ヵ月は人生で最も生産性が落ちる期間

明日結果が来るのではないかと、日々過ごすのはとてもストレスです。

結果が来てもお祈りされ続けると気が沈んで、何するにも手に付かなかったりします。

ニートを選択したのも、働きながらこの4ヶ月を過ごす自信がなかったからというのも大きかったです。受かった瞬間会社辞めるから何にもコミット出来ないですしね。

何でも良いので生産的な生活を心がけましょう。

時差的に連絡が来るのは深夜なので、昼間の生産性は落とさないようにする。

大体、朝の3~6時にメールが来ることが多いので昼間はメールを頻繁にチェックしたりしないようにしましょう。

Grad Cafeは見すぎない

大学院の合否結果を共有するGrad Cafeというサイトがあります。

thegradcafe.com

大体の連絡がくる目安が分かる良いサイトな反面、嘘もあったりするのでそんなに見ても意味ないです。

まあ気になって毎日見てしまうんですけどね。。。

”はじめに”にも書きましたが連絡来る日程はこんな感じです。私は嘘ついてないので過度にネットに踊らされずに心静かに結果を待ちましょう。

f:id:tkm2261:20180415055419p:plain

目次

コネなし論文なし英語苦手なアラサーのおっさんだけど米国CS大学院入学に頑張ったので全てを晒す ー 出願とそれまでのスケジュール -

こんにちは、tkmです。

今日は出願するまでどういうスケジュールで動くと良いかを解説します。

TOEFL対策は1年見といたほうが良い

留学のスケジュールを決める上でTOEFLのスコアが何時上がっていくるかがとても重要です。

それ以外のGRE・SoPは最短1ヵ月あれば何とかなります。

個人的には英語(TOEFL)の記事で紹介した私のスコア推移的に1年は見ておいた方が安全です。

例:今年(2018年)に受験する場合

日程 内容
2017年夏頃 TOEFL対策開始
2018年夏頃 TOEFLスコアで良いスコアがとれる。 GRE対策開始
2018年9月 国内奨学金応募
2018年10月 SoP作成開始 ・推薦状作成
2018年11月 願書作成
2018年12月 出願
2019年1~4月 結果待ち

出願に必要なもの

大体の大学は以下のものがあれば出願することが出来ます。

  • TOEFL iBT (IELTS)
  • GRE
  • 推薦状3通
  • SoP (Statement of Purpose)
  • 成績表(スキャンして提出がほとんど)
    • 短期でも海外で授業取ったことあるならそれもあると良い

その他に大学によって

  • Personal History Statement
  • Diversity Statement

なども必要な場合があります。

またGatechのISyE Ph.D.では数学をどの授業で取ったかなども聞かれました。

Have you taken and passed the following courses? If so, please indicate the course name, course number, grade, term taken, and institute on which transcript it will appear.

* Differential calculus, basic integral calculus, infinite series
* Linear algebra, multivariable theory, vector spaces, matrix operations
* Taylor's theorem, Lagrange Multipliers, multiple integration
* Conditional probability, calculus based distribution theory, expected values, covariance
* Statistical hypothesis testing, interval estimation, maximum likelihood estimation
* Simple random walk, theory of discrete time Markov chains
* Renewal theory, Poisson processes, Brownian motion
* Analysis: compact sets, convergent sequences, limits of functions
* Optimization: optimality conditions, duality theory, algorithms

日本の授業名は長いので書けないことがありますが、出来る限り書きましょう。

出願は頑張っても1日2校が限界

出願には、書類を記載するだけですが思った以上に工数がかかります。

例えば、

  • SoPを大学毎に書き換える
  • 大学名で大学を選んだ場合、指導教員を調べるのに時間がかかる
  • 大学特有の書類を求められたりする

などなどあります。自分で作業してみて1日2校が限界でした。

12/15が締切の大学がほとんどなので、20校出す場合は安全をみて12月から出願作業するのが無難ですし、 可能ならば11月中に終えたいところです。

出願は志望度の低い大学から

出願もするにつれて段々慣れてきます。SoPの修正の仕方も慣れてきますし、SoPの文章の間違いに途中で気づく事もあります。

つまり出願するにつれて書類の完成度が上がってくるので、志望度が高い大学はなるべく後回しにしましょう。

どうしても行きたい大学から作業しちゃうんですよね。。。

目次