tkm2261's blog

研究員(OR屋) → データ分析官 → MLエンジニア → ニート → 米国CS PhDが諸々書いてます

【社会人学生AdC '22】日米研究室の違い: 日本の研究室で論文量産するの無理じゃね?

お久しぶりですtkmです。昨年に続き、社会人学生AdC '22の12日目として日米研究室の違いについて話して行きたいと思います。もう流石に留学生活ネタは尽きてしまったので、そこは他の方のを見られるとよいかもしれません。

adventar.org

昨年の記事はこちら

yutori-datascience.hatenablog.com

*私の詳細な留学模様については過去の記事をどうぞ

TL;DR: 日本の研究室は人が少なすぎる

煽った記事タイトルをつけましたが、別に日本の教授やその他人材や設備が著しく劣っているとかそういう次元では無く。単純に人が足りない。正確に言うと稼動が計算できる人がいない。私の日本の指導教員は「助教時代が一番研究できた。」と言っていたが、助教は講座で1, 2人でこれに少々の博士学生を加えても全く全然足りない。

論文を書くには多大な労力が必要なので今の人がいない状況で論文が出ているのは逆に凄いことのように思えてくる。(紙と鉛筆がメインの分野はわからないが。)

米国の研究室の主力は博士課程学生

周りをみると概ねPI一人に付き4-5人の博士課程の学生を持っている。これは予算によってキャップされるので大きいラボは10人とかいる。(その場合一人で見きれないのでポスドクを雇ったりする)。つまり彼らは雇用されており、PIの指示の下フルタイムコミットで研究する人員がこれだけ揃っている。

Twitterでは日本の教授や准教授は科研費といった研究費申請と学務に忙殺されて研究が出来ないというのはちらほら見受ける。ただこれは日米同じであり、PIはむしろそれが主業務で、基本的に研究指導はするが自分は手を動かさない場合が多い(というかそう期待されている)。

科研費の採択率30%が低すぎて労力を無駄にしているという話もあるが、米国のNSFの採択率は10%ぐらいで、そこで大きい差はでない。というか米国のほうが大変である。 学務においても、米国は教授のサポートが多いというが、結局教授でしか出来ない仕事(授業、学会業務、入試業務)があり日本のと比べて著しく楽になっている感じもしない。というか州立大の事務はかなり酷い。

結局、違いは博士課程学生の数である。とくにフルタイムコミットの博士課程学生の数。競争的資金という米国っぽい方式を導入してみても根本の博士課程学生がいなければこれが回るはずがない。PIがいくら忙しくても各博士課程学生に週1時間MTGができれば研究を回して行くことは可能であろう(論文投稿前を除く)。こうなると「学部修士の学生がいるではないか。」という話になるが、残念ながら彼らは戦力というよりむしろ重荷になりがちである。

学部修士の学生は基本的に戦力にならない

彼らの能力が劣っているわけではない。むしろ年々凄い学生が増えている気さえする。

ただ戦力として計算できない。これがキツイ。この増田でも指摘されているが、学生のやる気に依存している現状は研究をリスクに晒すだけで、積極的に彼らを研究に加えたいとは思わない。

anond.hatelabo.jp

正直な話、たとえ少し追加の手間がかかっても、研究室の端っこでやった適当なおままごとを卒論修論にして旅立っていってもらいたいと思っている研究室は多い。つまり学部修士の学生は研究の戦力どころか重荷なっているケースが多い。

これも指導教員の立場にたつと仕方がない。最長3年(しかも色々ぶつ切りにされる)しかいない学生に一生懸命研究指導しても、一番佳境の時期にインターンだ就活だで稼働が計算できないのならば最初から放置が一番安定の選択になる。

この場合、たとえ自分の研究ネタであっても、学部修士を頑張って指導するよりかは、稼働が計算できるところと共同研究してしまうのが手っ取り早い。教授や准教授なら別に主著論文が必要なわけではないのでそれで良い。

そのため、超優秀な学生が来たら、とりあえずやらせて目が出そうなら掬い上げるという方式になる。つまりかなりの部分を自力で研究者の道を切り開く必要があり、少子化の日本でかなり贅沢な人材の使い方といえる。

日本の博士課程学生は戦力になるか?

「戦力になる。」と言いたいところだが微妙な面がある。能力云々というか、上記の放置が基本戦略な状況から博士課程学生になっても結局その延長線上になりがちである。やはり優秀な人は生き残って行くし、独力で何とかするのを尊ぶ空気さえある。つまり博士課程のエコシステムがない。

残念ながら世界的にAcademiaにおいては「指導教員についてその分野の価値観を学び、そこで評価される研究を行う。」という超属人的なシステムでしか研究者を育てることに成功していない。これはシステム化大好きなはずの米国でさえ採用している以上、現状の最良の方法と思われる。学会がコミュニティである以上、指導教員の導きは思っている以上に大きい。

そういった指導がされている日本の研究室があるのは知っているが、博士課程でもやっぱり放置して頑張れが指導教員としては合理的な選択になりがちである。以前投稿もしたが「早すぎる独立」つまり千尋の谷に突き落とすという人材を贅沢に消費する戦略になっている。

これは指導教員としてはある程度仕方なく、博士課程の学生は自分で授業料を払っているわけで強制する力はないし(なんなら自分で学振もとっている)、米国の5年の博士課程と違って3年なんだから「手取り足取りは修士で学んでいるべき。あとは独力で頑張れ。」という態度になりがちである。

結局ラーメンハゲが正しく、指導教員も強制して学生と揉めたくないので軽いアドバイスに留めて放置が安牌となる。満期退学になっても「残念、芽が出なかったね。仕方がないよ。研究なんだから。」と、そんな訳ないだろと言いたいところだが、これが許容される雰囲気を感じる。

研究者育成にはまとまった時間と規模が必要

じゃあどうしたら論文を量産してくれる学生が育つかというと、結局指導教員制度は丁稚奉公なので、ある程度強制する力がある丁稚時間と、指導した分を論文量産で返してくれる奉公時間を指導教員に与える必要がある。米国の今の制度は5年を良しとしている。

これを一人づつやるのは効率が悪いので、複数人の博士課程を継続して採用して5−10人のチームとして動くのが効率がよい。日本では博士課程学生は少数でかつ互いに独立しているのをよく見るが、これは将来独立した研究者になるには良い訓練と思うが、PIが獲得したテーマのもとチームで攻めるのに比べると効率が著しく悪い。

これのせいで、よく日本で耳にする「先に論文を出したのは我々だが、外国のグループに周辺の仕事を抑えられた。」といのはそこかしこで起きていると感じる。論文量産にはやはりチームが必要。これは自転車ロードレースで集団相手に単独で戦っているようなものなので絶望的な差になる。

チームで近接した分野をリソースを共有しつつ各々で攻めつつ、主著と共著に互いに入り合って進めていくチーム作りが論文量産には絶対必要。

博士課程学生の維持にどのぐらいお金がかかるか。どこから捻出するか。

ウチの場合、博士課程学生の維持には1クォータで授業料$6kと給料$6kがかかるため、年間$36k(夏学期除く)がかかる。もし夏も研究して貰う場合は授業料は無いので年間$42kが博士課程学生の維持コストとなる。5人雇ったら$210kになり小さいラボでは維持がキツイ。

ただ米国の博士課程学生はTAや採点係の雇用が保証されており、教授は給料$6kをTAしてもらうことにより負担を軽減できる。つまり研究費が潤沢なラボは研究すれば良く、そうでない場合は大学がTAとして給料を出している。(TA業務は重いので研究にかなり支障がでるが。)

こういった制度をいきなり日本でやるのは無理だと思う。ただ競争的資金で米国に似せた方向に舵を切った以上、博士課程の給料が出ないのは片手落ちである。

個人的には修士の授業料(ときにProfessional系修士の授業料)を爆上げかつ乱立させて原資を稼いで欲しい。博士課程学生はこれのTAをやれば稼げるようになって欲しい。

今でさえ東大修士といっても千差万別だし、もう入試ザルにしてクソ辛い課題を2年間こなしたらほぼ誰でも取れるようにしようぜと思う。米国のオンライン修士なんてまさにそう。東大であっても修士レベルで高学歴もブランドもクソもないよ。修士卒で凄い人もいるけどその人別に修士だから凄いわけではないでしょ?

日本は怪しげなプログラミングスクールやらセミナーが乱立して社会人以降の学び直しが全く機能していない。ここに浪費されるお金をしっかり大学に持ってきて大学がお金を稼いで欲しい。Professional系修士なら就職予備校でいいんだよ、DockerとかGitでも教えればいい、生徒が満足して金払うなら。それで助教以上の人がこのコマでより雇用されるなら万々歳。卒論修論ナシなら大して負担もないでしょう。

日本の研究室は人もいないのに労力の配分がなんかおかしい

人はいないわ忙しいわで回っていない日本の研究室事情だけど、そんな状況なのに何か労力の配分がおかしいと感じる。自分が日本の学部や修士にいたときは何とも思わなかったが、たかが学部や修士の学生の卒論(研究)指導に労力を割きすぎではないかとおもう。卒論修論を通して学べる論理的な文章の書き方は学生にとっては良いが、労力に見合っていない。もうポスター発表とかで良くないか?何ならグループワークでも良い。教授陣雁首揃えて、たかが学部修士の研究を真剣に見る必要あるか?

学生としても無駄に労力とられるし、修士進学するなら卒論の労力で国際会議付属Workshopの論文でも指導教員と書き上げた方がよっぽど身になるし履歴書に書けるし一応ラボの業績にもなる。

最近大学の先生が企業のインターン等で研究時間が減っていることに憤慨していて、それはそうと思うが。そういう学生に注ぎ込まれる貴方の時間が勿体ないと思う。そういった学生はどうせ研究ガチらないんだから授業だけで卒業出来るようになるのがWin-Winのはず。どうせそういう学生をとる企業は出身大学名しか見てないんだから厳しくしたって誰得だよ。

最後に

色々書いたけど私が適当に思いつくものは、現場の人々はとっくに考えていて、それでも出来ない事情があるんだろうなと思う。あと私が米国でPhDを取っているせいで米国のシステムにバイアスもされている。

ただ普遍的に「人がいないと論文が書けない。」は事実なので。本当に何とかなってほしい。景気が良い頃は企業の中央研究所がこの博士課程の問題を補完していたと思うが、軒並み潰れた現状、博士課程の社会的位置づけとシステムの見直しが求められているのだと思う。

Kaggledays Championship Finalをぶっちぎりで優勝した。

Foursquare - Location Matchingコンペで2位でした。

Tkmです。

色々問題のあった、Foursquareコンペですが一応2位ということで確定しました。TrainingがTestに紛れ込むという前代未聞のことでしたが、起こってしまったことは仕様がないです。

Kaggle側にデータ解析コンペへの愛のない対応が最近目立つので、今後どうなっていくのか見ていきたいものです。

ずんだもんとめたんで学ぶKaggle 入門 & 参戦記の動画を上げました。

お疲れ様です。tkmです。

前回のブログでご報告したPetfinderコンペはノリと勢いで動画化しつつ参戦するという試みを行っていました。なんと幸運にも2位入賞も出来て、賞金入賞の過程を動画化できた貴重な感じになっているので、良ければご視聴下さい。全部でPart 11までありますが、多分2時間ぐらいで全部見れるはずです。

www.youtube.com

Kaggle PetFinder.my - Pawpularity Contestコンペで2位でした。

【社会人学生AdC '21】退職米国PhD進のすゝめ【12/5】

お久しぶりですtkmです。今回は退職D進勢もOKとのことで社会人学生AdC '21の5日目として米国でのMS/PhDについて書いてみようと思います。

adventar.org

*私の詳細な留学模様については過去の記事をどうぞ

はじめに

この記事に来た方々は、程度の差はあれD進に興味があるかと思います。ありますよね?

無責任に言うなら、D進を迷っている人はD進したほうが良いと思います。人類のほとんど全ての人はD進なんて考えもしない中、頭によぎるだけで十分素質があります。

博士は好きな時に進学できるので、社会人を経由して一番モチベがある時に社Dや退職Dするのは理に適っているはずです。

私もこっちで結構大変でしたが「じゃあ日本に戻ってまた働くか?」と自問すると「それはねぇな。」となって色々頑張ってこられました。

変に会社で働く事に希望や妄想を持たなくて良いのは、5年と長い米国PhDで気持ちを保っていくのにとても有用です。(逆に未経験で知らなかったからこそ頑張れたというケースもありますが。)

米国退職D進という選択

社会人を経由したおっさん(おばさん)がD進にあたって一番の懸念は経済的な問題かと思います。社Dは経済的な不安は少ないですが、一方フルタイムでさえ3年で終えるのが難しい博士号取得を二足の草鞋でやっていくのは相当な覚悟と犠牲が必要になります。さらに日本での博士号取得者の待遇を鑑みるに、これでD進を躊躇わない人は少数派でしょう。

そこで米国退職D進という選択が頭をよぎります。少なくとも私はよぎりました。簡単に当時思った利点を列挙すると、

  • 給料が出る。(日本以外では当たり前ですが。)
  • 5年課程で研究のブランクがあっても大丈夫そう。
  • Ph.D.がしっかり就職でも評価される。
  • 米国で就労可能なビザが貰える。
  • 英語が運用できるようになりそう

などと、"もし"行けるなら上に挙げた諸問題は解決可能なように思えます。

これに加えて、個人的に日本での博士課程に思っていたのが、全体的に「博士課程では指導教員のテーマを離れて独自のテーマをすぐ見つけるべし」という気風が強すぎると当時感じていました。

もちろん独立した研究者を生み出すことは最終的なゴールですが、個人的には「博士号は顕著な研究成果を上げた証明ではなく、科学研究に必要な手続きを一貫して設計実施出来ることの証明である。」と思っており、教育可能な部分が大きいにも関わらず無責任な放置が容認されやすい風土に見えました。(別に学生に給料払っているわけじゃないですしね。)

そこで世界で一番の研究者を生み出すシステムを持つと言われる米国でPh.D.を取ってみようと進学しました。

「教育可能な部分は修士で学んでおくことだよねwww」という考えもありますが、これが理想論である事は周知の通りと思いますし、だからこそ米国のPhD課程は日本の修士+博士に相当する5年になっているのかと思います。これが修士 (2年) + 博士 (3年)になるか博士 (3年) + 助教 (2年) 相当になるかはその人の段階によるのだろうけど。

当然ながら、こんな想像ほど米国が美しいわけではないですし、教育部分は多分に指導教員に依存します。若干「研究の国アメリカ、その空気を吸うだけで僕は高く跳べると思っていたのかなぁ」状態だった感はあります。

ただし給料が払われてフル稼働コミットした博士が多数いる状況は、主著以外にも共著で関わって学べる場が多く、エコシステムがあるなぁという感じです。ラーメンハゲの名言ではないですが博士学生には給料が支払われるべきですね。日本に漂うアカデミックの先の見えない悲壮感みたいなのがないのはメンタルにも良いです。

さらに日本では研究室で発表して終わる小さい成果でも気軽に国際会議のワークショップレベルで発表して鍛えられる機会が多いのも教育に良いです。

日本にもこのレベルを実現する研究室があるのは知っていますが、私の知る一般的な研究室は研究へのコミット具合が不明瞭な学部修士学生が多く、頼みの博士も孤立しがちで給料払ってない分稼働も計算しづらいといった感じを受けます。これで質の高い研究・論文が減ってきているのも仕方ない気がします。

最近、教員が学務に忙殺されているという話をよく聞きますが、もしその教員の下にフルコミットした博士学生が2-3人いれば、しっかり論文は出せるかと思います。教員が多忙なのは世界共通ですし、これから博士進学が一般的になって給料も支払われるそんな未来を祈っています。

(学振とか、最近は奨学金も充実してきましたが、やはり”給料”という形をとってこそ博士学生の地位向上が実現すると思っています。)

日本人は米国PhDでやっていけるか

これは自信を持ってやっていけると言えます。日本である程度優秀であれば米国でもある程度優秀かそれ以上に評価されるはずです。米国の数学教育はお粗末なもので、学部まで数学を日本で真面目にやっていればこちらでは超優秀なはずです。さらに米国Ph.D.は学部卒業から応募できるため、社会人経験があれば新卒レベルを圧倒する経験(プログラミング等)が(きっと)あるはずです。

近年のML/CV/NLP界隈の異常な盛り上がりで「トップ会議の論文数本ないと厳しい。」みたいな言説は、実際一部では正しいのですが、こういった選考は応募者がよりどりみどりの一流大学や有名研究室での話です。

そのため、”本来は学部生が応募できる”米国Ph.D.はしっかりリーチすれば合格することは可能だと思います。例えば、ラボ立ち上げ直後の若い助教Ph.D.終えたばかりで初めて自分のお金で学生を雇う、かつその学生がしっかり卒業してくれないと自分の評価に影響するという状況だったりするので、ある程度能力があって従順でハードワークを厭わない日本人にありがちなタイプは英語が多少アレでも十分なアピールポイントになるはずです。

米国PhDは応募というより就職

米国Ph.D.は大体毎年12/15締切ですが、闇雲に出願しても超超優秀な場合や凄い推薦状が無い限り合格は出ないでしょう。MITやStanfordみたいな超一流大学は教授に応募というより最初にラボローテーションがあって所属を決めたりしますが、これは誰がどこに行ってもその教授を満足されられる基準に達する上位校に許された技で、普通の大学は教授が誰を取るかを判断します。(もちろん教授はその意思決定を委員会で承認される必要はあります。)

そのため基本的に12月中でほぼ決着はついており、それまでに各教授にどれだけリーチ出来るかという話になります。

ただこれが難しいのはよくわかります。私の出願時もこの重要性は頭で理解していても、いきなり教授に連絡を取るが怖く、日々の業務が忙しかったのもあり、闇雲に出願して結局修士経由ということになりました。

今過去の自分にアドバイスを送るとすれば、以前にツイートもしましたが、

とにかく学生を探している教授にコンタクトを取りましょう。そもそも給料を出す以上、教授も年によって学生を取る取らないがあります。しっかり求人を出しているところにリーチしましょう。

理想的には夏前に連絡をとって夏にその研究室でインターンするのが理想ですが、今はコロナで無理ですし、逆に連絡が遅くてもチャンスがある可能性があるので、この記事が出るのが12/5ですが全然遅くないので応募大学の学生探している教授に片っ端から連絡しましょう。

一方、逆説的に超一流大学のPh.D.に行きたい場合は、そこの教授に特別な繋がりが無い限りはほぼ無理なので諦めましょう。そこへの推薦状を他の大学に使った方が有意義です。それでも行きたい場合は修士から潜り込みましょう。

英語という壁

教授にコンタクトを取れても話が出来なければ意味がありません。米国では英語ノンネイティブの教授も多く(特にCS)、流暢な英語は求められない場合が多いです。ただしノンネイティブがゆえに教授も許容できるレベルもわかっており最低限は話せる必要があります。これはそこまで大層なものではなく、日本の英文法教育はしっかりしているので、落ち着いてゆっくり文法を守って話せば必ず通じます。

しかし一応目安的にはTOEFL iBTが100点でSpeakingが23点ぐらいは欲しいと言うのが実情のようです。私は91点でぶっこみましたが、100点持っていた方々は多くの合格(修士含む)をもらっていました。

私がPh.D.編入するときは指導教員から「お前の英語スコアが低いから、4月ぐらいに委員会が疲れてきたタイミングでこっそり通す。」といわれました。こんな感じでPh.D.は英語のスコアが低くても若干融通が効きますが、逆に言うと特別な事情(当時私は研究結果が出始めていた。)が無い限りは、このぐらいのスコアは欲しいところです。

詳細な情報は中国の一亩三分地に出願者のTOEFL平均が乗っているので見てみると良いです。

https://www.1point3acres.com/bbs/offer

正直な話、英語力を日本で独力で身につけて厳しいものがあります。その場合Ph.D.だけでなく修士出願も考えるとよいです。修士での優秀なGPAを取れば後のPh.D.出願でも評価され、修士の授業は移管できるので時間の無駄にもならないですし、大体の大学で米国の修士があれば英語試験免除だったりします。(ただし年間400万円ぐらいは覚悟する。)

もし漠然と米国留学を考えている人がいれば、とりあえずTOEICの代わりにTOEFLを定期的に受験すると良いです。TOEFLの点があればいざ行きたくなった時に役立ちます。

退職米国PhD出願はメンタルとの戦い

ここまで退職米国PhD進を勧めるようなことを書きましたが、そこまでの道のりは結構根性が必要です。私が受験前に話を伺った人も「結局応募まで行き着いた人は殆どいない。」と言われました。

仕事をしながらの受験準備はかなりメンタルを消費します。TOEFLGREの準備も大変ですが、一番キツイのは受かったら仕事をやめるけど周りに相談しづらいというのがあります。

普通に全落ちもありえる世界なので、その場合何事もなく仕事を続けたいので大っぴらに相談しづらい中、受かった場合に備えて長期の案件を抱え込まないようにするなど、神経を削る状態が続きます。そんな状態では生産性が上がるわけもなく、それがまたメンタルに影響するという悪循環です。

今の状態で過去に戻れるなら、早い時期から教授と連絡とって何処かは受かりそうといった状態にしたり(or見込みがないので早期に見切りをつける等)スマートに事を進められるはずです。後に続く人々には、私みたいな無駄な事をせず、どんどん先人の知恵を活かしてスマートに出願して貰える事を祈っています。

FAQ

なにか質問あればTwitterTakami Sato (@tkm2261) | TwitterにDM下さい。とりあえずよくありそうな質問をおいておきます。

  • Q: SoPとかエッセイどうすればよい?
    • A: 私も詳しくないですが、検索すれば書き方は色々乗っているので参考にして、添削サービス(EssayEdge等)に出すと良いです。送って頂ければ私も見ます。

grad.berkeley.edu

  • Q: どのぐらい出願するものなの?
    • A: 十数校とか?10校ぐらいは普通なので推薦状依頼するときは米国受験の事情を話して置くとよいです。
  • Q: 奨学金を持ってないないと駄目?
    • A: なくてもOK。基本的に奨学金的なのは他の国の学生は無い。あればプラスだけど無いからといって諦めるレベルのものでもない。
  • Q: 論文もってないと駄目?
    • A: なくてもOK。一流大学とか人気研究室に行くには必要かも。最近のCSのML/CV/NLP界隈は異常なのでなんともですが、こういった疑問は志望教授とのインタビューで直接聞いた方がよいです。(インタビュー呼ばれている時点で大丈夫かも)
  • Q: CSってやっぱ高倍率?
    • A: CSとなるとミーハー人気もあるので、志望したい教員がいるならComputer EngineeringやNetworkとか周辺コースも見ると良いかも。CS学部はお金持っているケースが多くてTA負担が低いなど良いこともあるのですが、まずは受かってから考えて、一番お金が潤沢な所に行けば良いかと。
  • Q: 英語話せるようになる?
    • A: 授業受けているだけだと駄目だけど話していれば話せるようになる。ただしSpeakingはどうにかなるけどListeningは時間かかるので日本にいるときから鍛えた方がよい。
  • Q: 英語どうやって勉強する?
    • A: TOEFLは特殊なケースなので受験勉強と一緒です。英会話については何だかんだ瞬間英作文が一番効きました。瞬間英作文を暗記してからフィリピン留学1ヶ月行くと英語話す感覚ができるかも?私は結局留学前に十分な英語力をつけられなかったので他の方々を参考にしたほうが良さそう。
  • Q: Kaggleとか競プロって役に立つ?
    • A: 無いよりはあったほうがよいand教授による。UT AustinのインタビューのときはKaggleの話になったし、ウチの指導教員は昔ICPC出たりしたのでアピールにはなったはず。

Google Cloud ML Summitで「Kaggler のための BigQuery 活用手法」を話してきた。