tkm2261's blog

研究員(OR屋) → データ分析官 → MLエンジニア → ニート → 米国CS PhDが諸々書いてます

『2014 Data Science Salary Survey』によると米国と日本は年収が680万円違うらしい

お久しぶりです。

今日は、Strata+Hadoop San Joseで貰った。『2014 Data Science Salary Survey』を紹介します。

f:id:tkm2261:20150323115251g:plain

私は会場でペーパーバック版を貰ったのですが、なんとこのレポートは無料で公開されており、こちらからDL出来ます。

www.oreilly.com

詳細は、これから語りますが、このレポートは最後に給料を重回帰分析したモデルがくっついています。

そのモデルではAsiaで働くのと、Californiaで働くのでは、年収に$56,691の開きがあり、

日本円にして約680万円 、対ヨーロッパだと約82万円($6,856)日本より高いです。

アメリカヤバいですね・・・

では、気になったところを幾つかピックアップ

全体の年収中央値は昨年比で84万円($7,000)増加

全体では1092万円($91k)から1176万円($98k)に増加しているみたいです。

景気の良い話ですね・・・日本でも人手不足と相まって上がっている感はありますが、どうなんでしょう

ちなみに、米国に限定すると1260万円($105k)から1728万円($144k)に増加しているみたいです。もう何だか・・・という感じです。

21~35歳の年収は低め

21~35歳の年収の中央値は960万円($80k)と低め(?)なのに対し、

35歳は大体1440万円($120k)とかなり開きがあります。
データサイエンティストはマネージャーの役割を求められているのでしょうか。

スケールするツールを使えると年収増

HadoopやSparkといったスケーラブルなツールを使えると年収が高い傾向にあるようです。

RDBMSのみ使える人は年収中央値は1116万円($93k)に対して、Hadoopのみ使える人の年収中央値は1416万円($118)となり300万円ほど高くなっています。

さらに、両方使える場合は1464万円($122k)と微増します。

もはや、Hadoop周りの知識はデータサイエンティストに必須のスキルになってきている感があります。

使っている人の年収が高いツールTop 10

HBase, Teradata, Hortonworks, Pig, HomeGrown, Amazon EMR, Cassandra, Netezza, Storm, Spark

Hadoop周りがやはり高いようです。

使っている人の年収が低いツールTop 10

Google BigQuery Table, Oracle BI, VBA, SPSS, Windows, SQL Server, C#, Google Chart Tools/Image API, Excel, SQLite

Windows環境でポチポチやってる人は年収が低い傾向ですかね。

年収回帰

さて、私の年収を回帰してみようと思います。

その前に、回帰用にツールクラスターに分けているので引用します。

クラスタ ツール
Cluster 1 Windows, C#, SPSS, SQL, VBA, Business Objects, Oracle BI, PowerPoint, Excel Oracle, SAS, SQL Server, Microstrategy
Cluster 2 Linux, JAVA, Redis, Hive, Amazon EMR, MongoDB, Homegrown ML Tools, Storm, Cloudera, Apache Hadoop, Hortonworks, Spark, MapR, Cassandra, HBase, Pentaho, Mahout, Splunk, Scala, Pig
Cluster 3 Python, R, Matlab, Natural Language/Text Processing, Continuum Analytics(Numpy + Scipy), Network/Social Graph, libsvm, Weka
Cluster 4 Mac OS X, Javascript, MySQL, PostgresSQL, D3, Ruby, Google Chart Tools/Image API, SQLite
Cluster 5 Unix, C++, Perl, C

そして、回帰式が以下となっています。

変数名 単位 係数($) 私の変数
(constant) - + $30,694 -
Europe - – $24,104 0
Asia - – $30,906 1
California - + $25,785 0
Mid-Atlantic - + $21,750 0
Northeast - + $17,703 0
Industry: education - – $30,036 0
Industry: science and technology - – $17,294 0
Industry: government - – $16,616 0
Gender: female - – $13,167 0
Age per 1 year + $1,094 26
Years working in data per 1 year + $1,353 2
Doctorate degree - + $11,130 0
Position per level + $10,299 1
Portion of role as manager per 1% + $326 10%
Company size per 1 employee + $0.90 150
Company age per 1 year, up to ~30 – $275 11
Company type: early startup - – $17,318 0
Cloud computing: no cloud use - – $12,994 0
Cloud computing: experimenting - – $9,196 0
Cluster 1 per 1 tool – $1,112 5
Cluster 2 per 1 tool + $1,645 4
Cluster 3 per 1 tool + $1,900 7
Bonus - + $17,457 0
Stock options - + $21,290 0
Stock ownership - + $14,709 0
No retirement plan - – $21,518 1

このAsiaとCaliforniaの係数の差が表題の680万円に繋がります。

 

この式による私の年収は・・・289万円($24,111) 超低いorz

退職金制度あれば500万にはなったんですが・・・

 

ちなみに、勤務地をカリフォルニアにすると私の年収は969万円($80,802)
誰かこれで雇って下さい(´・ω・`)

 

日本で働いたら負けの時代が来ているのかな?

 

・・・という感じで、ここまで結果に一喜一憂しましたが、
実はこのモデルの決定係数は0.58しかありません。

金額値は気休め程度も信頼できない感じです。

ただ、単純な回帰なので定性的には正しいっぽいので結構思うところがありますね。

データサイエンティストはこれからどうなっていくんでしょうか

とりあえず、給料上がることを切に願います。