お久しぶりです。

今日は、Strata+Hadoop San Joseで貰った。『2014 Data Science Salary Survey』を紹介します。

f:id:tkm2261:20150323115251g:plain

私は会場でペーパーバック版を貰ったのですが、なんとこのレポートは無料で公開されており、こちらからDL出来ます。

<a href="http://www.oreilly.com/data/free/">Free Data Reports - O'Reilly Media</a>www.oreilly.com

詳細は、これから語りますが、このレポートは最後に給料を重回帰分析したモデルがくっついています。

そのモデルではAsiaで働くのと、Californiaで働くのでは、年収に$56,691の開きがあり、

日本円にして約680万円 、対ヨーロッパだと約82万円（$6,856）日本より高いです。

アメリカヤバいですね・・・

では、気になったところを幾つかピックアップ

全体の年収中央値は昨年比で84万円（$7,000）増加

全体では1092万円($91k)から1176万円($98k)に増加しているみたいです。

景気の良い話ですね・・・日本でも人手不足と相まって上がっている感はありますが、どうなんでしょう

ちなみに、米国に限定すると1260万円($105k)から1728万円($144k)に増加しているみたいです。もう何だか・・・という感じです。

21～35歳の年収は低め

21～35歳の年収の中央値は960万円（$80k）と低め(?)なのに対し、

35歳は大体1440万円（$120k）とかなり開きがあります。
データサイエンティストはマネージャーの役割を求められているのでしょうか。

HadoopやSparkといったスケーラブルなツールを使えると年収が高い傾向にあるようです。

RDBMSのみ使える人は年収中央値は1116万円（$93k）に対して、Hadoopのみ使える人の年収中央値は1416万円（$118）となり300万円ほど高くなっています。

さらに、両方使える場合は1464万円($122k)と微増します。

もはや、Hadoop周りの知識はデータサイエンティストに必須のスキルになってきている感があります。

HBase, Teradata, Hortonworks, Pig, HomeGrown, Amazon EMR, Cassandra, Netezza, Storm, Spark

Hadoop周りがやはり高いようです。

Google BigQuery Table, Oracle BI, VBA, SPSS, Windows, SQL Server, C#, Google Chart Tools/Image API, Excel, SQLite

Windows環境でポチポチやってる人は年収が低い傾向ですかね。

さて、私の年収を回帰してみようと思います。

その前に、回帰用にツールをクラスターに分けているので引用します。

クラスタ名	ツール群
Cluster 1	Windows, C#, SPSS, SQL, VBA, Business Objects, Oracle BI, PowerPoint, Excel Oracle, SAS, SQL Server, Microstrategy
Cluster 2	Linux, JAVA, Redis, Hive, Amazon EMR, MongoDB, Homegrown ML Tools, Storm, Cloudera, Apache Hadoop, Hortonworks, Spark, MapR, Cassandra, HBase, Pentaho, Mahout, Splunk, Scala, Pig
Cluster 3	Python, R, Matlab, Natural Language/Text Processing, Continuum Analytics(Numpy + Scipy), Network/Social Graph, libsvm, Weka
Cluster 4	Mac OS X, Javascript, MySQL, PostgresSQL, D3, Ruby, Google Chart Tools/Image API, SQLite
Cluster 5	Unix, C++, Perl, C

そして、回帰式が以下となっています。

変数名	単位	係数（$）	私の変数
(constant)	-	+ $30,694	-
Europe	-	– $24,104	0
Asia	-	– $30,906	1
California	-	+ $25,785	0
Mid-Atlantic	-	+ $21,750	0
Northeast	-	+ $17,703	0
Industry: education	-	– $30,036	0
Industry: science and technology	-	– $17,294	0
Industry: government	-	– $16,616	0
Gender: female	-	– $13,167	0
Age	per 1 year	+ $1,094	26
Years working in data	per 1 year	+ $1,353	2
Doctorate degree	-	+ $11,130	0
Position	per level	+ $10,299	1
Portion of role as manager	per 1%	+ $326	10%
Company size	per 1 employee	+ $0.90	150
Company age	per 1 year, up to ~30	– $275	11
Company type: early startup	-	– $17,318	0
Cloud computing: no cloud use	-	– $12,994	0
Cloud computing: experimenting	-	– $9,196	0
Cluster 1	per 1 tool	– $1,112	5
Cluster 2	per 1 tool	+ $1,645	4
Cluster 3	per 1 tool	+ $1,900	7
Bonus	-	+ $17,457	0
Stock options	-	+ $21,290	0
Stock ownership	-	+ $14,709	0
No retirement plan	-	– $21,518	1