tkm2261's blog

研究員(OR屋) → データ分析官 → MLエンジニア → ニートがデータ分析諸々書いてます

理研AIP主催Micheal Jordan先生最適化セミナー聴講メモ

お久しぶりです。 今日は10/20に参加した、理研AIPでのMicheal Jordan先生の講演のメモを書いていきたいと思います。 参加を許可頂いた理研AIPの方や司会の福水先生も良い会をありがとうございました。 Talk by Prof. Michael I. Jordan (University of Cali…

Githubを整備した

Kaggleの汚いコードばっかなので、Bitbucketのコードを公開するのを躊躇ってたが、 このご時世githubにコードが上がっていないのもリスクなので諸々上げました Kaggleコンペがプライベートシェア禁止のため普段bitbucketに上げてるんですが、githubが寂しい…

ニートになって3ヵ月経ったので、ニートについて書く

皆様、お久しぶりです。 以前のエントリでも触れましたが、絶賛ニートを楽しんでおります。 ニートになって早3ヵ月ですが、率直な感想としては、 世界がこんなに輝いていたとは! っといったところです。 将来を犠牲にした束の間の天国かもしれませんが、体…

Kaggler Slack作りました

Twitterでは拡散しましたが、検索で来る人もいそうなので宣伝 @smlyさん @threecourseさんに日本Kagglerのslackオープンしてもらいました!誰でもウェルカムです!ただ互助会なので業者や勧誘は蹴飛ばします!皆でKaggleやりませうhttps://t.co/PUuyCJFk8F— …

Kaggle Masterになりました

記念に残しておく https://www.kaggle.com/tkm2261

細かすぎて伝わらないLightGBM活用法 (callback関数)

皆様tkm2261です。この頃連投が続いてますが、 最近まで参加していたInstacart Market Basket Analysis | Kaggleで色々やったので残しておこうと思います。 このcallback関数は便利ですが、Kaggleなどでヘビーに使う人以外ここまでしないと思うので活躍する…

道具としてのCython

皆様tkm2261です。今日は道具としてのCythonと題して、 使うことに特化してCythonの解説をしたいと思います。 きっかけはKaggle Cythonを使うとき FaronさんのF1最適化 DP (Dynamic Programming)を含んだ実装はCythonの出番 使い方 その1 『Cython実装』 フ…

PythonでCSVを高速&省メモリに読みたい

今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGIL…

KagglerのためのGit入門

お久しぶりです。絶賛ニートを楽しんでるtkm2261です。 今日はTwitterで意見が諸々散見されたので、私のKaggleでのgit活用法を共有しようと思います。 Gitの独学はハードルが高いですよね。。。 gitの運用は開発プロセスと密接なのであまり外に出てこなかっ…

ニートになりました。

表題のとおり2017/07/01ニートとなりました。 詳細はTwitterに書いたとおりです 本日の出社を最後に、会社を退職しニートとなりました就職予定はなく仕事も受けませんしばらくは、英語・Kaggle・競プロ・筋トレ・最適化勉強のガチ勢として生きていきます— Ta…

LightGBMをGPUで速度検証

LightGBMとは Microsoftが公開しているGradient Boosting Decision Tree(GBDT)の実装です。 github.com GBDTの実装で一番有名なのはxgboostですが、LightGBMは2016年末に登場してPython対応から一気に普及し始め、 最近のKaggleコンペではxgboostよりも、W…

Kaggle Quoraコンペ 17位でした

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今月6月に終了した、Quora Question Pairs | Kaggleに参加してソロ17…

Data Science Bowl 2017(肺がん検知)の上位手法を調べた

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今年2017年の4月に1億円コンペで有名になった、Data Science Bowl 201…

NIPS・ICDM 2016論文輪読会を主催 & RSVRGの論文を読んだ

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今年2017年2月にNIPS・ICDM 2016論文輪読会を主催しました。会社で参…

Kaggle Boschコンペ15位でした

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 昨年2016年の末に、同僚のhskkskさんとg_votteさんとともにBoschコン…

決定木からxgboostまで調べてみた

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。 Overview of tree algorithms from decision tree to xgboost from Takami Sato 会社の輪読会でElem…

ICML2015読み会 『Sparse Subspace Clustering with Missing Entries』

皆様、こんにちは 最近業務が忙しすぎて更新が滞っております。 分析官の仕事よりも、分析結果をお客様に使って貰うための画面・インフラ構築に忙殺されていたり。。。 私は今後何になって行くのか若干不安を抱える今日この頃です。 久しぶりの投稿ですが新…

遺伝的アルゴリズムでAA自動生成

皆さまこんちにちは 今回は遺伝的アルゴリズム(GA)でAA自動生成してみたので、コードと資料を共有 コードは以下に公開しています。 anaguma2261/ga_aa_optimizegithub.com 今回のお題 左の画像を、右のようなAAにするのが今回のお題。右は2chのAA職人さん…

もう迷わない Caffe入門 その1

皆様お久しぶりです。 今回から深層学習(ディープラーニング)フレームワークのcaffeの環境構築使い方について解説していこうと思います。 インストールに難ありと言われるcaffeに対して、AWSでインスタンスを立てる所から、 cuDNNでのコンパイル、pycaffe等…

Pydata.Tokyoで「High Performance Python Computing for Data Science」を話してきた

先日4/3にPyData.Tokyo meetup #4で話して来ました。 PyData.Tokyo Meetup #4 - データ解析アルゴリズムの高速化 (2015/04/03 19:30〜)pydatatokyo.connpass.com 経緯としては、最適化超入門を話したときに丁度PyDataの運営の方がいて、 スピーカーにならな…

『2014 Data Science Salary Survey』によると米国と日本は年収が680万円違うらしい

お久しぶりです。 今日は、Strata+Hadoop San Joseで貰った。『2014 Data Science Salary Survey』を紹介します。 私は会場でペーパーバック版を貰ったのですが、なんとこのレポートは無料で公開されており、こちらからDL出来ます。 Free Data Reports - O'R…

Python高速化 Numba入門 その5

今回はGPUの数値実験についての記事です。 計算環境 OS: Windows 7 64bit CPU: Intel Core i7-4771 CPU @ 3.50GHz GPU: NVIDIA GeForce GTX 650 MEM: 32GB 我が家の計算マシンです。 これをWindowsで構成しているのは、もったいない気がしていますが、 Linux…

Python高速化 Numba入門 その4

今回はNumbaのGPUコンピューティングについて読んでいきます。 最終回の予定でしたが、エントリが超長くなりそうなので今回はGPUの使用方法、次回に計算速度の検証をして終わりたいと思います。 Writing CUDA-Python — numba 0.15.1 documentation expriment…

Python高速化 Numba入門 その3

今回もNumbaのドキュメントを読んで行きます。 Numba — numba 0.15.1 documentation と思ったんですが、読み進めて行くと以外に紹介する内容が少ないことに気づきました。 シンプルなのは良いことなので、今回はUFuncを紹介して、 次回にGPUについて紹介して…

Python高速化 Numba入門 その2

今回は、QuickStartを読んでいきます。 Quick Start — numba 0.15.1 documentation とりあえず、前回の@jitデコレータだけで動くのは理解した。 from numba import jit @jit def sum(x, y): return x + y 引数と戻り値の型が陽にわかっている場合には、@jit…

Python高速化 Numba入門 その1

みなさん、こんにちは 今日からPython高速化 Numbaに入門したいと思います。 入門資料を探しに来た皆様すみませんが、 本記事は私がこれから入門する内容になります。 結果として入門資料に慣れば幸いですが、過度な期待は御無用でお願いします。 基本的には…

最適化超入門

SlideShareだけでなく、ブログの記事にもすることに 先日、TokyoWebMning #40にて最適化について熱く語ってきました。 最適化超入門 from tkm2261 個人的にも結構やりきった感があり、網羅的に最適化手法を紹介出来たと思います。 その後飲んだ研究室の同期…

Word2vecで大谷翔平の二刀流論争に終止符を打つ!

皆様、お久しぶりです。 VOYAGE GROUPさん主催の14' Data Scientist MeetUpでLTした時の資料 3時間で作った資料なので超絶適当です。 リファクタしてから上げようかと思いましたが、忙しくて断念 ネタ的にお蔵入りは勿体無かったので、そのまま上げています。…

Scikit-learnで学ぶ機械学習入門

今回はこの前勉強会で話してきたこの話 『Scikit-learnで学ぶ機械学習入門 』 ついに、このブログでもデータ解析っぽいことを話せて感無量です。 詳細な勉強会の模様は天丼丸さんのページをご参照ください。 機械学習勉強会 #2 | /home/by-natures/* この勉…

dplyrとR界隈について

R

Pythonianの私としてはブログの記事として、 Pythonよりも先にRについて書くのは若干気になるものの、 同僚のR使いに面白い共有を頂いたので備忘のため記事にします。 ※同僚の受け売りなので、私はあんまりRに詳しくないです 近年、R界隈に彗星のごとく現れ…