tkm2261's blog

研究員(OR屋) → データ分析官 → MLエンジニア → ニートがデータ分析諸々書いてます

NIPS2017 タイトル&概要訳 一覧を作った

ブログに書いておかないと忘れるのでこちらにも 遅ればせながらNIPS2017の論文を調べるためにタイトルと概要のGoogle翻訳一覧作ったので良ければどうぞ英語読めよ。。。って話だけど、探すのぐらい良いよね。。。https://t.co/B2C3r2qBaI pic.twitter.com/21…

Kaggle Tokyo Meetup #3 開催レポート

こんにちは。tkm2261です。 今日は10/28に開催したKaggle Tokyo Meetup #3の模様をレポートします。 connpass.com このmeetupは@threecourseさんや@smlyさんが2年前ぐらいから始めて不定期で開催しており、 私もニートの有り余る労働力を活かして今回運営を…

Kaggle入門動画をつくった

皆様こんにちわ 今回はKaggle入門動画作ったので、その事について書いていきます。 Twitterでも告知したし、ブログは良いかなーと思ってたのですが、 ニートで新しいこと挑戦企画としてYoutuberになってみましたKaggleの提出までを環境構築からライブコーデ…

理研AIP主催Micheal Jordan先生最適化セミナー聴講メモ

お久しぶりです。 今日は10/20に参加した、理研AIPでのMicheal Jordan先生の講演のメモを書いていきたいと思います。 参加を許可頂いた理研AIPの方や司会の福水先生も良い会をありがとうございました。 Talk by Prof. Michael I. Jordan (University of Cali…

Githubを整備した

Kaggleの汚いコードばっかなので、Bitbucketのコードを公開するのを躊躇ってたが、 このご時世githubにコードが上がっていないのもリスクなので諸々上げました Kaggleコンペがプライベートシェア禁止のため普段bitbucketに上げてるんですが、githubが寂しい…

ニートになって3ヵ月経ったので、ニートについて書く

皆様、お久しぶりです。 以前のエントリでも触れましたが、絶賛ニートを楽しんでおります。 ニートになって早3ヵ月ですが、率直な感想としては、 世界がこんなに輝いていたとは! っといったところです。 将来を犠牲にした束の間の天国かもしれませんが、体…

Kaggler Slack作りました

Twitterでは拡散しましたが、検索で来る人もいそうなので宣伝 @smlyさん @threecourseさんに日本Kagglerのslackオープンしてもらいました!誰でもウェルカムです!ただ互助会なので業者や勧誘は蹴飛ばします!皆でKaggleやりませうhttps://t.co/PUuyCJFk8F— …

Kaggle Masterになりました

記念に残しておく https://www.kaggle.com/tkm2261

細かすぎて伝わらないLightGBM活用法 (callback関数)

皆様tkm2261です。この頃連投が続いてますが、 最近まで参加していたInstacart Market Basket Analysis | Kaggleで色々やったので残しておこうと思います。 このcallback関数は便利ですが、Kaggleなどでヘビーに使う人以外ここまでしないと思うので活躍する…

道具としてのCython

皆様tkm2261です。今日は道具としてのCythonと題して、 使うことに特化してCythonの解説をしたいと思います。 きっかけはKaggle Cythonを使うとき FaronさんのF1最適化 DP (Dynamic Programming)を含んだ実装はCythonの出番 使い方 その1 『Cython実装』 フ…

PythonでCSVを高速&省メモリに読みたい

今日はPython (Pandas)で高速にCSVを読むことに挑戦したいと思います。 Kaggleに参加するたびに、イライラしていたので各実装の白黒はっきりさせようと思います。 R使いが羨ましいなぁと思う第一位がCSV読込が簡単に並列出来て速いことなので、 なんとかGIL…

KagglerのためのGit入門

お久しぶりです。絶賛ニートを楽しんでるtkm2261です。 今日はTwitterで意見が諸々散見されたので、私のKaggleでのgit活用法を共有しようと思います。 Gitの独学はハードルが高いですよね。。。 gitの運用は開発プロセスと密接なのであまり外に出てこなかっ…

ニートになりました。

表題のとおり2017/07/01ニートとなりました。 詳細はTwitterに書いたとおりです 本日の出社を最後に、会社を退職しニートとなりました就職予定はなく仕事も受けませんしばらくは、英語・Kaggle・競プロ・筋トレ・最適化勉強のガチ勢として生きていきます— Ta…

LightGBMをGPUで速度検証

LightGBMとは Microsoftが公開しているGradient Boosting Decision Tree(GBDT)の実装です。 github.com GBDTの実装で一番有名なのはxgboostですが、LightGBMは2016年末に登場してPython対応から一気に普及し始め、 最近のKaggleコンペではxgboostよりも、W…

Kaggle Quoraコンペ 17位でした

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今月6月に終了した、Quora Question Pairs | Kaggleに参加してソロ17…

Data Science Bowl 2017(肺がん検知)の上位手法を調べた

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今年2017年の4月に1億円コンペで有名になった、Data Science Bowl 201…

NIPS・ICDM 2016論文輪読会を主催 & RSVRGの論文を読んだ

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今年2017年2月にNIPS・ICDM 2016論文輪読会を主催しました。会社で参…

Kaggle Boschコンペ15位でした

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 昨年2016年の末に、同僚のhskkskさんとg_votteさんとともにBoschコン…

決定木からxgboostまで調べてみた

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。 Overview of tree algorithms from decision tree to xgboost from Takami Sato 会社の輪読会でElem…

ICML2015読み会 『Sparse Subspace Clustering with Missing Entries』

皆様、こんにちは 最近業務が忙しすぎて更新が滞っております。 分析官の仕事よりも、分析結果をお客様に使って貰うための画面・インフラ構築に忙殺されていたり。。。 私は今後何になって行くのか若干不安を抱える今日この頃です。 久しぶりの投稿ですが新…

遺伝的アルゴリズムでAA自動生成

皆さまこんちにちは 今回は遺伝的アルゴリズム(GA)でAA自動生成してみたので、コードと資料を共有 コードは以下に公開しています。 anaguma2261/ga_aa_optimizegithub.com 今回のお題 左の画像を、右のようなAAにするのが今回のお題。右は2chのAA職人さん…

もう迷わない Caffe入門 その1

皆様お久しぶりです。 今回から深層学習(ディープラーニング)フレームワークのcaffeの環境構築使い方について解説していこうと思います。 インストールに難ありと言われるcaffeに対して、AWSでインスタンスを立てる所から、 cuDNNでのコンパイル、pycaffe等…

Pydata.Tokyoで「High Performance Python Computing for Data Science」を話してきた

先日4/3にPyData.Tokyo meetup #4で話して来ました。 PyData.Tokyo Meetup #4 - データ解析アルゴリズムの高速化 (2015/04/03 19:30〜)pydatatokyo.connpass.com 経緯としては、最適化超入門を話したときに丁度PyDataの運営の方がいて、 スピーカーにならな…

『2014 Data Science Salary Survey』によると米国と日本は年収が680万円違うらしい

お久しぶりです。 今日は、Strata+Hadoop San Joseで貰った。『2014 Data Science Salary Survey』を紹介します。 私は会場でペーパーバック版を貰ったのですが、なんとこのレポートは無料で公開されており、こちらからDL出来ます。 Free Data Reports - O'R…

Python高速化 Numba入門 その5

今回はGPUの数値実験についての記事です。 計算環境 OS: Windows 7 64bit CPU: Intel Core i7-4771 CPU @ 3.50GHz GPU: NVIDIA GeForce GTX 650 MEM: 32GB 我が家の計算マシンです。 これをWindowsで構成しているのは、もったいない気がしていますが、 Linux…

Python高速化 Numba入門 その4

今回はNumbaのGPUコンピューティングについて読んでいきます。 最終回の予定でしたが、エントリが超長くなりそうなので今回はGPUの使用方法、次回に計算速度の検証をして終わりたいと思います。 Writing CUDA-Python — numba 0.15.1 documentation expriment…

Python高速化 Numba入門 その3

今回もNumbaのドキュメントを読んで行きます。 Numba — numba 0.15.1 documentation と思ったんですが、読み進めて行くと以外に紹介する内容が少ないことに気づきました。 シンプルなのは良いことなので、今回はUFuncを紹介して、 次回にGPUについて紹介して…

Python高速化 Numba入門 その2

今回は、QuickStartを読んでいきます。 Quick Start — numba 0.15.1 documentation とりあえず、前回の@jitデコレータだけで動くのは理解した。 from numba import jit @jit def sum(x, y): return x + y 引数と戻り値の型が陽にわかっている場合には、@jit…

Python高速化 Numba入門 その1

みなさん、こんにちは 今日からPython高速化 Numbaに入門したいと思います。 入門資料を探しに来た皆様すみませんが、 本記事は私がこれから入門する内容になります。 結果として入門資料に慣れば幸いですが、過度な期待は御無用でお願いします。 基本的には…

最適化超入門

SlideShareだけでなく、ブログの記事にもすることに 先日、TokyoWebMning #40にて最適化について熱く語ってきました。 最適化超入門 from tkm2261 個人的にも結構やりきった感があり、網羅的に最適化手法を紹介出来たと思います。 その後飲んだ研究室の同期…