tkm2261's blog

研究員(OR屋) → データ分析官 → MLエンジニア → ニート → 米国CS PhDが諸々書いてます

Kaggle Quoraコンペ 17位でした

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今月6月に終了した、Quora Question Pairs | Kaggleに参加してソロ17…

Data Science Bowl 2017(肺がん検知)の上位手法を調べた

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今年2017年の4月に1億円コンペで有名になった、Data Science Bowl 201…

NIPS・ICDM 2016論文輪読会を主催 & RSVRGの論文を読んだ

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 今年2017年2月にNIPS・ICDM 2016論文輪読会を主催しました。会社で参…

Kaggle Boschコンペ15位でした

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。時系列狂うかもですがご容赦を 昨年2016年の末に、同僚のhskkskさんとg_votteさんとともにBoschコン…

決定木からxgboostまで調べてみた

お久しぶりです。最近、色々ありましてブログを再開しようと思います。 基本的に、スライド作って話す事が多いので、まずその辺りのこと書こうと思います。 Overview of tree algorithms from decision tree to xgboost from Takami Sato 会社の輪読会でElem…

ICML2015読み会 『Sparse Subspace Clustering with Missing Entries』

皆様、こんにちは 最近業務が忙しすぎて更新が滞っております。 分析官の仕事よりも、分析結果をお客様に使って貰うための画面・インフラ構築に忙殺されていたり。。。 私は今後何になって行くのか若干不安を抱える今日この頃です。 久しぶりの投稿ですが新…

遺伝的アルゴリズムでAA自動生成

皆さまこんちにちは 今回は遺伝的アルゴリズム(GA)でAA自動生成してみたので、コードと資料を共有 コードは以下に公開しています。 anaguma2261/ga_aa_optimizegithub.com 今回のお題 左の画像を、右のようなAAにするのが今回のお題。右は2chのAA職人さん…

もう迷わない Caffe入門 その1

皆様お久しぶりです。 今回から深層学習(ディープラーニング)フレームワークのcaffeの環境構築使い方について解説していこうと思います。 インストールに難ありと言われるcaffeに対して、AWSでインスタンスを立てる所から、 cuDNNでのコンパイル、pycaffe等…

Pydata.Tokyoで「High Performance Python Computing for Data Science」を話してきた

先日4/3にPyData.Tokyo meetup #4で話して来ました。 PyData.Tokyo Meetup #4 - データ解析アルゴリズムの高速化 (2015/04/03 19:30〜)pydatatokyo.connpass.com 経緯としては、最適化超入門を話したときに丁度PyDataの運営の方がいて、 スピーカーにならな…

『2014 Data Science Salary Survey』によると米国と日本は年収が680万円違うらしい

お久しぶりです。 今日は、Strata+Hadoop San Joseで貰った。『2014 Data Science Salary Survey』を紹介します。 私は会場でペーパーバック版を貰ったのですが、なんとこのレポートは無料で公開されており、こちらからDL出来ます。 Free Data Reports - O'R…

Python高速化 Numba入門 その5

今回はGPUの数値実験についての記事です。 計算環境 OS: Windows 7 64bit CPU: Intel Core i7-4771 CPU @ 3.50GHz GPU: NVIDIA GeForce GTX 650 MEM: 32GB 我が家の計算マシンです。 これをWindowsで構成しているのは、もったいない気がしていますが、 Linux…

Python高速化 Numba入門 その4

今回はNumbaのGPUコンピューティングについて読んでいきます。 最終回の予定でしたが、エントリが超長くなりそうなので今回はGPUの使用方法、次回に計算速度の検証をして終わりたいと思います。 Writing CUDA-Python — numba 0.15.1 documentation expriment…

Python高速化 Numba入門 その3

今回もNumbaのドキュメントを読んで行きます。 Numba — numba 0.15.1 documentation と思ったんですが、読み進めて行くと以外に紹介する内容が少ないことに気づきました。 シンプルなのは良いことなので、今回はUFuncを紹介して、 次回にGPUについて紹介して…

Python高速化 Numba入門 その2

今回は、QuickStartを読んでいきます。 Quick Start — numba 0.15.1 documentation とりあえず、前回の@jitデコレータだけで動くのは理解した。 from numba import jit @jit def sum(x, y): return x + y 引数と戻り値の型が陽にわかっている場合には、@jit…

Python高速化 Numba入門 その1

みなさん、こんにちは 今日からPython高速化 Numbaに入門したいと思います。 入門資料を探しに来た皆様すみませんが、 本記事は私がこれから入門する内容になります。 結果として入門資料に慣れば幸いですが、過度な期待は御無用でお願いします。 基本的には…

最適化超入門

SlideShareだけでなく、ブログの記事にもすることに 先日、TokyoWebMning #40にて最適化について熱く語ってきました。 最適化超入門 from tkm2261 個人的にも結構やりきった感があり、網羅的に最適化手法を紹介出来たと思います。 その後飲んだ研究室の同期…

Word2vecで大谷翔平の二刀流論争に終止符を打つ!

皆様、お久しぶりです。 VOYAGE GROUPさん主催の14' Data Scientist MeetUpでLTした時の資料 3時間で作った資料なので超絶適当です。 リファクタしてから上げようかと思いましたが、忙しくて断念 ネタ的にお蔵入りは勿体無かったので、そのまま上げています。…

Scikit-learnで学ぶ機械学習入門

今回はこの前勉強会で話してきたこの話 『Scikit-learnで学ぶ機械学習入門 』 ついに、このブログでもデータ解析っぽいことを話せて感無量です。 詳細な勉強会の模様は天丼丸さんのページをご参照ください。 機械学習勉強会 #2 | /home/by-natures/* この勉…

dplyrとR界隈について

R

Pythonianの私としてはブログの記事として、 Pythonよりも先にRについて書くのは若干気になるものの、 同僚のR使いに面白い共有を頂いたので備忘のため記事にします。 ※同僚の受け売りなので、私はあんまりRに詳しくないです 近年、R界隈に彗星のごとく現れ…

セクシー女優で学ぶ画像分類入門

記事第一弾はこちら 『セクシー女優で学ぶ画像分類入門』 Tokyowebmining26 3 from tkm2261 おそらくTokyoWebMining史上もっともはてブ数をもらっています タイトルが反則くさいですが。。。 この記事を書いている段階で698はてブなので700は目指したいとこ…

当ブログについて

当ブログは、 データ分析会社で研究開発をしている、ゆとり世代データサイエンティストが 学んだ内容や最新トピックについて適当に語る予定のブログです。 バックグラウンドはオペレーションズリサーチの最適化屋さんです。 以下の様なトピックを書いていく…