キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
Qiitaクリスマスアドベントカレンダー実施中

皆さん、データサイエンスにはどんなツールを使っていますか?

Highlighted
データサイエンティスト
データサイエンティスト

皆さんは普段データサイエンスを行う時にDataRobotを支えるツールとしてどんな環境を利用していますか?

Python、R、Javaの言語選択、エディタのこだわり、ノートブック派かIDE派か。データ加工はやっぱりSQLでそこからDataRobotに直繋ぎとか。

ちなみに私はサーバーをみていたなごりか、vi(この発言でemacs派の人とは袂が分かれたかもしれません)が染み付いています。Pythonに関しては、いろんなライブラリの検証とかしないとという思いから、複数バージョンを同時運用するため、pyenvとpyenv-virtualenvを愛用していますが、もっと最新のいいものがあれば是非教えてください。

これからデータサイエンスのコーディングも始める人にいろんな選択肢があるんだなと知ってもらえたらと思っています。DataRobotのトップデータサイエンティストの一人、Zach(Rのcaretパッケージのco-authorである人)もここ数年で得た学びとして、データサイエンスにはnotebookを使うよりもソフトウェア開発スキルが大事だと以下の動画を社内のミーティングで紹介していました。

I don't like notebooks.- Joel Grus (Allen Institute for Artificial Intelligence)

英語のyoutube動画ですが、ジョークも満載で面白いのでお勧めです。タイトルにある通り、jupyter notebookのダメなところをJupyterConで話している動画です。

こんな開発環境使ってます!からピンポイントでこのライブラリが好きすぎるなど皆さんの緩い意見があつまればいいなと思っています。

2件の返信2
Highlighted
青色LED

面白いYouTubeのご紹介ありがとうございます!

私はずっと iPython + emacs (viは昔挫折しましたので、、、)で自分の自然言語処理やMLライブラリを作ってきましたが、最近はむしろ Jupyter Notebook をよく使っています。

動画にあるように色々生産性の問題や、良い習慣が身につかないリスクはありますが、データサイエンスをはじめて勉強する人に、ハンズオンをやってもらうには、非常に使いやすいので重宝しています。
また自分でも、どのようなモジュールをどんな手順で入れて仮想環境を作って、どんなエラーが過去にあったのかなど、備忘録として残すにも Notebook は便利です。

また最近はAWSのマネージド・サービスをもっともっと使おうと取り組んでいて、SageMakerのサンプルなどで勉強しておりますが、トレーニングを実行するための .py ファイルや、その環境を作るための Dockerfile の作成、実行などを全部 Notebook のセルで書いてしまうというのは、自分がやったことを後で確認したり、人に簡単に伝えたり、引き継いだりする手段として、良いと思っています。

イメージセンサー

私は基本「R使い」なので、普段はDockerコンテナとして立ち上げたRStudio Serverの上でいろいろと解析計算を行っています。DataRobotのパッケージがあるので、R上で作成したデータフレームのアップロード→オートパイロット→モデルの評価→デプロイ→予測計算を一気通貫で行っています。

最近は流行りに乗ってPythonも扱うようになりました。以前はSublime Textを使っていましたが最近は拡張機能が豊富なVisual Studio Codeに切り替えて使っています。Jupyter NotebookやSQL Server等のDBとの相性も良いのでとても気に入っています。

でも使い慣れていることもあり、がっつりと解析をする時にはやはりR(RStudio Server)を使っちゃいます。