DataRobotコミュニティでは、2月からの新しいプログラムとして「コミュニティラジオ」を開始予定しております。
毎月のデータサイエンス・トークテーマを設定し、メンバーの皆様からの様々な「投稿」をお待ちしております。月末放送するコミュニティラジオにて、パーソナリティがメンバーの皆様からの投稿を読み上げ、そのテーマのトピックについてお話をしたり、ゲストをお迎えしたりする予定です。
2月のトークテーマは「データ」です。こちらの投稿への返信というかたちで、ぜひお気軽に「投稿」お願いします。
めざせ投稿職人!投稿職人の方々には様々な特典プログラムをご提供していく予定です
解決済! 解決策の投稿を見る。
投稿例)
不謹慎かも知れませんが、実際にあった面白いデータのリーケージの話を聞いてみたいです。
(色んな意味で)世の中のイケてるデータセット紹介(→最近はNatureとかもデータセットを集めてますし)とかはどうでしょう
・教育的用途
・分析する価値がありそうなオープンデータ
・面白そうだけど分析するのが難しそうなデータ
・こんなデータ公開してくれたら嬉しいなあ
などなど
もうちょっとニッチな話題でいえば、分析のためには、どんなときにどんなスキーマがいいかを話し合うというのもどうでしょうか?
スタースキーマなのか、第三正規形がいいのか、はたまたスノーフレークなのかなどなど。
AIブームの前にデータサイエンスをしていて、当時はマシンパワーもなかったのでモデル生成の際に、サンプリングをしてデータを少なくしていました。ビッグデータ時代に入り、マシンパワーをフルに使って全件でモデル作成しようという流れもありました。DataRobotだと、データのサンプリングはどういう哲学を前提にしているのか知りたいです。
それでいうと、ビッグデータの5Vというのがあると思うんですが、DataRobotはこれらに対してどういう哲学を持っているのか、ということも聞きたいです!
哲学なのか、どういう風にサポートしていこうと思っているのか、そのロードマップなどなど。
データと言えば、分析前データ確認で、「項目名詐欺」って出会ったことありませんか?
中身を見てみたら項目名からの想像の斜め上だったとか、ドメイン知識ある人に確認したら「そんなん項目名からわかるかー」的な。
自分が最近会ったのだと、「親○○番号」って項目があったんだけど半分以上が生き別れの親子だったとか、「○○種別」ってあったんで分類ラベルかと思ったら進捗状態だったとか・・・。
DataRobotさんが出会った、面白いのあったら教えて欲しいです。
全く肌感覚がないデータを扱うときは何からはじますか?
データを取り扱う際のお作法みたいなのがあったら教えてほしいです。
私の場合は、取り敢えずこんなところから始めます。
化学での活用事例を聞けたらと思います。
例)化学式Aと相関のある分子はこれだった。
ある成分を分析する際の前処理事例
化学データのDBにAPIでデータ取得を用いた連携
未来の売上予測について、「回帰」でモデルを作るか、「時系列」でモデルを作るか、どのように判断するかお伺いしたいです。(「データ量」というのが1つの判断材料かと思い)
@YuichiHirai さん、
時間切れでラジオで取り上げられなくてすいません!
肌感覚ない場合には、特徴量同士の相関を見て、まずは特徴量セットのシンプル化を考えます。DataRobotでは特徴量の関係性があるので、それを使って、各クラスターの重心だけピックアップなどをします。
特徴量セットをシンプルにした後はとりあえずモデルを作ってみて、どんなモデルになるのかを見て、リサーチエリアを絞り込みます。
私の場合はこれくらいをまずは見て、怪しいものにおいての統計量や散布図などでの可視化を行います。それかじっと生データ見ます。どうしても統計量や散布図だと2~3次元までの特徴量の組み合わせには気づけますが、値のゆらぎだったり、謎のブロックとかは気づきづらいので(異常検知とかクラスタリングなどの教師あり学習使うというスマートなアプローチもありますが、ワンショットなら見るほうが早いタイプなので)
最後にそのデータを入れて行くのが正しいのかどうかをドメイン知識のキャッチアップをしながらつけていきます。ここまで来ている段階でだいぶ次元削減できているのでドメイン知識のキャッチアップはデータいじる時間に比べて大差ないくらいになる場合もあります。特に部分依存の形が複雑なケースはドメイン知識ないとどうしてそういったスイートスポットがあるのか、スイートスポットがあることがおかしいのかなどがわからなくなるので注意しています。
@shakemaru さん、
こちら投稿ありがとうございます!
せっかくなので、今後化学超強いデータサイエンティストにゲストで出てもらって1コーナー化学系データサイエンスについて熱く喋ってもらう会も考えたいので、定期リスナーになっていただければと思います!
@wasshi さん、
こちらは回帰でポイントごとに捉えるか、時系列回帰として捉えるかのアプローチということですね。
私は全体のデータ量というよりも予測期間の性質とかで考えたりします。1ポイントしかない(月次売上など)なら普通に回帰でいいと思いますし、1週間〜1ヶ月以上連続で予測なら時系列回帰の形のアプローチを取るかなと。
どちらも使う特徴量はそこまで変わらないですが、DataRobotの場合時系列アプローチのほうが自動で特徴量を作ってくれるのでそこが便利なところです。
すみません、どこに聞けばいいかわからないので、ここに書かせてください。
放送当日は仕事で聞けなかったのですが、このラジオってリアルタイム視聴だけですか? 後からYouTubeとかPodcastで配信とかご予定ないでしょうか?
遅くなりましたが、掲載しましたのでぜひご視聴ください