キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
コミュニティラジオ「DataRobot充電中」4月のテーマ「教育・組織」投稿募集中

コミュニティラジオ2月のテーマ「データ」

ManaM
コミュニティチーム
コミュニティチーム

DataRobotコミュニティでは、2月からの新しいプログラムとして「コミュニティラジオ」を開始予定しております。

毎月のデータサイエンス・トークテーマを設定し、メンバーの皆様からの様々な「投稿」をお待ちしております。月末放送するコミュニティラジオにて、パーソナリティがメンバーの皆様からの投稿を読み上げ、そのテーマのトピックについてお話をしたり、ゲストをお迎えしたりする予定です。

 

2月のトークテーマは「データ」です。こちらの投稿への返信というかたちで、ぜひお気軽に「投稿」お願いします。

community_radio.png

 

めざせ投稿職人!投稿職人の方々には様々な特典プログラムをご提供していく予定です

放送を視聴

ラベル(1)
17件の返信17
Miogawa
データサイエンティスト
データサイエンティスト

投稿例)

  • DataRobotのデータタブのおすすめ機能を教えてほしい
  • 機械学習と相性のいいデータベースについて聞きたい
  • データプリパレーションで気をつけること
A_Morita
イメージセンサー

不謹慎かも知れませんが、実際にあった面白いデータのリーケージの話を聞いてみたいです。

kyosuke
NiCdバッテリー

(色んな意味で)世の中のイケてるデータセット紹介(→最近はNatureとかもデータセットを集めてますし)とかはどうでしょう

 ・教育的用途

 ・分析する価値がありそうなオープンデータ

 ・面白そうだけど分析するのが難しそうなデータ

 ・こんなデータ公開してくれたら嬉しいなあ

などなど

kyosuke
NiCdバッテリー

もうちょっとニッチな話題でいえば、分析のためには、どんなときにどんなスキーマがいいかを話し合うというのもどうでしょうか?

スタースキーマなのか、第三正規形がいいのか、はたまたスノーフレークなのかなどなど。

ManaM
コミュニティチーム
コミュニティチーム

AIブームの前にデータサイエンスをしていて、当時はマシンパワーもなかったのでモデル生成の際に、サンプリングをしてデータを少なくしていました。ビッグデータ時代に入り、マシンパワーをフルに使って全件でモデル作成しようという流れもありました。DataRobotだと、データのサンプリングはどういう哲学を前提にしているのか知りたいです。

kyosuke
NiCdバッテリー

それでいうと、ビッグデータの5Vというのがあると思うんですが、DataRobotはこれらに対してどういう哲学を持っているのか、ということも聞きたいです!

哲学なのか、どういう風にサポートしていこうと思っているのか、そのロードマップなどなど。

Akihiro-Horikawa
イメージセンサー

データと言えば、分析前データ確認で、「項目名詐欺」って出会ったことありませんか?

中身を見てみたら項目名からの想像の斜め上だったとか、ドメイン知識ある人に確認したら「そんなん項目名からわかるかー」的な。

自分が最近会ったのだと、「親○○番号」って項目があったんだけど半分以上が生き別れの親子だったとか、「○○種別」ってあったんで分類ラベルかと思ったら進捗状態だったとか・・・。

DataRobotさんが出会った、面白いのあったら教えて欲しいです。

YuichiHirai
青色LED

全く肌感覚がないデータを扱うときは何からはじますか?

データを取り扱う際のお作法みたいなのがあったら教えてほしいです。

私の場合は、取り敢えずこんなところから始めます。

  • 統計量を算出
  • 散布図でデータを可視化

 

shakemaru
イメージセンサー

化学での活用事例を聞けたらと思います。

例)化学式Aと相関のある分子はこれだった。

  ある成分を分析する際の前処理事例

  化学データのDBにAPIでデータ取得を用いた連携  

wasshi
青色LED

未来の売上予測について、「回帰」でモデルを作るか、「時系列」でモデルを作るか、どのように判断するかお伺いしたいです。(「データ量」というのが1つの判断材料かと思い)

Miogawa
データサイエンティスト
データサイエンティスト

@YuichiHirai さん、

時間切れでラジオで取り上げられなくてすいません!

肌感覚ない場合には、特徴量同士の相関を見て、まずは特徴量セットのシンプル化を考えます。DataRobotでは特徴量の関係性があるので、それを使って、各クラスターの重心だけピックアップなどをします。

特徴量セットをシンプルにした後はとりあえずモデルを作ってみて、どんなモデルになるのかを見て、リサーチエリアを絞り込みます。

  • モデルの精度は出すぎるのか、出なさすぎるのか
  • 一部の特徴量によった学習をしていないか
  • 特定の値にのみ反応していないか
  • 部分依存は逓増、逓減、上に凸、下に凸などどんな形をしているか

私の場合はこれくらいをまずは見て、怪しいものにおいての統計量や散布図などでの可視化を行います。それかじっと生データ見ます。どうしても統計量や散布図だと2~3次元までの特徴量の組み合わせには気づけますが、値のゆらぎだったり、謎のブロックとかは気づきづらいので(異常検知とかクラスタリングなどの教師あり学習使うというスマートなアプローチもありますが、ワンショットなら見るほうが早いタイプなので)

最後にそのデータを入れて行くのが正しいのかどうかをドメイン知識のキャッチアップをしながらつけていきます。ここまで来ている段階でだいぶ次元削減できているのでドメイン知識のキャッチアップはデータいじる時間に比べて大差ないくらいになる場合もあります。特に部分依存の形が複雑なケースはドメイン知識ないとどうしてそういったスイートスポットがあるのか、スイートスポットがあることがおかしいのかなどがわからなくなるので注意しています。

Miogawa
データサイエンティスト
データサイエンティスト

@shakemaru さん、

こちら投稿ありがとうございます!

せっかくなので、今後化学超強いデータサイエンティストにゲストで出てもらって1コーナー化学系データサイエンスについて熱く喋ってもらう会も考えたいので、定期リスナーになっていただければと思います!

Miogawa
データサイエンティスト
データサイエンティスト

@wasshi さん、

こちらは回帰でポイントごとに捉えるか、時系列回帰として捉えるかのアプローチということですね。

私は全体のデータ量というよりも予測期間の性質とかで考えたりします。1ポイントしかない(月次売上など)なら普通に回帰でいいと思いますし、1週間〜1ヶ月以上連続で予測なら時系列回帰の形のアプローチを取るかなと。

どちらも使う特徴量はそこまで変わらないですが、DataRobotの場合時系列アプローチのほうが自動で特徴量を作ってくれるのでそこが便利なところです。

0 件の賞賛
shakemaru
イメージセンサー

@Miogawa さん、ご返信ありがとうございます。

 

はい!是非ともリスナーにならせて頂きます。

熱い議論ができるよう精進いたします。

 

また、引き続き投稿させて頂きます。

よろしくお願いいたします。

Akihiro-Horikawa
イメージセンサー

すみません、どこに聞けばいいかわからないので、ここに書かせてください。

放送当日は仕事で聞けなかったのですが、このラジオってリアルタイム視聴だけですか? 後からYouTubeとかPodcastで配信とかご予定ないでしょうか?

0 件の賞賛
ManaM
コミュニティチーム
コミュニティチーム
録音をコミュニティに掲載準備中です!もう少しお待ち下さいませ
ManaM
コミュニティチーム
コミュニティチーム

遅くなりましたが、掲載しましたのでぜひご視聴ください

0 件の賞賛