DataRobotコミュニティでは、コミュニティラジオ「DataRobot充電中」を月末の最終木曜日に放送しております。
次回は5月27日(木)18:00 から放送します。
ラジオ初回放送の書き起こし記事でラジオの雰囲気をチェック。
「AIニュース」では、気になるAI関連のニュースをお届け。「DataRobot Dock」では、DataRobotのベーシックな機能を振り返って便利な使い方を紹介。
「コミュニティテーマ」では、毎月のデータサイエンス・トークテーマを設定し、メンバーの皆様からの様々な「投稿」をお待ちしております。生放送にて、パーソナリティが投稿を読み上げ、そのテーマのトピックについてお話をしたり、ゲストをお迎えしたりする予定です。
5月の放送のゲストは、Snowflakeの北極クマ太郎氏が登場!
5月のトークテーマは「データインジェスト」です。データのアップロードや、ETLの加工といった内容を扱います。こちらの投稿への返信というかたちで、ぜひお気軽に「投稿」お願いします。
過去の放送もご視聴いただけます。
解決済! 解決策の投稿を見る。
snowflakeがゲストで来るのですね。驚きました!
調べたらDataRobotとパートナーシップを締結してるんですね。
snowflakeとDataRobotを連携すればこんなことが業務で実現できる!という、夢のある話があったらぜひ聞かせて下さい。
データインジェストとETLの違いって何ですか?初歩的ですいません...
業務システムのRDBでは、ビジネス的に1個のデータセットが、DB設計で第3正規形にするとかで、複数テーブルに分かれていることってありますよね。
SnowFlakeなどDWHでは、分析者観点で「ビジネス的な1個のデータセット」にしたくて、でもデータ量が大量で、「複数テーブル」をそれぞれ日時の差分連携しかできない、というとき、どういうやり方がベストプラクティス、というのがあれば聞きたいです。
個人的には、ETLじゃなくてELTで考えて、SnowFlake側にデータレイク層とDWH層を用意するのかな、と。複数テーブルをそれぞれデータレイク層に連携して一旦コピーを持ち、そこからSnowFlake内でジョインとかしてDWH層の目的のデータセットにする、みたいな。
P.S. まさかDataRobot ComunityでKTさんのお話し聞けるとは! だいぶ遅いですがPMM就任おめでとうございます。ますますのご活躍期待してます!
データを使ったAIプロダクトの定常運用のため、最終的にはデータインジェストについてすべて自動化し、定期的に実行されていくシステムを構想しています。
しかし、前段のシステムの遅延だったりでデータがそろわない状況でスケジュール実行されてしまったり、前段のシステムの変更やバグで予期しないデータが入り込むことも想定されるかと思います。
その場合、どのように検知、対応するか、DataRobot単体の機能だったり、設計上の工夫、snowflakeならばこうできる、といったお話しはありますでしょうか?
データインジェストの最新状況と
今後数年後にくる新しいトレンドについて教えてほしいです。