キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
AI Experience Japan l バーチャルイベント l 2020年7月14日(火) 登録受付中

【DataRobot JAM】効果検証で重要なポイント

Highlighted
データサイエンティスト
データサイエンティスト

* DataRobot JAM: このコーナーではDataRobot社内でのデータサイエンスに関する雑談からちょっとした小ネタを投下するコーナーです。

本日は、効果検証において重要なポイントを分析の観点から、そしてプロジェクトマネージメントの観点から自身の経験をチームに共有するJAMを行いました。

反事実をいかに作り出すか、そのためにいかに統制されたテスト設計が重要か、そしてそれを実際に行うためにはどういった働きが必要かを話しました。

5件の返信5
Highlighted
データサイエンティスト
データサイエンティスト

機械学習のモデルが作った後、その後に本当に効果があったかという検証に有用なTipsを教えて頂きました。

モデルの構築だけでなく、適切なランダム化比較試験を構築する為にもドメイン知識が必要なのですね。

Highlighted
データサイエンティスト
データサイエンティスト

乱数を振ってランダムにすると、重要な変数でバイアスがある場合があるので、

乱数を振って、確認、乱数を振って、確認というステップが必要になりますね。

また、どの変数でバイアスがかからないようにするかについては、その業界や試験の知見が必要になってきます。

0 件の賞賛
Highlighted
データサイエンティスト
データサイエンティスト

ランダム化比較試験(RCT)を行えば未知の交絡因子も含めてあらゆる交絡因子に対してバイアスが無い実験になっているはずですが、ドメイン知識が無いと本当にバイアス無くケース/コントロールを選択できているかどうかを検討できません。菅原さんのおっしゃるように適切なRCTのためにはドメイン知識が不可欠です。

Highlighted
データサイエンティスト
データサイエンティスト

実際に効果検証のプロジェクトを推進する経験も共有していただきました。
新しい取り組みを作る際はやはりコミュニケーションが大切です。
特に現場の方の協力が不可欠なので、納得して一緒に取り掛かるためには理論をわかりやすく説明してあげて、早めに効果を見えるようにするのも大事です。

Highlighted
データサイエンティスト
データサイエンティスト

乱数振りの過去の経験で、IDの下一桁1の人としたときに別の試作も同じような下一桁ロジックでのサンプリングをターゲットグループに使っていてバイアスが結構出てしまうケースはありました。

大容量の顧客データなどから乱数生成からのランダム抽出は計算コストもなかなかかかるので、厳密さをどこまで追い求めるかの難しさはありますが、主要なターゲットグループ、コントロールグループは社内でしっかりとガバナンスを効かせていかないと行けないですね。

0 件の賞賛