キャンセル
次の結果を表示 
次の代わりに検索 
もしかして: 
Qiitaクリスマスアドベントカレンダー実施中

変化に強いモデルの工夫はどのようにしていますか?

Highlighted
コミュニティチーム
コミュニティチーム

DataRobotのデータサイエンティスト中野から、「大変動下での機械学習モデルへの対処」というブログが投稿されています。
モデルのロバストネスを高める工夫やテクニックなどがあったら、教えて下さい。

0 件の賞賛
3件の返信3
Highlighted
データサイエンティスト
データサイエンティスト

より本質的な特徴量を入れることかと思います。

売上予測などの場合に前年の売上を入れるべきかどうか

でも書かせていただきましたが、前年の売上が高かったら今日も売上が上がるというのは本質的には結びつかないので、変化には弱くなります。

同じことは地域を特徴量として入れる時に愛知県(私の地元)とか入れると、愛知県だからという謎の県民性教育とかが本質的に強く効かない限りはそこでの有名企業の状態、出店状況、経済状況、人口統計、教育水準など様々な特徴量が本質的に関わってきます。

感覚的に変化に弱い特徴量としてid系は仮に複数回データセットに出てきても気をつけるべきです。

  • 営業ID
  • 店舗ID
  • 顧客ID
  • 製品ID
  • 日付

実際には一つの特徴量を厳密に分解してデータ化していくのは大変ですし、少ないデータセットでは逆に過学習してしまう危険性もあります。変化に強いモデルを作る上では、まずはいま強く効いている特徴量がどうして効いているのかを深掘りいただいて、より汎化性能の高い特徴量にしていくというのが大事です。

リニアアクチュエータ

説明変数が本質を捉えるに足る構成となっておりモデル自体が変化に強い。
が理想で、この点は、 @Miogawa さんが回答されているので、

別観点で、変化に強い運営をどう作るか?という点について、
①サーキットブレーカ と ②ラグの扱い の2点で論じてみたいと思います。

①サーキットブレーカ

例えば、需要予測等を行っている場合には、機械学習システムが明日の売上について、

  • 過去5年最大値の5倍の需要を予測。
  • もしくは過去5年最小値の1/5の需要と予測。

といった場合にどう対処するかですが、
機械学習システムの予測値をそのまま自動発注等につなげている場合、
この予測が誤動作に起因したものであると業務に支障が出ます。

やはり、

  • サーキットブレーカ(想定を超える予測時はアラートを上げるしくみ)を作り込んでおく
  • 想定と異なる予測が出た場合に、その要因がある程度把握できる仕組みを準備しておく

等の事前の対策で、業務上支障がでない運営を作り上げられるのが理想的です。

②ラグの扱い

同様の例で、需要予測の説明変数に、前年売上等を採用している場合に、
昨今のCOVID-19等による売上の減少が、予測システムに影響を及ぼすタイミングは、ディレイします。

具体的には、来年の需要予測のタイミングで、今年のデータ(極度な売上減)を、
そのまま使った予測をすると実態と大きく乖離します。

よって、昨今の様な状況において、

機械学習システムにて利用しているラグ変数が、予測に影響を与えるタイミングをきちんと把握し、
適切にデータを補正できる運営を作り上げられるのが理想的と考えています。

  • 前月売上を使っていれば、(今すぐに) 来月に向けて対応が必要ですし、
  • 前年売上を使っていれば、(忘れた頃に)来年に向けて対応が必要です。

こういった背景で、変化への対処は、とても難易度が高いです。
が故に、
モデリングの側面からも、運営の側面からも、変化に強い構造を作り上げる事が重要と考えています。

Highlighted
データサイエンティスト
データサイエンティスト

身も蓋もないことを申し上げるかもしれませんが、データサイエンス的なテクニックで何とかなる領域は非常に少ないとの前提で客観的にモデルを評価するべきと考えます。

ではデータサイエンティスト達は何を拠り所にするべきか・・・ベタですが、
(1)実際に自社の業務プロセスにどのような変化が起きているのかを深く理解すること
(2)その変化が不可逆的なものなのかどうかの見極め
になると思います。

例えば製薬企業の営業職の人達は、重要な営業活動の機会だった「医療従事者を対象とした講演会や研究会など」が軒並み開催中止になっており、病院訪問にも制限があります。電話会議やウェブを駆使した医療従事者との面談が始まっていますが、以前と同じ営業活動というわけにはいきません。

また、COVID-19の発生源とされる中国は原薬など医薬品原料の生産地で、医薬品の供給リスクが懸念されています。

これらの変化を捉えられる特徴量が現在のモデルに組み込まれていれば、変化に対応して精度良く予測ができるでしょう。でもそうでなければ小川さんにご指摘いただいたように「本質的な特徴量」を組み込んだモデル再構築が必要になるでしょう。そして、今起きている業務プロセスの変化を深く理解することでしか、本質的な特徴量には気付けないでしょう。