予測データの高い過大評価

https://datascience.stackexchange.com/questions/14905

16-10-2019
|

質問

Xgboostを使用して、在庫のない日などの販売推定モデルを失っています。十分な在庫（販売と需要が同じ場合）の通常の日のデータに関するトレーニングモデルの単純なロジックを使用し、訓練されたモデルを使用して在庫外の需要を予測しています。モデルビルディングの場合、通常の日のデータを列車とテストデータセットに分割しています。

しかし、私は在庫のない日の非常に過大評価されている販売価値という独特の問題を抱えています。列車とテストの両方の予測は問題ありませんが、在庫日の予測のみが問題になります。何が間違っているのか、そして勾配ツリータイプのモデルで問題をデバッグする方法をヒントします。

解決

免責事項：私のソリューションがすべてのケースに適しているかどうかは100％確信していませんが、これにより私の問題はかなり解決しました。

私にとっては、Xgboostベースの帰属に変更したことは素晴らしく機能しました。以前の場合、私は平均、モードなどのような複数の異なるタイプの帰属を行っていました。そこから、私は非常に自信を持っていたそれらの帰属のみを保持していました。私があまり自信を持っていなかった帰属は、Xgboostに仕事をさせました。この変更後、過大評価のケースのほとんどが消滅しました。

この変更から得たもう1つの利点は、モデル適合パラメーターが過大評価を直接反映していたことでした。したがって、過大評価のモデルはまだ起こっていました。それらはすべて、過大評価のない悪いモデルFIT VSモデルが常に良いフィットを持っています。

Xgboostが発見し、データの深く隠されたパターンを活用しているXgboostも行うと、これが起こっていると思います。この知識により、私の普通の帰属の方法があまり役に立たなかったシナリオをよりよく帰属させることができます。

ライセンス： CC-BY-SA と帰属

所属していません datascience.stackexchange