質問

機能が相互に依存していること、機能が互いに高い相関関係にあることが、なぜ冗長であることを意味するのでしょうか?また、PCA は冗長/無関係な特徴を削除するのに役立ちますか、それともデータセットに対して PCA を実行する前に冗長/無関係な特徴を削除する必要がありますか?

役に立ちましたか?

解決

一方の値の存在/状態は常に (またはほぼ常に) もう一方の値の存在/状態を判断するために使用できるため、相関性の高い特徴は、トレーニングの目的ではほとんどトレーニング「価値」を提供しません。この場合、両方の機能を追加しても予測にほとんど影響しないため、両方の機能を追加する理由はありません。A "オン" = B "オフ"、および A "オフ" = B "オン" の場合、すべての状態が次のようになります。 A または B のいずれかを学習するだけで表されます。これは大幅に簡略化されていますが、他の相関性の高い値についても同じことが当てはまります。

PCA は特徴量を減らすのに役立ちますが、いずれにせよ、トレーニングにほとんど役に立たない冗長な特徴や相関性の高い特徴を特定した場合は、それらをすぐに削除してから PCA またはその他の特徴重要度メトリクスを使用するのが理にかなっています。トレーニング機能セットをさらに最適化するために、完全なデータセットからトレーニングすることで生成できます。

他のヒント

冗長機能 できる ある機能です 多色 (つまり、非常に相関しています)が、さらに重要なことは、彼らはユニークな貢献なしに同じことを測定していることです。

たとえば、年齢と収入は非常に相関している可能性がありますが、一部の分析では、モデルにはまだユニークな効果があり、解釈のためにキャプチャしたい概念的な違いがある場合があります。 OTOH、年齢と生年月日は、私が考えることができるほとんどのユースケースで純粋に冗長です(ただし、出生季節が重要かどうかなど、常に例外があります)。

PCAは冗長性を減らすのに役立ちますか? もちろん。これは、これに使用できる少なくとも数十のテクニックの1つです。

特徴選択にPCAを使用する方法の1つは、主成分の係数の読み込みを調べ、同じ主成分を測定している相関変数を決定し、上位1つまたは少数の変数を選択してその潜在変数を表すことです。特徴。

PCAの前に冗長機能を排除する必要がありますか? 特徴の排除ではなく、予測に主成分を使用する場合は、はい。

PCAまたはその他のテクニックを含む1ラウンドの機能分析、および両方を実行する場合は、モデルの潜在変数を作成するための2回目のラウンドを実行できます。

機能選択のためのいくつかの追加ツール:

  • 最小冗長性の最大関連
  • 相関特徴の選択
  • 標準的な相関分析
  • 因子分析
  • 共分散行列の使用
  • 特異値分解
  • 分散インフレ係数
ライセンス: CC-BY-SA帰属
所属していません datascience.stackexchange
scroll top