
こんにちは,株式会社Ridge-iのリサーチチームの@machinery81です. 今回はNeurIPS2020で発表されたデータセットシフトを扱う機械学習に関連する論文を紹介します.



  • 機械学習におけるデータセットシフトの問題設定を整理し,簡単に説明
  • NeurIPS2020に採択されたデータセットシフトを扱う論文をカテゴライズ
  • NeurIPS2020に採択されたデータセットシフトを扱う論文の中から,気になったものをピックアップして紹介
  • データセットシフトを扱うPyTorchライブラリであるTorchDriftを紹介


以下では[Moreno-Torres et al., 2012]による分類に従って,以下のデータセットシフトの問題設定を紹介します.

  • Covariate Shift
  • Target Shift
  • Concept Shift
  • Sample Selection Bias
  • Domain Shift

Covariate Shift

共変量シフトとも呼ばれ,[Shimodaira, 2000]によって報告・整理されたデータセットシフトの問題設定のうちの一つです.

定義(Covariate Shift)

 p_{tr}(x) \neq p_{te}(x) \\
p_{tr}(y|x) = p_{te}(y|x)




ここで学習データとテストデータはそれぞれ東北地方と九州地方から集められ,構築されると仮定します. このような問題において,共変量シフト仮定は,学習データとテストデータ内の東北/九州データの占める割合がそれぞれ異なるという場合に該当します. また,表から東北地方と九州地方の平均年収は大体同じであることがわかるので,結局学習時とテスト時に異なるのが入力変数(住んでいる都道府県)の周辺分布だけという状況になることがわかります.

Target Shift

次に,Target ShiftまたはLabel Shiftと呼ばれる問題設定を紹介します. 平たく言うと,Target Shiftは共変量シフトと対になっているような問題設定になります.

定義(Target Shift)

 p_{tr}(y) \neq p_{te}(y) \\
p_{tr}(x|y) = p_{te}(x|y)

定義から,共変量シフトの場合とは逆に,Target Shiftの問題は学習時とテスト時で出力変数の周辺分布が異なるという問題設定を扱うことになります.


Target Shiftの例:都道府県から年収の予測.

今度は,学習データとテストデータが東北地方と関東地方から収集されているという状況を考えます. この時Target Shift仮定は,学習データとテストデータ内の東北/関東データの占める割合がそれぞれ異なるという場合に該当します. また,図から分かるように,この場合においてTarget Shiftの問題は共変量シフトの問題も内包していることがわかり,それぞれのデータセットシフトの概念は必ずしも独立ではないことが分かると思います.

Concept Shift

Concept Shiftはこれまでよりも複雑な問題設定にあたります.

定義(Concept Shift)

 p_{tr}(y|x) \neq p_{te}(y|x) \\
p_{tr}(x|y) \neq p_{te}(x|y)

定義から,Concept Shiftの問題は学習時とテスト時で条件付き分布が異なるという問題設定を扱うことになります.


Concept Shiftの例:都道府県から年収を予測.

今回は,学習データとテストデータはどちらも全ての都道府県から一様に構成され,それらの偏りは無いものとします. ただしConcept Shiftの問題設定では,学習データとテストデータが作られた年代が異なると仮定します. 日本における平均年収は年を追うごとに右肩下がりとなっていることが報告されており,このような場合に学習データを1997年のデータから,テストデータを2014年のデータから構成すると,同じ入力変数(都道府県)にもかかわらず出力変数(年収)が大きく異なってしまうという状況が発生します. これは,1997年から2014年までの歳月の移り変わりの中で,都道府県の平均年収という概念そのものが変わってしまったとも言えます. この,概念が変わるという状況が条件付き確率が変わるという問題設定に該当し,Concept Shiftと命名される由縁になっています.

Domain Shift

もう一つ,特にコンピュータービジョンやディープラーニングを伴う研究で頻繁に扱われる問題設定であるDomain Shiftを紹介します.

Domain Shiftは,潜在的に同じものを説明しているにもかかわらず,計測技術や環境の違いなどの影響で変数が異なってしまっているという問題設定に該当します.


Domain Shiftの例:写っているものは同じでも,写り方が異なる.

写真としては同じ景色(潜在的に同じもの)を撮影しているにもかかわらず昼夜の違い(環境の違い)によって写り方が異なってしまっているという状況です. このような問題は特にVisual Domain Adaptationとして解かれることも多く,直感的な問題設定のわかりやすさと現実世界における登場頻度の高さから人気のタスクの一つとなっています.

Sample Selection Bias

Sample Selection Biasは,これまでとは異なり,データセットシフトが発生する原因について焦点を当てたものです.

定義(Sample Selection Bias)

 p_{tr}(\xi | x, y) \neq p_{te}(\xi | x, y)

定義から,Sample Selection Biasは,観測データをデータセットに含めるかどうかを決める隠れた関数 \xi が存在し,この関数が学習時とテスト時で異なるという問題設定に該当します.


Taxonomy of NeurIPS2020 papers about Dataset Shift


Covariate Shift, Target Shift, Concept Shift

こうしてみると,やはりDomain Adaptationが人気で,次点でOut-Of-Distribution Detectionと呼ばれるタスクに注目が集まっていることがわかります.



Rethinking Importance Weighting for Deep Learning under Distribution Shift


  • データセットシフトを扱うための本質的なテクニックとして,学習データの各サンプルに適切に重要度重み付けをするImportance Weightingが挙げられる.
  • しかし,Importance WeightingはDeep Learningが扱うような複雑なデータに対しては計算が難しいという問題がある.
  • 論文では,このImportance WeightingをDeep Learningの枠組みでも扱うことができるような手法を提案した.

Importance Weighting for Distribution Shift

データセットシフトを扱うためのテクニックとして,Importance Weightingは非常に本質的なアイディアとして知られています.

Covariate ShiftやTarget Shiftでみたように,学習時とテスト時で分布が異なるという設定はそもそもデータセットに占める各属性のサンプルの割合が異なることによるものでした(例えば,データセットに占める都道府県の割合). これを解決する非常に単純な方法としては,テストデータに多く含まれるようなサンプルの重みを大きくして学習を行うという戦略が思いつくと思います.


 \mathbb{E}_{p_{te}(x,y)}\Big[ f(x,y) \Big] = \mathbb{E}_{p_{tr}(x,y)}\Big[w^* f(x,y) \Big], \\
w^* = \frac{p_{te}(x,y)}{p_{tr}(x,y)}.


 \mathbb{E}_{p_{te}(x,y)}\Big[ f(x,y) \Big] = \int f(x) p_{te}(x)dx = \int f(x) \frac{p_{te}(x)}{p_{tr}(x)} p_{tr}(x) dx \\
= \mathbb{E}_{p_{tr}(x,y)}\Big[\frac{p_{te}(x)}{p_{tr}(x)} f(x,y) \Big]

ここでImportance Weightingは以下の2ステップに分解されます:

  1. 重みまたは密度比  w^* を推定するImportance Estimation
  2. 重み  w^* を利用して学習または分類を行うWeighted Classification

Deep Learningで扱われるような複雑なデータを対象とする場合,このうち1. Importance Estimationが問題になります. データの重要度重みを適切に推定するには,そのデータを十分説明できるような表現力の高い関数が必要になります. そのような関数は一般に閉形式では与えられないので,例えばニューラルネットワークを用いた特徴抽出器を学習して活用するといった方針が考えられます.


Photo by (Fang et al., 2020)

論文ではニワトリとタマゴのジレンマとして触れられ,Circular Dependency問題と呼ばれています. つまり,

  • 重要度重み付けを獲得するためには特徴抽出器が必要
  • 特徴抽出器を獲得するためには重要度重み付けが必要



  1. 少しだけ事前学習を行った特徴抽出器で重要度重み付けを獲得
  2. 1.で獲得した重要度重み付けを用いて特徴抽出器を少しだけ更新
  3. 2.で獲得した特徴抽出器を用いて重要度重み付けを少しだけ更新
  4. 以上を収束するまで繰り返す


Photo by (Fang et al., 2020)


Photo by (Fang et al., 2020)

Measuring Robustness to Natural Distribution Shifts in Image Classification


  • 既存のデータセットシフトを扱う研究では,テストデータに学習データにはありえない人工的なデータ拡張を施すなどして,データセットシフトの状況を作っていた
  • このように人工的なデータセットシフトに対してロバストだった手法が,実際に現実世界で起こりうる自然なデータセットシフトの下ではあまり有効性が確認できなかったことを指摘する論文

Photo by (Taori et al., 2020)

既存のデータセットシフトに取り組む研究の多くは,テストデータに学習データにはありえない人工的なデータ拡張を施すなどして,データセットシフトの状況を作り出していました. このような人工的なデータセットシフトの下で,提案手法がロバストであることを報告しているわけですが,このような人工的なデータセットシフトに対するロバスト性は現実世界のデータセットシフトへのロバスト性と同値なのか?という疑問が当然起こりえます.



CSI: Novelty Detection via Contrastive Learning on Distributionally Shifted Instances


  • Contrastive Learningに基づくOut-Of-Distribution Detectionの手法を提案

Out-Of-Distribution Detectionとは,入力データが学習分布に属するものなのかどうかを識別するという問題設定です.

Photo by (Saikiran et al., 2020)

例えばパンダとテナガザルが学習分布に含まれるようなデータだと仮定した場合は,通常は観測できないような珍しい色をしたパンダや,トラやウマなどパンダでもテナガザルでもない画像,攻撃されたAdversarial ExamplesなどはOut-Of-Distribution画像であると判断されます.


ところで,近年人気の表現学習のフレームワークに,Contrasive Learningというものがあります.

Photo by (Chen et al., 2020)


  • 犬画像に数種類のデータ拡張を適用して特徴抽出器に通し,それらが特徴空間上で近くなるように学習
  • 犬以外の画像に数種類のデータ拡張を適用して特徴抽出器に通し,それらが特徴空間上で近くなるように学習
  • 犬画像と犬以外の画像にデータ拡張を適用して作られた特徴同士は遠くなるように学習



本論文では,このContrasive LearningをOut-Of-Distribution Detectionタスクに適用し,学習データの特徴を表現学習することでタスクを解くことを提案しています.

On the Value of Out-of-Distribution Testing: An Example of Goodhart's Law


  • Visual Question AnsweringタスクにおけるOut-Of-Distribution Detectionのベンチマークとして有名なVQA-CPというデータセットが存在する.
  • このVQA-CPデータセットの扱い方に関して,多くの既存の論文がバッドプラクティスを犯していることを指摘

Visual Question Answeringとは,画像と質問文のペアが与えられ,画像を考慮しながら質問文に自動で応答するというタスクです. 例えば,野球をプレー中の画像と”男性は何のスポーツをしていますか?”といったクエリから,”野球”と答えるといったタスクが該当します.

このようなタスクにおいて,特に学習分布外のデータを検出するOut-Of-Distribution Detectionを行うためのベンチマークデータセットとしてVQA-CPデータセットがあります.このデータセットは当該タスクにおいてデファクトスタンダートとなっており,多くのVQAにおけるOOD検出を扱う論文がこのデータセットに対する実験結果を報告しています.

Photo by (Damien et al., 2020)


そもそもこのデータセットは,例えば画像内でプレーされているスポーツを答えるクエリであれば,学習データにはテニスとスキーの割合が極端に高く,逆にテストデータではそれらの割合が極端に低くなるように作られています. ここで問題となるのは,既存の研究の多くが,この割合がひっくり返るという情報を明示的に利用してしまっているという点です. Out-Of-Distribution Detectionの問題設定は元々,いわゆる異常検知や外れ値検知の問題設定に近く,学習データから分布を構成し,入力データがこの構成された分布に含まれるかどうかを考えるというものでした. しかし既存の多くの研究は,本来活用できないデータ間の割合がひっくり返るという情報を使ってしまっており,適切な性能評価ができていないということをこの論文では指摘しています.





TorchDrift is a data and concept drift library for PyTorch. It lets you monitor your PyTorch models to see if they operate within spec. We focus on practical application and strive to seamlessly integrate with PyTorch.

TorchDriftライブラリでは,Covariate Shift,Target ShiftおよびConcept Shiftを対象としています(What is drift?). このようなデータセットシフトの環境下で,TorchDriftはPyTorchモデルが仕様内で動作するかどうかを監視することを目的としています.


$ pip install torchdrift



# 学習分布を特徴抽出器と学習データローダを用いてフィッティングする
drift_detector = torchdrift.detectors.KernelMMDDriftDetector()
torchdrift.utils.fit(train_dataloader, feature_extractor, drift_detector)

# データセットシフトの検出を行う
features = feature_extractor(inputs)
score = drift_detector(features)
p_val = drift_detector.compute_p_value(features)

if p_val < 0.01:
    raise RuntimeError("Drifted Inputs")

Photo by https://github.com/torchdrift/torchdrift/


データセット シフトについて参考になる書籍など

  • 東大の杉山先生らによって執筆されたデータセットシフトについてよくまとまっている書籍:


  • ドメイン適応の理論について網羅した書籍:



本記事では各種データセットシフトの問題設定を整理し,それらを扱った様々なNeurIPS2020採択論文を紹介しました. 一般的に多くの統計学機械学習の手法はi.i.d.仮定に基づいており,特に学習データとテストデータが同一の分布から生成されることを前提にしています. これは特に教師あり学習の妥当性の基礎になるEmpirical Risk Minimizationなどで顕著であり,なぜ学習データに対する損失関数の最小化がテストデータにおけるモデルの性能を保証するのか?といった,非常に本質的な問題に関わっています.



Ridge-iでは様々なポジションで積極採用中です. カジュアル面談も可能ですので,ご興味がある方は是非ご連絡ください.



