アクティブラーニングとは
アクティブラーニング(以下、AL)とは、機械学習の分野で用いられ、AIが判断に迷うデータを効率的に選択する手法です。
ユースケースとしては、「学習済みモデルを元として新たなデータを利用したい場合」や「モデルがうまく動作していない状況で、データを増やして学習したい場合」などが想定されます。
後者のようなデータを増やしたい状況では、新たにデータにラベル付けが必要な場面が多く、コストが嵩む例があります。
そこで、ALでは「既存のAIモデルが判断を迷うデータを選択する」ことで効率よくラベル付けを行います。
図:アクティブラーニングの流れ
ALには、データを選択するための戦略がいくつかあります。一つはUncertaintyを用いるもので、今のモデルで判断がつきにくいものを学習価値があるとします。代表的なものがMax Probabilityで、最も予測確率の高いクラスの予測確率が低いほど価値があるとします。
その他に、用意した複数モデルの予測が異なるデータほど価値があるとするQuery-by-committeeが存在します。
このようなデータ選択における戦略部分が研究対象となっています。
医療分野におけるアクティブラーニング活用の利点と取り組み
アクティブラーニングの活用は、医療分野でも期待されています。弊社においても、AIによるCT, MRI等の医用画像診断支援システムの研究開発が進んでいますが、開発にあたって課題となるのが、AIの学習に十分な量のデータを準備することです。医用画像は、日常業務の中で蓄積されていきますが、病変がみられる領域の正確な座標情報は読影レポートからも取り出すことが難しく、AI用のラベルとして医師に依頼し、新規に作成してもらう必要があります。疾病によっては、一患者のラベル付けに20分以上費やすこともあり時間がかかる上、医師に協力を仰ぐ以上、相応の費用が必要となるため、時間・費用の両面から開発の障壁となっています。
図:医用画像に対するラベル付け
本稿では、腎臓CT画像における病変部検知を題材として医療分野におけるALの検証を行いました。少数の学習データから開始して、(1)ALで追加する場合と、(2)ランダムで追加する場合でどちらが早く精度が伸びるか比較を行っています。
結果として、枚数が少なく高難度な症例について、(1)ALでは少ない枚数で高い精度を実現できました。全症例の平均では、(2)ランダムが4000枚時点で到達する精度に、(1)ALでは2000枚で到達し、データ選択の効率化が可能なことが検証できました。
最後に
今後、利用可能なデータが増えていくことが想定されます。そこから重要なデータを取捨選択し、AIモデルを作ることが必要になります。
そうした状況下では、ALにより少ないデータでAIの学習が可能となれば、AIシステム導入の一つのハードルが下がります。
AIシステム開発拡大に貢献すべく、ALの様々な分野での適用を目指し今後も開発を続けていきます。