ゲノム情報解析技術の発展と医療への活用
2015年に、オバマ米国大統領が行った演説で、「プレシジョン・メディシン・イニシアティブ」が提唱されました。「プレシジョン・メディシン・イニシアティブ」は、100万人規模の被験者のゲノム情報及び医療記録を含むデータベースを作り、被験者のゲノム、生活環境、ライフスタイルなどに関する違いを考慮しながら、被験者本位の医療を提供し、さらには疾患の予防法の確立を目指すプロジェクトです。日本でも、ゲノム情報を活用し、個人にとって最適な治療法や予防法を提供する、「プレシジョン・メディシン」が期待されています(図1)。
近年のゲノム情報解析技術の進歩により、膨大な量のゲノム情報が解析され、形質や疾患とゲノムの関係性が明らかになってきました。医療現場では、特にがんなどで、被験者のゲノム情報を網羅的に調べ、体質や病状に合わせた治療が始まっています。今後は、未計測な形質や疾患に対する解析精度の評価、日本人の大規模なゲノム情報への適用、医療関連情報との統合やAI技術・周辺の解析手法との組合せといった、ゲノム情報解析技術で得られる知見を深め、現場での活用を推進する活動が求められています。
図1:プレシジョン・メディシン
ゲノムの多様性
人間のゲノムは個人ごとに違いがあり、多様であることがわかっています。ゲノムの多様性(多型・バリアント)は疾患の原因となることもあり、その効果の大きさも様々です(図2)。例えば、「お酒に強いか弱いか」や、「目の色」、「血液型」といった形質は遺伝要因だけで決まり、ゲノム解析で特定可能です。糖尿病などの多くの生活習慣病は、複数のバリアントが形質や疾患と関係しており、遺伝要因に環境要因が加わって発症することが明らかになっています。
形質や疾患に効果をもたらす遺伝子を、疾患感受性遺伝子といいます。疾患感受性遺伝子を同定することは、ゲノムの働きや形質や疾患の機序を理解し、疾患発症の兆しを見つける上で非常に重要な役割を担います。
図2:遺伝子の多様性と個人差
疾患感受性遺伝子を同定する技術
形質や疾患に対して効果をもたらすバリアントを特定するため、GWAS(ゲノムワイド関連解析)(※1)が広く用いられます。GWASでは、被験者をケースとコントロール(※2)の2群に分け、ケースとコントロールで出現頻度に差があるバリアントを、p値(※3)を用いて統計的に有意差があると判定します(図3)。GWASの後、発見されたバリアントに関係がある遺伝子やバリアントの近くの領域を探索し、疾患感受性遺伝子を同定します。
図3:GWAS(ゲノムワイド関連解析)
2020年に、世界で初めて、新型コロナウイルスを重症化させる遺伝子をGWASで解析した事例では、3番染色体と9番染色体上の複数のバリアントが有意なp値を示していました(表1)[1]。9番染色体のバリアントは、人間の血液型を決める遺伝子上に位置していたため、被験者の血液型を調べたところ、A型の人が他の血液型の人より有意にリスクが高いことが発見されました。日本人では2021年に、5番染色体上のバリアントが有意なp値を示しており、AB型の人が他の血液型の人より1.4倍重症化しやすいと発表されました(図4)[2]。
[1]Ellinghaus D, et.al.:N Engl J Med 383, 1522-1534,2020.
[2]コロナ制圧タスクフォース プレスリリース:
https://www.tmd.ac.jp/files/topics/54963_ext_04_2.pdf
表1:新型コロナウイルスを重症化させる遺伝子の一例
図4:血液型別の新型コロナウイルス重症化リスク[2]
特定の形質や疾患に対して、統計学的に有意な頻度差を示すバリアントを、ゲノム全域に渡って網羅的に検索する手法。
ある時点で、疾患に罹患している人(ケース)と疾患に罹患していない人(コントロール)。
統計的仮説検定において、「そのバリアントが疾患と関連しない」という帰無仮説が棄却される確率。
疾患発症リスクの予測技術
GWASで同定されたバリアントを基に、ゲノム情報から疾患の発症リスクを予測する研究が進められています。PRS(ポリジェニックリスクスコア)はバリアントが形質や疾患にもたらす効果を数値化した指標であり、測定値(形質や疾患有無を含む)から環境要因を除き、遺伝要因が形質や疾患に及ぼす効果や影響を推定する手法です(図5)。PRSでは、被験者のゲノム情報と測定値から予測モデルを作成し、予測モデルに各個人のゲノム情報を入力して、各個人の疾患発症リスクを計算します。予測モデルは多くの場合、予測した疾患発症リスクと測定値の回帰モデルの決定係数に基づいて評価されます。
図5:PRS(ポリジェニックリスクスコア)
東北大学との「STMGP法」の共同研究
東北大学との共同研究、STMGP法(※4)の研究進捗状況を紹介します。STMGP法はリッジ回帰をベースとして、被験者のゲノム多型情報と共変量(被験者の年齢や性別等)から、形質や疾患発症リスクを予測します。過去、アルツハイマー病[3]やうつ病[4]の予測が検証され、STMGP法がPRSの他手法より高い精度が得られると報告されました。
共同研究では、従来の10倍以上の被験者数で糖尿病の予測に取り組みました。PRSの複数の手法と予測精度を比較した結果、STMGP法が最も高精度だとわかりました。(論文発表予定)
また、STMGP法とPRSの代表的手法であるC+T法を用いて身長の予測にも取り組みました。20,000人の被験者のデータを用い、身長は性別等の共変量に応じて被験者を分け、それぞれ平均0、分散1の正規分布となるように調整しました。PRSで計算した各被験者のスコアと身長の決定係数R2で精度を評価したところ、被験者数が多くなるにつれSTMGP法の精度が良くなり、C+T法を凌駕することを確認しました(図6)。
[3]Ueki M & Tamiya G:Genet Epidemiol, 40:233-243, 2016.
[4]Takahashi Y, et al.:Transl Psychiatry, 10:294, 2020.
図6:STMGP法とC+T法による身長の予測精度(一例)
東北大田宮教授らのグループが開発した複雑な遺伝疾患のリスク予測を高精度に可能とする機械学習手法。
今後の展望
解析結果を受けて、東北大学とNTTデータは分割計算を検討しています。STMGP法は被験者数が多くなるにつれ、計算量が大きくなるため、ゲノム情報を分割することで計算量の削減を狙います。分割した計算結果の、STMGP法の特性を考慮した調整が必要とされ、要約統計量を統合する方法の検討を進めています(図7)。
このような研究を通じて、NTTデータは、プレシジョン・メディシンを実現し、特に疾患の予防に新たな貢献をしたいと考えています。最先端のAI技術でゲノム情報と医療関連情報を解析し、予測モデル及び解析結果を社会実装する研究開発に尽力しています。
図7:STMGP法の分割計算