米国健康プロジェクト「All of Us」と次元削減UMAP

2024年2月24日
全体に公開

「All of Us」は、米国国立衛生研究所(NIH)が主導する、100万人以上のアメリカ人の健康データを収集・分析する大規模な研究プロジェクトです。このプロジェクトは、個人の健康状態や遺伝情報、生活習慣などを包括的に分析することで、病気の予防や治療法の開発、個別化医療の実現を目指しています。予算では31億米ドル以上(5000億円近く)が投じられてきています。

このプロジェクトによる収集データは、年齢、性別、人種、民族、健康状態、スマートウォッチなどのデータ、そして全ゲノム情報が含まれます。この2月19日のNature誌に、25万人近くの多様なアメリカ人参加者の全ゲノム配列情報についての論文が発表されました。このような大規模なデータの有用性は明らかです。

The All of Us Research Program Genomics Investigators. Genomic data in the All of Us Research Program. Nature (2024). https://doi.org/10.1038/s41586-023-06957-x

分析結果は、Natureに2報、Communications Biologyおよび Nature Medicineにまとめられた論文になっています。2億7500万以上の新たな遺伝マーカーが発見され、そのうち150近くが2型糖尿病に寄与することが示唆されています。

All of Usはこれまでの人種的にマジョリティ中心の生物医学研究の反省から、参加者の77%は、生物医学研究において歴史的に過小評価されてきたコミュニティの出身者であり、46%が過小評価されている人種および民族的少数派の個人という特徴があります。

そんななか、この論文のUMAPという手法を使った図(下図a, b)が「人種差別的信念を強化するものとして誤解される」危険性があるという意見がNature誌で論じられています。数人の研究者は、Nature誌に対し論文の撤回を公に求めているようです。

https://doi.org/10.1038/s41586-023-06957-x

生物医学研究では、シングルセルRNAシーケンシングのデータ可視化の一つとしてお馴染みになったUMAPですが、いわゆる次元削減の方法の一つです。次元削減とは、たくさんの情報(次元)を、できるだけ情報が失われないように、少ない情報(次元)にまとめることです。情報を整理して、わかりやすくするための便利な技術です。簡単にいってしまえば、各データ(プロット)がよく似ていると近くに集まるのが次元削減の図です。クラスターを作っているのは、さまざまな特徴を考慮した結果、似たもの同士が集まっているということになります。

UMAP(Uniform manifold approximation and projection、一様多様体の近似と投影)は、2018年に提案された手法で、t-SNE(t-distributed Stochastic Neighbor Embedding)やPCA(Principal Component Analysis)などの従来の次元削減技術に比べ、迅速に類似集団間の関係が明確になる特徴があります。

UMAP使用の問題は、集団の独自性ばかりが誇張され、本来あるグラディエーションや混合を適切に表現できない可能性があることです。上の図では、「人種」や「民族」という言葉を使ってUMAPを使うことで分断があるように見えてしまうことが問題であるというのです。

例えば、写真の赤色を画像処理ソフトを使って強調するということで写真の印象は変わってしまいます。UMAPの図を作っても、それをどのように解釈し、ラベルをつけて、説明するのか、ということについては、課題がありそうです。

合成生物学は新たな産業革命の鍵となるか?」担当:山形方人

【Twitter】 https://twitter.com/yamagatm3

応援ありがとうございます!
いいねして著者を応援してみませんか



このトピックスについて
津覇 ゆういさん、他1329人がフォローしています