ドラッグでマップ移動、マウスホイールで拡大・縮小ができます。(3次元版の場合、左ドラッグで回転、右ドラッグでマップ移動、マウスホールで拡大・縮小します)
マップ上のドットがマイクロバイオームサンプル、写真が「トピック」(潜在的環境因子)を表現しています。LEAでは、すべてのサンプルがトピックの混合(環境因子の混合)として表現され、サンプルの微生物群集構造と環境記述文書のそれぞれがトピック混合比率に応じて確率的に生成されたものと仮定しています。マップ上のサンプルはトピック混合比率の類似性に基づいて配置されています。ある写真の上に配置されているサンプルは、そのトピックの混合比率が100%である(そのトピックの影響を強く受けた群集構造となっている)サンプル、二つの写真の中間にあるサンプルは二つのトピックが混ざって生成されたサンプルであることを意味しています。
1.1 トピックの表示
写真をクリックすると(下図 1)トピックに関する情報が右側パネルに表示されます。それぞれのトピックは、微生物群集構造を構成する微生物の生成確率と、環境記述文書を構成する英単語の生成確率を持ちます。微生物生成確率の棒グラフはマウスオーバーすると系統名が表示されます(2)。英単語生成確率については確率の高い単語を表示しています(3)。
1.2 サンプルの表示
ドットをクリックすると(下図 1)サンプルに関する情報が右側パネルに表示されます。VITCOMIC2で解析されたサンプルの系統組成情報、および、LEAで推定されたサンプルのトピック組成情報の棒グラフが表示されます。トピック組成の棒グラフ上にマウスオーバーすると(2)、マップ上の対応するトピックが点線でハイライトされます(3)。
自然言語(英語)によってサンプルを検索することが可能です。検索はサンプルメタデータとの完全一致ではなく、サンプルのトピック混合比率に応じて、入力された検索クエリ全体を生成する確率が高いサンプルが強調表示されます。
2.1 検索
右側パネルのSearch
タブをクリックしてください(下図 1)。 英語文章あるいは英単語をいくつか検索ボックスに入力し(2)、Searchボタンをクリックすると結果が表示されます。検索クエリの生成確率が高いサンプル(環境記述文書にクエリ中の単語が含まれやすいサンプル)が、確率に応じて強調表示されます(3)。※単語の順序や否定文(「not soil」など)は無視されます。
検索結果はResetボタンをクリックするとクリアされます。
2.2 検索サジェスト
検索を実行すると、検索クエリに関連した単語が右側パネルに表示されます(上図 4,5)。サジェスト単語をクリックすると検索ボックスに追加されます。
上側のパネル(4)には、検索クエリと類似した意味の単語("marine"と"ocean"は類似した意味)、あるいは、環境記述文書の中でクエリ内の単語としばしば一緒に出現する単語("pacific"は"ocean"と共起しやすい)が表示されます。検索クエリを生成する確率がもっとも高いトピックの単語を表示しています。
下側のパネル(5)には、4のトピックともっとも共起しやすい別トピックの単語を表示しています。たとえば、"ocean, marine, pacific"を含むトピックと異なるトピックでもっとも共起しやすいのは、単語"sediment"を含むトピックです。
2.3 微生物系統名による検索
「属」レベル以上の任意の階層の細菌・古細菌系統名を検索クエリに含めることができます。たとえば、"Gemmatimonadetes in ocean"、 "Gammaproteobacteria on the toilet seat"といった検索が可能です。その場合、各サンプルのスコアは該当系統の相対存在量に応じてスケーリングされます。
下図は、"Rickettsia in river water"で検索した結果です。スコアのトップはリケッチアを多く含む湖水のサンプルで、サンプルメタデータ中には"river"や"water"といった単語は含まれていません。現在のLEAの解像度では河川水と湖水は「淡水環境」という点で同一環境として学習されているため、このような結果が得られます。したがって検索結果は必ずしも検索クエリと完全一致するサンプルではなく、検索クエリが含意する環境に関連したサンプルが表示されます。
メタゲノム解析あるいはメタ16S解析の結果得られた系統組成情報をアップロードすることで、そのサンプルのトピック混合比率を予測し、マップ上に配置することができます。
3.1 単一サンプルの環境予測
入力ファイルとして、VITCOMIC2サーバで解析した結果ファイルを使います。
VITCOMIC2解析結果ファイル群の中に、your_sample_id.clast_nocopy.cluster.gz
という名前のファイルがあります。これはgzip圧縮された系統組成データです。このファイルを解凍し、Data
タブをクリックして(下図 1)、「ファイルを選択」からyour_sample_id.clast_nocopy.cluster
ファイルを選び、Submitボタンをクリックしてください(2)。ユーザデータはマップ上で白十字マーカで表示されます(3)。マーカをクリックすると系統組成情報、トピック組成情報が右側パネルに表示されます。Project ID
のリンクをクリックすると、予測されたトピック組成のデータをcsv形式でダウンロードすることができます。
3.2 複数サンプルの環境予測
複数サンプルを同時にマップ上に配置することが可能です。複数サンプルをアップロードするためには、それぞれのサンプルのyour_sample_id.clast_nocopy.cluster
ファイル(※解凍済みのファイル)をひとつのディレクトリの中に全部まとめて、gzip形式tarアーカイブとして圧縮してください。($tar czvf your_samples.tar.gz your_samples
)それから、前述手順と同様、.tar.gzファイルをアップロードしてSubmitボタンをクリックしてください。
計算時間はサンプル数に依存します。 数百サンプルをアップロードした場合、数分間待ちます。
複数サンプルマッピングの例として、Halfvarson, et al. 2017のデータをマッピングした結果を以下に示します。
この研究では、健康な成人と炎症性腸疾患(IBD)の患者とで腸内細菌群集のダイナミクスを比較しています。その結果、健康な人の腸内細菌群集は時間とともに変動するが、その変動範囲は彼らが定義した"healthy plane" (HP) という部分空間に限定され、一方、IBD患者の腸内細菌群集は頻繁にHPから逸脱することが報告されています。
この研究のシーケンスデータ(PRJEB18471)をダウンロードし、VITCOMIC2で解析して、結果ファイルをまとめてLEAにアップロードしました。
下の図は健康な成人の腸内細菌群集時系列データのマッピング結果です。
ほとんどのサンプルがLEAマップ上の"Gut area"内に分布しています。これは、LEAの学習に使用された既存サンプルの多くが健康な成人に由来するためです。
一方、下図は潰瘍性大腸炎患者の腸内細菌群集時系列データのマッピング結果です。健康な成人のデータと比較してより広い範囲に分布しており、Halfvarson, et al. 2017の結果を再現しています。VITCOMIC2で解析された系統組成データがあれば、このようなサンプルの典型性・異質性の評価がLEA上で簡単に実行できます。
このチュートリアルで使用したデータは以下からダウンロードできます:単一サンプルファイル、健常者複数サンプルファイル, 潰瘍性大腸炎患者複数サンプルファイル
注:ユーザデータはアップロード後、サーバ内に24時間保持され、その後消去されます。
All data used in the LEA global map are available via REST API.
Koichi Higashi, Shinya Suzuki, Shin Kurosawa, Hiroshi Mori, Ken Kurokawa (2018) Latent environment allocation of microbial community data. PLoS Comput Biol 14(6): e1006143. https://doi.org/10.1371/journal.pcbi.1006143
Contact: khigashi_at_nig.ac.jp (please replace _at_ with @)
Kurokawa Lab, National Institute of Genetics.