libre de droit via Getty Images
libre de droit via Getty Images

人の体内のほとんどの細胞は数十億の塩基対を核に押し込んだDNAの完全なコピーを持っています。そして身体の個々の細胞は、タンパク質の中に埋まっているDNAから必要な部分だけを外部からアクセスしやすくして、たとえば臓器、たとえば血液、たとえば皮膚など、異なる機能を持つ細胞になるための遺伝子を活性化します。

NVIDIAとハーバード大学の研究者らは、仮にサンプルデータにノイズが多く含まれていても(がんなどの遺伝性疾患の早期発見によくあるケース)、DNAのアクセス可能な部分を研究しやすくするためのAIツールキット「AtacWorks」を開発しました。

このツールは、健康な細胞と病気の細胞についてゲノム内の開かれたエリアを見つけるためのATAC-seq(Assay for Transposase-Accessible Chromatin with high-throughput sequencing)法と呼ばれるスクリーニング的アプローチをNVIDIAのTensor Core GPUで実行し、32コアCPUのシステムなら15時間ほどかかるゲノム全体の推論をたったの30分で完了するとのこと。

またATAC-seqは通常なら数万個の細胞を分析する必要がありますが、AtacWorksをATAC-seqに適用すれば、ディープラーニングで鍛えたAIによって数十の細胞だけで同じ品質の分析結果を得ることができます。たとえば研究チームは、赤血球と白血球を作る幹細胞を、わずか50個のサンプルセットを分析するだけで、DNAのなかのそれぞれの産生に関連する個別の部分を識別できました。

ゲノムの解析にかかる時間とコストを削減できるようになる効果から、AtacWorksは特定の疾患につながる細胞の病変やバイオマーカーの特定に貢献することが考えられます。また細胞の数が少なくてもゲノム解析ができるとなれば、非常に稀な種類の細胞におけるDNAの違いを識別するといった研究も可能になり、データ集積のコストを削減し、診断分野だけでなく新薬の開発においても、開発機関の短縮など新たな可能性をもたらすことが期待されます。

Source:Nature Communications

via:NVIDIA