雑談

バイオインフォマティクスから学ぶ数理的問題解決(DNA 鑑定編①)

先日バイオインフォマティクスの紹介をしました、Yasui です。この記事ではバイオインフォマティクスは生命現象を情報理論で明らかにする研究分野ということを書きました。なので、今回は実際に生命現象に関わる問題と数学的解法を融合した例をご紹介したいと思います。

昨今の技術の進化により、DNA は個人を特定しうる強力な武器になっています。特に、刑事事件の解明や親子鑑定などでDNA 鑑定を行うことが一般的になってきました。その精度(その人が偶然他の人と同じDNA をもつ確率)は最新の技術で565京分の1 となっており総人口の60億と考えれば個人識別においてかなり信頼できる数字になっています。このような確率の計算は遺伝子頻度の計算によっておこなわれており、そこで確率論が力を発揮しています。

遺伝子頻度の計算

遺伝の仕組みはかなり精密に制御されていることがメンデルの遺伝法則から証明されています。親から子に DNAが受け継がれるときに、子は母親から半分、父親から半分のDNA を受け取ります。即ち、世代を超えてもDNA パターンは保存されていて、そのパターン出現頻度を一意に求めることができるということになります。この法則をハーディー・ワインベルグの法則(Hardy-Weinberg principle: H-W 平衡)といいます。この法則には以下の5つの前提条件をもとに成り立っています。

  1. 自由交配である(親が誰かによって無理矢理決められていない)
  2. 群内の個体数は十分に大きい(母集団数が十分量ある)
  3. 他の群への流出、他の群からの流入がない(極端な外国への移動や、外国からの受け入れがない)
  4. 突然変異が起こらない(遺伝子配列が全く変化しない(※これは現実上ありえない))
  5. 遺伝子型や表現型の違いによる自由選択がない(例えば、左利きの人が迫害されていなくなるみたいなことはない)

このとき、ある形質の遺伝子Aとその対立遺伝子aの割合が p:q (p = 1-q) であるとき、それらの表現型 AA, Aa, aa の出現頻度(遺伝子頻度)は p^2:2pq:q^2 となります。この H-W 平衡は仮定が多くてそもそも成り立つのが疑問に上がりますが、自然集団では十分条件的に成り立つことが分かっており、多少仮定が破られるような状態でも②の条件だけ満たしていればその影響は少ないとされています。DNA 鑑定時はこの H-W 平衡を用いて、対象の遺伝子表現型が偶然一致する(例えば、事件発生箇所に落ちていた髪の毛とうかがわしい人の髪の毛の遺伝情報が偶然一致する)確率を算出します。

さらに、この H-W 平衡による遺伝子頻度の計算は染色体一本ごとに独立で計算することができるので、識別する遺伝子表現型を染色体別に増やせば積算で確率を絞り込むことができます。DNA 鑑定で良く用いられている検査対象の遺伝子表現型は15種類で、ただ一種類で計算するよりも n^15 ほど遺伝子表現型が偶然一致する確率が低くなります。

ということで、DNA 鑑定というニッチな部分で使われている確率論を紹介してみました。確率の視点からみると、確率測度の定義から、独立性を考慮した確率の算出といった基礎の部分を一周する感じで案外練習問題として向いてるかもと思いました(問題設定には難がありそうですが…)。せっかくなので、次回何かを想定して計算してみたいと思います。最後まで読んでいただきありがとうございました。

Yasui
アナリティクス&デベロップメント所属 特技はPCR