2019年12月18日水曜日

PCAつかった配列解析

https://www.nature.com/articles/s41598-019-55253-0
Principal Component Analysis applied directly to Sequence Matrix

これまでは猫も杓子もクラスタリングをやっていた。
NJはいい方法だとおもうけど。

クラスタリングというのは、ある仮定のもとで、
とりえる形を見せてくれる方法である。
その仮定は間違ってるかもしれない。
だから結論を導くことはできない。
もともと、科学では使いにくい方法である。

配列はひとつずつのベースが独立変数とみなせるので、
そのデータはだから多変量解析で分析すべき。
とりあえず仮定がほとんどなくて科学で使いやすいのは主成分分析。
だからPCAつかって解析。

これまでにも「距離行列」を使う方法はあったみたいだけど、
こいつは配列をいったんブーリアンのゼロイチにして、そのまま
singular value decomposition にかけてる。
だからデータは最後まで失われない。
あとサンプルの関係と配列の関係が並列して出てくる。

まあそういう「原理が新しい」方法なんだけど、
インフォマの論文の常として、
以前のと比べて良い点はどこか ってところが必要になるので、
ロバストネスだとかそういうデータがついた論文。
それらはオマケだね。
まあでもNJの限界とかはよく表れてる。

おもしろいのはインドライオンのデータ。
あれはかつて絶滅に瀕したことがある。
その過去がデータにはっきりと表れている。
3つのグループというかファミリーがあって、
それらは遺伝的多様性に乏しい。
ボトルネック効果。

だけども交雑した子孫はいるみたいだから、
交配に気を配れば、また遺伝的多様性を取り戻せるかもしれない。

0 件のコメント:

コメントを投稿