NARD: whole-genome reference panel of 1779 Northeast Asians improves imputation accuracy of rare and low-frequency variants

22 October 2019

Seong-Keun Yoo,他

URLは
下記https://genomemedicine.biomedcentral.com/articles/10.1186/s13073-019-0677-z#MOESM1


①北東アジア人の全ゲノムシーケンス分析論文であるが、サンプル数が多いにもかかわらず、執筆が韓国人主体のため、バカげた内容となっており、「我々の分析の精度は高い」ことを強調するだけの内容である。
②韓国人どもに関し、大規模サンプルで全ゲノムシーケンス分析したと称しているがRaw sequence dataは公表していない、かつ、サンプルに関する記述がない。従って、現時点(2022年2月)でRaw sequence dataが公表されているのは、10名(AK1~と名付けた2011年の最初の全ゲノムシーケンス論文)と115名程度(FDA論文が対象とした公表データ)の2つしかない。この論文の後に、2020年にも同様に全ゲノムシーケンス論文と称する論文が出たが、やはりRaw sequence dataは公表していない。新たにサンプル採取し、イルミナで全ゲノムシーケンスすれば、2015年頃で、サンプル1名当たり10万近くかかるはずであり、現在でも、恐らくは最低でも5万~10万かかるはずである。だからこそ、国立遺伝研ですらDNAチップを使った安価な分析しかできないのだ。本当に全ゲノムシーケンスしたのかはなはだ疑問に感じる。

③この論文の付属エクセルファイルでサンプル約1780名のSNPデータが公表されている。SNPはどの民族も約330万である。これだけの数のサンプルであるが、SNPが突出して多い者は見当たらこない。下のグラフは、この論文の付属エクセルファイルから私が作成したが、やはりほぼ均一である。ただし、5人=0.28%程度の者は他に比べてSNPがかなり多く、DNA異常者であろうが、その比率は通常の異常判定に使用する比率と同じである

stupid5

つまり、SNPは330万程度で、数量としてみれば平坦に分布することを再確認した。挿入・欠失のインデルにいても完全に均一で平均32万である。即ち、人類は、個体ごとに変異箇所や変異内容は異なるが、変異数そのものは、不思議なほど個体差はない。この点はFDA論文の35名でも同じであるが、大規模サンプルでも完全に確認できた
SNP約330万+INDEL約32万=計約360万(SNV)が人間の個体差であると考えてよい。ただし、黒人の場合には、個体差がかなり大きいので数値は、15%~20%程度高くなることが分かっている

にもかかわらず、FDA論文が適示したように韓国人どもは韓国人どもに固有のSNVが特定の者に集中するという異常そのもののデータを示している。韓国社会の異常性の主原因で間違いない。本来は、平坦に分布するはずだ


Availability of data and materials

Raw sequence data is protected and cannot be released to the public due to compromise of participant confidentiality and privacy.

Alternatively, genotype imputation can be freely performed at the NARD imputation server for the academic purpose (https://nard.macrogen.com/).

Researchers can download MAF data from the NARD as a VCF file (https://nard.macrogen.com/download/NARD_MAF.hg19.zip). The hg38 version of MAF data liftovered by CrossMap (version 0.3.6) [56] is also available (https://nard.macrogen.com/download/NARD_MAF.hg38.zip).

(詳細データ ダウンロードしたが、全部で10ギガもある。私には分析無理なので諦めた)


執筆者には、Fumihiko Matsuda京大教授が含まれている。サンプルは、下図のとおりであり、圧倒的にキチガイどもが多い

stupid


と正直に書いているが、この論文では、各民族ごとの比率を示すことなく、下の表で一括している
(ただし、上の論文は変な区分である)
stupud4
この表で見ると、SNPに関しては、約44%がサンプル各個人に生じたものであることが良く分かる
(この論文では、rare0.5%未満、Low0.5%以上で5%未満としており、常識的な区分である)

この論文でもadmixture使用している

stupid3
K=5選択している。他については付属ファイルでも掲げていない

④どの論文にも必ずあるmethodがない。新たに唾液サンプルを集めたはずだが?どこ見ても書いてない。こんな変な論文はじめただとしか言いようがない。途中からバカバカしいので飛ばし読みしたので見落したかもしれないが、どの論文にも必ずあるmethodという見出し箇所は絶対にない

genotype imputationは、

「genotype imputation.SNPアレイなどには搭載されていない領域の遺伝型を推定する統計手法.NGS解析の結果からつくられたリファレンスパネルのハプロタイプ情報を利用して行われる.」


英文ウキペディアでは

Imputation in genetics refers to the statistical inference of unobserved genotypes.

It is achieved by using known haplotypes in a population, for instance from the HapMap or the 1000 Genomes Project in humans, thereby allowing to test for association between a trait of interest (e.g. a disease) and experimentally untyped genetic variants, but whose genotypes have been statistically inferred ("imputed").[2] Genotype imputation is usually performed on SNP, the most common kind of genetic variation.

分析用ソフトは、いくつかあり、IMPUTE,MACH,fastPHASE BIMBAM BEAGLE等で、この論文で比較できる、私が知る必要は全然ない 
要するに
untyped genetic variants, but whose genotypes have been statistically inferred ("imputed").[2]


Abstract

Here, we present the Northeast Asian Reference Database (NARD), including whole-genome sequencing data of 1779 individuals from Korea, Mongolia, Japan, China, and Hong Kong.

Construction and content

When we applied PCA to only Northeast and Southeast Asians, a clear population differentiation pattern was observed among them (Fig. 1b); MNG were most distinct from other populations based on PC1, and PC2 separated KOR, JPN, and mainland East Asians including Chinese Dai in Xishuangbanna (CDX), Han Chinese in Beijing (CHB), Han Chinese in Shanghai (CHS), HKG, and Kinh in Ho Chi Minh City (KHV).

stupid2
上の図は、本文からではなく、付属のファイルからの詳細PCA図で、モンゴル人がSNPから見れば、いくつかの小集団に分かれていることを示す

Interestingly, there were no overlapped samples between KOR and JPN except for a few outliers. This result implies that their ancestral compositions are distinctive enough to form separate clusters.


Additionally, unsupervised ADMIXTURE analysis [18] supported the different ancestral components for each of KOR, MNG, JPN, and mainland East Asians (Fig. 1c)

stupid3

c Population substructure of Northeast and Southeast Asians with five ancestral components inferred by ADMIXTURE algorithm
としているが、five ancestral componentsは、上から見て全然明らかではない

Utility and discussion

Due to the cost-reduction and technological advancements in WGS, several groups have been focused on building the population-specific reference panels, especially for underrepresented populations in the conventional panels such as 1KGP3 [3, 4, 6,7,8,9,10, 13]
上のリンク先はあまり意味がない


We confirmed that KOR and MNG were genetically differentiated from other East Asian populations.
重要な記述である。モンゴル人についてはPCAからみてもその通りであるが、韓国人どもについて根拠を論文本文では書いていない。恐らく詳細データにあるはずだが、この論文本文では一切その根拠を記述してない。あえて言えば、上のadmixtureの図である