High level of inbreeding in final phase of 1000 Genomes Project

Steven Gazal et al.

nature 02 December 2015 

1000ゲノムプロジェクトフェーズ3結果公表データを元に近親交配を調べ衝撃的な結果を明記した論文であり、Nature本体掲載論文である。

主として朝鮮半島に生息する連中は、本当に幸運なことに、Hapmap及び1000ゲノムプロジェクトの両者で分析対象ではなかった、このことは彼ら・彼女らに巨大な幸運をもたらした。何故なら、万一、1000ゲノムプロジェクトで彼ら・彼女らが分析対象に含まれていれば、[I am Koreans]と絶対に言えなくなることは確実であるからだ。

彼ら・彼女らの異様なレベルの遺伝的特異性は、民族差別という重大な問題の故に、今後も日本及び世界の人々が知るところとはならないであろう。

しかし、2014年に事実上はアメリ食品医薬品局毒性研究センターが彼ら・彼女らの35名のDNAを分析し、異様なレベルの遺伝的特異性を完膚なきまでに明らかにしている。

①何故、このような人々が今日に至るまで、遺伝的均質性の高い民族集団として生息し存続しえたのか?
②何故、このような異様なレベルの遺伝的特異性を有する集団が、いつの時点でどのような理由で生じてしまったのか?
③何故、アメリ食品医薬品局毒性研究センターは、完全に単独で、分析したのか?

これらの疑問のうち②については、李氏朝鮮時代の奴隷制=奴婢制による意図せざる近親曽=同父異母間の兄弟姉妹間で生まれた子が他の民族集団比べて比較不能なレベルで多いが一つの答えとなるものと思われる


IMG_1912

Abstract

The 1000 Genomes Project
2,500 sequenced individuals from 26 populations

found an unexpected high level of inbreeding in 1000 Genomes data: 

nearly a quarter of the individuals were inbred and around 4% of them had inbreeding coefficients similar or greater than the ones expected for first-cousin offspring.

Inbred individuals were found in each of the 26 populations, with some populations showing proportions of inbred individuals above 50%. 

Introduction

The 1000 Genomes Project (TGP)

下記3つの論文が自然選択関連先行研究として挙げられている
 A composite of multiple signals distinguishes causal variants in regions of positive selection.
 Identifying recent adaptations in large-scale genomic data
a genome browser dedicated to signatures of natural selection in modern humans

while TGP individuals are described as unrelated and that relationships of the previous phases have been investigated by TGP consortium and others2,9, their inbreeding level is undocumented and could bias genotype and haplotype frequencies estimated on this panel.

  Table 1 Inbreeding detection in TGP populations.

 

Total

Total inbred

African (AFR)

660

90 (14%)

 African Caribbean in Barbados (ACB)*

96

4 (4%)

 African Ancestry in Southwest United States (ASW)*

60

1 (2%)

 Esan in Nigeria (ESN)

99

27 (27%)

 Gambian in Western Division, The Gambia (GWD)

113

28 (25%)

 Luhya in Webuye, Kenya (LWK)

99

9 (9%)

 Mende in Sierra Leone (MSL)

85

10 (12%)

 Yoruba in Ibadan, Nigeria (YRI)

108

11 (10%)

European (EUR)

503

88 (17%)

 Utah residents with European ancestry (CEU)

99

1 (1%)

 Finnish in Finland (FIN)

99

34 (34%)

 British in England and Scotland (GBR)

91

16 (18%)

 Iberian populations in Spain (IBS)

107

27 (25%)

 Toscani in Italy (TSI)

107

10 (9%)

East Asian (EAS)

504

54 (11%)

 Chinese Dai in Xishuangbanna, China (CDX)

93

36 (39%)

 Han Chinese in Bejing, China (CHB)

103

4 (4%)

 Southern Han Chinese, China (CHS)

105

2 (2%)

 Japanese in Tokyo, Japan (JPT)

104

4 (4%)

 Kinh in Ho Chi Minh City, Vietnam (KHV)

99

8 (8%)

South Asian (SAS)

487

221 (45%)

 Bengali in Bangladesh (BEB)

86

19 (22%)

 Gujarati Indian in Houston, Texas (GIH)

103

41 (40%)

 Indian Telugu in the United Kingdom (ITU)

100

44 (44%)

 Punjabi in Lahore, Pakistan (PJL)

96

55 (57%)

 Sri Lankan Tamil in the United Kingdom (STU)

102

62 (61%)

Admixed American (AMR)

343

142 (41%)

 Colombian in Medellin, Colombia (CLM)

94

50 (53%)

 Mexican Ancestry in Los Angeles, California (MXL)

64

11 (17%)

 Peruvian in Lima, Peru (PEL)

81

16 (20%)

 Puerto Rican in Puerto Rico (PUR)

104

65 (63%)

TOTAL

2497

595 (24%)

  1. 1 ASW, 2 ITU and 4 PEL of the 2,504 initial individuals have been removed due to Q-score ≤ 50. AV = avuncular offspring; 2 × 1C = double first-cousin offspring; 1C = first-cousin offspring; 2C = second-cousin offspring.
  2. *These populations should be considered as Admixed African.
上の表は見やすくするために、1C、2C等の明細の列を削除した。プエルトリコ・スリランカは近親交配という観点からは、まさに異常な人々である。注目するべきであるのは、プエルトリコである。カリブ海諸国中、共産主義国キューバ同様に治安は比較的良好である。近親婚の蔓延は確実に知能の低下に直結する、しかし、その他の暴力的側面には影響しないようである。

We applied our FSuite pipeline11,
11は下記
FSuite: exploiting inbreeding in dense SNP chip and exome data.

Results

Overview of methods

The genome of an inbred individual is characterized by large regions homozygous-by-descent (HBD)

FSuite performance in admixed samples

We investigated the accuracy of FSuite f estimates by simulating 100 replicates of a sample of 300 admixed individuals with different levels of inbreeding and different levels of European and African ancestry.

Figure 1 shows the difference between FSuite estimates and true f value (Δf) against the true genomic proportion of European ancestry (ADMCEU) of the individual,


Inbreeding estimation and detection on the last phase of 1000 Genomes project

Before applying FSuite on the TGP data, we ran the multi-point method RELPAIR17,18 on individual pairs from each population in order to detect unknown first or second degree relationships. 

We detected 15 unreported relationships closer than first-cousins: 8 parent/offspring relationships (including one trio), 3 full-sibs, 1 half-sib, 3 avuncular relationships (Table S3). We thus excluded 14 individuals to estimate population allele frequencies.

これには驚いたincestという表現を避けているが、近親相姦そのものである。いとこ婚・伯父姪婚を除く完全な近親相姦は、8(親子)、4(兄弟姉妹)=12/2500=0.48%という結果を得る

 94 individuals can be considered as descending from recent inbreeding, i.e. being offspring of first-cousin or closest relationships.

2497がこの分析で対象とした数である。いとこ婚よりも近い関係にある者の比率は、94/2500=3.76%である

Finally, note that GIH and PUR populations, that had a high proportion of inbred individuals (40% and 64%, respectively), had only one individual who exhibited recent inbreeding. 

Discussion

In conclusion, we have shown that multi-point approaches provide reliable estimates of the genomic inbreeding coefficient f even when there are some admixed individuals in the studied population.

On the final phase (Phase III) of the 1000 Genome Project, we found that nearly a quarter of the individuals in this panel were inbred and that around 4% of them had inbreeding coefficients similar or greater than the ones expected for first-cousin offspring. 

This level of inbreeding was unexpectedly high and is much higher than the 4% of inbred individuals that we detected on HapMap III10.

下がTableS3の集団名と関係だけを取り出したもの。略語は下記の通りで間違いないと思われる

CO=cousinいとこ婚、FS=full siblings兄弟姉妹間、PO=parent offspring親子間、祖父孫間
AV=伯父姪婚、HS=half siblings 異父又は異母兄弟姉妹間
目立つつのは
①CDX=中国の少数民族であるタイ族(=南方系アジア人の源流とされている)のいとこ婚の多さである。しかし、少数民族では文化人類学者の分析では、交叉いとこ婚が非常に多いことが知られており、人口の少なさからタイ族では交叉いとこ婚が多いと推定される
②日本人=JPTはこの表ではゼロであるが、しかし、数値的にはtable1では4%となっており、日本人の遺伝的な均質性=近縁性を反映していると考えられる。言い換えれば、江戸時代の田舎における近親婚の蔓延を反映していると推測される

計228事例
*同父同母兄弟間→3例
*異母同父又は同母異父兄弟間→1例
*伯父姪間→3例
*親子間(全てアフリカ又は南アジア)→8例

SUPER POP POP INFERED RELATIONSHIP
AFR ACB CO
AFR ACB CO
AFR ACB FS
AFR ACB CO
AFR ASW AV
AFR ASW CO
AFR ASW CO
AFR ASW CO
AFR ASW CO
AFR ASW CO
AFR ASW CO
AFR ASW PO
AFR ASW CO
AFR ASW CO
AFR ASW CO
AFR ASW CO
AFR ASW CO
AFR ASW PO
AFR ASW PO
AFR ASW PO
AFR ASW CO
AFR ASW PO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR ESN CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR GWD CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK AV
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK FS
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR LWK CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR MSL CO
AFR YRI CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR CLM CO
AMR MXL CO
AMR MXL CO
AMR MXL CO
AMR MXL CO
AMR MXL CO
AMR PEL CO
AMR PUR CO
AMR PUR CO
AMR PUR CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CDX CO
EAS CHS CO
EAS CHS AV
EAS CHS CO
EAS CHS CO
EAS CHS CO
EAS CHS CO
EAS CHS CO
EAS KHV CO
EUR CEU CO
EUR CEU CO
EUR CEU CO
EUR CEU CO
EUR CEU CO
EUR CEU CO
EUR GBR CO
EUR GBR CO
EUR GBR CO
EUR GBR CO
EUR GBR CO
EUR GBR CO
EUR TSI CO
EUR TSI CO
EUR TSI CO
SAS BEB CO
SAS GIH CO
SAS GIH CO
SAS GIH CO
SAS GIH PO
SAS GIH PO
SAS GIH CO
SAS GIH CO
SAS GIH HS
SAS ITU CO
SAS ITU CO
SAS ITU CO
SAS ITU CO
SAS ITU CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS PJL CO
SAS STU CO
SAS STU CO
SAS STU FS
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU PO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO
SAS STU CO