全基因组适应中单核苷酸多态性生物学的数学建模
-
+
御姐音
大叔音
萝莉音
型男音
摘要:作为一个活的信息和通信系统,基因组编码的单核苷酸多态性 (SNP) 模式反映了人类适应,从而优化了不同环境中的种群生存。本文在数学上模拟了环境诱导的适应力,量化了种群之间 SNP 频率分布的变化。我们在生物物理方法(例如,最小化基因组自由能)和群体遗传学概念之间建立了直接联系。我们的无偏见计算机程序扫描了主要组织相容性复合体区域中的大量 SNP,并标记了与对缺氧反应相关的 SNP 的高度依赖性。我们的统计能力双盲方法在具有特定环境参数的多个群体中基于 SNP 信息的潜力的数学功能相关性的标记中得到了证明。此外,我们的方法为常见变体生物学的新发现提供了见解。本文展示了种群多样性的生物物理建模的力量,以更好地理解生物现象中的基因组-环境相互作用。
关键词
基因组-环境相互作用,基因组适应, SNP 功能相关性
一、简介
作为一个复杂的、动态的信息系统,人类基因组编码并延续了生命的原则。这些信息包含在一个大部分固定的模板中,以及人类基因组序列变异的结构中。在人类基因组的大约 30 亿个核苷酸中,只有大约 0.1% 由分布在整个基因组中的双等位基因单核苷酸多态性 (SNP) 组成 [ 1] . 一旦变异的统计分布在给定环境中达到稳态,就可以根据整个基因组中多态性的维持顺序和模式来描述人类群体。我们不仅仅根据地球物理参数来定义环境,而是将环境定义为人口与生物和进化影响的完整界面。我们断言,全基因组适应的稳定性反映在其环境中种群的这些常见变体(SNP)中保持多样性的频率。作为人类基因组中的动态位点,SNP 通常与被称为单倍块的组合高度相关,其单倍型在给定群体中以固定频率在几代人中保持不变。据说这种 SNP 组合处于连锁不平衡 (LD) 中。这反映了某些 SNP 等位基因组合从未出现在群体中,这意味着只有某些单倍型在生物学上是可行的并且可以代代相传。在种群动态中,生存能力表现为维持的生存能力和功能。单倍体的形成是基因组信息的一种新兴特性,在没有环境影响的情况下无法表征这种特性,这些环境影响会迫使种群之间发生这种相变。因此,我们使用的动态独立的统计基因组单位是 SNP 单倍型以及 SNP 位点内的等位基因,这些位点与任何其他 SNP 不连续 LD。特别是,等位基因和单倍型对环境的反应分布的变化直接反映了种群的适应力。作为基因组体现的活人的复原力允许群体适应新的或不断变化的环境。由于过去的各种迁徙群体留在特定环境中并发展了使群体在其周围环境中有效运作的集体应对机制,因此出现了不同的人口。我们认为适应是修改基因组表达以优化保留在特定环境中的群体的生存能力的动态过程。使用反映由于存在稳定种群的环境浴引起的统计变化相互作用的基因组信息的测量促进了“基因动力学”的发展,作为宏观物理“热力学”的模拟。2 ]。通过发现环境与生物学基础的基因组变异之间的关系,这种方法提供了一种思考种群多样性的新方法。在本文中,我们对基因组-环境相互作用进行了数学建模,并展示了对常见基因组变异的直接环境影响。
2。材料和方法
2.1。人口变异和信息
我们首先开发表达式,将人类群体的基因组信息测量(其多样性特征在几代人中保持稳定)与取决于该群体所占据的环境的附加动态状态变量联系起来。物理和通信科学中最常见的信息量度与所描述的统计系统的熵有关。为了开发基因组种群的熵度量,必须首先确定相关的动态单位。在给定的环境中,某些 SNP 集合的统计分布作为新兴单位变得高度相关。这意味着特定环境中的基因组信息动态是人类基因组表达的一个新兴阶段。比熵(S)不处于(连续)连锁不平衡中的单个 SNP 位置(S)的(或人均熵)将在由下式给出的环境浴中采用规范集成状态变量的形式
s(小号)≡ -∑a = 12p(小号)一个日志2p(小号)一个,(1)
在哪里 p(小号)一个表示等位基因的概率(频率) 一个发生在人群中。应该注意的是,如此定义的熵是无量纲的无量纲量度,没有生物物理单位。同样,由一组强相关的双等位基因 SNP 组成的 SNP 单倍体 (H) 的比熵被认为是
s( H)≡ -∑h = 12n( H)p( H)H日志2p( H)H,(2)
其中 n (H)是单倍体 (H) 中 SNP 位置的数量,并且 p( H)H表示单倍型 h 在群体中出现的概率(频率)。该总和的上限表示单倍块内等位基因的数学上可能的双等位基因组合的数量。常用的工具被用来构建单倍体结构[ 3 ]。
由于熵是对分布无序的度量,因此具有最大无序(所有数学上可能的组合的统计分布相等)的系统是最大熵 S max之一。保持统计分布的信息量(IC)是通过该分布相对于完全无序分布的有序程度来衡量的,即完全无序分布的熵与给定分布的熵之差; 我C=小号最大限度-小号[ 4 ]。由于熵的加性特性,这样的信息度量同样是加性的[ 5 ]。因此,熵和信息内容都是广泛的状态变量,其值随着人口规模的增加而增加。给定 SNP 单倍块 (H) 的归一化信息内容 (NIC) 是由下式定义的(非加性)内在度量
ñ我C( H)≡小号( H)最大限度-小号( H)小号( H)最大限度=s( H)最大限度-s( H)s( H)最大限度=n( H)-s( H)n( H),(3)
其中,如前所述,单倍体的特定熵 s( H)只是每个人口成员的熵 小号( H)=ñ人口s( H). 这种标准化的信息测量范围在 0 和 1 之间。这种无量纲测量允许人们探索个体和群体基因组区域的信息光谱 [ 4 ]。
为了最好地参数化环境影响,仅使用了第 3 阶段 HapMap 数据 [ 6] . 这些数据包括美国西南部有非洲血统的人群(ASW)、有北欧和西欧血统的犹他州居民(CEU)、中国北京的汉族人(CHB)、美国科罗拉多州丹佛市的中国人(CHD)、古吉拉特语印第安人美国德克萨斯州休斯顿 (GIH)、日本东京 (JPT)、Webuye Kenya 的 Luhya (LWK)、美国加利福尼亚州洛杉矶的墨西哥血统 (MXL)、肯尼亚 Kinyawa 的 Massai (MKK)、意大利的 Toscani (TSI) 和尼日利亚伊巴丹的约鲁巴 (YRI)。在第 3 阶段人群中,ASW 的 NIC 为 0.52,CEU 为 0.76,CHB 为 0.76,GIH 为 0.73,JPT 为 0.77,LWK 为 0.59,MXL 为 0.71,MKK 为 0.63,TSI 为 0.74,YRI 为 0.63。需要注意的是,对于 HapMap 数据的 I、II 和 III 期基因分型更完整的所谓创始人群体,CEU、CHB 的 NIC 值、
2.2. 人类基因组的信息动力学
接下来,我们开发了可以量化不同种群和同一种群基因组区域之间信息动态的相对柔韧性和弹性的维度尺度和单位,类似于物理科学中的附加能量单位。与微观物理学的基本粒子相比,基本生命单位在没有支持它们的环境的情况下无法维持。因此,基因组动力学最简单的描述应该将基因组自由能变量 F基因组发展为比环境独立的能量测量更基础的。
基因组自由能 F基因组已被开发为在给定环境浴中平衡 SNP 和单倍型的守恒和变异的状态变量。最小化基因组自由能可优化种群在全套环境刺激和压力源下的生存能力,在种群分布的动态中建立等位基因和性状的保护和变异之间的平衡。A 维环境潜力 T E(这是一个与人口规模无关的密集状态变量)将参数化由于随机环境刺激引起的人口内在的、普遍的搅动(类似于温度如何参数化热浴中基本物理单位的搅动)。类似地,维度等位基因和单倍型潜力, μ(小号)一个和 μ( H)H, 将参数化从添加等位基因 a 或单倍型 h 的一个个体的群体中的基因组自由能变化。对于给定的单倍体 (H),差异基因组自由能采用以下形式
dF( H)= -小号( H)d吨乙+∑Hμ( H)Hdñ( H)H,(4)
在哪里 ñ( H)H表示群体中具有单倍型 h 的个体数量。这种形式忽略了人口对环境的任何影响。总基因组自由能是所有 SNP 单倍体和非连锁 SNP 的总和,由下式给出
F基因组=∑HF( H)+∑小号F(小号).(5)
与热力学中的情况一样,加性等位基因势 μ( H)H预计相对于环境潜力 T E而言,等位基因或单倍型的潜在差异应直接反映在群体中这些动态单位的出现频率的比率中。我们断言这些属性包含在函数形式中
μ( H)H2-μ( H)H1吨乙= -日志2p( H)H2p( H)H1(6)
定义单个人类基因组能量单位( μ~≡ 1 G Eü) 是在单个非连锁内诱导最大变异所必需的等位基因能量
双等位基因 SNP 位置 ( p一个1=12=p一个2),单倍型 h 或等位基因的潜力
a 在以环境潜力 T E为特征的环境浴中浸透整个基因组可以表示为
μ( H)H= (μ~-吨乙)n( H)-吨乙日志2p( H)Hμ(小号)一个= (μ~-吨乙) -吨乙日志2p(小号)一个.(7)
如果给定群体的 SNP 位置仅存在一个等位基因,则该等位基因的等位基因潜力被定义为在该环境 中固定的固定潜力 μμ(小号)一个1=μF我x我_ _≡ (μ~-吨乙).
我们将假设人口是稳态的(或至少是准稳态的,这意味着人口分布中发生的任何变化都需要许多代才能变得显着)。人口稳态相当于人口生物学中使用的哈代-温伯格条件,即统计分布独立于人口数据的任何细分,包括与不同世代或年龄相关的细分。我们的种群稳定性条件将要求当种群与其环境处于稳态时,基因组自由能在当地环境中种群的变化下是(稳定的)最小值,即
(∂F基因组∂ñ人口) =0. 通过替换等位基因的形式 μ( H)H和
μ(小号)一个用等式 (7) 中的概率表示为群体稳定性条件并对所有单倍体和 SNP 求和,可以获得环境潜力的明确表达:
吨乙=μ~n小号ñ磷sn小号ñ磷s-s基因组=μ~ñ我C基因组.(8)
这将环境潜力与表征群体全基因组变异的内在归一化信息内容成反比关系,表明整个基因组均匀地沐浴在这个特定的环境参数中。群体稳定性条件可以用群体平均单倍型和等位基因潜力来表示。我们指的是 SNP 单倍块内的平均单倍型潜力 ∑Hμ( H)Hp( H)H= 〈μ( H)〉作为单倍块 (H) 的块潜力,以及非连锁 SNP 位置的平均等位基因潜力 ∑一个μ(小号)一个p(小号)一个= 〈μ(小号)〉作为位置 (S) 的 SNP 潜力。然后,种群稳定性条件要求给定种群的所有块和 SNP 潜力之和消失:
(∂F基因组∂ñ人口) =0⇒∑H〈μ( H)〉 +∑小号〈μ(小号)〉 =0.(9)
这种情况表明,在种群的多样性和保护之间建立了平衡,以优化其在给定环境中的生存能力。应注意环境电位 T E,块电位 〈μ( H)〉和 SNP 电位 〈μ(小号)〉只能为人口建造。此外,个体等位基因潜力 μ( H)H和 μ(小号)一个表征群体中每个个体的总体等位基因潜力,
μ个人=∑Hμ( H)H+∑小号μ(小号)一个,(10)
其中一组 SNP 单倍型 h 和等位基因 a 对个体来说是唯一的。个体的整体等位基因潜力不是一个通用参数,而是强烈依赖于环境。
为了说明基因组块电位的群体依赖性光谱,使用来自图 1中 HapMap 的 I、II 和 III 期数据显示了 6 号染色体上主要组织相容性复合体 (MHC) 区域中块的基因组自由能。
MHC 区域编码人类免疫反应的基因。基因组的这个区域与宿主对环境压力的反应特别相关,并且已知与环境参数显示出直接的生物学相关性。群体的单倍体结构中出现的差异立即显而易见。块结合电位(参数化出现的单倍块的稳定性)将被定义为块电位与构成该块的单个 SNP 电位之和的差异,如果它们不处于连锁不平衡 (LD) 中。结合电位(每个 SNP)的相应光谱如图 2 所示。
每个 SNP 具有更多负结合潜力的单倍体中的那些 SNP 具有增强的生物学优势,可以在给定环境中的种群世代中维持它们的相关统计数据。每个 SNP 结合潜力几乎为零的单倍体中的 SNP 几乎是独立的,这表明了新兴基因组阶段的环境转变点。准确地说,通过在具有特定环境的处于稳态的群体的基因组上形成统计相关的 SNP 单倍体表示的新兴基因组阶段导致该单倍体中 SNP 的非消失结合潜力。结合块的强度
图 1。作为位置函数的染色体 6 上 MHC 区域的阻断电位:(a)代表中国北京汉族的阻断电位;(b) 代表日本东京的 MHC 地区区块潜力;(c) 代表尼日利亚伊巴丹约鲁巴人的 MHC 地区区块潜力。平均值显示为水平虚线。较低潜力的区域表示更大程度的保守性,以及相关 SNP 的更强结合。
图 2。染色体 6 上 MHC 区域的每个 SNP 的结合阻断电位:(a)代表中国北京汉族 MHC 区域的结合阻断电位;(b) 代表日本东京 MHC 区域对日本人的结合块潜力;(c) 代表尼日利亚伊巴丹约鲁巴人 MHC 区域的结合块潜力。
每个 SNP 的潜力表示 SNP 变异必须相关的程度,以维持生物学上可行的群体。
2.3. 分布基因动力学
根据基因组自由能对人类基因组的信息动力学的表述直接导致了明确定义的形式,用于不在 LD 中的 SNP 的 SNP 电位和在 LD 中的相关 SNP 的块电位。由于 SNP 单倍体结构具有在群体之间不同的涌现形式,有意义定义的分布势将反映个体 SNP 参与其与单倍体中其他 SNP 相关的信息学架构的生物学基础。我们接下来将开发分布式 SNP 潜力 μ( H)小号在一个单倍体 (H) 中,它们满足以下条件:
如果 SNP 被给定群体中固定的等位基因占据,则其分布的 SNP 电位为固定电位 μ fixed;
分布的 SNP 电位之和应与块电位相同 μ( H), IE 〈μ( H)〉 =∑小号= 1n( H)μ( H)小号;
根据 SNP 等位基因的出现,块电位应在组成 SNP 之间线性分布。
第一个项目确保如果 SNP 在群体中没有变异,其基因组能量不会从不在 LD 中的 SNP 修改,第二个项目要求分布电位应该以加法方式重建块电位. 第三个项目符号表示将分布电位与 SNP 变化程度相关联的简单机制。满足这些条件的数学形式由下式给出
μ( H)小号≡μ固定的+ [ 〈μ( H)〉 -n( H)μ固定的]⎛⎝p¯小号∑小号'p¯小号'⎞⎠,(11)
在哪里 p¯小号= 1 -p小号是标记的 SNP 的次要等位基因频率 (S)。使用这种形式,单倍体潜力对任何组成 SNP 的分布与群体中次要等位基因的出现成正比,随着 SNP 具有更高的变异性(即变得不那么保守),该方式增加了 SNP 的基因组自由能。
SNP参与出现的单倍体生物学的稳定性程度可以根据其定义的结合潜力来量化
ε(小号)捆绑≡μ( H)小号− 〈μ(小号)〉,(12)
在哪里 〈μ(小号)〉如果不在 LD 中,它将是基因组变体的 SNP 潜力。正如所定义的,单倍块内 SNP 结合的这种度量总是负的,反映了 LD 中固有的基因组保守性增加。
我们可以进一步分配来自分布式 SNP 电位的等位基因测量,其方式将 SNP 电位构建为派生的分布式等位基因电位的总体平均值 μ( H)一个小号, IE, μ( H)小号=∑一个小号p( H)一个小号μ( H)一个小号. 最直接的形式是在一个单倍体中统一分配分布的 SNP 潜力,并保持增加的基因组潜力反映增加的变异的预期相关性,通过使用 SNP 结合潜力简单地调整非连锁等位基因潜力,即
μ( H)一个小号≡μ(小号)一个小号+ε(小号)捆绑.(13)
需要注意的是,所有分布的潜力都只是在人口层面上定义的,不能归因于个人。只有出现的单倍型潜力 μ( H)H可以归因于人口中的个人。然而,由于分布势是针对整个种群定义的,因此它们对于参数化对该种群的环境影响非常有用。分布电位对于描述群体对具有与特定等位基因或 SNP 的已知生物学对应的刺激和压力源的适应特别有用。使用分布式电位对基因组变异的描述固有地包括任何目前未知的全基因组对特定压力源的反应。
2.4. 适应力
一旦为单个等位基因和基因组区域开发了基因组自由能测量,就可以使用这些附加测量沿环境参数斜率的梯度来表征环境诱导的适应力。对于基因组上的给定等位基因 a 与可定义的环境参数 λ 生物学相关(例如紫外线、饮食中的乳糖、疟疾疟原虫的流行等),我们将环境诱导的对该等位基因的适应力定义为
F一个≡ -∂ μ一个∂ λ ,(14)
对表征 SNP、单倍体、单倍型、基因,甚至可能是整个染色体的电位具有类似定义的适应力。只有在基因组单元的生物学与特定环境参数 λ 之间存在功能关系时,这种表达才有意义。在这种情况下,积极的适应性力量推动给定基因组单位的保守性降低基因组潜力的斜率。增加的生存能力可能会推动基因组单元走向更多的多样性或更多的保护,这取决于环境对稳态种群的影响的性质。量化这种力量本质上涉及不同环境之间的比较。
为了探索环境对适应的影响,我们将调查仅限于 HapMap 的 III 期数据,因为这代表了基因分型较为一致的最广泛的人群。我们选择将 ASW、CEU、CHD、GIH 和 MXL 从我们的适应力参数化中排除,因为这些人群并不居住在其地理起源中。在本文中,选择了 6 号染色体上 MHC 区域中一组 SNP 的基因组潜力,对与三个特别直接的环境参数的可能相关性进行双盲探索:年暴露于 UV-B 辐射、海拔高度,以及接触疟疾媒介。为了简化任何结果的分析,该区域中对于大多数群体而言不在 LD 中的所有 SNP 的集合被预先选择用于计算搜索。该算法检查 SNP 和等位基因的基因组潜力是否可以拟合到单独取决于给定环境参数的简单功能形式(曲线)。如果数据点与曲线的均方根 (RMS) 偏差与数据的最大变化相比在 10% 以内,则 SNP 被程序标记,并计算曲线的自适应力.
使用的平均祖先年 UV-B 辐射暴露以焦耳每平方米(UV 辐射)为单位表示,估计来自以下引用的来源 [ 7 ]。在这些单位中,CHB 人口的年紫外线辐射量估计值平均为 2180(范围从 1500 到 2600),JPT 人口平均为 2400(范围从 2300-2500),LWK 人口平均为 5764(范围从 5450 到 6500) ,MKK 人口平均为 5624(范围从 5000 到 6125),TSI 人口平均为 1507(范围从 950 到 2500),YRI 人口平均为 5129(范围从 3500 到 6300)。使用的高度值是使用来自 [ 8] . 以米为单位,CHB 人口的人口海拔估计平均为 22(范围从 3 到 48),JPT 人口平均为 107(范围从 5 到 287),LWK 人口平均为 1711(范围从 1203 到 2486) ,MKK 人口平均为 1507(范围从 712 到 2383),TSI 人口平均为 74(范围从 1.3 到 143),YRI 人口平均为 211(范围从 12 到 337)。寄生虫数据基于世界卫生组织使用的恶性疟原虫寄生虫率 (PfPR) [ 9] . 我们预计所有被检查的人群在祖先中的疟疾暴露率都高于目前。特别是,与现在相比,TSI 人群在祖先中的疟疾暴露可能明显更高,因为相对最近的发展显着降低了昆虫的流行和疾病的治疗。以寄生虫繁殖率为单位,CHB 种群的 PfPR 估计值平均为 0.01(范围从 0 到 0.05),JPT 种群的平均值为 0.0002(范围从 0 到 0.001),LWK 种群的平均值为 12(范围从 2 到 35 ),MKK 人口平均为 8(范围从 1 到 25),TSI 人口平均为 0.8(范围从 0 到 5),YRI 人口平均为 70(范围从 20 到 95)。
在下面的图中,如果存在与点一起绘制的最佳拟合曲线,则计算机程序会标记数据。蓝点代表标记 SNP 不处于连锁不平衡状态的群体。图中曲线的粗细表示数据与拟合曲线的相关程度,曲线越粗表示相关性越强。
3。结果与讨论
我们的程序为 CHB、LWK、MKK、TSI 和 YRI 的人群标记了 MHC 区域中 SNP rs1109771 的 III 期 HapMap 数据高度的功能依赖性。曲线绘制在图 3中。
SNP 电位的相对 RMS 偏差为 0.03,G 等位基因电位为 0.008,A 等位基因电位为 0.001。在低海拔等位基因 A 上,对增加保护的显着适应力约为 +1.5 GEUs/公里,这是显而易见的。在更高的海拔高度,显着的变化被保持,如 SNP 潜力保持非常接近 1 GEU 的最大值(最大变化)所示。这意味着 G 等位基因在种群中继续显着存在,以优化其在 HapMap 数据中可用的更高海拔的生存能力。
高海拔和NOTCH 4
在人类历史进程中,为了适应具有挑战性的环境,必须在基因组水平上调节生物途径,以对抗所述环境中存在的毒性作用。高海拔是人类如何适应环境压力源(例如,低海拔
图 3。SNP rs1109771 位于染色体 6 上的 MHC 区域。环境参数 λ 标记的横轴是海拔高度,单位为千米。纵轴给出了基因组能量单位 (GEU) 中的 SNP (μ_rs1109771) 和等位基因 (μ_G, μ_A) 势:(a) 说明了 SNP rs1109771 与中国、肯尼亚、托斯卡纳和约鲁巴人群中海拔的功能相关性;(b)和(c)说明了上述人群中与海拔高度的等位基因相关性(分别为G和A)。
氧含量)。身体对长期暴露于肺泡缺氧的反应是过度换气,从而增加静息心率并刺激红细胞的产生,从而将动脉血的含氧量维持在海平面值或以上 [ 10 ]。此外,氧气供应不足会促使现有血管壁形成新血管,即血管生成发芽 [ 11 ]。生长因子和趋化因子由缺氧组织分泌,刺激内皮细胞脱离血管壁。然后这些血管生成因子协调发芽、分枝和新的管腔网络形成,直到氧含量上升并且可以重新建立正常氧[ 12] . Notch 信号通路在缺氧条件下塑造血管网络的形成和重塑方面发挥着关键作用 [ 11 ]。该通路是最初在果蝇中发现的一种进化上保守的细胞内信号通路。Notch 有四种跨膜受体,Notch 1 和 Notch 4 由内皮细胞表达 [ 13 ] [ 14 ] [ 15 ]。已经表明,小鼠 Notch 4 的靶向缺失导致内皮细胞的动脉和静脉规格的失调以及动脉和静脉的变形 [ 16 ] [ 17] . 此外,内皮细胞中 Notch 4 胞内结构域的过表达导致 β1 整合素介导的与胶原蛋白的粘附增加,从而导致细胞在体外和体内对血管内皮生长因子的发芽反应降低 [ 18 ]。因此,Notch 信号似乎促进了内皮细胞中的细胞反应,这有助于减轻人体缺氧的有害影响。因此,该途径中等位基因频率的种群差异可以有效地为响应这种环境压力源的生存提供适应性优势。
作为该公式为未来在全基因组适应生物学中发现提供的潜在指导的证明,我们的程序从 MHC 区域的 rs430620 人口 CHB、LWK、MKK、TSI 的 HapMap 数据中标记了对疟原虫寄生虫负荷的功能依赖性和 YRI。图 4中绘制的曲线代表了基因组干预序列中 SNP 的寄生虫依赖性的强烈标志,与任何基因没有已知的关联。SNP 电位的相对 RMS 偏差为 0.007,G 等位基因电位为 0.02,A 等位基因电位为 0.008。对于等位基因 A 上的初始寄生虫负荷,对增加保护的显着适应力约为 +3 GEU/单位 PfPR 是显而易见的。A 等位基因在没有寄生虫负荷的群体中发生率非常低,并且 SNP 接近固定在等位基因 G 上。再一次,对于较高的寄生虫负荷,保持显着变化,如 SNP 潜力接近 1 GEU 的最大值所示,表明保持 G 等位基因在人群中显着出现的重要性。在与这种寄生虫负荷平行的环境压力下,A 等位基因与增加的生存能力相关联的可能性很有趣。此外,这种相关性举例说明了如何利用基因动力学来发现以前未知的对简单环境因素具有明确功能依赖性的基因组变体,从而激励其他研究人员将这些功能依赖性与他们自己的实验室/临床发现相关联。
我们已经证明了将基因组自由能测量与环境影响对全基因组适应相关联的效用。双盲平滑数学函数标记了海拔和与缺氧相关的 SNP 的等位基因能量之间的关系。从这些函数关系中,基因组能量梯度以类似于物理科学中相应概念的方式量化自适应力。我们对基因组信息动力学的表述优化了种群在给定环境中的生存能力。具体来说,全基因组 SNP 分布代表了基因组序列变异和保护之间的环境影响平衡。此外,双盲平滑数学
图 4。rs430620 在染色体 6 上的 MHC 区域。由环境参数 λ 标记的水平轴是以恶性疟原虫寄生虫率为单位的疟原虫寄生虫负荷。纵轴给出了基因组能量单位 (GEU) 中的 SNP (μ_rs430620) 和等位基因 (μ_G, μ_A) 势:(a) 说明了 SNP rs430620 与 PfPR 在中国、肯尼亚、托斯卡纳和约鲁巴人群中的功能相关性;(b)和(c)说明了上述人群中与 PfPR 的等位基因相关性(分别为 G 和 A)。
功能标记了寄生虫负荷与 SNP 的等位基因能量之间的关系,而 SNP 与基因没有已知的关联。这为未来发现与该 SNP 相关的生物学提供了一个有趣的机会和方向。
此外,全基因组常见变体中的种群多样性,例如非随机嵌入人类基因组的 SNP,代表了全基因组适应环境刺激和与健康结果中的种群多样性相关的压力源的“典型的自然实验”。与常见疾病相关的 SNP 不仅揭示了常见疾病复杂生物学背后的机制,而且揭示了人群在全基因组适应环境刺激和压力源方面的“基因组成本”。通过参数化 HapMap 群体中 SNP 的信息动态,我们开发了一个环境诱导的适应力的数学模型,作为人口健康和健康结果多样性的驱动因素。
致谢
作者要感谢国家人类基因组中心和霍华德大学计算物理实验室的持续支持。这项研究得到了研究基础设施部 RCMI 计划的 NIH Grant NCRR 2 G12 RR003048 的部分支持。作者特此证明,他们与在本手稿中讨论的主题或材料有任何经济利益或非经济利益的任何组织或实体没有任何关联或参与。
利益冲突
作者宣称没有利益冲突。
参考
[ 1 ] Sachidanandam, R., Weissman, D., Schmidt, SC, Kakol, JM, Stein, LD, Marth, G. 等。(2001) 包含 142 万个单核苷酸多态性的人类基因组序列变异图谱。自然,409、928-933。
[ 2 ] Lindesay, J.、Mason, TE、Hercules, W. 和 Dunston, GM (2014) 开发基因动力学指标以探索 DNA 多态性的生物物理学。计算生物学和生物信息学研究杂志,6, 1-14。
[ 3 ] Barrett, JC, Fry, B., Maller, J. 和 Daly, MJ (2005) Haploview:LD 和 Haplotype Maps 的分析和可视化。生物信息学, 21, 263-265。
[ 4 ] Lindesay, J., Mason, TE, Ricks-Santi, L., Hercules, W., Kurian, P. 和 Dunston, GM (2012) A New Biophysical Metric for Interroging the Information Content in Human Genome Sequence Variation: Proof of Concept . 计算生物学和生物信息学研究杂志,4, 15-22。
[ 5 ] Lindesay, J. (2013) 量子引力的基础。剑桥大学出版社,剑桥,英国。
[ 6 ] 国际 HapMap3 联盟(2010 年)整合不同人群中常见和罕见的遗传变异。自然,467,52-58。
[ 7 ] Herman, JR, Krotkov, N., Celarier, NE, Larko, D. 和 Labow, G. (1999) TOMS 测量的 UV 背散射辐射在地球表面的 UV 辐射分布。地球物理研究杂志:大气,104,12059-12076。
[ 8 ] Globe Task Team (1999) 全球陆地一公里基准高程 (GLOBE) 数字高程模型,版本 1.0。
https://www.mgdc.noaa.gov/mgg/topo/globe.html
[ 9 ] 世界卫生组织 (2008) 2008 年世界疟疾报告。日内瓦世界卫生组织,瑞士。http://www.who.int/malaria/publications/atoz/9789241563697/en/
[ 10 ] Grocott, MPW, Martin, DS, Levett, DZ, McMorrow, R., Windsor, J. 和 Montgomery, HE (2009) 珠穆朗玛峰登山者的动脉血气和氧含量。新英格兰医学杂志,360, 140-149。
[ 11 ] Phng, LK 和 Gerhardt, H. (2009) 血管生成:Notch 协调的团队努力。发育细胞,16,196-208。
[ 12 ] Gerhardt, H.、Golding, M.、Fruttiger, M.、Ruhrberg, C.、Lundkvist, A.、Abramson, A. 等。(2003) VEGF 利用内皮尖端细胞丝状体引导血管生成发芽。细胞生物学杂志,161、1163-1177。
https://doi.org/10.1083/jcb.200302047
[ 13 ] Hoffman, JJ 和 Iruela-Arispe, ML (2007) 血管中的缺口信号:谁在和谁谈论什么?循环研究,100,1556-1568。
https://1161/01.RES.0000266408.42939.e4
[ 14 ] Farve, CJ, Mancuso, M., Maas, K., McLean, JW, Baluk, P. 和 McDonald, DM (2003) 成人肺内皮细胞中参与血管发育和血管生成的基因的表达。美国生理学杂志-心脏和循环生理学,285,H1917-H1938。