来源:BioArt植物
作者:刘耀光,李构思,张雅玲,陈乐天 (华南农业大学)
来源:华南农业大学学报
基因功能的鉴定和作物新品种的选育离不开突变体的获得,之前突变体的获得主要依靠自然突变、物理或化学诱变以及T-DNA随机插入等手段[1]。这些方法存在突变效率低、突变位点随机等缺陷,且后续还需要通过图位克隆等耗时耗力的技术手段才能最终确定突变基因。因此,在特定的位点引入核苷酸变异,实现基因的定点编辑能高效地获得目标突变体,从而加快基础研究和遗传育种的进程。基因编辑技术主要是利用序列特异性核酸酶(Sequence specific nucleases, SSNs) 在特定基因位点产生 DNA 双链断裂,借助编辑受体自身的DNA 修复系统在非同源末端连接 (Non-homologous end joining, NHEJ) 过程中产生随机的 Indels (Small insertionsand deletions) 或在同源重组修复过程中插入或替换相应的基因片段,最终实现基因组序列的突变。现有的基因编辑系统主要包括锌指核酸酶 (Zinc fingernucleases, ZFNs) 系统、类转录激活因子效应物核酸酶 (Transcription activator-likeeffectornucleases, TALENs) 系统以及 CRISPR/Cas(Clustered regularly interspacedshort palindromic repeat-associated protein) 系统[2],其中,CRISPR/Cas 系统由于载体构建过程简单、编辑效率高等优点,成为当前广泛应用的主流基因编辑系统。本文回顾了CRISPR/Cas系统的发现和编辑技术体系建立的历程,介绍了CRISPR/Cas编辑技术在植物中的应用以及编辑结果的分析方法,并展望了CRISPR/Cas基因编辑技术以及编辑靶点分析技术的发展趋势。
1 CRISPR/Cas 免疫系统的作用机制和分类
科学家们对CRISPR/Cas免疫系统的研究早在30 年前就已经就开始。1987 年,日本研究团队在研究大肠埃希菌 Escherichia coli 碱性磷酸酶的同工酶基因 iap 的时候发现,在该基因的 3'端存在特殊的侧翼结构,即 29 bp 的高度相似序列分别被 32 bp序列间隔,形成了 5 个拷贝的串联重复序列[3]。但该团队并未对此现象进行更深入的研究。Mojica等[4-5] 对此产生了浓厚的兴趣,他们利用生物信息学检索探究,在 20 多种微生物中都发现了类似的短序列重复结构,并将这种短序列重复结构命名为规则的短间隔重复(Shortregularly spaced repeats,SRSRs);提出 SRSRs 可能存在于原核生物基因组,包括所有嗜热细菌和古细菌中以及部分的蓝藻和变形菌门生物;总结了SRSRs的基本特征:24~40 bp 的短回文序列 (回文区可达 11 bp) 成簇存在,并被非重复的 20~58 bp 序列间隔开来。2002 年,为了更贴切地表示 SRSRs 的特征以及避免命名的混乱,Jansen 与 Mojica 商定将 SRSRs 更名为成簇有规律的间隔短回文重复序列 (Clusteredregularlyinterspaced short palindromic repeats,CRISPR)。Jansen 等[6] 发现大部分种类的原核生物具有 2 个或 2 个以上的 CRISPR 基因座前导序列,而这些CRISPR 基因座前端共享一个 300~500 bp 的种间保守前导序列,并通过比较 CRISPR 基因座侧翼的基因组信息,鉴定出不同原核生物中高度相似的4 个 CRISPR 关联基因:Cas1~Cas4。2005 年,Mojica等[7] 再次发表了对 CRISPR/Cas 系统研究的最新结果,他发现 CRISPR 中的间隔序列大部分来自噬菌体或接合质粒,并且携带某一噬菌体片段的细菌具有对相应噬菌体的抵抗力;CRISPR 基因座存储了病原菌的基因信息,可能是微生物适应性免疫系统的一部分。随后,另有2个科研团队也发表了相近结果的论文[8-9]。2007 年,Barrangou 等[10] 证明了在噬菌体攻击后,筛选到的抗性细菌的 CRISPR 区整合了新的间隔序列,而间隔序列正是来源于噬菌体DNA,也就是说,细菌通过识别与噬菌体序列相同的 CRISPR 间隔区对应的特定序列,获得对噬菌体的抗性,产生适应性免疫能力;还确认了CRISPR关联基因 Cas7 帮助细菌获得新的间隔序列和重复,Cas9 则发挥了核酸切割酶的作用,为细菌免疫系统所必需。随后的几年,CRISPR 细菌免疫系统的必要条件和作用机制相继被发现和证实,如CRISPR 中依靠重复序列形成的 crRNA 是 CRISPR产生抵抗力的关键[11],Cas9 切割的对象是 DNA[12],且对 DNA 的精准切割的位点与 crRNA 特定序列和 PAM(Proto-spaceradjacent motif) 序列有关[13-14],Ⅱ型系统中 tracrRNA 也参与了 Cas9 的切割[15] 等等。
CRISPR/Cas 系统广泛分布于 90% 的古细菌及 50% 的细菌基因组或质粒上[16]。它由 CRISPR基因座和 Cas 基因 2 部分组成,其中,CRISPR 基因座又包括位于 CRISPR 基因座上游富含 AT 碱基的前导序列 (Leader)、涵盖回文序列的 20~50 bp 的重复序列 (Repeat) 和从外源捕获的间隔序列 (Spacer)。CRISPR/Cas 系统的免疫过程分为 3 个阶段[17]:1) 外源 DNA 首次入侵时,细菌进入适应阶段,来源于噬菌体或质粒上的前间隔序列(Protospacer)的 DNA同源短片段被整合到 CRISPR 基因座前导序列下游中,形成新的间隔序列;2) 外源 DNA 再次入侵时,细菌激活了表达阶段,CRISPR 基因座转录出前体crRNA,由内切核糖核酸酶催化加工成成熟的crRNA;3) 在干扰阶段,成熟的 crRNA 引导 Cas 蛋白复合物靶向噬菌体前间隔序列位置,识别噬菌体基因组内的 PAM 序列,对外源靶标位置精准切割从而避免细菌切割自身 CRISPR 基因座。
2012 年,Jinek 等[15] 在《Science》上发表研究成果,证明了 crRNAs (CRISPR RNAs) 与 tracrRNA (Trans-activatingcrRNA,反式作用crRNA) 配对结合后形成双分子的RNA结构,可以介导 Cas9 蛋白定向切割 DNA 序列。2013 年,张峰团队率先利用CRISPR/Cas9 技术在人类和小鼠细胞内实现了精准的基因编辑,并构建了可同时靶向多个位点的基因编辑系统[18]。此后,CRISPR/Cas 基因编辑技术蓬勃发展。
Makarov 等[17, 19] 根据 Cas 基因的数目和功能将 CRISPR/Cas 系统分为了 2 大类 5 种类型 (Ⅰ ~Ⅴ)16 种亚型,其中,Ⅰ、Ⅲ和Ⅳ型属于第 1 类,它们在干扰靶基因时需要多个Cas 蛋白形成复合物协同工作;Ⅱ和Ⅴ型属于第2 类,它们利用单一Cas蛋白就能够干扰靶基因。第2 类Ⅱ型系统较为简单,研究也更加透彻,目前应用较广的 CRISPR/Cas9系统为Ⅱ 型CRISPR 系统,而新兴的 CRISPR/Cas12a(Cpf1) 系统属于Ⅴ 型CRISPR 系统。Shmakov 等[20]2015 年又发现了Ⅵ和Ⅴ型的 2 种亚型。
2 CRISPR 基因编辑系统的建立
在对细菌的CRISPR/Cas 免疫系统及作用机理有了较深的认识后,科学家们开始对该系统进行改造并应用于动植物的基因组编辑。目前应用最广泛的 CRISPR 基因编辑系统主要包括 CRISPR/Cas9系统和 CRISPR/Cas12a 系统。
2.1 CRISPR/Cas9 系统的建立
CRISPR/Cas9 是目前报道的唯一被优先应用于基因编辑的Ⅱ型系统。与Ⅰ和Ⅲ型 CRISPR 系统需要多个 Cas 蛋白形成复合物共同发挥功能的机制不同,Ⅱ 型 CRISPR 系统仅需 1 个 Cas 蛋白和 2 个RNA 元件即可实现对靶 DNA 的切割[15]。为了进一步简化 CRISPR/Cas9 系统,研究者通过保留必需元件 tracrRNA 和 crRNA的核心序列并引入连接区,将两者合并为一个sgRNA(Single guide RNA),并通过体外试验证实 Cas9蛋白能在 sgRNA 的引导下切割双链 DNA,这一系列成果为 CRISPR/Cas9 在基因编辑中的广泛应用奠定了坚实基础。自 2013年起,利用 CRISPR/Cas9 技术相继实现了对人类细胞、小鼠细胞、斑马鱼、果蝇、水稻、拟南芥等真核系统中的內源基因组编辑[21-31]。
CRISPR/Cas9 基因编辑技术主要包括两大核心内容:1) 构建 Cas9/sgRNA表达载体,将载体导入受体细胞表达发挥编辑作用;2) 将表达纯化的Cas9蛋白与合成的 sgRNA 导入受体细胞发挥编辑作用。来源于链球菌 Streptococcus pyogenes 的Cas9 蛋白 SpCas9最先被应用于基因编辑,该蛋白含有一个RuvC-like 结构域和一个 HNH 核酸酶结构域,两者分别在靶 DNA 的 PAM 序列“ NGG”上游 3 nt 处对 DNA 双链进行切割,形成平末端。在真核系统中,需要在 Cas9 蛋白中添加一段核定位信号以保证该蛋白进入细胞核正常发挥功能。sgRNA是一段具有特定结构的单链 RNA,其5'端约2 0 个碱基与靶 D N A 互补配对结合,引导Cas9/sgRNA复合物对相应位点进行切割,决定编辑位点特异性。因此,在构建Cas9/sgRNA 表达载体编辑受体基因组中不同的位点时,只须改变sgRNA 中 5'端的特异位点识别序列,而其他元件可保持不变,极大地降低了载体构建的技术门槛。此外,通过构建多个sgRNA 表达盒的串联载体,可实现同时对多个靶位点的有效编辑,显著地提高了该系统的编辑效率。在 Cas9/sgRNA 表达载体构建完成后,需要通过多种转化手段将表达元件或Cas9/sgRNA产物导入到编辑受体中发挥功能。在植物系统中,将Cas9/sgRNA表达载体导入植物细胞的有效方法包括原生质体 PEG 转染、农杆菌叶片注射法、基因枪轰击、农杆菌介导转化等,不同方法在不同植物中的编辑效率各异[32-34]。在此基础上,不同实验室针对植物系统影响编辑效率的关键因素如 sgRNA序列、启动子选择、Cas9 变体或同源蛋白的选择等进行了一系列探索和优化[32, 34-36]。
2.2 CRISPR/Cas12a 系统的建立
虽然CRISPR/Cas9 被广泛应用,但该系统仍存在编辑位点受限、脱靶情况较多等缺陷,因此开发与建立新的 CRISPR基因编辑系统是科学家们研究的热点之一。CRISPR/Cas12a 属于Ⅴ 型 CRISPR/Cas系统,它同样只需一个 Cas 蛋白即可对双链DNA 进行切割,但其作用元件和作用模式与 CRISPR/Cas9截然不同[37]。首先,仅携带 RuvC-like 结构域的 Cas12a 在 crRNA 引导下即可切割双链 DNA,不需要 tracrRNA 的参与;其次,C12a 特异识别富含T 的 PAM 序列;最后,Cas12a 在靶 DNA 的 PAM序列下游 18 nt 处 (正链) 和 23nt 处 (负链) 对DNA双链进行切割,形成黏性末端。与CRISPR/Cas9 相比,该系统具有如下独特优势[ 3 8 - 3 9 ]:1)CRISPR/Cas12a系统的 crRNA 比 sgRNA 更短,且 Cas12a蛋白也比 Cas9 蛋白更小,因此,CRISPR/Cas12a 适用于更多装载量小的载体系统,特别是多靶点编辑的情况;2)Cas12a 切割 DNA 后形成黏性末端,增加了 HDR 修复途径发生的概率,有利于 DNA 片段的定点插入和替换;3) 在多个物种的基因编辑中,CRISPR/Cas12a 表现出更低的脱靶率。
目前,CRISPR/Cas12a 在基因编辑中的应用仍局限于少数物种,植物的研究大部分集中在水稻系统[40-47]以及少数烟草、拟南芥、大豆和玉米等系统的报道[40, 43, 47-48]。这可能是因为 CRISPR/Cas12a 在低温条件下编辑效率低[47],且较严格的 PAM 序列“TTTV”降低了该系统的编辑范围。基于其自身的优点及局限性,CRISPR/Cas12a 成为了继 CRISPR/Cas9 后第2 个被广泛关注的基因编辑系统,两者互为补充,进一步丰富了基因组编辑系统选择的多样性。
3 CRISPR/Cas9 在植物基因组编辑中的应用
目前CRISPR/Cas9 在植物基因组编辑中的应用主要包括基因功能研究和作物遗传改良,编辑形式可分为功能基因的敲除、基因 (片段) 的定点插入或替换、单碱基编辑和基因表达调控4 个方面。
3.1 功能基因的敲除利用
CRISPR/Cas9 对功能基因进行特异敲除是目前该系统在植物中应用最广泛的方向。这是由于 Cas9蛋白切割目标 DNA 形成双链断裂后,往往会优先启动编辑受体中的 NHEJ 易错修复途径,大多数情况下可以在切割位点附近产生碱基并插入缺失(Indel),且大部分是 1 bp 的插入、小部分为短片段缺失[49-50]。当产生的 Indel 位于基因外显子且碱基数不是 3 的倍数时,便会造成密码子的移码突变。对于二倍体植物如水稻,由CRISPR/Cas9 产生突变的效率能达到 80% 以上[51]。当 2 个等位基因同时被编辑产生双等位突变或纯合突变时,便能实现基因的敲除。对于多倍体植物,所有等位基因同时被编辑的概率偏低,因此多倍体植物特别是小麦、土豆等农作物的高效编辑体系构建仍是当前研究的难点[52-53]。
基于CRISPR/Cas9 系统介导基因敲除的高效性,多基因编辑技术随即诞生。多基因编辑主要有2 条途径:1) 对多个同源基因同时进行敲除,此时只需以它们的保守序列作为靶点,设计一条sgRNA即可敲除多个基因,但该方法使用范围受限;2) 对不同基因设计针对不同靶点的 sgRNA,将多个 sgRNA表达盒连接到表达载体并导入编辑受体,如在水稻中能实现 7 个基因的同时敲除[50]。这种多靶点编辑技术特别适用于功能冗余基因、基因家族和同一生化途径中多个基因的功能研究,以及农作物中多个农艺性状的改良。此外,多靶点编辑技术还能通过在基因片段两侧各设计一个靶点,实现片段的删除。目前利用该方法可成功删除大于100 kb 的染色体片段,而对于 1 kb 以内 (特别是<100bp)的小片段则拥有较高的删除效率[54-56]。片段删除法可以对基因进行更彻底的敲除,特别是针对非编码基因,也可用于特定结构域的功能分析。已有大量研究通过对水稻的已知基因进行 CRISPR 编辑敲除从而快速获得具有高抗、高产、高品质等优良性状的植株 (表 1)。
3.2 基因 (片段) 的定点插入或替换
当利用CRISPR/Cas9 引入 DNA 双链断裂的同时引入一个供体片段,且该片段的两端携带与 DNA断裂处相似的序列,此时编辑受体有一定的概率会启动 HR 修复途径,通过同源重组实现供体片段的精确插入或替换。与NHEJ 途径造成的随机插入或缺失相比,该编辑方式更加精准灵活,可实现多个控制优良性状基因的稳定聚合,解决传统育种中优良性状无法连锁遗传的问题,因此具有更广泛的应用前景。虽然自CRISPR/Cas9 技术诞生以来,已在烟草、拟南芥、水稻、大豆、玉米等植物中实现基因片段的精准插入或替换,但这些案例的编辑目标基因往往就是抗性基因,依赖于使用筛选剂富集编辑细胞,编辑效率低[75]。
为了提高编辑效率,科学家们采取不同的方式对该技术进行改良。鉴于HR 修复途径的低效性,有研究通过在相邻的内含子中分别设计一个靶位点,利用相对高效的NHEJ 途径实现基因的定点插入和替换,而内含子中插入连接点的碱基变异不会影响所在基因的功能[72]。另外,由于供体片段向编辑受体的传递不到位是影响 HR 途径编辑效率的主要原因之一,有研究利用双生病毒系统作为供体片段的载体,通过复制出大量供体片段拷贝,从而提高插入编辑效率[76]。然而,这些系统大多数仍需要使用额外的抗性标记提高编辑效率。为了寻求更理想的技术体系,有研究者提出一种不依赖抗性标记的连续转化方法,该方法通过在母细胞系中利用卵细胞来源的早期胚胎特异启动子驱动Cas9 的表达,提高拟南芥中同源重组介导的基因插入和替换的概率[77]。
3.3 单碱基编辑
目前的单碱基编辑技术是指对目标基因片段中的特定位点的单个碱基进行转换。该技术的建立最早依赖于胞嘧啶脱氨酶的使用[78],其作用机理是将胞嘧啶脱氨酶和人工突变后的 DNA 切口酶nCas9进行融合,融合蛋白在 sgRNA 的引导下将靶点 PAM 序列上游约 5~12 碱基范围内非靶标链上的胞嘧啶 (C) 转换为尿嘧啶 (U),同时切割靶标链产生单链断裂,此时编辑受体启动修复机制,以非靶标链为模板将互补链中的鸟嘌呤(G) 替换为腺嘌呤 (A),最终实现 C/G 到 T/A 的转换,该系统因而被称为胞嘧啶编辑器 (CBE)。此外,尿嘧啶糖基化酶抑制蛋白 (UGI) 的使用可提高 DNA 中尿嘧啶的稳定性,从而使编辑效率高达 75%[78]。另一项研究通过定向进化法在大肠埃希菌中获得一个突变型的腺苷脱氨酶,可将DNA 中的腺嘌呤转化为次黄嘌呤 (I),后者在 DNA 复制过程中可被识别为鸟嘌呤[79]。将腺苷脱氨酶与 nCas9 进行融合,即可通过类似于 CBE 的机制实现靶序列中 A/T 到 G/C 的转换,该系统被称为腺嘌呤编辑器 (ABE)。CBE 和ABE 系统的建立使单碱基编辑能实现 4 种形式的碱基转换,该系统不依赖于DNA 双链断裂的产生,既规避了 NHEJ 修复途径的随机性,也摆脱了 HR修复途径效率低的限制。
目前,已有多篇报道分别将CBE 和 ABE 系统加以改造并应用在水稻、小麦、玉米、番茄、拟南芥等植物中[73-74, 80-86],且以水稻的研究居多。这些研究表明,同一编辑系统对不同靶点的编辑效率差异较大[73-74],而造成这种差异的具体原因仍需进一步研究。此外,利用基于胞嘧啶脱氨酶APOBEC1的 CBE 系统进行基因编辑时,该酶对编辑位点具有偏好性,仅对序列为 TC 中的C 有较强的编辑效率[74,87]。因此,有研究者提出用 hAID 替代 APOBEC1[87],前者偏向于对 GC 或 AC 中的 C 进行编辑,该系统与 APOBEC1 系统互为补充,提高了 CBE 编辑的适用性。
3.4 基因的表达调控
对于生长发育必需基因,彻底敲除往往会造成植株死亡从而无法获得敲除体,因此需要通过调控表达量进行相关的功能研究。目前提高基因在植物中的表达主要依赖于外源基因的插入,但该技术无法控制基因插入位点和拷贝数,从而导致表达水平不稳定,且进行多基因插入时载体构建过程繁琐。在农业生产中,重要农艺性状往往由数量性状基因座(QTL) 控制,而传统育种常需要耗费大量精力对启动子中携带有利变异的 QTL 进行筛选与利用。因此,通过 CRISPR/Cas 等技术实现植物体內源基因精确、高效的表达调控是理论研究和生产实践的迫切需求。
目前,利用CRISPR/Cas9 调控植物基因表达主要有 2 种途径。一种途径是用 Cas9 蛋白对目标基因的启动子区的顺式调控元件 (CRE) 进行编辑或直接删除,改变基因的表达水平或模式[88]。该方法的代表性研究为 Rodriguez-Leal 等[89] 通过对番茄中多个基因 CRE 的编辑获得了人工的 QTL 变异,实现了果实大小等重要农艺性状的精准调控。该方法可通过后代分离获得不带转基因的编辑个体,但也存在随机性高、未必能获得理想性状等缺陷。另一种途径是将人工突变后失去核酸酶活性、却仍保留DNA 结合能力的 dCas9 蛋白与特定的转录调控结构域融合,通过 sgRNA 将融合蛋白带到目标基因的启动子区,抑制或激活该基因的表达[90]。目前该方法已成功应用在拟南芥、烟草和水稻中[91-93]。此外,dCas9 还能通过融合乙酰转移酶等蛋白实现表观遗传编辑,从而调控基因表达[90],但植物中相关研究鲜见报道。
4 CRISPR 基因编辑靶点的分析技术
CRISPR/Cas 系统对植物基因组的编辑简单易行、低成本、高突变率,能实现多个基因同时编辑,是生物技术的重大突破,它的应用使得基因功能研究和作物遗传改良等领域飞速发展。利用CRISPR/Cas系统在植物中进行基因编辑后,植株将产生不同类型的突变。为了更好地解析编辑后植株的突变类型,科研工作者开发了以下3种基于不同原理的靶点分析技术。
4.1 基于 Sanger 测序的靶点分析技术
利用 CRISPR/Cas 系统对二倍体植物编辑基因后,植株多产生简单突变,如纯合突变、双等位突变、杂合突变[50]。基于 Sanger 测序的靶点分析技术适合于主要为简单突变的样品。Ma 等[50] 利用植物密码子优化 Cas9 基因,构建了一个高效、强大的多靶点 CRISPR/Cas9 基因编辑载体系统,可以方便快捷地实现对单子叶植物和双子叶植物的多重基因组编辑,编辑效率高达85.4%。为了获知靶点的突变情况,经典的解码方法是利用特异引物将包含靶点序列的DNA片段扩增下来,构建克隆,并挑取多个克隆进行Sanger测序。但这种方法花费高、耗时长,在编辑植株较多时工作强度大。如果直接将PCR 产物测序,纯合突变株在基因组内发生的具体突变 (缺失、插入或替换) 可以通过野生型序列和突变株序列比对获知;但当突变类型为双等位突变和杂合突变时,测序峰图便会从突变位点起延续杂乱的双峰[94]。
Ma 等[94] 开发了一种高效、简单且能快速解码来自于杂合突变或双等位突变的PCR产物测序双峰信息的方法,叫简并序列解码DSD (Degenerate sequence decoding)。其工作原理是:1) 测序峰图中,以第 1 个双峰处为起点,标注 10~12 bp 的简并序列 DS (Degenerate sequence),双峰上游8~10bp 为锚定序列 AS (Anchor sequence);2) 将 DS 与野生型序列进行比对搜索,获得匹配;3) 将简并匹配得到的序列与 AS 链接,获得等位链 1 的突变情况,利用简并减法获得等位链 2 的突变情况[94-95]。
DSD 方法简单可靠,但若需要解码数量更多的突变序列,手动解码还是较费时。为了更高效率、更人性化地解决这个问题,Liu 等[95] 以 DSD 方法为原理编写程序,开发了一个基于网页的、多功能的对包含靶位点PCR扩增产物的测序文件直接解码,输出突变类型的网页版解码工具DSDecode,可解码纯合突变、双等位突变、杂合突变等。为了更快地同时处理大量测序文件,Xie 等[96] 将该软件升级至DSDecodeM (http://skl.scau.edu.cn/dsdecode/),可以同时解码多个测序文件;更方便的是,该团队开发的一站式基因编辑软件工具包 CRISPR-GE (http://skl.scau.edu.cn),可将 CRISPR/Cas9/Cas12a 的靶点选择、脱靶预测、载体构建引物设计和对突变靶点测序分析解码一体化,使植物基因组编辑的工作更加自动化、人性化和高效可靠。
4.2 基于高通量测序的靶点分析技术
当植株的突变类型复杂,包括简单突变和嵌合突变 (一个靶点产生的突变多于 2 种)、或者需要解析多倍体物种的基因组编辑、或者一次性测大量的靶点突变事件时,基于Sanger测序的靶点分析技术便不太适用了,此时基于高通量二代测序NGS (Nextgeneration sequencing) 的靶点分析技术应运而生。已开发的高通量测序分析靶点技术包括AGEseq、Cas-analyzer、CRISPR-GA、CRISPResso和 Hi-TOM 等。
Xue 等[97] 开发的 AGEseq 是第一个支持高通量测序数据的基因编辑分析平台,它同时也支持Sanger 测序数据,是基于 Galaxy 的网页工具,若需处理大量数据,可以下载独立的软件程序。Hwang等[98] 开发的 Cas-Analyzer 是一个基于 JavaScript的 NGS 数据分析平台,支持各种可编程核酸酶诱导的突变频率分析,包括单核酸酶和配对核酸酶,如ZEN、TALENs、CRISPR/Cas9 以及 CRISPR/Cpf1 系统等。由于 Cas-Analyzer 是完全在客户端Web 浏览器中即时使用,无需将庞大的 NGS 数据集上传到服务器,支持上传压缩文件,节省了时间[99]。Güell 等[100] 开发的 CRISPR-GA 是简易评估基因编辑质量的平台,评估过程只需要点击 3 次鼠标。它用于评估二代测序数据并量化编辑效果,如对在编辑位置发生插入、删除或同源重组的数量、比例以及对不同突变类型的检测分析,并能够生成一个报告。Pinello 等[101] 开发的 CRISPResso 可以准确定量和可视化 CRISPR-Cas9 结果,并对编码序列、非编码元件和选定脱靶位点的影响进行综合评估,可用于定性和定量评估基因组编辑结果,以及标准化和简化目前需要开发自定义内部算法的分析。Liu 等[102]开发的 Hi-TOM 可用于多个样品和多个靶位点的突变鉴定,可获得精确的百分比数据。搭桥序列和 Barcode引物的引入大大提升了 Hi-TOM 可同时检测的样品通量,简化的 NGS 文库构建和综合结果输出使 Hi-TOM 特别适用于由CRISPR/Cas 系统诱导的所有类型突变的高通量鉴定,尤其是复杂基因组编辑或复杂嵌合突变,具有高可靠性和灵敏度。
4.3 基于非测序手段的靶点分析方法
上述2 种基于测序数据的靶点分析方法的优势在于可以直观地获取突变的具体信息,包括突变位点、类型及等位链上变化的碱基数。
基于非测序手段的靶点分析方法包括PCR-RE (PCR/restriction enzyme) 法、T7E1 (T7endonucleaseI) 法和HRM (High-resolution melting assay) 法等,这些方法无需获知具体的碱基变异序列就能简易地辨别基因编辑是否成功。如果设计得当,可以使限制性内切酶切割位点落在靶点位置上,若CRISPR/Cas 系统功能产生了突变,限制性酶切位点也遭到了破坏,酶切基因组 DNA 后可用 PCR 扩增确认,这就是 PCR-RE法[103-104]。PCR-RE法要求靶点处有酶切位点,这大大限制了靶位点的选择。利用特异切割错配分子的T7EI 或 SURVEYOR 酶也可以检测突变情况,将来源于打靶样品与野生型样品的包含靶序列区段的 PCR 扩增产物混合后,变性再复性,使突变序列与野生型序列产生错配分子,用T7E1切割后电泳检测[105]。此方法同样可以用于检测突变的靶位点及计算突变效率,检测灵敏度较PCR-RE法低,但没有靶序列的限制[104]。HRM 法是利用突变后序列与野生型序列的熔解曲线不同筛选突变株,同时利用单链突变片段的构象改变、以及在非变形 PAGE 胶上的迁移率随之改变来鉴定突变分子的方法[106]。
5 基因编辑技术的脱靶风险评估
脱靶效应是指在基因编辑过程中,CRISPR 系统对非靶标位点进行非特异编辑从而导致不可控的基因组变异。由于编辑特异性是决定 CRISPR系统应用前景的重要因素,自该技术诞生以来已有大量的研究对其脱靶效应进行了分析,并发现编辑细胞中确实存在脱靶现象,且脱靶情况的出现与靶序列的特异性有关[30, 107]。为了更全面地分析 CRISPR基因编辑个体的脱靶情况,多项研究利用全基因组测序分别检测了小鼠和大鼠[108]、水稻[109-110]、番茄[111]、棉花[112]等 CRISPR 编辑动植物的全基因组脱靶情况,发现由 Cas 蛋白/sgRNA复合物引起的脱靶仅在一些具有相似性的靶点中低概率发生,说明Cas蛋白介导的基于NHEJ 途径的编辑具有较高的特异性。此外,单碱基编辑系统的特异性也是近年的研究热点。基于胞嘧啶脱氨酶活性的 CBE 系统在编辑位点处容易产生 Indel 或其他非特异编辑[74, 80],而类似情况并未出现在 ABE 编辑植物中[73, 84-85]。通过全基因组测序分析发现,CBE 编辑小鼠和水稻均存在大范围的脱靶效应,且该脱靶现象与 Cas 蛋白的活性及 sgRNA 的特异性无关[113-114]。表明 ABE 相比于 CBE 具有较高的编辑特异性,同时也进一步证实了基于 Cas 蛋白和 sgRNA 复合物的基因编辑具有较低的脱靶风险。
为了降低由Cas 蛋白/sgRNA 复合体造成的脱靶风险,研究者提出了多种解决途径:1) 通过截短或优化sgRNA 结构提高编辑特异性[115-117],但也有研 究 表 明 靶 位 点 识 别 序 列 不完 整 的 截 短 型sgRNA 会严重降低该系统在植物中的编辑效率[118];2) 在设计靶点时使用软件 (如CRISPR-GE[96]) 分析脱靶风险,挑选特异性高的靶点进行编辑,并在编辑后对潜在脱靶位点进行测序分析;3) 降低编辑受体内Cas 蛋白/sgRNA 复合物的含量[117]或直接将预先合成的 Cas9/sgRNA 核酸蛋白复合体导入编辑受体中[119-120];4) 将 Cas9蛋白点突变为核酸切口酶,使用成对的切口酶分别在靶标链和互补链中产生单链断裂[115-116];5) 通过结构改造获得特异性高且不影响编辑效率的Cas9 蛋白变体,如 eSpCas9[ 1 21 ]、SpCas9-HF1[122] 等。针对单碱基编辑系统 CBE,其大范围脱靶的产生应该是由胞嘧啶脱氨酶的活性造成,因此该类脱靶情况无法通过提高sgRNA 特异性来避免,也许能通过人工改造降低脱氨酶活性、降低胞嘧啶脱氨酶-UGI复合物在编辑受体中的积累量、或寻找特异性高的新型胞嘧啶编辑器3 种途径解决[123]。
虽然已有大量工作对CRISPR 进行优化并提高其特异性,但目前仍无法完全避免编辑个体脱靶的情况。因此,在利用 CRISPR技术 (特别是CBE 系统) 进行基因编辑时,不能忽略潜在的脱靶风险。对于基因功能研究,为了排除脱靶现象造成的结果误判,应对多个独立编辑个体进行基因型和表型的关联分析,确定表型的变化是由目标基因的突变引起的。对于医学治疗领域,由于涉及到人类的健康和伦理问题,CRISPR 技术的应用须实现“零风险”,因此开发精准高效的体内全基因组脱靶检测技术如VIVO[124]、DISCOVER-Seq[125] 等是推动 CRISPR 在该领域稳健发展的重要手段。对于农作物育种,尽管脱靶也同样会对农作物造成正面或负面的影响,但育种过程就是一个人工选择性状的过程,若脱靶造成了农艺性状的劣化,可通过对后代进行分离性状筛选去除脱靶个体;若脱靶产生了性状的优化,则可将该脱靶位点保留并做进一步研究。可见,脱靶情况的存在基本不会阻碍CRISPR技术在基因功能研究和农作物育种中的应用,而该技术在医学治疗中的普及则有待脱靶检测体系的进一步优化和基因编辑特异性的进一步提高。
6 展望
CRISPR 基因编辑技术由于其操作过程简便、编辑效率高、支持多靶点编辑、编辑形式多样等优势,在短短几年内飞速发展,并在多种植物中得到广泛应用,为基因功能研究及作物性状改良做出了重要贡献。随着越来越多的功能基因被克隆,该技术在生产实践上的应用范围将越来越广。然而,该技术仍存在一些不足之处:1) 脱靶效应的存在,其潜在的风险以及相应解决手段已在前文详细阐述。2) 由于 Cas 蛋白的 PAM 序列相对固定,会出现部分基因难以寻找合适编辑位点的情况。研究者们主要通过2种途径解决这一问题,其一是通过人工改造Cas9蛋白序列使其识别不同的PAM位点,其二是在不同物种中寻找并鉴定更多的Cas9同源蛋白,甚至是来源于不同免疫系统的其他Cas蛋白 (如 Cas12a),从而扩大 CRISPR 技术的应用范围[126]。3) 依赖 HR 同源修复的基因精准编辑相比于其他编辑形式具有更广泛的应用前景,虽然已有多项研究致力于在植物中建立相应编辑系统,但这些系统的编辑效率仍远不及由NHEJ修复介导的易错编辑系统,且尚未能在植物中推广应用。因此,仍需通过优化已有的系统或建立新的技术体系从而突破目前的技术瓶颈。
随着二代测序的发展,基因编辑技术基于高通量测序手段的靶点分析技术有了坚固的技术基石,高通量大数据的获取变得更平常、更方便,价格也更亲民。基因编辑技术的飞跃也使得植物基因功能探究如虎添翼,科学家们也倾向于寻找更复杂物种基因组内隐藏的秘密。在接下来的数年间,CRISPR/Cas 仍会作为主流基因编辑系统应用于各物种的基因功能探究以及植物遗传性状改良等领域。靶点分析技术需向更高通量、更深层次、更快捷、更智能方向发展,如果能搭上信号传输通路和人工智能发展的快车,将会大大助力基础科学研究。目前,基于二代测序的基因编辑数据分析平台的功能还不够强大,易用性不够友好。刘耀光团队开发了基于二代测序 的 更 高 通 量 、 更 加 灵 活 易 用 的 检 测 软 件HiDecode,一次可以鉴定多达 96×96 个靶点的突变样品,每个突变体可以同时检测多个不同靶点 (未发表),大大省去了看样本峰图分辨突变情况的时间和精力,让研究更高效。
总之,基于CRISPR的植物基因组编辑技术体系仍有诸多技术难点尚未攻克,发展更高效精准的基因编辑系统,优化突变检测技术仍是今后的努力方向。
◆ ◆ ◆ ◆ ◆
刘耀光,中国科学院院士,华南农业大学研究员,现任亚热带农业生物资源保护与利用国家重点实验室副主任。1981 年毕业于华南农业大学, 1988 年获日本香川大学硕士学位, 1991 年获日本京都大学博士学位。1 9 9 7 年获“ 国家杰出青年基金” , 2002 年受聘教育部“ 长江学者” 特聘教授, 2004 年获全国五一劳动奖章, 2014 年获“全国优秀科技工作者” 等称号, 2017 年当选中国科学院院士。主要从事植物育性发育分子遗传学和基因工程研究。在水稻细胞质雄性不育与恢复性、杂种不育与亲和性、光温敏不育性等遗传系统的基因克隆和分子作用机理方面取得了系统性、创新性研究成果,开发了多项生物技术。荣获 2011 年广东省科学技术奖一等奖、 2015 年和2017 年大北农科技奖一等奖和 2018 年国家自然科学奖二等奖。在 Nature Genetics、 Annual Review of Plant Biology、 Cell Res、 Nature Communications、Mol Plant、 PNAS、 Plant Cell 等刊物发表论文140 余篇,论文被引用 6 000 余次。
该文来源:华南农业大学学报,由PlantReports公众号整理。论文原文链接为:
https://www.cnki.net/KCMS/detail/44.1110.s.20190705.0953.002.html
来源:bioartplants BioArt植物
原文链接:https://mp.weixin.qq.com/s?__biz=MzU3ODY3MDM0NA==&mid=2247492401&idx=4&sn=471b39089a06f05f933b55de271ed15d&chksm=fd737956ca04f040774defe9f3420e2217ce837878e37503d75aec5e4055e3567c15987a0e12&scene=27#wechat_redirect
版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。
电话:(010)86409582
邮箱:kejie@scimall.org.cn