在人工染色体中存储图片和视频:天津大学元英进团队验证DNA数据存储新方法

中国科学杂志社  |   2021-03-19 14:47

天津大学元英进教授团队从头编码设计合成了一条长度为254,886 bp、专用于数据存储的酵母人工染色体,借助无线通信中前沿的纠错编码将两张经典图片和一段视频存储于高效组装的人造染色体,利用酵母繁殖实现了数据稳定复制,用便携式的三代纳米孔测序器件实现了数据快速读出与无错恢复。

从医学图像与天文观测,从视频监控到社交网络,全球数字化趋势使得数据量快速增长。据国际数据公司估计,到2025年全球数据总量将达到惊人的175 ZB(1 ZB ≈ 109 TB)。面对快速增长的海量数据,基于磁、光、电等的传统介质的存储技术面临功耗、体积以及使用寿命等限制。

近年来,随着合成生物学的快速发展,DNA信息存储由于其高信息密度与低能耗处理等特点,成为应对数据存储发展挑战的新机遇。2021年1月,美国半导体产业协会(SIA)发布的《半导体10年计划》,已将DNA数据存储列为未来海量数据存储的重要选项。

20210320100446_ef28cf.jpg

人工染色体示意图

天津大学元英进教授带领跨学科团队,借助团队在酵母人工基因组化学合成领域的积累,设计合成了一条存储数字信息的酵母人工染色体,存储了两张图片及一段视频,并实现了数据的稳定复制与快速可靠读出该工作首次将单菌内用于数据存储的DNA碱基数量提升到了百kbp级,容纳数据量为37.8 KB。日前,该研究以“An artificial chromosome for data storage”为题在线发表于《国家科学评论》(National Science Review, NSR)。天津大学微电子学院青年教师陈为刚副教授、化工学院博士研究生韩明哲以及周见庭助理研究员为论文共同第一作者,元英进教授为论文通讯作者。

20210320100447_fc518c.jpg

人工染色体中存储的两张经典照片:1968年12月24日阿波罗8号机务人员威廉·安德斯拍下的“地球升起”(jpg;4029 Byte)和1957年Harold Edgerton首次结合高科技频闪灯与相机快门拍摄的“牛奶皇冠”(jpg;6624 Byte)。

人工染色体中存储的视频“母女”(一个通信领域常用的测试视频;mp4;26,092 Byte) 

研究者从染色体的编码设计、组装与稳定复制、数据可靠恢复等方面展示了这种数据存储模式的潜力。

染色体的编码设计中,借助叠加伪随机序列应对三代测序的插入/删除(insertion/deletion)错误,采用现代通信中已广泛验证的低密度奇偶校验(Low-Density Parity-Check,LDPC)码纠正替代错误,实现了纳米孔测序高达10%错误率的数据可靠恢复。

染色体组装与稳定复制方面,设计插入一定数量的酵母自主复制序列(autonomously replicating sequence,ARS),提升的染色体稳定性,支撑高效组装和稳定复制。实验验证染色体稳定复制100代,依然能可靠读出数据。

数据读出过程中,利用三代纳米孔测序在大约10分钟获得足够的原始读段后,结合研究者设计的生物信息学与纠错译码混合流程,原始图片及视频可以从高错误率约10.79%的原始读段中可靠恢复,所需测序覆盖度仅为16.8x。

20210320100448_074cc7.jpg

数据存储工作流程

该存储模式中,数据逻辑密度(包含载体)为1.19 bit/bp,与目前文献中指标最高的四进制编码DNA喷泉方案相当(Erlich and Zielinski, 2017)。文章进一步指出了该存储模式与传统光盘存储的相似性,也即一次写入,多次读出,低成本可靠复制和便携式读取。作者还提及了降低合成成本、构建多条人工染色体存储更多数据的可行性。

来源:中国科学杂志社

原文链接:http://mp.weixin.qq.com/s?__biz=MzA3MzQ5MzQyNA==&mid=2656809962&idx=1&sn=ef79cb8c6b8df70c648ab7f1f4a36437

版权声明:除非特别注明,本站所载内容来源于互联网、微信公众号等公开渠道,不代表本站观点,仅供参考、交流、公益传播之目的。转载的稿件版权归原作者或机构所有,如有侵权,请联系删除。

电话:(010)86409582

邮箱:kejie@scimall.org.cn

相关推荐 换一换

  • 史庆垒
    0
    科界是个很好的学习平台,使我进步,非常感谢!!
没有更多了