清华学者主导干湿结合“下一代细胞工厂”开源使能平台问世！数据驱动全基因组基因型-工业表型关联技术，赋能合成生物学高效底盘细胞设计

1976 年 1 月的一天，一位年轻的风险投资人和一位微生物学教授走进了加州大学旧金山分校（UCSF）附近的酒吧，原定十分钟的会面时间延长到了三个小时。从那一刻起，一家改变生物技术史的公司就此诞生。他们使用 GENetic ENgineering TECHnology 的缩写命名了这家公司——Gen-en-tech（基因泰克）。

图丨Genentech 的联合创始人赫伯特·博耶（Herbert Boyer）博士（左）和风险投资人罗伯特·斯万森（Robert A.Swanson）先生（右）（来源：资料图）

Genentech 公司首次成功地将人胰岛素的 DNA 重组到大肠杆菌细胞内的质粒上，让大肠杆菌作为细胞工厂生产出重组人胰岛素，并将其产品化。从此，正式拉开了基因工程的序幕。

然而，四十多年过去了，人们在技术层面上重组表达胰岛素，几乎只做了一件事——把外源的 DNA 放进细胞，让这个基因转录成 RNA，翻译成蛋白质，然后再围绕着该外源 DNA 的表达翻译效率做些工程化改造。

蛋白要在宿主细胞中高效表达，其实不仅是信息传递。原料供应、肽链延长、翻译后修饰，折叠、分泌乃至应急修复等，诸多环节都有可能影响到蛋白表达的效率。

“要让细胞这台精巧的蛋白质‘3D 打印机’高效率运转，在全基因组层面有大量的基因发挥着不可或缺作用。然而，尽管我们在基础研究的层面认识到这件事，但是，到工程层面上，还很难做到全基因组层面的工程化以提升细胞的蛋白表达效率，我们目前的认识还很浅。”清华大学张翀教授表示。

张翀是清华大学长聘副教授，国家级青年人才计划获得者，主要研究方向为微生物智能制造，开展高通量基因型-表型关联原创技术与装备的研究，包括微生物工业表型高通量表征与连续进化，全基因组规模基因及位点功能挖掘，基因型与工业表型关联研究装备等。

图丨张翀（来源：张翀）

迄今为止，细胞工厂已能够生产抗生素、氨基酸、重组蛋白、生物能源、生物塑料乃至“人造肉”，被广泛地应用在生物制造、制药、食品、能源和农业等领域。

但是，与重组胰岛素合成的案例一样，目前人们对外源途径改造较多，但对全基因组层面底盘细胞本身了解较少，进而制约了对其系统化工程改造的能力，细胞底盘自身的潜能还没有被系统地挖掘。

如果把外源途径的基因序列比作图纸，把细胞比作车间，那么，现有的努力大多是在“图纸”上下功夫，但是仍然十分缺乏对“车间”全局的系统认知和工程化改造的能力。

从随机诱变到全基因组定制，多项技术催生底盘细胞“发现新大陆”

合成生物学细胞工厂构建的核心是如何通过设计合适的基因型，从而得到人们想要的工业表型。张翀教授认为，在基因组时代，科学家可通过各类公开生物学数据库得到大量的基因型相关的测试数据，但是，真正有价值的是能得到与工业表型关联的基因型数据。

图丨合成生物学常关注的工业表型（来源：该团队）

随着分子生物学和基因工程研究方法的不断发展，细胞工厂的构建策略经历了不同的历史阶段。相较于早期主要通过非理性诱变育种技术获得目标产物高产菌株的方式，20 世纪 90 年代以来，随着分子生物学、基因工程技术的逐步引入，代谢工程学科正式创立。

代谢工程利用重组 DNA 技术对生物体中已知的代谢途径进行有目的的设计，并对细胞内的基因网络进行调控和优化，构建具有特定功能的细胞工厂，例如提高目的产物的产率。

然而，代谢工程指导的设计方法大多都基于已知的生物学知识，由于微生物代谢网络中存在诸多可能对目标产物工业表型产生影响的未知因素，或称为“生命暗物质”。这一手段获取新知识的效率不高，细胞工厂改造过程仍然需要耗费大量的时间和精力。

图丨细胞工厂设计和构建发展历程与展望（来源：该团队）

那么，为了让让细胞工厂的设计更高效，如何去解析这些“生命暗物质”呢？

“通过自有的技术平台从全基因组层次并行研究微生物特定工业表型与基因型的关系，从而获得大规模的基因型-工业表型关联（genotype phenotype associations，GPA）数据集。”张翀表示。

“近年来，高通量 DNA 合成成本的降低、基因编辑技术和二代测序技术的飞跃、高通量检测技术的成熟等多项技术的发展让大规模的 GPA 数据集的挖掘成为可能。这些新挖掘的数据将成为基因组层面的‘新大陆’。”他说。

“新大陆”指的是新发现的跟目的工业表型相关联的基因位点，例如他们发现很多意外的、和蛋白质合成有关系的位点，比如氧化应激（Oxidative Stress）对蛋白质合成有积极的帮助等。

“基于全基因组规模关联图谱获取新知识并验证其工业价值后，再在底盘上进行系统工程改造，将为系统提升细胞工厂效率提供一条‘发现-工程’相结合的全新路径。”张翀说。

通过超高通量、快速、低成本的技术“三部曲”、实现全基因组规模基因型-工业表型关联位点挖掘

张翀团队已经成熟打造了一套技术平台，通过该平台，可进行超高通量、快速、低成本地对全基因组规模进行 GPA 数据集的挖掘。

该平台的背后有三个核心技术的支撑，分别为：CRISPR 全基因组编辑技术、超高通量液滴微流控单克隆培养筛选一体化技术和合成生物传感技术。

图丨全基因组规模 CRISPR 基因干扰文库（来源：该团队）

第一，CRISPR 全基因组编辑技术。该团队针对典型的工业宿主建立了细胞全基因组规模可达百万量级 CRISPR 基因干扰文库。这里的“干扰”，指的是把底盘细胞的基因敲低或激活，甚至进行基因编辑[1,2,3]。

张翀表示，在该平台通过 CRISPR 编辑技术实现了“高版本”的基因型突变。这里的“高版本”是因其具备可定制、可追踪两大特点。也就是说，科学家可在任意位点设计 sgRNA 的干扰或编辑，并且，在表型变化后，不用测全基因组即可追踪 sgRNA 的具体位置。

据悉，目前该团队已有多种成熟工业底盘细胞全基因组编辑细胞文库，并独立开发了全基因组 sgRNA 文库设计软件与 web 应用程序。

图丨全基因组 sRNA 文库设计软件工具开发流程（来源：该团队）

第二，自主研发具有百万通量级筛选能力的液滴微流控细胞培养及筛选一体化技术。张翀团队结合微流控技术和光电传感与控制及自动化技术开发的“微生物微液滴培养技术 ”，可实现皮升、纳升、微升级多种体积规模下的微生物液滴平行培养、生长曲线测定和适应性进化。

该平台采用集成式单克隆培养，单次单克隆数量可超 106 个，与传统方法相比，培养成本降低约 1000 倍。并且，该平台可自动换液，细胞生长状态高度均一，适宜多种成熟工业微生物生长[4]。

张翀指出，通过环境条件的控制，液滴内微生物可能实现“工业相似性”培养。“这相当于实现了文库独立的基因型转变为独立的反应器，让它生长出可获取的目标表型。”

640

图丨超高通量液滴微流控单克隆培养筛选一体化平台（来源：该团队）

第三，自主研发的高灵敏、毫秒级响应合成生物传感器。通常，对百万个皮升级液滴的表型进行测试，会采用定向的光学技术，尤其是荧光技术。为此，该团队建立了一系列针对蛋白质、小分子浓度定量测试的合成生物荧光传感技术[5,6,7]。

通过该技术，可将目标分子浓度定量地转化成荧光信号，其灵敏度高、响应速度快，与百万量级通量的液滴微流控系统完全兼容，为目的代谢物表型-基因型关联图谱的绘制奠定基础。

640

图丨蛋白产量与折叠生物传感器模型（来源：该团队）

干湿结合的中心化实验室，整合数据孤岛，打造国内首个合成生物学数据开源使能平台

目前，生物科学领域所使用的数据库，例如 NCBI、KEGG、PDB 等，都是靠科学家团队供应离散式数据集成形成的，其主要还是科学属性的数据库。“设想如果我们手头拥有海量工业需求驱动的 GPA 数据库，这样就掌握着设计高效细胞工厂的核心原始数据。”张翀说。

他指出，从行业内部来看，合成生物学虽然潜力巨大，但是技术发展得很早期，还有很多问题需要解决。合成生物学是个兼具科学属性与工程属性的交叉学科，但是现阶段，科学属性仍然较重，工程化较弱。尤其是学术界，很多研发的方式还停留在“手工作坊”阶段。

张翀认为，通过自动化和高通量技术让科学家做实验的过程变成中心平台化的形式，以此来促进合成生物学从科学属性向工程属性转移。一旦把这个链条打通，未来合成生物学就变成了纯粹的信息科学和数据科学的问题。

从生物制造领域来看，细胞工厂设计是未来的发展趋势，从现在离散式的个人实验室变成中心化实验室平台，从分布式的数据向集成的大规模数据生产，这种高度标准化、高质量的数据为最后演变为AI驱动的设计提供了极大的可能性。

如果能够利用大规模 GPA 数据集，基于数据科学手段从全基因组范围深度挖掘传统分子生物学手段无法发现的未知关联基因及其位点，将有可能从数据学习的角度绕开理性设计的知识瓶颈，为提高细胞工厂设计和创建效率提供全新的研究范式。

此外，由于大规模 GPA 数据集搜索范围更宽（全基因组），不依赖于现有知识，将有可能探索之前理性/半理性所无法达到的表型“高地”，获得生产效率更为高效、生产性能更加优越的下一代定制化细胞工厂。

对于该平台，张翀团队对其规划不仅限于对科学家的单点服务，还计划逐渐实行学术端开源，助力多维度合成生物学的数据标准化。以高通量基因型-工业表型关联图谱数据驱动 AI 解析细胞工厂，打造合成生物数据使能平台。

该平台用工程手段推进科学研究升级，将辅助科学家实现技术转化，并衔接行业上下游。当平台发展到一定程度，便会积累较高的产业化势能，将来会有多种产业化的可能性。

“科学家通过提需求，确认想要做的菌株以及表型后，我们来帮他做实验，再将结果反馈给科学家。同时，我们希望把数据沉淀到平台，同时开放地让学术贡献共同获取，并验证它的应用价值。未来，这会成为若干工业表型图设计的核心驱动力。”张翀说。

据悉，该团队已与国内重点高校相关实验室建立广泛合作，如清华大学、天津大学、华东理工大学、上海交通大学、江南大学、中科院上海植生所等。同时，张翀正在为该平台进行技术授权及产业化落地，目前已在筹备成立相关公司并组建技术研发团队，张翀教授出任首席科学家。

对该平台的未来发展，张翀充满期待，他称：“我相信拥有数据的核心资源，也就掌握了细胞工厂设计的核心信息，我们希望这类关键数据库生根在中国，并服务于中国本土的科研与产业。”

-End-

文章转自 DeepTech深科技刘雅坤

原文链接：https://mp.weixin.qq.com/s/XzmtEshXYE2EvVehboDjAg