比DNA存储更可怕！你的照片居然可以存储在氨基酸分子溶液里-市场动态-人工智能实验室AiLab-中国人工智能网-Powered by AiLab.cn

导读：来源：plos、newscientist，新智元编辑部【新智元导读】前几天，一个 DNA 分子存储 16G 维基百科的新闻刷新了我们的三观，引发人们对于未来数据存储的大讨论。近日，布朗大学的研究人员受此启发发现：DNA 并不是唯一可以用于数字存储的分子，含 ......

来源：plos、newscientist，新智元编辑部

【新智元导读】前几天，一个 DNA 分子存储 16G 维基百科的新闻刷新了我们的三观，引发人们对于未来数据存储的大讨论。近日，布朗大学的研究人员受此启发发现：DNA 并不是唯一可以用于数字存储的分子，含有糖、氨基酸和其他小分子的溶液也可以取代硬盘。意外不意外？

原来，不只 DNA 能够存储数据，小分子溶液也可以。

上周，新智元报道了 DNA 数据存储的新闻，不仅 16G 的维基百科能够存储到一个 DNA 分子上，就连存储全球的数据也只需要 1kg DNA。

而近期，布朗大学的研究人员受此启发并发现：DNA 并不是唯一可以用于数字存储的分子。事实证明，含有糖、氨基酸和其他小分子的溶液也可以取代硬盘。

论文地址：

https://journals.plos.org/plosone/article/file?id=10.1371/journal.pone.0217364&type=printable

在 DNA 的下游，代谢组(metabolome)是一个信息丰富的分子系统，它具有不同的化学维度，可以用来存储和处理信息。

为了证明小分子后基因组( small-molecule postgenomic)数据存储的原理，研究人员利用机器人液体处理将数字信息写入化学混合物，并利用质朴分析提取数据。

研究人员还提出了几个存储在合成代谢体中的千字节(kilobyte-scale)级图像数据集，使用多质量逻辑回归可以对其进行解码，其精度超过 99%。

布朗大学工程学院教授、该研究的高级作者 Jacob Rosenstein 说：

这是一个概念验证，我们希望让人们考虑使用更广泛的分子来存储信息，在某些情况下，我们在这个研究中使用的小分子可以比 DNA 拥有更大的信息密度。

另一个潜在的优势在于，多种小分子可以相互反应形成新的化合物。这为分子系统创造了潜力，不仅可以存储数据，还可以操纵数据在代谢物混合物中执行计算。

一、缩略图大小的图像，存储在比 DNA 还小的分子上

为了上述的想法，研究人员用常见代谢物做了一种混合物含有糖、氨基酸和其他小分子的溶液，人类和其他生物利用这些小分子来消化食物和执行其他重要的化学功能。

他们的想法是利用混合物中特定代谢物的存在或不存在作为二进制的 1 和 0 来编码数字信息。

图1：该方法将数字数据的 1 和 0 映射到溶液中特定分子的存在或不存在。研究人员使用该方案对图像文件进行了编码。

例如，为了生成北山羊的图像，研究小组使用了 6 种不同代谢物的混合物，这些混合物由液体处理机器人点缀在一个小金属板上。他们总共制作了 1024 个液滴，每个液滴中 6 种代谢物或缺失或存在，提供了足够的二进制信息来编码 6142 像素的图像。

然后，金属板被烘干，留下微小的代谢物分子点，每个点都保存着数字信息。

然后，这些数据可以用质谱仪读出，质谱仪可以识别存在于板上每个点的代谢物，并对数据进行解码。

研究人员将这张猫的图像保存在小分子溶液中

研究人员通过用质谱仪分析每个点的化学成分，能够以 99% 的准确率检索到这些数据。他们还用 12 种代谢物的混合物，解码了一张分辨率更高的猫的照片。

密集数据

他们使用手掌大小的标准板来编码缩略图大小的图像。但是据 Rosenstein 介绍，代谢物存储设备的物理尺寸可以更小。

代谢物分子比 DNA 和蛋白质小得多，而且种类繁多。他说，这意味着它们可以比 DNA 更密集地表示少量数据。

Rosenstein 说：一旦数据被记录下来，它们就不需要任何能量了。根据分子和环境条件的不同，这些数据可以保存数月或数年。事实上，在极端温度、压力和机械力等条件下，分子存储可能比电子存储更稳定，这取决于分子的特性。

分子存储还可以使离线存储大量数据成为可能，而不是存储在云中，从而防止黑客入侵。

到目前为止，Rosenstein 和他的同事们发明的技术与电子计算机相比速度还比较慢。

研究人员指出，这种技术也有一些局限。例如，当多种代谢物分子被放在同一溶液中时，它们之间会发生化学反应，这可能导致错误或数据丢失。但这个 bug 最终可能成为一个功能。也许可以利用这些反应来操纵执行数据的计算。

Rosenstein 表示：

与 DNA 相比，我们的代谢物数据具有较低的延迟，从而可以从头到尾快速地读写数据集。他也补充说 DNA 目前在编码大型数据集方面有优势。

这些想法在研究实验室中使用已经可行，但我们需要加快速度，缩小分析硬件的尺寸，然后才能在实验室外实施。

这类研究挑战了人们在分子数据系统中所看到的可能性。DNA 不是唯一可以用来存储和处理信息的分子。认识到还有其他潜力巨大的可能性是令人兴奋的。

二、实验原料和方法

化学库的制备

将 36 种不同代谢化合物的试剂级样品（S1 文件中的表A）在二甲基亚砜（DMSO，无水）中稀释，标称浓度均为 25mM。将一些代谢物首先溶解在替代溶剂（去离子水，可选择加入 0.5M 或 1M 的盐酸）中，以促进化合物在 DMSO 中的溶解。将 10μL每种化合物等分到 384 孔的微量培养板（Labcyte384LDV）上。

数据混合物的准备

在规格为 76mm 120mm 不锈钢 MALDI 板上制备化学数据混合物。使用声学液体处理器（LabcyteEcho 550 型）将化合物从培养板转移到 MALDI 板上。仪器标称的单液滴体积为 2.5nL，但为了降低液滴体积变化对结果的影响，通常每种化合物使用 2 滴（5nL）。液滴以标准的 2.25mm 点距排布，共计 1536 个位置（32 48）。

将化合物按编好的位置滴到 MALDI 板上之后，需要将 MALDI 基质材料添加到每个位置上。我们选择9-氨基吖啶作为基质材料，因为它与代谢物库能够共存，它在小分子体系中具备低背景（low background）特征，同时支持正离子和负离子模式。将 MALDI 板放置在干燥环境中，大约在一夜时间即可完成结晶（最多 10 小时）。干燥后，可将板储存在湿度控制柜中，或进行 MALDI-FT-ICR 质谱分析。

数据板的质谱分析

实验中使用傅里叶变换离子回旋共振（FT-ICR）质谱仪（SolariX 7T，Bruker）分析结晶代谢物数据混合物。精确的成分结果是每个频谱上的测量时间的函数。这些实验中通常耗时 0.5-1 秒，产生的分辨精度<0.001Da。该仪器将连续测量 48x32 网格上的每种混合物的质谱。测定全部样本只需要不到 2 个小时。

为了从质谱中读取编码数据，将代谢物存在的概率建模为多个预测质量的组合。利用多项逻辑回归方法，考虑偏移量的自然指数，加上所有识别质谱信噪比之和，每个信噪比均与训练的权重系数相乘。在给定每种代谢物的n个最佳峰值输入的情况下，使用有限记忆 BFGS 算法来预测逻辑精度评分。

在实验中，对所有代谢组合成分重复以上过程。

三、实验结果：检索准确率高达99％！

编写合成代谢组分

我们的合成代谢组由 36 种化合物组成，包括维生素、核苷、核苷酸、氨基酸、糖和代谢途径中间体。为了将数据写入代谢物混合物中，我们使用声学液体处理器以 2.5nL 的增量将纯代谢物溶液传输到钢制 MALDI 板上预先定义的位置。选择 2.25 mm 节距网格，以与标准 wellplate 协议兼容。这产生了一个不同代谢物混合物的空间阵列，其中每种混合物中每个化合物的存在（或不存在）编码一位信息。

在蒸发溶剂后，每个数据板包含多达 1536 个干燥点（图 1b），我们可以使用基质辅助激光解吸电离（MALDI）质谱（MS）进行分析。为了预先筛选合成代谢组中的每种化合物，在 1400 个独特的点上，用 36 种代谢物的组合混合物写出图版。由于 MALDI 方案具有化学特异性，因此我们不希望在一组条件下，整个化合物库具有相同的鉴定准确度。我们使用此预筛选来确定具有相同方案的每种代谢物的 MS 鉴定准确度。

代谢物混合物的离子回旋加速器质谱

使用傅里叶变换离子回旋共振（FT-ICR）质谱仪（SolariX 7T，Bruker）分析结晶混合物阵列。在 FT-ICR MS 中，脉冲 RF 激发离子进入周期轨道，其频率由磁场强度和离子质量决定，这使得质量分辨率比飞行时间（ToF）更精细。仪器。在这些实验中，质量分辨率通常为 0.001Da。使用 FT-ICR MS，即使它们的质量仅相差 milli-Daltons ，也可以区分代谢物。

在图2（a）中，显示了包含鸟苷（go）和9-氨基吖啶（9A）基质的斑点的一个正离子 MALDI-FT-ICR 质谱。质子化的基质加合物在峰 1 和6（蓝色）处鉴定，连同鸟苷的加合物，标记为（2：Na，3：K，4：2K-H 和5：异丙醇（IPA）+ H）。观察到的强度因加合物和种类而异，在图2（b）中，在 1024 个点上显示了第一个峰值（m / z = 195.0916 0.001 处的质子化基质）的强度。

比DNA存储更可怕！你的照片居然可以存储在氨基酸分子溶液里

图2. 用质谱分析化学数据板。

许多开放获取工具可用于代谢峰的检测和 MS 质谱的分配。为了清楚地将质谱与二进制数据联系起来，我们考虑了一个基本的检测方案：如果代谢物的质量强度高于某个特定的阈值，则声明它存在，并且其地址的二进制状态设置为1（或0，如果它的质量峰值不存在）。该方法在图2（b）中的 1024 个斑点中识别出 1020 个基质质子化峰（ 99.6％）。

作为初始演示，我们选择了 6 种代谢物的库子集，用于将 Nubian ibex 的6,142 像素二进制图像编码为 1024 个混合物的阵列。伪随机交织后，将数据映射到存在或不存在山梨醇（SO）、谷氨酸（GA）、色氨酸（TP）、胞苷（CD）、鸟苷（GO）和2-脱氧鸟苷水合物（GH）中。如方法中所述，使用 FT-ICR-MS 对板进行书写和分析。

图 3a 显示了 240 个独立点观测到的质谱背景噪声的空间图和直方图。在进一步分析之前，我们将每个质谱除以其背景，这样可以更直接地比较多个位置的信号强度。信号强度是样品制备、分析物和加合物的复杂函数。归一化后，6 种代谢物的目标峰显示在图 3b 中。第一行是其数据包含六位[1 0 0 0 0 0]的点，因此仅存在与第一代谢物（山梨糖醇）相关的 m / z 峰。类似地，显示了五个其他一次触发模式，可以无错误地解码。

比DNA存储更可怕！你的照片居然可以存储在氨基酸分子溶液里

图3. 质谱背景和噪声考虑因素。

选择阈值3 作为说明代谢物存在所需的强度。例如，如果我们检查色氨酸[2Mtp+K]+质量（图 3c），我们发现该阈值产生 96% 的正确分类。如图 3d 所示，还可以对板上的每个点显示该检测方案。板边缘的误差聚类表明 MALDI 激光位置和液滴点位置之间的微小偏差是误差的来源。

数据板统计分析

在实践中，一个化合物将与多个峰相关联，并且具有不同的信噪比和用途。对于给定的代谢组，研究人员需要确定哪种m/z峰值最适合识别每个库的元素。

每个高分辨率 FT-ICR 质谱包含2 106 m/z 点。由于质谱空间的大部分是背景，因此首先将特征的数量减少到统计上有用的特征数量。而后研究人员测试了所有质谱的系综平均值(ensemble average)中发现的 1444 个候选峰，用来确定m/z处的强度对编码数据值的分类精度(图 4a)。

图4

虽然这些峰值的识别没有化学偏差，但许多特征可以归因于已知的代谢物加合物离子。相关加合物质量的直方图如图 4b 所示。

达到 70-100％范围内检测精度的峰数如图 4c 所示。选择每种代谢物的最佳表现峰值，并应用 2.5 的检测阈值，足以恢复约2％累积读/写错误的数据（图 4e）。相应的输入和输出数据图像如图 4f 和 4g 所示。

利用逻辑回归对多峰数据进行解码

假设鉴别峰值是部分不相关的(如图D所示)，利用每个代谢组的多个m/z峰来寻求改进是合理的。这样的策略将在更复杂的代谢组中变得越来越重要。

图D

研究人员使用类似 6kb ibex 图像类似的技术，从埃及坟墓中编码了 17424 位的猫图像(使用了 1452 个点)，其中包含库中 12 个代谢物子集的数据混合物(图 5a)。他们使用这些数据来扩展解码方案，使其包含多个m/z特性。

图5

在确定一组统计鉴别峰之后，研究人员使用 1 到 16 个表现最好的峰进行逻辑回归。多质量回归对整个 cat 图像的读取准确率为 97.7%(图 5c)。

图 4 和图 5 中的数据的累积读取错误率显示为逻辑回归中使用的质量数的函数。

将这些技术应用于早期的 ibex 数据集，可以实现<0.5％的错误率。但是，重复测量斑点会导致数据丢失。研究人员还发现，每次连续读取数据板都会增加<1％的误差（图E）。

图E

使用不同的板进行训练可以获得相同的精度而不会过度拟合（图F）。

图F

总而言之，上述实验表明：代谢组是一种可行且强大的表示数字信息的媒介。

参考链接：

https://www.newscientist.com/article/2208439-data-can-now-be-stored-inside-the-molecules-that-power-our-metabolism/

https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0217364

比DNA存储更可怕！你的照片居然可以存储在氨基酸分子溶液里
来源：互联网发布日期：2019-07-08 浏览：178次

相关内容

AiLab云推荐

最新资讯

本月热点

热门排行

推荐内容

在线客服

热门栏目HotCates

关于我们

版权声明

比DNA存储更可怕！你的照片居然可以存储在氨基酸分子溶液里 来源：互联网 发布日期：2019-07-08 浏览：178次