从这几年的趋势来看,基因组学正在成为新医学时代的主导力量。基于基因组学数据,医疗机构可以给予患者更精确个性化的治疗。诸如23andme的基因检测服务先驱为这项技术的市场普及带来了极大的推动,但另一面,也为社会伦理带来了一些新的思考。23andme以其99美元的检测产品闻名,但基于低廉价格获取用户和数据,再将用户数据出售给制药公司,这样的商业模式背后,确实以用户数据所有权为代价。
基因数据是非常敏感的,包含了人的寿命、健康、种族、智力等信息。未来,基因组学可能会告诉我们更多的东西,这些东西如果泄露,可能会造成很多问题。
比如,得知这个人携带乳腺癌相关的基因,保险公司就有可能拒绝他参保;如果DNA显示一个人的技能不能达到公司预计的工作能力,他的职业发展就可能会受到影响。
但另一面,脱敏后的基因数据对科学进步有重要意义。只有在大数据基础上的分析,才能得出更加贴合真实世界的结论,更好的实现个性化的医疗。这也是许多基因组学科学家希望看到的,通过大规模数据研究为特定人群寻找到更好的治疗方案,在遗传疾病和免疫治疗上做出突破性研究。
无疑,个人隐私和科学进步之间出现了冲突。区块链的出现似乎可以调和这种冲突。
解决数据归属问题
10年前,无数公司就BRCA基因是否能够申请专利展开了讨论。最终,美国和澳大利亚最高法院都宣布这项专利无效。
但这样的结论可以沿用到数据归属问题上吗?作为数据的提供方,用户并没有享受到自己数据的版权保护,更没有在数据交易中获得利益。遗憾的是,没有任何法律明确规定这些数据的归属者到底是谁,这没有任何法律规定这些数据应该受到版权保护。
似乎,控制这些数据泄露的唯一方法就是不进行测序,把数据隐藏在身体里。但这无疑与现代医学和基因组学的发展步伐背道而驰。
经济学家Hernando de Soto称区块链为一双看不见的手,其体系可包容全球的人。基因组学的科学家们,似乎也在尝试利用这项技术能否解决当下基因组问题。
区块链通常用于虚拟货币发行,比如比特币。那么它与保护基因组数据又有什么关系?
其实,区块链的应用范围早以超出了虚拟货币,只不过大家关注更多的是比特币。比特币之所以有用并且有价值,是因为区块链创造了一个不变的、分布式的记录方式,并且这种方式是不可能破解的。比特币账户的拥有者对他们的资产有绝对控制权。
对于数据储存来说,这是一种高度敏感,甚至几乎有点完美的解决方案。比如,DARPA就在考虑用区块链技术保护核武器数据。此外,区块链技术正在被用于跟踪钻石、知识产权和现实世界物流等方向。
基于这些逻辑,人们尝试在基因组学中加入区块链技术,更多是想通过它创造一个特定的场景,将相关伦理和道德保障最大化。
安全且隐私,奇妙组合带来的可能性
所以,“基因+区块链”有什么样的可能呢?
对个人来说,这是一个存储基因数据的安全的地方。如果你进行了检测,并且希望能够随时访问这些数据,那么把它存储在“基因链”上就是一个很好的选择。同时,与Google Genomics不同,你不必为此付费。
在这里存储数据会比其他大多数地方都更加安全。毕竟,随身携带一个USB接口可能会丢,传到云端或者其他地方也多少有泄露的可能。在“基因链”上,你的数据加密几乎是牢不可破的。区块链是分布是的链式存储,如果一个节点被破解,那剩下的数万个节点就会立即拒绝操作记录。
你可以通过设置访问限制的方式,让你的医生获得授权,但他只能获得你想要共享的信息。
同样,你也可以通过唯一的签名追踪到是谁滥用了你的数据。
对科学家来说,他们可以获得元数据,并且可以通过搜索潜在的主题,获得他们想要的数据用于研究。这些搜索结果中不会透露捐献者的个人信息,也不会让他们获得基因组数据本身。但他们可以向捐献者提出请求,这份协议是有偿的。
这些都可能为基因组学带来真正革命,并为数据提供者提供更强大的数据保护。
但这只是其功能之一,除了极强的加密性,区块链还能用于数据的管理。拥有大量基因数据的研究机构和公司可以购买许可证,来“基因链”上存储他们的数据,并且不需要担心伦理问题。他们可以将更多的精力放到科学研究中。
哪些人正在做
存储和共享基因数据是一个技术问题,计算已经成为了研究的亮点。一个原始的组学数据大概有5-6千兆字节,包含了30亿个碱基对,并且在测序过程中,还有很多数据需要标注,这些数据很难管理。
哈佛大学发起的”千人基因组计划“把测序所得的全基因组数据都放在了网上,可供用户免费下载。但这些数据的管理方式都是比较传统的,即通过压缩工具将数据压缩,再进行传输和存储。
2016年,哈佛大学遗传学先驱Georg Church与来自剑桥大学的计算机科学家Kamal Obbad、以及哈佛大学科学家Dennis Grishin共同成立了一家叫做Nebula Genomics的初创公司。
用户在获得数据后,可将数据存储在Nebula Genomics的区块链平台中。其他研究机构可以通过这个平台来获取脱敏后的数据,当然,这一过程是需要付费的。该系统建立旨在一种特别定制的加密数据上,为了支付购买数据的费用,研究机构必须先购买代币。
这些数据的购买并非终身制,使用一次就需要进行一次付费,并且一组数据可以出售给多个机构。用户获得的代币可以向Nebula Genomics的合作机构兑换检测服务,目前主要是与Veritas Genetics(Church创立的另一家公司)合作进行兑换。
Nebula Genomics的想法是将用户的遗传数据变成类似专利一样有版权的东西,让用户享有数据的归属权和版权,从中获益。当然,用户最初需要支付量的现金用于检测服务,目前的价格是1000美元/次全基因组检测。随着测序成本的下降,服务价格也将随之降低。公司希望在未来6个月正式开始运营和服务,并于安全专家合作,打造一个更安全、受保护且匿名的环境。
Nebula Genomics是自有平台、并有数据来源的一类企业,而诸如EncrypGen、Luna DNA和Zenome等加入区块链元素的公司并不向用户提供测序服务,他们通常需要通过第三方来获取数据。
Luna DNA 是区块链在医疗应用的早期尝试之一,与Nebula Genomics的最初想法一致,他们想通过区块链技术把个人数据变成数据资产。不过Luna DNA不提供测序服务,在测序层面上避免了和23andme 以及Ancestry的竞争。他们认为,通过Luna Coin来鼓励数据分享,能够反过来促进测序服务机构的销量。
“个人层面数据的意义不大,统计学意义的数据需要有十几万、上百万人参与。”Luna DNA联合创始人兼CEO Bob Kain表示,“除非是一个社区级的数据聚集在一起,否则很难解决基因组和健康方面的问题。”
尽管区块链现在还处于蛮荒时代,但也不乏有投资者看到了其中的机会,他们获得了200万美元的种子轮投资,投资方是Illumina的前高管。
来自俄罗斯的EncrypGen与Luna DNA采取的是相似的策略,目前他们已经进行ICO。这些虚拟货币并不会作为投资工具,他们将在7月结束发行。
解决了用户层面的数据归属问题,那如何满足研究机构对大规模数据的需求呢?Shiva或许能够带来答案。
这家成立于2017年的德国公司希望通过最先进的技术来改变全球医疗的现状,包括区块链、云计算、基因测序、人工智能和大数据分析等。他们相信,这些新技术将带领医学研究进入新纪元。
除了面向个人的服务,他们还通过与全球的医疗机构、政府建立合作关系,通过公共项目赞助的方式来建立大样本的数据库,比如公司在2018年3月与Andhra Pradesh政府达成的合作。另外,他们还会选择与罕见病多发区建立联系,在平台上产生更具特征性的大规模数据。
Shiva同样还推出了个人服务。Shiva并不提供服务,而是作为一个生态环境的营造者,将服务提供商、用户聚集到区块链平台上。用户可以用自己的数据换取服务,这些数据通常来自第三方检测机构;而平台上的服务上也不止测序机构,其中还包括了保险服务、体检等机构。
Shiva希望基于区块链技术打造一个生态圈,为服务提供商和用户提供一个开放的环境。除了基因组学和个性化医疗服务之外,入驻机构还可以添加其他应用和服务。
以上几家主要解决的是数据归属和交易问题。除了交易外,区块链还带有存储功能,并且具备极强的隐私性和安全性。基于此,Zenome则希望基于这些特性做出应用。
他们第一阶段的计划是建立分散的基因数据存储系统,建立一个可以自由交换的安全环境。Zenome同样不提供测序服务,平台的数据主要来自网络参与者。接下来,他们将通过问卷调查和评估系统确保数据的真实性。在数据到达一定规模后,Zenome将吸引大型公司和科研中心来购买数据。
但他们最终的目的并不在交易,而是希望能够让这些公司将数据存储在他们的平台上,从而建立一个类似Google Genomic的社区。
监管模糊、技术局限,或许并不存在完美的解决方案
但区块链技术的介入真的能够解决所有问题吗?这很难回答,因为不存在完美的技术。
区块链技术也存在局限性。比特币目前从创世块到现在的完整数据文件已经达到了105GB,并且数据量还在不断增加。随着区块链的发展,节点存储的区块链数据体积越来越大。
其次,在公有链中,每一个参与者都能获得完整的数据备份,所有交易数据都是公开且透明的。在虚拟货币交易中,交易人是匿名的,但交易本身是公开的,所有人都可以访问。
最后,区块链在基因组学的应用都还在试水阶段,这项技术的监管本身也还不明朗,所谓安全性也并非绝对的。
这些问题给技术的商业化带来了不确定性。我们只能说区块链给基因组学应用带来了灵感,但是否真的解决了目前的矛盾,来需要不断尝试和调整。