机器学习系统创建在人造神经元层上,称作神经网络。这些网络层通过神经元之间看起来随便的相连而联系在一起,而整个系统不会通过微调这些相连展开"自学"。这早已沦为如今人工智能系统有效地运营的最重要承托,然而,它却以十分"谜样"的方式运作。对于诸如"这是一只猫的照片吗?""下一步棋该怎么走?""自动驾驶汽车在遇上黄灯时否应当加快?"等等问题,神经网络往往需要精彩得出答案,但关键问题在于,我们并不知道它是如何做的。
这就是所谓的"黑匣子"。而为了让人工智能在明确应用于中显得更加有一点信赖,更加多的研究者正在企图关上"黑匣子",解读系统得出结论某个明确结论的过程。最近,美国加州大学圣迭戈分校生物工程与医学教授TreyIdeker与他的研究团队一起,研发了一种"可见"的神经网络,后用它建构了称作DCell的啤酒酵母细胞模型(一般来说被用于基础研究的一种模型)。
明确而言,就是将神经网络同构到非常简单的酵母细胞内,使得研究人员需要仔细观察AI系统的运作方式。在这个过程当中,研究人员获得了关于细胞生物学的诸多分析结论,而由此产生的技术还有可能有助研发新的癌症药物和个性化化疗方案。首先,讲解一下当今机器学习系统中用于的神经网络的涉及基础知识:计算机科学家通过设置多个图层来创建神经网络框架,其中每个图层包括数千个负责管理继续执行微小计算出来任务的"神经元".在此基础上,培训人员输出数据集(例如数百万张猫、狗的照片,数百万次棋士落子,数百万种驾驶员操作者与结果等),由系统相连图层中的神经元,对其展开结构化序列计算出来。该系统将通过神经网络展开数据处理,然后检查其继续执行任务的实际效果(例如将猫与狗者区分的准确度)。
最后,通过重新排列神经元之间的相连模式并再度运营数据集,检查新模式否产生更佳的结果。当神经网络需要十分精确地已完成任务时,培训人员就不会确认训练顺利已完成。
"虽然它们被称作神经网络,但这些系统所受到的人类神经系统灵感还十分初级。"Ideker说明道。
他认为:"侧重AlphaGo,可以找到这套系统的内部工作方式几乎是一团乱麻,事实上显然不像人脑。它享有一种全新的思维方式,但只是刚好需要做出不俗的预测结论。"遥相呼应此,Ideker开始在细胞生物学人工智能研究当中做出新的尝试。他期望需要利用神经网络向研究人员们展出这些结论的得出结论方式,而不仅是非常简单蛮横地得出答案。
Ideker在拒绝接受专访时回应:"我们对于这样一套并非由计算机科学家展开优化,而是通过演化已完成优化的特定结构抱着有浓厚兴趣。"▲DCell可以像实验室实验一样准确地预测酵母细胞的生长和交配这一项目之所以不具备可行性,是因为酿酒酵母是一种单细胞生物,从上世纪五十年代以来就仍然被作为一类基础生物系统拒绝接受研究。
Ideker认为:"我们享有大量细胞生物学科学知识可供参考,因此这项研究十分便利。"因此,他的团队通过把神经网络中的各个图层同构至酵母细胞的组成部分中,从最微观的构成元素(包含DNA的核苷酸)开始,逐步向下伸延至更大的结构--例如核糖体(从DNA一处提供指令以生产蛋白质),最后抵达线粒体及细胞核等细胞器(负责管理继续执行细胞活动)。总体而言,这套DCell神经网络将运用到酵母细胞中的总计2526个子系统。▲DCell作为在线应用程序可可供研究人员用于DCell容许研究人员们更改细胞的DNA(即遗传代码),并仔细观察这些变化如何向下蔓延到以转变其生物学特征,进而影响到先前细胞生长与交配。
其训练数据集由来自数百万个现实酵母细胞的基因突变实例构成,且与对应的变异结果信息相匹配。研究人员找到,DCell需要通过仿真酵母来精确预测细胞的生长。由于这是一套"可见"的神经网络,因此研究人员们需要看见细胞机制在展开DNA误解时再次发生的转变。
这种可视性,意味著DCell需要潜在应用于细胞的计算机制研究,且需要花费大量时间与实验室实验资源投放。如果研究人员需要搞清楚其实际建模过程--而非非常简单的酵母细胞,则可更进一步仿真更加简单的人类细胞。"如果需要建构单一人体细胞的整体工作模型并对其展开仿真,这将彻底改变精准医学与药物研发的发展方向。
"Ideker回应。癌症是目前最不受注目的疾病研究方向,因为每一位癌症患者的肿瘤细胞都包括独有的变异人组。而Ideker和他的团队正在用于患者的基因组与变异条件创建模型,仔细观察细胞的实际生长速度,以及癌症的侵略性特性。
更加最重要的是,致力于找寻癌症新药的制药企业将需要利用细胞生长情况作为顺利或告终的评判标准。他们将仔细观察到众多可以打开及重开的有所不同基因分子,并据此思维某种潜在药物否需要暂停肿瘤细胞的细胞分裂。考虑到以往必须数十亿美元展开抗癌药物研发投放,如今这种更加便利的研究方式显著极具吸引力。
当然,要从酵母细胞升级为人类细胞绝非易事。研究人员必须搜集与人类患者涉及的充足信息,从而建构起神经网络所必须的训练数据集--最少必须数百万条记录,其中包括患者的遗传图谱与身体健康结果。Ideker预测称之为,这些数据的累积速度不会非常慢。
在他显然,对患者基因组展开测序将受到高度注目。而更加棘手的部分在于累积人类癌细胞活动机制的科学知识,只有这样才能将神经网络同构至细胞中的各个部分。Ideker本人正是癌细胞绘图计划的成员之一,他们期望需要尽早解决问题这一挑战。目前,对癌细胞的生物活动展开概括是一项十分艰难的任务,因为这些变异不仅需要打开及重开细胞功能,同时也不会对细胞功能导致有所不同程度的影响,并以十分简单的方式引起协调性变化。
不过,Ideker对于利用迁入自学技术将机器学习方案从仿真酵母细胞转化成为仿真人类细胞的神经网络仍抱着有悲观态度。他总结称之为:"只要创建起一套需要辨识猫的系统,那么需要对其展开几乎新的训练,也可以教会它如何辨识松鼠。
本文来源:凤凰彩票大厅-welcome-www.hanoverinstitute.org