赵翔鹏的Blog Xiangpeng's Thinkpad

10一/080

什么是科学工作流(scientific workflow)

科学家们,例如天文研究者,要想协作科研的话,就需要共享大规模的数据,相当于做些分布式计算。这个数据的流动过程随着研究机构的增多可能越来越复杂,以至于需要独立出来专门管理,这就是scientific workflow的大概意思。scientific workflow貌似是一个新方向,讨论班上听别人讲了一篇,后来帮人审稿看到一篇,今天发现12月的Computer杂志上还登了一篇文章。

Computer杂志上这篇介绍scientific workflow的文章全是文字,几乎连个数字都没有,读完之后觉得有点空洞。这scientific workflow跟business workflow的区别说大也大,说小也小。列举几个scientific workflow的特色/需求:

可重复性:这是科学研究的基本要求,但其实很难做到,因为系统是分布式的,数据也是分布式的,谁也不好说哪个数据能一直存在。说不定过几年系统一升级,以前的程序就不能运行了;谁叫计算机软件的基础架构天天改呢?

著作权问题:科学家的数据都很珍贵,workflow的流程、以及每个端点运行的程序也是不能随便公开的,不然被人剽窃了怎么行。但是又要把自己的研究结果给别人看,至少要给评审的人看,不然怎么让别人赞同你的工作呢?而分布式的workflow意味着最后的成果是大家共享的,因此更要算清楚每部分工作都是谁的成果。所以,每次运行所得到的数据上要附有元信息以说明这个数据是运行了谁的workflow,都用到了谁提供的数据。最好有一种抽象机制,能自动提取出个大概,让人看了很佩服却无法复制。

著作权问题也说明scientific workflow的异构性,需要处在不同地理位置的多方共同合作。

探索性的经常修改:科学家需要不断地调整workflow的参数甚至是修改控制流程来尝试得到新结果,但他们又不像流程设计师那么专业,所以要提供一个易用的接口。

其他的特性就是一些无聊的buzzword,像“更灵活(flexibility)”、“更好的伸缩性(scaling)”、要考虑security之类的问题。

总结:虽然没有本质的新东西,但在搞CS的人眼里看来,sci workflow毕竟是计算机研究这个大bbs开的一个新版,正是灌水的好地方,大家快去抢位置吧。把workflow旧版里的帖子稍加处理一下转载过来,又是一篇新文章,说不定还有人给你m一下呢。

评论 (0) 引用 (0)

还没有评论.


Leave a comment

(required)

还没有引用.