河北科技大学副教授韩春雨。
吴军/美国约翰?霍普金斯大学博士
几个月前中国的学术界传来一个好消息,河北科技大学副教授韩春雨发明了一种新的基因编辑的方法,比现在主流的CRISPR Cas基因编辑技术要好很多,这可称得上是爆炸性新闻。如果人类彻底掌握了基因编辑技术,并且用于临床,那么包括癌症在内的很多疾病都能够得到根治,因此这项研究的意义就不必多言了,各国也因此对它都非常重视。2013年麻省理工学院(MIT)的华裔科学家张锋在CRISPR Cas方面所取得的突破性成果,被《自然》杂志列为当年十大科技进步之首。几个月前MIT理学院院长Michael Sipser到硅谷介绍MIT的成就,只介绍了两项成果,其中一项就是张锋的工作(另一项是不久前证实引力波的实验),可见MIT对基因编辑研究的重视。2015年,突破奖中的生命科学奖授予了从事CRISPR工作的两名女科学家,美国的詹妮弗?杜德纳和法国的艾曼纽?卡彭特,也可见全世界这项研究的关注。因此,如果韩春雨的成果是真的,即便不能很快得诺贝尔奖,至少获得突破奖还是有把握的。
但是,向来树大就要招风,韩春雨的技术既然比现在全世界领先的CRISPR Cas技术还要好很多,各国科学家就蜂拥而上,试图重复韩春雨的实验。但是到目前为止,也不知道是韩春雨论文写得不清楚,还是验证者实验条件没搞对,总之尚未有人能够重复韩春雨的结果,于是就有人质疑韩教授造假了。
造假没造假,这不是我今天要谈的问题,这个自有学术界的人会搞清楚。我想透过这个事件谈一谈学术的规矩,尤其是科学界的规矩。
什么是科学
要谈学术的规矩,首先必须稿清楚什么是科学。国内很多人一直把科学和正确划等号,其实科学最重要的是方法,而不是结论,科学恰恰反对永远正确,这一点我在《文明之光 第二册》“科学时代”一章中通过很多实例反复阐述。人类对世界及其规律的认识并不是一成不变的,而是不断提高的,开始认为正确的结论,后来可能发现有局限性。因此科学的结论只不过是在当前认知情况下,通过科学的方法得到的符合实验结果(或者我们的观察和认知)的结论或者假说。任何科学的结论,必须能够有方法证实和证伪,尤其是必须能够证伪。那些无法证实和证伪的结论,比如“上帝是存在的”,是宗教信仰,不属于科学的范畴。因此,科学的结论不能是宗教的口号,不是放之四海而皆准的,也不能要求所有人都相信它,科学也不服从于政治。相比科学的结论,科学的方法则重要得多,只有采用科学的方法,做出来的成就才被学术界认可,这时学术的规则。
既然科学重在方法而不是结论,而任何搞科学研究的人又必须遵循这些方法,这样一来科学研究其实就成了一个非常悲催的职业:当你提出一种新方法,或者得到一个前人所不知的结论时,你其实就是在向全世界学术界在声明,“现在你们可以来证实或者证伪我的结论,可以否定我,指出我的不足之处。”如果一个科学家不是抱着这种心态搞研究,而是靠声音的大小(和粉丝的多少)来维护自己的正确性,那么他就不是真正意义上的科学家,最多算是一个压制同行的学霸。
证实一个科学结论最简单的方法,就是让同行来重复自己的实验,如果别人在同样条件下能够得到同样的结果,那么这个结论算是初步被证实了。如果一个科学家做出一个实验结果,谁都不能重复,甚至就连他自己第二次可以也得不到同样的结果,那么,学术界只能认定这个发明或发现是无效的,结论是不成立的,哪怕结论真的是正确的。事实上,重复一个实验有时不是一件非常容易的事情,因为当今科学研究的实验条件非常复杂,有好多参数,甚至实验者自己也未必把这些参数全记录下来的(MIT两个学生为了解决这个问题,还专门发明了一种仪器,自动记录各种可能被人忽视的实验参数,现在哈佛大学和MIT在试用),因此下一次实验时忽视了哪个参数,可能结果就重复不出来了,这种事情经常发生,这倒不是实验者故意造假。但是,如果出现这种情况,对不起,大家只能不认可你的结论,这就是学术的规矩。
作为科学家,有责任方便同行证实自己的科研成果,而最基本的要求是在论文中写清楚实验是怎么做的。如果无法在篇幅有限的论文中写清楚实验条件的细节,那么这个科学家有义务为同行答疑,在底下告诉那些试图重复他实验结果的科学家很多实验的细节。在我所研究的领域(自然语言处理),一个科学家要发表论文,就要说清楚实验结果是使用什么数据,什么工具,在什么设备上(比如计算机)进行的,以便大家能够重复并进行各种方法的比较。很多研究小组,甚至把他们做实验的源程序免费提供给同行(当然要签一些保密协议)。我本人在做研究时,就用过剑桥大学、卡内基-梅隆大学、AT&T实验室的多种工具。如果哪一个科学家说,我就是不告诉你实验是怎么做的,而我这个结果就是正确,你做不出来是你水平不够,那么整个学术圈子只好说,“对不起,我们不带你玩了。”
有些实验,因为成本非常高,全世界也没有第二套实验设备,比如发现希格斯波色子的欧洲核子研究中心(CERN)加速器,这种实验需要自己重复进行,而且采用不同方法交叉验证,以免观测到的结果来自于噪音(事实上CERN验证了很长时间才公布结果的)。再比如今年验证引力波的LIGO,是在相距3000公里处建设了两套相同的系统,以确定接收到的是来自宇宙的引力波信号,而不是噪音。对于这样的实验,所有的细节也是要公开的,以便其他科学家查验和质疑。
有人可能会说,如果这样,不就没有了秘密可言了吗?能否以保护商业机密、国家利益为理由,不提供实验的细节呢。对不起,这不是学术界的规矩。科学家们常常不得不在名和利中间选择,不可能全占了。前面我们提到的基因编辑技术,要用到一种更基本的技术--内切酶,它是一把分子级的剪刀,可以把基因切开。这项技术的主要发明人是约翰?霍普金斯医学院的那森斯、史密斯和伯克利的亚伯。我在霍普金斯时,那森斯和史密斯还在学校,人们说,如果他们二人不发表论文,去申请专利,他们会进入世界富豪排行榜,因为今天很多生物工程的技术,包括转基因作物,包括人工合成激素和制造抗癌药,都离不开内切酶。但是,你一旦选择了发表论文争取得诺贝尔奖,就可能和经济利益说再见了。这也是今天很多公司不发表很多论文,或者先申请专利,过了一段时间再发表论文的原因(当然,过了一段时间常常成果就过时,无法发表了。)
学术论文必须是八股文
说到发表论文,很多人有一个疑问,为什么中国科学家在世界一流杂志和会议发表论文比较难?是研究水平不够么?研究水平不够当然无法发表,但很多时候中国学者很多论文本身写得也有大问题。
我从2000年前后开始,就给我所在领域的一些顶级杂志和主要会议审稿,也担任过一些重要会议的程序委员会成员和负责人,至今也有十几年了,因此对什么样的稿子容易被录取还是有点发言权的。每年,也有一些国内的学者请我帮助修改他们即将投稿的论文。这么些年看下来,审下来,我不得不说国内一些学者的论文写得不符合规范,以致于他们即使有很好的研究成果,论文被拒绝了。
国内一些学者喜欢这样写论文,首先讲自己研究的重要性,上升到非常高的高度,生怕立意不够高被拒绝。(很多国内学者在向国家申请经费时也喜欢强调,你国家不支持我的研究,就不能矗立于世界民族之林了。)接下来这些学者会自顾自地讲自己的方法怎么好,然后在不提供细节的情况下给出一些难以对比的实验结果(比如使用自己设计的数据,而不是学术界一致采用的),最后宣布自己解决了一个天大的难题。
其实,论文中那些大话,比如某一项研究怎么能够改变世界,等等,即便是真的也都是废话,因为在学术圈子里,同行对这项研究的背景和意义比较清楚,无需费太多口舌,不需要像新闻稿那样一定要上升到什么高度。至于发明和发现是否那么重要,一切看结果就可知道了。那些大话、废话,除了占用宝贵的篇幅,对论文的录取没有帮助,甚至只有副作用。
那么被录取的论文通常是怎么写得呢?这其实和科学方法本身的特点有很大关系。
今天的学术研究,99%是N+1的工作,不管你怎么吹它的重要性,还是N+1,这也就是说你发现前人工作可以有改进之处,你把这个问题解决了,这本身足够有意义。既然是N+1的工作,任何人写论文时第一件事情就是要提一下N的工作,也就是同行们以前做过的工作,当然,也要指出前人哪些工作没有完成,这既说明你研究的必要性,也是对前人和同行的认可,这部分文字是不能省略。国内很多人搞科研,不做详细的literature study(文献研究),上来就谈自己的工作,这种论文给人第一印象就不好。
在介绍完别人的工作,或者说自己的工作基础后,论文才能开始介绍自己的工作。这部分就不多说了。
在论文中,接下来就要比较自己工作的结果了。既然是N+1的工作,我们为了证明N+1比原来的N要好,你首先要重复前面N个人的工作,这也是为什么在科研上实验结果必须能够重复的原因。一个有经验的导师,指导博士生做研究时,通常是从重复前人的实验开始的,然后才开始自己的改进。将来写成论文时,实验结果的第一部分就是重复前人最成功的实验(一般被称为基准Baseline)。然后,才是自己各种实验结果的介绍,以及和前人的比较。
可比性对科学研究非常重要。为了大家有一个可以公平比较的平台,各个学科领域都有很多共享的数据,材料,和工具,供同行们使用。这些是属于整个学术圈子的财富,它们有些是各个实验室贡献出来的,有些是政府基金专门建设的。大家做研究都要用这些共同的东西来验证、比较,这样才是橘子和橘子的比较,不是拿苹果和橘子相比。
在自然语言处理领域,有一位大家都知道的科学家叫马库斯,他自己其实没有太多的学术成就,但是他倡导和建立了一整套供全世界研究人员使用的数据库(LDC),再加上他培养了一大批这个领域的学术骨干(也得益于这数据库),因此大家都尊敬他。
为了建设一个给学术圈子使用的平台,有些时候是要花很多钱的。2015年Google为了让全世界的大数据医疗研究有一个可以做对比实验的基准,拿出1亿美元给了斯坦福和杜克两所大学的医学院,用5年时间采样5000人(各2500人)的全部生理和医疗数据,作为将来全世界在相关领域中搞研究的共同基础(这个项目被称为Baseline,基准)。这样当一个研究小组发表实验结果,其它研究单位很容易相同的数据验证实验结果是否可以重复。
如果一个科学家通过实验证实了他站在巨人的肩上往前走了一步,恭喜你,同行们很可能会认可你的发明发现。但是,既然科学是一个过程,那么它就要继续走下去,既然科学必须能够被证伪,那么就会留给后人来否定自己的空间。因此好的论文最后都会从学术的角度,讲一下自己未完成的工作,这些工作或许是自己正在进行的,或许是留给同行的。到此,一篇论文才算完整。从这个写作过程可以看出,它似乎就是一篇中规中矩的八股文,是的,学术界对规矩是非常看重的。
所喜的是,随着中国越来越开放,很多学者和海外交流越来越多,加上引进海外学者,这种情况满满在好转,中国学者在著名杂志和会议上论文录取率也在逐年提高。
学术圈子很重要
除了看重研究成果的可重复性和可比性,看重写论文的格式之外,学术界还有很多自己的规矩,其中有一条就是大家都要维护自己的学术圈子。
虽然历史上总是有一些卓尔不群的科学家,比如证明了庞加莱猜想的佩雷尔曼,他们傲视同行,但是因为他们水平实在太高,整个学术界只好在他们面前认怂。但是,大部分时候并非如此,一个科学家的成功离不开学术圈子。既然科学家的工作是做N+1的事情,那么学术圈子就代表N。
既然科学结论常常是有条件的,只是相对正确的,既然科学家很难做出一个后人难以超越的大发现,那么科学家的荣誉常常不是自于自己的结论多么正确,而来自同行的认可。另一方面,在很多领域,一个发明发现,不是那么容易就被客观验证的,它是否被认可,在很大程度上取决于整个学术圈子对它的态度。比如对于胆固醇作用的认识,科学家们至今没有一个定论,那么一个观点是否被很可,论文能否被发表,在很大程度上取决于主流学术界的态度。
一个科学家进入学术圈子,很重要的是和圈子里的人互动,这个互动不仅仅是个人之间的直接交流,而且表现在写论文时相互引用。个人之间的学术观点可以不同,但是哪怕在论文中驳斥别人的观点,都比忽视前人的工作要好得多。当然,如果能在反驳别人观点时,肯定它对自己的启发,那么对方会很欢迎这样的交流。
回到韩春雨的发明上来,这件事从一开始就受到国外很多学者的质疑,很重要的原因是他长期游离于圈子之外,大家不知道从哪里冒出来这样一个人,给了大家一个完全不同的结论。我们可以试想一下,如果是张锋给出同样的结论,大家的反应或许没有那么剧烈。这倒不是说张锋更有名,实际上张锋是80后的科学家,在这个领域里也算是新人,但是他在圈子里早已被同行认可。
对于破坏学术圈规矩的人,这个圈子对他的惩罚也是很厉害的,历史上一桩著名的公案就是关于链霉素发明权之争。这个故事的细节讲起来很长,简单的版本是这样的:
导师瓦克斯曼发明了链霉素,但是没法提炼出副作用小的药品,学生沙茨找到了合适的副作用小的菌种,但是瓦克斯曼独占了研究成果的利益(专利收入),沙茨后来将导师告上了法庭,并且拿到了自己应得的利益,但是从此他便无法在美国学术圈子里混了,因为他破坏了学术界当时的规矩。后来瓦克斯曼独享了诺贝尔奖,世界也就将沙茨忘掉了,直到后来英国科学家威恩莱特在写抗生素历史一书时,找到了当时很多实验记录,才让世界了解了沙茨点工作。这时瓦克斯曼已经去世多年,沙茨也已经退休了。
如果单纯看事实,瓦克斯曼的做法无疑有问题,但是沙茨破坏了当时学术圈的规矩,免不了要受到了来自学术圈的惩罚(沙茨曾经给很多诺贝尔奖获得者写信求援,但是没人理他)。这个规矩是否合理是一回事,但是一旦成为学术界的规矩,每一个圈子里的人就不得不遵守。这些规矩并不是要和谁为难,而是为了让整个学术圈子能够形成一种合力,围绕一个课题共同的研究探讨。维护这些规矩,才会有N,也才会有N+1。
结束语
自近代以来,科学能够不断地进步,人们对世界的认识能够不断地提高,在很大程度上是因为科学家们坚持科学的方法,而不是死守科学的结论。而长期以来形成的不成文的学术规矩,则是为了确保科学家们能够坚持科学的方法,发展科学。
(吴军,学者,约翰?霍普金斯大学博士,该校工学院董事,曾经担任Computational Linguistics杂志评委以及许多国际学术会议程序委员会co-chair和委员。原文首发于罗辑思维,本文为详版,原题为《学术的规矩》,由作者吴军先生授权澎湃新闻刊发。)