琐话 | 学科评估

zwkx · 发表于 2022-4-13 23:36:12

有人赶在截止的最后一天，修改填报材料。不是因为疏忽，更不是因为懒惰，而是兹事体大。毕竟，他填写的是第五轮学科评估申报材料，决定着过去五年学院学科发展的评价，也深刻影响未来一个周期内学校的学科排名。

这发生在阳历2020年的年尾2021年的年初。对不少大学来说，忙碌的内容和往年有些不同。“学科申报”堪称年底的“头号工程”，说是2020年的“头号工程”，也许叶同样准确。感谢体贴的评估组织者们，让材料提交时间在春节前截至，很多人能踏踏实实地过个春节。

学科评估从2002年开始，不到20年，时间不算长但也不短，走过的却是一条变化之路。它跟随中国高等教育的发展而发展，也因应高等教育的变化，既跟随又要引领，既要做评估又要维护大学健康的学科发展生态。

一

1994年，那是一个夏天。准确地说是在7月29日。这天不怎么适合炒股，沪指当天创下综指的历史最低，但万年历上说，“宜破土"。于是，在北京，“高等学校与科研院所学位与研究生教育评估所”破土而出。对学科评估来说，这是值得纪念的日子，用专家的话说，评估所的成立“是更大规模和更规范的研究生教育合格性评估走向专业化的重要标志之一”。

评估所位于北京理工大学，是我国第一家专门从事学位与研究生教育评估的事业性机构，其实是受国务院学位委员会办公室委托所成立。

它的主要任务是：接受国务院学位委员会和国家教委的委托 , 开展对高等学校和科研机构博士、硕士学位授予单位的评估，各学科博士、硕士点及其研究生教育和学位授予质量的评估，面向社会开展咨询服务，开展国际交流合作，以及接受社会各界委托的有关评估工作。

对高校研究生院进行评估是评估所成立后接受的第一项工作。1984年和1986年，国务院先后批准了33所普通高等学校试办研究生院。研究生院成果如何？有哪些经验可以总结？怎样提高建设水平与效益？这些都是评估的内容，也是包括大学在内的各方所关心的。结果在1995年10月公布。前10名的大学研究生院分别是清华大学、北京大学、南京大学、复旦大学、西安交通大学、浙江大学、哈尔滨工业大学、上海交通大学、华中理工大学和中国科技大学（C9全部在列哦）。

关注点很快转移到学科评估。1995年9月 , 受国务院学位委员会委托，评估所对数学、化学、力学、电工、计算机科学和技术等五个学科进行一级学科整体水平选优评估工作，结果公布后，对评估名列前茅的单位实行按一级学科授权, 对未通过合格线的博士点提出了处理意见。

我之所以要不厌其烦地写下关于评估所的这些细节，是因为它与后来成立的教育部学位与研究生教育发展中心关系密切。1998年11月20日，国务院学位委员会与教育部决定建立“全国学位与研究生教育发展中心“，挂靠在清华大学，原“评估所”归并到“学位中心”。1999年，中心正式成立。2003年，在“全国学位与研究生教育发展中心”的基础上成立“教育部学位与研究生教育发展中心”，成为教育部从事研究生教育评估的专业机构。

教育部学位与研究生教育发展中心虽然是教育部直属事业单位，并不具有行政管理权。但在学科评估领域具有的影响力和话语权，就不用我多说了吧。

二

人们对评估所的成立，兴奋点还不仅仅在其开启评估专业化时代。在“学位与研究生教育大事记（1994 年）”中这样评价：该机构的成立“标志着由政府承担的评估工作职能向民间事业性机构的转变, 是实现机关工作职能转变的重要步骤”，有人甚至颇多感触地说到多年来“建立社会中介机构来承担具体评估任务的构想终于落到了实处“。这样的思路一直延续发展到今天，现在的说法叫：第三方评价。

通过学科评估来确定大学地位，是中国高等教育的一个巨大进步。我们传统的大学地位的生成机制是政府指定模式。从1954年确定中国人民大学、北京大学、清华大学等6所大学为全国重点，到1978年指定88所大学为全国重点，从“七五”期间重点建设15校，到“211工程”“985工程”，大学地位是行政决定的。政府指定模式容易造成身份固化，抑制大学办学活力。通过评估确定大学地位，就是引入市场机制、引入竞争机制，这是一个历史进步。

事实上，我国学位与研究生教育评估活动的萌芽与初创阶段是在80年代，与恢复研究生招生和实施学位条例几乎同时。1987年，国家正式启动实施国家重点学科评选，评选以客观评价为主：一级指标中教学科研的水平与成果、学科发展的队伍与条件都是可量化的指标，学科发展方向倾向于主观评价，但所占系数较低(权数为0.15)，首轮国家重点学科评选共评选出416个重点学科点，涉及108所高等学校。

事后来看，这一时期学科评估工作尚处于起步阶段，重点学科的总体规划、学科点的确定、评估和调整，由原国家教委统一组织领导，因此主要遵循行政主导逻辑，同时还秉持“遴选优秀，择优支持”的基本理念。另外，作为当时教育主管部门唯一认定的代表所在二级学科、国内顶尖水平的国家重点学科，被当作衡量高校科学研究实力的最关键参数之一，以至于在后来多个大学排行榜中，国家重点学科的多寡都是最重要的指标之一。

此外，这些学科评估探索，并未形成明确的评估主体。学科评估活动主要以政府部门推动为主，国务院学位委员会和原国家教委在评估中扮演了主导角色，既是评估活动的倡导者，又是评估工作组织实施的领导者。评估具有行政性和被动性。相对于当今自愿参与为主的学科评估活动，探索时期的学科评估是行政命令推动下的被动参与。

1996年11月，学位与研究生教育评估工作委员会在西安组织举办了全国学位与研究生教育评估研习班，浙江大学当时在介绍经验时提出一个新观点，即：变要我评估为我要评估。这在某种程度上反映出大学对学科评估态度的微妙转变，更多大学开始意识到评估可能给学校带来的发展机遇和声誉增值。

1998年后，我国学位与研究生教育评估已经从实践探索逐步转向理论与实践相结合，从个别形式的探索试点转向全方位、规模化并逐渐成为学位与研究生教育质量保障体系有机组成部分的重要发展阶段。但必须承认，在这个时期，中国高校内部更为看重的是大学整体排名，武书连、邱均平、网大的大学排名日益深入人心，大学排名开始被津津乐道。

学科评估的横空出世还需要等待点时间，比如等到2002年。

三

对于高等学校与科研院所学位与研究生教育评估所来说，也许更为得意的是它开启的学科评估。尽管机构归入了学位与研究生教育发展中心，但在第一轮学科评估的对外宣传中，还主要强调组织者是评估所。与之前的一级学科选优评估关注的重点是学位授权点增列相比，2002年的是一级学科整体水平评估，覆盖面更大，更复杂，对准确性要求更高。

“我国首次由权威教育评估中介机构开展的研究生教育学科排名”就这样开始了。其目的是支持“学位授予单位的学科发展和社会服务“。这次评估，从2002年延续到2004年，分三批公布结果，共有229个单位1336个学科点参加。

客观、公正是一切评估排名的生命线。对于一个排名来说，指标体系是客观、公众与否的最重要表现。此次评估一级指标包括学术队伍、科学研究、人才培养和学术声誉四个方面。评估过程通过采集客观数据和学术声誉调查相结合的方法进行。客观数据来源于各学位授予单位填报并认可的基本数据表，以及教育部“211工程”办公室、教育部信息中心、中国科学院文献情报中心等公共信息源。

创新者成长于被创新者。实际上，这次的指标体系较大幅度参考国家学位授权审核的条件指标，科研指标分量较重。最主要的特色是设置了来源于同行专家反馈调查信息的“学术声誉”指标。

为尽量确保数据收集的真实准确，在全国首次采用公共信息源和申请单位提交数据相结合的方式获取评估信息，并采用多项措施来保证数据的可靠性。申请单位不仅提交数据，通过获取公共信息，还将学科有关数据在本学科参评单位范围内进行网上公布，接受同行人士异议。

由于同行专家对各单位学科整体水平比较了解，因此在评估过程中主要聘请同行专家进行声誉调查。调查的方法是为每位专家提供一份学术声誉调查表，将每个一级学科所有参评的学科点名单提供给专家，请专家对该学科各单位的学术声誉进行排序。对了，在首轮评估的第三年，也就是2004年，聘请的专家数由原来的50人／学科拓展到100人／学科。

2006-2008年分两批进行的第二轮学科评估，参评单位增加到331个，参评学科增加到2369个。当时正值我国学位授权审核制度改革日益深化，内涵发展、优化结构的共识逐步形成，全国优秀博士学位论文评选逐渐被普遍认可，提升学科点建设水平和质量引起更普遍关切。在此背景下，第二轮评估在保持评估体系框架及内涵基本稳定的前提下，在评估体系设计上强化了反映水平和质量的指标，“学术队伍”中增设了“专家情况”用以反映“长江学者”“国家杰青”等高端人才情况，人才培养中增设了“全国优博”入选情况，科研指标增设了“学术专著”指标。

两轮学科评估后，人们越来越意识到，学科排名比大学综合排名更准确，也更具意义。因为大学综合实力的评估体系很难确定，所以排起名来相对困难。而单个学科专业由于涉及的面较窄，同行专家一般清楚本学科专业的状况，所以学科评估排名的准确性一般要高于大学综合实力的排名。单项指标的排名也能从一个侧面反映学校的综合实力。

四

Essential Science Indicators，翻译成中文是“基本科学指标"，我们更熟悉的是它的简称ESI。ESI在强调收录论文数量的同时，更强调篇均论文引用数（指质量)的变化。判断一篇科技论文的内在价值及其创新力，发表后被他人引用的频率是一个很重要的指标。被他人引用的次数越多，很大程度上表明该论文的原始创新力和影响力越大。2010年前后，有人主张从ESI视角去探讨“985工程”价值，这才是对“985大学”一个相对客观、权威的评价工具。

人们对论文的关注终于从过分关注数量规模向看重质量大踏步地转变。2012年发布的第三轮学科评估，指标设置指标设置将突出”质量“作为重点，引导新的“学科评价质量文化”，全面改革排名性评估的一般做法，采用多项代表性指标代替总量指标，同时对规模指标设置数量上限，克服单纯追求规模的倾向，在“比总量”和“比人均”之间找到“比质量”这个平衡点。改变以“SCI论文数”单一指标评价学术论文的做法，首次采用“定量与定性、质量与数量、国内与国外”相结合的“多维度学术论文评价”方法。如将论文“他引次数”及“ESI高被引论文数”与最新发表的高水平期刊论文同时纳入评价指标等，意在创立学术论文评价的新质量文化。

总是要历史性地看问题。当时的ESI，受到的重视程度绝对不一般，而且确实成功扭转了只看论文数量的时代性缺陷。曾有教育主管部门的领导说过，心目中好的高校都排在ESI前面，而排在ESI前面的都是心目中好的高校。还有知名学者认为选择ESI体现的是高校的国际视野。将高校放到国际舞台上作比，这是一所好的大学或是想成为一所好的大学的高校所必须具备的。

中山大学老校长黄达人还经常以ESI做例子，当时他在北京开会，教育部一位领导做报告时说，可以关注ESI这个指标。然后是作为进入ESI前1%学科最多的两所大学的校长上台发言。”我当时心里就咯噔了一下，因为我在学校里面讲过狠话的，只要我当校长绝不给学院下任何指标，连科研指标都没有，我始终认为，成果是老师干出来的，而不是校长下指标下出来的。我连说惭愧，连ESI是啥都不知道。还准备回去后赶紧去查查看，找两个离1%最近的学科努力一下。结果查完以后同事们告诉我，中大进入前1%的学科在全国排第三。当时我很高兴，后来在学校大会上说，ESI给我的感受是，蓦然回首，那人却在灯火阑珊处。我希望一定不要去追求指标，但是真按指标来评价大学的时候，我们表现也不错。我想，这大概就是我想追求的最高境界。”对学术成果的追求，能享受到“慕然回首”之感，是幸运的，也是幸福的。

鉴于这个数据越来越受重视，教条化开始出现了。ESI就在那，你怎么想，怎么用，你想怎么用，还是取决于你。它再准确，也只是对论文的评价，而不是对学科的全面评价，更不是对大学的全面评价，当然更不能作为唯一的评价。

对了，第三轮学科评估采取全部学科一次性评估的方式，抑制了相近学科轮流参评带来的材料拼凑问题。首次将学生国际交流作为人才培养指标；首次设置“优秀毕业生”指标，强调学生毕业后的职业发展质量；将“学术声誉”扩展为“学科声誉”，首次将学术道德纳入声誉评价。这次有390多个单位的4200多个学科参加，学科参评率比上一次增长79%。除2所“211高校”外，其它“211高校”、“985高校”均参加了评估。全国高校中的国家重点学科，参评率为93%，博士一级授权学科的参评率为80%。

第三轮学科评估是学科评估影响的分水岭，部分原因在于2012年我国学位授予和人才培养学科目录调整及学位授权点调整刚刚完成，学科评估的关注度进一步提升。我想更为重要的是，评价指标更为科学、视野更为国家化，不把学科评估看得很重的学校已经不多了，学科评估的引导功能开始凸显。有关部门和培养单位在学科规划、学科调整和绩效分析等方面将学科评估结果作为重要参考。有些省级地方政府参考本地区参评的第三轮学科评估结果，投入专门经费，支持学科建设。“以前各学校都是拿规模来说事儿，但现在让各个高校明白，要做最好，不是做最大。”有专家这样说。

影响越来越大了，学位中心也不断强调：评估不是政府的行政性、审批性评估，只是给学科的建设和发展提供一个参考，不要过分关注评估得分和排位，希望大家能够理性看待、合理使用。

直到现在，学位中心也在不断强调这个理念。

五

第四轮学科评估在2017年12月28日公布结果。早前的9月20日，教育部等三部门公布世界一流大学和一流学科建设高校及建设学科名单。进入“双一流”建设名单对高校来说意味着什么，高校自己比谁都清楚。毕竟这与资源配置紧密相关。尽管学科评估公布在后，但“双一流”的实行还是让学科评估受到前所未有的重视。

这一轮的评估结果按“分档”方式呈现，不再公布具体名次。具体方法是按“学科整体水平得分”的位次百分位，将前70%的学科分9档公布：前2%（或前2名）为A+，2%～5%为A（不含2%，下同），5%～10%为A-，10%～20%为B+，20%～30%为B，30%～40%为B-，40%～50%为C+，50%～60%为C，60%～70%为C-。

在受到重视的科研评价方面，首先是对基本科学指标数据库（ESI），针对中国的学科特点，做了一些技术改进和对接，从而建立中国式的ESI评价模式；其次是学科评估加强了对中国期刊的带动力度。学科评估要求“代表性论文”中必须包含一定比例的中文期刊，我们希望带动一批中文期刊走出去，在国际上发挥更大影响力；再次，增加考察学术研究的“结构质量”，限定每位教师只能填写一定数量的代表性论文，希望学科高水平论文有一定覆盖面。

把人才培养质量放在更重要地位来考察。增加指标，形成三维度评价格局，一是培养过程成效评价，二是在校生情况，三是毕业生质量。首次试点引入在校生和用人单位调查，将评价学生质量的话语权扩展到教育系统以外。引导我们的学科建设关注学生对我们的评价，关注用人单位对我们的评价。

实际上，自2002年首次开展学科评估工作以来，评估方案几经修改与完善，不断继承创新，一方面表明了学科评估所始终坚持的问题导向与对社会各界不同声音的开放包容态度，另一方面也反映了评估过程的复杂性与艰巨性。

有专家就说，长久以来，中国大学始终被缺乏合理、准确、系统的评价标准所困扰，各种国内外的商业机构高举科学主义的大旗，以文献计量方法建构各种“洋标准”“洋指标”“洋名次”，给中国大学乃至全球大学产生巨大的社会和舆论压力。其中，基于科学主义评价范式的大学排名，将中国大学导向浮躁与功利，最近公布的有些世界学科排名将科学主义评价范式的弊端暴露无遗。实际上，能够被量化的东西可能并无价值，而有价值的东西往往不能量化。重科研，轻育人。在这些世界大学排名的导向下，国内大学热衷追逐“学术GDP”，也是“五唯”兴起的重要原因。现有的世界大学和学科排名基本上是以科研为导向，有些排名将科研成果的指标极端片面化。

在很多人看来，破“五唯”（唯分数、唯升学、唯文凭、唯论文、唯帽子），是第五轮学科评估的突破口。教育部相关负责人表示，评价科研水平不唯论文和奖项，将设置“代表性学术著作”“专利转化”“新药研发”等指标，进行多维度科研成效评价。评价学术论文聚焦标志性学术成果，将采用“计量评价与专家评价相结合”“中国期刊与国外期刊相结合”的“代表作评价”方法，不“以刊评文”，淡化论文收录数和引用率，不将SCI、ESI相关指标作为直接判断依据，突出标志性学术成果的创新质量和学术贡献，着力扭转“SCI至上”局面。坚持代表性成果专家评价与高水平成果定量评价相结合，将充分运用基于定量数据和证据的“融合评价”方法。

新中国成立初期，学科评价多采取基于专家评议的主观评价体系，但随后出现了学派之争，导致了少量压抑后进、有失公允的评价。20世纪90年代伊始，南京大学率先推进基于客观引用数据的评价体系，在当时推动了评价的客观化、定量化。但随后学术界乃至行政部门为其客观性和操作简便性所倾倒，把客观评价体系推向极致，而同行评议的分量逐渐削弱。日积月累，对以定量指标为核心的评价体系怨声渐起，引发了我国从客观至上的评价体系向主客观结合的评价体系的转变。学科评估也历经了上述介于主观评价与客观评价的博弈过程。——中国科学院院士、国家自然科学基金委员会原主任杨卫

学科建设是中国高校取得快速发展的基础，在教育部的引导下，大学对于学科建设意义的认识也在不断深化，最早可能局限于关注科研和研究生教育，后来把学科建设看作组织建设的过程，强调平台建设的重要性，注意学院的设置与学科口径的关系，现在更多地关注学科建设对人才培养的作用。——中山大学原校长黄达人

		自动登录	找回密码
密码			立即注册