评论：ARWU世界大学学术排行充满狭隘与无知，没有参考意义

gooduni · 发表于 2024-10-17 16:00:26

本帖最后由 gooduni 于 2024-10-18 08:04 编辑

ARWU世界大学学术排行充满狭隘与无知，排名没有参考意义
-------简评ARWU世界学术排行榜
（摘自zhihu，原作者为慕容龙飞，标题为转载时添加）
“世界大学学术排名（Academic Ranking of World Universities）”最早由上海交通大学世界一流大学研究中心于2003年发布，是世界首个全球大学榜单。2009年起由上海软科教育信息咨询有限公司负责。与上述各榜单的主办方不同，上海软科既非中立调查机构，所谓教育咨询也不是升学招生咨询公司，而是号称“擅长立足高校实际，量身定制解决方案，由最专业的团队助您成就更卓越的大学”，属于直接利益相关；但榜单采用的标准反而最硬性，本国大学丝毫不占优势，亦与上述榜单不同。而其掌门人的资历也比较特殊，属高校出身：

创始人刘念才（教授），1985年毕业于兰州大学化学系，并于加拿大女王大学获得高分子材料学硕、博士学位。之后任职上海交通大学，自1999年起在其高等教育研究院工作，现为该院院长。
合作人程莹（副研究员），2000年毕业于上海交通大学化学化工学院，毕业留校从事两年行政工作后于本校攻读研究生，读博期间与刘念才合著ARWU奠基文章（Academic Ranking of World Universities - Methodologies and Problems），并于2007年获得教育管理学博士学位。之后任职高等教育研究院、创立上海软科。
其计算方法如下：

校友获诺贝尔/菲尔茨奖数（校友获奖，10%）：校友指在该校获得学位者，统计诺贝尔文学与和平奖；不同年代权重不同，每回推十年权重递减10%。
教员获诺贝尔/菲尔茨奖数（教师获奖，20%）：不统计诺贝尔文学与和平奖；不同年代权重不同，每回推十年权重递减10%；以获奖时单位为准，同时署名两个单位时各计0.5；诺贝尔科学奖共享者的权重为奖金比例。
高被引教员数（高被引学者，20%）：数据来自Clarivate Analytics每年发布的“高被引学者名单（Highly Cited Researchers）”，2019年榜单使用了其2018年的调查数据，涵盖21个学科4000多名学者。统计时仅考虑第一工作单位。
Nature和Science论文数（N&S论文，20%）：只统计近五年普通论文（Article），不统计综述（Review）或快讯（Letter）等。不同作者单位排序权重不同，通讯作者单位100%，第一作者单位（与通讯作者单位相同时则为第二作者单位）50%，下一作者25%，其余10%；多通讯作者时以首位为准。
国际期刊普通论文数（国际论文，20%）：前一年收录于SCIE和SSCI的论文总数，只统计普通论文（Article），不统计综述（Review）或快讯（Letter）等。SSCI权重为2。
教员平均得分（师均表现，10%）：前五项指标得分总和与全时教师数比例。
与QS、US News、THE三榜的标准截然不同，充斥着“诺贝尔”、“高被引”、“Nature“、“Science”、“通讯/第一作者”、“SCI”等字眼，ARWU嫣然是一份中国高校特色榜单。

首先，该榜不涉及任何主观评价调查，完全基于客观数据。但数据来源单调，均在普通人接触范围内：诺贝尔奖、菲尔兹奖、高被引学者均有现成名单，用Excel即可完成统计；Nature、Science及SCIE、SSCI数据均可通过数据库爬虫和手动清洗实现。有一定的数据科学基础便可自制，因此统计价值不高。

也正因如此，早在十多年前就有学者进行了验证，并发表论文进行全方位质疑与抨击（Irreproducibility of the results of the Shanghai academic ranking of world universities、Should you believe in the Shanghai ranking?）。

ARWU尽管名为“学术排名”，其选用衡量学术水平的指标充满狭隘与无知：
学科局限：
诺贝尔科学奖与菲尔茨奖仅涵盖数、理、化、生、经等五个基础领域，仿佛对学科的认知停留在理科高考，完全忽略了人文学、工程学等重要学科（前三章介绍的榜单不仅没有遗漏学科，还为了避免降低学科间差别进行了标准化调准，考虑十分周到）。若按照ARWU如此简单粗暴的思路，其它领域实际也不乏最高等级奖项，完全能拓展这一指标：工程学有誉为“工程诺贝尔奖”的德拉普尔奖，计算机有图灵奖，科技大领域更是有“千禧年科技奖”。其对“最高学术荣誉”的理解甚至不如深圳政府的顾问团队：以2020年“孔雀计划”为例，其A类人才不仅规定了14个与诺贝尔奖和菲尔茨奖“同等级”的奖项，还考虑了25国科学院院士、15个学术组织主席等头衔——均有现成的名单，除非ARWU团队是手动统计，不会造成额外统计负担。
对Nature和Science的限定也意味着对多数研究方向和大学的利空。且不说每个学科的“顶刊”各有不同，即便是诺贝尔自然科学奖作品往往也未发表在Nature和Science上——有文献总结了有史以来截止2016年全部诺贝尔科学奖得主的学术发表（A dataset of publication records for Nobel laureates）：在有记录的诺贝尔物理、化学、生理或医学获奖作品中，仅有10%、19%和17%发表在Nature和Science上；其中物理、化学奖作品最常发表在Physical Review（32%）和Physical Review Letters（23%）、Journal of the American Chemical Society（15%）上，而发表在Cell上的生理或医学奖作品远多于Science。如此一刀切的设定让人不禁怀疑是否与创始人化学、高分子材料学的出身有关。
研究类型局限：
只统计普通论文，主动剔除了综述和快讯。一方面，有些情况下综述恰恰能反映学术界地位，即使是学生执笔，也是有一定学术威望的教授才会获得邀约。另一方面，尽管快讯长度小于普通论文，并不代表其价值低；刚刚提到有23%的诺贝尔物理学奖作品发表在Physical Review Letters，其形式均为快讯。从统计难度上看，这二类文章和普通论文并没有区别，完全可以像US News一样通过设定不同的权重进行区分。
更有甚者，仅考虑期刊（也是唯一的榜单），对研究产出的衡量缺乏代表性：对于计算机、人工智能、机器人等快速发展的领域，会议发表的地位远高于期刊；同样，人文类学科也有着不同的评价体系，以著书的地位相对较高。ARWU方法介绍中明确提到“考虑到社会科学领域的学者经常以著作等形式发表其研究成果，根据实证数据，我们对SSCI收录的论文赋予2倍的权重。”——既然有“实证数据”给出论文与著书间精确2倍权重比的依据，为何还要剔除著书数据本身？
衡量指标局限：
几乎所有指标以“数量”为主，尽管有“人均引用量”指标，占比仅2%，远低于QS和THE的30%，使其排名偏向大型大学。而同以研究产出数据为主的US News则多指标区分量/比，降低不同大学规模、乃至年份和学科等特点可能造成的误差。
“师均表现”指标中有3%对应人均诺贝/菲尔茨奖得主/校友率、2%对应人均高引学者率、2%对应人均N&S发表数，其分子远小于分母，且与大学规模没有明显相关性，标准化处理实属多余。
所谓“国际论文”指的是发表在英文期刊，与国际合作毫无关系；也是唯一没有考虑国际化水平的榜单。
有效对象局限：
历史上共产生约千名诺贝奖和菲尔茨奖得主，垄断了全球大学33%的评分。加上2018年Clarivate Analytics高被引学者名单约4000人，即跨度百年的5000人垄断了56%的评分。
Nature和Science每年各发表800-900篇论文，五年合计8500篇文章，夸张估计平均每篇文章有5个不重复作者，和大奖得主们一起、全世界累计约5万人垄断了89%的评分。
全球千百万非超高水平、非基础学科研究人员则仅由不足12%的分值代表，而更多基层教员、行政人员等大学员工对于大学的贡献得不到任何体现。
即便主打客观的US News榜，也通过评价问卷调查稍稍反映了教学水平，而本榜则完全以校友获得诺贝尔奖和菲尔茨奖定义为教学水平好坏的标准，完全忽略了数以千万计世界大学生以及他们在毕业后的表现。
综合以上原因，配合其毫不合理的分值设定，出现了有悖排名设计的漏洞：

近年在学术界崛起的中国大陆大学超过50%的分数来自仅22%占比的“国际论文”，剩余几乎全部来自占比44%的“高被引学者”和“N&S论文”——情况不限于中国，其它地区绝大部分大学的分值理论上限只有56%，沦为陪衬。
2019年度榜单上第1名哈佛大学高出第2名斯坦福大学三分之一的分值，仅仅12名后得分便不足50，第100名得分则仅为26，意味着90%的大学分布在25%评分区间里。不仅后段区分度荡然无存，连百位、五十位的代表性都十分有限。
假设哈佛大学的全体员工同时离职，使其学术职能完全瘫痪，那么仅凭历史荣誉，它仍能在近十年维持超过30分，位列50左右，明显不符合常识；而若假设诺贝尔奖和菲尔茨奖停止颁发、Nature和Science停刊、Clarivate Analytics停止公布高被引学者名单，那么其评价体系则瞬间崩溃，缺乏鲁棒性。

然而从“存在即合理”的角度，ARWU并非一文不值：

相比于复杂庞大的设计和统计，极简的数据来源和计算方法从根本上降低了出错和造假的可能。其中56%的分值精确到个人、可一一核对，占据剩余分数的论文数据来源单一、几乎无需过多调整，计算结果不至于有太大偏差；比问卷调查可操纵的空间和嫌疑都小很多。
回到21世纪初，在数据库尚不发达，研究人员对信息的接触范围、处理能力都十分有限的年代，作为首个衡量世界大学学术水平的榜单，当年ARWU的价值和其团队的视野都值得肯定。很可惜的是，随着QS/THE和US News分别与2004和2014年异军突起，20年过去了，中国学生学者走出国门，对世界大学有了全面深刻的理解，而ARWU却没有利用信息时代的浪潮新陈代谢，一味原地踏步，如今才显得如此荒诞。
QS一章提到，也许是日常来自学术权威零零散散的评价让我们下意识对部分大学进行了定位，因此以学术界评价为主的QS榜单“看上去”合理。ARWU也是类似的道理：普通大众很少有接触大学的机会，他们（包括许多大学生）对大学的印象很多时候恰恰就来自于媒体对诺贝尔奖、Nature和Science以及某某专家的报道。对他们而言，在谈论大学的“好坏”之前，听过没听过才是关键——如果听过、甚至经常听到，“应该”就是好大学。ARWU团队便是依靠这个原理，力求与中国媒体曝光度正相关，将大众印象量化为排名；这也能很好地解释了为何只有十几所大学分数不太低，毕竟普通人对自己不相关事物的记忆是极为有限的。打趣地说，类似“关张赵”、“狮虎熊”、“泰森藏獒詹姆斯”孰强孰弱等民间话题，ARWU能给百姓争论大学水平提供最坚实的依据。
更重要的是，不属于“普通大众”的人实际上很少，这里面包括了部分高校行政人员、教师和领导。且不说学术权威都无法脱离自身专业有效评价，高校人有大量与学术无关的职务，接触的大学和学科再多、在校园里工作和生活得再久，也不意味着他们对全球大学的学术水平有着正确的认识；尤其考虑到早期国内高校缺乏归国人才以及对特定指标的崇拜，他们甚至可能是最能和ARWU产生共鸣的群体。这里最典型的莫过于国内高校人事处：我一再强调是“发言权”和“决策权”给“权威评价”赋予了“正当性”；而在国内，人事处不单是办理人事手续的普通行政机构，同时也会是不从事学术却直接参与到招募、审核、决策的关键。所以，并列、甚至凌驾于教授认可的还有他们这个群体对高校建设的理解——很可能和所谓“高等教育研究院”的理解同源，亦或是直接受其影响——不管ARWU多么不堪，现实就是现实，对于向往国内高校的人来说，这份“理想高校政绩榜”的分量甚至可以说是最重的。

ARWU本身没什么含量，说白了，抛开它的“历史”，这玩意儿的技术难度和信息价值只配放在贴吧或者虎扑，作为“排名”是没有参考意义的，以后单独看到它，直接忽略就行了。当然别的所谓“名榜单”也只是比它好一丢丢而已；US News的榜单独作为学术产出榜有一定参考价值，像QS、THE也都可以直接忽略。

unisgarden · 发表于 2024-10-17 18:52:04

想多了ARWU是先定名次再调指标和权重

千成 · 发表于 2024-10-17 20:49:40

应该把阿贝尔奖加入指标，阿贝尔奖已经超越菲尔兹奖成了数学第一大奖

		自动登录	找回密码
密码			立即注册