|
楼主 |
发表于 2024-7-6 16:34:11
|
显示全部楼层
本帖最后由 zgjyb 于 2024-7-6 17:52 编辑
; u d1 ^+ p' n! f% U9 F8 P4 h3 E7 q7 q: ~
全球最大甲骨文多模态数据集宣布开源,助力甲骨文智能算法开发
8 m. i [+ E4 n4 ?( _/ {6 A5 ~$ A/ R* ~+ z: g
7月5日,在世界人工智能大会上,“数字甲骨共创中心”宣布将全球最大的甲骨文多模态数据集正式开源。该数据集包含一万片甲骨的拓片、摹本,以及甲骨单字对应位置、对应字头、对应隶定字以及辞例分组、释读顺序等数据。基于该数据集,研究人员可开发甲骨文检测、识别、摹本生成、字形匹配以及释读等方向的智能算法,助推甲骨文研究加速数字化和智能化。( q+ }% u# K1 U, ]- z7 G8 k/ i
* ?# Z* U) v7 d% R
据介绍,数字甲骨共创中心由安阳师范学院甲骨文信息处理教育部实验室、腾讯SSV数字文化实验室、腾讯优图实验室、中国社会科学院甲骨学殷商史研究中心、中国社会科学院考古研究所安阳工作站、厦门大学多媒体可信感知与高效计算教育部重点实验室、郑州大学汉字文明研究中心等单位共同发起建立,吸纳了来自中国社会科学院古代史研究所、英国剑桥大学、法国高等研究实践学院、日本立命馆大学、美国罗格斯大学、加州大学洛杉矶分校等高校和研究机构的专业科研力量支持。& N( y' T. X6 G, c7 O* m7 s' U
% i1 y* U( E+ j0 p# c$ X$ T2 _甲骨文是汉字源头,也是迄今为止中国发现的年代最早的成熟文字系统,它记录了商代政治、经济、军事、文化等诸多方面的内容,展示了中华民族的智慧和创造力,为古文字研究和传承、中华文明探源以及中国上古史体系的构建提供了第一手史料。3 ]/ q( C) T0 Y
1 K- f. t$ [4 V7 U. h$ D$ I
但甲骨文研究存在众多难点。甲骨自然损坏速度较快,保存、展示、利用不易,且出土甲骨都分散收藏于国内外。同时,甲骨文研究专业门槛高,近7成已发现甲骨文还尚未释读,也急需提升考释效率。近年来,随着AI技术的快速发展,探索AI与甲骨文研究相结合,成为了研究人员的解题思路。4 o l& _2 v- a+ W
4 w* ^0 N" [& a# e( ^高质量的AI算法则非常依赖高质量的甲骨文数据集。过往,业界的甲骨文数据集存在信息简陋、标注信息较简单以及单一数据集字数较少等问题,比如检测数据集,只能把字抠出来,不知道字是什么;字符识别数据集,只能认几百个字;因为专业知识缺乏,有些标注信息不完善等。这些也成为了甲骨文智能算法开发的一大掣肘。
: {! A1 H! W0 y) F K8 `" i$ ^; E: a3 ]% c0 s" O7 U
此次开源的甲骨文多模态数据集集合了甲骨文数字化研究的最新成果。8 J4 M# i6 a6 ?6 Q" o
, A4 s; w& S) {6 W" Y
一方面,该数据集吸收了当前业界最先进的甲骨文研究资料,包括剑桥大学博士秦培超发布的镜元甲骨文字库,该字库考虑了人工智能标注需求的字库进行了细粒度的异体字标识;以及清华大学黄天树教授发布的《摹本大系》,得益于其具有大量甲骨片清晰字形,降低了标注的难度。. i0 `; B- b# M: D, q4 O& C
5 [9 v- O; U& A$ ~" R9 t
另一方面,AI相关技术的应用也为数据集的信息丰富提供了支撑。比如由腾讯优图实验室联合安阳团队开发的甲骨字检测模型,可以对甲骨片上的字进行一个初步的标注;字形降噪与匹配模型,为检索提供了最直接的方法;甲骨校重算法,可以实现拓片与大系摹本的配准,使得大系摹本可以直接辅助拓片的标注;同时双方联合打造的协同创新平台,也大大提升了数据标注的效率。5 O, f# p: @, c
1 ?; g: V2 V* m6 s
此外,数据集专业复查以甲骨文信息处理实验室的研究生为主力,充分融合了甲骨文知识和机器学习知识的专业知识,也大大提升了数据集在AI算法研究场景下的可用性。) }* }9 d% i6 G( y1 z& h) A# ?! w3 ~$ x
% [9 z( B4 }( v& \$ y% O
值得一提的是,腾讯在刚刚启动的探元计划2024项目中,联合数字甲骨共创中心发布甲骨文AI破译需求,揭榜挂帅,期待与有技术储备、有意愿共创、致力于AI助力甲骨文破译的科研机构共同形成解决数字文化演示方案,助力甲骨文破译。经过最终遴选评审的合作伙伴将获得20万元资助,一起共创甲骨文AI考释破译的新算法、新工具、新方法。 $ N0 f" y! u8 b
$ d$ [! C$ m/ \& }- w中国社会科学院学部委员宋镇豪表示,甲骨文是中华文明的重要瑰宝,甲骨文研究不仅有助于揭示中国上古信史,还能为现代汉字由来和汉语研究提供标志性依据。通过AI技术的应用,有望加快甲骨文探析进程,解决长期困扰学界的疑难问题。希望更多的科研机构和专家学者加入到这一伟大事业中,共同拓展甲骨文研究工作新天地。
, C$ o. d8 ~! u/ V$ A' ~. C! A7 g2 F* f
安阳甲骨文信息处理教育部重点实验室负责人刘永革表示,甲骨文的研究对于中华文化的传承和发展具有重要意义。数字化和人工智能技术为甲骨文的破译带来了新的可能性和机遇。我们期待与更多有志于此的科研团队合作,利用先进的技术手段,进一步挖掘和解读甲骨文中的丰富信息,促进历史文化的传承与创新发展。用人工智能等数字技术助力甲骨文考释的需求有文法分析、释文翻译、辞例拟补、残字补全、辞例辅助缀合等等,潜在的应用场景有包括古文字研究与考释、汉文字研学与普及教育、甲骨文展览及内容制作与传播等。
$ ]3 P: D' h4 ]9 `1 j" e @: m! |
厦门大学教授,国家杰出青年科学基金获得者纪荣嵘表示,甲骨文数字化及多模态甲骨文数据集的发布为甲骨文的研究和传承注入了新的活力,具有里程碑式的意义。这一创新举措不仅将古老的甲骨文以精准的数字化形式得以保存,确保了文化瑰宝的永续流传,更通过多模态数据集的方式,集成了拓片、摹本,辞例分组、释读顺序等多重元素,为研究者构建了一个全面而深入的研究平台。全球最大的甲骨文多模态数据集的发布,必将极大地推动甲骨文的跨学科研究,让我们能更深入地探寻其背后的历史脉络、文化内涵和社会背景。同时,为公众打开了一扇直观而生动了解甲骨文的窗口,有力促进了中华优秀传统文化的传承与普及。
7 o' ?; C. N* q1 {8 E% [0 f! E8 @( G+ F
腾讯云副总裁、腾讯云智能负责人、腾讯优图实验室负责人吴运声表示,人工智能正在给包括甲骨文研究在内的科研场景带来新能量,以前所未有的方式推动科研工作的进展。作为前沿技术的探索者,腾讯不断探索将人工智能技术深度应用于产业场景中,同时搭建开放的技术平台,推动技术普惠。此次联合数字甲骨共创中心开源全球最大甲骨文多模态数据集,我们期待有更多技术团队能够携手共进,探索人工智能技术在更多场景落地,共同为甲骨文研究提供更多助力。
1 K( c* P' p) E4 }8 Y! i6 O. y( j9 T+ x+ n* }
腾讯数字文化实验室负责人舒展表示,守护中华文脉,焕活汉字源头。用人工智能助力甲骨文“破译”和活化利用,我们一直在探索,将“甲骨文AI破译”纳入探元计划支持的创新探索型项目的定向命题。联合数字甲骨共创中心发布甲骨文AI破译需求,揭榜挂帅,期待与有技术储备、有意愿共创、致力于AI助力甲骨文破译的科研机构形成解决方案。经过遴选评审的共创伙伴将获得资助,共创甲骨文AI考释破译的新算法、新工具、新方法。
' F5 @; X1 _# u# K: o6 D8 B1 f" v7 T2 K
近年来,腾讯持续探索数字科技与文化深度融合,运用前沿数字科技帮助文化遗产保护传承。
2 n9 a0 W5 [% f8 V' g; {
7 t, q( E2 L3 l) b/ g3 p% |: K2022年,腾讯SSV数字文化实验室、腾讯优图实验室与安阳实验室、厦门大学首度携手,共建甲骨文开放创新平台,用新一代数字科技助力甲骨文考释研究与传承活化,以可持续社会价值创新的方式实现“科技+甲骨文”的共创共益,融合智能化、网络化、数字化的科技理念实现甲骨文考释研究、展示传承、活化利用的模式转型升级。( Q4 m$ Z' r$ b( J
! N4 ^6 }7 g5 [
2024年,合作团队发布了“数字甲骨国际共创计划”,依托“殷契文渊”研究平台和“了不起的甲骨文”活化平台及探元数字文化开放平台,邀请甲骨文相关收藏机构、研究机构、文化机构、教育机构和社会力量等共建共享、共创共益。
8 _: ^2 e* U& F, I& f. Q- A& s
" o% j! Z8 C# thttps://www.sohu.com/a/791080756_114814- ^8 a$ f- u; V6 Y
|
|