您当前位置: 首页 > 史林春秋
 
史林春秋
史林春秋
 
文史动态
 
新书抢先看 | 读《明代湘湖…
浙工大举办南宋临安古都与中国…
新书 | 《吴庆坻行纪二种》…
新书 | 《浙学未刊稿丛编第…
 
特别关注
 
《唐诗三百首详解编注》的作者…
宋杂剧与瓦舍勾栏
谭其骧一纸定隆中
苏东坡与西湖景观的营造
史林春秋
 
唐云芝 | 从传统文献研究到智慧大数据建设 ——徐永明教授访谈录
来源:浙江大学中文系微信公众号  作者:唐云芝 徐永明  日期:2021-05-11

从传统文献研究到智慧大数据建设

——徐永明教授访谈录

受访者:徐永明教授

徐永明,浙江人文学院教授,博导。浙江文献集成编纂中心办公室主任,浙大经济与文化研究中心主任。浙江大学“大数据+学术地图创新团队”和“学术地图发布平台”(amap.zju.edu.cn)负责人,明代文学学会(筹)副会长、中国俗文学常务理事、浙江省政协应用智库成员。先后在哈佛大学东亚语言文明系、哈佛大学燕京学社做访问学者。撰写、整理和编纂了《元代至明初婺州作家群研究》、《文臣之首——宋濂传》《宋濂年谱》《明人别集经眼叙录》(合著)、《浙江文献要目》(副主编)、《中国古代戏曲考信与传播》《陶宗仪集》(1/2)、《郑元祐集》《胡奎集》《乌斯道集》《陶宗仪研究论文集》《英语世界的汤显祖研究论文集》(主编)、《方国珍史料集》《清代浙江集部总目》《美国哈佛大学哈佛燕京图书馆藏稀见明清总集》《美国哈佛大学哈佛燕京图书馆藏稀见明清别集》《美国哈佛大学哈佛燕京图书馆藏丛部善本汇刊》《美国哈佛大学哈佛燕京图书馆藏子部善本文献丛刊》《稀见明代戏曲丛刊》(副主编)等著述。先后承担了国家社科基金后期资助项目《清代浙江集部著述总目》、国家社科基重点项目《浙江古代现存著述总目》及国家社科基金重大项目“明代文学智慧大数据及平台建设”。

采访者:唐云芝

唐云芝,浙江大学人文学院2016级博士生,师从徐永明教授,浙江大学“大数据+学术地图创新团队”成员。现任教于浙江师范大学人文学院,主要从事元明清诗文研究与古典传记文学研究。

时间:2020年12月08日19:00—21:00

地点:徐永明教授办公室(紫金港人文学院大楼1001室)


一、传统文献学的学习与研究经验

唐云芝

徐老师,您好!我们了解到您在北师大读研时的专业是中国古典文献学,毕业后进入浙江省图书馆古籍部工作,两年后您考入浙大读博,选择了中国古代文学专业进行深造,研究方向主要为元明清文学。请问您当时从文献学转到文学是基于怎样的想法或考量?或是有什么外在的机缘吗?

徐永明

我大学学的是汉语言文学,当时的兴趣主要在外国哲学和外国文学。毕业后留校在图书馆工作,广泛阅读外国文学名著,并决定报考外国文学专业的研究生。但由于学校规定教辅人员不能报考外国文学专业,只能作罢。考虑到自己对文献学书籍有所涉猎,并在图书馆工作中积累了文献学的实践经验,所以我最终改选古典文献学进行学业深造。

第一次报考杭州大学古籍所的研究生。由于英语没过线,只能铩羽而归。第二次便报考了北京师范大学古籍所中国古典文献学专业的研究生。这次成功考上,师从龙德寿教授。那时候北师大的古籍所,一方面开设有版本学、目录学、音韵学等古典文献学课程,系统教授我们古典文献学的理论知识与方法;另一方面承担着一个大型文献整理的国家项目,即《全元文》的编纂。负责编纂《全元文》的李修生先生,给我们开设了元代的诗文和戏曲课程。在导师的引导下,我参与了《全元文》的校点工作;在所里元代文化和文学氛围的薰陶下,我的硕士论文专门选取了一位元代诗文作家进行文献研究。所以在北师大古籍所的读研时期,我收获了文献整理与研究的一点经验。

图片

硕士毕业以后,我来到浙江图书馆古籍部工作。工作期间,我时常见到浙江大学古代文学专业的徐朔方教授来古籍部查阅文献。早在研究生时期,李修生先生就专门介绍过徐先生的一些治学情况,我也时常阅读到徐先生的文章,所以就萌生了报考徐先生的博士生的愿望,最后成功进入徐先生的门下。我的博士论题《元代至明初婺州作家群研究》实乃硕士论文的延展和深化。

图片

总的来说,从大学专科到研究生、再到博士,我的专业领域没有发生太大的转变。只是在北师大求学期间,我接受的文献学教育与实践经历为后来的文学研究奠定了良好的文献基础。


唐云芝

这种影响对您的治学应该是极为深远的吧。因为可以看到,尽管专业转向古代文学研究,但文献研究一直是您主攻的研究方向与领域,也可以说是您治学版图的重心。这些年您出版和发表了不少非常有价值的元明清文学文献研究的论著,还有相当数量的古籍整理著作,您在研究生院也长期开设有元明清文学文献课程。所以,可否请您系统谈谈传统文献学对您治学的影响?

徐永明

这里先和大家分享一件有趣的事。我的岳母信佛。一天,她带我们到寺庙里烧香,给我抽了一根签。解签的和尚预言我今后将主要从事与文献有关的工作。其实那时我还没考上研究生,加之我对抽签算卦之类的东西从来不信,故也不以为意。现在想想,这个和尚的预言,其实还比较准确。

当时大学里有崇尚西学的氛围,我也看了不少外国哲学和文学的书。对于一个世界观和人生观尚未定型而又向往独立自由的青年人来说,很容易对这类书着迷。但看多了又会觉得肤廓而不切实际,反而会产生自己与周围的对立感,难以融入社会。对我来说,学习古典文献学,首先是一条将自己从西方现代浪潮中拉回到中国古典世界的导引之路。

王国维论读书有三种境界,第一境界是“昨夜西风凋碧树,独上高楼,望尽天涯路”。文献学,正具有帮助实现这一境界的功能。因此,我在研究生毕业之后,能够进入浙图古籍部工作并负责善本书的管理,可以说实现了我近距离接触典籍文献的渴望。在与浩繁的古墨书册相伴的日子里,我真正体味到“衣带渐宽终不悔,为伊消得人憔悴”的甘苦与乐趣。

至于主攻文献的整理和研究,这固然是受到了所学专业的影响,更多的还是缘于现实的种种需要。譬如,参与《全元文》的点校,便是硕士导师给我锻炼的机会。参与整理《全明诗》是博士后阶段的主要工作。《明前期诗文别集叙录》是整理《全明诗》的副产品,用来作为出站成果的报告。参与整理《稀见明代戏曲丛刊》,是我到浙大工作后,参与并协助学长廖可斌老师的高校古委会项目。编纂哈佛大学燕京图书书馆馆藏明清善本别集、总集等系列丛书,是因为我在哈佛大学访学,时任燕京图书馆的馆长郑炯文先生联系我,希望我选出值得出版的善本古籍予以出版。还有些成果是地方上的项目,如浙江省文献集成招标项目《郑元祐集》,台州路桥宣传部委托的《陶宗仪集》《陶宗仪研究论文集》,浦江县文联委托的《浦阳历朝诗录》等。

图片

2006年,浙江大学成立了“浙江文献集成编纂中心”,我被任命为办公室主任。已出版的《浙江古代著述要目》《清代浙江集部总目》都是阶段性的成果。由方建新教授和我主编的《浙江古代文献总目》将在今年下半年出版,字数约400多万字。

图片

我对搜集数字化古籍也颇为热衷。我在复旦大学做博后的阶段,古籍的数字化进程已经显现出一日千里的势态。我自那时起,开始收藏电子书,两年间刻了数千张光盘,光盘的容量从开始的600多兆上升到4个G起步。有了台式硬盘以后,硬盘的数据更是从几百个G升级到10个T以上。海量的电子书收藏,显然也是受了专业的影响吧。

图片

唐云芝

文献学对于古代文学专业的学习与研究非常重要,但是很多古代文学专业硕博生并没有接受过系统的文献学学习,对于这些学生,您建议可以从哪些方面自主培养扎实的文献学功底呢?

徐永明

文献学是古代文学学习者与研究者应具备的基本素养,版本学与目录学又是文献学的基础版块。关于版本学的重要性,清代学人张之洞有名言曰:“读书不知要领,劳而无功;知某书宜读,而不得精校注本,事倍功半。”关于目录学,近代学人汪辟疆亦有警句云:“目录学者,提要钩玄,治学涉径之学也。”总之,研治古典文献,当从版本与目录入门。

具体到我们古代文学的研究,无论诗文或是戏曲,不同的文类一般均存在版本的问题,所以我们研究某种文学典籍,首要之事是了解其版本的流传与分布情况,然后据此寻找相关材料,而通过书目文献“考镜源流,辨章学术”,则又实为必由之径。诚然,掌握版本目录是我们研究的起点,更是深入研究的基础。可以看到,有大成就的前辈学者,无不具有深厚的版本学和目录学功底,换言之,他们的成就与文献学功底密切相关。所以,我们的古代文学研究,须从文献学入门,亦需藉文献学而深入。

是否接受过文献学训练,对学生的文学研究影响甚大。对于尚未系统学习文献学的古代文学专业硕博生来说,他们首先要认识到文献学基础的重要性。如果基础不足,则须积极自主地去弥补与掌握。阅读、学习相关的文献学书籍当然是必要的,但除此之外,还应多去接触原典。如今,我们查阅原典的便利性,已大大优胜于前。以前老先生们看书要跑各地的图书馆,现在,由于大量图书馆收藏的古籍已被影印出来,我们对古籍原典资源的查阅已经非常方便。而正因为电子资源的大量出现,了解和学习相关技术以迅速提高文献查询能力,亦是相当重要的方面。


二、访学哈佛与学术地图的特色实践

唐云芝

今天的世界已经进入一个“大数据时代”,中西学界的人文研究也出现了对“大数据时代”的积极响应,这便是“数字人文”的兴起,而徐老师您应该算是中国最早接轨西方数字人文的学者之一。据了解,在2007年到2016年的十年之间,您曾四次访学哈佛,在第四次访学之后,您以及带领您的学生发表了一系列有关元明清文学文献的数字人文研究文章,并成立了大数据团队,也就是“大数据+学术地图创新团队”,应该说这四次访学是促成您从关注传统纸本文献到数据与文献并重的重要经历,可以分享一下您的这一段心路历程吗?

徐永明

研究生毕业之后,我到浙图工作的一个主要目的,即是希望近距离接触古籍文献,为自己的阅读提供方便。但工作之后发现,虽然自己阅读方便了,但是读者到我们图书馆来查阅文献仍然是一件颇为麻烦的事情。原因主要有二:第一,读者经常需要复印古籍,而复印费用比较昂贵;第二,读者来回图书馆的行程,需耗费不少时间与精力。尽管认识到读者之难,但当时的自己尚未有能力想到并施行有效的办法去解决这些问题,直到我接触到大数据。

事实上,在我的硕士阶段,计算机已经出现。但当时自己尚不会使用,我的硕士论文也没有借助电脑来写作和打印。工作以后,通过浙图的专门培训,我才开始接触电脑和使用电脑打字。记得当时的存储条件非常有限,文件储存主要依靠磁盘,数码相机也没有普及。及至读博,虽出现了能够全文检索的电子版《四库全书》,但由于自己没有机会接触到,我的博士论文撰写也没能利用到这些数字化产品。博士毕业以后,我到复旦大学做博后,彼时网上的电子书资源开始勃兴,尤其是超星网发布了大量在线的影印古籍。这些资源被一些网民下载,成为能够自主查阅的电子书文献。我当时即通过和一些网民交流,从他们那儿获得了大量的电子书资源。我把这些电子书刻成光盘,总数有数千张。当然,需要说明的是,我当时关注这些电子书资源,主要是想利用这些电子书,为自己个人的治学提供方便,而怎样利用这些电子资源,实现对相关文献的快速查找,我尚未掌握科学便捷的工具和方法。至于我对数据库化文献及数据库建设的关注,更是到了浙大工作以后的事情。

2007年,我去哈佛大学东亚系访学,这是我的第一次哈佛访学之旅。在这次访学中,我了解到查阅电子书的EmEditor软件,特别适合TXT格式的电子书。但是,EmEditor软件只是针对文本的一个全文检索工具,并不是一种结构化的数据库。我与数据库的结缘,得益于我当时的联系导师包弼德教授。到哈佛访学之初,包教授在他的办公室用老式电脑和显示器向我演示了他创建的CBDB(中国历代人物传记资料数据库)数据库。这个数据库刚创建不久,里面收录的数据仅限于台湾编的《宋人传记资料索引》《明人传记资料索引》等几种。因为看到收录的不过是几种二手材料的传记,并且这些数据自己都有,我一开始并没有把CBDB当一回事,并觉得它不会有多大用处。此外,包教授另建有CHGIS与WorldMap两个与中国历史地理信息相关的数据库。CHGIS 即中国历史地理信息系统,WorldMap则是一个全球地理信息研究成果发布和共享平台。我知道地理信息在文史研究上非常重要,但自己对这方面实在是毫无了解,所以当时对这两个数据库也没能给予充分关注。从哈佛回来以后,因惯例需要,我向学校领导报告了这个事情,遗憾的是,也没能引起学校的重视。

徐永明教授在哈佛大学Widener图书馆阅览室

图片

访学期间,哈佛大学包弼德教授给徐永明演示CBDB系统

后来我承担了一个国家重点项目,即“浙江著述总目”。在做这个项目的过程当中,我发现结构化的数据相当重要。因为总目的编排涉及大量作者、书名跟其他目录的匹配问题,而这些都需要用到数据库的知识。所以,自那时起,我开始主动学习Access数据库。2008至2009年,我第二次访学哈佛。在这次访学中,我参加了包教授主持的几次工作坊以及CBDB和CHGIS的培训,对包教授的数据库理念有了更深入的了解。但是,由于是刚接触GIS之类的软件,我对很多东西的认知,仍然还是处于一知半解的状态。直到2014年第三次访学哈佛,我对包教授的CBDB等数据库与数据库理念才有了彻底的了解。因为在这个时候,CBDB、WorldMap等数据库建设已经发生了很大的变化:首先是它的数据量大大增加;其次,群体计量统计、定位查询、空间分析、社会网络分析、可视化等功能已展示出强大的应用前景。所以在这次访学中,我决定开始学习GIS技术。当时CBDB实验室的中国籍工作人员和访问学者会无偿地教授我们这些技术,我也积极主动向他们请教。

2015年我第四次访学哈佛,主要目的是继续学习GIS技术,并且希望自己能够在国内建立一个类似的平台用于发布数据。所以这次访学回来之后,我便开始着手准备一些事项,以期一步步实现这个愿景。首先是撰写相关论文,奠定平台建设的研究基础。譬如,发表在《浙江大学学报》2016年第3期的《中国古典文学研究的几种可视化途径——以汤显祖研究为例》一文,是我的第一个尝试。在此之后,我带领我的学生又对多种文献或文学对象进行了可视化的探究,也相继出来了一些成果,如《〈全元文〉的作者地理分布及其原因分析》《〈全元诗〉作者地理分布的可视化分析》等。其次,建立相关科研团队,发挥团队效力,推进平台建设。2016年4月由我负责成立了浙江大学“大数据+学术地图创新团队”,这个团队隶属浙江大学社科院,以建设学术地图发布平台为目标。而之所以要建设这个平台,主要是发现在哈佛WorldMap上发布地图数据极为不便,因为WorldMap用的是国外的地图作为底图,没有九段线,不符合中国的国情,所以我们有必要在中国建立一个自己的平台。当然,平台的建设过程历经了一些坎坷。一开始我主要是找企业和公司,希望他们合作投资创建平台,但均没有成功。后来在一次南京大学的数字人文会议上,我又遇上包弼德教授,我跟包教授建议由浙江大学和哈佛大学共同来建这个学术地图发布平台,包教授当即表示了赞同。2017年10月,即是在包教授的牵线之下,我们浙江大学与哈佛大学的地理分析中心签订了共建学术地图发布平台的协议。

图片

《全元文》作者分布图

唐云芝

对于长期接受传统古典文献与文学学习的研究者来说,转型数字人文研究应该并不是一件很容易的事,因为它不仅需要打破思维与视界,更需要切实的跨界知识与技术更新。据了解,您在2017年4月成立的浙江大学“大数据+学术地图创新团队”,便是一个跨学科的科研团队,并且,您本人还专门地去学习了Python语言。所以,可以具体介绍一下您的这个团队是如何跨学科运作的吗?在如何实现跨界知识与技术的更新问题上,可否也分享一下您的经验?

徐永明

浙江大学“大数据+学术地图创新团队”,是一个主要依托哈佛大学跟浙江大学共建的学术地图发布平台来运作的团队,团队的主要任务是围绕海量中国文史数据与地理信息的结合,展开数据库建设和空间分布的可视化分析。由于这个平台的建设与维护要大量涉及GIS、数据库建设领域的知识与技术,我们的团队成员,不仅有人文学院的老师与学生,也有来自地球科学学院、计算机科学与技术学院的老师与学生。其中,地球科学学院、计算机科学与技术学院的老师与学生,主要负责平台的技术建设与维护工作;我们人文学院的老师与学生,则主要负责建设数据,亦即学术地图的制作与发布。

图片

徐永明教授获浙江大学2018年度“十大学术进展”提名奖

关于我个人对数字人文技术的学习,这里主要向大家分享三个方面的学习经验。首先是对处理地理信息的软件的学习。这方面,除了刚才讲到的GIS外,目前主要是学习ArcGIS和QGIS。因为我们人文专业经常会涉及地理信息的分析,而对这些地理信息进行可视化分析,ArcGIS和QGIS是时常需要用到的软件和工具。其次,是对数据库知识的学习,这里主要是Excel和Access数据库。由于强大的数据处理功能与技术,数据库对结构化数据的建设,如人名、地名等具有重要意义。比如Vlookup函数,可以快速实现数据的批量匹配;数据透视表(pivot table),能够自动进行计算。显然,这些数据库功能与技术的使用,不仅能使我们的工作变得高效,它的运行结果,较之人工操作,亦能更为精确。

第三,对可视化软件和编程语言的学习。可视化软件如Gephi与Pajek,这两个软件是实现人物社会网络关系可视化的重要工具。编程语言则主要是Python,Python是目前世界上最流行的一种计算机语言,它的语法不是很难,人文社科的学者一般都能够理解,但它的功能又着实强大,无论是爬数据,文本的挖掘,图像的处理与可视化,还是结合其他文本、Excel等进行大数据的处理,它都可行,并且非常高效。比如我曾经用Python来制作过索引,它不像传统制作索引的方法,需先生成页码,再提取页码信息,方能编写索引,而只需给条目加上ID号,在排版之前就可以生成索引,所以制作过程格外快捷。另外像将传统干支纪年跟现代公元纪年对应的工作,借助Python,可实现一次性精准标引,而若假以人工,不仅费时长,且肯定难避讹误。

总之,对于比较重要的数字人文软件与工具,我都会积极地去关注与学习。

图片

唐云芝

2018年3月,由您和您的团队促成的浙江大学与哈佛大学共建的“学术地图发布平台”(amap.zju.edu.cn)正式上线,截至目前,这个平台已历经了三年的发展,数据越来越丰富,影响也越来越大。可否请您对这个平台的性质、功能、内容、使用与运营情况分别作一个具体说明?作为一个以文史地图发布为重心的数据库,您认为它在中国文史数据库建设史上有怎样的意义?对平台的进一步建设又有哪些期待和规划呢?

徐永明

我们的学术地图发布平台,是中国第一个综合性的地理信息数据发布平台。它的功能,简单来说,就是为海内外学者提供一个地理信息数据的发布空间。因为根据学者的研究,人类的信息有80%是跟地理有关的。中国有着悠久的历史和浩如烟海的典籍文献,大量历史事件的发生、历史人物的活动与籍贯分布等,都涉及丰富的地理信息,我们要做的就是把这些海量的地理信息制成可视化的地图与数据集合,发布到平台,形成一个聚类的检索系统。

具体到内容来看,平台自2018年3月19日上线以来,不到三年时间,总共已发布1200余幅学术地图,400多万条条目,几千万字的数据,有近50个国家和地区的读者来访问平台。从数据对象的形态角度来看,文史人物的行迹与地理分布,和文史文献的地理定位与查询,是平台目前所发布的数据资源中的大宗。其中,主要依托年谱制作的文史人物行迹图已逾400幅,像司马迁、李白、杜甫、汤显祖、竺可桢等文学与文化名人的行迹图或游历图,在平台上有着非常高的浏览量。文史人物的地理分布图,则一般依托相关文献载录的群体地理信息而制作。如前面提到的《全元文》《全元诗》的作者地理分布图,以及目前平台上发布的《全宋文》《全宋诗》《全宋词》《全金元词》《明诗综》等文献的作者定位图,是对文学总集作者地理信息的可视化呈现。其他依据书目文献整理的作者地理信息,依托地方志与科举文献对特定人物群体,如职官与进士的地理信息进行的可视化成果,平台上也非常的多。此外,平台也涉及部分文史人物的社会关系网络图。文史文献的地理定位与查询,则既有以书籍文献为中心的地域考察,也有对特定作品的地域考察。前者如各省古代地方志查询系列、清代各省别集查询系列等;后者则如《全唐诗》《全宋诗》涉浙诗歌的定位查询、汤显祖诗文定位查询等。而除文史人物与文献的地理数据外,平台也涉及不少有关非物质文化遗产、旅游景点、交通、经济、农业、生命科学等方面的地理信息数据。如全国皮影戏分布地图、中国名胜古迹分布图、清代新疆驿站图、我国茶油消费市场分布图、食品谣言分布图、杭州传染病时空分布图等。总的来说,我们平台所发布的地理信息与资源以古代文史类为重心,也广泛涉及现当代的多个学科领域与众多层面。

图片

苏轼行迹图

就使用与运营情况来看,平台主要是面向社会各界研究者开放注册。用户可围绕上传发布与查看下载两个向度的功能操作, 达到多元化数据信息资源的汇聚、传递与整合。一方面, 用户可将自己通过图形、空间地理、时间轴与关系图等形式生成的数据集成果,自主发布于平台, 达成数据共享;另一方面, 基于平台多维关系性及交互性的建设与数据开发与管理模式,发布者既能自主编辑、查看数据的各种属性与变量, 亦可通过不同的检索项来分析各层数据,并且能够与其他发布者交流沟通,促进数据资源的深度共享。据统计,目前已有来自将近50个国家的访问者,浏览过我们的平台;在浙江大学的1000多个网站里面,我们这个平台的阅读量排名已经进入了Top20,可见它的影响力确实是越来越大。

平台的建设意义,则主要有以下几个方面。第一,作为中国第一个综合性的地理信息数据发布平台,它能够为各行各业的地理信息的数据发布提供可能。第二,它能提升中国在大数据建设中的话语权,避免“数据在中国,数据库在国外”的现象的发生。比如美国哈佛大学的WorldMap,就非常注重对中国数据信息的采集,如每年的铁路变化、地铁变化、人口变化、空气质量变化、机场变化等,都有实时的收集。所以,美国要了解中国各方面情况,只要调出相关地图里面的数据,就能一清二楚。但中国自身却未能拥有这样的综合性数据库,而学术地图发布平台的出现,正可弥补这一空缺。第三,在长三角一体化上升为国家战略的背景下,平台能为浙江争取建立长三角大数据中心所需国家资源抢占先机。第四,它能为政府决策、社会服务以及科学研究提供参考。第五,平台对涉浙地理信息的集中发布,也能够为浙江省诗路文化带文化工程的实施提供科学依据和学术保障。其他如助力智慧旅游,帮助中小学生在时空交互印证下更有代入感地去了解国情、省情、地情,乃至学习相关文史知识,也是平台能够发挥的现实意义。另外,这个平台的建设,也可以使我们浙江成为文化大数据的汇集中心。

图片

数据是一种无形的资产,所以对于平台今后的期待和规划主要还是在数据建设上。首先,基于我个人的专业,平台今后的数据建设方向将主要着力于与文学相关的层面。比如文学作家方面,拟建设一个从先秦一直到现代的一流、二流作家行迹数据库;对于他们的文学作品,也拟作更全面、细致的地理信息统计。其次,基于浙江诗路文化带工程的施行,涉浙诗歌文献数据,也将是平台数据建设的一个重点。第三是地方志数据的建设。我前面已介绍到平台上有不少从地方志中提取的地理数据,但相较中国古代地方志的体量而言,现在建成的实际仅为其中很少的一部分。并且,地方志是一个可以当作准结构化的地理数据集或数据库来看待的文献,像其中的职官志、人物志等,都是可以快速实现可视化的准结构化数据。目前国外已经在进行这方面的建设了,如果我们中国自己不去建设的话,以后将会失去这个方面的话语权。所以,我们一方面要自己去积极建设,另一方面也要呼吁国家来重视这个问题。另外,中国的家谱文献也有很大的体量,并且也涉及大量的地理信息,所以家谱文献的数据整理,也将是今后平台数据建设的一个拓展点。


三、新迈步:明代文学智慧大数据建设

唐云芝

您今年申请成功的国家社科基金重大项目“明代文学智慧大数据及平台建设”,应该是您继“学术地图发布平台”之后,在中国文史数据库建设实践上的又一个重要迈步吧,可以介绍一下您申报这个项目的缘起吗?

徐永明

“明代文学智慧大数据及平台建设”这个项目的申报,首先是基于对目前数据库发展的一个前沿性把握。我认为,当前人们阅读的文献,已呈现从纸质文献、数字化文献,向结构化数据文献、智慧化数据文献方向迈进的趋势。前面两种文献形态,我们已非常熟悉。结构化数据文献,其实也比较容易理解,它主要是将文献结构化,导入数据库,变成一种结构化的数据。如人们日常使用的Excel、Access等表格,就是一种结构化了的数据。另像我们前面提到的CBDB、CHGIS,以及我本人在做的“学术地图发布平台”,也都属于这种类型。智慧化数据文献,则是利用结构化的数据作后台数据,对前台的数据进行机器标引,辅以人工标引,然后利用大数据技术使前台的文本变成智能化的数据,它具有知识谱系化、可视化、集成化的特点。比如,一个文本,一旦变成智慧化数据,它传达的信息,就不仅仅是文本本身的信息了,文本的每一个字符、词语、段落,都蕴藏了丰富的文本之外的信息,展示出庞大的知识谱系。目前,已出现了一些与人文有关的智慧化数据库,如MARKUS(文本标引平台)、“唐诗别苑”平台、“搜韵诗词”平台、《宋元学案》知识图谱可视化系统等。但需要指出的是,这些智慧化的数据,由于没有综合利用大数据的技术,加之结构化的数据准备不足,只能说是初步具有智慧化的特点,智慧化数据与数据库的建设实际尚处于初级阶段,还有极大的、必要的发展与成熟空间。所以,从数据库的发展来看,建设智慧型数据库是未来的趋势,“明代文学智慧大数据及平台建设”便是要做这样一种尝试。

另外,我们知道,明代文学的文献体量非常大。在明代文学领域里面曾经有两个很大的文献整理工程,一个是《全明文》,一个是《全明诗》,但最后这两个工程都停滞了,或者说夭折了。其中的一个主要原因即是,这两个工程需要耗费大量的人力、物力与财力,并且,这种耗费是长期性的,参与工程的年轻人因为长期见不到成果,就失去了积极性。另外,年轻人将精力都放在古籍整理上,也不适应现在的考评体制。但是,在大数据时代,传统的文献整理,完全可以利用大数据技术来快速实现,机器已能够代替人工做绝大部分的事情。像OCR文字识别技术,在识别版刻体字上,准确率已高达85—90%;用机器进行古籍校点也能有85—90%的准确率。并且,我们还可以利用机器标引,再通过众包技术让专家对机器标点或标引后的古籍进行校对。这样,前台标引后的数据,既可与后台数据进行关联,也可与前台自身的相同数据进行关联,从而形成一个庞大的知识谱系。所以,我认为在大数据时代,机器能够做的事就不要再耗费不必要的人工了,而应该让专业的人去做专业的事。总之,从文献整理的角度来看,“明代文学智慧大数据及平台建设”是在大数据时代下,使用大数据技术在线整理明代文学文献的一种全新尝试。

唐云芝

这个项目具体是要做什么工作呢?相较“学术地图发布平台”的建设,“明代文学智慧大数据及平台”的建设,将会有哪些方面的不同?

徐永明

目前我对“明代文学智慧大数据及平台建设”这个项目所要做的工作,提出的一个总的设想是:围绕明代文学作家和作品,借鉴知识图谱理念,综合运用大数据技术,如计量统计、定位查询、聚类查询、空间分析、词频分析、数据关联、网络分析、机器标引、文本挖掘等,将明代的文学文献和研究成果图谱化、智能化,建成一个集文本阅读、查询、研究、欣赏于一体,熔审美阅读、知识学习、场景体验于一炉的智能化和专业化大数据平台。平台建设当中的具体工作又主要包括三个方面的内容:一是后台标引数据库的建设,这方面主要包括辞典库、人名库、地名库、诗词曲韵库、职官库、典故库、图库、影音库、著述库、篇名库等;二是前台作家作品的在线整理与标引;三是明代文学智慧数据平台建设。

图片

明代文学智慧数据平台

事实上,建设明代文学智慧数据平台的一个直接目的,即是让读者对明代文学文献的阅读与研究达成一种智慧化的体验。比如读者阅读一个文本,里面遇到的人名、地名、职官名、典故或陌生的词语,我们都将会提供现成的标引数据,而读者只需点击相关的词语,就可查看这些数据。并且,这些数据还可关联其他相类与相关数据来呈现这个词语,包括学术史在内的知识图谱。又比如阅读《三国演义》。《三国演义》有很多国家的、不同语言的版本,所以我们将增设相关的语言切换功能,满足不同语言的读者的需要,并且也考虑把《三国演义》的视频资源,通过剪辑与分割跟文本形成对应,尽可能为读者的阅读提供集成式的数据资源。总之,我们的设想是让读者通过平台研习明代文学文献,可以直接省去传统文本阅读中翻查工具书的时间,同时也想通过智慧数据的提供,帮助他们快速发现问题。另外,平台的建立,实际是将文献整理平台化、网络化,而这不仅是改变文献整理的范式,我认为它也将让我们传统校勘学与版本学要做的工作,可以借助平台与网络快速完成。当然,这些现在都还是设想,这个设想最后能做到怎样的程度,还有赖于目前能够达到的技术水平和经费支持力度。

      至于“明代文学智慧大数据平台”与“学术地图发布平台”的不同,我觉得通过我先前的介绍,已可对这两个平台,在面向的数据对象、功能和用途以及架构类型方面的不同有比较清楚的了解,这里我对两个平台在架构类型上的不同再做一个强调吧。简单来说,“学术地图发布平台”是一种结构化的数据库,而“明代文学智慧大数据平台”是智慧化的数据库。结构化的数据带有碎片性,因为它并不能把一个文本完整地展现在读者的面前。而智慧化的数据,不仅能够展现完整文本,同时又有结构化的数据作为后台支撑,这使得它能够通过数据关联,及时解决读者文本阅读中的遇到的各种障碍和问题。应该说,智慧化的数据库是更高级别的数据库架构类型,也是未来数据库建设的发展方向。但是,也要说明的是,结构化数据库是智慧化数据库建设的基础,与智慧化数据库建设有紧密联系。例如,我们的“学术地图发布平台”将会成为“明代文学智慧大数据平台”的卫星平台;“明代文学智慧大数据平台”里的地理信息,也可以链接到“学术地图发布平台”来呈现。

感谢原文作者及发布媒体为此文付出的辛劳,如有版权或其他方面的问题,请与我们联系。本文仅供参考,不代表杭州文史网观点

相关内容
中古史纪念|田余庆先生的“治学段子” 2024-12-20
谭其骧一纸定隆中 2024-12-18
唐五代江南史研究的广阔天地——张剑光教授访谈录 2024-11-26
学缘中的恩情与亲情——深切缅怀恩师金普森先生 2024-11-22
张帆:中国古代史史料的类别与特点 2024-10-08
 
Copyright@2015 www.hangchow.org All Rights Reserved 免责声明
本网站所刊登的信息和各种专栏资料, 未经协议授权,不得使用或转载
主办单位: 杭州文史研究会  地址:杭州市政协  电话/传真:0571-85100309