您当前位置: 首页 > 史林春秋
 
史林春秋
史林春秋
 
文史动态
 
新书抢先看 | 读《明代湘湖…
浙工大举办南宋临安古都与中国…
新书 | 《吴庆坻行纪二种》…
新书 | 《浙学未刊稿丛编第…
 
特别关注
 
《唐诗三百首详解编注》的作者…
宋杂剧与瓦舍勾栏
谭其骧一纸定隆中
苏东坡与西湖景观的营造
史林春秋
 
古籍数字化、数字人文与古代文学研究——访中国社会科学院郑永晓教授
来源: 学衡微信公众号  作者:郑永晓 段海蓉  日期:2020-07-22

段海蓉(以下简称“段”):郑老师,您多年来一直从事数字人文方面的实践工作和理论探索,尤其参加了古典文献数字化早期的实践工作。像2004年,您参与创建了中国社科院文学研究所“数字信息工作室”;2006年,您主持建立了社科院“元代文献数据库”;且您多次参加了“中国古籍数字化国际学术研讨会”并阐发了很多关于“数字文献数据库建设”的理论思考。我们注意到,您的思考是随着科学技术的发展和文献数据库建设的实践而发生变化的。希望您能给我们简单介绍一下近年来古典文献数字化的发展方向、目前达到的水平和面临的困境。


郑永晓(以下简称“郑”):在我国,古籍文献数据库建设已经有30余年的发展历史。由于我国历史悠久,历朝历代积累的文献如汗牛充栋,治文史的学者面对浩繁的文献,往往只能选取自己感兴趣,且便于阅读的那部分进行阅读和研究。当然也有部分特别严谨和勤奋的学者经常到图书馆阅览,使用缩微胶片阅读机阅读善本、孤本等,但毕竟费时费力。另外,有些大型总集、类书,如《永乐大典》《古今图书集成》等,有时并不需要精读,但是其中含有很丰富有价值的文献资料,有时想快速查询到某个具体的文献也颇为不易。因此,当电子计算机这一新生事物在20世纪70年代末80年代初传入我国的时候,部分有远见的学者看到了计算机在处理古籍文献方面的潜在优势。


《国外社会科学》1979年第1期刊发了署名“力一”的《苏联学者谈电子计算机用于人文科学》,编译介绍了苏联《高等学校通讯》1978年第5期刊载的M·安德柳辛科介绍计算机用于人文科学的一篇文章。文章谈到,当时已经有若干人文学科积累了使用计算机的经验,如“历史学,对史料、考古学资料及民族志资料的信息加工。”又如“语文学:统计修辞学,确定作者,统计词典学”。文章特别提到,人文科学家研究方法与其他领域科学探索的方法颇有不同,因此有必要在高校和科研院所中设立专门的、用以解决人文科学任务的计算中心。次年,该刊又编译发表了《法国〈世界报〉谈电子计算机进入人文科学问题》一文,介绍了法国国立科学研究中心于1975年成立人文科学电子计算机实验室的情况。国外的这些信息可能激发了国内部分学者的兴趣,他们也开始关注并尝试将计算机技术应用于人文研究。


1985年,镇江市科委与东南大学(原南京工学院)合作完成了《红楼梦》数据库,深圳大学完成了《红楼梦多功能检索系统》。专家们认为:“《红楼梦》数据库的创建,是一项创造性的劳动,成绩卓著,不仅对红学,而且对于整个社会科学和文学艺术的研究均有促进和启迪作用。”(见彭昆仑《科学技术与<红楼梦>》,《红楼梦学刊》1995年第4期)


1978至1980年,钱钟书、杨绛先生的独生爱女钱瑗到英国访学,向父母说起英国用电脑储存莎士比亚资料与查阅资料的各种功能。钱先生立刻敏锐地意识到这一新鲜事物的意义,便提议文学研究所成立计算机室,希望其走向世界。自1985年起,钱先生助手栾贵明带领的团队在这一领域进行了艰苦卓绝的努力。他们研发的“全唐诗速检系统”还获得了1990年“国家科技进步奖”三等奖。但可惜这些文献数据库工程由于建设理念等方面的制约和缺乏商业化运作,没能在更大范围内推广开来。


至上世纪90年代后期,古籍文献数据库的建设进入快车道。1996年,书同文公司启动的文渊阁《四库全书》电子版是一项重要标志性工程。该工程动用300名校录人员、60名技术、学术和管理人员,历时三年多始告完成。这个软件能运行于多种版本的windows平台,且能够坚持文献原文图片与全文并存对照的模式。它既便于使用,也最大限度地避免引用文献而难以核对原文的尴尬。进入本世纪,书同文公司又相继完成了《四部丛刊》《四部备要》等文献的数字化工作。


国学时代文化传播公司的《国学宝典》系列、北京爱如生数字化技术研究中心的《中国基本古籍库》等也都是上个世纪90年代末启动的古籍文献数字化工程。2014年,中华书局推出《中华经典古籍库》,次年成立古联(北京)数字传媒科技有限公司,主营《中华经典古籍库》的研发和推广。另外,中日专家联合开发的《雕龙——中国日本古籍全文检索数据库》在方志文献的收录方面颇具特色。这些都是当前比较流行的古籍文献数据库。


应该说,近20年来,我国在古籍文献数字化和古籍数据库建设方面的成就是巨大的,也在一定意义上推动了学术的发展。但是,目前古籍数据库的建设也面临一个发展的瓶颈,虽然像《中华经典古籍库》《四部丛刊》等挂接联机字典、年代转换、批注等各种工具,很有实用价值,但是从根本上说,这些数据库的主体内容属于非结构化数据,除全文检索外,并不能协助学者完成其他工作。另外,我国古籍文献虽然数量浩如烟海,但总有完全数字化的那一天。因此,对古籍文献数据库进行升级换代势在必行。


未来的古籍文献数据库应结合数据挖掘技术、自然语言处理技术以及相关学者的深度参与,在古籍词频分析、版本分析比较、计算机辅助句读等方面有切实的进展。换言之,即充分利用人工智能、大数据等最新技术,力求完成人力所难以完成的宏观分析和微观比较等工作。它不应该仅仅是一个查询检索工具,更应该能协助学者进行多维度的统计、比较、分析,产生新的知识和思想。


:我们在关注、使用文献数据库的过程中,发现目前我们在古典文献的数字化过程中,古籍数据库建设大概有三种趋势。


第一是,专题性数据平台建设不断得到扩充。除了“中国金石总录数据库”“中国地方志数据库”“中国家谱族谱数据库”,还有依托地方文献的数据库建设不断在补充,如2018年西北民族大学开始建设的“敦煌古藏文文献数据库”,西南民族大学“《格萨(斯)尔》图像文化调查研究及数据库建设”,2019年5月11号黑龙江大学通过“中国满通古斯语言语料数据库建设及研究”项目等。可以说,在这个方面,地方性、专题性数据库建设逐渐形成规模,并且地方高校在这方面发挥了重要的作用。


第二是,整合式文献数据库的建设有了很大的成果,“中华基本古籍库”“中国历代诗歌数据库”等都是内容丰富、规模宏大的数据库。还有专家提议建设“中国古典知识库”等综合性、整体性的数据库。


第三是,服务于特定研究项目的个性化、订制化数据库的兴起。这个方面主要是一些营利性的计算机科技单位或者拥有相关技术的个人承接的比较小的项目。在研究者与特定机构沟通过程中,由研究者提供数据库所需要的文本,并阐明希望该数据库应该具备什么样的检索功能和结果呈现方式,而拥有技术的相应机构或者个人进行研发。这种私人订制式的数据库为学人在特定研究对象尚未建成综合性数据时,提供了诸多的方便。当然,这种类型的数据库比较小,也尚未形成产业化。


这三种趋势,是我们作为数据库使用者形成的比较直观的认知,不是十分的严谨。能不能请您就这个问题作进一步的阐述,或者指出我们的认知误区,让我们拨云见日,有一个更深理性的认识。


:“拨云见日”谈不上,谈一点我自己的感想吧。就近30年来数据库建设的历史和经验观察,质量最高、社会效益最好的是商业运作的数据库。因为数据库的建设需要资金和人才的高投入,费时费力还容易被盗版,没有足够的资金很难维持正常运营。科研机构和高校开发的专题数据库较多,在文献数据库建设方面也作出了重要贡献。目前业界有人呼吁应打通各数据库之间的界限,或者至少应预留各数据库之间能够对接其他数据库的标准接口。因为产权等方面的制约,目前我还看不到打通各数据库之间的迹象。但是我国随着综合国力的强盛,学术繁荣的需求和开发者经济利益的驱动,应该会倒逼这种打通,比如在保证各方权益的基础上,通过兼并重组等形式把重要的文献数据库整合起来。至于个性化、订制化数据库,应该是一些较小的专题数据库,可以作为数据库建设的有益补充吧。


:中国古典文献学素来比较重视文献的分类和目录,如《汉书艺文志》《隋书经籍志》等这类史志目录,《郡斋读书志》等这类私家目录,《四库全书总目》等这类国家书目,都比较清晰地著录了古代典籍情况。章学诚提出“辨章学术、考镜源流”,为目录及目录学在中国古典文献学当中的重要价值和意义作了精要概述。目录一方面能够反映出一定历史时期的著述面貌和学术活动,另一方面,目录,尤其是“小序”“提要”对学术史的梳理也有重要意义。


数据库的建设发展,改变了传统文献如丛书、类书等书籍整合方式。与此相适应的,文献的目录、分类也受到了影响。我们在使用诸多数据库,比如《国学宝典》《中华基本古籍库》《中国哲学电子书计划》等数据库时,都比较清晰地体会到,大数据储存和检索功能,不仅可以提取相应著作,而且还可以穷尽式提取具体关键词的所有信息。但是,古籍数据库打破了传统古籍的分类局面,也就无法通过某一类典籍梳理相关学术史。同时,部分数据库建设的过程中,相关单位和学者也多次提到,兼通文献学和计算机专业的人才相对比较缺失,并提议应该将有志于此方面工作的学子由文学、文献学和计算机专业等其他学科联合培养。


IT时代的古籍数字化确实需要我们去建立新的学科体系,来正确认识并解决随时出现的问题。在您和其他学者关于文献数字化的实践和理论探索中,也提到“基于传统目录学的古籍文献数据库建设”的思考以及“数字文献学”这个新兴的学科,请您具体跟我们讲讲这个学科领域。


:所谓“基于传统目录学的古籍文献数据库建设”,实际上是希望数据库建设由目前基于纯文本的、主要功能为检索查询的数据库向专家学者深度参与的知识库转变。希望能够借助数据挖掘技术和人工标引等工作,把目前的数据库建设向“专家系统”过渡。“专家系统”是人工智能中的一个领域,目前应用在工程、自然科学、医药、军事、商业等领域。我们把这样的技术和理念引入文献数据库中,就使得数据库不再仅仅是一个检索工具,而且可以引导初学者的治学和资深学者的深度研究。而在这一过程中,传统目录学所倡导的“辨章学术、考镜源流”等理念可以给我们很好的启示。当然,按照传统目录学的方式建设数据库与文献数据在计算机系统中的物理排列方式无关,只是一种逻辑的或虚拟的排列。


传统意义上的古典文献学是综合运用版本、校勘、目录、注释、考证、辨伪、辑佚、编纂、检索等方面的理论与方法,分析、整理、研究中国古代文献规律与研究方法的学科。其中的大部分内容如目录、校勘、辨伪、辑佚、编纂、检索等在计算机时代都面临着与时俱进和转型的需要。现在从事这方面的工作不借助于计算机是不可想象的。


鉴于数字文献本身的特性、数字文献与传统文献的关系、数字文献使用过程中如何趋利避害等问题亟须研究和解决,就需要把“数字文献”与传统文献区别开来单独进行研究,于是有“数字文献学”一词的出现。2008年3月厦门出版社的王依民先生在其博客《开宗明义:什么是数码文献学?》一文中,提出将数码文献学、数字文献学、电子文献学这三种名称之含义视为完全相同的原则。


2009年,我在《中国社会科学院特殊学科建设项目申报书》中向院科研局提出了资助“数字文献学”这一特殊新兴学科和前沿学科的申请,虽未获批准,但相关部门终于将“数字文献学”列入了社科院特殊学科目录。


近年来,数字人文研究在国内外都相当火热。数字人文的含义比较广泛,涉及一切可以应用计算机介入到传统人文学科的领域,如哲学、历史、文学、音乐、艺术、考古、宗教等等。“数字文献学”是“历史文献学”和“古典文献学”在数字信息时代的自然延伸,也可以看作是数字人文研究的一个分支。


数字文献学的出现将有助于传统文献学生发出新的学术增长点,同时对中国古典文学、中国历史、中国哲学史等传统文史类学科的发展产生重要影响。


:您刚才谈到“数字文献学”可以视作数字人文的一个分支。那么请您具体解释一下数字人文是个什么样的概念?其在国内外发展情况如何?


:数字人文(Digital humanities),维基百科中文版给出的定义是:“电脑运算或资讯科技与人文学的交叉学科。可以被定义为以合作、跨学科与电脑运算等新方法来进行人文学的研究、教学、出版等学术工作。数位人文学将数位工具与方法带进人文学中,并认为印刷书不再是知识生产与传布的主要媒介。”“数位人文学的显著特征之一,是其对人文学与资讯科技双方关系的深化:透过科技进行人文研究,以及以人文学方法来研究科技对人的影响。”这个版本显然出自台湾作者之手,所言大体不误。但是这只是其中一种说法,事实上,关于数字人文,学界尚未有统一的标准。数字人文的定义也由于其持续发展和开放的特性,或者很快就会出现新的定义。


大体而言,数字人文自“人文计算”(Humanities Computing)发展而来,使用数字化的资料和数字原生资料,结合传统人文学科如历史学、哲学、文学、艺术、考古学、文化研究与社会科学的方法论,以计算机运算所提供的工具,如超文本、超媒体、图像、文献检索、数据挖掘、统计等,进行综合性研究。


“人文计算”可以追溯至1940年代末,其时耶稣会士Roberto Busa 及其助手与IBM公司合作,利用计算机制作了中世纪哲学家、神学家汤玛斯·阿奎那著作的索引,称为“Index Thomisticus”。


Roberto Busa之后,不断有学者利用计算机从事检索、排序、统计工作,包括考古、历史、文学等领域的学者都有参与其中。


从“人文计算”到“数字人文学”的用词转变,始于2004年John Unsworth等人所编的文选《数字人文搭档》(A Companion to Digital Humanities)。该书强调此领域并非“仅仅是数字化”,它至少包括两方面的内容:即“以现代人文方法来研究数字化对象”和以“信息科学方法来研究传统人文问题”。


本世纪以来,数字人文研究在国际上十分流行,各种数字人文研究学会和专门的研究中心遍布全球。截至2019年5月,数字人文合作组织“数字人文中心网络”(centerNet)所收录的数字人文中心已达200余个,覆盖30余个国家和地区,多数在美国、加拿大、欧洲和澳大利亚等国家和地区。有若干协会组织,目前国际上最大的数字人文组织为国际数字人文组织联盟(The Alliance of Digital Humanities Organizations),成立于2005年,并且出版专门刊物《数字人文季刊》(Digital Humanities Quarterly)。


需要注意的是,在“数字人文”这一名词被介绍到中国之前,无论是大陆还是台湾,都已有这方面的研究,包括关于古籍数字化的研究等。前面所说“数字文献学”可以视作数字人文研究的一个分支,也是基于这一事实。


我个人认为,数字人文既具有工具属性,也是一门交叉学科、新兴学科和前沿学科。其目的在于研究那些需要借助信息技术才能进行的研究,换言之,借助信息技术对传统人文研究进行升级转型,并试图寻求在前数字时代难以发现的研究对象、研究议题。


:通过您的阐述和说明,我们看到了数字人文研究的大趋势,也看到了技术驱动研究的重要作用。信息技术作为一种研究的工具,其本身是为研究而服务的。研究的目的,决定了我们对相应技术的选择。如利用OCR(图像识别)技术进行文献录入;利用GIS技术研究地域文学、家族文学、绘制相关诗人或诗人群体活动行迹图;利用数据检索研究作品重出、具体作家作品在后世的接受;利用人工智能技术笺注、校订别集等。在相关的研究当中,学术界正在意识到,古籍数字化和人工智能等技术的发展,使笺注、校订等这类文献整理基础工作,可能逐渐被计算机人工智能实现而边缘化,最后可能走出古典文学基础研究的舞台。对这个问题,您怎么看?


:古代文学研究含义比较广泛,至少应包括古典文献研究、文学史研究、文学批评(思想)史研究等几个方面。其中在古典文献研究方面,计算机可能发挥的效用最大。伴随计算机智能程度的提高,尤其是自然语言处理技术的发展,计算机通过大量学习人工句读,大体上可以实现机器自动标点工作。而像笺注、校订等工作也可以交由计算机处理。当然,这样的技术目前还不是很成熟,但假以时日,这个愿望并不难实现。


:刚才我们提到因检索功能为学术研究搜集文献材料提供了便利,使古代文学在宏观整体研究上有了突破。以前仅通过一人或几人之力无法完成的研究目标,现在可以并且比较容易地开展。如浙江大学与哈佛大学共同建设的“学术地图发布平台”,其中如《全宋文》《全元文》《全元诗》作者分布图、具体诗人行迹图等成果就是典型。并且其开放的编辑平台也为研究者在自己创建数据库基础上生成学术地图、进一步展开研究提供了极大的便利。这个方面应该可以算是数据库建设对我们古代文学研究内容上带来的比较明显的改变吧。


:地理信息系统(GIS)经过数十年的发展,已经是比较成熟的技术。GIS的一个重要功能是空间分析,对系统中的人物、位置、联系进行分析,当数据量很小时,这种分析意义不大,与人工处理没什么不同。但是当数据量很大时,比如收录的作家信息不是几百几千,而是自先秦至近现代以来的数万个作家,包括其族群、行迹、交游、创作、作品传播等信息,所收录的作品也不仅仅是《全宋文》《全元文》《全元诗》等,而是尽可能完备的先秦至清末所有的文献。当我们设定某个时间点启动系统进行分析时,我们观察到的可能不仅仅是某位作家的静态信息,还能看到该时段几乎所有活跃作家的静止或移动信息。


例如元军攻陷临安(杭州)后的二三十年间,以关汉卿、白朴、马致远为代表的北方作家向杭

相关内容
中古史纪念|田余庆先生的“治学段子” 2024-12-20
谭其骧一纸定隆中 2024-12-18
唐五代江南史研究的广阔天地——张剑光教授访谈录 2024-11-26
学缘中的恩情与亲情——深切缅怀恩师金普森先生 2024-11-22
张帆:中国古代史史料的类别与特点 2024-10-08
 
Copyright@2015 www.hangchow.org All Rights Reserved 免责声明
本网站所刊登的信息和各种专栏资料, 未经协议授权,不得使用或转载
主办单位: 杭州文史研究会  地址:杭州市政协  电话/传真:0571-85100309