包伟民 | 数字人文及其对历史学的新挑战（下）-特别关注-杭州文史网

您当前位置：首页 > 特别关注

特别关注

特别关注

文史动态

	书讯 \|《杭州文史》第43辑
	《太平年》观剧杂感之一：让子…
	《太平年》的历史虚构与历史真…
	活动招募 \| “悦读”宋词双…

特别关注

	第一首苏堤诗的作者是谁？
	南宋的杭州人吃什么
	香雪清赏——海上名家与超山梅…
	书讯 \|《杭州文史》第43辑

特别关注

包伟民 | 数字人文及其对历史学的新挑战（下）

来源：口述历史微信公众号作者：包伟民日期：2018-10-16

包伟民数字人文及其对历史学的新挑战（下）

作者简介

包伟民，1988年北京大学历史学系博士研究生毕业，获史学博士学位。现为中国人民大学历史学院教授。代表作有《江南市镇及其近代命运》、《宋代地方财政史研究》、《传统国家与社会：960-1279年》等。

提出议题

当然，正如不少论者所指出的，全文检索远未发挥出计算机数据库的所有功能，其所强调较多的，还有提出议题与统计分析两个方面。议题是史学研究的起点。人们观察历史，不免站在当今的立场上来提出议题，以求了解过去。但如何提出有意义、得以真正展开讨论的议题，还有赖于我们对历史社会的认识，去发现那些有意义的历史现象。正是在这一意义上，历史资料数据库的发展，给我们展示了新的可能，也带来了新的困惑。

由于数据库能够帮助研究者比以前更加方便地搜集资料，并据以展开分析讨论，因此有论者特别强调“量化研究的一个重要优势是，能够发现靠传统文献阅读无法发现的隐藏在历史资料堆中的史实”，甚至更进一步，可以经过“同时比对上千条数据，辨识其中模式”，也就是认为利用数据库的分析，可以在复杂的历史现象中发现传统研究方法难以觉察到的问题。这样的推论，在逻辑上自然顺理成章。不过，更为周全的观察还提醒着我们，这一推论的适应面存在着明显的局限性。除非我们能够满足它所有必要的前提条件，否则推论的结果难以达到。那就是：第一，相关研究领域保存有丰富的档案文献，可以构建起信息量足够的数据库；第二，利用计算机来阅读历史资料，如前文所论，至少在目前，还停留在词义直接对应的水平，这就要求历史文本的字面含义与它所可能蕴含的历史信息完全对应，否则机器阅读就无能为力。但是这在中国古代史研究领域，条件似乎尚欠充分。

人类历史内容极其广泛，不同领域存世的历史资料差别明显。不少学者在讨论中经常举为论据的“大数据”，大多需要以丰富的存世档案文献为基础，在中国古代历史领域，却基本不存在这样的条件。在印刷术未能普及应用之前的那些历史阶段，更是如此。所以信息技术在中国古代史研究领域的应用，可能与近现代史领域有一些不同，不应忽视。因此，在意见的另一方面，常被论者提及的则是王国维的“读书得间”之论：“宜由细心苦读以发现问题，不宜悬问题以觅材料。”强调从细心阅读历史文献之中来发现问题。

所谓经过大数据分析比较来发现问题，不可能将史学分析完全交给计算机自发地操作，而必须由研究者设置一定的前提条件。也就是说，其实是由研究者事先提出研究目的或者目的范围，也就是“悬问题以觅材料”。这些问题当然不可能凭空得来，必然有其依据。除了研究者对特定历史社会的认识之外，比较直接的应该就是现代社会科学一些范式的指引。这就难免会与作为研究对象的历史社会之间存在一定的隔阂。这样一来，岂非坐实了关于“实际情况则是研究者预先设定的思路往往成为搜寻和筛选数据的藩篱而不自知”的批评？而所谓“读书得间”之论，“由细心苦读以发现问题”，强调的是要通过分析存世历史文本、在字里行间的细节中发现前人所忽略的问题。其与前者的差别，主要体现在立足点之不同，即立足于客体（历史社会），从深入观察之中来发现问题，还是立足于主体（研究者），根据今人的主观目标来设定问题。尽管这两者之间还存在着相当复杂的联系，但立场的区别是明显的。

史学研究的目的是为了理解历史。所谓一代人有一代人的历史，指的是每一代人都会对历史有与前人不同的理解。因此在史学研究中，主体与客体常常相互影响。相对而言，强调主体，在于其研究目的，即从今人理解历史、使之服务于当今的目的出发来提出问题；立足于客体，则是强调从研究对象本身的实际情况出发，来发现问题、提出问题。也就是所谓的要“贴近史实”。笔者的理解，这里可以包含两层意思：一是要在总体上把握研究对象的全"，二是要充分发掘历史的细节。

具体到笔者相对熟悉的宋代史研究领域而言，其中相较于其他历史时期一些突显的现象，是任何观察者都不能忽视的，一直为人们所重视。如多民族政权并存、赵宋政权文官制度的发达与武功之不振、经济与技术的突破性发展、思想文化领域新气象的形成、南方地区的开发以及随之带来的地域格局的变化、城市新面貌的形成等等，是任何观察者都不能忽视的。论题虽旧，其命弥新。只有在基本把握了全"的前提下，再将各方面的历史现象联系起来观察，以研究者独到与深邃的眼光，才有可能从历史文本的字里行间发现隐藏于其中的一些重要历史现象，找出可以深入讨论的问题。也就是从中去寻找某一历史现象可能蕴含的意义，来解答它的“为什么”，即所谓“得间”。更为重要的是，也才有可能使得对问题的讨论契合于历史发展的大趋势，将局部与总体有机地结合起来。

正是在这一意义上，目前学界多所批评的所谓“检索体”类文章，即主要依靠数据库检索来完成资料搜寻工作，或者依靠机器阅读来确立讨论议题的，可能正在于它们既不能把握住特定历史社会的基本脉络，对于引为论据的历史文本又常常割裂其与上下文之间的有机联系，更割裂了其与历史大背景之间的联系，在典型地“寻章摘句”之余，更以今人之心揣古人之腹，可以说在其所提出的议题与其对议题的论证两方面都脱离了历史实际。也正因此，能否通过大数据分析来发现史事中的问题，其前提仍在于研究者对于历史社会基本脉络及其细节的掌握是否充分。“读书得间”，尤其在史学训练的初级阶段，不可跨越。

统计分析

不少论者都曾指出，数字人文的发展，早已从简单的全文检索进化到了“关系型”数据库——比较著名的如中国历代人物传记项目（CBDB）与Markus古籍半自动标记平台等等，它们能将各种要素有机地联系起来，来做统计分析，以得出个体研究者不容易达到的结论，甚至做到所谓“精准型研究”。可是，这些数据库在处理历史文本时，如前文所说的当文本未能在字面上直接反映历史信息时研究者该怎么办的困窘依然存在。另外，在充分意识到这种关系型数据库的潜能以及有时抱怨它们的用户界面大多不够友好的同时，笔者不免得陇望蜀，期待它能够发挥更大的作用。因此还有几点困惑之处，提出来讨论。

首先，如何应对存世记载零散、数据库的统计分析难以保证结论的普遍性的问题。在中国古代史领域，存世记载大多零散，具有明显的偶然性与或然性，很难具有系统性，这与近现代史领域存在着相当大的差别。在“传统”的以全文阅读为基础的研究中，成熟的学者往往可以通过对不同案例的全面考量，判断其典型性，才举为例证。这一过程尽管看似主观，事实上可能反而更接近史实。但是根据这些记载建立起来的数据库，看似精确，实际是只能将复杂、立体的描述性历史文本转化成平面的数据，抹杀了它们相互间的差异性，这样一来，数据库统计还能够在多大程度上反映历史现象的普遍性，不免令人存疑。例如以历史人物研究为例，坦率地说，近年来学界为建设关系型数据库，投入了大量的人力和物力，但学者们在各自的研究工作中真正利用这些数据库并做出有影响的学术成果的，则极为有限。笔者曾见有论者利用CBDB数据库，来研究宋代处州的家族群体，还补充以其他一些碑铭资料，共发现了35个符合“有影响力”条件的家族，其中丽水县10个，缙云县7个，松阳县5个，青田县5个，龙泉县5个，遂昌县与庆元县各2个。作者据此得出结论，认为在宋代处州地区，除了政治中心丽水有影响力的家族数量较多外，其他各县分布较为均匀，县域之间的差别较小。同时这些家族及其区域的发展有着明显的“内生性”特点。查考作者所列出的这35个家庭的资料出处，坦率地说，基本不出文史研究者目力可及的范围。而且，以每县仅仅个位数的例证，来论证300年时间跨度之中“家族群体”的特征，不能不说是太过试探性的了。更重要的是，处州的这35个家族虽然按一定条件都可以被认定为具有“影响力”，在数据库的资料处理方式中，他们都变成了一个简单的计数单位，在每个“1”的背后，不同家族间可能存在的各种差异——豪族与寒士、显宦与下僚，全都被忽略、抹平了。其与史实之间究竟存在多少距离，就令人不得而知了。

其次，与此相类似，在人物研究领域，以CBDB为代表的关系型数据库，在将本质上属于描述性的文献转化为可供统计的量化数据的过程中，经过一定的条件界定，难免会筛选、过滤历史信息，造成信息的衰减。例如关于宋末入元士人对新朝的态度问题，学界曾有一些研究。观察的视角之一，是统计这些士人入元后是否入仕新朝。经过“是”与“否”的统计，得出不同地区、不同群体之间的不同数据。应该说，在将描述性文献转化为量化数据的处理中，这一个“是”与“否”的统计，当属于逻辑关系比较明晰、信息衰减相对较少的类型，却仍然不能保证其结论不偏离于史实。数年前，笔者曾以明州（庆元府）入元士人为例，来校正这类数据，发现实际情形远比“入仕”或“未入仕”这样两大简单的归类更为复杂。入仕者，其与新朝可以有亲与疏，或者自愿与无奈之异；未入仕者，也可能存在着不愿仕与不得仕之别。特定的入仕者与未入仕者之间对于新朝的情感立场，相比同一类别内部之间，甚至有可能更为接近。但是非此即彼的统计归类，只能摘取文本所反映的丰富历史信息中的一个节点而已，完全忽略了这些重要内容。人们的社会活动是复杂多样的，数据库式的历史资料处理方式，将本来丰富多彩的社会活动简单地转化成了是与否、0与1，在资料统计追求全面、可视、多样化的同时，有时无疑也存在着简单化、反而背离了史实的情形。

再次，偶然存世、零散残缺与每一单篇都颇具个性色彩的古代历史文本，在被统合到数据库后，或者被分解开来以其局部与其他资料相联系、对比、分析，或者以其一部或整体与其他资料相加、统计、核算，都会存在一个损失其个性、脱离其历史背景的问题。典型案例，可举存世的一些财政数据来做说明。目前保存在正史、政书、地志、文集等文献中的一些古代财政数据，即便是相对全面的那些记载，也无不存在着统计口径不一、计量单位各异等复杂问题，非经对每一个案认真解读、换算，不易解读。数据库的处理，如果仅仅因为其表面看来财政项目相同，就简单展开统计分析，难免不会出现失之毫厘谬以千里之误。例如马端临《文献通考》卷二三《国用考一》载有宣和元年（1119年）“诸路上供钱物之数”，涉及17个路分，合计1532万贯匹两，其中数额高者如两浙路，达443万余贯匹两，占诸路总额的29%，而四川地区的成都、利州、潼川、夔州四路合计起来仅14万有奇，不到诸路总额的0.9%。根据当时四川地区的经济地位，其上供财赋绝不可能如此之少，这说明《文献通考》所载宣和元年“诸路上供钱物之数”并非当地的上供原额，应该只是供送到京师开封府的那部分，四川上供财物绝大部分估计已被截留于陕西了。但是这样的认识，非经对北宋后期国家财政调拨体系做出全局性分析之后，不可能得出。可知宣和元年这一“上供钱物之数”的记载，与存世的当时其他一些关于四川地区的财政数据出于不同的统计口径。数据库的统计，如何综合这些分析性的认知，避免简单化地加加减减呢？其他大量的更为个性化的记载，如何避免在数据库统计过程中损失背后的历史信息，将立体的文本偏平化了呢？这些都是我们在将数字化技术应用到中国古代历史研究领域时不得不面对的问题。

上述例子说明，史家读书，除了某一词句与其上下文的逻辑关系外，还得关心通篇文本与其时代背景之间的复杂关系。在数字人文时代，若将读书的任务完全交给计算机来完成，是否会恰好显露出文史类资料与现代信息技术之间某种程度的方枘圆凿呢？

余论

回到本文的标题，所谓在数字人文时代历史学遇到的新挑战，当然并非如某些论者所言，“传统史学”将被“具体、细致和精确”的“新史学”所取替，而是指如何在符合学科特点的基础之上，更有效地利用信息技术，以推动历史学研究的深化发展，对史学从业人员来说，的确是一个新课题、新挑战。在这里，历史学与计算机学科等领域的携手合作非常重要。本文所谈到的这些困惑，正是希望“具体、细致和精确”地指出在应用数字技术来分析历史信息时可能产生的一些BUG，既提醒史学界同仁，我们应该将数据技术放到一个更为恰当的位置，在更好地利用它的同时，避开它可能带来的一些弊病；同时，更试图为计算机等学科提供参考意见，期待有关学者改进技术，帮助史学研究更好地融入数字化时代。

总之，正如王家范先生所指出的，“世界上有一种职业是任何再先进的机器人也无法替代，那就是历史学家”。对于史学研究来说，“大数据”只不过是一种新的更加有效的工具而已，它当然不可能取代学术研究的主体——历史学家。

原文载《史学月刊》2018年第9期，注释从略

感谢原文作者及发布媒体为此文付出的辛劳，如有版权或其他方面的问题，请与我们联系。本文仅供参考，不代表杭州文史网观点