当前位置: 秘鲁 >> 地形地貌 >> 李伯重丨大数据与中国历史研究
本文为李伯重教授年2月24日于华中师范大学逸夫国际会议中心所做演讲,收入《大数据与中国历史研究》第1辑,略有修改。李伯重,香港科技大学人文社会科学院教授;整理者李帅飞,华中师范大学人文社会科学高等研究院大数据历史专业研究生。
我今天讲的题目是“大数据与历史研究”。我想在座的同学,可能历史系的比较多。我们中国学者过去做历史研究,不管是做哪一方面的题目,很少会涉及“数据”这个概念,涉及“大数据”的就更少了。我相信在我这个年纪很多学者就觉得它是一种洋玩意儿,没有多少意义,值不得一提。也可能有一些比较年轻的学者觉得这是时代潮流,应当努力追赶。不管怎么样,这是一个谁也绕不过去的问题。我自己在最近一些年的研究中,总是力图探索和努力学习一些新的办法。所以现在有一点心得体会,和大家一起交流。有些同学等会儿提问的时候,如能给我一些启发、批评、指正,那就最好了。
我今天要讲的内容主要有几个。在国外,你要做研究,总要问几个问题:什么(what)、为什么(why)、在哪里(where)、怎么样(how)等等。首先要把这些问题搞清楚,才能展开研究。说到大数据,它究竟是什么?对于研究历史,特别是中国历史有什么意义?怎么使用它来进行研究?要把这些问题搞清楚。其次,我们还要回答:在历史研究中,大数据到底是万能的灵药还是江湖骗子?这是很多学者特别是人文学者心里始终存在的一个绕不过去的问题。不把这个问题搞清楚,就不会对用大数据研究历史有一个正确的看法。
首先,什么是大数据?若问什么是大数据,就先要问什么是数据。按许多人的理解这就是数字。从前我在清华大学教书的时候,一提到数据,总有一些非常好的文史学生,说我不做经济史、社会史研究,只是做文本研究或者思想史研究,跟数字无关,所以不需要“数据”。但是这个看法是错误的。数据,在英文中是data,大家从我演示的PPT中可以看到学界对于这个概念的一些最普通的解释。简单来说,数据就是信息或知识经过表达、经过一定的加工或者变成编码。制作数据的目的是什么呢?是让你更好地使用。数据包括各种字母、符号、语音、图像、图形等等,所以只要你做研究,你就一定要学会使用数据,哪怕你不叫它数据,它还是存在于你的研究当中。那么什么叫大数据呢?从数据的来源可以看到,它包括各种各样的形式的材料。就这些材料自身来说,它们并没有意义,要对你的研究有用时,才成为一种有用的东西。道理很简单:一本古书放在那里,本身不会产生作用,当你把里面的资料提出来加工、使用时,才会有意义。
什么叫大数据?就是大的数据,但怎么大,大家可以看PPT上的这些解释。简单说来,就是大到靠你个人不可能来收集和加工的数据。靠过去的方法,一个人再聪明,再了不起,没有办法建立大数据来搞研究。大数据必须经过计算机来处理。我们知道,有一些学者极了不起,例如陈寅恪先生,到晚年时,双目失明,他还可以完全靠记忆给学生讲课,哪一条史料在《新唐书》某卷某页,他都可以说出来。像这样的天才,全世界恐怕找不到几个。但是即使像陈先生这样的天才,他能够记住的信息还是有限的,因为人脑记忆是有限度的。更大量的信息,只有借助于现代技术,也就是说计算机才能够处理。
一般来说,大数据有五个特征,被称为5V特征,即volume(体量)、velocity(速度)、variety(种类)、value(价值)、veracity(真实)。也就是说,要体量大、速度快、种类多、价值高、真实可靠。有了这五个V的信息,才叫大数据。刚才我说了,大数据是伴随着信息技术产业和互联网行业才出现的。在过去,计算机没有出现之前,是没有大数据的。那个时候在西方发达国家有统计学,统计学家也收集了很多数据,写在纸上,但是很难使用,有时甚至就不能使用。我们中国有无数的古籍,有没有谁真正能够把它梳理一遍来使用呢?没有,因为这是不可能的。只有当计算机、通信技术、互联网出现之后,这些材料中所包含的信息才能够变成我们能够使用的信息。
为什么过去学者做研究不需要大数据,而今天我们做研究却需要大数据?这是因为时代不同了。具体来说,有两个原因:第一,今天是一个信息爆炸的时代,信息太多了;第二,历史学本身在发生变化。由于这两个原因,我们今天做历史研究离不开大数据。
第一,今天的信息爆炸需要研究使用大数据
我们古代说一位学者“学富五车”,意思是他读的书可以装满五辆牛车。一个人能够读完五车的书,就非常了不起了。在春秋战国时代,纸还没有出现,那时的书写材料是削制成的狭长竹片(也有木片,称木简),牍比简宽厚,竹制的称竹牍,木制的称木牍。均用毛笔墨书。册的长度,写诏书律令的长三尺(约67.5cm),抄写经书的长二尺四寸(约56cm),民间写书信的长一尺(约23cm),因此人们又称信为“尺牍”。竹简很重,竹简上的字写得很大,一条竹简写不了多少字。像年7月湖南长沙仰天湖古墓出土的战国竹简42支,最长的22厘米,宽1.2厘米,篆文,每简2~10字。所以一本书需要几百条竹简,重量可能少则几斤、十几斤,多则几十斤。把五车竹简上面的内容印成今天的书,可能就只是五本分量较大的书而已。那时最有学问的人惠子、庄子这些人都“学富五车”,而他们从中所获得的信息量,就是我们今天几本或者十几本书所包含的信息量而已。
虽然信息量有限,但处理这些信息也不是很容易。中国历史上最勤劳的皇帝有三个,第一是秦始皇,第二是隋文帝,第三是清雍正帝。秦始皇焚书坑儒,是个暴君,但也要承认他是一个非常勤奋的人。《史记·秦始皇本纪》说:“天下之事无大小,皆决于上,上至以衡石量书,日夜有呈,不中呈,不得休息。”什么是“衡石量书”?意思是他下令各级官吏每天把天下的事都写成各种公文,亲自阅读处理。这些公文是写在竹简上的,秦始皇在御座旁边放一个大秤,他每天要看斤重的公文竹简,要两个人才能抬得动。据今人估计,这斤竹简有~片。按照一片竹简写10~20字计算,再除去留白,有10来万字。他要批阅完这些公文才休息,往往干到深夜。你看他够辛苦的,但实际上每天处理的事情还是有限的。因为他只能看这么多公文,所以从中获得的信息也是有限的。清雍正帝显然比秦始皇要幸福得多了,因为他批阅的公文是写在纸上的,而且形成一种很规范的书写格式。由于皇帝每天都要看的公文太多,所以从明朝开始,皇帝要看的公文,都要由内阁学士、军机大臣等秘书先看一遍,写个提要,贴在公文上,呈上皇帝。皇帝看了提要,了解大意,觉得需要更详细了解相关情况的,再读原文,大多数公文就只读提要了。皇帝的处理意见,也由秘书拟出,皇帝批个“可”字或者“否”字就行了。当然,如果皇帝不满意,还需自己写批示。即使如此,雍正帝每天只睡四个小时,平均每天都要写多字的批示。虽然如此勤奋,但是他处理的信息量还是有限的。
文人(即读书人)的情况也差不多。用杜甫、顾炎武的话来说,一个人读了一万卷书,下笔就如有神了;读了一万卷书,走了一万里路,就是个大学问家了。有些书篇幅很大,如《资治通鉴》就有卷,《永乐大典》更有两万多卷。也就是说,一个人花一辈子,还不一定能够看完两万多卷的《永乐大典》。所以读书万卷,不是每个人都做得到。即使做到了,他所获得的信息还是有限的。
但是到了今天,特别是最近二三十年,情况变得太可怕了。我们经常说今天的“史料大爆炸”实际上就是文献资料大爆炸。其一,现有的文献资料数字化之后,你忽然就可以看到无数年来一直看不到的东西。我记得我写博士论文的时候是年,那时你们在座的还没出生。当时全国没有几个研究生,特别是博士生,全国首批毕业的博士就只有人,还包括部队上的。因此研究生很受社会尊重,好像享有一些“特权”。我住在北京,每天清早骑自行车到北京图书馆柏林寺分馆看方志。那里的服务员非常好,一车一车地推过来给我看,从早一直到关门。我和我的一个师兄,就那么看了几个月。我的师兄做的是清代全国市场路线,他看了多种地方志。我做的是明清长三角经济史,看得比他少,大概看了多种。今天讲给学生听,大家都羡慕死了。后来我国的图书馆工作不断改进,越来越不让人去看这些书,我现在想去看也看不了。今天大家跑到图书馆里去,服务员把一车车的书推出来给你们看,恐怕是想都不用想了。但是今天你们不用去图书馆也可以方便地看书。为什么呢?因为有了大批的数字化文献,通过网络就可以得到。我现在来举一些例子让大家看一下。北京大学教授刘俊文先生的爱如生公司,建立了一个中国基本古籍库。这个数据库分4个子库20个大类个细目,精选先秦至民国历代重要典籍,总计收书1万种,单库全文超过17亿字。目前爱如生公司已陆续推出包括中国近代报刊库、中国方志库、中国谱牒库、中国类书库等在内的大型数据库14个,包括四库系列、别集丛编系列、历代碑志系列、地方文献系列等在内的9个系列共82个专题数据库,包括明清实录、永乐大典、四部丛刊等在内的数字丛书库50个。另外还有“原文影像版数字原典”产品8个、“全文检索版拇指数据库”9类0个产品。我近年来做军事史研究,花了块钱,从该公司买了一个小数据库,鸦片战争以前所有的兵书都收在里头,每一页上面是原文图像版,下面是检索版。这个数据库帮了我很大的忙,我也就不必想办法到图书馆古籍部去看一些古本珍本了。北京时代瀚堂科技有限公司推出的“瀚堂典藏”,分为古籍数据库、近代报刊、民国文献大全三大主体部分。全库共包含多种古籍,种民国报纸期刊,近万条记录,汉字总量超过40亿。近年来湖南青苹果数据中心有限公司提出创建“华文报刊文献数据库”计划,将从清朝嘉庆年间至今两百年的种报刊中挑选1/10进行数字化,形成拥有亿汉字和4亿篇文章的海量历史文献库。除了那些大型的数据库之外,中小型的也非常之多,如果大家有兴趣,可以看看耿元骊的《三十年来中国古籍数字化研究综述(~)》。我国在古籍数字化方面的研究进展非常迅速,在30年前根本是不可想象的,而今天早已经变成了现实,不仅如此,数据库制作的技术标准也在不断提高。到了今天,古籍数据库大多据初印原件或权威复印件,采用独有的数字化技术制作,三窗点选式页面,时间和区位自由切换,左图右文逐页对照,毫秒级全文检索,配备多功能研读平台。这就为阅读提供了极大的方便。
由于这些数据库的海量,同学们要读完一个数据库中的材料,我想活一百辈子也做不到。这些书本来都是存在的,在图书馆里都有,但是没有数字化之前,它们对绝大多数人来说是无法接触到的。现在都可以读了,所以说是大爆炸。现在我们同学做毕业论文,查地方志和各种史籍,不用跑到图书馆里。已有的文献数字化之后大家都可以看到了,就像一个世界在你面前打开了。
其二,有很多原来不被看成史料的,今天随着研究的进展,也变成了非常重要的材料、第一手资料,这数量也是海量的。山西大学中国社会史研究中心在过去的20年中,收集了数量巨大的民间文书。我问中心主任行龙教授,现在有多少件文书,他说现在有万件左右,涉及个村子。那就是说,每一个村子平均下来就大约有7.5万件。这些主要是人民公社时代的材料,什么都有,包括土改、合作社、人民公社时代的各种材料,例如人民公社时代每年的工分本、分红本,各个时期的治安情况材料,人民内部矛盾检讨,等等。这些材料过去都被认为是没有史料价值的,而今天看来是极其重要的。如果你用这些材料去研究山西农村,你得出的结论会完全超乎你想象。又如上海交通大学历史系以上海郊区、苏南、浙北地区为中心兼及中西部地区的“县级档案与契约文书的收集、整理与研究”项目,已汇集8省50县约万页档案和30多万件民间契约。还有,浙江大学地方历史文书编纂与研究中心与浙江龙泉市档案馆合作整理出版的该馆所藏晚清至民国时期地方司法档案总计卷宗88万余页。龙泉司法文书的整理成为国家项目,立项时请我到开幕式上去讲几句话。当时我大吃一惊,怎么这个县会有那么多文书?后来得知龙泉在浙江南部山区,交通不太方便,抗日战争和国内战争都没有波及。所以从康熙时代起,一直到年解放军去接管这个地方,打官司的文件全部都在这里面,对于研究社会经济史来说,材料当然是非常丰富。还有一些你想不到的那些少数民族地区,比如说清水江,贵州的一条河,大家可能听都没有听说过。这是一个苗族、侗族等族人民生活的地区。在这个地方,现在还有几十万件文书遗存在民间,即清水江文书,又称“清水江民间契约文书”,主要是指明末清初以来直至20世纪50年代共约年的历史长河中,贵州清水江中下游地区苗族、侗族林农为了经营混林农业和木商贸易而形成的大量民间契约和交易记录。据保守估计,目前至少尚有十万件遗存于民间,也有专家推测清水江流域各县遗存的这类契约文书可多达三十余万件,主要分布和收藏在清水江流域中下游的黎平、锦屏、天柱、三穗、剑河、施秉等县苗族、侗族农户家中。中山大学陈春声、刘志伟教授他们的一个团队去那边看后,陈教授做了一个报告,大家听后都非常吃惊。大家知道,在明清时期,中国在国际贸易中处于主动的地位,中国产品风靡全世界,西方国家都来中国购买,而中国人对他们的产品不感兴趣。这就出现了巨大的贸易逆差,但是逆差需要解决。那个时候的贸易是一手交钱、一手交货,你没有货怎么办?硬通货拿来支付。当时国际贸易中的硬通货是白银,主要来自中美洲的墨西哥、秘鲁和玻利维亚三个国家,世界大概80%的白银都来自这儿。几百年来,中国好像就是一个无底的吸银器,白银不断地进来后就不出去了。这些白银到哪里去了呢?陈教授他们去看了这些文书材料发现,这就是白银沉淀在中国的一个原因。在这些交通不便的山区,每一户苗族、侗族人家,家里都有几十斤白银做成的银饰,都是从祖母的祖母、祖母的母亲、祖母、母亲一代代传下来的,到女儿出嫁的时候,母亲把传下来的东西送给女儿做嫁妆。比较富裕的人家,银饰一般在30斤以上。这个偏僻贫穷的山区,普通人民之所以有这么多的白银,是因为清代这里有一个非常繁荣的木材市场。中国东部木材匮缺,木材从哪里来?就是从长江中上游来,从清水江流域、金沙江、湘江、赣江这些地方过来。购买木材的商人是从哪里来的?主要是由徽州一带来。徽州商人到少数民族的地方,用白银向他们把一片一片的山买下来,买了之后雇人来砍树,砍了之后把木材顺着小溪拖到清水江,沿清水江而下,运到乌江,再由乌江转运到长江。我买你这一片山,我买你这一片坡,我给你几百两银子,你把它砍完。在这些文书里就有大量的买山的证据。这些银子到这个地方有什么用?在这里又不能买到什么东西,但是苗族、侗族人特别喜欢用白银做首饰。这些买卖的契约文书都保留下来,解放后土改没有触及这个少数民族地区,“文化大革命”也没有触及。这里的苗族、侗族人民大部分都不识汉字,他们认为祖宗留下来的东西很宝贵,所以每家都把它们用布包好,放在自己供神的地方搁着。中山大学的学者发现这些文书,就觉得了不得,说服了当地人民,把文书借出来,复印一份带走,而原件则还给主人。由此可以看到,这些文书改写了中国的历史。为什么这样说呢?中国偏僻边远的贵州苗、侗族山区,和隔半个地球的秘鲁、墨西哥、哥伦比亚,通过贸易联系在一起了,可见世界各地彼此关联,没有真正与世隔绝的地方。但这些材料从来都没有人知道,而今天出现了,而且类似的材料还会不断地被发掘出来。
上面说到的这些材料中,都包含了一些有用的信息。这些有用的信息就是我们史料学里面的数据。这些信息要从不同的材料中筛选出来才能应用。史料中有用信息的筛选,就是数据挖掘(datamining),即:“从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。”
我们读了很多古书,其中并不是每一句话都对我们的研究有用,可能只是某一小段被引用,因此说是史料挖掘。这个工作或许非常的辛苦。郭松义先生应该是现在我国清代社会史方面的最好的学者,他这个人非常了不起,甘于坐冷板凳,花了十年以上的时间,天天坐在中国历史第一档案馆里面看清朝的刑部档案。郭松义先生研究清代在京山西商人和司法审判中的私通行为,前者有宗样本,后者有宗案例,从社会科学角度来看体量并不大,但这些个案分散在“乾隆朝刑科题本”、“宗人府来文”、“内务府来文”、“八旗都统衙门档案”、“刑法部档案”、《刑案汇览》、《刑案汇览续编》等众多官方文献,以及《资政新书》、《樊山政书》等海量个人文献中。了解这些史料并找到所需研究个案是非常困难的。他筛选出来的这些信息非常重要,得来实在不容易。勤奋如郭先生,花费了多年的辛劳,从巨量的档案资料中才筛选到多宗案例。今天我们有更多的材料,如果我们还是使用传统的方法去阅读和筛选有用的信息,可能会在海一样的文献面前投降。
有四位计算机科学专家(PaulC.Zikopoulos、ChrisEatonDirkdeRoos、ThomasDeutsch与GeorgeLapis)写了一本《理解大数据:企业级Hadoop和流数据分析》,据说:“在‘很久以前’(出于某种原因,我们的孩子认为是我们像他们那么大的时期),矿工可实际地看到金块或金矿脉;他们能清楚地认识到它的价值,并且在以前发现金矿的位置附近挖掘和筛选,希望发一笔横财。尽管这里有更多黄金(可能位于他们旁边或数英里外的山中),但他们用肉眼看不到,所以这就成了一个赌博游戏。您疯狂地在发现黄金的地方附近挖掘,但您不知道是否会找到黄金。而且尽管历史上有许多淘金热的故事,但没有人会调动数百万人来挖掘每个角落。”同样地,过去在可以读的书有限的情况下,我们可以熟读这些书,然后从中寻找有用的信息。今天有这么大量的文献资料,而且很多是没有经过分类的,没有索引,无法检索,我们怎么去找?那只有搞人海战术了,就像20世纪50年代那样,政府组织大批学者去编各种史料汇编。
但是现在情况不同了,“如今淘金热的运作方式大不相同。对金矿的挖掘可使用需要巨额资本的设备来执行,用于处理数百万吨无用的泥土。如果要肉眼可看到金矿,通常需要30mg/kg(30ppm)的矿石品位,也就是说,现在金矿中的大部分黄金是肉眼看不到的。尽管所有黄金(高价值数据)都在整堆泥土(低价值数据)中,但通过使用正确的设备,您可以经济地处理大量泥土并保留您找到的金箔。然后将金箔集中在一起制成金条,存储并记录在安全、受到严密监视、可靠且值得信赖的地方”。大数据就是在这种背景下出现的。所以,有“大数据之父”之称的维克托·迈尔·舍恩伯格(ViktorMayerSchnberger)说:“大数据时代带来的信息变革,比人类发明印刷机之后发生的阅读革命还要猛烈,各种形式的电子阅读及其高度普及,颇能说明这一点。”今天在座的同学,我想没有一个没有手机,有的同学甚至成了低头族。对于你们来说,没有手机,没有网络,没有中国最好的白癜风医院北京哪家医院治白癜风比较见效
转载请注明:http://www.moyany.com/dxdm/14572.html