用数据说话的书籍 数据分析告诉你

用数据说话的书籍 数据分析告诉你(1)

11 位外国作家的推荐书单: | 被网红书店“毁掉”的年轻人? | 巴金《出访日记》首度出版 | ......

用数据说话的书籍 数据分析告诉你(2)

......“图画书界奥斯卡”

用数据说话的书籍 数据分析告诉你(3)

有一天,我将找到恰当的话语,

而且这些话语将是简单的。

——凯鲁亚克《达摩流浪者》

如果你读过苏斯博士,你也许很熟悉这样一些词:fizza-ma-wizza-ma-dill, fiffer-feffer-feff,还有truffula。

你可能也很熟悉这些词:a, will, the。

除了自己造出来的词和韵律,苏斯博士最大的特点是简单。和其他儿童图书作者相比,他把简单推向了极致。

苏斯博士最受欢迎的两本书,也是他对自己用词限制最严的两本:简单带来成功。

比起一年级小学生,成年读者需要在书中寻求更多东西。

弗莱施在1955年出版了《为什么约翰尼不会阅读》(Why Johnny Can’t Read),他在书中提出,美国的阅读教学亟须改革。他列出的单词引导了苏斯博士,最终引发了他所希望的革命。

弗莱施还提出了一个数学公式——弗莱施-金凯德阅读难度等级测试(Flesch-Kincaid Grade Level test),可以用来测试任何文本的难易度。公式本身很简单,先给两个数字以不同的权重,然后加在一起。

0.39×(总单词数/总句子数) 11.8×(总音节数/总单词数)-15.59

根据弗莱施的说法,公式计算出来的分值即阅读这些文本所要求的学校年级水平。如果一本书的年级水平为3,那就是说,3年级以上(包括3年级)的学生应该都能理解这本书。

这个公式用于较长的文本时最为合理,在这里我举一个例句,

以帮助理解——乔治·华盛顿首次国情咨文的第一句:

用数据说话的书籍 数据分析告诉你(4)

I embrace with great satisfaction the opportunity which now presents itself of congratulating you on the present favorable prospects of our public affairs.

我深感荣幸现在拥有这个机会,因公共事务的良好前景对你们表示祝贺。

这句话一共有43个音节,23个单词,计算公式给这句话的难度分值为15,超出高中水平。

接着我们来看小布什总统最后一次国情咨文的第一句:

用数据说话的书籍 数据分析告诉你(5)

Seven years have passed since I first stood before you at this rostrum.

从我第一次面对你们站在这个讲台上直到今天,七年已经过去。

一共16个音节,13个单词,计算公式给这句话赋予的难度分值为4,小学4年级应该能看懂。

4和15这两个数字看上去似乎有些随意,但放在一起便很容易看出为什么公式给第一句话赋予了更高的难度分值。但是在较长的文本中,复杂句子的高分值和简单句子的低分值会互相抵消,类似弗莱施-金凯德这样的公式作为单一衡量标准,具有局限性。有人批评公式过于简单,没有把上下文考虑进去,说用这个公式来确定作品的阅读年级不够准确。

例如,有些不同寻常的作家具有独特的风格,会让这个简单的评分公式无法算出合理的分数。苏斯博士的《绿鸡蛋和火腿》得了负分,-1.3。请看以下段落:

Not in a box.(不要在盒子里面吃)

Not with a fox.(不要和狐狸一起吃)

Not in a house.(不要在房子里吃)

Not with a mouse.(不要和老鼠一起吃)

I would not eat them here or there.(我不想在这吃,也不想在那吃)

24个单词、24个音节分散在5个句子中,公式算出了一个负分。

这个算法的另一端是福克纳。在《喧哗与骚动》中,他省略了标点符号,用1400多个单词组成一个“句子”,公式算出来的分值是551。

用数据说话的书籍 数据分析告诉你(6)

这些都是特例,对公式构成了最大的挑战。作为一个相对的衡量方式,弗莱施-金凯德公式的效果还不错,因为一本书算下来,少数长短不规则的句子能够互相抵消。即使《喧哗与骚动》这本书,总体评分也只有20。大多数作品都是面向普通读者的,并不像福克纳和苏斯博士的书那么极端,评分一般在4到11之间。1960年以来,《纽约时报》畅销榜首每部作品的评分都落在了这个跨越7个年级的区间里。最终看来,弗莱施-金凯德公式的简单是一个优势,让我们能够对大量不同时代和不同类型的作品进行比较。

如果关心美国政治,你可能会在每年总统发布国情咨文时看到一次弗莱施-金凯德公式。衡量这些演说的复杂度已经成为大众的一种消遣,因为计算结果显示了一个不可否认的趋势:从美国建国初期到现在的所有国情咨文来看,政治演说的复杂程度稳步下降。

国情咨文的阅读难度降低是一方面,文学作品情况又如何呢?

不同时期的美国长篇小说,是不是也有类似趋势?虚构作品也越来越“笨”了吗?

为了找到答案,我搜集了1960年至今《纽约时报》畅销榜首的所有作品,一共563部,并用弗莱施-金凯德公式计算难度分值。

用数据说话的书籍 数据分析告诉你(7)

计算结果显示,和国情咨文一样,这些书的复杂度在过去50多年间也在持续下降。现在的畅销书排行榜上多是比以前更为简单的小说。如果你利用畅销榜单来选择读物,你读的书的阅读难度可能远不如四五十年前的上榜作品。

上图中的黑线代表每十年里阅读水平的中位数。灰色竖条代表所有书中阅读难度中间的50%。20世纪60年代的中位数是8,有一半书的难度在7.2到9.3之间。在50年前,7.2算难度较低的,到了2014年,37部畅销书中的36部难度都在7.2以下。往日的低难度成了今日的高难度。2014年畅销榜37部榜首作品中难度最高的是丹尼尔·席尔瓦(Daniel Silva)的《大盗》(The Heist),难度分值为8,放在半个世纪前只是普通水平。(1960年后的头几十年,约有15%的早期作品由于没有电子版未列于样本中。但即使样本中的作品难度都比较低,平均下来也不会把中位数拉低到当代作品之下。)

用数据说话的书籍 数据分析告诉你(8)

《大盗》

用数据说话的书籍 数据分析告诉你(9)

《阿拉斯加》

詹姆斯·米切纳(James Michener)1988年的小说《阿拉斯加》位于阅读难度的顶峰,为11.1,是1960年以来所有作品中阅读水平要求最高的作品。50多年来,共有25部作品分值在9以上,但创作于2000年之后的只有2部。

在阅读难度的底端,有8部作品得分4.4,并列最低,而且都创作于2000年后,作者是三位高产作家,詹姆斯·帕特森、珍妮特·伊万诺维奇和诺拉·罗伯茨。

阅读难度较低的头号畅销作品基本都是近些年才出现的。1960年以后,一共有28部头号畅销作品的分值低于5,其中只有2部出版于2000年之前。

下图是阅读难度高于8(8是20世纪60年代的中位数)的作品所占的百分比,趋势很明显。

用数据说话的书籍 数据分析告诉你(10)

下图是阅读难度低于6的作品所占的百分比,6是现在的中位数。

用数据说话的书籍 数据分析告诉你(11)

这种变化可能有两个原因。一是畅销书里更简单的句子和单音节词越来越多了。另一种可能是,《纽约时报》的畅销书排行榜变“笨”了,就如《卫报》所说,越来越多“笨”类型的书登上了排行榜。我将其称之为“罪疚快感”理论。如果惊险小说和言情小说之类的快餐型作品比30年前更频繁地进入畅销榜单,那么即便各类型作品的难度水平是保持不变的,上榜作品的平均阅读难度也会降低。

我检验了这两个原因,结论是,两者都有。

符合“罪疚快感”理论的作品,排行榜上一直存在。20世纪60年代是《娃娃谷》(Valley of the Dolls),70年代是《驱魔人》,80年代是《谍影重重》系列,90年代是《侏罗纪公园》系列。

如今畅销榜单上的罪疚快感型小说比过去的多,这是毫无疑问的。20世纪60年代,一部作品可以停留在榜首很多个月。如今,作品上上下下,更新速度要快得多。1960年,位于榜首位置的作品只有2部:詹姆斯·米切纳的《夏威夷》(Hawaii)和艾伦·德鲁里(Allen Drury)的《建议和同意》(Advise and Consent)。2014年则有37部在榜首流连过,其中,约翰·格里森姆(John Grisham)的《灰山》(Gray Mountain)占据榜首时间最长,长达4周。获奖的文学小说偶尔才会占据第一,比如《纠正》(The Corrections)和《金翅雀》(The Gold finch)。但今天畅销榜上的第一名绝大多数是利益驱动的小说,这使得严肃文学作品在整体难度水平上起不到关键作用。

用数据说话的书籍 数据分析告诉你(12)

《娃娃谷》

用数据说话的书籍 数据分析告诉你(13)

《侏罗纪公园》

如果只看文学奖获奖作品而不是畅销书,我们会发现严肃文学作品的阅读难度并没有下降那么多。话虽如此,这些作品的句子长度和单词长度仍不如你想象得那么复杂。复杂的主题并不总是会转化成复杂的作品。20世纪60年代的普利策文学奖作品的平均阅读难度为7.6,21世纪头10年是7.1。20世纪60年代到现在这些年中,平均难度则为7.4。除此之外,还有许多普利策获奖作品的分值是异常的,比如迈克尔·夏邦的《卡瓦利与克雷的神奇冒险》(The Amazing Adventures of Kavalier & Clay),阅读难度为10,以及艾丽斯·沃克那部从14岁的西莉的视角写的《紫色》(The Color Purple)阅读难度为4.4。但这些年来,严肃文学作品的阅读难度并没有发生根本性的改变。

罪疚快感型小说越来越多,并不是畅销书阅读难度下降的唯一原因。按照畅销书的不同类型进行分析,我们发现,这些通俗类作品本身也在不断趋向简单。惊悚小说变“笨”了,言情小说变“笨”了,各种类型的通俗小说全盘“笨化”。

下图中有25位作家,他们都是1960年以来《纽约时报》畅销榜榜首的大户,每人有至少5部作品曾占据第一名,作品几乎也都面向大众读者群,类型包括悬疑、神秘、爱情、动作,等等。图中横轴和纵轴分别是他们第一部榜首作品的出版年代和平均阅读难度。

用数据说话的书籍 数据分析告诉你(14)

罗伯特·勒德拉姆(Robert Ludlum)以其惊悚作品而闻名,《谍影重重》三部曲的首部出版于1980年,平均阅读难度7.2,这样的难度在今天的畅销小说中并不常见。克兰西和迪恩·孔茨(Dean Koontz)在20世纪80年代开始创作,他们作品的阅读难度比过去20年中任何一个崛起的畅销作家都要高。约翰·勒卡雷(Johnle Carré)小说的阅读难度在他的年代处于平均水平,比2014年37部榜首作品中的36部都高。丹尼尔·斯蒂尔在她那个时代算是异常低的了,但她的作品的阅读难度仍然比现在许多作家要高。

现代畅销书中不光有更多的罪疚快感类作品,而且作品的难度也在下降,让读者越来越为自己充满快感的阅读感到内疚。

弗莱施-金凯德公式虽然最为常用,但只是众多阅读难度计算方法中的一种。多数方法中,句子长度都起着重要作用。今天的畅销书的句子比过去短了许多,从20世纪60年代起的每句平均17个词下降到2000年后的12个,这意味着不管用这类方法的哪一种,都会产生类似的下降趋势。

另一类有趣的计算方法是戴尔-查尔(Dale-Chall)可读性公式。虽然它也使用句子长度进行统计,但它另有一个单独的部分,专门处理文本中出现的“复杂”单词的数量。1948年,埃德加·戴尔(Edgar Dale)和珍妮·查尔(Jeanne Chall)编制了一个单子,列出他们认为不复杂的763个单词,并用这些单词统计一段文本中“复杂”和“不复杂”的单词数量。

从最初763个单词的单子开始,戴尔和查尔逐渐将单词增加到将近3000个。苏斯博士《戴帽子的猫》中99%的单词都是“不复杂”的,仅存的两个例外是thump(s)(急速跳动)和plop(扑通)。

苏斯博士那般只有1%是复杂单词的情形,在小说中是不存在的。最接近1%的畅销书是丹尼尔·斯蒂尔于1993年出版的作品《星辰》(Star),全书只有7%的单词属于复杂单词,创下最低纪录。下面是该书的第一句话:

The birds were already calling to each other in the early morning stillness of the Alexander Valleyas the sun rose slowly over the hills, stretching golden fingers into a sky that within moments was almost purple.

清晨的太阳缓缓从山头升起,鸟儿在亚历山大谷的静谧中呼唤着彼此,阳光如金色的手指伸入天空,那一瞬,天几乎是紫色的。

另一个极端是罗伯特·勒德拉姆1984年出版的惊险小说《阿基坦疑云》(The Aquitaine Progression)。全书22%属于复杂单词,比其他畅销榜首作品都高。以下是开头三句:

Geneva. City of sunlight and brigh treflections. Of billowing white sails on the lake—sturdy, irregular buildings above, their rippling images on the water below.

日内瓦。阳光明媚的城市。湖上滚动着白帆,湖边是坚固的不规则建筑物,倒影在水面上晃荡。

与弗莱施-金凯德公式算出来的分值一样,戴尔-查尔针对“复杂单词”统计的数量近几十年里也在逐渐下降。虽然不像弗莱施-金凯德公式结果那样变化显著,但1960年以后下降趋势开始明显。

一本畅销书放在过去,如果其复杂单词的使用量处于平均水平,那么与今天的作品比较时,将会处于高水平。2%的下降率作为绝对值来说不算大,但一般图书的复杂词比例都在7%至22%之间,十年、二十年后,畅销榜单上的作品难度将会处在什么水平呢?

在书的世界里,《纽约时报》排行榜很被看重:作者从中赢得声望,读者从中获得导向。观察《纽约时报》这些年来做出的改变,很容易看出来,他们在思考排行榜的组成问题。虽然具体方法不公开,但《纽约时报》承认,相对大零售商,会给一些独立书店更高的销售额权重。在与超市过道里的商业化惊险小说进行竞争时,应该给予小众和更“文学”的作品更多机会。如果能够意识到畅销书中阅读难度下降的趋势,《纽约时报》将会面临一个问题:是否应该介入,把某些作家或某些类型排除在畅销小说排行榜之外?

用数据说话的书籍 数据分析告诉你(15)

让《纽约时报》对畅销榜单进行“整形”,乍一听似乎有点儿荒谬,但实际上他们以前做过这事儿。2000年,他们做出了一个重要调整,即从榜单中排除了“哈利·波特”系列,因为1999年,“哈利·波特”占据了20周榜首位置。随后,《纽约时报》增加了“童书”榜单,此后又将其细分为“青少年”(一般指12到18岁)、“少年”(一般指9到12岁)、“绘本”和“系列作品”四个榜单。

把虚构作品榜单(也就是《纽约时报》的大名单)分成两个,是一个解决“罪疚快感”小说过多的好办法。一个专注文学类小说,另一个专注类型小说。如果《纽约时报》想促进作品多元化发展,可以把第一个榜单作为最推荐的榜单,建造一个专为文学类作品设计的避风港。这样一来,至少可以取悦严肃读者,让他们知道通俗小说之外还流行什么作品。(无可否认,类型小说和文学类小说之间的界限很难划分,而且出版商常常出于经济利益考虑刻意将某些书标注为某种类型。)

《纽约时报》的编辑们已经进行了类似的尝试。虽然没有改变主要的虚构类榜单,但他们在2007年专门开辟了一个“精印平装书”榜单,旨在特别推广某个类别的小说。《纽约时报》的编辑在发布此榜单时特别说明:

这一期还新添了一份专注于‘精印平装小说’的畅销榜单。此榜单更注重文学性长篇小说和短篇小说集……

与精印平装书相对应的是“大众市场”平装书。一本书能够进入“大众市场”畅销排行榜,不是因为其作品类型热门或潜在的读者群体大,而是因为其印刷参数比较特别(较小的页面,便宜的纸张,通常是你在超市里看到的那些口袋大小的书籍)。碰巧的是,类型小说的平装本往往被印制成“大众市场”平装书。但是随着电子书的兴起,这些廉价书的市场已经缩小,所以越来越多的类型作品或商业化作品逐渐以“精印平装书”的形式出版,也就是更耐久的优质平装书。但是,“精印平装书榜单”没有实现其最初的目的。比如,我在写这一章的时候,整个“精印平装书”榜单中的第一名是小说《五十度灰》,其后是《五十度黑》和《五十度飞》。这三本书加起来已在榜单上停留超过100周。榜单上其余的作品确实包括一些文学类小说,但流行作家吉莉安·弗琳,尼古拉斯·斯帕克斯和詹姆斯·帕特森也出现在榜上,似乎违反了当初的目的——“更注重文学性长篇小说和短篇小说集”。

如果想实现这一目标,《纽约时报》需要再次调整类别,也许现在正是应该咬紧牙关知难而上的时候,试着对难以捉摸的“严肃文学”进行分类,而不是将定义架设在书籍的物理形式上。如果《纽约时报》希望维持其文化定位,他们可能需要像以前那样再一次做出改变。

然而,我一直思考着一个更为宽泛的问题:我们是不是应该担心畅销书榜单读者的整体阅读水平?

对于这个问题,我的答案是“不”。我用了一整章来描述畅销书变得更“笨”的现状。《纽约时报》本身的阅读难度也在下降,对此我本可以轻松地下个不加思索的结论:这个国家的智力水平正处于历史最低点。

但我不认为这是个公平的结论。我们应该注意到,阅读水平本是一个粗略的划分,表明文本难度可能把哪些人排除在读者群外。

想要读一本难度水平为6级的作品,你不一定非得是个6年级学生。文句较为简单的作品能够吸引更广泛的读者。

用数据说话的书籍 数据分析告诉你(16)

《金翅雀》

用数据说话的书籍 数据分析告诉你(17)

《纯真年代》

简单挺好的,因为可以让更多的人阅读。蕴含力量或富有文学意味的作品不一定非得复杂。获得2014年普利策文学奖的小说《金翅雀》(TheGoldfinch)也是排名第一的畅销书,阅读水平在较为合理的7.2。许多经典作品的阅读水平分值很高,比如《纯真年代》10.4,《雾都孤儿》10.1,《撒旦诗篇》10.1,也有许多分数低得惊人,比如《杀死一只知更鸟》5.9,《太阳照常升起》4.2,《愤怒的葡萄》4.1。后面三部作品虽然分数低,但也备受文学界推崇,很容易读,在全美各地的高中课堂上被当作教材使用。

我们需要广泛的、难度不一的作品来满足广大读者。大多数畅销作品并不复杂,也是合乎逻辑的。我不认为将来大众作品的阅读难度会回到充满长句的华盛顿第一篇国情咨文那种水平。凯鲁亚克最受欢迎的作品《在路上》的阅读难度为6.6,虽然我不认为下面这句话中,凯鲁亚克是在谈论句子构成,但他所说的切中了我们讨论的要点,值得深思:“有一天,我将找到恰当的话语,而且这些话语将是简单的。”

用数据说话的书籍 数据分析告诉你(18)

节选自

《纳博科夫最喜欢的词》

[美]本·布拉特/著

杜森/译低音·北京联合出版公司

2018年12版

用数据说话的书籍 数据分析告诉你(19)

用数据说话的书籍 数据分析告诉你(20)

2019午夜蓝文学周历 x 诗歌主题周边 已上线

用数据说话的书籍 数据分析告诉你(21)

最迷人的午夜蓝,

是亲手撕下的文艺时刻。

用数据说话的书籍 数据分析告诉你(22)

用数据说话的书籍 数据分析告诉你(23)

文学照亮生活

公号:iwenxuebao

网站:wxb.whb.cn

邮发:3-22

扫描左边可进入微店

文学报

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页