如何通过阅读提升英语词汇量

中国南北朝时,周兴嗣编写了千字文,它摘自王羲之的书法作品,通篇由1000个不同的汉字组成。仅此一篇文章,儿童启蒙教育中不仅能学会最基础常用的汉字,而且也可以了解到相当多的人文历史知识。

所以我时常想,英语学习过程中,有没有类似的文章可以用来识记单词呢?

然而,英文世界里,似乎并不存在类似《千字文》这样的启蒙读物。

最近,我发现了一个网站,从那里可以下载到海量的开源英文书籍。我自己是有点编程能力的,于是萌生将那些书籍全部下载下来的想法。寄希望从中摘抄到最少的文章段落,可以包含有最多的初高中乃至四六级大纲词汇,分享给有想通过阅读提升词汇量的朋友们。

经过多日的努力,功夫不负有心人,这样的小程序终于面世了!--“学霸训练场”闪亮登场

通过阅读背单词“学霸训练场”推荐



小程序的开发历程

首先做的工作是写了一个爬虫软件,将那个开源英文网站上所有的英文书籍全部扒拉了下来。去重后共有40448部书籍,有《简爱》《呼啸山庄》《悲惨世界》等名著,也有《医护笔记》《国情咨文》等社科、经济、政治类的文稿,真是堪比一个中型的图书馆了。

从开源英文书籍网上下载的数量

因为之前写“学霸训练场”微信小程序,收集并整理了7538个英语大纲词汇表,所以算有了些词汇材料的基础,后面只要关注英文段落的筛选逻辑就可以了。

“学霸训练场”里的大纲词汇表

段落筛选逻辑

我们的目标很明确,就是寄希望于在这四万篇英文著作中找到相关的段落,它能满足最少的字数,包含最多的大纲生词量。

首先要考虑的问题是,英文的词汇是有变形的!虽然我手中握有七千多个生词的大纲词汇表,但是它们大多是以原型的方式呈现的,而在英文著作中,表达是有具体的场景的,英文单词通常是以各种时态存在于各个句子中。所以我依然是依靠爬虫技术,在网页词典中获得相关单词的各种时态变形,包括单复数。

英文单词的变形

果然,虽然是七千的基础词汇,各种变形后,词汇量已然超过了2万了。

然后就是英文段落的搜寻逻辑设计了。

预想的是类似《千字文》那样的效果,英文段落内的每一个单词都是唯一的,不重复的。虽然不能用一篇文章来学习所有大纲词汇,但有很多个那样的段落来学习也是不错的方法啊。

所以,逻辑上我遍历了每一篇文章,匹配了每一个段落,使每个段落中大纲词汇的占比是最多的。

虽然是手握着四万本英文资料,而且各个单词的变形都考虑进去了,但是现实并不能按我理想的那样整理出成果。这里很大的原因是英语自身的构词法和语法的限制。中国都上下五千年了,虽然也是海量的词汇,但常用的汉字也就三四千个,足够我们阅读和知识的传播了。但该死的英语却并不能以会26个字母就认为可以阅读了,它的词汇量都大几百万的,在非母语的学习人员眼里里,很难建立词汇间的彼此联系!此时心疼一下。

理想的段落拿不到,那就退一步吧。关注点还是那七千多个大纲词汇,现在的目标是找到相关段落,大纲词汇占有尽可能大的比例,去除重复和变形后,每个段落可以新学三十多个大纲生词即可。

寄希望这样的层级递进方式,实现所有生词的学习。

成果

虽然要求是一再放低的,最终还是离理想的样子存在些差距,但是结果并不算太差。

通过整理,总共挖掘出来150篇英文段落,它包含大纲词汇4763个。也就是,只要我们按段落顺序进行阅读识记,可以确保每个段落新学到三十几个生词加部分大纲外词汇,150篇英文著作摘抄学习完后,妥妥6000+的词汇量。

更重要的信息是:150篇段落中,前60篇段落的字数是少于100个单词的,只有后30几篇的段落是超过300个单词。全部段落的超纲词汇尽力维持在10%以内,最多不超过20%。(超纲词汇未去重统计,有些虽说不是大纲词汇,其实也是很基础,如“a”“law”等)

阅读名著摘选,生词不断积累

这150篇摘抄段落来自100多篇不同的著作,包含小说,经济、政治、科技甚至还有菜谱。

如第一篇选摘来自《Upsidonia》,主要是讽刺1872年巴特勒传统的文章。

选摘段共31个单词,而且是31个不同的单词,十分难得啊。

But surely there is nothing very difficult about spending money, if you really set out to do it! In my country rich men buy fine pictures, and things of that sort.

再例如第16篇

Even in ordinary conditions, certain substances called radioactive emit, quite outside any particular reaction, radiations complex indeed, but which pass through fairly thin layers of minerals, impress photographic plates, excite fluorescence, and ionize gases. In these radiations we again find electrons which thus escape spontaneously from radioactive bodies.

它摘抄自《The New Physics and Its Evolution》(新物理学及其发展)。整个段落48个单词,大纲词汇43个,其中17个词汇是前15篇已经接触过的,新大纲生词26个。

这些全部在我的微信小程序“学霸训练场”中有体现。我给大纲词汇均标注了下划线,并且对新接触的生词用蓝色字体显著标识了。

所以建议按提供的选摘顺序,循序渐进地去阅读、理解和记忆。在这里我们不仅仅是6千多的词汇量,还有一些知识,一些视角。

第16篇英文著作摘抄

对于大纲词汇,为了方便学习,我也一并实现了点击查询的功能,可以很方便地查看它的解释,听它的读音,了解它的各种变形。

点击大纲词汇,查看词汇翻译

成果共享

英文资料整理的过程,也是我学习和兴趣培养所在。

也很乐意与朋友们共享,所有的150篇英文选摘,可以到我的小程序中去获取。

学霸训练场

“学霸训练场”中还有其它内容,后期还会有更多内容。

期待各位读者前去多多翻腾!

展开阅读全文

页面更新:2024-03-02

标签:词汇量   汉字   词汇表   生词   英文   英语   段落   大纲   单词   词汇   著作

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top