1949年,哈佛语言学家齐夫(George Kingsley Zipf)做了长篇小说《尤利西斯》的词频统计。该书的长度是260,430字,总共用到了29,899个单词。它是单词量最大的文学作品之一。
他发现,单词的出现频率有规律地下降。词频第二名的单词的出现频率,是第一名的二分之一,第三名的出现频率是第一名的三分之一,第四名是四分之一,第十名是十分之一,第1,000名是千分之一,以此类推。
这被称为 Zipf 定律,即任何单词的词频,与该单词在词频表中的排名保持一个固定比例。
这个定律有两个重要推论。
(1)一种语言的常用词汇只包含少数单词。例如,在英语中,单词 the 占所有文本的7%,最常见的10个英语单词占到了所有文本的23%。
对于当今世界的大多数语言来说,仅仅100到150个常用单词,就占所有文本的一半左右。在希腊语的《圣经新约》中,319个单词占全书近80%的内容。
(2)当你掌握了这些高频常用词以后,遇到的所有词汇几乎都是低频词。
还是以希腊语的《圣经新约》为例,319个单词占文本的近80%,但剩下的20%包含了5118个不常用的单词,其中大部分单词只使用了一次。
推论二注定了精通一种外语是一件麻烦事。学习者入门以后,就不得不花大量时间,记住那些出现频率很低的词汇。以布朗大学语料库为例,该语料库一共包含了53,076个单词,其中36,135个单词在语料库的所有文献中出现次数不超过三次,它们占了词汇量的68%,但是仅仅在5%的场合使用。
更麻烦的是,这些不常见的词往往很重要,能够提供句子的关键信息。越少见的词对于了解句子含义越重要。
学习者遇到不认识的单词,可以通过上下文去猜测含义。但是,一项研究表明,如果要从上下文中正确猜中单词含义,阅读者必须能够理解文本中至少95%的内容。
对于布朗语料库来说,15,851个单词可以覆盖语料库97.8%的内容。这差不多就是英美大学生掌握的单词数量。这意味着,如果你记住了15000个单词,再遇到不认识的单词,就可以较有把握得猜出它的含义。
但是,对于外国人来说,想要通过几年学习,掌握15000个左右的英语单词,绝非易事。
文章评论