一个有着百万本图书的数据库正尝试把一项举措变为可能,即通过统计上几个世纪所有出版的单词数量,来追踪文化的趋势。 Cynthia Graber报道。
人们把这称作文化基因学,顾名思义,以“基因学”的角度来看人类思想和文化的发展趋势。 但科学家们表示,文化基因学一直受到数据量缺乏的阻碍。因此,哈佛大学,谷歌,大英百科全书,以及美国遗产字典的研究者们,发明了一个工具。
这是一个包括从1500年以来出版的5百20万本书的数据库,相当于历史上所有出版图书的4%,共含5千亿单词。研究重点是英语文化,因此三分之四为英文书籍。
初期研究结果表明每年约有8500个新单词产生,但它们中的大多数没有进入字典。关于出名,演员多在30岁左右出名,作家40岁左右,政治家50岁。但最终,政治家的名声会超过演员。这一研究结果在“科学”杂志发表(Jean-Baptiste Michel et al., "Quantitative Analysis of Culture Using Millions of Digitized Books")
谷歌的一个叫做Books Ngram Viewer的工具因运而生。使用者可以追踪一个单词或者一个词组在过去几世纪的使用频率。这样我们就可以清晰看出艺人们的兴衰变化。
—Cynthia Graber