简化宋词就是“东风何处在人间”

署名为“yixuan”的网友在个人博客里写道:“突然想看看宋词里面什么样的意象是最常见的,比如可以做个频率分析什么的。当然文本挖掘需要分词,我没法在其中花太多时间,于是想出了一个土办法。宋词的句子都很短,如果穷举可能的字的组合的话并不是太多,况且最常见的词语一般是两三个字,这样可能的组合就更少了。”比如“犹解嫁东风”这句话,可能的二字组合是“犹解”“解嫁”“嫁东”“东风”,三字组合是“犹解嫁”“解嫁东”“嫁东风”,词的字数越多,可能的组合就越少。如果把每句话可能的字的组合都列举出来,就可以整体统计频率了。”大家一致分析这位网友一定是个理科生。

随后, “yixuan”贴出了他算出来的高频词,排在前面的分别是:

1、1485
2、东风(1382)
3、何处(1230)
4、人间(1202)
5、风流(857)
6、归去(812)
7、春风(802)
8、西风(779)
9、归来(771)
10、江南(765)
……

至于为什么第一名是数字,他解释:“排在第一的是无效字符,这跟数据源有关。”

这个结果一出来,一位网友就一语道破了“玄机”,“原来,最流行的宋词就是‘东风何处在人间’啊!”
Share |
Share

TOP