有一个1G大小的一个文件,里面每一行是一个词,词的大小不超过16字节,内存限制大小是1M。返回频数最高的100个词

bluesky1年前 ⋅ 783 阅读

解决方案:

1. 先将文件分割成多个小文件,每个文件大小不超过1M,然后分别对每个小文件进行词频统计;

2. 将每个小文件的词频统计结果合并,得到总的词频统计结果;

3. 对总的词频统计结果进行排序,取出频数最高的100个词。

全部评论: 0

    相关推荐