数据存储小算法

2020-12-08 13:30

阅读：1040

标签：假设数据存储重复流式统计部分 weixin sdn 博文

记录一个问题：有一个10G大小的文件，文件内为一行一个的整数，给定可使用内存为2G.要求统计出现次数最多的数字。

1、流式数据处理（这块后面单独写吧，埋坑....）

2、分文件处理

读入部分文件，对数值模10.取值相同放入一个文件。然后处理10个文件。统计出现次数最多的。

我认为上面这种方案可以解决一种情况。就是文件数值不重复。或者重复较少的情况

假设一种极端情况。文件内容全部取模值全部相同。或者超过2G就不在适用上面的方法了。而更适合将相同的数字放入同一个文件。

情况不同解决方案也不尽相同。没有银弹
---------------------
作者：乔帆
来源：CSDN
原文：https://blog.csdn.net/weixin_40596063/article/details/82895458
版权声明：本文为博主原创文章，转载请附上博文链接！

数据存储小算法

标签：假设数据存储重复流式统计部分 weixin sdn 博文

原文地址：https://www.cnblogs.com/stone531/p/10992547.html

文章来自：搜素材网的编程语言模块，转载请注明文章出处。
文章标题：数据存储小算法
文章链接：http://soscw.com/index.php/essay/23510.html

亲，登录后才可以留言！