什么是布隆过滤器？

什么是布隆过滤器？

布隆过滤器是一种快速、高效的数据结构，用于判断某个元素是否属于一个集合中。它由布隆在1970年提出，被广泛应用于信息检索、网络爬虫、数据压缩等领域。

布隆过滤器的主要思想是：利用多个哈希函数对元素进行多次哈希，然后将每个哈希值对应到一个位数组中的某一位。当需要查询某个元素是否在集合中时，同样利用多个哈希函数对该元素进行多次哈希，判断每个哈希值对应的位数组上的位是否都为1，若都为1则说明该元素可能存在于集合中，否则一定不存在。

布隆过滤器可以在空间和时间上都比较节省，它的空间复杂度和元素个数、哈希函数个数、位数组长度有关，时间复杂度和哈希函数个数、位数组长度有关，查询时间只与哈希函数个数有关，具有高效、低存储、低错误率等特点。但是，布隆过滤器存在误判的问题，即将一个不在集合中的元素误判为存在于集合中。因此，在使用布隆过滤器时需要权衡其误判率和空间占用等因素。

布隆过滤器的使用场景有哪些？

布隆过滤器由于其高效、节省空间、易于实现等特点，被广泛应用于以下场景：

数据库查询优化：在查询某个元素是否在数据库中时，可以先通过布隆过滤器进行快速过滤，避免无谓的数据库查询，从而提高查询效率。
网络爬虫：在爬取网页时，可以使用布隆过滤器来判断某个链接是否已经被访问过，避免重复访问。
防止恶意攻击：在网络安全领域，布隆过滤器可以用来判断某个 IP 地址或者域名是否是恶意的，从而有效防止网络攻击。
缓存优化：在使用缓存时，可以利用布隆过滤器判断某个数据是否已经被缓存，避免重复缓存。
单词拼写检查：在拼写检查时，可以使用布隆过滤器来判断某个单词是否存在于字典中，避免检查字典中不存在的单词。

需要注意的是，布隆过滤器虽然具有高效、节省空间等优点，但是误判率较高，因此在使用时需要根据具体应用场景权衡其优缺点。

布隆过滤器实现原理

布隆过滤器的实现原理主要涉及两个方面：哈希函数的设计和位数组的操作。

哈希函数的设计

布隆过滤器利用多个哈希函数对元素进行多次哈希，以获得更好的散列效果。一般情况下，布隆过滤器使用的哈希函数是非加密的哈希函数，如MurmurHash、FnvHash、BKDRHash等。

为了使得哈希函数的结果更加分散，一般会采用多个哈希函数，并且哈希函数之间应该尽量独立，互不影响。常见的做法是使用不同的哈希函数种子，或者采用不同的哈希函数类型。

位数组的操作

布隆过滤器通过位数组来表示某个元素是否存在于集合中。位数组是一个由若干位（通常是0或1）组成的数组，每个元素都对应着一个位。

在布隆过滤器中，位数组的长度是固定的，一般根据元素数量和误判率来决定。在将一个元素添加到布隆过滤器中时，将该元素通过多个哈希函数得到多个哈希值，并将这些哈希值对应的位数组上的位设置为1。

在查询一个元素是否存在于布隆过滤器中时，同样采用多个哈希函数得到多个哈希值，并检查这些哈希值对应的位数组上的位是否都为1。如果所有哈希值对应的位数组上的位都为1，则说明该元素可能存在于集合中，否则一定不存在。

需要注意的是，由于布隆过滤器可能存在误判的问题，因此在使用时需要根据实际情况来权衡误判率和空间占用等因素。

guava示例

下面是使用Guava库实现一个简单的布隆过滤器的示例：

import com.google.common.hash.BloomFilter;
import com.google.common.hash.Funnels;

public class BloomFilterDemo {
    public static void main(String[] args) {
        // 创建一个包含1000个元素，误判率为0.01的布隆过滤器
        BloomFilter bloomFilter = BloomFilter.create(
                Funnels.stringFunnel(),
                1000,
                0.01);

        // 添加元素
        bloomFilter.put("hello");
        bloomFilter.put("world");

        // 查询元素是否存在
        boolean existsHello = bloomFilter.mightContain("hello");
        boolean existsWorld = bloomFilter.mightContain("world");
        boolean existsGoogle = bloomFilter.mightContain("google");

        System.out.println("Exists hello: " + existsHello);
        System.out.println("Exists world: " + existsWorld);
        System.out.println("Exists google: " + existsGoogle);
    }
}

在这个示例中，我们使用了BloomFilter.create方法创建了一个包含1000个元素，误判率为0.01的布隆过滤器。然后我们通过put方法添加了两个元素，再通过mightContain方法查询元素是否存在于布隆过滤器中。

需要注意的是，Guava库提供的布隆过滤器实现是线程安全的，可以在多线程环境下使用。另外，由于布隆过滤器可能存在误判的问题，因此在使用时需要根据实际情况来权衡误判率和空间占用等因素。

BloomFilter详解

BloomFilter是一个经典的哈希函数实现的布隆过滤器，它是由Burton Howard Bloom于1970年提出的。在BloomFilter中，每个元素通过多个哈希函数得到多个哈希值，并将这些哈希值对应的位数组上的位设置为1，从而判断一个元素是否存在于集合中。BloomFilter的参数和方法如下：

参数

预计元素数量（expectedInsertions）：表示要添加到布隆过滤器中的元素数量的预估值。预估值越大，误判率就越低，但是布隆过滤器所需要的位数组也就越大。
误判率（fpp，false positive probability）：表示判断一个元素存在于布隆过滤器中的错误率。误判率越低，布隆过滤器所需要的位数组也就越大。
策略（strategy）：表示在哈希函数冲突的情况下，使用哪种策略来合并多个哈希值。默认是使用MURMUR128_MITZ_32策略。

方法

put(T object)：将一个元素添加到布隆过滤器中。
putAll(Collection<? extends T> objects)：将一组元素添加到布隆过滤器中。
mightContain(T object)：判断一个元素是否存在于布隆过滤器中。如果返回true，则该元素可能存在于集合中；如果返回false，则该元素一定不存在于集合中。
approximateElementCount()：返回布隆过滤器中已经添加的元素数量的预估值。
expectedFpp()：返回布隆过滤器的预估误判率。
isCompatible(BloomFilter that)：判断两个布隆过滤器是否兼容，即能否进行合并。
merge(BloomFilter that)：将两个布隆过滤器合并为一个新的布隆过滤器。

需要注意的是，由于布隆过滤器可能存在误判的问题，因此在使用时需要根据实际情况来权衡误判率和空间占用等因素。同时，BloomFilter只能用于判断元素是否存在于集合中，不能用于判断元素的具体数量。

展开阅读全文

页面更新：2024-04-24

标签：过滤器高效数组权衡缓存函数个数元素数量空间

1 2 3 4 5

什么是布隆过滤器？

参数

方法

谷歌推出的设计，沙雕但暖心！

王传福称无人驾驶是忽悠！小鹏你怎么看？

从量子到星空：混沌世界的隐藏秩序

美团香港外卖业务或5月上线，将推出独立新品牌

纯电动皮卡 RAM 1500 REV实车亮相续航805km

大秦铁路开始进行集中修施工

数读｜本田中国一季度销量同比下跌37%，电动化车型卖了近5万辆

海南全岛封关意味着啥？

国网湘江新区供电公司：电力“联企”助发展优质服务暖人心

经合组织地区2月通胀率降至8.8%

再创新高！2022年韩国国家债务达12.2万亿人民币

没毕业可以先上班试试岗位匹配度 “职业体验促就业”活动走进湖南农业大学

《2023年东盟与中日韩区域经济展望》预测2023年中国经济增长5.5%

耶伦：美国银行业正“趋于稳定” OPEC+减产将增加全球经济不确定性

柬埔寨王国驻济南总领事馆开馆仪式举行

敲响警钟：9岁女孩身高153，剩余空间却只有3公分！

科学仪器行业研究：大赛道+低国产化率，国产设备成长空间

我国研制出人形机器人，用于地球和月球空间站管理

新时代新征程新伟业｜护航乡村振兴项目廉洁高效

淄博海岱楼钟书阁：共同营造和谐文明的公共文化空间

iOS 15.4.1 Fugu15 Max 进展，用户空间重启搞定

低价充值套路多高额优惠暗藏消费陷阱-“互联网充值返

极空间NAS终于可以远程访问Docker，还能给全家设备内网

华特达因研究报告：儿药春天来临，行业领跑打开未来业绩空

这是一篇烧脑文：超弦理论解释多维空间和平行宇宙、因果