错得离谱！竟然说pandas中的join比merge快5倍？我带你看源码吧

前言

最近有两位小伙伴跟我说，网上看到一篇文章说，在 python 中使用 pandas 连接两个表，别用 merge ，要使用 join，因为在大量数据的情况下 join 比 merge 要快4到5倍。

其实这说法我一听就知道是错误的。不过当时没有具体证据支持，所以我也没有下具体结论。

今天，我就从源码的角度，给大家一个参考依据。

当然，本文你还会学到一些代码调试技巧，还会看到一些 pandas 的优化手段。

join 比 merge 快很多？

那篇文章中的测试大概如下：

import pandas as pd
import numpy as np
from time import time

high = 1000
rows_list = [(i + 1) * 1_000_000 for i in range(10)]
n_columns = 4
repeat = 5

def create_df(n_rows, n_columns, col_names):
    data = np.random.randint(low=-high, high=high, size=(n_rows, n_columns))
    index_col = np.arange(0, n_rows)
    np.random.shuffle(index_col)
    data = pd.DataFrame(data, columns=col_names, dtype=np.int16)
    data["idx"] = index_col
    return data

for n_rows in [10_000_000]:
    sum_time_merge1 = 0
    sum_time_merge2 = 0

    for _ in range(repeat):
        df1 = create_df(n_rows, n_columns, [f"col_{i}" for i in range(n_columns)])
        df2 = create_df(n_rows, n_columns, [f"Col_{i}" for i in range(n_columns)])

        # merge
        start = time()
        df = pd.merge(df1, df2, how="left",left_on = 'col_0',right_on='Col_0')
        sum_time_merge1 += time() - start

        ## join
        start = time()
        df1.set_index("idx", inplace=True)
        df2.set_index("idx", inplace=True)
        df = df1.join(df2)
        sum_time_merge2 += time() - start

    result.append([df1.shape[0], sum_time_merge1 / repeat, sum_time_merge2 / repeat])

print(pd.DataFrame(result, columns=["行数", "merge耗时(秒)", "join耗时(秒)"]))

跑一千万数据，5次，取个平均
使用 df.join 有个前提，把2个表的关联key的列设置为行索引
merge 则使用普通的列作为关联key
我这里生成的key 是唯一的。足以复现原文的效果

看看结果：

嗯？还真快了这么多！

但是为什么我一开始听到这说法，不用做任何的实验，就觉得这观点有问题？

其实道理很简单。

假如今天你实现了一个功能函数：

功能很简单，把一个列表中的数值，先转成正数，然后求和

明天，你需要实现另一个功能很接近的函数，只不过输入的不是列表，而是2个具体的数值。显然你会想着调用之前的函数：

同样道理，join 函数明显是 merge 函数的一个特例。pandas 的设计者不会傻到用两套不一样的方式实现它们。

但是，别人给出来的实验结果确确实实反应了它们的差异。

接下来，我们就看看它们实现的源码。

源码找答案

首先，新建一个 python 文件，把代码设置得简单一些。

打开调试窗口，点击创建 python 的调试配置。

这里最重要的是设置 justMyCode 为 false 。这样子我们才能进入 pandas 源码里面

接着，在 merge 函数那一行打开一个断点

执行调试

代码会停在断点的行，接着我们要点击控制菜单中的下一步(也可以用快捷键)。

可以看到，merge 函数实际调用的是 pandas.core.reshape.merge.merge ，暂时不深入

如果你看过我之前关于类定义的文章，那么不用看里面的实现也知道，这里只不过实例化了一个对象，记录了一些相关数据而已，重要的是下方的 get result 函数

同样道理，调试 join 函数

咦？它的实现与 merge 不一样？别急，继续执行，直到

进入一看，又跳回到之前 merge 函数的实现

从左侧的调用堆栈中可以看到调用顺序：

1 是join调用
2 是 join compat
3 就是上图右边的代码

你可以点击调用堆栈中的一行，代码会跳回去，就连当时执行中的所有变量的值都可以查看

简单列一下大概的调用图：

join 函数绕了一圈才到真正执行的地方

所以现在我们知道，join 函数其实比 merge 函数执行更多的代码。

但是，之前的实验数据很好地说明了 join 比 merge 快呀，为什么？

不公平的对比

按调试流程，我们进入之前看到的 op.get result 函数里面：

进入这个 self._get_join_info() 里面：

可以看到许多关于 left index 和 right index 参数的判断。但是 我们使用 merge 的时候根本没有设置这两个参数，它们都是 False。

结果就会进入这段代码：

这是一个 python 的遍历代码，一个个去匹配 key 值

而 join 函数执行的却是：

直接调用行索引对象的函数

了解这些要点，相信聪明的你也知道要这样子修改实验代码：

把设置行索引的代码移除两个函数执行的范围外
merge 设置参数 left index 与 right index

但是，结果却出乎意料！！

对比一下之前的时间：

解释一下差异：

join 的耗时短了很多，因为现在它没有设置行索引的操作
merge 耗时也短了很多，因为现在它内部用了行索引

但是，为什么 merge 耗时仍然比 join 要慢很多？

pandas 的优化

此时，我们把实验代码中执行 merge 和 join 的先后顺序调换一下：

注意，记录时间的变量的对应关系没有变，所以这不会影响结果表格的左右顺序

看看结果：

现在，结论截然相反！

为什么？显然，有什么东西在第二次运行的时候，得到了优化。

在之前的源码调试中，我们得知，其实两个表按行索引关联，最核心的计算就是行索引对象的 join 函数。

按这个原理以及之前的调试方式，可以找到一个属性。具体过程我就不再啰嗦了，直接给出验证结果：

在 join 的过程中，有一个判断逻辑，如果行索引的值都是唯一的，那么会进行一些操作。

直接看看它的源码

缓存了结果。

道理很简单， pandas 怎么可以知道一个行索引的值是否唯一？显然要遍历一次数据。这个过程在大量数据的时候成本很高。由于索引对象是不可变的，所以可以缓存结果。

那么，现在我们修正一下测试实验的代码，让它公平对待：

现在的结果是：

很多小伙伴问我怎么学习 pandas 。正如我专栏里面的思路，集中学习少数核心常用的函数和原理，你的学习之路才能事半功倍。

不要忘记一键三连。你的点赞、收藏、关注，是我创作的动力。

推荐文章：

python为什么需要函数、类这些概念
懂Excel轻松入门Python数据分析pandas(18)：pandas 中的vlookup
pandas每天一题-题目19："炸列"操作的多种方式
pandas新版本增强功能，数据表多列频率统计

展开阅读全文

页面更新：2024-03-20

标签：源码堆栈遍历离谱函数顺序索引道理代码功能数据

中国移动回应用户收到奇怪短信：系统升级导致少量用户收到测试短信

来源：中新经纬 8日晚，不少北京市民收到来自10086的奇怪短信，内容为“王牌飞行员申请出战”。9日上午，部分手机用户收到10086的短信，称2023年1月8日晚北京移动对系统进行升级，过程中导致少量客户收到测试短信，由此造成的打扰

大疆DJI RS3 Mini稳定器外观曝光：仅重795克，将于明日发布

IT之家 1 月 9 日消息，大疆宣布将于 1 月 10 日 21:00 推出 RS 3 ____ 稳定器新品，根据最新爆料信息，这款稳定器名为 DJI RS3 Mini。根据 Roland Quandt 放出的渲染图，大疆 DJI RS3 Mini 自重为 795 克 (RS3 约 1300 克)，

4000档最香旗舰引来友商小黑子？用户眼睛雪亮助力打破销售纪录

在早前的九周年活动上，一加品牌就公布了诸多的未来规划，其中有提到：一加手机的硬件净利润率可以为0。这也侧面表明一加手机在未来会为消费者带来更多的真香产品。而随着一加11的发布，其直接砍掉了8GB+128GB的乞丐版，基础版

只要是OLED屏幕，都会烧屏，关键是服务态度，小米11系列延长售后

最近大家都在讨论灵动岛烧屏事件，其实我第一时间是很诧异的，因为iPhone的灵动岛的效果是黑色界面，我们都知道黑色界面是最不容易烧屏的，彩色界面才容易烧屏，那么针对这件事而言，是要归类于屏幕本身问题，还是归为耗材问题呢？

PS5应该竖放还是横放？网友热议：一直竖放没问题

此前有报道称，由于索尼的设计问题，垂直放置PS5可能会导致用于冷却APU的液态金属溢出，影响主机的冷却效果，最终可能导致PS5遭到损坏。这个问题也引发了玩家们的热烈讨论，部分玩家认为按科学原理来讲竖置PS5确实会存在液态金

手机圈颜值担当？Reno9 Pro+拿下最佳时尚度大奖，流畅体验也在线

手机作为我们每天携带的物品，早已不再是单纯的工具，同时也是我们每日搭配的单品之一，这也让不少小伙伴将手机的颜值加入到选购的标准当中。而要说2022年颜值设计较为成功的机型，OPPO Reno9 Pro+值得榜上有名，其一举拿下了

天哪！用不到1年的手机，总是内存不足，这6个清理方法不可错过

新买不到1年的手机，竟然总是内存爆满，卡到玩游戏经常出重影了，但是又好像怎么清理都没有用，那是因为大家清理手机没有一步到位。今天给朋友们分享这6个，我常用又觉得还是蛮不错的方法，赶紧拿出笔记本一起来学习学习吧！1.软件

血压、血氧、心电一表搞定：dido G28S智能手表

2023年春节即将到来，在我们以从未有过的感慨跨过凛冬、奔赴春天之际，先为大家送上一声祝福：新年快乐！新年新气象，健康更重要。特别是当前疫情之际，为家人、为朋友或自己投资入手一款健康手表，为健康增加保障，可以让新的一年生

AMD锐龙新BIOS意外翻车！刷了无法启动

日前，多家主板厂商开始陆续推送基于AMD AGESA 1.0.0.4微代码的新版BIOS，适用于锐龙7000系列搭档的X670、B650。但是很快，微星、华擎等厂商就把它撤了回去，原因是发现一个很严重的Bug。在部分锐龙5 7600X处理器上，升级新版B

“K8s自动化部署”的好处与优势

什么是Kubernetes部署？在此文章中，我们将探索Kubernetes(K8s)，结合DigitalOcean Kubernetes集群与Buddy自动化运维系统部署以达到以下列出的目标：使用一个K8s示例应用通过Buddy流水线操作构建Docker镜像并推送至Docker Hu

手机APP弹窗关不掉？加力整治！

移动互联时代，即时通讯、网络视频、在线购物、新闻资讯等各类移动互联网应用程序（APP）在快速发展的同时，也滋生了种种乱象。近日，有关部门接连出台相关举措，开展专项行动、印发联合通告，为APP领域的健康规范发展加码发力。AP

中华优秀传统文化系列谈丨浓墨重彩的妆容，何以诠释千变万化的戏曲美

戏曲妆容写真近年来甚为流行。然而，人们或许不知道戏曲妆容曾几经变化，最终才淬炼成代表中华优秀传统文化的一门绝活，淋漓尽致地诠释戏曲之美。本期“艺术”，让我们聚焦戏曲妆容之道。——编者梨园本就是一个色彩斑斓的世

劳力士产品全线涨价全球齐涨

图片源于网络图文无关根据官方消息，瑞士奢侈腕表品牌劳力士日前进行了自2020年1月1日以来的第二次全球统一调价策略，此次涨价共涉及逾800款手表，热门钢款平均涨幅为2%至5%，金表涨幅在6%至8%之间。值得关注的是，去年该品牌

女明星的穿搭高级又养眼，复古时髦又洋气，你想要的美她们都有！

点击上方蓝字⬆️关注我哦！记得加星标哟还有两周就要过春节了，不知道大家是不是已经开始准备回家过年了。回家各种聚会当然要穿的美美的出现了，刚好年底红毯和各种晚会上有超多精彩造型，大家可以跟着学起来啦！那话不多说，一

菜包连衣裙搭配黑色丝袜，容祖儿大秀靓女风采，网友：有气质！

其实说到时尚两个字，大家最先想到的就是女孩儿们了。首先在大多数人的心目当中，只有女孩儿们才代表着时尚与潮流，其实这也是非常显而易见的一件事情，因为时尚代表的是什么？时尚代表的是美，然而美与女孩儿们可以说是有着相

上滑加载更多 ↓

推荐阅读：

进销存软件那些不得不知道的功能，你了解多少？

电脑视频无损传到iPhone iPad 无线网wifi不要数据线

硬核！腾讯大佬最新手打的Spring Boot笔记，从原理到实战

“强就业”是福是祸？-美国2022年12月就业数据解读

ETF基金周报丨上周云计算、大数据主题ETF大涨，北向资金

詹皇数据更新，三场砍下115，距得分王差459分，生涯已拿4555

新海南财经观察丨海南区域性股权市场“塔基”功能进一

“吊炸天”！盘点NBA本赛季的数据大神，谁的创造力更能打

杜兰特：所有数据都表明NBA现在大受欢迎，人们只是在挑刺

「更新」小白测评数据库3.0实测新增一加11性能和续航

友情链接：

更多：

本站资料均由网友自行发布提供，仅用于学习交流。如有版权问题，请与我联系，QQ：4156828

© CopyRight 2020-2024 All Rights Reserved. Powered By 71396.com 闽ICP备11008920号-4
闽公网安备35020302034903号

Top