Daily Archives: 2022 年 12 月 30 日

Hello World

闪展腾挪，只为避开apply

2022 年 12 月 30 日 – 上午 6:23

apply是pandas一个强大的工具函数，可以逐行对数据进行操作。pandas的优点很多，比如代码简洁、相对直接遍历效率更高；但它的“效率高”是相对的，相对于merge之类的操作，apply的执行时间可能会高出两个数量级。比如下面这行：

1 2	#为订单数据集增加以后一列：微信支付的金额 df['pay_wx'] = df.apply(lambda x: (x.pay if x.chan == 'wx' else 0), axis=1)

从上面的代码看，逻辑非常简洁，但是实际测试，50万的数据量，要20秒。下面尝试改造一下

  df_wx = df[df['chan'] == 'wx']
  df_wx.rename(columns={'pay': 'pay_wx'}, inplace=True)
  df['pay_wx'] = df_wx['pay_wx']
  df.fillna({'pay_wx': 0}, inplace=True)

代码从一行变成了四行，不过执行效率可以高很多：50万数据，时间大约0.7秒
当然，方法不止一种，对于更见的判断条件，可以直接用merge操作：

  #合并某项分类依据
  df['color'] = df.apply(lambda x: ('红' if x.color == '粉红' else x.color), axis=1)
  #使用merge优化
  df_h = df[df['color'] == '粉红'][['id', 'color']]
  df_h['color'] = '红'
  df_nh = df[df['color'] != '粉红'][['id', 'color']]
  df_hs = pd.concat([df_h, df_nh])
  df_hs.rename(columns={'color':'color2'}, inplace=True)
  df = pd.merge(df, df_h, on='id', how='left')
  df['color'] = df['color2']

通过上面这种方法改造，执行时间和第一个方法接近，50万条数据大约0.8秒

———–
转载请注明出处：http://www.jiangkl.com/2022/12/no_apply

Tags pandas, python | Permalink | Comment (0)

五花八门

AI Arduino cakephp Cocos ComfyUI css go语言 html5 ios java javascript jquery jQueryMobile Laravel Linux mac mongo mysql Node.js Objective-C pandas php python StableDiffusion thrift TypeScript Unity webview weixin wordpress Xcode 产品设计冰与火之歌微信公号微信开发成长拆解搞笑整站ajax 树莓派正则游天下程序员蒋昆仑诗词
分门别类
- 3D打印
- AIGC
- Hello World
- 业界杂谈
- 他山石
- 倒塌集
- 其他
- 幻界杂谈
- 幻视幻听
- 微信开发
- 日志
- 梦游记
- 游记
- 点点滴滴
- 爱好收藏
- 美图酷图
- 美食
- 软硬兼施
时间线
- 2025 年 7 月 (2)
- 2025 年 4 月 (1)
- 2025 年 2 月 (2)
- 2024 年 12 月 (1)
- 2024 年 11 月 (1)
- 2024 年 7 月 (1)
- 2024 年 6 月 (1)
- 2024 年 5 月 (2)
- 2024 年 4 月 (3)
- 2024 年 3 月 (9)
- 2023 年 12 月 (1)
- 2023 年 11 月 (1)
- 2023 年 10 月 (1)
- 2023 年 5 月 (1)
- 2023 年 4 月 (1)
- 2022 年 12 月 (5)
- 2022 年 10 月 (1)
- 2022 年 7 月 (1)
- 2022 年 6 月 (1)
- 2022 年 3 月 (1)
- 2022 年 1 月 (3)
- 2021 年 12 月 (2)
- 2021 年 11 月 (1)
- 2021 年 10 月 (2)
- 2021 年 9 月 (1)
- 2021 年 8 月 (2)
- 2021 年 7 月 (2)
- 2021 年 6 月 (1)
- 2021 年 4 月 (2)
- 2021 年 3 月 (1)
- 2021 年 2 月 (1)
- 2020 年 12 月 (1)
- 2020 年 5 月 (2)
- 2019 年 6 月 (1)
- 2019 年 5 月 (1)
- 2018 年 8 月 (2)
- 2018 年 4 月 (1)
- 2018 年 3 月 (1)
- 2018 年 2 月 (1)
- 2017 年 11 月 (1)
- 2017 年 5 月 (1)
- 2017 年 3 月 (1)
- 2017 年 1 月 (3)
- 2016 年 9 月 (3)
- 2016 年 6 月 (2)
- 2016 年 5 月 (1)
- 2016 年 1 月 (1)
- 2015 年 10 月 (1)
- 2015 年 9 月 (1)
- 2015 年 8 月 (1)
- 2015 年 7 月 (5)
- 2015 年 4 月 (5)
- 2014 年 5 月 (1)
- 2014 年 4 月 (1)
- 2014 年 3 月 (2)
- 2014 年 2 月 (2)
- 2014 年 1 月 (7)
- 2013 年 11 月 (1)
- 2013 年 9 月 (2)
- 2013 年 7 月 (3)
- 2013 年 6 月 (1)
- 2013 年 5 月 (3)
- 2013 年 4 月 (3)
- 2013 年 2 月 (3)
- 2013 年 1 月 (10)
- 2012 年 12 月 (3)
- 2012 年 11 月 (2)
- 2012 年 10 月 (3)
- 2012 年 9 月 (3)
- 2012 年 8 月 (1)
- 2012 年 7 月 (7)
- 2012 年 6 月 (5)
- 2012 年 5 月 (7)
- 2012 年 4 月 (3)
- 2012 年 3 月 (4)
- 2012 年 2 月 (8)
- 2012 年 1 月 (9)
- 2011 年 12 月 (3)
- 2011 年 11 月 (4)
- 2011 年 10 月 (5)
- 2011 年 9 月 (3)
- 2011 年 8 月 (5)
- 2011 年 5 月 (1)
- 2011 年 4 月 (5)
- 2011 年 3 月 (11)
- 2011 年 2 月 (6)
- 2010 年 12 月 (1)
- 2009 年 9 月 (1)
- 2009 年 8 月 (1)
- 2009 年 7 月 (1)
- 2008 年 12 月 (2)
- 2008 年 11 月 (4)
- 2008 年 10 月 (4)
链接表
七嘴八舌
- 123 发表在《[转]在ios模拟器上实现模拟双指触摸》
- admin 发表在《nodejs-express初体验》
- laozh 发表在《nodejs-express初体验》
- xxx 发表在《玩转微信公号开发（七）——账号体系与oauth登录》
- 银基网发表在《玩转微信公号开发（七）——账号体系与oauth登录》
近期发布
发布日历

2022 年 12 月

一二三四五六日

1 2 3 4

5 6 7 8 9 10 11

12 13 14 15 16 17 18

19 20 21 22 23 24 25

26 27 28 29 30 31

« 10 月 4 月 »

京ICP备16052746号Proudly powered by Wordpress