Monthly Archives: 12 月 2022

Hello World

闪展腾挪，只为避开apply

2022 年 12 月 30 日 – 上午 6:23

apply是pandas一个强大的工具函数，可以逐行对数据进行操作。pandas的优点很多，比如代码简洁、相对直接遍历效率更高；但它的“效率高”是相对的，相对于merge之类的操作，apply的执行时间可能会高出两个数量级。比如下面这行：

1 2	#为订单数据集增加以后一列：微信支付的金额 df['pay_wx'] = df.apply(lambda x: (x.pay if x.chan == 'wx' else 0), axis=1)

从上面的代码看，逻辑非常简洁，但是实际测试，50万的数据量，要20秒。下面尝试改造一下

  df_wx = df[df['chan'] == 'wx']
  df_wx.rename(columns={'pay': 'pay_wx'}, inplace=True)
  df['pay_wx'] = df_wx['pay_wx']
  df.fillna({'pay_wx': 0}, inplace=True)

代码从一行变成了四行，不过执行效率可以高很多：50万数据，时间大约0.7秒
当然，方法不止一种，对于更见的判断条件，可以直接用merge操作：

  #合并某项分类依据
  df['color'] = df.apply(lambda x: ('红' if x.color == '粉红' else x.color), axis=1)
  #使用merge优化
  df_h = df[df['color'] == '粉红'][['id', 'color']]
  df_h['color'] = '红'
  df_nh = df[df['color'] != '粉红'][['id', 'color']]
  df_hs = pd.concat([df_h, df_nh])
  df_hs.rename(columns={'color':'color2'}, inplace=True)
  df = pd.merge(df, df_h, on='id', how='left')
  df['color'] = df['color2']

通过上面这种方法改造，执行时间和第一个方法接近，50万条数据大约0.8秒

———–
转载请注明出处：http://www.jiangkl.com/2022/12/no_apply

Tags pandas, python | Permalink | Comment (0)

他山石梦游记美图酷图

峨眉山

2022 年 12 月 28 日 – 下午 4:15

记得读高中时，有个爱看武侠的同学，每次见到我都会来一句“你怎么不叫蒋峨眉？”

哈哈，对于大部分非四川的同学，估计都是在“倚天屠龙记”里第一次听说峨眉山，而且大概率是李连杰电影版的倚天屠龙记——“围攻光明顶”可算是金庸武侠的名场面之一。不过，小说里的光明顶在昆仑山，可其实光明顶在峨眉~~O(∩_∩)O哈哈~。另外，小说里峨眉派是道教，可现实是，魏晋时峨眉确实道教兴盛，但到了隋唐，佛教盛行，到明清时，峨眉基本就只有佛寺了，而且成了传说中“普贤菩萨的道场”。再到当代，更是“佛教四大名山之一”，山上分布着大大小小十几处寺庙

这次出来，本来目标是“318国道-拉萨-珠峰大本营”一线，顺道去了张家界和黄山，既然路过四川，也就顺便把峨眉山也逛了。从张家界到峨眉山市，又是一千公里，一天时间刚好。

峨眉山月半轮秋，影入平羌江水流。
夜发清溪向三峡，思君不见下渝州。
——李白《峨眉山月歌》

峨眉第一亭

峨眉山

一首隔壁眉州老乡的思乡词

归去来兮，吾归何处？万里家在岷峨。
百年强半，来日苦无多。
坐见黄州再闰，儿童尽楚语吴歌。
山中友，鸡豚社酒，相劝老东坡。
云何，当此去，人生底事，来往如梭。
待闲看秋风，洛水清波。
好在堂前细柳，应念我，莫剪柔柯。
仍传语，江南父老，时与晒渔蓑。
——苏轼《满庭芳·归去来兮》

山亭

万年寺

接引殿

洗象池

清音阁

一线天

一线天，换个角度

金顶

当然，峨眉山最有名的，还有它的猴子

峨眉猴

最后，来一首李白版的“月亮代表我的心”

我在巴东三峡时，西看明月忆峨眉。
月出峨眉照沧海，与人万里长相随。
黄鹤楼前月华白，此中忽见峨眉客。
峨眉山月还送君，风吹西到长安陌。
长安大道横九天，峨眉山月照秦川。
黄金狮子乘高座，白玉麈尾谈重玄。
我似浮云殢吴越，君逢圣主游丹阙。
一振高名满帝都，归时还弄峨眉月。
——李白《峨眉山月歌送蜀僧晏入中京》