昆仑的山头

Monthly Archives: 7 月 2021

python数字数组的join操作

2021 年 07 月 21 日 – 下午 1:20

从其他弱类型语言转到python，最大的感受就是，时不时会有这种感慨：
“卧槽，这样也行”
“卧槽，这也不行”
比如，数组的差值操作，可以直接这么取：
listDiff = list1 – list2
再比如，刚刚碰到的这个，数组的join操作
uIdArr是数字数组，要拼到sql里做查询
“,”.join(uIdArr)
这样？
会报错。。。很正常的一个操作，居然过不去。。。
需要吧userIdArr变成字符串数组
~~好吧
那么，开个for循环？
for当日可以，但是对于python这种追求简单的语言，必然有更简洁的方式：
“,”.join([str[uid] for uid in uIdArr])
——-
over

Tags python | Permalink | Comment (0)

apply与lambda简单搭配，一行代码实现按条件补齐数据

2021 年 07 月 05 日 – 上午 10:01

需求：订单列表里的点位信息，只有点位编号，没有点位场景类型，需要补齐这个数据，以便实现按场景分析订单数据

  orderDf = pd.read_csv('path...')  #订单数据
  nodePlaces = ... #查库，返回 点位编号 - 场景类型 字典数据
  orderDf['place'] = orderDf.apply(lambda x: nodePlaces[x.nodeId] if x.nodeId in nodePlaces else 0, axis = 1) //#补齐场景类型字段place
  print(orderDf.colums)  #查库补齐效果
  print(orderDf.tail(5))

实际测试，orderDf七千万行，nodePlaces五万个点位，添加place这一行，执行时间约为1分钟
over
—–
转载请注明出处：http://www.jiangkl.com/2021/07/pandas_apply_lambda
—–
两周后补充：
这个需求，还有一个效率更高的方法，就是使用pd.merge()
已上面的例子继续折腾：

  orderDf = pd.read_csv('path...')  #订单数据
  nodePlaces = ... #查库，返回 点位编号 - 场景类型 字典数据
  nodeDf = pd.DataFrame(list(nodePlaces()), columns=['nodeId', 'place']) #转成datafram
  orderDf = pd.merge(orderDf, nodeDf, on='nodeId', how='left') //#补齐场景类型字段place
  print(orderDf.colums)  #查库补齐效果
  print(orderDf.tail(5))

我没实际在使用上面的例子做测试，而是再另一个场景下使用了这种方法，实际对比，原来apply使用200秒的一个需求，换成这里的merge以后，降到了700毫秒，降了三个数量级！
不过这个方法也有个缺陷，那就是，如果nodePlaces里没有这个nodeId，orderDf的place字段，会被设置为NaN，解决的办法有两个：
1. 使用fillna替换
2. 构建nodeDf的时候，将nodePlaces里没有的nodeId也补进去

Tags pandas, python | Permalink | Comment (0)

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Monthly Archives: 7 月 2021

python数字数组的join操作

apply与lambda简单搭配，一行代码实现按条件补齐数据

分门别类

时间线

链接表

七嘴八舌

近期发布

发布日历

昆仑的山头

Monthly Archives: 7 月 2021

python数字数组的join操作

apply与lambda简单搭配，一行代码实现按条件补齐数据

五花八门

分门别类

时间线

链接表

七嘴八舌

近期发布

发布日历