昆仑的山头

Author Archives: jkl

Pandas双轴折线图生产与中文显示

2021 年 12 月 15 日 – 上午 7:11

双轴折线图，适合显示有两组不同类型，或者幅度差异较大的数据，这里展示的是一个对pandas生产双轴折线图的封装。

import matplotlib.pyplot as plt
from matplotlib.font_manager import FontProperties
# figsize 输出尺寸，默认1000×300
# savePath 保存路径
# title 折线图上显示的标题
# rightColumns 放在右侧的字段
# leftLabel  rightLabel  左右标签
def buildChartLine(dataDf, savePath, xInd='日期', figsize=(10, 3), title='', rightColumns=[], leftLabel='', rightLabel='', colors=[]):
    if isLocalServ(): # macos本地的中文配置
        plt.rcParams['font.sans-serif'] = ['SimHei']
        plt.rcParams['axes.unicode_minus'] = False
    else: # Linux的中文配置
        tfont = FontProperties(fname=r"/usr/share/fonts/simhei.ttf", size=14)
    dataDf.sort_values(xInd, inplace=True) # 确保顺序
    dataDf = dataDf.copy()
    dataDf.set_index(xInd, inplace=True) # 确保索引x轴字段名
    if len(colors) == 0:
        #TODO: 自定义颜色策略
        print('no color')
    plt.figure()
    if isLocalServ(): # macos本地的中文配置，和下面else里的，主要还是中文配置的差异，其他相同
        if len(rightColumns) > 0:
            ax = dataDf.plot(secondary_y=rightColumns, figsize=figsize, color=colors, kind='line')
            ax.right_ax.set_ylabel(rightLabel)
        else:
            ax = dataDf.plot(figsize=figsize, color=colors, kind='line')
        ax.set_ylabel(leftLabel)
        if len(title) > 0: ax.set(title=title)
        ax.legend(loc=2)
        plt.legend(loc=1)
    else:
        if len(rightColumns) > 0:
            ax = dataDf.plot(secondary_y=rightColumns, figsize=figsize, color=colors, kind='line')
            ax.right_ax.set_ylabel(rightLabel, fontproperties=tfont)
        else:
            ax = dataDf.plot(figsize=figsize, color=colors, kind='line')
        ax.set_ylabel(leftLabel, fontproperties=tfont)
        if len(title) > 0: plt.title(title, fontproperties=tfont)
        ax.legend(loc=2, prop=tfont)
        plt.legend(loc=1, prop=tfont)
    # plt.show() #直接显示折线图
    plt.savefig(savePath)

使用示例

dataDf = pd.DataFrame({
	'日期': ['2021-11-01', '2021-11-02', '2021-11-04',  '2021-11-06',  '2021-11-03',  '2021-11-05'],
	'风力': [3, 4, 5, 7, 9,	1],
	'最高温度': [13, 24, 25, 27, 19, 21],
	'最低温度': [1, 4, 5, 7, 9, 2]},
	columns=['日期', '风力', '最高温度', '最低温度'])
buildChartLine(dataDf, 'dayInfo', xInd='日期', figsize=(10, 3), title='气象记录', rightColumns=['风力'], leftLabel='温度（℃）', rightLabel='风力（级）', colors=['#fb0320', '#e50ce2', '#770ce5'])

实际效果：

小结：搞定这个双轴折线图过程中，主要碰到了两个问题：
1. pandas plot网上资料很多，但可能是因为版本的问题，大部分直接拿过来用，是用不了的，最终拼凑出上面的方法
2. linux里中文的解决。本来想让运维协助配置linux本地字库，无奈运维搞了半天也没效果，最终只能写死字库位置这个方案；另外一个比较坑的地方，同样是字体的定义，label/title那里参数名叫fontproperties，到了legend又叫prop。。。
—–
over
转载请注明出处：http://www.jiangkl.com/2021/12/pandas_iine_font/

Tags pandas, python | Permalink | Comment (0)

cocos刚体子节点不随父节点移动的坑

2021 年 11 月 30 日 – 下午 4:43

早听说cocos的坑挺多~~~坑就在那里，只要坚持搞，早晚会碰上O(∩_∩)O~
昨天碰到了这样一个问题：触屏滑动，父节点旋转角度，子节点移动位置。本来移动子节点的移动效果已经做好了。然后给子节点加了刚体组件，准备处理后续碰撞逻辑。可是加了刚体以后，子节点不再随父节点旋转了。。。
刚才搜了一下解决方案，syncRotation/syncPosition，加上以后，问题解决，具体用法如下：
this.node.getComponent(cc.RigidBody).syncRotation(true)
———
这应该不是cocos的bug，而是，加了刚体以后，运动的处理逻辑交给物理引擎处理，所以不再跟随父节点。。。也么说也能解释的通~~~好歹人家提供了解决方法^_^

Tags Cocos | Permalink | Comment (0)

条件语句的执行顺序

2021 年 10 月 27 日 – 上午 10:33

刚刚有碰上了一个python的无厘头问题：
if len(arr) >= 3 & len(arr[2]) > 0: xxx
arr是list，长度可能是2，也可能是3。上面这条语句，按理说正常语言都没问题，程序会在第一个条件为true以后，再去判断第二个，所以不会出现数组越界
maxos里，python3.7执行正常
到了linux里，python3.4，居然报了list越界错误。。。
。。。好吧，改改写法：
if len(arr) >= 3: if len(arr[2]) > 0: xxx
拆成倆if，执行通过
果然真的是先去执行第二个判断条件。。。

Tags python | Permalink | Comment (0)

dataframe根据给定list排序

2021 年 10 月 15 日 – 上午 6:58

pandas自带的sort_values已经算是足够强大了，能够满足大部分需求，但是偶然，会有定制排序的需求，比如在输出数据表格的时候，想要把重点项目放在最前面。下面的方法，介绍了一种排序思路：

#构建测试数据
df1 = pd.DataFrame({
	'uid': ['小A',  		'小B',  		'小A',  		'小A',  		'小A',  		'小B',  		  '小B',  	     '小A',  		'小B',  	   '小A'],
	'day': ['2021-09-25',  	'2021-09-25',  '2021-09-25',  	'2021-09-26',  '2021-09-26',  '2021-09-26',  	'2021-09-26', '2021-09-27',  '2021-09-25',  '2021-09-25'],
	'sub': ['语文', 		'语文', 		'数学', 		'语文', 		 '数学', 		  '语文',           '数学',        '语文',         '英语',        '英语'],
	'val': [95,             95,            74,             87,             65,             77,              66,            32 ,           55,            90]}, 
		columns=['uid', 'day', 'sub', 'val'])
sortList = ['数学', '语文', '英语']  #排序依据数组，依据sub，科目
# df1.reset_index(inplace=True) #视数据实际情况，排序字段不能是索引
df1['sub'] = df1['sub'].astype('category') #重新设置字段类型，为排序做准备
df1['sub'].cat.set_categories(sortList, inplace=True) #设置排序依据
df1.sort_values('sub', inplace=True) #排序操作
print(df1)

输出：
———–
uid day sub val
2 小A 2021-09-25 数学 74
4 小A 2021-09-26 数学 65
6 小B 2021-09-26 数学 66
0 小A 2021-09-25 语文 95
1 小B 2021-09-25 语文 95
3 小A 2021-09-26 语文 87
5 小B 2021-09-26 语文 77
7 小A 2021-09-27 语文 32
8 小B 2021-09-25 英语 55
9 小A 2021-09-25 英语 90
———–
如上，既完成了根据sortList预定义顺序的排序操作
不过有个地方需要注意：如果sub列里包含sortList没有的值，这里的输出结果可能会出现未知异常
——
over
转载请注明出处： http://www.jiangkl.com/2021/10/dataframe_sort_list

Tags pandas, python | Permalink | Comment (0)

dataframe快速转dict

2021 年 09 月 22 日 – 上午 7:17

习惯了新瓶装旧酒，pandas各种数据结构虽然很好用，可以有时候还是喜欢熟悉的json。不过python自带的dataframe转json方法并不好用，比如datetime格式就会转不过去。可实际上，大部分时间不用管这个点，因为转json，只是为了打到日志里，看着方便。。。所以，转dict就可以。这里就用到了panda自带的to_dict()方法
比如有下面这样一个dataframe，df1：

现在想将每个城市的平均气温打印出来，就可以这么操作：
str(df1.set_index(‘城市’)[‘平均温度’].to_dict())
输出：{“平均温度”:{“北京”:19, “上海”:23, “深圳”:29}}
——
over

Tags pandas, python | Permalink | Comment (0)

php is_numeric 的使用限制

2021 年 08 月 31 日 – 上午 9:12

项目里有个地方需要拼insert语句，对于字段值，非数字类型需要加引号，图省事、通用，直接用is_numeric做了判断，上线运行一段时间，还挺顺利
不过今天突然发现，项目出错了，mysql insert执行报错
“Invalid datetime format: 1367 Illegal double ‘523e09488200002’ value found during parsing”
于是缩短insert条数、以便日志打印出整个出错sql，果然，’523e09488200002’没有被当成字符串处理，没有加引号
简单测试发现，果然，is_numeric(‘523e09488200002’)，返回是true 咕~~(╯﹏╰)b

第一反应：php的bug，还是被当成16进制了？
于是多试了几个类似的字符串
———–
523a09488200002: 字符串
523b09488200002: 字符串
523e09488200002: 数字
523f09488200002: 字符串
524e094213214: 数字
523e59: 数字
234e234: 数字
e: 字符串
2e5: 数字
12e: 字符串
—————-
只有“e”被特殊照顾。。。顿悟：科学计数法
进一步查了一下is_numeric的使用限制，不仅科学计数法，前置“0x”、中置“.”、前置“-”，都会被当成数字，返回true
所以这里再用is_numeric的话，就要注意了，要再加一层判断逻辑

———-
转载请注明出处：http://www.jiangkl.com/2021/08/php-is_numeric-bug

Tags php | Permalink | Comment (0)

使用pandas+openpyxl生成多子表excel

2021 年 08 月 10 日 – 上午 8:47

虽然python+pandas自身有强大的数据分析和展现能力，可实际工作中，不是每个人都会coding的，所以，有时候把粗加工的数据，以excel的形式提供数据，会更灵活、更适合大部分，这里介绍一种可以生成多子表excel的方法

import pandas as pd
from openpyxl import Workbook
from openpyxl.reader.excel import load_workbook
 
#数据暂存容器
xlsDatas = {}
#保存路径
savePath = '.../test-excel.xlsx'
#获取数据
df1 = pd.DataFrame(
    {
        '日期': ['2021-01-01', '2021-01-02', '2021-01-03', '2021-01-04'], 
        '订单数': [1234, 1321, 3456, 6543],
        '用户数': [234, 787, 987, 545]},
    columns=['日期', '订单数', '用户数']
)
xlsDatas['概况'] = df1  #子表名-子表数据
df2 = pd.DataFrame(
    [
        [56335, '兰州拉面', 15.0, '2021-01-01 12:12:12'], 
        [45135, '山西削面', 13.0, '2021-01-01 12:16:12'], 
        [16335, '兰州拉面', 15.0, '2021-01-01 12:32:12']
    ],
    index=list('123'),
    columns=['用户id', '产品名称', '消费金额', '消费日期']
)
xlsDatas['订单列表'] = df2
#使用Workbook保存数据
book0 = Workbook()
book0.save(savePath) #先保存一个空excel文件，然后往里塞子表，实际会有一个空的Sheet子表
book = load_workbook(savePath)
writer = pd.ExcelWriter(savePath, engine='openpyxl') #选择openpyxl引擎
writer.book = book
for k in xlsDatas :
    xlsDatas[k].to_excel(writer, sheet_name=k)
writer.save()

————
over
转载请注明出处：http://www.jiangkl.com/2021/08/pandas_openpyxl_excel

Tags pandas, python | Permalink | Comment (0)

python数字数组的join操作

2021 年 07 月 21 日 – 下午 1:20

从其他弱类型语言转到python，最大的感受就是，时不时会有这种感慨：
“卧槽，这样也行”
“卧槽，这也不行”
比如，数组的差值操作，可以直接这么取：
listDiff = list1 – list2
再比如，刚刚碰到的这个，数组的join操作
uIdArr是数字数组，要拼到sql里做查询
“,”.join(uIdArr)
这样？
会报错。。。很正常的一个操作，居然过不去。。。
需要吧userIdArr变成字符串数组
~~好吧
那么，开个for循环？
for当日可以，但是对于python这种追求简单的语言，必然有更简洁的方式：
“,”.join([str[uid] for uid in uIdArr])
——-
over

Tags python | Permalink | Comment (0)

apply与lambda简单搭配，一行代码实现按条件补齐数据

2021 年 07 月 05 日 – 上午 10:01

需求：订单列表里的点位信息，只有点位编号，没有点位场景类型，需要补齐这个数据，以便实现按场景分析订单数据

  orderDf = pd.read_csv('path...')  #订单数据
  nodePlaces = ... #查库，返回 点位编号 - 场景类型 字典数据
  orderDf['place'] = orderDf.apply(lambda x: nodePlaces[x.nodeId] if x.nodeId in nodePlaces else 0, axis = 1) //#补齐场景类型字段place
  print(orderDf.colums)  #查库补齐效果
  print(orderDf.tail(5))

实际测试，orderDf七千万行，nodePlaces五万个点位，添加place这一行，执行时间约为1分钟
over
—–
转载请注明出处：http://www.jiangkl.com/2021/07/pandas_apply_lambda
—–
两周后补充：
这个需求，还有一个效率更高的方法，就是使用pd.merge()
已上面的例子继续折腾：

  orderDf = pd.read_csv('path...')  #订单数据
  nodePlaces = ... #查库，返回 点位编号 - 场景类型 字典数据
  nodeDf = pd.DataFrame(list(nodePlaces()), columns=['nodeId', 'place']) #转成datafram
  orderDf = pd.merge(orderDf, nodeDf, on='nodeId', how='left') //#补齐场景类型字段place
  print(orderDf.colums)  #查库补齐效果
  print(orderDf.tail(5))

我没实际在使用上面的例子做测试，而是再另一个场景下使用了这种方法，实际对比，原来apply使用200秒的一个需求，换成这里的merge以后，降到了700毫秒，降了三个数量级！
不过这个方法也有个缺陷，那就是，如果nodePlaces里没有这个nodeId，orderDf的place字段，会被设置为NaN，解决的办法有两个：
1. 使用fillna替换
2. 构建nodeDf的时候，将nodePlaces里没有的nodeId也补进去

Tags pandas, python | Permalink | Comment (0)

[转]python Pandas 常用方法备忘

2021 年 06 月 23 日 – 上午 7:21

关键缩写和包导入
缩写：

df：任意的Pandas DataFrame对象
s：任意的Pandas Series对象
导入包：

import pandas as pd
import numpy as np

导入数据
pd.read_csv(filename)：从CSV文件导入数据
pd.read_table(filename)：从限定分隔符的文本文件导入数据
pd.read_excel(filename)：从Excel文件导入数据
pd.read_sql(query, connection_object)：从SQL表/库导入数据
pd.read_json(json_string)：从JSON格式的字符串导入数据
pd.read_html(url)：解析URL、字符串或者HTML文件，抽取其中的tables表格
pd.read_clipboard()：从你的粘贴板获取内容，并传给read_table()
pd.DataFrame(dict)：从字典对象导入数据，Key是列名，Value是数据

导出数据
df.to_csv(filename)：导出数据到CSV文件
df.to_excel(filename)：导出数据到Excel文件
df.to_sql(table_name, connection_object)：导出数据到SQL表
df.to_json(filename)：以Json格式导出数据到文本文件

创建测试对象
pd.DataFrame(np.random.rand(20,5))：创建20行5列的随机数组成的DataFrame对象
pd.Series(my_list)：从可迭代对象my_list创建一个Series对象
df.index = pd.date_range(‘1900/1/30’, periods=df.shape[0])：增加一个日期索引

查看、检查数据
df.head(n)：查看DataFrame对象的前n行
df.tail(n)：查看DataFrame对象的最后n行
df.shape()：查看行数和列数
df.info()：查看索引、数据类型和内存信息
df.describe()：查看数值型列的汇总统计
s.value_counts(dropna=False)：查看Series对象的唯一值和计数
df.apply(pd.Series.value_counts)：查看DataFrame对象中每一列的唯一值和计数

数据选取
df[col]：根据列名，并以Series的形式返回列
df[[col1, col2]]：以DataFrame形式返回多列
s.iloc[0]：按位置选取数据
s.loc[‘index_one’]：按索引选取数据
df.iloc[0,:]：返回第一行
df.iloc[0,0]：返回第一列的第一个元素

数据清理
df.columns = [‘a’,’b’,’c’]：重命名列名
pd.isnull()：检查DataFrame对象中的空值，并返回一个Boolean数组
pd.notnull()：检查DataFrame对象中的非空值，并返回一个Boolean数组
df.dropna()：删除所有包含空值的行
df.dropna(axis=1)：删除所有包含空值的列
df.dropna(axis=1,thresh=n)：删除所有小于n个非空值的行
df.duplicated()：判断重复数据记录
df.drop_duplicates()：删除数据记录，可指定特定列或全部
df.fillna(x)：用x替换DataFrame对象中所有的空值
s.astype(float)：将Series中的数据类型更改为float类型
s.replace(1,’one’)：用‘one’代替所有等于1的值
s.replace([1,3],[‘one’,’three’])：用’one’代替1，用’three’代替3
df.rename(columns=lambda x: x + 1)：批量更改列名
df.rename(columns={‘old_name’: ‘new_ name’})：选择性更改列名
df.set_index(‘column_one’)：更改索引列
df.rename(index=lambda x: x + 1)：批量重命名索引

数据处理：Filter、Sort和GroupBy
df[df[col] > 0.5]：选择col列的值大于0.5的行
df.sort_values(col1)：按照列col1排序数据，默认升序排列
df.sort_values(col2, ascending=False)：按照列col1降序排列数据
df.sort_values([col1,col2], ascending=[True,False])：先按列col1升序排列，后按col2降序排列数据
df.groupby(col)：返回一个按列col进行分组的Groupby对象
df.groupby([col1,col2])：返回一个按多列进行分组的Groupby对象
df.groupby(col1)[col2]：返回按列col1进行分组后，列col2的均值
df.pivot_table(index=col1, values=[col2,col3], aggfunc=max)：创建一个按列col1进行分组，并计算col2和col3的最大值的数据透视表
df.groupby(col1).agg(np.mean)：返回按列col1分组的所有列的均值
data.apply(np.mean)：对DataFrame中的每一列应用函数np.mean
data.apply(np.max,axis=1)：对DataFrame中的每一行应用函数np.max

数据合并
df1.append(df2)：将df2中的行添加到df1的尾部
df.concat([df1, df2],axis=1)：将df2中的列添加到df1的尾部
df1.join(df2,on=col1,how=’inner’)：对df1的列和df2的列执行SQL形式的join

数据统计
df.describe()：查看数据值列的汇总统计
df.mean()：返回所有列的均值
df.corr()：返回列与列之间的相关系数
df.count()：返回每一列中的非空值的个数
df.max()：返回每一列的最大值
df.min()：返回每一列的最小值
df.median()：返回每一列的中位数
df.std()：返回每一列的标准差

转自：https://www.cnblogs.com/feiqixia/p/11241925.html

Tags pandas, python | Permalink | Comment (0)

Author Archives: jkl

Pandas双轴折线图生产与中文显示

cocos刚体子节点不随父节点移动的坑

条件语句的执行顺序

dataframe根据给定list排序

dataframe快速转dict

php is_numeric 的使用限制

使用pandas+openpyxl生成多子表excel

python数字数组的join操作

apply与lambda简单搭配，一行代码实现按条件补齐数据

[转]python Pandas 常用方法备忘

分门别类

时间线

链接表

七嘴八舌

近期发布

发布日历

2026 年 3 月
一	二	三	四	五	六	日
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Author Archives: jkl

五花八门

分门别类

时间线

链接表

七嘴八舌

近期发布

发布日历