今天撸代码撸的太难受了,pandas强大是强大,但是感觉国内用的不是太多,遇到一些问题不知道怎么去解决好,只能google。
今天遇到问题主要是对比两个不同时间、同个数据库导出的csv文件。因为本人这次主要用pandas去处理csv文件,那么随之而来的就是如何通过对比两个dataframe获取新的数据以及更新了的数据。
1 | import chardet |
基本思路是:
- 先把新增的数据移除,并保存成新的csv文件;
- 两个新旧的
dataframe
进行比较; - 通过行列转化的形式获取
changed
,并从中获得发生改变的数据的index
; - 将更新的数据保存成新的csv文件。
最后补充一下:
- 上边的
changed
能做得更多,它还能识别数据哪个字段发生了改变; - 中间还试了别的方法去完成这个功能,但是没有跑通,不过思路还是挺有趣的,代码丢上来mark一下
1 | df_3 = pd.concat([new_df, old_df]) |
参考: