Pandas学习笔记—002
基础用法
1. df.head(n) 和 df.tail()
默认n=5,同时n还可以取负值,对于head来说就是展示df[:-n],对于tail来说就是展示df[-n:]
2. 合并重叠数据集
有时,要合并两个相似的数据集,两个数据集里的其中一个的数据比另一个多。
比如,展示特定经济指标的两个数据序列,其中一个是“高质量”指标,
另一个是“低质量”指标。一般来说,低质量序列可能包含更多的历史数据,或覆盖更广的数据。
因此,要合并这两个 DataFrame 对象,其中一个 DataFrame 中的缺失值将按指定条件用另一个
DataFrame 里类似标签中的数据进行填充。函数df1.combine_first(df2): 由df2只填df1的NaN值
3. 描述性统计
| 函数 | 描述 |
|---|---|
| count | 统计非空值数量 |
| sum | 汇总值 |
| mean | 平均值 |
| mad | 平均绝对偏差 |
| median | 算数中位数 |
| min | 最小值 |
| max | 最大值 |
| mode | 众数 |
| abs | 绝对值 |
| prod | 乘积 |
| std | 贝塞尔校正的样本标准偏差 |
| var | 无偏方差 |
| sem | 平均值的标准误差 |
| skew | 样本偏度 (第三阶) |
| kurt | 样本峰度 (第四阶) |
| quantile | 样本分位数 (不同 % 的值) |
| cumsum | 累加 |
| cumprod | 累乘 |
| cummax | 累积最大值 |
| cummin | 累积最小值 |
| describe | 数据总描述 |