学习使我幸福

## 1. pandas 简介

pandas是一个强大的python数据分析的工具包，是基于numpy构建的。

pandas的主要功能：

- 具备对齐功能的数据结构DataFrame、Series

- 集成时间序列功能

- 提供丰富的数学运算和操作

- 灵活处理缺失数据

安装方法：`pip install pandas`

引用方法：`import pandas as pd`

## 2. Series 一维数组对象

Series是一种类似于一维数组的对象，有一组数据和一组与之相关的数据标签（索引）组成。

创建方式：

- `pd.Series([4, 7, -5, 3])`

- `pd.Series([4, 7, -5, 3], index=[['a', 'b', 'c', 'd'])`

- `pd.Series({'a': 1, 'b': 2})`

- `pd.Series(0, index=['a', 'b', 'c', 'd'])`

获取值数组和索引数组：values属性和index属性

Series比较像列表（数组）和字典结合体。

## 3. Series 使用特性

Series支持array的特性（下标）：

- 从ndarray创建Series：`Series(arr)`

- 与标量运算：`sr * 2`

- 两个Series运算：`sr1 + sr2`

- 索引：`sr[0], sr[[1, 2, 4]]`

- 切片：`sr[0: 2]`

- 通用函数：`np.abs(sr)`

- 布尔值过滤：`sr[sr > 0]`

Series支持字典的特性（标签）：

- 从字典创建Series：`Series(dict)`

- in运算：`'a' in sr`

- 键索引：`sr['a'], sr[['a', 'b', 'c']]`

## 4. Series 整数索引

整数索引的pandas对象会有歧义，要特别注意。

例如：`sr = pd.Series(np.arange(4.)), sr[-1]`

如果索引是整数类型，则根据整数进行下标获取值时总是面向标签的。

解决方法：

- loc 属性：将索引解释为标签索引

- iloc 属性：将索引解释为下标索引

## 5. Series 数据对齐
例如：
```python
sr1 = pd.Series([12, 23, 34], index=['c', 'a', 'd'])
sr2 = pd.Series([11, 20, 10], index=['d', 'c', 'a'])
sr1 + sr2
```
- pandas在进行两个Series对象的运算时，会按索引进行对齐然后计算

例如：
```python
sr1 = pd.Series([12, 23, 34], index=['c', 'a', 'd'])
sr2 = pd.Series([11, 20, 10], index=['b', 'c', 'a'])
sr1 + sr2
```
- 如果两个Series对象的索引不完全相同，则结果的索引是两个操作索引的并集。
- 如果只有一个对象在某索引下有值，则结果中该索引的值为nan（缺失值）

例如：
```python
sr1 = pd.Series([12, 23, 34], index=['c', 'a', 'd'])
sr2 = pd.Series([11, 20, 10 ], index=['b', 'c', 'a'])
```
如何使结果在索引 'b' 处的值为11， 在索引 'd' 处的值为34？
- 灵活的算数方法：add, sub, div, mul
- `sr1.add(sr2, fill_value=0)` -- 先把nan改为0再进行运算

## 6. Series 数据缺失
缺失数据：使用NaN（Not a Number）来表示缺失数据。其值等于np.nan。内置的None值也会被当做NaN处理。
处理缺失数据的相关方法：
- dropna()：过滤掉值为NaN的行
- fillna()：填充缺失数据
- isnull()：返回布尔数组，缺失值对应为True
- notnull()：返回布尔数组，缺失值对应为False

过滤缺失数据：`sr.dropna()`或`sr[data.notnull()]`
填充缺失数据：`fillna(0)`

## 7. DataFrame 二维数组对象
DataFrame是一个表格型的数据结构，含有一组有序的列。DataFrame可以被看做是由Series组成的字典，并且共用一个索引。
创建方式：
- `pd.DataFrame({'one': [1, 2, 3, 4], 'two': [4, 3, 2, 1]})`
- `pd.DataFrame({'one': pd.Series([1, 2, 3], index=['a', 'b', 'c']), 'two': pd.Series([1, 2, 3, 4], index=['b', 'a', 'c', 'd'])})`
- ......

csv文件读取与写入：
- df.read_csv('filename.csv')
- df.to_csv('filename.csv')

## 8. DataFrame 常用属性
|属性名|属性说明|
|----|----|
|index|获取索引|
|T|转置|
|columns|获取列索引|
|values|获取值数组|
|describe()|获取快速统计|

## 9. DataFrame 索引和切片
- DataFrame是一个二维数组类型，所以有行索引和列索引
- DataFrame同样可以通过标签和位置两种方式进行索引和切片
- loc属性和iloc属性
  - 使用方式：逗号隔开，前面是行索引， 后面是列索引
  - 行、列索引部分可以是常规索引、切片、布尔值索引、花式索引任意搭配

## 10. DataFrame 数据对齐与缺失数据
DataFrame对象在运算时， 同样会进行数据对齐， 其行索引和列索引分别对齐。
DataFrame处理缺失数据的相关方法：
- `dropna(axis=0, where='any', ...)`
- `fillna()`
- `isnull()`
- `notnull()`

## 11. pandas 其他常用方法
|方法名|说明|
|----|----|
|mean(axis=0, skipna=False)|对列（行）求平均值|
|sum(axis=1)|对列（行）求和|
|sort_index(axis, ..., ascending)|对列（行）索引排序|
|sort_values(by, axis, ascending)|对某一列（行）的值排序|

numpy的通用函数同样适用于pandas
|方法名|说明|
|----|----|
|apply(func, axis=0)|将自定义函数应用在各行或各列上，func可返回标量或Series|
|applymap(func)|将函数应用在DataFrame各个元素上|
|map(func)|将函数应用在Series各个元素上|

## 12. pandas 时间对象处理
时间序列类型：
- 时间戳：特定时刻
- 固定时期：如2017年7月
- 时间间隔：起始时间~结束时间

python标准库处理时间对象：datetime
灵活处理时间对象：dateutil，`deteutil.parser.parse()`
成组处理时间对象：pandas， `pd.todatetime()`
产生时间对象数组：date_range
- start：开始时间
- end：结束时间
- periods：时间长度
- freq：时间频率，默认为'D'，可选H(our)，W(eek)，B(usiness)，S(emi-)M(onth)，(min)T(es)，S(econd)，A(year)，...

## 13. pandas 时间序列
时间序列就是以时间对象为索引的Series或DataFrame。
datetime对象作为索引时是存储在DataFrameIndex对象中的。
时间序列特殊功能：
- 传入"年"或"年月"作为切片方式
- 传入日期范围作为切片方式
- 丰富的函数支持：`resample(), strftime(), ...`

## 14. pandas 文件处理
### 14.1 数据文件常用格式：csv（以某间隔符分割数据）
### 14.2 pandas读取文件：从文件名、URL、文件对象中加载数据
  - read_csv：默认分隔符为逗号
  - read_table：默认分隔符为制表符

### 14.3 read_csv、read_table函数主要参数：
  - sep：指定分隔符，可用正则表达式如'\s+'
  - header=None：指定文件无列名
  - name：指定列名
  - index_col：指定某列作为索引
  - skip_row：指定跳过某些行
  - na_values：指定某些字符串表示缺失值
  - parse_dates：指定某些列是否备解析为日期，类型为布尔值或列表

### 14.4 写入到csv文件：to_csv函数
### 14.5 写入文件函数的主要参数：
  - sep：指定文件分隔符
  - na_rep：指定缺失值转换的字符串， 默认为空字符串
  - header=False：不输出列名一行
  - index=False：不输出行名一列
  - cols：指定输出的列， 传入列表

### 14.6 pandas支持的其他文件类型：
  - json
  - XML
  - HTML
  - 数据库（sql）
  - pickle
  - excel
  - ...

Python模块 - pandas