相关的库
Pandas
seaborn
matplotlib
missingno
交互式数据可视化
Pandas
df.head() / df.describe() / df.info() /df.duplicated() / df.shape()
Series.unique()
:缺失值数量Series.astype(float)
Series.str.strip()
:Vectorized string functions for Series and Index.
pd.factorize
:编码对象为enumerated type 或者 categorical变量对于将数组转换为数值表示时很有用,此时只关注他们是不同的。
df.corr()
:计算其相关系数df.dropna()
:移除缺失值seaborn.barplot
:Show point estimates and confidence intervals as rectangular bars.df.duplicated()
:返回表示该记录是否与之前记录重复的布尔Series- df.duplicated().sum()
- df[df.duplicated()] : print out duplicated nums
df.drop_duplicates(inplace=True)
df.reset_index()
:重置索引,或者是某个level的索引df.isnull
series.isnull()
DataFrame/Series . apply()
:对象进行元素映射,返回新元素组成Series
或DataFrame
series.replace()
: 可以多个值一起replace
seaborn
seaborn.countplot
:Show the counts of observations in each categorical bin using bars.使用柱状图展示数据每个类别的数量
sns.countplot(x)
sns.countplot(x="location",data=zomato_df, palette = "Set1")
使用data参数传入展示的数据集, Dataset for plotting. If x and y are absent, this is interpreted as wide-form. Otherwise it is expected to be long-form.
sns.heatmap(corr, annt=True)
matplotlib
pd.crosstab()
:计算两个(或更多)因子的简单交叉表。默认情况下计算因子的频率表,除非传递值数组和聚合函数。plt.gcf
: 获取当前图表figure
plt.subplots()
1
2
3
4
5fig1, ax1 = plt.subplots()
colors = ['pink', 'skyblue']
ax1.pie(values, labels=labels, autopct='%1.1f%%',shadow=True,startangle=90,colors=colors)
plt.title('Online order')
plt.show()
plt.rcParams['figure.figsize'] = (13, 9)
missingno
missingno.bar(df)
: 每个列缺失值数量,以bar图显示。 docs