Python EDA相关辅助库

文章目录
  1. 1. Pandas
  2. 2. seaborn
  3. 3. matplotlib
  4. 4. missingno

相关的库

  • Pandas
  • seaborn
  • matplotlib
  • missingno

交互式数据可视化

Pandas

  • df.head() / df.describe() / df.info() /df.duplicated() / df.shape()
  • Series.unique():缺失值数量
  • Series.astype(float)
  • Series.str.strip():Vectorized string functions for Series and Index.
  • pd.factorize:编码对象为enumerated type 或者 categorical变量

    对于将数组转换为数值表示时很有用,此时只关注他们是不同的。

  • df.corr():计算其相关系数

  • df.dropna():移除缺失值
  • seaborn.barplot :Show point estimates and confidence intervals as rectangular bars.
  • df.duplicated():返回表示该记录是否与之前记录重复的布尔Series

    • df.duplicated().sum()
    • df[df.duplicated()] : print out duplicated nums
  • df.drop_duplicates(inplace=True)
  • df.reset_index() :重置索引,或者是某个level的索引
  • df.isnull
  • series.isnull()
  • DataFrame/Series . apply():对象进行元素映射,返回新元素组成SeriesDataFrame
  • series.replace(): 可以多个值一起replace

seaborn

  • seaborn.countplot :Show the counts of observations in each categorical bin using bars.

    使用柱状图展示数据每个类别的数量

  • sns.countplot(x)

  • sns.countplot(x="location",data=zomato_df, palette = "Set1")

    使用data参数传入展示的数据集, Dataset for plotting. If x and y are absent, this is interpreted as wide-form. Otherwise it is expected to be long-form.

  • sns.heatmap(corr, annt=True)

matplotlib

  • pd.crosstab():计算两个(或更多)因子的简单交叉表。默认情况下计算因子的频率表,除非传递值数组和聚合函数。
  • plt.gcf : 获取当前图表figure
  • plt.subplots()

    1
    2
    3
    4
    5
    fig1, ax1 = plt.subplots()
    colors = ['pink', 'skyblue']
    ax1.pie(values, labels=labels, autopct='%1.1f%%',shadow=True,startangle=90,colors=colors)
    plt.title('Online order')
    plt.show()

plt.rcParams['figure.figsize'] = (13, 9)

missingno

  • missingno.bar(df): 每个列缺失值数量,以bar图显示。 docs