温馨提示×

温馨提示×

您好,登录后才能下订单哦!

密码登录×
登录注册×
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》

pandas中Dataframe查询方法的示例分析

发布时间:2021-08-18 14:38:46 来源:亿速云 阅读:152 作者:小新 栏目:开发技术

这篇文章给大家分享的是有关pandas中Dataframe查询方法的示例分析的内容。小编觉得挺实用的,因此分享给大家做个参考,一起跟随小编过来看看吧。

数据介绍

先随机生成一组数据:

In [5]: rnd_1 = [random.randrange(1,20) for x in xrange(1000)]   ...: rnd_2 = [random.randrange(1,20) for x in xrange(1000)]   ...: rnd_3 = [random.randrange(1,20) for x in xrange(1000)]   ...: fecha = pd.date_range('2012-4-10', '2015-1-4')   ...:    ...: data = pd.DataFrame({'fecha':fecha, 'rnd_1': rnd_1, 'rnd_2': rnd_2, 'rnd_3': rnd_3}) In [6]: data.describe() Out[6]:         rnd_1    rnd_2    rnd_3 count 1000.000000 1000.000000 1000.000000 mean   9.946000   9.825000   9.894000 std    5.553911   5.559432   5.423484 min    1.000000   1.000000   1.000000 25%    5.000000   5.000000   5.000000 50%   10.000000  10.000000  10.000000 75%   15.000000  15.000000  14.000000 max   19.000000  19.000000  19.000000

[]切片方法

使用方括号能够对DataFrame进行切片,有点类似于python的列表切片。按照索引能够实现行选择或列选择或区块选择。

# 行选择 In [7]: data[1:5] Out[7]:      fecha rnd_1 rnd_2 rnd_3 1 2012-04-11   1   16   3 2 2012-04-12   7   6   1 3 2012-04-13   2   16   7 4 2012-04-14   4   17   7 # 列选择 In [10]: data[['rnd_1', 'rnd_3']] Out[10]:     rnd_1 rnd_3 0    8   12 1    1   3 2    7   1 3    2   7 4    4   7 5    12   8 6    2   12 7    9   8 8    13   17 9    4   7 10   14   14 11   19   16 12    2   12 13   15   18 14   13   18 15   13   11 16   17   7 17   14   10 18    9   6 19   11   15 20   16   13 21   18   9 22    1   18 23    4   3 24    6   11 25    2   13 26    7   17 27   11   8 28    3   12 29    4   2 ..   ...  ... 970   8   14 971   19   5 972   13   2 973   8   10 974   8   17 975   6   16 976   3   2 977   12   6 978   12   10 979   15   13 980   8   4 981   17   3 982   1   17 983   11   5 984   7   7 985   13   14 986   6   19 987   13   9 988   3   15 989   19   6 990   7   11 991   11   7 992   19   12 993   2   15 994   10   4 995   14   13 996   12   11 997   11   15 998   17   14 999   3   8 [1000 rows x 2 columns] # 区块选择 In [11]: data[:7][['rnd_1', 'rnd_2']] Out[11]:    rnd_1 rnd_2 0   8   17 1   1   16 2   7   6 3   2   16 4   4   17 5   12   19 6   2   7

不过对于多列选择,不能像行选择时一样使用1:5这样的方法来选择。

In [12]: data[['rnd_1':'rnd_3']]  File "<ipython-input-13-6291b6a83eb0>", line 1   data[['rnd_1':'rnd_3']]          ^ SyntaxError: invalid syntax

loc

loc可以让你按照索引来进行行列选择。

In [13]: data.loc[1:5] Out[13]:      fecha rnd_1 rnd_2 rnd_3 1 2012-04-11   1   16   3 2 2012-04-12   7   6   1 3 2012-04-13   2   16   7 4 2012-04-14   4   17   7 5 2012-04-15   12   19   8

这里需要注意的是,loc与第一种方法不同之处在于会把第5行也选择进去,而第一种方法只会选择到第4行为止。

data.loc[2:4, ['rnd_2', 'fecha']] Out[14]:    rnd_2   fecha 2   6 2012-04-12 3   16 2012-04-13 4   17 2012-04-14

loc能够选择在两个特定日期之间的数据,需要注意的是这两个日期必须都要在索引中。

In [15]: data_fecha = data.set_index('fecha')   ...: data_fecha.head() Out[15]:        rnd_1 rnd_2 rnd_3 fecha              2012-04-10   8   17   12 2012-04-11   1   16   3 2012-04-12   7   6   1 2012-04-13   2   16   7 2012-04-14   4   17   7 In [16]: # 生成两个特定日期   ...: fecha_1 = dt.datetime(2013, 4, 14)   ...: fecha_2 = dt.datetime(2013, 4, 18)   ...:    ...: # 生成切片数据   ...: data_fecha.loc[fecha_1: fecha_2] Out[16]:        rnd_1 rnd_2 rnd_3 fecha              2013-04-14   17   10   5 2013-04-15   14   4   9 2013-04-16   1   2   18 2013-04-17   9   15   1 2013-04-18   16   7   17

更新:如果没有特殊需求,强烈建议使用loc而尽量少使用[],因为loc在对DataFrame进行重新赋值操作时会避免chained indexing问题,使用[]时编译器很可能会给出SettingWithCopy的警告。

具体可以参见官方文档:http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy

iloc

如果说loc是按照索引(index)的值来选取的话,那么iloc就是按照索引的位置来进行选取。iloc不关心索引的具体值是多少,只关心位置是多少,所以使用iloc时方括号中只能使用数值。

# 行选择 In [17]: data_fecha[10: 15] Out[17]:        rnd_1 rnd_2 rnd_3 fecha              2012-04-20   14   6   14 2012-04-21   19   14   16 2012-04-22   2   6   12 2012-04-23   15   8   18 2012-04-24   13   8   18 # 列选择 In [18]: data_fecha.iloc[:,[1,2]].head() Out[18]:        rnd_2 rnd_3 fecha           2012-04-10   17   12 2012-04-11   16   3 2012-04-12   6   1 2012-04-13   16   7 2012-04-14   17   7 # 切片选择 In [19]: data_fecha.iloc[[1,12,34],[0,2]] Out[19]:        rnd_1 rnd_3 fecha           2012-04-11   1   3 2012-04-22   2   12 2012-05-14   17   10

at

at的使用方法与loc类似,但是比loc有更快的访问数据的速度,而且只能访问单个元素,不能访问多个元素。

In [20]: timeit data_fecha.at[fecha_1,'rnd_1'] The slowest run took 3783.11 times longer than the fastest. This could mean that an intermediate result is being cached. 100000 loops, best of 3: 11.3 &micro;s per loop In [21]: timeit data_fecha.loc[fecha_1,'rnd_1'] The slowest run took 121.24 times longer than the fastest. This could mean that an intermediate result is being cached. 10000 loops, best of 3: 192 &micro;s per loop In [22]: data_fecha.at[fecha_1,'rnd_1'] Out[22]: 17

iat

iat对于iloc的关系就像at对于loc的关系,是一种更快的基于索引位置的选择方法,同at一样只能访问单个元素。

In [23]: data_fecha.iat[1,0] Out[23]: 1 In [24]: timeit data_fecha.iat[1,0] The slowest run took 6.23 times longer than the fastest. This could mean that an intermediate result is being cached. 100000 loops, best of 3: 8.77 &micro;s per loop In [25]: timeit data_fecha.iloc[1,0] 10000 loops, best of 3: 158 &micro;s per loop

ix

以上说过的几种方法都要求查询的秩在索引中,或者位置不超过长度范围,而ix允许你得到不在DataFrame索引中的数据。

In [28]: date_1 = dt.datetime(2013, 1, 10, 8, 30)   ...: date_2 = dt.datetime(2013, 1, 13, 4, 20)   ...:    ...: # 生成切片数据   ...: data_fecha.ix[date_1: date_2] Out[28]:        rnd_1 rnd_2 rnd_3 fecha              2013-01-11   19   17   19 2013-01-12   10   9   17 2013-01-13   15   3   10

如上面的例子所示,2013年1月10号并没有被选择进去,因为这个时间点被看作为0点0分,比8点30分要早一些。

感谢各位的阅读!关于“pandas中Dataframe查询方法的示例分析”这篇文章就分享到这里了,希望以上内容可以对大家有一定的帮助,让大家可以学到更多知识,如果觉得文章不错,可以把它分享出去让更多的人看到吧!

向AI问一下细节

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

AI