小编典典

日期时间索引和时间戳之间的熊猫工作日数

python

这与这里的问题非常相似,但是我想知道熊猫中是否有一种干净的方法可以使工作日知道TimedeltaIndex?最终,我试图获取DatetimeIndex和Timestamp之间的工作日数(无假期日历)。根据所引用的问题,类似这样的作品

import pandas as pd
import numpy as np
drg = pd.date_range('2015-07-31', '2015-08-05', freq='B')
A = [d.date() for d in drg]
B = pd.Timestamp('2015-08-05', 'B').date()
np.busday_count(A, B)

这使

array([3, 2, 1, 0], dtype=int64)

但这似乎有点糊涂。如果我尝试类似的东西

drg - pd.Timestamp('2015-08-05', 'B')

我得到一个TimedeltaIndex,但是工作日频率降低了

TimedeltaIndex(['-5 days', '-2 days', '-1 days', '0 days'], dtype='timedelta64[ns]', freq=None)

只是想知道是否有更优雅的方法可以解决此问题。


阅读 224

收藏
2021-01-16

共1个答案

小编典典

TimedeltaIndexes表示固定的时间跨度。可以将它们添加到Pandas时间戳中,以固定数量增加它们。他们的行为从不依赖于时间戳是否是工作日。TimedeltaIndex本身从不知道工作日。

由于最终目标是计算DatetimeIndex和Timestamp之间的天数,因此我会朝着另一个方向而不是转换为TimedeltaIndex。


不幸的是,日期计算相当复杂,和一些数据结构如雨后春笋般涌现对付他们-
Python中datetime.datesdatetime.datetimes和熊猫Timestamps,NumPy的datetime64秒。

他们每个人都有自己的长处,但没有一个人对所有目的都有好处。要利用它们的优势,有时需要在这些类型之间进行转换。

要使用它,np.busday_count您需要将DatetimeIndex和Timestamp转换为某种类型的np.busday_count理解。您所称的“
kludginess”是转换类型所需的代码。假设我们要使用,这是没有办法的np.busday_count-我知道没有比该工具更好的工具了np.busday_count

因此,尽管我认为没有比您建议的方法更简洁的工作日计数方法了,但还有一种更高效的方法:转换为datetime64[D],而不是Pythondatetime.date对象:

import pandas as pd
import numpy as np
drg = pd.date_range('2000-07-31', '2015-08-05', freq='B')
timestamp = pd.Timestamp('2015-08-05', 'B')

def using_astype(drg, timestamp):
    A = drg.values.astype('<M8[D]')
    B = timestamp.asm8.astype('<M8[D]')
    return np.busday_count(A, B)

def using_datetimes(drg, timestamp):
    A = [d.date() for d in drg]
    B = pd.Timestamp('2015-08-05', 'B').date()
    return np.busday_count(A, B)

对于上面的示例(len(drg)接近4000),这快100倍以上:

In [88]: %timeit using_astype(drg, timestamp)
10000 loops, best of 3: 95.4 µs per loop

In [89]: %timeit using_datetimes(drg, timestamp)
100 loops, best of 3: 10.3 ms per loop

np.busday_count``datetime64[D]无论如何,都将其输入转换为s,因此避免与datetime.dates进行额外的转换效率更高。

2021-01-16