小编典典

在Python中使用正则表达式匹配日期?

python

我知道我已经回答了类似的问题,但是通读它们后,我仍然没有寻找的解决方案。

使用Python 3.2.2,我需要将“ Month,Day,Year”与“ Month”匹配为一个字符串,“
Day”是两位数字,not年2月不超过30、31或28,2月29日为for年。(基本上是有效日期)

这是我到目前为止所拥有的:

pattern = "(January|February|March|April|May|June|July|August|September|October|November|December)[,][ ](0[1-9]|[12][0-9]|3[01])[,][ ]((19|20)[0-9][0-9])"
expression = re.compile(pattern)
matches = expression.findall(sampleTextFile)

我对regex语法仍然不太熟悉,因此我可能在其中使用了不必要的字符(逗号和空格的[,]
[]感觉像是错误的处理方式),但是当我尝试匹配“在我的示例文本文件中,“ 1991年1月26日”,则打印出“匹配项”中的项目为(“ 1月”,“ 26”,“
1991”,“ 19”)。

为什么多余的“ 19”出现在末尾?

另外,我可以在正则表达式中添加或更改哪些内容,以使我能够正确地验证日期?我现在的计划是接受几乎所有日期,然后通过将天分组与月分组和年分组进行比较,以了解日是否应小于31、30、29、28,然后使用高级结构将其淘汰

我们将不胜感激任何帮助,包括对我如何设计正则表达式的建设性批评。


阅读 223

收藏
2021-01-20

共1个答案

小编典典

这是一种使正则表达式与所需格式的任何日期匹配的方法(尽管您显然可以调整逗号是否可选,添加月份缩写等等):

years = r'((?:19|20)\d\d)'
pattern = r'(%%s) +(%%s), *%s' % years

thirties = pattern % (
     "September|April|June|November",
     r'0?[1-9]|[12]\d|30')

thirtyones = pattern % (
     "January|March|May|July|August|October|December",
     r'0?[1-9]|[12]\d|3[01]')

fours = '(?:%s)' % '|'.join('%02d' % x for x in range(4, 100, 4))

feb = r'(February) +(?:%s|%s)' % (
     r'(?:(0?[1-9]|1\d|2[0-8])), *%s' % years, # 1-28 any year
     r'(?:(29), *((?:(?:19|20)%s)|2000))' % fours)  # 29 leap years only

result = '|'.join('(?:%s)' % x for x in (thirties, thirtyones, feb))
r = re.compile(result)
print result

然后我们有:

>>> r.match('January 30, 2001') is not None
True
>>> r.match('January 31, 2001') is not None
True
>>> r.match('January 32, 2001') is not None
False
>>> r.match('February 32, 2001') is not None
False
>>> r.match('February 29, 2001') is not None
False
>>> r.match('February 28, 2001') is not None
True
>>> r.match('February 29, 2000') is not None
True
>>> r.match('April 30, 1908') is not None
True
>>> r.match('April 31, 1908') is not None
False

您可能会问,这个光荣的正则表达式是什么?

>>> print result
(?:(September|April|June|November) +(0?[1-9]|[12]\d|30), *((?:19|20)\d\d))|(?:(January|March|May|July|August|October|December) +(0?[1-9]|[12]\d|3[01]), *((?:19|20)\d\d))|(?:February +(?:(?:(0?[1-9]|1\d|2[0-8]), *((?:19|20)\d\d))|(?:(29), *((?:(?:19|20)(?:04|08|12|16|20|24|28|32|36|40|44|48|52|56|60|64|68|72|76|80|84|88|92|96))|2000))))

(我最初打算对可能的日期进行逐个枚举,但基本上我还是用手写的方式写了整个粗略的东西,但无论如何都是四个的倍数。)

2021-01-20