我知道我已经回答了类似的问题,但是通读它们后,我仍然没有寻找的解决方案。
使用Python 3.2.2,我需要将“ Month,Day,Year”与“ Month”匹配为一个字符串,“ Day”是两位数字,not年2月不超过30、31或28,2月29日为for年。(基本上是有效日期)
这是我到目前为止所拥有的:
pattern = "(January|February|March|April|May|June|July|August|September|October|November|December)[,][ ](0[1-9]|[12][0-9]|3[01])[,][ ]((19|20)[0-9][0-9])" expression = re.compile(pattern) matches = expression.findall(sampleTextFile)
我对regex语法仍然不太熟悉,因此我可能在其中使用了不必要的字符(逗号和空格的[,] []感觉像是错误的处理方式),但是当我尝试匹配“在我的示例文本文件中,“ 1991年1月26日”,则打印出“匹配项”中的项目为(“ 1月”,“ 26”,“ 1991”,“ 19”)。
为什么多余的“ 19”出现在末尾?
另外,我可以在正则表达式中添加或更改哪些内容,以使我能够正确地验证日期?我现在的计划是接受几乎所有日期,然后通过将天分组与月分组和年分组进行比较,以了解日是否应小于31、30、29、28,然后使用高级结构将其淘汰
我们将不胜感激任何帮助,包括对我如何设计正则表达式的建设性批评。
这是一种使正则表达式与所需格式的任何日期匹配的方法(尽管您显然可以调整逗号是否可选,添加月份缩写等等):
years = r'((?:19|20)\d\d)' pattern = r'(%%s) +(%%s), *%s' % years thirties = pattern % ( "September|April|June|November", r'0?[1-9]|[12]\d|30') thirtyones = pattern % ( "January|March|May|July|August|October|December", r'0?[1-9]|[12]\d|3[01]') fours = '(?:%s)' % '|'.join('%02d' % x for x in range(4, 100, 4)) feb = r'(February) +(?:%s|%s)' % ( r'(?:(0?[1-9]|1\d|2[0-8])), *%s' % years, # 1-28 any year r'(?:(29), *((?:(?:19|20)%s)|2000))' % fours) # 29 leap years only result = '|'.join('(?:%s)' % x for x in (thirties, thirtyones, feb)) r = re.compile(result) print result
然后我们有:
>>> r.match('January 30, 2001') is not None True >>> r.match('January 31, 2001') is not None True >>> r.match('January 32, 2001') is not None False >>> r.match('February 32, 2001') is not None False >>> r.match('February 29, 2001') is not None False >>> r.match('February 28, 2001') is not None True >>> r.match('February 29, 2000') is not None True >>> r.match('April 30, 1908') is not None True >>> r.match('April 31, 1908') is not None False
您可能会问,这个光荣的正则表达式是什么?
>>> print result (?:(September|April|June|November) +(0?[1-9]|[12]\d|30), *((?:19|20)\d\d))|(?:(January|March|May|July|August|October|December) +(0?[1-9]|[12]\d|3[01]), *((?:19|20)\d\d))|(?:February +(?:(?:(0?[1-9]|1\d|2[0-8]), *((?:19|20)\d\d))|(?:(29), *((?:(?:19|20)(?:04|08|12|16|20|24|28|32|36|40|44|48|52|56|60|64|68|72|76|80|84|88|92|96))|2000))))
(我最初打算对可能的日期进行逐个枚举,但基本上我还是用手写的方式写了整个粗略的东西,但无论如何都是四个的倍数。)