我正在尝试从FTP服务器读取文件。该文件是一个.gz文件。我想知道在套接字打开的情况下是否可以对此文件执行操作。我试图按照什么分两个问题,提到的阅读文件,而不写入磁盘和读取从FTP文件,而无需下载,但没有成功。
.gz
我知道如何提取下载文件上的数据/工作,但不确定是否可以即时执行。有没有一种方法可以连接到站点,在缓冲区中获取数据,还可以提取某些数据并退出?
尝试StringIO时出现错误:
>>> from ftplib import FTP >>> from StringIO import StringIO >>> ftp = FTP('ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz') Traceback (most recent call last): File "<pyshell#2>", line 1, in <module> ftp = FTP('ftp://ftp.ncbi.nlm.nih.gov/pub/pmc/PMC-ids.csv.gz') File "C:\Python27\lib\ftplib.py", line 117, in __init__ self.connect(host) File "C:\Python27\lib\ftplib.py", line 132, in connect self.sock = socket.create_connection((self.host, self.port), self.timeout) File "C:\Python27\lib\socket.py", line 553, in create_connection for res in getaddrinfo(host, port, 0, SOCK_STREAM): gaierror: [Errno 11004] getaddrinfo failed
我只需要知道如何将数据放入某个变量并在其上循环,直到读取FTP中的文件即可。
感谢您的宝贵时间和帮助。谢谢!
确保首先登录ftp服务器。之后,使用retrbinary以二进制模式提取文件。它在文件的每个块上使用回调。您可以使用它来将其加载到字符串中。
retrbinary
from ftplib import FTP ftp = FTP('ftp.ncbi.nlm.nih.gov') ftp.login() # Username: anonymous password: anonymous@ # Setup a cheap way to catch the data (could use StringIO too) data = [] def handle_binary(more_data): data.append(more_data) resp = ftp.retrbinary("RETR pub/pmc/PMC-ids.csv.gz", callback=handle_binary) data = "".join(data)
优点:如何在使用字符串时解压缩字符串?
简易模式,使用上面的数据字符串
import gzip import StringIO zippy = gzip.GzipFile(fileobj=StringIO.StringIO(data)) uncompressed_data = zippy.read()
更好一点,完整的解决方案 :
from ftplib import FTP import gzip import StringIO ftp = FTP('ftp.ncbi.nlm.nih.gov') ftp.login() # Username: anonymous password: anonymous@ sio = StringIO.StringIO() def handle_binary(more_data): sio.write(more_data) resp = ftp.retrbinary("RETR pub/pmc/PMC-ids.csv.gz", callback=handle_binary) sio.seek(0) # Go back to the start zippy = gzip.GzipFile(fileobj=sio) uncompressed = zippy.read()
实际上,即时进行解压缩会更好,但是我看不到使用内置库实现压缩的方法(至少不容易)。