我正在使用内存有限的机器,我想以流方式将动态生成的(非磁盘)文件上传到 S3。换句话说,我开始上传时不知道文件大小,但到最后我会知道。通常一个 PUT 请求有一个 Content-Length 标头,但也许有办法解决这个问题,例如使用 multipart 或 chunked content-type。
S3 可以支持流式上传。例如,请参见此处:
http://blog.odonnell.nu/posts/streaming-uploads-s3-python-and-poster/
我的问题是,我可以完成同样的事情而不必在上传开始时指定文件长度吗?
您必须通过 S3's multipart API 以 5MiB+ 的块上传文件。这些块中的每一个都需要一个 Content-Length,但您可以避免将大量数据 (100MiB+) 加载到内存中。
启动 S3 分段上传。
将数据收集到缓冲区中,直到该缓冲区达到 S3 的块大小下限 (5MiB)。在建立缓冲区时生成 MD5 校验和。
将该缓冲区作为部分上传,存储 ETag(阅读该缓冲区的文档)。
达到数据的 EOF 后,上传最后一个块(可以小于 5MiB)。
完成分段上传。
S3 允许多达 10,000 个零件。因此,通过选择 5MiB 的部分大小,您将能够上传高达 50GiB 的动态文件。对于大多数用例来说应该足够了。
但是:如果您需要更多,则必须增加零件尺寸。通过使用更高的部分大小(例如 10MiB)或在上传期间增加它。
First 25 parts: 5MiB (total: 125MiB)
Next 25 parts: 10MiB (total: 375MiB)
Next 25 parts: 25MiB (total: 1GiB)
Next 25 parts: 50MiB (total: 2.25GiB)
After that: 100MiB
这将允许您上传高达 1TB 的文件(S3 目前对单个文件的限制为 5TB),而不会不必要地浪费内存。
关于您的 Sean O'Donnells 博客链接的注释:
他的问题与您的不同 - 他在上传之前知道并使用 Content-Length。他想改进这种情况:许多库通过将文件中的所有数据加载到内存中来处理上传。在伪代码中是这样的:
data = File.read(file_name)
request = new S3::PutFileRequest()
request.setHeader('Content-Length', data.size)
request.setBody(data)
request.send()
他的解决方案是通过文件系统 API 获取 Content-Length
。然后,他将数据从磁盘流式传输到请求流中。在伪代码中:
upload = new S3::PutFileRequestStream()
upload.writeHeader('Content-Length', File.getSize(file_name))
upload.flushHeader()
input = File.open(file_name, File::READONLY_FLAG)
while (data = input.read())
input.write(data)
end
upload.flush()
upload.close()
把这个答案放在这里给其他人,以防有帮助:
如果您不知道要流式传输到 S3 的数据的长度,可以使用 S3FileInfo
及其 OpenWrite()
方法将任意数据写入 S3。
var fileInfo = new S3FileInfo(amazonS3Client, "MyBucket", "streamed-file.txt");
using (var outputStream = fileInfo.OpenWrite())
{
using (var streamWriter = new StreamWriter(outputStream))
{
streamWriter.WriteLine("Hello world");
// You can do as many writes as you want here
}
}
您可以使用 gof3r 命令行工具来流式传输 linux 管道:
$ tar -czf - <my_dir/> | gof3r put --bucket <s3_bucket> --key <s3_object>
tar -czf - <my_dir/> | aws s3 --something-or-other
?
请参阅有关 HTTP 多部分实体请求的更多信息。您可以将文件作为数据块发送到目标。
参考:https://github.com/aws/aws-cli/pull/903
这是一个概要:要将流从 stdin 上传到 s3,请使用:aws s3 cp - s3://my-bucket/stream
要将 s3 对象下载为标准输出流,请使用:aws s3 cp s3://my-bucket/stream -
例如,如果我有对象 s3://my-bucket/stream,我可以运行以下命令:aws s3 cp s3://my-bucket/stream - | aws s3 cp - s3://my-bucket/new-stream
我的命令:
回声“ccc” | aws --endpoint-url=http://172.22.222.245:80 --no-verify-ssl s3 cp - s3://test-bucket/ccc