2025 Python 计算生态十月推荐榜 第92期

10月10日 · Python123 147 人阅读
![]() |
看见更大的世界,遇见更好的自己
See a better world to meet better for ourselves.
面向海量非结构化数据(日志、图像、音视频、模型权重、Parquet/Delta 数据湖文件等)的对象存储,已成为现代数据与AI工作负载的底座。它具备弹性扩展、低成本、跨区域冗余与版本化等特性,并以 S3 API 为事实标准,在云上与本地广泛统一。对 Python 开发者而言,从数据采集、特征存储、模型训练到推理产物的分发与归档,都需要高效、可靠地读写对象存储。实践中要特别关注多部分上传并行、流式/零拷贝读写、断点续传、重试与一致性、加密与鉴权(IAM/STS/临时凭证/预签名URL)、以及在多云/同构生态中通过抽象层屏蔽差异。
在2025年10月,随着多云原生与AI原生工作负载爆发、S3 API 成为事实标准,对象存储从“备份归档”全面走向“在线数据底座”。对 Python 开发者而言,从数据采集、特征工程、训练产物管理到推理分发与审计留痕,稳定高效地读写对象存储已成为工程能力的必修课。
boto3
AWS 官方 Python SDK,访问 S3 的事实标准。支持多部分上传、加速传输、服务端/客户端加密、版本化、预签名 URL 与 IAM/STS 鉴权。与众多高阶库(如 s3fs、smart_open、pandas/dask)深度集成,适合通用生产场景。
aioboto3
基于 boto3/aiobotocore 的异步封装,为高并发 I/O 场景提供事件循环友好的 S3 访问能力。在海量小文件拉取、并行多部分上传、异步流水线中显著提升端到端吞吐。
https://github.com/terricain/aioboto3
s3fs
面向 S3/S3 兼容存储的类文件系统实现(基于 fsspec)。以 Pythonic 的 open/ls/glob 方式访问对象存储,支持匿名/凭证访问、分片与缓存策略,常与 pandas/dask/xarray 一起用于数据湖读写。
https://github.com/fsspec/s3fs
fsspec
文件系统抽象层,为 S3、GCS、Azure Blob、HTTP、本地文件等提供统一接口。上层库只需面向 fsspec 编程,即可在不同后端间无缝切换,是实现多云与本地同构读写的关键基座。
https://github.com/fsspec/filesystem_spec
smart_open
“像 open 一样”读取远程对象的轻量库,支持 S3、GCS、Azure Blob、HDFS、HTTP 等。主打流式读写与懒加载,对处理大型文本/模型权重/压缩文件非常实用,几乎零改动融入现有代码。
https://github.com/piskvorky/smart_open
MinIO Python SDK
MinIO 官方 Python 客户端,全面兼容 S3 API,适用于私有化/本地对象存储与边缘部署。支持分片并行上传、Server-Side/Client-Side 加密、策略管理与预签名 URL,便于构建内网高性能数据湖。
https://github.com/minio/minio-py
Azure Storage Blob
微软官方 Azure Blob 存储 SDK,覆盖分层命名空间(与 ADLS Gen2)、SAS/ACL、多部分/分块上传、生命周期与归档策略等特性。与 Azure 生态紧密协同。
https://pypi.org/project/azure-storage-blob/
Google Cloud Storage
谷歌官方 GCS 客户端,支持可恢复上传、对象级 ACL、统一存储类/生命周期策略、签名 URL 与 KMS 集成。与 BigQuery、Vertex AI、Dataproc 等服务协同,构建端到端数据与AI流水线。
https://pypi.org/project/google-cloud-storage/
阿里云 OSS Python SDK
阿里云对象存储官方 SDK,支持多版本、分片上传、服务端加密、STS 临时鉴权与多区域访问优化。与阿里云大数据/机器学习产品线无缝衔接。
https://pypi.org/project/oss2/
腾讯云 COS Python SDK
腾讯云 COS 官方 SDK,支持并行分块上传、对象标签/生命周期、KMS 加密与临时密钥场景。常用于音视频分发、游戏日志与 AIGC 产物的高并发存储。
https://github.com/tencentyun/cos-python-sdk-v5
Python3Turtle
