python ujson-酒店常州论坛 - Powered by Discuz!

最近有个同事在做一个高吞吐量的数据管道，里面大量的JSON序列化和反序列化操作。他用的是标准库的`json`模块，后来发现这块成了整个系统的瓶颈。后来换了`ujson`，性能直接翻了两三倍。这让我觉得自己也应该好好聊聊这个东西。

1. ujson是什么

ujson，全名叫UltraJSON，是一个用C语言写的Python JSON库。它的核心目的就是快，比标准库的json快上那么几倍甚至十几倍。就好比你去食堂打饭，json模块像是那个慢慢悠悠的师傅，每个菜都要摆弄一下，而ujson就是那个手脚麻利、三两下就给你打好的师傅，而且味道还一样。它本质上是在C层面做了极致的优化，减少了Python对象之间的转换开销。

是不是所有场景都能用？也不是。它的C扩展有它的局限性，比如整数范围、浮点数精度，以及一些Python特有的对象类型。所以它不是万能药，但在大部分和Web API、数据管道、配置文件打交道的场景里，它都非常靠谱。

2. ujson能做什么

ujson能做的，就是标准库json能做的，而且做得更快：序列化（把Python对象变成JSON字符串）和反序列化（把JSON字符串变回Python对象）。

举个生活中的例子，你有一堆客户数据，是个列表，里面套了字典。你要把这些数据传给前端，或者存到Redis里。ujson.dumps()就是干这个的。反过来，从Redis拿回来一串JSON字符串，用ujson.loads()把它解析回Python对象，也是最直接的用法。

但有个细节要注意：ujson对数据类型的支持不是100%覆盖的。比如它不支持datetime对象直接序列化，标准库的json也不行，但是标准库的JSONEncoder可以自定义，而ujson的自定义能力相对弱一些。所以如果你的数据比较复杂，经常需要序列化自定义对象，就需要额外处理。

3. 怎么使用

安装很简单，pip install ujson就行。

基础用法和标准库json几乎一模一样。

importujson data={"user":"张三","age":30,"cities":["北京","上海"]}json_string=ujson.dumps(data,ensure_ascii=False)# 默认ensure_ascii=True，会把中文转成\uXXXX；设为False就是正常的中文parsed=ujson.loads(json_string)

这里面有一个小坑：ujson.dumps()默认ensure_ascii=True，如果你的数据里有中文，而且希望直接看到汉字，记得显式设置成False。标准库的json也有这个参数，但默认行为不同，标准库是True，ujson也是True，但标准库的True会把中文转成unicode转义序列，而ujson在有些版本里就算True也能正常显示部分字符，但为了兼容性，还是显式指定好。

还有一个参数encode_html_chars，默认False。设为True的话，它会HTML敏感的字符（比如<、>、&）做转义，防止XSS攻击。这在生成JSON嵌入到HTML页面时很有用，标准库的json没有这个，得手动处理，这一点ujson做得更贴心。

反序列化时，ujson.loads()接受一个字符串或bytes对象。返回的值类型和标准库一样，字符串变str，数字变int/float，列表变list，字典变dict，布尔/None对应不变。

4. 最佳实践

什么时候该用它，什么时候不该用

如果你在写Web服务，尤其是Django REST Framework或者FastAPI这种框架，ujson非常值得考虑。大多数框架都允许替换JSON序列化器。还有做数据分析、ETL流程、日志处理，这些场景性能收益很明显。

如果数据里包含datetime、Decimal、复杂嵌套对象、以及超大整数（超过64位有符号整数范围），那么ujson可能会出问题。比如Decimal类型，标准库默认也不能序列化，但你可以写自定义编码器。ujson的自定义编码器支持有限，所以这种情况要么在序列化前手动转成字符串或浮点数，要么就用标准库。

另外，浮点数精度是个需要注意的地方。ujson在处理一些高精度浮点数时可能丢失精度，比如需要精确到小数点后十几位的财务数据。我的做法是：对金额这类敏感数据，统一转成str再用Decimal处理。

性能调优的小技巧

如果序列化的结果要写到磁盘或网络，考虑用ujson.dumps()之后直接写入二进制模式的文件，或者配合pickle做中间缓存。不过如果追求极致性能，还得考虑内存分配的开销，可以每次重用同一个io.StringIO，避免重新分配。

还有一个不太为人知的点：ujson在Python 3.8+上的表现比Python 3.7上好不少，这得益于Python内部的内存管理改进。所以如果要发挥它的性能，尽量用新版本Python。

错误处理也要注意

ujson的非法JSON处理比较严格，比标准库更挑剔。标准库在某些非法格式下还能宽容解析，ujson直接抛异常。所以在解析不可信的输入（比如第三方API返回的JSON）时，最好用try-except包裹起来。

try:data=ujson.loads(some_untrusted_string)exceptValueErrorase:# 处理异常，比如记录日志、返回默认值data={}

这里抛的是ValueError，不是json.JSONDecodeError，因为ujson没有定义自己的异常类。这点和标准库不同，代码迁移时容易遗漏。

5. 和同类技术对比

除了ujson，Python生态里还有几个JSON库：标准库json、orjson、simplejson、rapidjson等。

和标准库json比，最大的优点是快，通常能快3~10倍。缺点是功能少一些，对自定义类型支持有限。所以如果项目已经用标准库而且没有性能问题，没必要换。

和orjson比，orjson是Rust实现的，近些年很火。它的速度比ujson还要快一点，尤其对大型数据更明显。orjson默认就很快，而且支持序列化datetime、UUID等类型，这一点比ujson强。但是orjson的API和标准库不完全兼容，比如dumps返回的是bytes而不是str，这需要额外处理。如果项目从标准库迁移，ujson的迁移成本更低，因为它的接口和标准库几乎一致，对新手更友好。

和simplejson比，simplejson其实比标准库出现得更早，功能更丰富，速度也快一些，但依然不如ujson快。simplejson的优势在于兼容性，它可以运行在Python 2、3以及很多老版本上，而ujson主要针对Python 3做优化。如果你的环境是Python 3，并且追求最好的性能，ujson比simplejson值得选。

和rapidjson比，rapidjson是C++实现的，Python封装版本。它的性能也很快，但API限制较多，默认只支持纯ASCII输出，而且对数据类型的处理姿势比较怪。如果不是有特别需求，不太推荐在生产环境用。

说白了，如果只是要一个快且好用的JSON库，ujson是很稳妥的选择。如果对性能有极致追求，并且愿意接受API上的差异，可以试试orjson。如果项目里有很多自定义类型需要序列化，那可能还是得回到标准库json的怀抱，自己写编码器。

最后说个小建议：在选用ujson之前，最好先在自己的数据上用timeit跑一跑，看看是不是真的有性能提升。因为有些数据类型（比如嵌套极深的超大字典）在ujson和标准库之间的差异可能没想象中大。而且如果数据量很小，这点性能差异完全可以忽略，不值得为了省那几十微秒而引入一个额外的依赖。保持项目的简洁性也很重要。

企业官网建设流程全解析

1. ujson是什么

2. ujson能做什么

3. 怎么使用

4. 最佳实践

5. 和同类技术对比

热门文章

文章分类

标签云

需要专业的网站建设服务？

企业官网建设流程全解析

1. ujson是什么

2. ujson能做什么

3. 怎么使用

4. 最佳实践

5. 和同类技术对比

热门文章

文章分类

标签云

相关文章

Java排序

【机器学习】告别暴力调参：Optuna贝叶斯优化实战与XGBoost/LightGBM效率对比

终极免费抖音下载工具完整指南：三步轻松保存无水印视频

需要专业的网站建设服务？