TextIn xParse全解析与完整使用指南:非结构化文档秒变结构化数据的AI基础设施
2026/4/27 23:46:38 网站建设 项目流程

前言

核心定位:TextIn xParse(原ParseX)是合合信息基于19年智能文字识别技术沉淀,专为大模型时代打造的端到端文档智能处理AI基础设施,核心解决非结构化文档的结构化转化难题。它打破了传统OCR“仅提取字符、无法理解语义”的局限,通过统一的API实现文档解析、智能抽取、ETL加工、向量入库的全链路自动化,让PDF、合同、财报、简历、扫描件等“人能看懂”的文档,秒变“机器能理解、大模型可消费、数据库可存储”的标准化结构化数据,是RAG知识库、Agent智能体、企业数字化系统的核心数据底座。

截至2026年4月,xParse已服务全球超1000家企业,单日处理文档量超百万页,服务可用性达99.999%,是国内文档智能领域的标杆级产品,也是OpenClaw、Claude Code等主流Agent生态的官方推荐文档解析工具。


一、先搞懂:TextIn xParse到底解决什么痛点?

在大模型普及的今天,非结构化文档的处理始终是企业数字化与AI应用落地的最大瓶颈:

  1. 传统OCR的信息失真:传统工具只能逐行提取字符,无法还原文档的标题层级、表格逻辑、图文关联、跨页内容,输出的文本杂乱无章,大模型无法理解,直接导致RAG检索准确率低、问答答非所问;
  2. 处理流程碎片化:一份文档从扫描、OCR、信息提取、数据清洗、格式转换到入库,需要对接多个工具、写大量适配代码,开发周期长、维护成本高;
  3. 定制化成本极高:传统信息抽取需要针对发票、合同、简历等不同场景单独训练模型,零样本适配能力差,新场景的适配往往需要数周时间与大量标注数据;
  4. 规模化处理性能不足:面对百万级文档的批量处理,传统工具串行处理效率低、稳定性差,无法满足企业级规模化应用的需求。

TextIn xParse的核心价值,就是用一套统一的解决方案,彻底解决上述所有痛点:上传任意格式的非结构化文档,即可直接拿到可写入关系型数据库/向量数据库的结构化数据,全程无需人工干预,5分钟即可完成从文档到AI应用的全链路打通。


二、TextIn xParse核心能力全拆解

xParse并非简单的OCR工具,而是一套完整的文档智能处理体系,核心能力覆盖从文档解析到数据入库的全流程,同时兼顾零代码易用性与开发者灵活性。

1. 全格式全场景高精度解析能力

这是xParse的基础能力,也是其区别于传统OCR工具的核心优势。它支持PDF(含加密/扫描件)、Word、Excel、PPT、JPG/PNG等图片、CAD图纸等十余种文件格式,能精准识别文档中的全量元素,并还原其语义逻辑。

核心解析能力

元素类型核心支持能力
文本内容精准识别印刷体、手写体,支持50+种语言,自动还原标题层级、段落阅读顺序、多栏排版的正确阅读逻辑,避免内容错乱
表格识别行业领先的表格处理能力,完美适配有线表、无线表、密集表、合并单元格、跨页表格,自动还原“表头-数据行”的对应关系,保留计算公式与数据逻辑,识别准确率超99%
公式与图表支持LaTeX格式的数学公式输出,精准提取图表的坐标轴、图例、数值、注释文本,自动关联图表与正文的说明内容,避免图文信息脱节
特殊元素自动识别印章、二维码、条形码、页眉页脚、批注、水印等元素,可按需过滤或提取,适配合同、票据等合规场景
复杂文档适配针对学术论文、行业报告、专利文档、合同标书等多栏排版、图文混排、公式密集的复杂文档做了专项优化,语义结构还原度远超同类工具

极致性能表现

  • 解析速度:100页PDF文档最快1.5秒即可完成全量解析,是传统工具的10倍以上;
  • 稳定性:单日数百万级调用量,服务可用性达99.999%,3天可完成500万页PDF的批量处理;
  • 抗干扰能力:自带图像处理能力,可自动处理水印、倾斜、模糊、弯曲的文档图片,无需提前做图像预处理。

2. 零样本智能信息抽取:无需训练,一句话提取目标数据

xParse内置了大模型增强的智能抽取引擎,彻底打破了传统抽取工具“新场景必须重新训练”的局限,实现了零样本、开箱即用的信息抽取能力。

两种抽取模式,覆盖全场景需求

  1. Schema结构化抽取:用户只需通过JSON Schema定义需要提取的字段、类型、描述,xParse即可自动从文档中提取对应信息,支持字符串、数字、数组、嵌套对象等复杂数据结构,适配发票、合同、简历等固定格式的标准化场景。
    示例:发票抽取Schema

    {"type":"object","properties":{"发票号码":{"type":"string","description":"发票的8位数字号码"},"开票日期":{"type":"string","description":"发票的开具日期,格式YYYY-MM-DD"},"合计金额":{"type":"number","description":"发票的价税合计金额"},"商品列表":{"type":"array","description":"发票中的商品明细列表","items":{"type":"object","properties":{"商品名称":{"type":"string"},"规格型号":{"type":"string"},"数量":{"type":"number"},"单价":{"type":"number"},"金额":{"type":"number"}}}}},"required":["发票号码","开票日期","合计金额"]}
  2. 自然语言抽取:无需定义Schema,直接用自然语言描述抽取需求,xParse即可自动理解并返回结果,适配非标文档、临时抽取等灵活场景。
    示例:“从这份劳动合同中,提取合同期限、试用期时长、岗位名称、基本工资、竞业限制期限”。

核心优势

  • 零样本适配:无需任何标注数据,新场景开箱即用,适配周期从数周缩短到几分钟;
  • 高准确率:基于大模型的语义理解能力,即使字段名称、位置不固定,也能精准提取目标信息;
  • 溯源能力:支持生成字段对应的文档坐标引用,可快速核对抽取结果的来源,满足合规审计要求。

3. 端到端ETL全链路能力:从文档到数据库,一键打通

xParse最具颠覆性的能力,是提供了完整的ETL工具箱,实现了“文档解析→智能分块→向量化→数据入库”的全流程自动化,彻底解决了RAG知识库、企业数据中台的文档处理痛点。

内置ETL核心能力

  1. 智能语义分块:打破传统按固定长度分块的局限,基于文档的语义结构(标题层级、段落逻辑)进行智能分块,避免语义断裂,大幅提升RAG检索的准确率;
  2. 原生向量化支持:内置合合信息开源的acge_text_embedding向量化模型(C-MTEB榜单第一),可直接将分块内容转换为向量数据,无需对接第三方向量化服务;
  3. 多数据源与多数据库适配:支持从本地文件、S3/MinIO、FTP、SMB等多种数据源读取文档,处理后的数据可直接写入Milvus/Zilliz等向量数据库,或MySQL、PostgreSQL等关系型数据库,无需额外开发适配代码;
  4. 数据清洗与标准化:自动去除冗余内容、修正识别错误、统一数据格式,输出标准化的干净数据,无需人工二次清洗。

4. 全生态适配:零代码到企业级的全场景覆盖

xParse提供了极其灵活的交付方式,从个人开发者到大型企业,都能找到适配的使用方案:

  • 零代码在线体验:官方提供Web控制台,上传文档即可一键解析,无需任何开发;
  • 低代码平台适配:已上架Coze、Dify、扣子等主流AI搭建平台,拖拽组件即可完成文档处理流程搭建,5分钟打造一个RAG知识库;
  • 多语言SDK支持:提供Python、Java、Go、JavaScript等主流编程语言的SDK,封装了完整的API调用、结果解析能力,大幅降低开发门槛;
  • Agent生态原生适配:已上架ClawHub技能市场,为OpenClaw、ZeroClaw等Agent工具提供企业级文档解析能力,免登录即可享受每日1000页的免费解析额度;
  • 私有化部署:支持内网、国产芯片、信创环境的私有化部署,满足金融、政务等强合规场景的需求,数据全程不出本地环境。

三、核心技术原理

xParse的领先表现,并非单一算法的突破,而是工程与算法协同优化的结果,核心技术架构分为四层:

  1. 文档预处理层:基于合合信息19年积累的图像处理技术,自动完成文档的倾斜校正、去水印、清晰度增强、弯曲矫正,同时将多页PDF拆分为单页任务,通过集群化并发处理实现秒级解析。

  2. 多模态布局分析层:基于YOLOv8优化的自研文档布局分析模型,将文档拆解为文本、表格、公式、图片、印章等元素,精准定位每个元素的空间坐标与类型;同时通过语义理解模型,还原元素之间的阅读顺序、层级关系、图文关联,解决了传统工具多栏排版内容错乱的核心痛点。

  3. 大模型增强的语义理解层:内置垂直领域微调的文档理解大模型,实现两大核心能力:一是对解析后的内容进行语义纠错、逻辑补全,提升内容准确性;二是基于用户的抽取需求,理解字段的语义含义,精准定位并提取目标信息,实现零样本适配。

  4. 标准化输出与工程优化层:将解析与抽取结果统一输出为Markdown、JSON等标准化格式,同时保留元素的坐标、页码等元数据,完美适配大模型的输入要求;同时通过算子融合、量化推理、负载均衡等工程优化,实现高并发、低延迟的企业级服务能力。


四、完整使用指南:从新手到开发者全流程教学

(一)零门槛在线体验:30秒上手,无需任何开发

适合新手、非技术用户,快速验证文档解析效果:

  1. 访问TextIn官方平台:https://www.textin.com
  2. 注册并登录账号,进入「xParse文档解析」控制台;
  3. 点击「上传文档」,选择需要处理的PDF/图片/Word等文件;
  4. 按需选择「解析为Markdown」「智能信息抽取」「表格提取」等功能,点击「开始处理」;
  5. 等待1-3秒即可完成处理,在线查看解析结果,支持导出Markdown、Excel、JSON等格式。

新用户注册即可获得免费体验额度,覆盖个人日常使用需求。

(二)低代码平台搭建:5分钟打造RAG知识库

以Coze平台为例,无需写代码,即可搭建一个文档解析RAG机器人:

  1. 登录Coze平台,进入机器人创建页面;
  2. 在插件市场中搜索「TextIn xParse」,添加到机器人插件列表;
  3. 搭建工作流:文件上传 → TextIn xParse文档解析 → 智能分块 → 写入向量库 → 大模型问答;
  4. 配置xParse的API Key(从TextIn控制台获取),保存并发布工作流;
  5. 上传文档,机器人即可自动完成文档解析、分块入库,实现精准问答。

同样的流程可适配Dify、扣子、钉钉搭等主流低代码平台,全程拖拽操作,无需开发经验。

(三)开发者API调用:全场景灵活集成

第一步:获取API凭证

  1. 登录TextIn开放平台:https://open.textin.com
  2. 进入「账号与开发者信息」页面,获取专属的x-ti-app-idx-ti-secret-code,这是API调用的唯一凭证;
  3. 查看官方API文档,了解接口参数与返回格式,同时领取免费调用额度。

第二步:核心API调用示例

xParse提供了同步API、异步API、Pipeline全链路API等多种调用方式,适配不同场景,以下为最常用的Python调用示例。

示例1:同步文档解析API(快速处理单页/少量文档)
importrequestsimportjson# 配置API凭证APP_ID="你的x-ti-app-id"SECRET_CODE="你的x-ti-secret-code"API_URL="https://api.textin.com/v2/xparse/parse/sync"# 读取本地文档file_path="test.pdf"withopen(file_path,"rb")asf:file_content=f.read()# 构建请求参数files={"file":("test.pdf",file_content,"application/pdf")}headers={"x-ti-app-id":APP_ID,"x-ti-secret-code":SECRET_CODE}# 可选配置:指定解析引擎、是否生成Markdown、是否识别表格等data={"parse_config":json.dumps({"provider":"textin","output_format":"markdown","table_recognition":True,"formula_recognition":True})}# 发送请求response=requests.post(API_URL,headers=headers,files=files,data=data)result=response.json()# 处理返回结果ifresult["code"]==200:# 解析后的Markdown内容markdown_content=result["data"]["markdown"]# 完整的JSON结构化数据json_data=result["data"]["json"]print("解析成功!")print(markdown_content)else:print("解析失败:",result["message"])
示例2:智能信息抽取API(提取指定字段)
importrequestsimportjson APP_ID="你的x-ti-app-id"SECRET_CODE="你的x-ti-secret-code"API_URL="https://api.textin.com/v2/xparse/extract"# 读取发票文件withopen("invoice.pdf","rb")asf:file_content=f.read()# 定义抽取Schema(也可以用自然语言prompt替代)extract_schema={"type":"object","properties":{"发票号码":{"type":"string","description":"发票号码"},"开票日期":{"type":"string","description":"开票日期"},"合计金额":{"type":"number","description":"价税合计金额"},"销售方名称":{"type":"string","description":"销售方全称"}},"required":["发票号码","合计金额"]}# 构建请求files={"file":("invoice.pdf",file_content,"application/pdf")}headers={"x-ti-app-id":APP_ID,"x-ti-secret-code":SECRET_CODE}data={"extract_config":json.dumps({"schema":extract_schema,"generate_citations":True# 生成字段来源坐标})}response=requests.post(API_URL,headers=headers,files=files,data=data)result=response.json()ifresult["code"]==200:print("抽取结果:",json.dumps(result["data"]["extract_result"],indent=2,ensure_ascii=False))else:print("抽取失败:",result["message"])
示例3:Pipeline全链路API(解析→分块→向量化→入库一站式完成)
importrequestsimportjson APP_ID="你的x-ti-app-id"SECRET_CODE="你的x-ti-secret-code"API_URL="https://api.textin.com/v2/xparse/pipeline"# 读取企业年报文档withopen("annual_report.pdf","rb")asf:file_content=f.read()# 配置Pipeline全流程pipeline_config={"parse":{"provider":"textin","output_format":"markdown"},"chunk":{"max_tokens":512,"split_by_title":True# 按标题层级分块},"embed":{"model":"acge_text_embedding"},"destination":{"type":"milvus","config":{"host":"你的Milvus地址","port":19530,"collection_name":"annual_report_2025","api_key":"你的Milvus API Key"}}}# 发送请求files={"file":("annual_report.pdf",file_content,"application/pdf")}headers={"x-ti-app-id":APP_ID,"x-ti-secret-code":SECRET_CODE}data={"pipeline_config":json.dumps(pipeline_config)}response=requests.post(API_URL,headers=headers,files=files,data=data)result=response.json()ifresult["code"]==200:print("Pipeline执行成功,数据已写入向量库!")print("处理文档页数:",result["data"]["page_count"])print("生成分块数量:",result["data"]["chunk_count"])else:print("Pipeline执行失败:",result["message"])

第三步:多语言SDK使用

除了原生API调用,xParse还提供了封装好的多语言SDK,简化开发流程:

  • Python SDK:pip install textin
  • Java SDK:Maven仓库直接引入,GitHub提供完整示例代码
  • Go/JavaScript SDK:官方文档提供完整安装与使用教程

(四)私有化部署

针对金融、政务等强合规场景,xParse提供完整的私有化部署方案,支持:

  • 内网离线部署,数据全程不出本地环境,满足数据安全合规要求;
  • 适配国产CPU、国产操作系统、信创环境,支持鲲鹏、飞腾、海光等芯片;
  • 弹性扩容,支持单机部署到多机集群部署,适配从几万页到数十亿页的不同处理规模;
  • 全功能开放,包含文档解析、信息抽取、ETL工具箱等全部能力,与公有云版本同步更新。

五、核心落地场景与案例

1. 企业级RAG知识库搭建

这是xParse最主流的应用场景。企业内部的制度文档、产品手册、财报、合同、技术文档等非结构化内容,通过xParse解析为语义完整的Markdown格式,再经过智能分块、向量化后写入向量库,大幅提升RAG的检索准确率与问答质量,解决了传统方案“文档解析失真、分块语义断裂”的核心痛点。

案例:某头部券商通过xParse处理数十万份行业研报、上市公司财报,搭建了投研RAG系统,研报信息的提取准确率从传统方案的72%提升到98.6%,投研人员的信息检索效率提升了8倍。

2. 财务与法务文档自动化处理

xParse可零样本适配发票、银行回单、合同、标书、营业执照等财务法务文档,自动提取关键信息,直接写入财务系统、合同管理系统,实现单据审核、合同归档的全流程自动化。

案例:某大型制造企业使用xParse处理供应商发票与合同,发票信息提取准确率达99.5%,单张发票处理时间从5分钟缩短到3秒,财务审核人员的工作量减少了85%。

3. 政务与企业档案数字化

针对政务档案、企业人事档案、工程图纸等海量历史文档,xParse可实现批量扫描、批量解析、结构化归档,将纸质档案转化为可检索、可分析的电子数据,解决了传统档案数字化“只能存、不能查、不能用”的问题。

4. Agent智能体文档处理

xParse已成为国内主流Agent框架的标配文档处理工具,为智能体提供“眼睛”,让Agent能自主读取、解析、理解PDF、Word等各类文档,完成合同审核、财报分析、文档问答、数据提取等复杂任务,彻底打破了Agent无法处理复杂文档的局限。

5. 学术与科研数据提取

针对学术论文、科研报告、专利文献等复杂文档,xParse可精准提取公式、图表、实验数据、参考文献,自动整理为结构化数据集,大幅降低科研人员的文献整理工作量,加速科研数据的分析与挖掘。


六、定价与免费额度

xParse提供了灵活的定价方案,覆盖从个人开发者到大型企业的全场景需求:

版本定价核心权益适用人群
免费版0元新用户注册即送免费额度,每日可享1000页免费解析,基础功能全开放个人开发者、学生、小团队测试使用
标准版0.015元/页(1万页起购)全功能开放,无调用频率限制,专属技术支持中小企业、常态化文档处理场景
离线批量版0.008元/页非实时批量处理,单价低至0.008元/页,3天可处理500万页文档海量历史文档数字化、批量归档场景
私有化部署议标全功能私有化部署,不限调用量,专属定制化服务,信创环境适配金融、政务等强合规需求的大型企业

七、常见问题FAQ

  1. xParse支持处理扫描件/图片格式的文档吗?
    完全支持。xParse内置了OCR能力,可处理扫描版PDF、手机拍摄的图片文档,即使是模糊、倾斜的图片,也能精准识别并还原内容。

  2. 处理文档时,我的数据安全吗?
    公有云版本严格遵循数据安全法规,文档处理完成后不会留存原始文件与处理结果,仅统计调用量;私有化部署版本数据全程不出本地环境,完全满足金融、政务等强合规场景的要求。

  3. 可以处理多厚的PDF文档吗?
    支持,单份文档最大支持2000页,100页文档最快1.5秒即可完成解析,同时支持跨页表格、跨页段落的自动合并。

  4. 新场景的信息抽取需要训练模型吗?
    不需要。xParse内置了大模型增强的零样本抽取引擎,只需通过Schema或自然语言描述抽取需求,即可开箱即用,无需任何标注数据与模型训练。

  5. 和传统OCR工具、其他文档解析工具相比,xParse的核心优势是什么?
    传统OCR工具只能提取字符,无法还原语义结构,输出的内容无法直接被大模型使用;而xParse的核心是“语义理解”,不仅能提取内容,还能还原文档的逻辑结构,同时提供解析、抽取、ETL、入库的全链路能力,一套工具即可完成文档处理的全流程,大幅降低开发与维护成本。

需要专业的网站建设服务?

联系我们获取免费的网站建设咨询和方案报价,让我们帮助您实现业务目标

立即咨询