Docling-轻松快速地将文档转换为所需格式的生成式AI
项目简介
Docling能够轻松快速地解析文档并将其导出为所需的格式。它可以读取流行的文档格式,如PDF、DOCX、PPTX、XLSX、图像、HTML、AsciiDoc和Markdown等,并能导出为HTML、Markdown和JSON(包含嵌入和引用的图像)。它具有高级的PDF文档理解能力,包括页面布局、阅读顺序和表格结构等,还有统一且富有表现力的文档表示格式,便于与LlamaIndex和LangChain轻松集成以用于强大的RAG/QA应用程序,支持对扫描的PDF进行OCR识别,有简单方便的CLI。
核心技术
该项目基于Python(占比59.1%)和HTML(占比40.7%)开发,从代码构成比例来看这两种技术是其核心部分,利用Python在文档处理和转换逻辑方面的能力,以及HTML在文档结构和输出格式方面的优势。
实践案例
可以通过文档中的示例进行实践,如从文档中转换单个文档的示例:从docling.document_converter import DocumentConverter,source = “https://arxiv.org/pdf/2408.09869″,converter = DocumentConverter(),result = converter.convert(source),print(result.document.export_to_markdown()),更多实践用法可以查看文档。
项目总结
Docling是一个功能强大的文档处理工具,对于需要将各种格式文档转换为适合生成式AI使用格式的场景非常有帮助。如果你对这个项目有任何疑问或者想法,欢迎在评论区留言讨论。
项目地址
数据统计
数据评估
本站链氪巴士提供的Docling-轻松转换文档格式的生成式AI都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月13日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。