项目标题:Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库
项目简介
LlamaOCR是一个Node.js库,它利用TogetherAI的Llama 3.2端点(包括免费端点以及付费的如Llama 3.2-11B-Vision和Llama 3.2-90B-Vision端点)来解析图像并返回Markdown内容。目前支持图像文件(即将支持PDF),有一个线上演示可在LlamaOCR.com体验。
安装与使用
安装:可通过npm安装llama-ocr。使用时,例如:
import { ocr } from “llama-ocr”;
const markdown = await ocr({
filePath: “./trader-joes-receipt.jpg”, // 图像路径(即将支持PDF)
apiKey: process.env.TOGETHER_API_KEY // TogetherAI API密钥
});
项目规划
项目规划包括添加对本地图像OCR的支持、对远程图像OCR的支持、单页PDF的支持、多页PDF的OCR支持(对PDF截图并提供给视觉模型)以及除Markdown外对JSON输出的支持。
项目总结
这个Llama-ocr项目为文档转Markdown的OCR需求提供了一种利用Llama 3.2视觉的解决方案。欢迎大家留言讨论这个项目相关的任何话题,比如使用体验或者对项目未来发展的建议等。
项目地址
数据统计
数据评估
关于Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库特别声明
本站链氪巴士提供的Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月9日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。
相关导航
暂无评论...