Github项目

Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库

LlamaOCR是一个Node.js库,旨在利用TogetherAI的Llama 3.2端点进行图像解析并转换为Markdown内容。它可通过npm安装,目前支持图像文件(即将支持PDF),提供线上演示。其使用方式...

标签:

项目标题:Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库

项目简介

LlamaOCR是一个Node.js库,它利用TogetherAI的Llama 3.2端点(包括免费端点以及付费的如Llama 3.2-11B-Vision和Llama 3.2-90B-Vision端点)来解析图像并返回Markdown内容。目前支持图像文件(即将支持PDF),有一个线上演示可在LlamaOCR.com体验。

安装与使用

安装:可通过npm安装llama-ocr。使用时,例如:
import { ocr } from “llama-ocr”;
const markdown = await ocr({
filePath: “./trader-joes-receipt.jpg”, // 图像路径(即将支持PDF)
apiKey: process.env.TOGETHER_API_KEY // TogetherAI API密钥
});

项目规划

项目规划包括添加对本地图像OCR的支持、对远程图像OCR的支持、单页PDF的支持、多页PDF的OCR支持(对PDF截图并提供给视觉模型)以及除Markdown外对JSON输出的支持。

项目总结

这个Llama-ocr项目为文档转Markdown的OCR需求提供了一种利用Llama 3.2视觉的解决方案。欢迎大家留言讨论这个项目相关的任何话题,比如使用体验或者对项目未来发展的建议等。

项目地址

GitHub链接直达

数据统计

数据评估

Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库浏览人数已经达到5,如你需要查询该站的相关权重信息,可以点击"5118数据""爱站数据""Chinaz数据"进入;以目前的网站数据参考,建议大家请以爱站数据为准,更多网站价值评估因素如:Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库的访问速度、搜索引擎收录以及索引量、用户体验等;当然要评估一个站的价值,最主要还是需要根据您自身的需求以及需要,一些确切的数据则需要找Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库的站长进行洽谈提供。如该站的IP、PV、跳出率等!

关于Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库特别声明

本站链氪巴士提供的Llama-ocr-基于Llama 3.2视觉的文档转Markdown OCR库都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月9日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。

相关导航

暂无评论

暂无评论...