【Github】项目名:WriteGPT – 基于开源GPT2.0的初代创作型人工智能
项目简介
WriteGPT是基于OCR、NLP领域的最新模型构建的生成式文本创作AI框架。其第一版finetune模型针对高考作文(主要是议论文),能生成符合人类认知的文章,多数文章经测试可达正常高中生及格作文水平。该框架基于多个模型如EAST、CRNN、Bert和GPT – 2等构建,包含多个功能模块如文本检测、识别、摘要、生成、判分和排版等。
项目目的
此项目旨在构建一个能够生成高考议论文水平文章的人工智能框架,主要用于交流与科普目的。
核心技术
整个框架分为EAST、CRNN、BERT、GPT – 2、DNN 5个模块,每个模块的网络单独训练,参数相互独立,infer过程使用pipeline串联。其中,EAST用于文本检测,CRNN用于文本识别,BERT用于文本摘要,GPT – 2用于文本生成,DNN用于判分。此外,还使用了外接装置用于输出到答题卡,并且利用了如预训练、微调等技术手段。在预训练方面,GPT – 2预训练语料来自THUCNews以及nlp_chinese_corpus,Finetune语料来自历年满分高考作文等。BERT采用了双向Transformer的Encoder结构,用MaskedLM和NextSentencePrediction两种方法预训练。
实践案例
项目给出了本地环境下的开发实践情况,如在Ubuntu18.04.2环境下,使用Pandas0.24.2、Regex2019.4.14等相关软件库进行开发。在数据准备方面,如CRNN文本识别的训练集下载包含约364万张图片等。还展示了模型训练过程中的各项指标变化,如CRNN文本识别训练时不同Epoch下的loss和acc数值。同时,项目也提到了一些实际应用中的问题,如当前输出的格式和高考作文不能完美契合等情况。
项目总结
WriteGPT是一个很有意义的项目,它融合了多种技术构建了一个针对高考议论文创作的AI框架。虽然目前还存在一些问题,如输出格式、作文质量不稳定等,但它为文本创作型人工智能的发展提供了一种思路和实践经验。欢迎各位粉丝在评论区留言讨论,分享你们对这个项目的看法或者提出相关问题。
项目地址
数据统计
数据评估
本站链氪巴士提供的WriteGPT:基于开源GPT2.0的初代创作型人工智能都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由链氪巴士实际控制,在2024年12月6日 上午12:00收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,链氪巴士不承担任何责任。