文档信息提取选用哪个paddleNLP的模型更好呢?
收藏
输入是文档文本汉字,想提取其中信息,包含“等级”“日期”“类型”等实体,选用哪种模型更好呢?
之前尝试过直接调用ernir-layout预训练模型,将文本转成图片,经过paddleOCR后再提取信息,效果很好但是太麻烦了,想直接从文本提取。
也尝试过直接使用uie-base,效果很差,基本提取不出来;uie微调之后丝毫没有改善,甚至乱提取。
是需要进一步微调或者大量数据训练,还是应该换个模型呢?不太清楚这些模型的异同,有哪位大佬可以帮帮孩子么呜呜呜
0
收藏
请登录后评论
uie-x-base尝试了么?