一大段文字没有标点符号?您是否有办法让他自动标注呢?(目前我看全网好像都没有自动标注标点符号)
那么,接下来我给大家提供一个思路,以及我开发的源代码,大家互相学习交流一下哈!
案例一:
【六年的小学生活过得那么迅速在最后一次去学校时同学们都哭了因为我们知道暑假过去我们不再是同班同学不再是可以结伴而行的朋友虽和有些同学在一所学校上学但是我们心里十分清楚初中的学习任务重要掌握八门科目见面的机会太少太少】
处理后:
【六年的小学生活过得那么迅速。在最后一次去学校时,同学们都哭了,因为我们知道,暑假过去,我们不再是同班同学,不再是可以结伴而行的朋友,虽和有些同学在一所学校上学,但是我们心里十分清楚,初中的学习任务重,要掌握八门科目,见面的机会太少太少。】
第一步:文本训练
我们通过百度大量文章内容,提取“逗号”“句号”“感叹号”,“问号”并写入特征库,该操作我们还可以自己去增加一些别的标点符号,特征库越大,那么识别精准度就越高(下图中采集标点符号左侧三位字符)
【解释】逗号过滤器,通过正则方式,提取在“逗号”前三位数据,并加入特征库
第二步:测试常规无标点符号文本进行判断
【解释】我们“开始”软件从特征库对文本进行依次判断,当检测到对应特征文字,进行符号添加工作
【结尾】就这样,我们很轻松的就把一段没有标点符号的文字,自动添加标点符号啦,(一些作文网站有大量文章,可以自动去做特征码,这样判断会更准确哟!)
易语言源代码链接:https://pan.baidu.com/s/1RiHGLxt908t_gDF9l6G5eQ
提取码:fpe2
TOP
切换版块
这个好像不是用的机器学习么?好像是用的递归正则式匹配的方式。这个可不可以考虑用n-gram训练?
应用场景比较多,随便举例一个:谷歌语音识别,识别出来的文字是没有标点符号的,通过这个方式,就实现了自动给文章添加标点符号
这样断句,不在担心没有标点的文章了
强大