【使用攻略】【语言处理】文本纠错攻略、评测、建议
才能我浪费99 发布于2019-04 浏览:11511 回复:88
4
收藏
最后编辑于2022-04

调用攻略(Python3)

首先认证授权:

在开始调用任何API之前需要先进行认证授权,具体的说明请参考:

http://ai.baidu.com/docs#/Auth/top

获取Access Token

向授权服务地址https://aip.baidubce.com/oauth/2.0/token发送请求(推荐使用POST),并在URL中带上以下参数:

grant_type:?必须参数,固定为client_credentials;
client_id:?必须参数,应用的API Key;
client_secret:?必须参数,应用的Secret Key;
例如:

https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=Va5yQRHlA4Fq5eR3LT0vuXV4&client_secret=0rDSjzQ20XUj5itV6WRtznPQSzr5pVw2&

具体Python3代码如下:

# -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib
import json
#client_id 为官网获取的AK, client_secret 为官网获取的SK
client_id =【百度云应用的AK】
client_secret =【百度云应用的SK】

#获取token
def get_token():
    host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
    request = urllib.request.Request(host)
    request.add_header('Content-Type', 'application/json; charset=UTF-8')
    response = urllib.request.urlopen(request)
    token_content = response.read()
    if token_content:
        token_info = json.loads(token_content)
        token_key = token_info['access_token']
    return token_key

文本纠错调用:
详细说明请参考:http://ai.baidu.com/docs#/NLP-API/741e48da

接口描述
识别输入文本中有错误的片段,提示错误并给出正确的文本结果。支持短文本、长文本、语音等内容的错误识别,纠错是搜索引擎、语音识别、内容审查等功能更好运行的基础模块之一。

请求说明
HTTP方法: POST
请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v1/ecnet

URL参数:
参数 值
access_token 通过API Key和Secret Key获取的access_token,参考“Access Token获取”

Header如下:
参数 值
Content-Type application/json

Body请求示例:
{
"text": "百度是一家人工只能公司"
}

请求参数
参数 类型 描述 是否必填
text string 待纠错文本,输入限制511字节 必填


返回说明
参数 说明 描述
log_id uint64 请求唯一标识码
correct_query string 纠错后的文本
score double 模型置信度打分
item object 分析结果
+vec_fragment list 替换候选片段信息
++ori_frag string 原片段
++correct_frag double 替换片段
++begin_pos int 起始(长度单位)
++end_pos list 结尾(长度单位)

Python3调用代码如下:

#调用百度文本纠错接口
def txt_correction(content):
    print ('原文:',content)
    token=get_token()
    url = 'https://aip.baidubce.com/rpc/2.0/nlp/v1/ecnet'
    params = dict()
    params['text'] = content
    params = json.dumps(params).encode('utf-8')
    access_token = token
    url = url + "?access_token=" + access_token
    request = urllib.request.Request(url=url, data=params)
    request.add_header('Content-Type', 'application/json')
    response = urllib.request.urlopen(request)
    content = response.read()
    if content:
        content=content.decode('GB2312')
        data = json.loads(content)

        item=data['item']
        print('纠错后:',item['correct_query'])
        print('Score:',item['score'])

txt_correction('汽车形式在这条道路上')
返回结果:

原文: 汽车形式在这条道路上
纠错后: 汽车行驶在这条道路上
Score: 0.982835

测试:
选用不同的数据对文本纠错的准确性进行测试,具体的案例包括生活用语,文章,古诗等。具体案例如下:

test_list = [
            '我来自夏门',
            '朝辞白底彩云间',
            '时光葱葱而过',
            '形像代言人',
            '此事不会影像大局',
            '化夏子孙团结一心',
            '他有点必理不平衡。',
            '这是我们最新的研发计画。',
            '我早就在这排对了。',
            '你中于来了。']

import datetime
print (datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))
for text in test_list:
    txt_correction(text)
print (datetime.datetime.now().strftime('%Y-%m-%d %H:%M:%S'))

结果:
2019-04-16 11:29:52
原文: 我来自夏门
纠错后: 我来自夏门
Score: 0
原文: 朝辞白底彩云间
纠错后: 朝辞白帝彩云间
Score: 0.961476
原文: 时光葱葱而过
纠错后: 时光匆匆而过
Score: 0.938082
原文: 形像代言人
纠错后: 形象代言人
Score: 0.947005
原文: 此事不会影像大局
纠错后: 此事不会影响大局
Score: 0.969137
原文: 化夏子孙团结一心
纠错后: 华夏子孙团结一心
Score: 0.885656
原文: 他有点必理不平衡。
纠错后: 他有点必理不平衡。
Score: 0
原文: 这是我们最新的研发计画。
纠错后: 这是我们最新的研发计划。
Score: 0.441279
原文: 我早就在这排对了。
纠错后: 我早就在这排队了。
Score: 0.977007
原文: 你中于来了。
纠错后: 你中于来了。
Score: 0
2019-04-16 11:30:19

发现在10个测试案例中,有7个错误被成功纠正。纠正成功率为70%左右,感觉不错,不过还有优化空间。随着百度不断地优化应该会有进一步的提高。

10个调用,用时27秒,每次调用2.7秒左右。

使用场景及建议:
文本纠错有很广阔的应用前景,现在已经有了以下场景:
写作辅助:在内容写作平台上内嵌纠错模块,可在作者写作时自动检查并提示错别字情况。从而降低因疏忽导致的错误表述,有效提升作者的文章写作质量,同时给用户更好的阅读体验
搜索纠错:用户经常在搜索时输入错误,通过分析搜索query的形式和特征,可自动纠正搜索query并提示用户,进而给出更符合用户需求的搜索结果,有效屏蔽错别字对用户真实需求的影响
对话语音识别纠错:将文本纠错嵌入对话系统中,可自动修正语音识别转文本过程中的错别字,向对话理解系统传递纠错后的正确query,明显提高语音识别准确率,使产品整体体验更佳

此外还可以应用在:
NLP数据预处理:如在对客服记录,景区评价的数据进行客户情绪分析前可以使用文本纠错功能对数据进行预处理,提高分析的准确度。
单据扫描信息的后处理:对单据扫描文本识别后的数据进行后处理,提高准确度

在自然语言相关的AI应用越来越多的时候,文本纠错作为NLP应用的关键组件,必将得到广泛的应用。在试验中发现,百度AI作为这方面的先行者,已经具备了很好的易用性和调用速度,希望能进一步提高识别的准确率,百尺竿头更进一步。

收藏
点赞
4
个赞
共88条回复 最后由用户已被禁言回复于2022-04
#49蓝色的风339回复于2019-04
#43 wangwei8638回复
现在刚起步吧,我们需要比较彻底的智能

如果是比较彻底的智能,就需要很长时间

0
#48蓝色的风339回复于2019-04
#41 才能我浪费99回复
应该就是这几年的事情啊

确实ai的发展速度很快

0
#47蓝色的风339回复于2019-04
#36 177******01回复
AI辅助编辑纠错,解放校验工作,很需要啊

AI真是方便我们的生活和工作

0
#46风搅火回复于2019-04
#41 才能我浪费99回复
应该就是这几年的事情啊

大家已经逐步习惯了智能的生活

0
#45风搅火回复于2019-04
#42 才能我浪费99回复
是啊,科技让生活更加方便了

这就是科技发展迅速的动力

0
#44风搅火回复于2019-04
#43 wangwei8638回复
现在刚起步吧,我们需要比较彻底的智能

这样的智能程度就已经很方便了,期待更智能的时代

0
#43wangwei8638回复于2019-04
#41 才能我浪费99回复
应该就是这几年的事情啊

现在刚起步吧,我们需要比较彻底的智能

0
#42才能我浪费99回复于2019-04
#40 风搅火回复
已经有了很多应用了,现在给孩子批计算题,用软件就能完成,不用一道一道的校对
展开

是啊,科技让生活更加方便了

0
#41才能我浪费99回复于2019-04
#35 wangwei8638回复
人工智能用不了30年,也能走进千家万户

应该就是这几年的事情啊

0
#40风搅火回复于2019-04
#35 wangwei8638回复
人工智能用不了30年,也能走进千家万户

已经有了很多应用了,现在给孩子批计算题,用软件就能完成,不用一道一道的校对

0
#39风搅火回复于2019-04
#33 才能我浪费99回复
是啊,现在科技发展的非常快

科技更新的快有好处,也有不好的地方,好多东西都得换新,很费钱

0
#38风搅火回复于2019-04
#30 蓝色的风339回复
学会使用AI,是跟上时代最基本的

说的对,这是最基本的,但是70之前的学还很费劲的

0
#37177******01回复于2019-04

现在又没写好的,可以测试下啊,一堆文档要校验

1
#36177******01回复于2019-04

AI辅助编辑纠错,解放校验工作,很需要啊

0
#35wangwei8638回复于2019-04
#34 才能我浪费99回复
是啊,现在科技产品更新的特别快

人工智能用不了30年,也能走进千家万户

0
#34才能我浪费99回复于2019-04
#25 wangwei8638回复
智能手机才不过10年,都多少代了

是啊,现在科技产品更新的特别快

0
#33才能我浪费99回复于2019-04
#28 风搅火回复
看来人的智慧和能力是无限的

是啊,现在科技发展的非常快

0
#32才能我浪费99回复于2019-04
#29 风搅火回复
我们也是上班才有手机的

这么说年纪都不小了啊

0
#31蓝色的风339回复于2019-04
#11 才能我浪费99回复
是啊,以后很多编辑的工作可以让Ai做了

好的创意还是需要我们自己来构思的吧

0
#30蓝色的风339回复于2019-04
#27 风搅火回复
还是给大家多谢时间准备接受强AI的到来吧

学会使用AI,是跟上时代最基本的

0
TOP
切换版块