【语言与知识主题月】短文本相似度评测

首页版块访问AI主站注册发帖

【语言与知识主题月】短文本相似度评测

才能我浪费99 发布于2020-07 浏览:5511 回复:5

【语言与知识主题月】短文本相似度评测

快速回复

1.功能描述：
短文本相似度依托全网海量优质数据和深度神经网络技术，为您提供高精度的短文本相似度服务，帮助快速实现推荐、检索、排序等应用

2.平台接入

具体接入方式比较简单，可以参考我的另一个帖子，这里就不重复了：
http://ai.baidu.com/forum/topic/show/943327

3.调用攻略（Python3）及评测

3.1首先认证授权：

在开始调用任何API之前需要先进行认证授权，具体的说明请参考：

http://ai.baidu.com/docs#/Auth/top

具体Python3代码如下：

# -*- coding: utf-8 -*-
#!/usr/bin/env python

import urllib
import base64
import json
#client_id 为官网获取的AK， client_secret 为官网获取的SK
client_id =【百度云应用的AK】
client_secret =【百度云应用的SK】

#获取token
def get_token():
host = 'https://aip.baidubce.com/oauth/2.0/token?grant_type=client_credentials&client_id=' + client_id + '&client_secret=' + client_secret
request = urllib.request.Request(host)
request.add_header('Content-Type', 'application/json; charset=UTF-8')
response = urllib.request.urlopen(request)
token_content = response.read()
#print (token_content)
if token_content:
token_info = json.loads(token_content)
token_key = token_info['access_token']
return token_key

3.2百度词向量表示接口调用：

详细说明请参考：https://ai.baidu.com/ai-doc/NLP/ek6z52frp

说明的比较清晰，这里就不重复了。

大家需要注意的是：请求URL: https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet
Body请求示例:
{
"text_1": "浙富股份", // 待比较文本1
"text_2": "万事通自考网" // 待比较文本2
}

请求参数
text_1：待比较文本1，最大512字节
text_2：待比较文本2，最大512字节
model：默认为"BOW"，可选"BOW"、"CNN"与"GRNN"

关于模型选择：
短文本相似度接口，可由用户自主选择合适的模型：
BOW（词包）模型
基于bag of words的BOW模型，特点是泛化性强，效率高，比较轻量级，适合任务：输入序列的 term “确切匹配”、不关心序列的词序关系，对计算效率有很高要求；
GRNN（循环神经网络）模型
基于recurrent，擅长捕捉短文本“跨片段”的序列片段关系，适合任务：对语义泛化要求很高，对输入语序比较敏感的任务；
CNN（卷积神经网络）模型
模型语义泛化能力介于 BOW/RNN 之间，对序列输入敏感，相较于 GRNN 模型的一个显著优点是计算效率会更高些。

Python3调用代码如下：

def simnet(text_1,text_2,model):
    token=get_token()
    url = 'https://aip.baidubce.com/rpc/2.0/nlp/v2/simnet'
    params = dict()
    params['text_1'] = text_1
    params['text_2'] = text_2
    params['model'] = model
    params = json.dumps(params).encode('utf-8')
    access_token = token
    url = url + "?access_token=" + access_token
    request = urllib.request.Request(url=url, data=params)
    request.add_header('Content-Type', 'application/json')
    response = urllib.request.urlopen(request)
    content = response.read()
    if content:
        content=content.decode('GBK')
        data = json.loads(content)
        print (data)

4.功能评测：
simnet("汗血宝马","宝马汽车",'CNN')
{'log_id': 4801458885129859330, 'texts': {'text_2': '宝马汽车', 'text_1': '汗血宝马'}, 'score': 0.382908}

simnet("汗血宝马","奔驰汽车",'CNN')
{'log_id': 1141131741869006018, 'texts': {'text_2': '奔驰汽车', 'text_1': '汗血宝马'}, 'score': 0.339106}

simnet("汗血宝马","纯血赛马",'CNN')
{'log_id': 8804496587735541858, 'texts': {'text_2': '纯血赛马', 'text_1': '汗血宝马'}, 'score': 0.528051}

对比内容发现：短文本相似度功能能很好的分辨"汗血宝马"与"宝马汽车"；"奔驰汽车"；"纯血赛马"之间的关系，并给出分值。

5.测试结论和建议
短文本相似度接口用来判断两个文本的相似度得分，经过测试发现分辨的很准确。对于信息检索，新闻检索，智能客服等领域会有很好的效果。

热门活动

个赞

共5条回复最后由用户已被禁言回复于2022-04

#6笔墨哥回复于2020-07

羡慕什么都会用的大佬

#5才能我浪费99回复于2020-07

可以用于内容推荐

#4才能我浪费99回复于2020-07

可以快速检索信息

#3才能我浪费99回复于2020-07

这个功能应用场景很多

#2worddict回复于2020-07

用起来非常方便

快速回复

小编推荐

【征稿计划第二期】评测报告、使用攻略、行业案例

用户已被禁言 14回复

Baidu Create 2019 | 百度大脑

用户已被禁言 6回复

【颁奖】第三期百度大脑新品体验师

用户已被禁言 19回复

【四月评测】远场语音识别套件

goJhou 17回复

TOP

操作指南

常见问答

平台公告

经验交流

技术专区

文字识别

人脸识别

语音技术

PaddlePaddle

EasyDL

BML

EasyData

AI Studio

UNIT

人体分析

图像搜索

图像识别

内容审核

自然语言处理

机器人视觉

视频技术

增强现实

知识图谱

智能创作

智能呼叫中心

文心

EdgeBoard

DuerOS

EasyEdge

度目硬件

百度AI市场

Doris

AI赛事

百度之星大赛

AI Studio人工智能竞赛

语言与智能技术竞赛

千言数据集

集思广益

共享工具

头脑风暴

成果展示

智能客服