首页 炼丹房 帖子详情
深度学习——如何用LSTM进行文本分类
收藏
快速回复
炼丹房 文章新手上路 459 2
深度学习——如何用LSTM进行文本分类
收藏
快速回复
炼丹房 文章新手上路 459 2

简介

主要内容包括

如何将文本处理为Tensorflow LSTM的输入

如何定义LSTM

用训练好的LSTM进行文本分类

代码

导入相关库

#coding=utf-8

import tensorflow as tf

from tensorflow.contrib import learn

import numpy as np

from tensorflow.python.ops.rnn import static_rnn

from tensorflow.python.ops.rnn_cell_impl import BasicLSTMCell

# 数据

positive_texts = [

"我 今天 很 高兴",

"我 很 开心",

"他 很 高兴",

"他 很 开心"

]

negative_texts = [

"我 不 高兴",

"我 不 开心",

"他 今天 不 高兴",

"他 不 开心"

]

label_name_dict = {

0: "正面情感",

1: "负面情感"

}

配置信息

embedding_size = 50

num_classes = 2

将文本和label数值化

# 将文本和label数值化

all_texts = positive_texts + negative_textslabels = [0] * len(positive_texts) + [1] * len(negative_texts)

max_document_length = 4

vocab_processor = learn.preprocessing.VocabularyProcessor(max_document_length)

datas = np.array(list(vocab_processor.fit_transform(all_texts)))

vocab_size = len(vocab_processor.vocabulary_)

定义placeholder(容器),存放输入输出

# 容器,存放输入输出

datas_placeholder = tf.placeholder(tf.int32, [None, max_document_length])

labels_placeholder = tf.placeholder(tf.int32, [None])

词向量处理

# 词向量表

embeddings = tf.get_variable("embeddings", [vocab_size, embedding_size], initializer=tf.truncated_normal_initializer)

# 将词索引号转换为词向量[None, max_document_length] => [None, max_document_length, embedding_size]

embedded = tf.nn.embedding_lookup(embeddings, datas_placeholder)

将数据处理为LSTM的输入格式

# 转换为LSTM的输入格式,要求是数组,数组的每个元素代表某个时间戳一个Batch的数据

rnn_input = tf.unstack(embedded, max_document_length, axis=1)

# 定义LSTM

lstm_cell = BasicLSTMCell(20, forget_bias=1.0)

rnn_outputs, rnn_states = static_rnn(lstm_cell, rnn_input, dtype=tf.float32)

#利用LSTM最后的输出进行预测

logits = tf.layers.dense(rnn_outputs[-1], num_classes)

predicted_labels = tf.argmax(logits, axis=1)

# 定义损失和优化器

losses= tf.nn.softmax_cross_entropy_with_logits(

labels=tf.one_hot(labels_placeholder, num_classes),

logits=logits

)

mean_loss = tf.reduce_mean(losses)

optimizer = tf.train.AdamOptimizer(learning_rate=1e-2).minimize(mean_loss)

执行

with tf.Session() as sess:

# 初始化变量

sess.run(tf.global_variables_initializer())

训练# 定义要填充的数据

feed_dict = {

datas_placeholder: datas,

labels_placeholder: labels

}

print("开始训练")

for step in range(100):

_, mean_loss_val = sess.run([optimizer, mean_loss], feed_dict=feed_dict)

if step % 10 == 0:

print("step = {}\tmean loss = {}".format(step, mean_loss_val))

预测

print("训练结束,进行预测")

predicted_labels_val = sess.run(predicted_labels, feed_dict=feed_dict)

for i, text in enumerate(all_texts):

label = predicted_labels_val[i]

label_name = label_name_dict[label]

print("{} => {}".format(text, label_name))

一、大数据概述

二、大数据处理架构Hadoop

三、分布式文件系统HDFS

四、分布式数据库HBase

五、MapReduce

六、Spark

七、IPython Notebook运行Python Spark程序

八、Python Spark集成开发环境

九、Python Spark决策树二分类与多分类

十、Python Spark支持向量机

十一、Python Spark 贝叶斯模型

十二、Python Spark逻辑回归

十三、Python Spark回归分析

十四、Spark ML Pipeline 机器学习流程分类

十五、Python Spark 创建推荐引擎 

十六、项目实践:1.日志分析系统与日志挖掘项目实践;2.推荐系统项目实践

0
收藏
回复
全部评论(2)
时间顺序
<h1>零零柒43</h1>
#2 回复于2022-11

66666

0
回复
学到两点半
#3 回复于2023-10

这是

0
回复
在@后输入用户全名并按空格结束,可艾特全站任一用户