网站建设深圳龙华西安seo顾问公司-万宁市网站建设公司-Seo优化

网站建设深圳龙华,西安seo顾问公司,微信公众号小程序开发多少钱,如何搭建一个购物网站文章目录 0 前言1 项目运行效果2 文本情感分类理论2.1 RNN2.2 word2vec 算法2.3 高维 Word2Vec2.4 句向量 3 代码实现demo3.1 数据预处理与词向量模型训练3.2 LSTM三分类模型 4 最后 0 前言 #x1f525;这两年开始毕业设计和毕业答辩的要求和难度不断提升#xff0c;传统的…文章目录0 前言1 项目运行效果2 文本情感分类理论2.1 RNN2.2 word2vec 算法2.3 高维 Word2Vec2.4 句向量3 代码实现demo3.1 数据预处理与词向量模型训练3.2 LSTM三分类模型4 最后0 前言这两年开始毕业设计和毕业答辩的要求和难度不断提升传统的毕设题目缺少创新和亮点往往达不到毕业答辩的要求这两年不断有学弟学妹告诉学长自己做的项目系统达不到老师的要求。并且很难找到完整的毕设参考学习资料。为了大家能够顺利以及最少的精力通过毕设学长分享优质毕业设计项目提供大家参考学习今天要分享的是毕业设计深度学习情感分类算法系统(源码论文)学长这里给一个题目综合评分(每项满分5分)难度系数3分工作量3分创新点4分项目分享:见文末!1 项目运行效果视频效果毕业设计深度学习情感分类算法(可训练)2 文本情感分类理论2.1 RNNRNN相对于传统的神经网络它允许我们对向量序列进行操作输入序列、输出序列、或大部分的输入输出序列。如下图所示每一个矩形是一个向量箭头则表示函数比如矩阵相乘。输入向量用红色标出输出向量用蓝色标出绿色的矩形是RNN的状态下面会详细介绍。从左到右1没有使用RNN的Vanilla模型从固定大小的输入得到固定大小输出比如图像分类。2序列输出比如图片字幕输入一张图片输出一段文字序列。3序列输入比如情感分析输入一段文字然后将它分类成积极或者消极情感。4序列输入和序列输出比如机器翻译一个RNN读取一条英文语句然后将它以法语形式输出。5同步序列输入输出比如视频分类对视频中每一帧打标签。我们注意到在每一个案例中都没有对序列长度进行预先特定约束因为递归变换绿色部分是固定的而且我们可以多次使用。2.2 word2vec 算法建模环节中最重要的一步是特征提取在自然语言处理中也不例外。在自然语言处理中最核心的一个问题是如何把一个句子用数字的形式有效地表达出来如果能够完成这一步句子的分类就不成问题了。显然一个最初等的思路是给每个词语赋予唯一的编号1,2,3,4…然后把句子看成是编号的集合比如假设1,2,3,4分别代表“我”、“你”、“爱”、“恨”那么“我爱你”就是[1, 3, 2]“我恨你”就是[1, 4, 2]。这种思路看起来有效实际上非常有问题比如一个稳定的模型会认为3跟4是很接近的因此[1, 3, 2]和[1, 4, 2]应当给出接近的分类结果但是按照我们的编号3跟4所代表的词语意思完全相反分类结果不可能相同。因此这种编码方式不可能给出好的结果。同学们也许会想到我将意思相近的词语的编号凑在一堆给予相近的编号不就行了嗯确实如果如果有办法把相近的词语编号放在一起那么确实会大大提高模型的准确率。可是问题来了如果给出每个词语唯一的编号并且将相近的词语编号设为相近实际上是假设了语义的单一性也就是说语义仅仅是一维的。然而事实并非如此语义应该是多维的。比如我们谈到“家园”有的人会想到近义词“家庭”从“家庭”又会想到“亲人”这些都是有相近意思的词语另外从“家园”有的人会想到“地球”从“地球”又会想到“火星”。换句话说“亲人”、“火星”都可以看作是“家园”的二级近似但是“亲人”跟“火星”本身就没有什么明显的联系了。此外从语义上来讲“大学”、“舒适”也可以看做是“家园”的二级近似显然如果仅通过一个唯一的编号是很难把这些词语放到适合的位置的。2.3 高维 Word2Vec从上面的讨论可以知道很多词语的意思是各个方向发散开的而不是单纯的一个方向因此唯一的编号不是特别理想。那么多个编号如何换句话说将词语对应一个多维向量不错这正是非常正确的思路。为什么多维向量可行首先多维向量解决了词语的多方向发散问题仅仅是二维向量就可以360度全方位旋转了何况是更高维呢实际应用中一般是几百维。其次还有一个比较实际的问题就是多维向量允许我们用变化较小的数字来表征词语。怎么说我们知道就中文而言词语的数量就多达数十万如果给每个词语唯一的编号那么编号就是从1到几十万变化变化幅度如此之大模型的稳定性是很难保证的。如果是高维向量比如说20维那么仅需要0和1就可以表达2^2010485762201048576100万个词语了。变化较小则能够保证模型的稳定性。扯了这么多还没有真正谈到点子上。现在思路是有了问题是如何把这些词语放到正确的高维向量中而且重点是要在没有语言背景的情况下做到这件事情换句话说如果我想处理英语语言任务并不需要先学好英语而是只需要大量收集英语文章这该多么方便呀在这里我们不可能也不必要进行更多的原理上的展开而是要介绍而基于这个思路有一个Google开源的著名的工具——Word2Vec。简单来说Word2Vec就是完成了上面所说的我们想要做的事情——用高维向量词向量Word Embedding表示词语并把相近意思的词语放在相近的位置而且用的是实数向量不局限于整数。我们只需要有大量的某语言的语料就可以用它来训练模型获得词向量。词向量好处前面已经提到过一些或者说它就是问了解决前面所提到的问题而产生的。另外的一些好处是词向量可以方便做聚类用欧氏距离或余弦相似度都可以找出两个具有相近意思的词语。这就相当于解决了“一义多词”的问题遗憾的是似乎没什么好思路可以解决一词多义的问题。关于Word2Vec的数学原理读者可以参考这系列文章。而Word2Vec的实现Google官方提供了C语言的源代码读者可以自行编译。而Python的Gensim库中也提供现成的Word2Vec作为子库事实上这个版本貌似比官方的版本更加强大。2.4 句向量接下来要解决的问题是我们已经分好词并且已经将词语转换为高维向量那么句子就对应着词向量的集合也就是矩阵类似于图像处理图像数字化后也对应一个像素矩阵可是模型的输入一般只接受一维的特征那怎么办呢一个比较简单的想法是将矩阵展平也就是将词向量一个接一个组成一个更长的向量。这个思路是可以但是这样就会使得我们的输入维度高达几千维甚至几万维事实上是难以实现的。如果说几万维对于今天的计算机来说不是问题的话那么对于1000x1000的图像就是高达100万维了在自然语言处理中通常用到的方法是递归神经网络或循环神经网络都叫RNNs。它们的作用跟卷积神经网络是一样的将矩阵形式的输入编码为较低维度的一维向量而保留大多数有用信息。3 代码实现demo3.1 数据预处理与词向量模型训练处理过程包括不同类别数据整理成输入矩阵jieba分词Word2Vec词向量模型训练这里学长就不做重复介绍了。三分类除了涉及到positive和negative两种情感外还有一种neural情感从原始数据集中可以提取到有语义转折的句子“然而”“但”都是关键词。从而可以得到3份不同语义的数据集。3.2 LSTM三分类模型代码需要注意的几点是第一是标签需要使用keras.utils.to_categorical来yummy第二是LSTM二分类的参数设置跟二分有区别选用softmax并且loss函数也要改成categorical_crossentropy代码如下defget_data(index_dict,word_vectors,combined,y):n_symbolslen(index_dict)1# 所有单词的索引数频数小于10的词语索引为0所以加1embedding_weightsnp.zeros((n_symbols,vocab_dim))# 初始化索引为0的词语词向量全为0forword,indexinindex_dict.items():# 从索引为1的词语开始对每个词语对应其词向量embedding_weights[index,:]word_vectors[word]x_train,x_test,y_train,y_testtrain_test_split(combined,y,test_size0.2)y_trainkeras.utils.to_categorical(y_train,num_classes3)y_testkeras.utils.to_categorical(y_test,num_classes3)# print x_train.shape,y_train.shapereturnn_symbols,embedding_weights,x_train,y_train,x_test,y_test##定义网络结构deftrain_lstm(n_symbols,embedding_weights,x_train,y_train,x_test,y_test):printDefining a Simple Keras Model...modelSequential()# or Graph or whatevermodel.add(Embedding(output_dimvocab_dim,input_dimn_symbols,mask_zeroTrue,weights[embedding_weights],input_lengthinput_length))# Adding Input Lengthmodel.add(LSTM(output_dim50,activationtanh))model.add(Dropout(0.5))model.add(Dense(3,activationsoftmax))# Dense全连接层,输出维度3model.add(Activation(softmax))printCompiling the Model...model.compile(losscategorical_crossentropy,optimizeradam,metrics[accuracy])printTrain...# batch_size32model.fit(x_train,y_train,batch_sizebatch_size,epochsn_epoch,verbose1)printEvaluate...scoremodel.evaluate(x_test,y_test,batch_sizebatch_size)yaml_stringmodel.to_yaml()withopen(../model/lstm.yml,w)asoutfile:outfile.write(yaml.dump(yaml_string,default_flow_styleTrue))model.save_weights(../model/lstm.h5)printTest score:,score篇幅有限更多详细设计见设计论文4 最后项目包含内容完整详细设计论文项目分享:见文末!

网站建设深圳龙华西安seo顾问公司

新乐网站制作价格医院网站建设的宗旨

建行个人手机银行百度推广怎么做网站的优化

深圳app开发公司排行windows优化大师在哪里

深圳做网站优化网页制作资料

手机网站你了解的wordpress 图片大小

济南官方网站大数据平台的搭建