PaddlePaddle自然语言处理总结
创始人
2024-02-28 16:32:01
0

11月28日 week14 周一 910节 物联201 2008070101

本文总结:

1.介绍词向量引入对自然语言处理有着至关重要的作用;

2.介绍了word2vec算法;

3.介绍CBOW算法的实现;

4.介绍Skip-Gram算法的实现。

基本流程

1.数据预处理:选择需要使用的数据,做好预处理;

2.网络定义:预先定义好网络结构,包括输入层、中间层(隐藏层)、输出层、损失函数和优化算法;

3.网络训练:将准备好的数据送入神经网络进行学习,并观察学习的过程是否正常,如损失函数值是否在降低,也可以及时返回一些关键步骤的结果;

4.网络评估:使用测试集合测试训练好的神经网络,看看训练效果如何。

参考链接:飞桨PaddlePaddle-源于产业实践的开源深度学习平台

目录

词向量

word2vec算法

CBOW算法

1.输入层

2.隐藏层

3.输出层

Skip-Gram算法 

1.结构 

2.实现

代表中心词的tensor

代表目标词的tensor

代表目标词标签的tensor


词向量

[1.]词向量(Word Embedding)的引入:表示自然语言里单词的一种方法,把每个词都表示为一个N维空间内的点,即一个高维空间内的向量,使用这个方法可以把自然语言转换为向量。

通过计算这些向量之间的距离,就可以计算出词语之间的关联关系,从而达到让计算机像计算数值一样去计算自然语言的目的。

word2vec算法

[2.]word2vec算法:通过上下文来学习语义信息,word2vec包括两个经典模型:CBOW(continuous bag-of-words)和Skip-gram;

CBOW:通过上下文的词向量推理中心词。

Skip-gram:根据中心词推理上下文。

一般来说,CBOW比Skip-gram训练速度快,训练过程更加稳定,原因是CBOW使用上下文average的方式进行训练,每个训练step会见到更多样本。而在生僻字(出现频率低的字)处理上,skip-gram比CBOW效果更好,原因是skip-gram不会刻意回避生僻字(CBOW结构中输入中存在生僻字时,生僻字会被其它非生僻字的权重冲淡)。 

CBOW算法

[3.]CBOW算法实现:CBOW是一个具有3层结构的神经网络;

1.输入层

一个形状为C*V的one-hot张量,其中C代表上线文中词的个数,通常是一个偶数,我们假设为4;V表示词表的大小,我们假设为5000,该张量的每一行都是一个上下文词的one-hot向量表示,比如"Pineapples, are, and, yellow"。

2.隐藏层

一个形状为V*N的参数张量W1,一般称为word-embedding,N表示每个词的词向量长度,我们假设为128。输入张量和word embedding W1进行矩阵乘法,就会得到一个形状为C*N的张量。综合考虑上下文中所有词的信息去推理中心词,因此将上下文中C个词相加得一个1×N的向量,是整个上下文的一个隐含表示。

3.输出层

创建另一个形状为N×V的参数张量,将隐藏层得到的1×N的向量乘以该N×V的参数张量,得到了一个形状为1×V的向量。最终,1×V的向量代表了使用上下文去推理中心词,每个候选词的打分,再经过softmax函数的归一化,即得到了对中心词的推理概率:

Skip-Gram算法 

[4.]Skip-Gram算法实现

1.结构 

 

2.实现

在实现的过程中,通常会让模型接收3个tensor输入:

代表中心词的tensor

称之为center_words V,一般来说,这个tensor是一个形状为[batch_size,vocab_size]的one-hot tensor,表示一个mini-batch中每个中心词具体的ID。

代表目标词的tensor

称之为target_words T,一般来说,这个tensor同样是一个形状为[batch_size,vocab_size]的one-hot tensor,表示一个mini-batch中每个目标词具体的ID。

代表目标词标签的tensor

假设我们称之为labels L,一般来说,这个tensor是一个形状为[batch_size,1]的tensor,每个元素不是0就是1(0:负样本,1:正样本)。

相关内容

热门资讯

常用商务英语口语   商务英语是以适应职场生活的语言要求为目的,内容涉及到商务活动的方方面面。下面是小编收集的常用商务...
六年级上册英语第一单元练习题   一、根据要求写单词。  1.dry(反义词)__________________  2.writ...
复活节英文怎么说 复活节英文怎么说?复活节的英语翻译是什么?复活节:Easter;"Easter,anniversar...
2008年北京奥运会主题曲 2008年北京奥运会(第29届夏季奥林匹克运动会),2008年8月8日到2008年8月24日在中华人...
英语道歉信 英语道歉信15篇  在日常生活中,道歉信的使用频率越来越高,通过道歉信,我们可以更好地解释事情发生的...
六年级英语专题训练(连词成句... 六年级英语专题训练(连词成句30题)  1. have,playhouse,many,I,toy,i...
上班迟到情况说明英语   每个人都或多或少的迟到过那么几次,因为各种原因,可能生病,可能因为交通堵车,可能是因为天气冷,有...
小学英语教学论文 小学英语教学论文范文  引导语:英语教育一直都是每个家长所器重的,那么有关小学英语教学论文要怎么写呢...
英语口语学习必看的方法技巧 英语口语学习必看的方法技巧如何才能说流利的英语? 说外语时,我们主要应做到四件事:理解、回答、提问、...
四级英语作文选:Birth ... 四级英语作文范文选:Birth controlSince the Chinese Governmen...
金融专业英语面试自我介绍 金融专业英语面试自我介绍3篇  金融专业的学生面试时,面试官要求用英语做自我介绍该怎么说。下面是小编...
我的李老师走了四年级英语日记... 我的李老师走了四年级英语日记带翻译  我上了五个学期的小学却换了六任老师,李老师是带我们班最长的语文...
小学三年级英语日记带翻译捡玉... 小学三年级英语日记带翻译捡玉米  今天,我和妈妈去外婆家,外婆家有刚剥的`玉米棒上带有玉米籽,好大的...
七年级英语优秀教学设计 七年级英语优秀教学设计  作为一位兢兢业业的人民教师,常常要写一份优秀的教学设计,教学设计是把教学原...
我的英语老师作文 我的英语老师作文(通用21篇)  在日常生活或是工作学习中,大家都有写作文的经历,对作文很是熟悉吧,...
英语老师教学经验总结 英语老师教学经验总结(通用19篇)  总结是指社会团体、企业单位和个人对某一阶段的学习、工作或其完成...
初一英语暑假作业答案 初一英语暑假作业答案  英语练习一(基础训练)第一题1.D2.H3.E4.F5.I6.A7.J8.C...
大学生的英语演讲稿 大学生的英语演讲稿范文(精选10篇)  使用正确的写作思路书写演讲稿会更加事半功倍。在现实社会中,越...
VOA美国之音英语学习网址 VOA美国之音英语学习推荐网址 美国之音网站已经成为语言学习最重要的资源站点,在互联网上还有若干网站...
商务英语期末试卷 Part I Term Translation (20%)Section A: Translate ...