fasttext词向量迁移_资讯

fasttext词向量迁移

创始人

2024-05-13 22:54:18

0次

词向量迁移

什么是词向量迁移
fastText中有哪些可以迁移的词向量模型
掌握如何使用fasttext进行词向量迁移

1、什么是词向量？

使用在大型语料库上已经训练好的词向量。

2、fasttext里面可以提供迁移的词向量：

fasttext提供了157种语言的在CommonCrawl和Wikipedia语料上进行训练的可迁移词向量模型, 它们采用CBOW模式进行训练, 词向量维度为300维.

可通过该地址查看具体语言词向量模型：

https://fasttext.cc/docs/en/crawl-vectors.html

fasttext提供了294种语言的在Wikipedia语料上进行训练的可迁移词向量模型, 它们采用skipgram模式进行训练, 词向量维度同样是300维.

https://fasttext.cc/docs/en/pretrained-vectors.html

3、如何进行词向量的迁移

第一步: 下载词向量模型压缩的bin.gz文件
第二步: 解压bin.gz文件到bin文件
第三步: 加载bin文件获取词向量
第四步: 利用邻近词进行效果检验

第一步下载词向量模型的bin.gz的压缩文件

# 这里我们以迁移在CommonCrawl和Wikipedia语料上进行训练的中文词向量模型为例:
# 下载中文词向量模型(bin.gz文件)
wget https://dl.fbaipublicfiles.com/fasttext/vectors-crawl/cc.zh.300.bin.gz

第二步：解压bin.gz文件到bin

# 使用gunzip进行解压, 获取cc.zh.300.bin文件
gunzip cc.zh.300.bin.gz

第三步加载bin文件

def fast_text_model():"""从fastext官网下载的中文词向量,来测试一下中文的相似度情况:return:"""wiki_chinese = fasttext.load_model(r"D:\Downloads\cc.zh.300.bin\cc.zh.300.bin")print(wiki_chinese.words[:100])# 利用邻近词检查res1 = wiki_chinese.get_nearest_neighbors("音乐")for val in res1:print("邻近词语: ", val)['，', '的', '。', '', '、', '是', '一', '在', '：', '了', '（', '）', "'", '和', '不', '有', '我', ',', ')', '(', '“', '”', '也', '人', '个', ':', '中', '.', '就', '他', '》', '《', '-', '你', '都', '上', '大', '！', '这', '为', '多', '与', '章', '「', '到', '」', '要', '？', '被', '而', '能', '等', '可以', '年', '；', '|', '以', '及', '之', '公司', '对', '中国', '很', '会', '小', '但', '我们', '最', '更', '/', '1', '三', '新', '自己', '可', '2', '或', '次', '好', '将', '第', '种', '她', '…', '3', '地', '對', '用', '工作', '下', '后', '由', '两', '使用', '还', '又', '您', '?', '其', '已']
邻近词语:  (0.6703276634216309, '乐曲')
邻近词语:  (0.6569967269897461, '音乐人')
邻近词语:  (0.6565821170806885, '声乐')
邻近词语:  (0.6557438373565674, '轻音乐')
邻近词语:  (0.6536258459091187, '音乐家')
邻近词语:  (0.6502416133880615, '配乐')
邻近词语:  (0.6501686573028564, '艺术')
邻近词语:  (0.6437276005744934, '音乐会')
邻近词语:  (0.639589250087738, '原声')
邻近词语:  (0.6368917226791382, '音响')

将加载的中文词向量测试，可以看到词语的相似度。后续在NLP的相关任务中是可以直接使用fasttext的预训练词向量模型。

词库加载错误:未能找到文件“E:\highferrum_mysql\Configuration\Dict_Stopwords.txt”。

上一篇：【C#】C#Process调用外部程序

下一篇：循环语句（循环结构）——“C”

热门资讯

鸟巢导游词英文鸟巢导游词英文范文　　作为一名乐于为游客排忧解难的'导游，通常需要准备好一份导游词，导游词的主要特点...

开封包公祠导游词开封包公祠导游词　　包公祠全名“包公孝肃祠”，位于合肥市环城南路东段的一个土墩上，是包河公园的主 ...

浙江省安吉大竹海导游词浙江省安吉大竹海导游词　　导游内容：大竹海概况→五女湖.五女船→竹龙引泉→动感影视吧→投缘池→幽泉煮...

斗篷山导游词最新斗篷山导游词最新范文　　作为一位不辞辛劳的导游，就不得不需要编写导游词，导游词是讲解当地的基本情况，...

云南省大理概况导游词云南省大理概况导游词（精选5篇）　　作为一无名无私奉献的导游，通常会被要求编写导游词，导游词是导游员...

武当山南岩宫导游词武当山南岩宫导游词（精选12篇）　　作为一名可信赖的导游人员，常常需要准备导游词，导游词具有极强的实...

合肥包公园导游词合肥包公园导游词　　包公园，位于安徽省合肥市芜湖路72号，始建于北宋嘉祐七年，是为纪念北宋著名清官包...

景点贵阳花溪公园导游词景点贵阳花溪公园导游词　　作为一位兢兢业业的旅游从业人员，时常需要用到导游词，借助导游词可以更好地宣...

孔庙导游词　　孔庙导游词（一）　　尊敬的各位来宾：　　你们好！我受旅游、接待部门的委托，对光临名城曲阜参观游览...

石家庄驼梁景区导游词石家庄驼梁景区导游词尊敬的各位游客：　　大家好！　　欢迎大家来到驼梁，我是中游旅行社的一名导游员，我...

介绍傣家竹楼导游词300 傣家竹楼是傣族固有的典型建筑。下层高约七八尺，四无遮栏，牛马拴束于柱上。上层近梯处有一露台，转进为长...

电视剧《乱世佳人》简介及经典... 电视剧《乱世佳人》简介及经典台词　　电视剧简介：　　《乱世佳人》亦可称为民国版《美人心计》，由唐嫣饰...

丹东鸭绿江导游词丹东鸭绿江导游词　　鸭绿江是我们中国和朝鲜的分界线，各位导游，请看下面的丹东鸭绿江导游词，希望可以帮...

幼儿园运动会闭幕式主持词幼儿园运动会闭幕式主持词　　主持人在台上表演的灵魂就表现在主持词中。随着社会一步步向前发展，各种场合...

70大寿主持词 70大寿主持词　　主持词的写作需要将主题贯穿于所有节目之中。现今社会在不断向前发展，主持人的需求越来...

个人领奖感谢词个人领奖感谢词（精选7篇）　　获得奖励或者嘉奖，不仅是一份荣誉，更是一份激励。你知道怎么写感谢词吗，...

重阳节经典致辞关于重阳节经典致辞（精选6篇）　　在生活、工作和学习中，大家都不可避免地会接触到致辞吧，致辞要求风格...

幼儿园元旦文艺汇演主持词男小主持：尊敬的家长，亲爱的老师女小主持：可爱的小朋友合：大家新年好!男小主持：春夏秋冬，黑夜清晨女...

大话西游降妖篇2台词大话西游降妖篇2台词　　导语：《西游伏妖篇》也是继春节档周星驰执导电影《美人鱼》中徐克客串表演之后，...

晚会活动主持词　　引导语：晚会最重要的一点就是主持，而有关晚会活动的主持词要怎么写呢？接下来是小编为你带来收集整理...