深圳易捷网络科技注册咨询网-jiujiuya.com.cn 返回首页

基于SNS文本数据挖掘:分析关键词分词技巧

信息来源:深圳市易捷网络科技有限公司
信息发布时间:2024/12/23

作为中文系应用语言学专业的学生以及一名数学 Geek ,我非常热衷于用计算的方法去分析汉语资料。汉语是一种独特而神奇的语言。对汉语资料进行自然语言处理时,我们会遇到很多其他语言不会有的困难,比如分词 ——汉语的词与词之间没有空格,那计算机怎么才知道,已结婚的和尚未结婚的青年都要实行计划生育究竟说的是已/结婚/的/和/尚未/结婚/的/青年,还是已/结婚/的/和尚/未/结婚/的/青年呢?这就是所谓的分词歧义难题。不过,现在很多语言模型已经能比较漂亮地解决这一问题了。但在中文分词领域里,还有一个比分词歧义更令人头疼的东西——未登录词。中文没有首字母大写,专名号也被取消了,这叫计算机如何辨认人名地名之类的东西?更惨的则是机构名、品牌名、专业名词、缩略语、网络新词等等,它们的产生机制似乎完全无规律可寻。最近十年来,中文分词领域都在集中攻克这一难关。自动发现新词成为了关键的环节。

挖掘新词的传统方法是,先对文本进行分词,然后猜测未能成功匹配的剩余片段就是新词。这似乎陷入了一个怪圈:分词的准确性本身就依赖于词库的完整性,如果词库中根本没有新词,我们又怎么能信任分词结果呢?此时,一种大胆的想法是,首先不依赖于任何已有的词库,仅仅根据词的共同特征,将一段大规模语料中可能成词的文本片段全部提取出来,不管它是新词还是旧词。然后,再把所有抽出来的词和已有词库进行比较,不就能找出新词了吗?有了抽词算法后,我们还能以词为单位做更多有趣的数据挖掘工作。这里,我所选用的语料是人人网 2011 年 12 月前半个月部分用户的状态。非常感谢人人网提供这份极具价值的网络语料。

要想从一段文本中抽出词来,我们的第一个问题就是,怎样的文本片段才算一个词?大家想到的第一个标准或许是,看这个文本片段出现的次数是否足够多。我们可以把所有出现频数超过某个阈值的片段提取出来,作为该语料中的词汇输出。不过,光是出现频数高还不够,一个经常出现的文本片段有可能不是一个词,而是多个词构成的词组。在人人网用户状态中,的电影出现了389 次,电影院只出现了175 次,然而我们却更倾向于把电影院当作一个词,因为直觉上看,电影和院凝固得更紧一些。

为了证明电影院一词的内部凝固程度确实很高,我们可以计算一下,如果电影和院真的是各自独立地在文本中随机出现,它俩正好拼到一起的概率会有多小。在整个 2400 万字的数据中,电影一共出现了 2774 次,出现的概率约为 0.000113 。院字则出现了 4797 次,出现的概率约为 0.0001969 。如果两者之间真的毫无关系,它们恰好拼在了一起的概率就应该是 0.000113 × 0.0001969 ,约为 2.223 × 10-8 次方。但事实上,电影院在语料中一共出现了 175 次,出现概率约为 7.183 × 10-6 次方,是预测值的 300 多倍。类似地,统计可得的字的出现概率约为 0.0166 ,因而的和电影随机组合到了一起的理论概率值为 0.0166 × 0.000113 ,约为 1.875 × 10-6 ,这与的电影出现的真实概率很接近——真实概率约为 1.6 × 10-5 次方,是预测值的 8.5 倍。计算结果表明,电影院更可能是一个有意义的搭配,而的电影则更像是的和电影这两个成分偶然拼到一起的。

当然,作为一个无知识库的抽词程序,我们并不知道电影院是电影加院得来的,也并不知道的电影是的加上电影得来的。错误的切分方法会过高地估计该片段的凝合程度。如果我们把电影院看作是电加影院所得,由此得到的凝合程度会更高一些。因此,为了算出一个文本片段的凝合程度,我们需要枚举它的凝合方式——这个文本片段是由哪两部分组合而来的。令 p(x) 为文本片段 x 在整个语料中出现的概率,那么我们定义电影院的凝合程度就是 p(电影院) 与 p(电) · p(影院) 比值和 p(电影院) 与 p(电影) · p(院) 的比值中的较小值,的电影的凝合程度则是 p(的电影) 分别除以 p(的) · p(电影) 和 p(的电) · p(影) 所得的商的较小值。可以想到,凝合程度最高的文本片段就是诸如蝙蝠、蜘蛛、彷徨、忐忑、玫瑰之类的词了,这些词里的每一个字几乎总是会和另一个字同时出现,从不在其他场合中使用。

光看文本片段内部的凝合程度还不够,我们还需要从整体来看它在外部的表现。考虑被子和辈子这两个片段。我们可以说买被子、盖被子、 进被子、好被子、这被子等等,在被子前面加各种字;但辈子的用法却非常固定,除了一辈子、这辈子、上辈子、下辈子,基本上辈子前面不能加别的字了。辈子这个文本片段左边可以出现的字太有限,以至于直觉上我们可能会认为,辈子并不单独成词,真正成词的其实是 一辈子、这辈子之类的整体。可见,文本片段的自由运用程度也是判断它是否成词的重要标准。如果一个文本片段能够算作一个词的话,它应该能够灵活地出现在各种不同的环境中,具有非常丰富的左邻字集合和右邻字集合。

信息熵是一个非常神奇的概念,它能够反映知道一个事件的结果后平均会给你带来多大的信息量。如果某个结果的发生概率为 p ,当你知道它确实发生了,你得到的信息量就被定义为 - log(p) 。 p 越小,你得到的信息量就越大。如果一颗骰子的六个面分别是 1 、 1 、 1 、 2 、 2 、 3 ,那么你知道了投掷的结果是 1 时可能并不会那么吃惊,它给你带来的信息量是 - log(1/2) ,约为 0.693 。知道投掷结果是 2 ,给你带来的信息量则是 - log(1/3) ≈ 1.0986 。知道投掷结果是 3 ,给你带来的信息量则有 - log(1/6) ≈ 1.79 。但是,你只有 1/2 的机会得到 0.693 的信息量,只有 1/3 的机会得到 1.0986 的信息量,只有 1/6 的机会得到 1.79 的信息量,因而平均情况下你会得到 0.693/2 + 1.0986/3 + 1.79/6 ≈ 1.0114 的信息量。这个 1.0114 就是那颗骰子的信息熵。现在,假如某颗骰子有 100 个面,其中 99 个面都是 1 ,只有一个面上写的 2 

知道骰子的抛掷结果是 2 会给你带来一个巨大无比的信息量,它等于 - log(1/100) ,约为 4.605 ;但你只有百分之一的概率获取到这么大的信息量,其他情况下你只能得到 - log(99/100) ≈ 0.01005 的信息量。平均情况下,你只能获得 0.056 的信息量,这就是这颗骰子的信息熵。再考虑一个最极端的情况:如果一颗骰子的六个面都是 1 ,投掷它不会给你带来任何信息,它的信息熵为 - log(1) = 0 。什么时候信息熵会更大呢?换句话说,发生了怎样的事件之后,你最想问一下它的结果如何?直觉上看,当然就是那些结果最不确定的事件。没错,信息熵直观地反映了一个事件的结果有多么的随机。

相关行业资讯

1、利用内链的布局来提高网站的流量
2、网站建设者们应懂得的心理学知识总结
3、企业官网建设一般都需要遵循哪几个原则
4、关于seo优化的一般步骤有哪些
5、交换友链当中的一些陷阱
6、百度来路跳转造成的影响及处理方法
7、中小企业网站建设存在的问题
8、SEO优化中,几点挑选关键词的参考
9、怎样规划一个合理的网站推行计划呢
10、网站建设重在后期的维护
11、看百度的12个优化手段,跟百度学推广优化
12、网站建设前需明确建站的目的
13、网站监控:百度云观测、360网站监控等体验
14、网站改版的推广优化注意事项
15、企业网站seo关键词排名优化为什么见效慢?
16、网页设计
17、如何做好推广优化外链
18、网站建设需要准备哪些资料
19、在做网络推广前需做好哪些准备?
20、做网站之前企业该怎样进行谋划
21、2017年企业网站的搜索引擎优化
22、开发网站需要注意哪些问题
23、全球爆发电脑勒索病毒:幕后开发者还是谜
24、谈谈我5个月的SEO实战经验
25、外链不是最重要的,有用户才是王道
26、网站优化如何有效的堆砌关键词?
27、怎样彻底杜绝论坛垃圾广告
28、这些都是网站建设时需要注意的基本细节
29、怎么做竞价推广账户报表
30、网站改版需要注意哪些问题
31、对于百度竞价推广老账户的优化方案怎么写
32、网站域名的意义
33、关于做SEO优化网站常范的几个错误
34、关键词的排名浮动问题
35、百度熊掌号对网站建设功能发展方向有何引导作用
36、软文的作用是什么
37、网站设计之如何提高网站的吸引力
38、论坛社区运营推广方法
39、网站建好后该如何更好的维护
40、百度熊掌号功能解析
41、SEO优化人员需要懂搜索引擎算法吗?
42、只有互联网技术真正的惠及所有人时每个个体才能从中受益
43、推广关键词排名不上左侧怎么办
44、新手如何面对待已经泛滥的推广优化文章
45、论网页设计中图与文的关系
46、seo文章关键词怎么布局才有效果
47、如果没有搜索引擎还需要做网站优化吗
48、企业网站建设外包需与建设公司沟通的问题
49、看深圳网站建设公司如何打造有特色的企业网站
50、百度快速排名是如何实现快速排名的

相关视频推荐

自动化行业网站制作焊锡机/点胶机/螺丝机网站
企业网站制作新模式全部仅需800元/年
如何提高企叫网站打开速度
公司网站到期了该怎小续费
企业为什么必须要做一网站
企业网站的导航栏一般要规划哪些栏目
国际物流FBA物流网站建设深圳易捷网站公司公司
银制品金银器网站建设深圳易捷网站公司
包装印刷行业网站设计
膜结构公司网站设计
工商财务公司网站设计
购买一个域名需要多少钱
企业网站建设云虚拟主机需要多少钱
财务公言的网站怎么做才能显示在搜索引擎的首页
网站建设一站式服务
深圳网站建设公司网站排行榜
深圳市易捷网络科技有限公司版权所有    粤ICP备2022153140号