灵玖软件:大数据文本智能新词发现
发布时间:2017年12月15日
详细说明
随着信息时代的到来,互联网正深刻地影响着人们的学习、工作、生活娱乐等各个方面,参与的人数在飞快的增长,每日UGC量非常可观。也因此经常制造爆炸性新闻,新词的制造和流行也频频出现。不同的社交圈内,由于话题性的不同,其新词分布也不同,所以直接引入搜狗等输入法的新词,会造成新词污染。因此,往往需要基于自营社交圈的语料库做新词发现,才能实现更精确的文本语义分析。
大数据,或称巨量资料,是指所涉及的资料量规模巨大,以致无法通过目前主流软件工具在合理时间内撷取、管理、处理并整理成为帮助企业达致经营决策目的的资讯。大数据技术不仅能够提高人们利用数据的效率,而且能够实现数据的再利用和重复利用,进而大大降低交易成本,提升人们开发自我潜能的空间。人们可以低成本或零成本进行事物信息全息式的纵向历史比对和横向现实比对。大数据技术自身不仅能够迅速衍生为新兴信息产业,还可以同云计算、物联网和智慧工程技术联动,支撑一个信息技术的新时代。
NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。开发平台由多个中间件组成,各个中间件API可以无缝地融合到客户的各类复杂应用系统之中。
NLPIR智能新词自动发现技术能够识别出词典中没有出现过的词汇、短语、命名实体、流行用语,是语言文献分析方面的一把利器。新词发现脱胎于语言自动分词技术,又是对分词技术的有效提升和补充。
灵玖采用基于语义的统计语言模型,所处理的文档不受行业领域限制,能够有效地挖掘出新出现的特征词汇,所输出的词汇可以配以权重。
新词发现中间件的主要特色在于:
1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少60万篇文档;
2、处理精准:Top N的分析结果往往能反映出当时的时事流行语和热点实体,适合于舆情热点计算;与国际上著名厂商的技术相比,各项指标远远领先,或许是灵玖更懂中文吧;
3、精准排序:新词汇按照影响权重排序,可以输出权重值;
5、开放式接口:新词发现组件作为NLPIR文本语义挖掘系统的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统,各类调用语言。
新词发现组件可以应用于文本挖掘、知识管理、词典编辑、舆情监测等多种应用中。
随着互联网技术发展,网络信息的大量出现,新的词语如雨后春笋般涌现在我们的生活之中,它们真实地反映了社会和经济的飞速发展以及对外交流的日渐频繁。近年来随着互联网的普遍使用和蓬勃发展,大量的新词和网络用语更是层出不穷。对社会政治、经济