公司名称:九九信用 大象金服北京科技有限公司

联系人:张 先生 (CEO)

电话:010-62648216

传真:

手机:

NLPIR大数据技术自动语义提取关键词

发布时间:2017年12月08日

详细说明

  随着网络的发展,网络文本信息的数量程爆炸式增长,手工获取所需文本信息的难度日益增大,为了能够有效地处理海量的文本数据,需要在文本分类、文本聚类、自动文摘和信息检索等方向进行了大量的研究,而这些研究都涉及到一个关键而又基础的问题,即如何获取文本中的关键词。
  关键词是对文本主题信息的精炼,高度概括了文本的主要内容,能帮助用户快速理解文本的主旨,易于使用户判断出文本是否是自己所需的内容,从而提高信息访问和信息搜索的效率。在查询问句中,关键词代表了用户问句的主体含义。在问题分析时,提取问题中的关键词对于理解问题的语义至关重要。在信息检索中,需要从用户输入的问句中提取出对检索有用的关键词,关键词的提取的效果直接影响到信息检索的结果和答案的相似度计算与排序。
  NLPIR文本搜索与挖掘开发平台针对互联网内容处理的需要,融合了自然语言理解、网络搜索和文本挖掘的技术,提供了用于技术二次开发的基础工具集。
  NLPIR关键词提取能够在全面把握文章中心思想的基础上,提取出若干个代表文章语义内容的词汇或短语,相关结果可用于精化阅读、语义查询和快速匹配等。NLPIR主要采用交叉信息熵计算每个候选词的上下文条件熵,所处理的文档不受行业领域限制,且能够识别出新出现的新词语,所输出的词语可以配以权重。
  NLPIR文章关键词提取的主要特色在于:
  1、速度快:可以处理海量规模的网络文本数据,平均每小时处理至少50万篇文档。
  2、处理精准:Top N的分析结果往往能反映出该篇文章的主题特征。
  3、精准排序:关键词按照影响权重排序,可以输出权重值。
  4、开放式接口:文章关键词提取组件作为NLPIR的一部分,采用灵活的开发接口,可以方便地融入到用户的业务系统中,可以支持各种操作系统和各类调用语言。
  关键词提取技术已被广泛应用于新闻服务、查询服务等领域,并被证明能够在信息检索、自动摘要、文本分类等任务中发挥重要作用。在当下精准化、个性化推荐大行其道的时候,关键词提取技术可以全面、准确、真实的了解用户浏览行为数据信息或文章的主要内容信息,实现全景式、丰富化用户画像描述的同时,从而减少对用户的干扰。

九九信用 大象金服北京科技有限公司


联系人:张 先生 (CEO)
电 话:010-62648216
传 真:
手 机:
地 址:中国北京海淀区苏州街49-3号盈智大厦五层
邮 编:
网 址:http://jiuxinyong.qy6.com.cn(加入收藏)