专注智能物联一站式智慧生活硬件、软件服务平台
电话400-8797-650
您的位置:主页 > 软件开发 > 信息发布 >

联系我们

24小时热线: 400-8797-650
电话:023-68680096 手机:185 2345 6000           180 0233 3332 邮箱:869889880@qq.com

安卓信息发布

来源:公司小编 更新时间:2020-03-07 点击次数:
信息发布是LBS面向用户终端的主要信息发送方式,是用户获取位置及相关信息的重要途径。随着Web技术的迅猛发展,信息发布技术也从以往的广播服务机制逐步向推送服务机制发展。本节主要介绍信息广播、信息定制、信息抽取和信息推送服务的有关内容。


信息定制是用户对信息发布提出的要求,而信息抽取则是信息处理系统针对用户要求对底层数据进行的数据处理过程。

特别是随着Internet的迅猛发展,Web已经成为一个巨大的信息源。随着Web信息数量的快速增长,如何从Web中抽取出所需要的信息,就成为了互联网信息搜索研究领域中一个重要的研究课题。Web信息抽取是指从Web页面所包含的无结构、半结构或者

结构化的信息中识别用户感兴趣的数据,并将其转化为结构和语义更为清晰的格式的Web页面信息抽取的过程。


1.信息抽取的概念

信息抽取(Information Extraction,IE)是从给定自由文本或半结构化文本中抽取预先指定的实体、关系和事件等事实信息,形成具有清晰语义信息的结构化文本的技术。

信息抽取起源于文本理解。从自然文本中获取结构化信息的研究最早开始于20世纪60年代中期,被看作是信息抽取技术的初始研究。信息抽取的目的就是要让有用的信息以统一的形式集成在一起。Web信息抽取系统对网页中的各种结构数据进行抽取、筛

选,并作语义化的处理,将生成的语义数据存入知识库。近几年,信息抽取技术的研究与应用更为活跃。在研究方面,主要侧重于以下几方面:利用机器学习技术增强系统的可移植能力,探索深层理解技术,篇章分析技术,多语言文本处理能力,Web信息

抽取以及对时间信息的处理等。


2.信息抽取技术

(1)基于统计的技术

基于统计的方法是通过统计各个标签所包含的信息量或链接文本与普通文本的比值来获取网页的主题信息。这种方法克服了数据源的限制,并不只针对某一类网页,具有一定的普遍性。

(2)基于视觉特征的技术

在视觉上相关的两个对象在结构上有可能差距很远。因此,仅仅从代码的角度去分析其主题信息是不科学的,因而出现了结合页面的视觉特征来抽取信息的方法。

(3)基于DOM树结构的技术

在Web信息抽取中可以在网页默认的树结构的基础上通过一些常见的针对树的操作,从而总结归纳出待抽取部分的特征。基于DOM树结构的技术克服了对网页数据源的限制,可以用来处理各种类型的单正文体和多正文体页面,其操作过程相对于基于视觉的

方法更加易于实现。在基于DOM树结构的抽取技术领域有许多成型的系统和经典算法,如DSE、MDR和Road Runner等算法。


(4)基于模板的技术

互联网上存在着大量通过读取数据库数据然后填充到统一模板的方式自动生成的网页,针对这类具有模板的网页产生了一种基于模板的抽取技术。该技术通过对产生于同一模板的网页的对比分析总结出一个通用的抽取模板,从而免去了对众多网页进行重复

处理的繁琐过程。


3.信息抽取技术比较

(1)自动化程度

基于统计的技术和基于视觉特征的技术在多数情况下都涉及对待抽取内容本身进行区域划分等处理,需要进行人工干预,因此,操作人员的主观行为可能会造成区域划分不合理,从而直接影响信息抽取的效果。基于模板的技术需要依赖于表示待抽取位置的

节点串,通常需要针对某一类待抽取对象进行分析和标记,总结出一个统一的模板节点串。尽管利用模板来抽取信息较为便捷,但生成模板的过程却需要大量的人工操作。基于DOM树结构的技术针对Web网页本身的结构优势,通过对网页树进行对比操作,

就可以确定页面内主题信息的位置进而实现信息的抽取,极少受到操作者主观因素的影响。


(2)适用范围

基于统计的技术适用于以文字为主题并且文字部分相对于其他部分来讲具有明显数量优势的一类对象,针对不同的对象应用不同的阈值。基于视觉特征的技术过多地依赖对象的组织结构,因此比较适用于结构清晰、符合一般设计规则并且没有过多标签错误

的页面。基于DOM树的技术对对象类型没有限制,对于出自同一个网站并且具有相似结构的页面都能进行处理。基于模板的技术适用于相似度较大的页面,如通过动态查询数据库生成的页面,并且只能针对单正文体网页。


(3)复杂性

基于统计的技术在理论上易于实现,但其难点在于确定一个合理的阈值。阈值的确定方法会对主题对象的确定产生直接的影响,并且对于不同种类的对象必须分别讨论阈值。基于视觉特征的技术对对象的分块更加注重可视化信息的组织形式。基于DOM树结

构的技术不需要再对抽取对象进行分块处理,可以直接通过对比得出主题信息区域,但却需要对每个对象都进行同样的处理,没有充分利用已有的结果总结出针对同类相似对象进行处理的统一方法。基于模板的技术免去了对同类对象的重复操作,针对相对

象总结出统一的抽取模板,但在模板的生成方法和模板通用性方面还有待于改善。
    办公地址:重庆市九龙坡区石坪桥横街特16号 Special No. 16 Hengjie Street, Shiping Bridge, Jiulongpo District, Chongqing 工厂地址:重庆市巴南区界石镇石美大道66号曙光江南楼宇产业园 No. 66 Shimei Avenue, Jieshi Town, Banan District, Chongqing City 版权所有@ 重庆原始人科技有限公司 ICP备案编号:渝ICP备15002314号-2

    服务热线 400-8797-650

    24h服务热线 023-68680096

    查看更多详情
    友情链接: 百度 申请友情连接+