互联网资讯汇聚服务

  所谓资讯汇聚系统,就是把分布在网络上的信息资源分门别类的汇聚整理,形成可供利用的资料库。
  资讯汇聚系统,能实现对传统网页(新闻网站、论坛BBS、贴吧等WEB1.0的网站)的采集,也能实现对WEB2.0 网页(微博、SNS等)的采集。目前,资讯汇聚系统正在研究对于新出现的比如手机网页、微信等新式的数据的采集。对于这些从不同的媒体采集来的数据,资讯汇聚系统能实现分散数据的结构化解析和存储,以及索引和搜索功能。并能实现和新奥特文稿系统、CMS网站内容管理系统、图文在线包装系统的对接,从而实现全媒体数据的汇聚。

系统架构

 

如上图所示:
第一步:从传统网站、WEB2.0网站、音视频网站、手机站点等抓取数据。
第二步:将这些数据分别存储在不同的服务器,并且将非结构化数据转化为结构化数据,并建立数据之间的关联关系。
第三步:对数据建立高效索引。
第四步:建立资讯汇聚方案,并将汇聚结果推送到不同客户端。

技术实现方案
要实现网络资源的汇聚和自动推送到网站的相关频道。需要以下的几个步骤:

信息采集
如果不能把信息采集下来,就不可能对信息进行整理和分类,也就无从汇聚和推送。
建立索引
对于采集下来的海量信息,如果不建立高效的索引,根本就不可能检索。因此,建立高效的索引是第二步。
建立分类方案
由于网站各个频道需要的信息是不一样,因此,需要对采集的信息进行分类,然后把相匹配的信息推送到相关的频道。
信息推送
对于分类好的信息,自动推送到网站的相关的频道。

技术特点

信息采集全面
1.能采集新闻、论坛、评论、贴吧、博客、报道等传统网站媒体的网页。
2.能采集微博、社交网站等WEB2.0交互式网络信息。
3.图片、视频、音频以及其他以附件形式存在的网络文档。

信息采集更精准
1.对于传统网页,能精确采集到信息的发布时间、信息的标题、信息正文、评论回复、作者、点击率、回复率等细粒度的信息。能对信息进行追本溯源。
2.对于微博、社交网等WEB2.0网络资源,能进行穿透式的采集:比如说,当采集了张三的信息,那么可以采集张三的收听者的信息,也能后采集到张三所收听到的人的信息。能够采集到信息的发布地、发布时间、发布正文、发布者的档案等深度信息。

信息采集更及时
采用多通道、多任务、多进程、多线程、以及多台服务器集群采集等措施,另外采用边采集边索引等模式,能保证信息的采集和推送的及时性。

独特的索引技术,有效地提升数据检索效率
独特的索引技术,使海量检索的效率大大的提升。这也保证了信息的及时性。

独特的分类语法,能满足分类检索的随心所欲
由于网站随时可能开辟新的频道,新的频道就需要有相应得信息推送过去。我们独特的分类检索配置语法,可以随心所欲的配置分类,然后,该分类所检索到的信息就自动推送到对应得频道。这个功能,大大的提升了系统得灵活性和适应性。

已经配置了大量的网站采集源,并采集了大量的数据
包括人民网、新华网、新浪网、搜狐网、天涯社区、凤凰网等国际国内知名的网站和湖北本地著名的网站都已经纳入采集范围,并且已经采集了大量数据。

已经建立了包括腾讯、新浪、搜狐、网易等四大微博,人人网、开心网等社交网站的大量知名用户库,随时可以调用并采集这些用户所发布的信息。

微博群发功能
可以向微博群发信息,这是一个推荐功能。比如说需要将网台的某个频道知名度扩大,可以将相关的信息群发到微博上去。


系统对接
将采集和检索的内容推送到CMS系统实现对接;
将采集的新闻资讯与文稿系统对接;
将采集的新闻、微博、图片视频等与图文包装系统对接。


应用案例
湖北网络电视台;
大连台新闻频道、大连一台;
黑龙江电视台点评系统等。

文章关键词:资讯汇聚
企业微平台
京公网安备110108002291号 京ICP备08011363号 版权所有2008-2016
新奥特(北京)视频技术有限公司 (China Digital Video (Beijing) Limited)