清华同方TPI信息资源整合解决方案
需求分析
在政府、企业、科研院所内部都广泛存在着各种形式的信息资源,如何对这些资源进行整合,有效保护和利用信息资源,并向用户提供一站式检索服务成为关键。
(1) 对互联网上有用的信息和数据进行定向采集,存储到本地,把庞大的“互联网资源”有效“整合”到本单位的信息资源库中。
(2) 大量有用的纸质历史数据,出于保护和利用的考虑,都需要实现数字化,进行标引和分类,实现有序的内容组织和高效的全文检索。
(3) 从关系数据库的业务系统中获取有用数据,由于关系数据库比较成熟,而且提供了强大的权限认证和结构化数据的处理能力,有必要与信息资源进行统一整合。
(4) 分布部署在操作系统下的文件、电子邮件、图片等非结构化数据,比如直接存放在指定目录下文件,这些数据文件具有不同的密级和权限。
(5) 还有大量专用数据库系统中的数据,如各种商用信息资源库和自建的一些特色资源库。
待解决问题
数据采集
要实现互联网上有用的信息资源、纸质文档、电子文档快速、有序的采集和组织。
数据统一存储
要实现资源整合,必须在技术上彻底解决数据统一存储,统一管理问题,保证数据的一致性,同时利用相关系统的健壮性,保证数据的安全性。
统一认证
解决不同系统的统一认证问题。
数据迁移
要实施数据的统一存储、统一管理和统一认证,需要把一些不同类型的数据迁移到指定的数据库管理系统中。
(1) 能够自动的迁移数据,实现无人值守。
(2) 不能对现有的核心任务系统产生结构性的改变,也就是尽可能不影响现有的业务系统。
统一发布
系统不同,发布风格和使用方式各异,为了解决这一问题,必须进行资源或信息的统一发布。
统一检索
屏蔽所有的检索细节,把不同的检索统一成一种检索,使业务人员能够高效地利用统一检索界面,迅速获取自己需要的数据,专注自己的业务。
解决方案
清华同方知网(北京)技术有限公司自主研发的TPI系列软件是基于非结构化文档管理而开发的大型智能内容管理系统。该系统以全文检索数据库为核心,采用流行的B/S浏览器的检索方式,先进的C/S架构,能够同时管理文字、图片、多媒体、电子档案等信息,并提供全文检索服务,支持网页的动态发布,支持分级权限认证。
系统功能简介
方案主要包括以下5方面建设内容:数据采集模块、数据迁移模块、资源管理模块、资源发布模块、信息检索模块。各个模块协调工作,来实现软件系统的所有功能。其中资源管理模块包括全文检索管理系统和内容管理系统。
应用系统的功能模块图如图2-1所示。

(1) 数据采集模块
数据采集模块的主要功能是实时采集、监控网站的内容,对采集到的信息进行过滤和自动分类,最终将需要的内容及时发布出来,实现信息检索。
比如定向抓取某一些网站网页的数据,用户只需要设定要抓取站点的首页地址,程序就会按设定的站点下载相应的网页并传给后台处理程序作进一步的处理。并根据设定的更新周期定期对各站点上新发布的网页或者更新了的网页进行及时抓取。
对于纸质文档,如技术文档和政府报告,通过扫描、OCR识别、编改、标引、分类、检查、入库进行加工,并提供全文检索;
对于大量电子文档,如Word、PDF等文档,通过整编、标引、分类、检查、入库进行加工,即可提供全文检索。
(2)数据迁移模块
系统通过数据迁移模块将一些数据转换成KBASE数据源。
数据来源主要是:
a、关系数据库(SQLServer、Oracle、IBM DB2等)。
b、专用数据库,诸如国内某些厂商提供的数据库。
c、文件系统:格式可能是文本、XML、Word文档、PDF及PPT 文件等。这些信息有不同的安全访问级别、对不同的用户需控制其访问的信息内容,要求做到文档级别的安全性管理。
d、数据采集模块采集的页面信息。
e、其他非结构化的数据: Lotus Domino、Microsoft Exchange
(3)资源管理模块
资源管理模块包括全文检索管理系统和内容管理系统。
全文检索管理系统为用户提供全文数据存储和全文检索管理功能。它是以管理非结构化数据对象为主,具备智能信息处理能力,以中文信息处理为特色的专用数据库管理系统,该系统需要对异构数据源提供统一访问和统一管理的手段,需要直接支持Z35.90协议、OpenURL协议、OAI协议,并提供通用数据访问网关,可以统一访问所有Web数据源。
内容管理系统是建立在全文检索管理系统之上的实际应用系统,为用户提供对数据库的信息管理、用户管理、权限管理、分类导航、记录管理、数字对象DOI管理等功能。
(4)信息检索模块
信息检索模块是用户能否有效利用平台的重要环节,对网络上各种不同种类的数据库可以有自己的检索风格,也可以与别的数据库形成统一的跨库检索。
(5)资源发布模块
资源发布模块是系统对外服务的窗口,其建设内容应该包含:统一异构检索、支持标准的OpenURL、Z39.50、Portlet、SAML、Web Services、ILL协议,系统包含多种发布风格,支持多种导航等功能。
基本业务流程
系统的业务流程主要包括数据采集、数据迁移、资源管理、资源发布、信息检索等,基本业务流程图如下图2-2所示。

具体来说,互联网上的页面信息通过数据采集模块进行采集,得到数据,并存放到KBase数据库中;专用数据库、关系数据库和文件等其他数据通过数据迁移模块转换为KBase数据库的数据资源。通过统一认证管理模块对数据设置分级权限。将数据通过资源管理模块进行统一管理、再进一步应用资源发布模块将信息发布到Web上,配合信息检索模块实现资源的检索功能。
方案特点
自主研发的大型国产文档数据库性能优异
– 安全与标准共存
自主研发数据库拥有其良好的安全性,同时它也支持众多的国际标准协议,并提供完善的二次开发的标准接口SDK,指挥调度、图像监控等第三方程序可轻松利用接口SDK与服务器端进行数据的交互;
– 统一管理与统一维护
无须第三方数据库系统,在降低成本的同时,更便于统一培训、统一管理、统一维护;
– 专业性能优越
数据库单库容量可达8T,记录条数可达40亿×40亿条;
数据检索查询速度业界领先,可达500G/秒;
拥有众多特有功能,如复合字段,支持自定义。
B/S与C/S架构相结合
– 提供门户网站
通过TPI的建库发布,即可提供一个政务、办公、信息采集处理等一体化的Web综合性门户网站;
– 强大功能与易用性并重
– 支持灵活的C/S架构
TPI系统的客户端,可使用桌面程序与服务器建立C/S连接,进行数据的交互和处理;
内嵌实用化的智能信息处理平台
– 实用化的自动分类、自动标引、自动摘要技术;
– 海量概念关系词典、海量样本库;
– 高效的内容分析过滤系统;
细节功能齐全强大
– Web在线提交可提交附件,支持任何格式的文件;
– 支持自动发布数据库,随时更改发布样式,并可动态发布网站,体现特色支持;
– 对已有的纸质文档可进行扫描加工,通过OCR进行图形文字识别并入库;
– 覆盖文本、图片、音频、视频等各种媒体类型;
- 最新文章
- TurboCRM中的销售漏斗管理解决方案[01-31]
- 企业资源计划系统JH-ERP解决方案[01-31]
- 武汉菲旺软件制造业应用解决方案[01-31]
- 上海聚联网吧落婿华硕网络解决方案[01-31]
- 丽台发布专业图形解决方案Quadro Plex[01-31]
- 基于Web服务的应用、解决方案和开发平台[01-31]
- 相关文章
- TurboCRM中的销售漏斗管理解决方案[01-31]
- 企业资源计划系统JH-ERP解决方案[01-31]
- 武汉菲旺软件制造业应用解决方案[01-31]
- 上海聚联网吧落婿华硕网络解决方案[01-31]
- 丽台发布专业图形解决方案Quadro Plex[01-31]
- 基于Web服务的应用、解决方案和开发平台[01-31]
