国家图书馆打造数字化图书馆

阅读: 评论:0

国家图书馆:打造大数据时代的数字图书馆
凤凰古城最美民宿近两年,“大数据”已经成为IT界继“云计算”之后最热门的词,伴随着大数据时代的到来 ,承载着知识存储、利用和开发重任的传统图书馆也开始向数字图书馆转型。数字图书馆时代的到来,给传统的图书馆模式带来了巨大挑战,从线下传统图书馆过渡到线上,需要解决的首要问题是数字化后的千万数量级书籍的数据存储问题。
国家图书馆中央控制室主任、总工程师于洪波表示,为实现国家图书馆全面数字化,目前国家图书馆正在进行一期维修改造,建成之后的数字化图书馆的非结构数据存储量将达到800TB左右。
迎接“数字图书馆时代”
9月中旬适合去哪里旅游
网络环境使图书馆赖以提供服务的资源基础以及图书馆和读者获取资源的方式都发生了根本性的变化,图书馆的馆藏建设已经从过去的实体馆藏建设延伸到了虚拟馆藏建设,数字化图书馆成为图书馆的未来发展方向。
在谈到数字化图书馆时,于洪波表示,“数字图书馆时代”可以理解为,数字时代的图书馆模式,应该是既有传统意义上的图书馆和读者,也有网络终端模式的图书馆和读者,它所带来的影响是方便、快捷、及时、有效。
作为互联网上重要的信息内容提供者,国家图书馆很早就意识到了自己在中文数字资源建设与服务方面的重要责任。从1987年起,国家图书馆开始致力于电子出版物的收集与馆藏书目数据库的建设,2000年起开始有计划地进行馆藏特资源的数字化建设。2005年10月,由国家图书馆主持建设的国家数字图书馆工程获得国务院批准开始建设,工程明确提出了建设世界上最大的中文数字信息保存基地和中文数字信息服务基地的目标。目前正在进行的一期维修改造工程完成后,建成的数字化图书馆的非结构数据存储量将达到800TB左右。
数字化图书馆发展的根本是馆藏资源数字化。于洪波认为,解决大数据问题是一个全球性的问题,目前,世界发达国家都在积极策划和运筹大数据,如果没有认识到这一问题,那么我们将再次在这方面落后,这样的落后必将在信息产业方面造成致命的缺陷。为了迎接大数据时代,实现馆藏资源的数字化是未来图书馆大数据战略的基础,不断扩充建设网络服务和其他服务手段,使之适合社会需求成为国家图书馆的目的。
数据存储面临的挑战
在大数据时代,图书馆具有了一定的大数据特征,图书馆的数据资源有所藏文献资源中的纸制纯印本、光盘资源、网络资源、数据库资源等结构化信息,也有日常读者信息、服务信息等非结构化信息,还包括图书馆自身建设的相关数据,这
些数据形成了大量的异构数据。此外,图书馆的信息资源总量日益庞大且每天在迅速增长。国家图书馆具有更加丰富的数字资源,其主要来源包括四个方面:一是接受缴送的数字资源,包括电子出版物和音像制品的缴送,随书/刊附送的电子出版物;二是购买的音像制品、中文光盘和网络数据库;三是自建中文书目、篇名、全文影像及多媒体资源库,以及对购买和缴送的音视频产品进行数字化转换;四是网络资源采集。
大数据时代的到来,改变了传统的IT架构与数据存储、利用机构,也对作为社会中储存信息知识、提供信息服务的信息中心的图书馆形成冲击和挑战。在信息环境下,信息产生的成本快速下降,产生的方式也多种多样,存在于社会空间中的信息数据量迅猛增长,但大数据时代更是会促使数据产生的范围、方式、途径发生翻天覆地的变化,人们的一举一动、一言一行、行为规律等都将产生出大量的半结构化、非结构化信息数据,信息数据的组成结构、类型格式、存在形态等都愈加复杂。大数据时代来临后,图书馆对这些复杂数据进行的应用、存储将有着极强的挑战性,如何来更好地解决大容量的存储成为重要问题。“现在国家图书馆大数据面临的问题是存储问题。”于洪波介绍说,图文、视频是现在的表现形式,但是实际上存储量比较大的就是视频内容,国家图书馆中央控制室视频存储数据量非常大,达800T到900T。视频内容很大,一个是数据块大,都是连续的,如果中间有存储不好,就可能出现马赛克显示不了。另外,存储量也比较大,最后它在存储当中占的内容也比较大,2011年IDC企业外部存储市场季度跟踪报告显示,到2020年将达到35ZB,是2011年1.2ZB的近29倍,这是增长的一个需求,这个量大到不可想象,再过几年数据量可能会更大。
深圳有几个区
未来存储的发展方向
国家图书馆中央控制室主任、总工程师于洪波表示,大数据存储有两方面的问题需要面对,一个是“存”,另一个是“用”。“存”讲的就是完整、持久,“用”的含义是及时、有效,这也是国家图书馆大数据存储面临和需要应对的问题。从目前来看,主要的解决办法是,由于纸质的传统文献的保存只有几百年的时间,同时和保存的环境、手段息息相关,而数字化的多种介质存储是持久保存的手段之一,所以传统纸质文献的数字化转变,是保存、传播和应用的基础。
国家图书馆的数据存储介质包括很多种,最早是磁带,其检索和经营开销很大,可能五年有一个存储。此外,磁盘驱动器用得很多。大磁盘阵列使用得也比较多,它的特点是,受到冲击以后可以保存,在高
热量的情况下,磁铁就会消失或者被破坏,这样容易造成存储量不容易保存,这是一个特点。但是存在一个问题就是,一般在每天10点左右,这一时间的读取次数能达上万次,读写速度快,体积大,但是因为有很多人在线,所以也容易遭受病毒的干扰。还有固态硬盘,它的存储功能比较好,但是有一定的局限性。光盘的存储好处比较多,不易被改写,刻录后内容永久写入,不易被篡改。还有一次性刻录光盘,也组成光盘组的阵列,叫自动长片点唱机,可以自己来调整,这是检索的方式。现在有一种光盘是蓝光光盘,保存年限大于50年,它与其他光盘的不同是永久保存比较理想。
目前国家图书馆的数据多以光存储为主,“以“光存储”数据的主要介质是“缩微胶片”,于洪波认为,这种存储形式的局限性很大,主要体现在传播和应用环节上,故此需要逐步转为以数字化存储为基础的模式上来,这样就可以形成“存”和“用”这两个问题的解决办法。
“光存储”是文献、资料数字化的一种表现形式,同“电”存储和“磁”存储相比,其特点为稳定、不能修改、抗击强电磁场和强磁电场干扰、抗击热冲击的能力也强于“磁”存储,同时可以完全抗击网络黑客和病毒的攻击,可以方便简洁地做到离线保存,并且复制、修复成本也较为低廉。于洪波表示,不仅仅是图书馆的存储,以后“光存储”的普及是未来“数据中心”面对的现实,当克服了“光存储”设备在技术层面的制约后,这种“光存储”的表现内容会逐步形成离线“存储环节”广泛应用的庞大规模。
由于电存储、磁存储的数据受到电磁冲击时易损毁,并且介质寿命也相近,大约是5到10年左右。而现在光盘的寿命在50年左右,国外正在开发寿命超过100年的光盘,但这种光盘还没有面世。
对于未来的存储方式,于洪波介绍说:“国家图书馆的需求是这样,都是大数据的存储,既需要考虑现实情况,也应该考虑到未来的发展趋势,抓住当前的机遇,使我们策划的方案具有前瞻性,不至于呈现在设计时就落伍的局面,这是一种考虑。未来和发展,一般存储的策略是要对长期存储数据至少三份拷贝,存储在两种不同的介质上。在目前已有的存储技术中,应该选择两种介质:磁介质加光介质,电介质和光介质,电介质和磁介质。现在还有另外一种方式就是胶片,模拟性的数字,这是上个
世纪初来做的,做得比较大,但是数字化程度很低,因此在传播方面稍微逊,具体差多少,业内人需要再研究一下。”
国家图书馆建成之后的数字化图书馆,将在数据存储方式上呈现对外应用、传播使用数
字化的网络传播,并且同传统的纸质及其他介质阅读相结合的复合表现形式,对内采用的存储形式为数字化和传统形式相结合的手段,组成相互支撑的存储和应用结构,从而服务于社会。
相关链接:
国家图书馆数字资源
国家图书馆自建的数字资源包括全文文本、全文图像、音频、视频等多种类型,截至2008年底,全文数据总量已超过1.15亿页。
中文古籍文献数字化四川周边两日游
截止2008年底,国家图书馆已经完成或正在进行的主要中文古籍文献数字化项目有:
湖南二日游哪里比较好玩馆藏地方志数字化 [。截至2008年底,已完成馆藏地方志全文影像6868种335万页,其中有2000种120余万页经过了全文文本转换。
馆藏拓片数字化v]。国家图书馆藏有历代甲骨、青铜器、石刻等类拓片3万余种,13万余件,内容也非常丰富。截至2008年底,已经完成元数据加工2.3万余条,影像2.9万余幅。
馆藏甲骨实物及拓片数字化。国家图书馆珍藏甲骨35651片,是全世界收藏甲骨最多的机构。截至2008年底,已完成甲骨实物影像6,075种1.06万幅,甲骨拓片影像5,273种6,463幅。
馆藏敦煌文献数字化。截至2008年底,国家图书馆已完成敦煌写卷820卷、2.3万拍的数字化加工工作,并已在互联网上向全球读者提供服务。
民国文献数字化
截至2008年底,国家图书馆已数字化完成607种734幅年画作品。由于民国文献纸张酸性较强,目前酸化和老化损毁状况非常严重,为了有效的保护和研究利用这部分文献,国家图书馆启动了民国期刊和民国图书的数字化项目。截至2008年底,已完成4535种8.6万期民国期刊的数字化加工工作,全文影像达504万页,完成11259种12075册民国图书的数字化加工工作,全文影像达286万页。
中文现代文献数字化
深圳哪里值得一游国家图书馆是中国国内博士论文的最大收藏地,此外,还收藏部分院校的硕士学位论文。国家图书馆于2002年开始进行学位论文数字化工作,2008年已完成13万册学位论文的数字化加工工作,全文影
像数据达1730万页。
除了上述文献数字化项目外,国家图书馆还进行了在线展览与在线讲座的制作工作,并对馆藏部分音频与视频资料进行了数字化转换,这些资源绝大部分已经在互联网上向全球用户提供免费服务。

本文发布于:2023-07-31 10:57:23,感谢您对本站的认可!

本文链接:http://www.035400.com/whly/3/558619.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

下一篇:中国图书馆
标签:数据   图书馆   数字化   资源   信息   馆藏   建设   数字
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2024-2030 Comsenz Inc.Powered by © 文化旅游网 滇ICP备2022007236号-403 联系QQ:1103060800网站地图