• 说文解字下载 > 目前唯一可在微软平台上支持超大字符集
  • 目前唯一可在微软平台上支持超大字符集

    免费下载 下载该文档 文档格式:DOC   更新时间:2005-09-02   下载次数:0   点击次数:2
    文档基本属性
    文档语言:Simplified Chinese
    文档格式:doc
    文档作者:戴苗
    关键词:
    主题:
    备注:
    点击这里显示更多文档属性

    目前唯一可在微软平台上支持超大字符集
    可进行自然语言全文检索的
    实现编辑功能的典籍类数据库
    龙 语 瀚 堂 典 籍 数 据 库
    社科文献出版社
    北京时代瀚堂科技有限公司
    北京龙戴特信息技术有限公司
    联合制作
    一,龙语瀚堂典籍数据库开发缘起
    一,古籍整理与研究的现状
    随着现代计算机技术的发展和人们对传统文化的重视,在中国传统文化领域里利用信息技术对古籍
    数据库建设的工作得到高度重视和快速发展.众所周知,传统的二字节编码技术只能处理2万多汉字,而
    汉字在古籍中种类总量超过五万,这还没有包括甲骨文,金文,简帛等出土文献研究中使用的无法隶定的
    汉字.因此,现有的计算机技术在使部分古籍实现了数字化,网络化的同时却依然对大量的生僻字,古字
    束手无策.就像我们在探究汉字起源时所经常用到的《说文解字》,《康熙字典》等字书类,小学类古籍就
    是因为含有大量的生僻字,至今仍无法很好的实现通用的数字化版本,更有大量甲骨文,金文等历史文献,
    仍然处在手工化研究的阶段.研究人员在遇到电脑上无法检索或编辑的生僻字的时候,往往利用造字,利
    用符号表示,利用手工制作卡片,利用语言对字的组成的描述等手段来表述,从而给学术之间的交流和传
    播带来了极大的不便.
    二,目前古籍数据库的应用现状
    数据库供应商和机构自建是目前古籍类数据库资源建设的两个主要渠道.常见的古籍数据库有《国学宝典》,《中国基本古籍库》,《四库全书》等.这些古籍数据库均是以资源量取胜.《国学宝典》收录3800余套历代典籍,《中国基本古籍库》更是以万余套古籍的收纳成为目前国内最大的古籍数据库.
    我们在肯定这些数据库对古籍数字化的贡献和典范作用的同时,不可否认的是这些它们在技术上的瓶
    颈——对于生僻字的处理没有达到完全数字化,使其在内容方面有着不可避免的缺陷——对生僻汉字出现频率较高的字书类,小学类,金文类等古籍的处理均被长期搁置.
    汉字经过数千年的发展和演化,目前流传下来的总数量大约7万左右,大量的汉字由于使用人群和领
    域的狭窄,被归结为"死字".但是这些生僻汉字大量的存在于中国的古代典籍中,与常用汉字一起构成"汉字"这一中华文明的载体,它们对于历史和文明的考证有着不可或缺的作用,其本身也是文化遗产的重要组成部分.
    在一般的古籍中约有1‰的汉字属这类"死字",而在诸如《说文解字》等小学类古籍中,它们出现的
    频率甚至高达3%以上!因此,舍弃了生僻字而建构的这些中文知识库都不是真正完整的!
    二,龙语瀚堂典籍数据库开发意义
    一,龙语瀚堂典籍数据库标志着汉学研究进入四字节时代
    为了解决古汉语数字化处理的瓶颈问题,人们在编码和计算机技术的结合方面做了很多的工作.首先,
    大量的生僻字已经被置于四字节的编码区并确定了统一编码.其次,在微软的Office XP简体中文版中也预装了四字节的字库.《龙语瀚堂典籍数据库》处理系统正是在此基础上,采用了基于Unicode 的四字节编码和自然语言全文检索的典籍文献数字化构建技术,解决了四字节实际应用中的一系列相关问题,从而使四字节技术真正得到开发和应用,不但结束了古籍研究手工抄写,图片替代,生硬造字的历史,也标志着计算机汉字处理开始进入到了四字节字符的领域.由于该系统使用了国际通用的基于Unicode 的文字编码,使得它不但能够很好地支持二字节编码的常用汉字,而且彻底突破了古籍整理和研究中生僻汉字数字化的瓶颈,开创性地实现了对所有汉字通用的典籍文献数字化.
    二,建立在数据库层级的学术研究的意义
    在用户群较为集中的高校领域内,以往的学习和研究,往往人手一册《说文解字》或《集韵》,《广韵》,
    在研究的过程中,无论是学生还是老师,总是处于一本一本翻书查找资料,手工加书签,做卡片的过程,更何况面临大量的造字工作.而当关于该学科所有的相关资料和典籍集合成库的时候,使用者不但可以自由的浏览,检索,下载和编辑,同时数据库本身的统计功能更可以使以往繁复的查询工作在毫秒间完成,大大减少研究者的工作量,例如可以瞬时得到关于《康熙字典》中对于《五音集韵》的引用次数是948次.除此之外更为可贵的是,建立在数据库层级的研究往往会延伸出更多地角度和发掘出更多的研究领域.后来者之所以能超越前人,除了对前人成果的继承之外,更需要有独特而客观的视角和发现.这一点对于五千年没有发生断层的中国传统文化的研究具有极其重要的意义.

    下一页

  • 下载地址 (推荐使用迅雷下载地址,速度快,支持断点续传)
  • 免费下载 DOC格式下载
  • 您可能感兴趣的
  • 说文解字电子书下载  说文解字视频下载  说文解字注下载  说文解字白话本下载  免费下载说文解字  说文解字txt下载  许慎说文解字下载  说文解字频道节目  说文解字频道大运气