第七百四十六章计算机语言

第七百四十六章计算机语言 (第1/2页)

“或许还是需要进行人工干预，但是工作强度已经大大降低，我们可以通过拍照，扫描等方式，将生僻字的图片扫入计算机，让程序去分析它，最后得到标准点阵字，编码之后加入到字库当中，对字库进行扩充。”
　　
　　“要实现这个功能需要有几个前提，第一就是字库当中要有足够的样本，这个我们已经已经完成，因为我们现在已经有了四万个标准点阵字的字稿。”
　　
　　“还是拿《康熙字典》来举例，我们先将《康熙字典》上每一个单字的扫描图扫入文字识别系统，然后提取其字体参数特征，再将这些参数赋给已有的标准点阵字，让系统计算出根据这些参数产生的‘系统字’。”
　　
　　“再拿这些生成的‘系统字’，与‘扫描字’进行校验，通过四万个标准字生成的‘系统字’，去验证参数的代表性，最后将参数调整到最佳。”
　　
　　“得到参数体系之后，我们就能够将它套在扫描进来的生字上，最终得到《康熙字典》全部近六万个单字的标准点阵字，字库就从四万扩充到六万了。”
　　
　　“这个思路倒是新颖，然而却也是可行的。”麦明川点头：“不过还是有问题，就是存储和运算。”
　　
　　“我也拿《康熙字典》来举例，近六万个单字，就是近六万张图片，我们就拿一张图片五兆来计算，这就是300g的空间，这也太可怕了。”
　　
　　“那王院长觉得，这个系统多大的图片存储容量，可以被接受呢？”
　　
　　“一个g，”麦明川脱口而出，想了想觉得实在是有点欺负人：“最多最多，两个g。”
　　
　　1g是1024m，两百张5m的图片，两g就是400张。
　　
　　“也就是说，如果按照这个标准，这个系统能够一次同时完成四百个字的扫描分析和成字入库的工作？”
　　
　　“那还得分串行并行。”李红江已经上套，开始思索程序的工作方式了：“涉及到时间成本，学校也不可能将有限的计算资源全拿来做这事儿。”
　　
　　“那我们可不可以像上级求助呢？”周至问道：“我们先把基础工作做好，然后申请国家级的运算资源来完成它，有没有机会呢？”
　　
　　“国家资源那更紧张，全国无数单位排队呢。”麦明川苦笑着摇头。
　　
　　辜老说道：“那干脆这样，我们将工作再做细一点，肘子说的这个文字识别反向推算点阵字的程序咱们先缓一缓，第一步先集中精力把标准定出来。”
　　
　　“与此同时，我们这边，再把现在的四万字稿扩到七万。”
　　
　　“小李那边，抓紧先开发出读字稿的程序，咱们先把七万字稿的数字化工作完成。”
　　
　　“之后再拿着这七万汉字的数字化成就，去跟那个统一码联盟谈判，并且要留够下一步继续拓展的空间，力争让我们的大字库成为全球统一标准。”
　　
　　“有了这个大字库，咱们再制定出几个子集，满足国内国际不同应用场景的需求。到此我们的第一步工作是不是就算完成了？”
　　
　　“至于肘子说的文字识别，那也相当重要。”辜振铎补充道：“这个可是我们下一步搞典籍数字化的神器啊！”
　　
　　

（本章未完，请点击下一页继续阅读）

零点看书

第七百四十六章 计算机语言

第七百四十六章计算机语言