技術(shù)領(lǐng)域
[0001] 本
發(fā)明提供關(guān)于資料庫的檢索與配置技術(shù),尤指一種能利用漢字外觀特性來使?jié)h字資料庫更容易為人所查詢、檢索的資料庫檢索系統(tǒng)及配置方法。
背景技術(shù)
[0002] 世界上最古老的三大文字系統(tǒng)的一包括漢字、古埃及的圣書字、蘇美爾人的楔形文字,其中漢字為唯一沿用至今的文字。中國文化源遠流傳,現(xiàn)代漢字的中文體大致分成簡體中文與繁體中文兩個體系。前者主要用于中國大陸以及新加坡、
馬來西亞等東南亞國家,而后者主要用于中國香港、中國澳
門以及中國臺灣,一般來講,簡繁兩個體系的使用者都能在短期內(nèi)適應(yīng)并能看懂另一體系的文字,并無太大的溝通障礙。日本和韓國則是另行各自制定了官方的漢字使用規(guī)范,而漢字早期也在越南、朝鮮和蒙古流通。
[0003] 漢字資料庫或字典的編列與查詢方式,不同于一般英語字典能直接以字母編碼進行邏輯排序查詢,一般而言于漢字資料庫或字典查詢單字的方式分為部首查詢、筆劃查詢、拼音查詢、難字查詢、四
角號碼...等等,然而其中有關(guān)部首查詢、拼音查詢等查詢方式,必須是在已了解該字的部首分類、讀音的情況下才有辦法于資料庫或字典中找尋到該字的對應(yīng)資料,而筆劃查詢雖然可透過計算字形筆畫數(shù)的手段于漢字資料庫或字典中進行
配對查詢,然而中國文化博大精深,漢字數(shù)量約十萬字,若以筆畫數(shù)為其分類,就會花費大量的時間在人工逐字比對之上,其查字速度相當沒有效率。
[0004] 近年來中國大陸與中國臺灣之間的兩岸交流逐漸頻繁,簡體與繁體已在民間廣泛交流,簡體與繁體中文的部首、筆畫差異更為明顯;再者,漢字的使用除了繁體與簡體的差別外,也有標準楷書、宋體、俗寫、誤寫等問題存在,導致許多人在進行漢字資料庫或字典查詢時耗時費
力,甚至查詢不到該字。
[0005] 例如勛字的寫法包含簡體字「勛」、繁體字「勳」、俗寫字「勲」、古字「勛」等寫法,而當不懂漢字的國際人士看到這些字要了解勛字的含意時,還必須先分辨是要查簡體字的字典還是繁體字的字典,再者于分辨出簡體字、繁體字之后,還必須要先猜測其部首或拼音,因此造成查詢上的困難。
[0006] 由于漢字不同于英文字由字母直接排列組合而成,而可由左至右依循字母排列方式進行直接排序,因此造成以往漢字資料庫或字典于排序時,必須制訂較復雜的人為規(guī)則與分類訓練,才有辦法讓查詢者依循漢字部首或其他復雜的規(guī)則來進行查詢,
發(fā)明人針對現(xiàn)今漢字簡體與繁體并存的問題以及因應(yīng)時代所產(chǎn)生的通用、俗寫、誤寫等問題進行探討,以對漢字資料庫的檢索與配置技術(shù)進行全面性的改善。
[0007] 再者,即便是使用漢字為母語的中國人,也經(jīng)常發(fā)生不易辨識部首或完全不知拼音的情形,以漢字中的繁體字為例,有些字的部首又稱為暗部首,如:「囊、嘗」為「口」部、「夜」為「夕」部、「威」為「女」部...等等,而繁體字的「月」部、「肉」部往往又難以分辨,如:「朋、服、望、朔、朗」為「月」部、「胎、胍、能、脅、腎、臘、膺」為「肉」部,甚至有些繁體字很難判斷其所屬部首,例如:「前」為「刀」部,「幸」為「干」部、「垂」為「土」部。
[0008] 隨著中國文化的發(fā)揚、舉辦各種世界級的主流活動、中國制造的產(chǎn)品流通于全球,漢字遍及世界已為一項不可輕忽的事實,外國人甚至將漢字視為一種藝術(shù)、圖騰予以收藏欣賞,漢字的所以對外國人來說是一種藝術(shù)、學習
門檻較高;其最主要的原因就在于,并非以漢字為母語的外國人、漢字初學者、對漢字部首、拼音不熟悉的使用者,在查詢漢字時更是困難重重。倘若能讓外國人從漢字的
基礎(chǔ)形貌,直接獲得直覺、簡單的檢索依據(jù),即可讓漢字的推廣更為容易。
[0009] 發(fā)明人于早先提出發(fā)明
專利申請在案,并獲準發(fā)明專利的「電腦中文數(shù)位化輸入方法及簡便靈巧
鍵盤」,其申請?zhí)枮镃N91111955.8、授權(quán)公告號為CN1027196、授權(quán)公告日為1994年12月28日,其主要利漢字可能的十個首末筆劃對應(yīng)于鍵盤上的1、2、3、4、5、6、7、8、9、0十個鍵;將漢字依其字形分類;在輸入一個漢字時首先判斷該漢字所屬的字形類別,再根據(jù)其所屬字形類別將該漢字分解為「元」,并且每個漢字最多分解為三元,再將各元的首末筆依序由
鍵盤輸入。
[0010] 有鑒于稍早的發(fā)明,具有可供使用者不需花費太多時間學習,以及具有可直接憑直覺手段來拆字、認字的功效,據(jù)此,發(fā)明人創(chuàng)思運用先前技術(shù)手段加以改良與變化,以運用于漢字資料庫的檢索系統(tǒng)及配置方法以符合現(xiàn)今簡體與繁體并存的問題,并且還能擴大應(yīng)用于漢字的通用、俗寫、誤寫等情形,以使?jié)h字的檢索更加簡單、方便與完整。
發(fā)明內(nèi)容
[0011] 本發(fā)明的主要目的,在提供一種漢字資料庫的檢索系統(tǒng)及配置方法,以使?jié)h字資料庫的查詢更為簡易與容易上手。
[0012] 所提供的漢字資料庫檢索系統(tǒng),包含一供漢字及其相關(guān)注解資料記載的載體、一供使用者進行查詢操作的查詢界面,并將前述所記載的每一漢字進行數(shù)號編碼,該數(shù)號編碼至少包含一組首尾筆形碼,所述首尾筆形碼以該漢字的首筆筆畫造形編列成為于號首的第一數(shù)號、尾筆筆畫造形編列成位于號首之后的第二數(shù)號,使每一漢字獲得一組至少包含首尾筆形碼的數(shù)號編碼,并以數(shù)號編碼作為該漢字及其相關(guān)注解資料于載體上存放
位置的標記,所述查詢界面與標記連結(jié)而供使用者依數(shù)號編碼于載體上搜尋該漢字及其相關(guān)注解資料。其次,每一漢字的數(shù)號編碼進一步包含一位于首尾筆畫碼之末的字體形態(tài)碼,該字體形態(tài)碼以字體的區(qū)落形態(tài)編列成數(shù)號;漢字及其相關(guān)注解資料于載體上存放的位置依各漢字的首尾筆畫碼作為主排序,并同時以字體形態(tài)碼作為副排序。
[0013] 所提供的漢字資料庫配置方法,將漢字及其相關(guān)注解資料記載于一載體、且對每一漢字進行數(shù)號編碼,該數(shù)號編碼至少包含一組首尾筆形碼,所述首尾筆形碼以該漢字的首筆筆畫造形編列成為于號首的第一數(shù)號、尾筆筆畫造形編列成位于號首之后的第二數(shù)號,使每一漢字獲得一組至少包含首尾筆形碼的數(shù)號編碼,并以各漢字的首尾筆畫碼作為于載體進行主排序的依據(jù),俾供尋找與配對該漢字的注解資料之用。其次,每一漢字的數(shù)號編碼進一步包含一位于首尾筆畫碼之末的字體形態(tài)碼,該字體形態(tài)碼以字體的區(qū)落形態(tài)編列成數(shù)號,并以字體形態(tài)碼作為于載體進行副排序的依據(jù)。
[0014] 前述首尾筆形碼直 為「1」、橫 為「2」、撇 為「3」、點 為「4」、勾為「5」、戈 為「6」、綽 為「7」、捺 為「8」、乙 為「9」、挑及圈
為「0」,其中當首筆筆畫為具有轉(zhuǎn)折的連筆時,取該首筆筆畫于進行轉(zhuǎn)折前的前段,當尾筆筆畫為具有轉(zhuǎn)折的連筆時,取該尾筆筆畫于轉(zhuǎn)折后的后段;字體形態(tài)碼包含二列排列為「11」、三列及三列以上排列為「111」、二層塔疊為「22」、三層及三層以上塔疊為「222」,而當該漢字僅為單列或
單層時,則不需要使用字體形態(tài)碼。
[0015] 由此,利用首尾筆形碼與字體形態(tài)所構(gòu)成的數(shù)號編碼,可使?jié)h字獲得數(shù)位化的編碼,而可作為載體上標記位置、排序之用,尤其是這種首尾筆形碼與字體形態(tài)碼除了能使?jié)h字便于數(shù)位化排序之外,其編碼的產(chǎn)生又為一種由使用者以自然目視、直覺方式即可迅速獲得,相較于先前技術(shù),使用者不需事先學習復雜的漢字部首分類,即可透過數(shù)號編碼的判斷而迅速依循載體上的標記或排序來尋獲該漢字的相關(guān)注解。
[0016] 此外,本發(fā)明有關(guān)字體形態(tài)碼也與發(fā)明人于先前技術(shù)中所提及的前案截然不同,先前技術(shù)需要先將漢字拆解成一至三個「元」,而后再對每一個「元」進行首尾筆劃的相關(guān)編碼識別,而本發(fā)明先對漢字整體的首尾筆劃進行首尾筆形碼的識別,再透過漢字整體的字體形態(tài)直接產(chǎn)生字體形態(tài)碼,其大幅簡化首尾筆形碼的識別次數(shù)與字體形態(tài)碼的種類,令使用者能以更直覺的方式對漢字進行識別,由此以使?jié)h字資料庫的檢索更為國際化,俾利漢字資料庫能達到一次查到、有查不空的檢索目的。
附圖說明
[0017] 圖1為本發(fā)明的資料庫示意圖;
[0018] 圖2為本發(fā)明的數(shù)號編碼示意圖;
[0019] 圖3為本發(fā)明的數(shù)號編碼第一數(shù)號示意圖;
[0020] 圖4為本發(fā)明的數(shù)號編碼第二號數(shù)示意圖;
[0021] 圖5為本發(fā)明的字體形態(tài)碼示意圖;
[0022] 圖6為本發(fā)明的字體形態(tài)碼分類示意表;
[0023] 圖7為本發(fā)明的數(shù)號編碼排序示意圖;
[0024] 圖8為本發(fā)明運用于簡體、繁體、俗寫、古字的數(shù)號編碼產(chǎn)生示意圖;
[0025] 圖9為本發(fā)明的數(shù)號編碼增加筆畫碼示意圖;
[0026] 圖10為本發(fā)明的同數(shù)號編碼排序示意圖。
[0027] 附圖標記說明
[0028] 1a漢字;2a載體;3a查詢界面;4a數(shù)號編碼;5a首尾筆畫碼;5b字體形態(tài)碼;6a第一數(shù)號;6b第二數(shù)號;7a筆畫碼。
具體實施方式
[0029] 請參閱圖1所示,為本發(fā)明的資料庫示意圖,其主要包含一供漢字1a及其相關(guān)注解資料記載的載體2a、一供使用者進行查詢操作的查詢界面3a,將載體2a、記載的每一漢字進行數(shù)號編碼4a,所述載體2a可為個人電腦、伺服器終端機、掌上型電腦或為編頁成冊的紙本。
[0030] 所述數(shù)號編碼4a可視載體2a的型態(tài)與規(guī)格而進行位元轉(zhuǎn)碼與重新編碼,例如以二進位儲存法儲存于電磁的料上。數(shù)號編碼4a作為該漢字1a及其相關(guān)注解資料于載體2a上存放位置的標記,所述查詢界面3a與標記連結(jié)而供使用者依數(shù)號編碼4a于載體2a上搜尋該漢字及其相關(guān)注解資料,查詢界面3a所顯示供使用者觀看的數(shù)號編碼4a。前述數(shù)號編碼4a可視載體2a的型態(tài)與規(guī)格而進行位元轉(zhuǎn)碼與重新解碼、編碼,例如轉(zhuǎn)換為二進位模式進行儲存,而供使用者檢索與閱讀時仍以數(shù)號編碼4a進行顯示。
[0031] 請參閱圖2、圖3、圖4所示,為本發(fā)明的資料庫數(shù)號編碼示意圖、第一數(shù)號示意圖、第二號數(shù)示意圖,首尾筆形碼5a以該漢字的首筆筆畫造形編列成為于號首的第一數(shù)號6a、尾筆筆畫造形編列成位于號首之后的第二數(shù)號6b,前述首尾筆形碼5a直 為「1」、橫為「2」、撇 為「3」、點 為「4」、勾 為「5」、戈 為「6」、綽 為「7」、捺 為「8」、乙 為「9」、挑及圈 為「0」,前述括號”「」”中所示為首尾筆形碼5a的表示,并非圖號標示,其中當首筆筆畫為具有轉(zhuǎn)折的連筆時,取該首筆筆畫于進行轉(zhuǎn)折前的前段對應(yīng)筆形碼為第一數(shù)號6a,當尾筆筆畫為具有轉(zhuǎn)折的連筆時,取該尾筆筆畫于轉(zhuǎn)折后的后段對應(yīng)筆形碼為第二數(shù)號6b。
[0032] 惟一漢字中的「一」字,僅具單一筆劃橫 「2」,故可將字視為特例漢字而加以編列,其數(shù)號編碼為「20」;又如「乙」字,其書寫時雖僅具單一筆劃,但就其轉(zhuǎn)筆而言分為橫「2」與乙 「9」兩個部分,因此其數(shù)號編碼為「29」。
[0033] 上述首尾筆形碼5a意與筆形具有形體的相似局部造型的對應(yīng),或者取意念相似,例如:直 與數(shù)字1的形狀相似、橫 與數(shù)字2的底局部段相似、撇 如同數(shù)字3手寫字 的尾段相似...等等,有利于幫助記憶與導讀,使用者僅需對照第一數(shù)號6a、第二數(shù)號6b的對照表即可迅速進行首尾筆形碼5a的判斷。
[0034] 請參閱圖1、圖2及圖5所示,其中圖5為本發(fā)明的字體形態(tài)碼示意圖,字體形態(tài)碼5b以漢字1a整體所呈現(xiàn)的字體排列堆疊的形態(tài)作為編碼的依據(jù)。其中,若僅為單列或單層,不需要使用字體形態(tài)碼5b;而若二列排列為「11」、三列及三列以上排列為「111」、二層塔疊為「22」、三層及三層以上塔疊為「222」,(前述括號中所示為數(shù)號號碼,并非圖號標示)。
[0035] 請參閱圖6,為本發(fā)明的字體形態(tài)碼分類示意表,其由上至下分別列舉不需要使用字體形態(tài)碼、排列、塔疊進行示意說明:
[0036] 「丘」字其首尾筆形碼5a由首筆的筆形撇 「3」、尾筆的筆形橫 「2」所構(gòu)成,且其整體觀的為無法橫分為層或直分為列的單列或單層,不需要使用字體形態(tài)碼5b,其數(shù)號編碼4a即以「32」表示。
[0037] 「可」字其首尾筆形碼5a由首筆的筆形橫 「2」、尾筆的筆形勾 「5」所構(gòu)成,且其整體觀的為無法橫分為列或直分為層的單列或單層,不需要使用字體形態(tài)碼5b,其數(shù)號編碼4a即以「25」表示。
[0038] 「刀」字其首尾筆形碼5a由首筆的筆形橫 「2」、尾筆的筆形撇 「3」所構(gòu)成,且其整體觀的為無法橫分為列或直分為層的單列或單層,不需要使用字體形態(tài)碼5b,其數(shù)號編碼4a即以「23」表示。
[0039] 「新」字其首尾筆形碼5a由首筆的筆形點 「4」、尾筆的筆形直 「1」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于二列排列為「11」,其數(shù)號編碼4a即以「4111」表示。
[0040] 「彬」字其首尾筆形碼5a由首筆的筆形橫 「2」、尾筆的筆形撇 「3」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于三列排列為「111」,其數(shù)號編碼4a即以「23111」表示。
[0041] 「圳」字其首尾筆形碼5a由首筆的筆形橫 「2」、尾筆的筆形直 「1」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于三列以上的排列為「111」,其數(shù)號編碼4a即以「21111」表示。
[0042] 「志」其首尾筆形碼5a由首筆的筆形橫 「2」、尾筆的筆形點 「4」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于二層塔疊「22」,其數(shù)號編碼4a即以「2422」表示。
[0043] 「曼」其首尾筆形碼5a由首筆的筆形直 「1」、尾筆的筆形捺「8」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于三層的塔疊「222」,其數(shù)號編碼4a即以「18222」表示
[0044] 「畺」其首尾筆形碼5a由首筆的筆形橫 「2」、尾筆的筆形橫 「2」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于三層以上的塔疊「222」,其數(shù)號編碼4a即以「22222」表示;惟綜觀所有漢字,屬三層以上的塔疊為數(shù)不多,因此三層以上的數(shù)號編碼4a仍可編列為「222」。
[0045] 請參閱圖1、圖2及圖7所示,其中圖7為本發(fā)明的數(shù)號編碼排序示意圖,數(shù)號編碼4a的整體排序,以首尾筆畫碼5a作為主排序的依據(jù),字體形態(tài)碼5b作為副排序的依據(jù),主排序首尾筆畫碼5a依序為「10」、「11」、「12」、「13」...,而副排序字體形態(tài)碼5b以「11」、「111」、「22」、「222」為其排續(xù)的順序,而于查詢界面3a顯示時,首尾筆畫碼5a可采大于字體形態(tài)碼5b進行顯示或標示,俾利查詢者目視數(shù)號編碼4a時能直接分辨出首尾筆畫碼5a與字體形態(tài)碼5b,由此以發(fā)揮漢字查詢時詢數(shù)(數(shù)號編碼4a)追位的功效。
[0046] 請參閱圖8所示,為本發(fā)明運用于簡體、繁體、俗寫、古字的數(shù)號編碼產(chǎn)生示意圖,現(xiàn)行流通的漢字1a中,勛字的寫法包含簡體字「勛」、繁體字「勳」、俗寫字「勲」、古字「勛」等寫法,不懂漢字1a的國際人士看到這些字時,在不知道何者為簡體、繁體、部首、拼音的情況下,即可輕易的以輸入或?qū)φ諗?shù)號編碼4a的方式來進行漢字1a搜尋,其中:
[0047] 「勛」字其首尾筆形碼5a由首筆的筆形直 「1」、尾筆的筆形撇 「3」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于二列排列為「11」,其數(shù)號編碼4a即以「1311」表示。
[0048] 「勳」字其首尾筆形碼5a由首筆的筆形撇 「3」、尾筆的筆形撇 「3」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于二列排列為「11」,其數(shù)號編碼4a即以「3311」表示。
[0049] 「勲」字其首尾筆形碼5a由首筆的筆形撇 「3」、尾筆的筆形點 「4」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于二層塔疊「22」,其數(shù)號編碼4a即以「3422」表示。
[0050] 「勛」字其首尾筆形碼5a由首筆的筆形直 「1」、尾筆的筆形撇 「3」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于三列排列為「11」,其數(shù)號編碼4a都是以「1311」表示。
[0051] 除此圖示中所列的漢字1a外,又如:
[0052] 簡體字「匯」的數(shù)號編碼4a為「4211」、
[0053] 繁體字「匯」的數(shù)號編碼4a為「22」、
[0054] 俗寫字「滙」的數(shù)號編碼4a為「4211」;
[0055] 簡體字「華」的數(shù)號編碼4a以「3122」表示、
[0056] 繁體字「華」的數(shù)號編碼4a以「1122」表示;
[0057] 簡體字「
云」的數(shù)號編碼4a以「2422」表示、
[0058] 繁體字「雲(yún)」的數(shù)號編碼4a以「2422」表示...等等均可以此手段進行編碼而利于進行資料庫的標記與排序,俾利使用者進行快速檢索與查詢。由此,依循本發(fā)明檢索系統(tǒng)及配置方法所建置的漢字資料庫,可輕易將這些簡體、繁體、俗寫、古字的漢字1a予以數(shù)位化分類,并加以注記相關(guān)資料,甚至彼此間的相關(guān)連結(jié)資訊,而讓使用者能以最直接、簡單、迅速的方法來進行漢字1a查詢。
[0059] 請參閱圖9及圖10所示,為本發(fā)明的數(shù)號編碼增加筆畫碼示意圖、同數(shù)號編碼排序示意圖,由于不同漢字1a會產(chǎn)生相同的數(shù)號編碼4a,因此為了使同一數(shù)號編碼的漢字1a能獲得進一步的排序管理與位置標示,可進一步以增加筆畫碼7a的方式輔以進行次排序,例如:「剛」(6劃)、「別」(7劃)、「別」(7劃)、「刪」(7劃)、「咑」(8劃)、「則」(9劃)、「削」(9劃)、「剛」(10劃)、「剔」(10劃)、「制」(10劃))..等漢字1a其首尾筆形碼5a由首筆的筆形直 「1」、尾筆的筆形勾 「5」所構(gòu)成,其字體形態(tài)碼5b由整體觀的屬于三列排列為「111」,數(shù)號編碼4均為「15111」,因此依照其筆劃碼的多寡而進行輔助排序。此一輔助排序的主要目的是輔助漢字1a于同一數(shù)號編碼4a所標記的資料庫區(qū)域內(nèi)排序之用,以便由目視方式進行尋找或目視選字之用,使用者在輸入或?qū)φ諗?shù)號編碼時并不需對筆畫碼加以辨識,不會造成使用者查詢資料庫時的辨識負擔。
[0060] 由本技術(shù)手段的實施,還可把一般使用者容易誤寫筆畫、筆順的誤字,加以編碼列入資料庫中建存,以供使用者查詢比對,甚至可供與光學掃描文字辨識系統(tǒng)、電腦文件勘誤系統(tǒng)、
電子手寫輸入系統(tǒng)、漢字字典、漢英字典整合之用,而為一種能同時供簡體字、繁體字、各種字體、不同書寫習慣、俗寫、誤寫、古字...等漢字進行整合的漢字資料庫的檢索系統(tǒng)及配置方法。
[0061] 以上對本發(fā)明的描述是說明性的,而非限制性的,本專業(yè)技術(shù)人員理解,在
權(quán)利要求限定的精神與范圍之內(nèi)可對其進行許多
修改、變化或等效,但是它們都將落入本發(fā)明的保護范圍內(nèi)。