白丝美女被狂躁免费视频网站,500av导航大全精品,yw.193.cnc爆乳尤物未满,97se亚洲综合色区,аⅴ天堂中文在线网官网

首頁(yè) / 專(zhuān)利庫(kù) / 數(shù)學(xué)與統(tǒng)計(jì) / 信息檢索 / 一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)

一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)

閱讀:179發(fā)布:2020-05-08

專(zhuān)利匯可以提供一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)專(zhuān)利檢索,專(zhuān)利查詢,專(zhuān)利分析的服務(wù)。并且本 發(fā)明 涉及 信息檢索 領(lǐng)域,具體為一種基于 大數(shù)據(jù) 應(yīng)用的短文本信息檢索系統(tǒng),包括分類(lèi)采集系統(tǒng)和短文本預(yù)處理模 塊 ,所述分類(lèi)采集系統(tǒng)的輸出端 信號(hào) 連接詞段預(yù)處理模塊的輸入端,詞段預(yù)處理模塊輸出的詞段依次經(jīng)過(guò)詞段拆分模塊和詞段分集模塊處理后,將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)傳輸?shù)焦蚕?數(shù)據(jù)庫(kù) 中,本發(fā)明功能涉及合理,在大數(shù)據(jù)的數(shù)據(jù) 基礎(chǔ) 上,對(duì)檢索詞段進(jìn)行統(tǒng)計(jì)和處理,在進(jìn)行短文本信息檢索時(shí),將短文本合理拆分和組合,經(jīng)過(guò)詞段逆推得出詞頻,由詞頻的大小進(jìn)行信息輸出,很大程度上簡(jiǎn)化了檢索系統(tǒng)的負(fù)擔(dān),并且實(shí)現(xiàn)了快速的對(duì)比,在大數(shù)據(jù)的實(shí)時(shí)更新?tīng)顟B(tài)下,能夠提高信息檢索的時(shí)效性,并且避免了數(shù)據(jù)的檢索遺漏。,下面是一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)專(zhuān)利的具體信息內(nèi)容。

1.一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:包括分類(lèi)采集系統(tǒng)和短文本預(yù)處理模,所述分類(lèi)采集系統(tǒng)的輸出端信號(hào)連接詞段預(yù)處理模塊的輸入端,詞段預(yù)處理模塊輸出的詞段依次經(jīng)過(guò)詞段拆分模塊和詞段分集模塊處理后,分別放入到拆分詞關(guān)聯(lián)集合中,詞段拆分模塊上設(shè)置詞頻統(tǒng)計(jì)模塊,將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)傳輸?shù)焦蚕?a href='/zhuanli/list-14146-1.html' target='_blank'>數(shù)據(jù)庫(kù)中,并將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)生成鏡像保存到儲(chǔ)存數(shù)據(jù)庫(kù)中,所述短文本預(yù)處理模塊的信號(hào)輸出端連接短文本拆分、組合模塊的輸入端,短文本拆分、組合模塊的輸出端與文本傳輸模塊的輸入端連接,文本傳輸模塊的輸出端信號(hào)連接在對(duì)比檢索模塊的一個(gè)輸入端上,對(duì)比檢索模塊的另一個(gè)輸入端與共享數(shù)據(jù)庫(kù)的信號(hào)輸出端連接,且對(duì)比檢索模塊的輸出端信號(hào)連接文本收集模塊,所述文本收集模塊的輸出端按照詞頻的大小排列輸出到文本排列模塊,文本排列模塊的輸出端通過(guò)信號(hào)連接在詞段逆推模塊的輸入端并輸出;
包括以下步驟:
1)分類(lèi)采集:經(jīng)過(guò)分類(lèi)采集系統(tǒng),將不同類(lèi)別的詞段進(jìn)行收集;
2)詞段預(yù)處理:將上步驟中的詞段中所存在的標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞去除,并以空格符代替,相連的兩個(gè)空格符合并成一個(gè);
3)詞段拆分、分集:把步驟2)中空格符之間的詞段進(jìn)行拆分,進(jìn)而進(jìn)行詞段分集,詞段分集包括有單字段、雙字段和多字段,將單字段、雙字段和多字段放入到關(guān)聯(lián)集合中,由上到下,依次為多字段、雙字段、單字段;
4)詞頻統(tǒng)計(jì):將步驟3)中的詞段進(jìn)行統(tǒng)計(jì),將每個(gè)詞段依次進(jìn)行編號(hào)分別為a1、a2、a3…an,單個(gè)詞段出現(xiàn)的次數(shù)為X,總詞段出現(xiàn)的頻率數(shù)為X(a1+a2+a3+…+an),詞頻為Y即為單個(gè)詞段在總詞段中所出現(xiàn)的頻率;
5)詞段保存:將步驟3)中的拆分詞關(guān)聯(lián)集合通過(guò)信息傳輸?shù)焦蚕頂?shù)據(jù)庫(kù)中,并通過(guò)生成鏡像保存在儲(chǔ)存數(shù)據(jù)庫(kù)中;
6)短文本預(yù)處理:將輸入的短文本進(jìn)行預(yù)處理,去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞,并按照前后的順序進(jìn)行組合,依次得到單詞段、雙詞段和多詞段的文本;
7)對(duì)比檢索;將步驟6)中的文本與共享數(shù)據(jù)庫(kù)中的拆分詞關(guān)聯(lián)集合進(jìn)行對(duì)比,檢索出相同的部分,并將對(duì)比得到的詞段進(jìn)行收集,并先按照詞段中字符數(shù)由大到小排列,而后在同字符數(shù)的詞段中按照詞頻的高低進(jìn)行排列;
8)對(duì)比輸出,將步驟7)中得到的詞段以及詞頻,在拆分詞關(guān)聯(lián)集合中向上推理,單詞段在得到的詞段中進(jìn)行逆推,得到相對(duì)應(yīng)的多詞段,將輸入的短文本字符數(shù)記為M,M為短文本中去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞后的字符數(shù),每個(gè)單詞段、雙詞段或多詞段逆推到目標(biāo)詞段的次數(shù)記為Z,以Z×Y為判斷標(biāo)準(zhǔn),并由大到小排列目標(biāo)詞段,輸出。
2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:所述分類(lèi)采集系統(tǒng)包括但不限于金融、醫(yī)療、教育、物流、股市。
3.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:所述短文本拆分、組合模塊為正序拆分、組合。
4.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:所述單詞段中含有一個(gè)字符,雙詞段中含有兩個(gè)字符,多詞段設(shè)置不少于三個(gè)的字符,所述單詞段均包含在雙詞段中,所述雙詞段包含在多詞段中,所述雙詞段有且包含兩個(gè)單詞段。

說(shuō)明書(shū)全文

一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)

技術(shù)領(lǐng)域

[0001] 本發(fā)明涉及信息檢索領(lǐng)域,一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)。

背景技術(shù)

[0002] 隨著社會(huì)科技和生活的不斷進(jìn)步,短文本信息呈爆炸式的增長(zhǎng),大數(shù)據(jù)即為巨量數(shù)據(jù)集合,在進(jìn)行信息檢索的過(guò)程中,需要使用短文本進(jìn)行信息檢索,現(xiàn)有技術(shù)下的短文本信息檢索的方法設(shè)計(jì)比較復(fù)雜,并且伴隨著信息的爆炸式增長(zhǎng)不能夠很好的實(shí)現(xiàn)信息的快速和高效的檢索過(guò)程,并且信息檢索會(huì)在很大程度上出現(xiàn)遺漏的現(xiàn)象,導(dǎo)致信息檢索出現(xiàn)失誤,影響較大,隨著大數(shù)據(jù)的時(shí)代到來(lái),需要在大數(shù)據(jù)的基礎(chǔ)上設(shè)計(jì)一種能夠方便、高效的信息檢索系統(tǒng)。

發(fā)明內(nèi)容

[0003] 本發(fā)明的目的在于提供一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),以解決上述背景技術(shù)中提出的問(wèn)題。
[0004] 為實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),包括分類(lèi)采集系統(tǒng)和短文本預(yù)處理模,所述分類(lèi)采集系統(tǒng)的輸出端信號(hào)連接詞段預(yù)處理模塊的輸入端,詞段預(yù)處理模塊輸出的詞段依次經(jīng)過(guò)詞段拆分模塊和詞段分集模塊處理后,分別放入到拆分詞關(guān)聯(lián)集合中,詞段拆分模塊上設(shè)置詞頻統(tǒng)計(jì)模塊,將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)傳輸?shù)焦蚕?a href='/zhuanli/list-14146-1.html' target='_blank'>數(shù)據(jù)庫(kù)中,并將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)生成鏡像保存到儲(chǔ)存數(shù)據(jù)庫(kù)中,所述短文本預(yù)處理模塊的信號(hào)輸出端連接短文本拆分、組合模塊的輸入端,短文本拆分、組合模塊的輸出端與文本傳輸模塊的輸入端連接,文本傳輸模塊的輸出端信號(hào)連接在對(duì)比檢索模塊的一個(gè)輸入端上,對(duì)比檢索模塊的另一個(gè)輸入端與共享數(shù)據(jù)庫(kù)的信號(hào)輸出端連接,且對(duì)比檢索模塊的輸出端信號(hào)連接文本收集模塊,所述文本收集模塊的輸出端按照詞頻的大小排列輸出到文本排列模塊,文本排列模塊的輸出端通過(guò)信號(hào)連接在詞段逆推模塊的輸入端并輸出。
[0005] 優(yōu)選的,所述分類(lèi)采集系統(tǒng)包括但不限于金融、醫(yī)療、教育、物流、股市等類(lèi)別。
[0006] 優(yōu)選的,所述短文本拆分、組合模塊為正序拆分、組合。
[0007] 優(yōu)選的,包括以下步驟:
[0008] 1)分類(lèi)采集:經(jīng)過(guò)分類(lèi)采集系統(tǒng),將不同類(lèi)別的詞段進(jìn)行收集;
[0009] 2)詞段預(yù)處理:將上步驟中的詞段中所存在的標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞去除,并以空格符代替,相連的兩個(gè)空格符合并成一個(gè);
[0010] 3)詞段拆分、分集:把步驟2)中空格符之間的詞段進(jìn)行拆分,進(jìn)而進(jìn)行詞段分集,詞段分集包括有單字段、雙字段和多字段,將單字段、雙字段和多字段放入到關(guān)聯(lián)集合中,由上到下,依次為多字段、雙字段、單字段;
[0011] 4)詞頻統(tǒng)計(jì):將步驟3)中的詞段進(jìn)行統(tǒng)計(jì),將每個(gè)詞段依次進(jìn)行編號(hào)分別為a1、a2、a3…an,單個(gè)詞段出現(xiàn)的次數(shù)為X,總詞段出現(xiàn)的頻率數(shù)為X(a1+a2+a3+…+an),詞頻為Y即為單個(gè)詞段在總詞段中所出現(xiàn)的頻率;
[0012] 5)詞段保存:將步驟3)中的拆分詞關(guān)聯(lián)集合通過(guò)信息傳輸?shù)焦蚕頂?shù)據(jù)庫(kù)中,并通過(guò)生成鏡像保存在儲(chǔ)存數(shù)據(jù)庫(kù)中;
[0013] 6)短文本預(yù)處理:將輸入的短文本進(jìn)行預(yù)處理,去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞,并按照前后的順序進(jìn)行組合,依次得到單詞段、雙詞段和多詞段的文本;
[0014] 7)對(duì)比檢索;將步驟6)中的文本與共享數(shù)據(jù)庫(kù)中的拆分詞關(guān)聯(lián)集合進(jìn)行對(duì)比,檢索出相同的部分,并將對(duì)比得到的詞段進(jìn)行收集,并先按照詞段中字符數(shù)由大到小排列,而后在同字符數(shù)的詞段中按照詞頻的高低進(jìn)行排列;
[0015] 8)對(duì)比輸出,將步驟7)中得到的詞段以及詞頻,在拆分詞關(guān)聯(lián)集合中向上推理,單詞段在得到的詞段中進(jìn)行逆推,得到相對(duì)應(yīng)的多詞段,將輸入的短文本字符數(shù)記為M,M為短文本中去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞后的字符數(shù),每個(gè)單詞段、雙詞段或多詞段逆推到目標(biāo)詞段的次數(shù)記為Z,以Z×Y為判斷標(biāo)準(zhǔn),并由大到小排列目標(biāo)詞段,輸出。
[0016] 優(yōu)選的,所述單詞段中含有一個(gè)字符,雙詞段中含有兩個(gè)字符,多詞段設(shè)置不少于三個(gè)的字符,所述單詞段均包含在雙詞段中,所述雙詞段包含在多詞段中,所述雙詞段有且包含兩個(gè)單詞段。
[0017] 與現(xiàn)有技術(shù)相比,本發(fā)明的有益效果是:本發(fā)明功能涉及合理,在大數(shù)據(jù)的數(shù)據(jù)基礎(chǔ)上,對(duì)檢索詞段進(jìn)行統(tǒng)計(jì)和處理,在進(jìn)行短文本信息檢索時(shí),將短文本合理拆分和組合,經(jīng)過(guò)詞段逆推得出詞頻,由詞頻的大小進(jìn)行信息輸出,很大程度上簡(jiǎn)化了檢索系統(tǒng)的負(fù)擔(dān),并且實(shí)現(xiàn)了快速的對(duì)比,在大數(shù)據(jù)的實(shí)時(shí)更新?tīng)顟B(tài)下,能夠提高信息檢索的時(shí)效性,并且避免了數(shù)據(jù)的檢索遺漏,總的來(lái)說(shuō),本發(fā)明相比傳統(tǒng)的信息檢索系統(tǒng)具有更高的效率,時(shí)效性強(qiáng),并且模塊化設(shè)計(jì)合理,在保持信息高效檢索的同時(shí),檢索信息更為準(zhǔn)確。附圖說(shuō)明
[0018] 圖1為本發(fā)明結(jié)構(gòu)示意圖;
[0019] 圖2為本發(fā)明的拆分詞關(guān)聯(lián)集合結(jié)構(gòu)示意圖。

具體實(shí)施方式

[0020] 下面將對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
[0021] 本發(fā)明提供一種技術(shù)方案:一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),包括分類(lèi)采集系統(tǒng)和短文本預(yù)處理模塊,分類(lèi)采集系統(tǒng)包括但不限于金融、醫(yī)療、教育、物流、股市等類(lèi)別,分類(lèi)采集系統(tǒng)的輸出端信號(hào)連接詞段預(yù)處理模塊的輸入端,詞段預(yù)處理模塊輸出的詞段依次經(jīng)過(guò)詞段拆分模塊和詞段分集模塊處理后,分別放入到拆分詞關(guān)聯(lián)集合中,詞段拆分模塊上設(shè)置詞頻統(tǒng)計(jì)模塊,將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)傳輸?shù)焦蚕頂?shù)據(jù)庫(kù)中,并將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)生成鏡像保存到儲(chǔ)存數(shù)據(jù)庫(kù)中,短文本預(yù)處理模塊的信號(hào)輸出端連接短文本拆分、組合模塊的輸入端,短文本拆分、組合模塊的輸出端與文本傳輸模塊的輸入端連接,短文本拆分、組合模塊為正序拆分、組合,文本傳輸模塊的輸出端信號(hào)連接在對(duì)比檢索模塊的一個(gè)輸入端上,對(duì)比檢索模塊的另一個(gè)輸入端與共享數(shù)據(jù)庫(kù)的信號(hào)輸出端連接,且對(duì)比檢索模塊的輸出端信號(hào)連接文本收集模塊,文本收集模塊的輸出端按照詞頻的大小排列輸出到文本排列模塊,文本排列模塊的輸出端通過(guò)信號(hào)連接在詞段逆推模塊的輸入端并輸出。
[0022] 包括以下步驟:
[0023] 1)分類(lèi)采集:經(jīng)過(guò)分類(lèi)采集系統(tǒng),將不同類(lèi)別的詞段進(jìn)行收集;
[0024] 2)詞段預(yù)處理:將上步驟中的詞段中所存在的標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞去除,并以空格符代替,相連的兩個(gè)空格符合并成一個(gè);
[0025] 3)詞段拆分、分集:把步驟2)中空格符之間的詞段進(jìn)行拆分,進(jìn)而進(jìn)行詞段分集,詞段分集包括有單字段、雙字段和多字段,將單字段、雙字段和多字段放入到關(guān)聯(lián)集合中,由上到下,依次為多字段、雙字段、單字段;
[0026] 4)詞頻統(tǒng)計(jì):將步驟3)中的詞段進(jìn)行統(tǒng)計(jì),將每個(gè)詞段依次進(jìn)行編號(hào)分別為a1、a2、a3…an,單個(gè)詞段出現(xiàn)的次數(shù)為X,總詞段出現(xiàn)的頻率數(shù)為X(a1+a2+a3+…+an),詞頻為Y即為單個(gè)詞段在總詞段中所出現(xiàn)的頻率;
[0027] 5)詞段保存:將步驟3)中的拆分詞關(guān)聯(lián)集合通過(guò)信息傳輸?shù)焦蚕頂?shù)據(jù)庫(kù)中,并通過(guò)生成鏡像保存在儲(chǔ)存數(shù)據(jù)庫(kù)中;
[0028] 6)短文本預(yù)處理:將輸入的短文本進(jìn)行預(yù)處理,去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞,并按照前后的順序進(jìn)行組合,依次得到單詞段、雙詞段和多詞段的文本;
[0029] 7)對(duì)比檢索;將步驟6)中的文本與共享數(shù)據(jù)庫(kù)中的拆分詞關(guān)聯(lián)集合進(jìn)行對(duì)比,檢索出相同的部分,并將對(duì)比得到的詞段進(jìn)行收集,并先按照詞段中字符數(shù)由大到小排列,而后在同字符數(shù)的詞段中按照詞頻的高低進(jìn)行排列;
[0030] 8)對(duì)比輸出,將步驟7)中得到的詞段以及詞頻,在拆分詞關(guān)聯(lián)集合中向上推理,單詞段在得到的詞段中進(jìn)行逆推,得到相對(duì)應(yīng)的多詞段,將輸入的短文本字符數(shù)記為M,M為短文本中去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞后的字符數(shù),每個(gè)單詞段、雙詞段或多詞段逆推到目標(biāo)詞段的次數(shù)記為Z,以Z×Y為判斷標(biāo)準(zhǔn),并由大到小排列目標(biāo)詞段,輸出。
[0031] 其中單詞段中含有一個(gè)字符,雙詞段中含有兩個(gè)字符,多詞段設(shè)置不少于三個(gè)的字符,單詞段均包含在雙詞段中,雙詞段包含在多詞段中,雙詞段有且包含兩個(gè)單詞段。
[0032] 本發(fā)明通過(guò)在大數(shù)據(jù)的基礎(chǔ)上,達(dá)到實(shí)時(shí)更新的目的,通過(guò)設(shè)計(jì)的詞頻統(tǒng)計(jì)以及拆分詞關(guān)聯(lián)集合,能夠?qū)⒃~段進(jìn)行很好的整合,提供一個(gè)完整的信息對(duì)比基礎(chǔ),并且對(duì)短文本的處理后,經(jīng)過(guò)詞頻以及單詞段、雙詞段、多詞段的依次逆推,能夠得到準(zhǔn)確的檢索信息,本發(fā)明相比傳統(tǒng)的信息檢索系統(tǒng)具有更高的效率,時(shí)效性強(qiáng),并且模塊化設(shè)計(jì)合理,在保持信息高效檢索的同時(shí),檢索信息更為準(zhǔn)確。
[0033] 盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以理解在不脫離本發(fā)明的原理和精神的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由所附權(quán)利要求及其等同物限定。
高效檢索全球?qū)@?/div>

專(zhuān)利匯是專(zhuān)利免費(fèi)檢索,專(zhuān)利查詢,專(zhuān)利分析-國(guó)家發(fā)明專(zhuān)利查詢檢索分析平臺(tái),是提供專(zhuān)利分析,專(zhuān)利查詢,專(zhuān)利檢索等數(shù)據(jù)服務(wù)功能的知識(shí)產(chǎn)權(quán)數(shù)據(jù)服務(wù)商。

我們的產(chǎn)品包含105個(gè)國(guó)家的1.26億組數(shù)據(jù),免費(fèi)查、免費(fèi)專(zhuān)利分析。

申請(qǐng)?jiān)囉?/a>

QQ群二維碼
意見(jiàn)反饋