專(zhuān)利匯可以提供一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)專(zhuān)利檢索,專(zhuān)利查詢,專(zhuān)利分析的服務(wù)。并且本 發(fā)明 涉及 信息檢索 領(lǐng)域,具體為一種基于 大數(shù)據(jù) 應(yīng)用的短文本信息檢索系統(tǒng),包括分類(lèi)采集系統(tǒng)和短文本預(yù)處理模 塊 ,所述分類(lèi)采集系統(tǒng)的輸出端 信號(hào) 連接詞段預(yù)處理模塊的輸入端,詞段預(yù)處理模塊輸出的詞段依次經(jīng)過(guò)詞段拆分模塊和詞段分集模塊處理后,將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)傳輸?shù)焦蚕?數(shù)據(jù)庫(kù) 中,本發(fā)明功能涉及合理,在大數(shù)據(jù)的數(shù)據(jù) 基礎(chǔ) 上,對(duì)檢索詞段進(jìn)行統(tǒng)計(jì)和處理,在進(jìn)行短文本信息檢索時(shí),將短文本合理拆分和組合,經(jīng)過(guò)詞段逆推得出詞頻,由詞頻的大小進(jìn)行信息輸出,很大程度上簡(jiǎn)化了檢索系統(tǒng)的負(fù)擔(dān),并且實(shí)現(xiàn)了快速的對(duì)比,在大數(shù)據(jù)的實(shí)時(shí)更新?tīng)顟B(tài)下,能夠提高信息檢索的時(shí)效性,并且避免了數(shù)據(jù)的檢索遺漏。,下面是一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng)專(zhuān)利的具體信息內(nèi)容。
1.一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:包括分類(lèi)采集系統(tǒng)和短文本預(yù)處理模塊,所述分類(lèi)采集系統(tǒng)的輸出端信號(hào)連接詞段預(yù)處理模塊的輸入端,詞段預(yù)處理模塊輸出的詞段依次經(jīng)過(guò)詞段拆分模塊和詞段分集模塊處理后,分別放入到拆分詞關(guān)聯(lián)集合中,詞段拆分模塊上設(shè)置詞頻統(tǒng)計(jì)模塊,將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)傳輸?shù)焦蚕?a href='/zhuanli/list-14146-1.html' target='_blank'>數(shù)據(jù)庫(kù)中,并將拆分詞關(guān)聯(lián)集合的數(shù)據(jù)生成鏡像保存到儲(chǔ)存數(shù)據(jù)庫(kù)中,所述短文本預(yù)處理模塊的信號(hào)輸出端連接短文本拆分、組合模塊的輸入端,短文本拆分、組合模塊的輸出端與文本傳輸模塊的輸入端連接,文本傳輸模塊的輸出端信號(hào)連接在對(duì)比檢索模塊的一個(gè)輸入端上,對(duì)比檢索模塊的另一個(gè)輸入端與共享數(shù)據(jù)庫(kù)的信號(hào)輸出端連接,且對(duì)比檢索模塊的輸出端信號(hào)連接文本收集模塊,所述文本收集模塊的輸出端按照詞頻的大小排列輸出到文本排列模塊,文本排列模塊的輸出端通過(guò)信號(hào)連接在詞段逆推模塊的輸入端并輸出;
包括以下步驟:
1)分類(lèi)采集:經(jīng)過(guò)分類(lèi)采集系統(tǒng),將不同類(lèi)別的詞段進(jìn)行收集;
2)詞段預(yù)處理:將上步驟中的詞段中所存在的標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞去除,并以空格符代替,相連的兩個(gè)空格符合并成一個(gè);
3)詞段拆分、分集:把步驟2)中空格符之間的詞段進(jìn)行拆分,進(jìn)而進(jìn)行詞段分集,詞段分集包括有單字段、雙字段和多字段,將單字段、雙字段和多字段放入到關(guān)聯(lián)集合中,由上到下,依次為多字段、雙字段、單字段;
4)詞頻統(tǒng)計(jì):將步驟3)中的詞段進(jìn)行統(tǒng)計(jì),將每個(gè)詞段依次進(jìn)行編號(hào)分別為a1、a2、a3…an,單個(gè)詞段出現(xiàn)的次數(shù)為X,總詞段出現(xiàn)的頻率數(shù)為X(a1+a2+a3+…+an),詞頻為Y即為單個(gè)詞段在總詞段中所出現(xiàn)的頻率;
5)詞段保存:將步驟3)中的拆分詞關(guān)聯(lián)集合通過(guò)信息傳輸?shù)焦蚕頂?shù)據(jù)庫(kù)中,并通過(guò)生成鏡像保存在儲(chǔ)存數(shù)據(jù)庫(kù)中;
6)短文本預(yù)處理:將輸入的短文本進(jìn)行預(yù)處理,去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞,并按照前后的順序進(jìn)行組合,依次得到單詞段、雙詞段和多詞段的文本;
7)對(duì)比檢索;將步驟6)中的文本與共享數(shù)據(jù)庫(kù)中的拆分詞關(guān)聯(lián)集合進(jìn)行對(duì)比,檢索出相同的部分,并將對(duì)比得到的詞段進(jìn)行收集,并先按照詞段中字符數(shù)由大到小排列,而后在同字符數(shù)的詞段中按照詞頻的高低進(jìn)行排列;
8)對(duì)比輸出,將步驟7)中得到的詞段以及詞頻,在拆分詞關(guān)聯(lián)集合中向上推理,單詞段在得到的詞段中進(jìn)行逆推,得到相對(duì)應(yīng)的多詞段,將輸入的短文本字符數(shù)記為M,M為短文本中去除標(biāo)點(diǎn)符號(hào)、表情符號(hào)、語(yǔ)氣助詞、介詞和連接詞后的字符數(shù),每個(gè)單詞段、雙詞段或多詞段逆推到目標(biāo)詞段的次數(shù)記為Z,以Z×Y為判斷標(biāo)準(zhǔn),并由大到小排列目標(biāo)詞段,輸出。
2.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:所述分類(lèi)采集系統(tǒng)包括但不限于金融、醫(yī)療、教育、物流、股市。
3.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:所述短文本拆分、組合模塊為正序拆分、組合。
4.根據(jù)權(quán)利要求1所述的一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng),其特征在于:所述單詞段中含有一個(gè)字符,雙詞段中含有兩個(gè)字符,多詞段設(shè)置不少于三個(gè)的字符,所述單詞段均包含在雙詞段中,所述雙詞段包含在多詞段中,所述雙詞段有且包含兩個(gè)單詞段。
標(biāo)題 | 發(fā)布/更新時(shí)間 | 閱讀量 |
---|---|---|
一種基于神經(jīng)網(wǎng)絡(luò)協(xié)同訓(xùn)練的遙感圖像變化信息檢索方法 | 2020-05-08 | 683 |
語(yǔ)音信息檢索方法、裝置、設(shè)備和計(jì)算機(jī)可讀存儲(chǔ)介質(zhì) | 2020-05-08 | 907 |
一種大學(xué)學(xué)生受體化考核方法 | 2020-05-11 | 906 |
一種基于云計(jì)算的醫(yī)療物聯(lián)網(wǎng)遠(yuǎn)程服務(wù)系統(tǒng) | 2020-05-08 | 759 |
模組信息存儲(chǔ)方法、模組信息檢索方法、模組信息存儲(chǔ)裝置和測(cè)試設(shè)備 | 2020-05-11 | 653 |
一種混合信息檢索方法及裝置 | 2020-05-11 | 444 |
一種基于視窗的實(shí)現(xiàn)動(dòng)態(tài)視頻監(jiān)控的二維云臺(tái)裝置及方法 | 2020-05-11 | 726 |
基于人工智能的在線教育課程分配平臺(tái) | 2020-05-08 | 106 |
一種基于大數(shù)據(jù)應(yīng)用的短文本信息檢索系統(tǒng) | 2020-05-08 | 179 |
基于Lucene全文檢索的配電網(wǎng)數(shù)據(jù)處理方法、裝置 | 2020-05-11 | 377 |
高效檢索全球?qū)@?/div>專(zhuān)利匯是專(zhuān)利免費(fèi)檢索,專(zhuān)利查詢,專(zhuān)利分析-國(guó)家發(fā)明專(zhuān)利查詢檢索分析平臺(tái),是提供專(zhuān)利分析,專(zhuān)利查詢,專(zhuān)利檢索等數(shù)據(jù)服務(wù)功能的知識(shí)產(chǎn)權(quán)數(shù)據(jù)服務(wù)商。
我們的產(chǎn)品包含105個(gè)國(guó)家的1.26億組數(shù)據(jù),免費(fèi)查、免費(fèi)專(zhuān)利分析。
分析報(bào)告專(zhuān)利匯分析報(bào)告產(chǎn)品可以對(duì)行業(yè)情報(bào)數(shù)據(jù)進(jìn)行梳理分析,涉及維度包括行業(yè)專(zhuān)利基本狀況分析、地域分析、技術(shù)分析、發(fā)明人分析、申請(qǐng)人分析、專(zhuān)利權(quán)人分析、失效分析、核心專(zhuān)利分析、法律分析、研發(fā)重點(diǎn)分析、企業(yè)專(zhuān)利處境分析、技術(shù)處境分析、專(zhuān)利壽命分析、企業(yè)定位分析、引證分析等超過(guò)60個(gè)分析角度,系統(tǒng)通過(guò)AI智能系統(tǒng)對(duì)圖表進(jìn)行解讀,只需1分鐘,一鍵生成行業(yè)專(zhuān)利分析報(bào)告。
信息檢索熱門(mén)專(zhuān)利