改善FP-growth資料挖掘演算法在巨大資料庫的效能 = Improv...
國立高雄大學資訊工程學系碩士班

 

  • 改善FP-growth資料挖掘演算法在巨大資料庫的效能 = Improving the Performance of the FP-Growth Mining Algorithm in Very Large Databases
  • 紀錄類型: 書目-語言資料,印刷品 : 單行本
    並列題名: Improving the Performance of the FP-Growth Mining Algorithm in Very Large Databases
    作者: 黃正男,
    其他團體作者: 國立高雄大學
    出版地: [高雄市]
    出版者: 撰者;
    出版年: 2009[民98]
    面頁冊數: 83面圖、表 : 30公分;
    標題: 巨大資料庫
    標題: FP-growth
    電子資源: http://handle.ncl.edu.tw/11296/ndltd/01245018564021770271
    附註: 參考書目:面
    附註: 指導教授:洪宗貝
    摘要註: FP-growth 對於從交易資料庫裡挖掘關聯規則而言是一個非常重要的方法,但其在挖掘頻繁項目集前,需要先將在交易資料庫裡的所有挖掘頻繁項目建立成一樹狀結構(FP-tree),並且保留這個樹狀結構在記憶體。在挖掘關聯規則的過程中如果電腦的記憶體不足,則會許多的硬碟存取動作導致FP-growth 演算法的效率不佳。在這篇論文我們針對FP-Growth 的記憶體問題提出一個演算法,以改善FP-growth 演算法在巨大資料庫的效能。我們所提的演算法分成3 部分,在第一部分我們會先將交易資料庫的物品項目,分成許多群,而每一群的項目數目都小於一個由使用者根據記憶體大小自行決定的門檻值。在第二部分我們針對每群的項目進行FP-Growth,以便挖掘出各部分的頻繁項目集,而在挖掘的過程中我們修改原來的樹狀架構以有效找尋頻繁項目集所出現的交易編號,並使用一個壓縮表示法來表示這些尋頻繁項目集和交易編號。在第三部分,我們則利用這些壓縮的頻繁項目集和交易編號,去整合出所有跨群的頻繁項目集。我們所提的方法可以使得項目分群更平衡及更彈性,並且可以解決在尋找頻繁項目集過程中的記憶體問題。 Along with the progress of information techniques and the increase ofinformation need, some databases in the real world grow very quickly and their sizesbecome very huge. If the FP-Growth procedure is directly executed on thesedatabases to mine association rules, the computer memory may not allow all nodes ofa FP-tree generated from a huge database. This means the FP-Growth procedure willbe inefficient because of the high page fault rate in the mining process. The thesis thusfocuses on solving or easing off the mining problems incurred from memorylimitation. A sophisticated mining approach with a flexible partition of items isproposed to effectively derive association rules under the constraint of memorylimitation. The proposed approach can be divided into three phases. In the first phase,the domain items that appear in a transaction database are divided into a set of groupsunder the constraint that the number of items in each group cannot exceed a threshold.The groups in the partition may thus be independent or dependent according to thegiven data. In the second phase, we slightly modify the FP-tree structure by keepingIIIthe transaction numbers for each branch to effectively handle the cross-group miningproblem. A modified FP tree is first built from each group of items and the FP-Growthprocedure mine the frequent itemsets in individual groups. A compact representationfor the frequent itemsets from each group is then designed to save the storage ofitemsets. In the third phase, the frequent itemsets in the groups are then merged withthe aid of the encoded representation. The proposed approach can make the partitionflexible and balanced, thus causing the mining process under the memory limitationalways feasible.
館藏
  • 2 筆 • 頁數 1 •
 
310001859969 博碩士論文區(二樓) 不外借資料 學位論文 TH 008M/0019 464103 4416 2009 一般使用(Normal) 在架 0
310001859951 博碩士論文區(二樓) 不外借資料 學位論文 TH 008M/0019 464103 4416 2009 c.2 一般使用(Normal) 在架 0
  • 2 筆 • 頁數 1 •
評論
Export
取書館別
 
 
變更密碼
登入