論空間數據挖掘和知識發現的理論與方法

2021-12-17 23:52陳新
電腦知識與技術 2021年33期
關鍵詞:理論方法問題

陳新

摘要:隨著經濟全球化不斷發展,信息化時代的不斷深入,讓更多的知識數據成為當下進行決策的關鍵條件。而目前的這種空間數據挖掘方法,在信息系統技術的各個領域都有著廣泛的使用,空間數據挖掘也可以稱之為空間知識發現,是從空間數據庫中提取相應的數據模式和特征,通過數據分析從而得出數據的普遍關系和其內在聯系的數據特征。近幾年來,隨著科學技術的發展,空間信息技術也取得了非常大的突破。這種對可視化的空間數據挖掘方法已經是該領域研究發展的必要手段。該文對于空間數據挖掘的問題及發展趨勢也進行了深刻的討論。

關鍵詞:空間數據挖掘;知識發現;理論;問題;方法

中圖分類號:TP311? ? ? ? 文獻標識碼:A

文章編號:1009-3044(2021)33-0020-02

開放科學(資源服務)標識碼(OSID):

1 前言

在大數據的影響下,空間測繪技術不斷發展,空間數據庫也是不斷地完善和發展。這種包括資源環境、自然災害等空間數據越發增多,而且空間數據庫的數據量也成指數級增長。但是目前數據資源豐富,空間數據挖掘方式的落后成為現狀。如何提高我們現在的空間數據挖掘和知識發現的理論方法便非常重要,所以關于這個熱點話題,本文展開了討論。

2 什么是空間數據挖掘

所謂的空間數據挖掘就是在空間數據庫和數據倉庫的基礎上,通過合理利用統計學、模式識別技術、人工智能等信息技術手段,從大量的數據中不斷篩選、發掘、整理、存儲和輸出的一個過程。最終的目的是將自己所需要的數據通過整合聯系,最終得出可以理解的理論知識,從而發現出數據聯系的內在關系,進而推導出客觀世界的本質規律和發展趨勢。

空間數據發掘目前被應用的領域非常廣泛,例如地理信息系統、圖像數據探測、交通、醫學等領域。目前的數據庫系統和數據倉庫已經成為主要的信息交流平臺,所以空間數據挖掘系統也應當成為當前數據庫和數據倉庫體系建設的必要一環。當下的空間數據挖掘技術的不斷發展和突破,便成為當今社會發展決策的關鍵工具[1]。

空間數據挖掘系統的結構分為三層。第一層是數據源,也就是所謂的空間數據庫。第二層是挖掘器,利用空間數據挖掘系統中匹配的相應算法進行數據上的提取。并且在一定程度上根據客戶的需要和所涉及的領域進行系統化的篩選。第三層則是用戶界面,主要將篩選的空間數據通過可視化的方式輸出給用戶。在整個的空間數據挖掘的過程中,總體都是由用戶進行控制,通過人機交互數據最終取得用戶想要的結果。而良好的算法邏輯是空間數據挖掘出知識的結果是否滿意的前提。

3 空間數據挖掘中存在的問題

空間數據挖掘的發展關乎空間數據庫的整理和探知,也可以在一定程度上影響決策者的決策走向。所以當前空間數據挖掘的問題研究成為當今非常熱門的話題。筆者總結出了以下幾點:

3.1 空間數據挖掘中算法理論并不完善

通過對于空間數據挖掘的研究,這種空間數據挖掘所涉及的學科非常多,例如計算機、網絡學科、統計學等。雖然近幾年的研究在這幾方面都有一定的成果,但是隨著各種學科地深入探索,不斷推動著空間挖掘技術中算法的更新和完善,而目前隨著數據挖掘技術和相關理論技術的不斷突破的情況下,新的空間挖掘中的算法理論出現是肯定的,而且對于當前的知識發現技術體系也是有非常大的推動作用。所以在空間數據挖掘的算法理論上需要進一步地研究和完善。

3.2 應用研究方面的問題

當前在空間數據挖掘應用和現實相結合的問題也是目前熱點討論話題之一。主要是由于集成多的算法和知識發現系統等相互聯系而形成的。所以在空間數據挖掘中,一個實用的系統都是針對性地開發,針對客戶群體進行一對一的算法研究。

在這種不確定性和模糊性并存的空間數據庫進行信息的匹配、分析和存儲的問題上,空間數據挖掘方法還并不能滿足這種不確定性的要求。而且目前也沒有相應的方法進行解決,更沒有談論出一種非常好的方法來因對目前空間數據對于隨機性和模糊性的問題進行解決。這種條件下的數據挖掘質量也是只能作為參考[2]??臻g數據挖掘出來的知識量非常大,但挖掘出來的效益是什么樣的并沒有人去針對性地研究,而且評價條件也是沒有相應的參考標準,所以在空間數據挖掘的發展和進步中這是一個必須解決的問題。

3.3 空間數據庫類型多樣性

空間數據庫涉及的領域非常多,這就造成了數據類型多種多樣,例如關系型數據、結構化數據等,再加上目前互聯網的發展。網絡連接了更多的空間數據庫,所以在情況復雜上面,空間數據挖掘方面的要求更加高,而且采用單一的空間數據發掘方案確實遠遠不夠的。而且在空間數據不穩定的這個條件下,空間數據庫也是不穩定的,進而對于數據的穩定性和可靠性是影響非常大的。

4 空間數據挖掘中問題的解決辦法

4.1 提高空間數據的穩定性和可控制性

空間數據庫在其數據量大、結構多、空間結構差異性大等方面都是會影響到空間數據挖掘的準確性。所以我們想要提高這種空間數據挖掘能力,就要先穩定數據庫的內容。首先就是要將現有的數據分析技術引用到數據庫的綜合處理能力上面。比如在空間上對數據庫進行分層,并且將相鄰的空間數據進行結合,這樣可以高效地從空間分層的數據中提高挖掘算法的效率。

4.2 提升數據挖掘算法的有效性和可伸縮性

在空間數據挖掘過程中,要提高挖掘算法的對于處理大量復雜數據的能力,這就需要讓挖掘算法產生有效性和可伸縮性的特征。在可伸縮性方面,要關注大量復雜數據的處理問題,改變和精進算法運行的策略,通過使用平行計算環境來實現多算法同時展開,提高處理復雜能力的效率,例如使用SPRINT分類算法等。其次,在空間數據算法的開始之前,執行的邏輯便是劃分數據庫,將所要分析的雜亂數據進行劃分成為不同的部分,再通過每個部分的知識挖掘,最終達到提高效率,提高準確率的目的。第三,還可以使用采樣技術,這種技術是統計學領域非常重要的組成部分。通過劃分采樣來達到對效率和準確率的提高。第四則是采用數據的預處理技術,這種技術可以在算法展開前進行第一層的篩選,而且在用戶的各種約束下,可以很好地保存好原始數據信息。在用戶交互的過程中進行不斷地改變與適應,最終達到提升效率的結果,做出更有效的空間數據挖掘活動[3]。

4.3使用高維空間數據算法邏輯

目前互聯網信息技術不斷提高,空間數據庫的屬性越來越多。所以需要使用這種高維的數據挖掘算法邏輯,這種做法的關鍵就在于要優化查詢處理。這種方法主要是兩種:一種是通過映射技術,把高維問題映射到平級的低維問題中;另一種就是建立高維的搜索引擎,通過直接搜索匹配進行問題的解決。

映射技術存在比較大的問題,高維數據映射到一維數據中,一維數據會被覆蓋,這就會導致一維數據也會變得結構復雜。而且這種高維映射到一維也不可能完全適配,只能盡量映射,所以問題還是比較大的。但是在高維搜索引擎的構建上,會考慮到高維數據的特點,進而更加合適高維數據的查詢[4]。這種搜索引擎的創建過程是個復雜而且邏輯內容量很大的工作,但是可以更好地幫助空間信息挖掘技術的發展,所以這種方式還是非常合適的。

4.4 做可視化空間信息挖掘

通過使用SDM算法應用來達到數據可視化的條件。首先是要數據庫可以使用多維度的組合,通過不斷的數據組織,成為可視化的數據,主要是基于圖像或者像素技術等技術形式出現。其次是挖掘過程需要可視化,將挖掘過程通過圖標標注等方式進行相關的內容表現,例如數據的出處,數據如何篩選,如何開始預處理的,甚至是通過何種邏輯進行保存的。其三便是通過數據挖掘算法模型構建的可視化,來達到讓用戶及時了解自己所得設定的規則,及時對于空間數據挖掘知識的調整,進而提高效率。最后是挖掘結果的可視化。將數據通過表格等方式進行輸出,以用戶可以讀懂的方式呈現在用戶面前[5]。

5 結論

目前的空間數據挖掘在技術的發展會給空間信息處理領域帶來非常大的進步。而且這種空間數據理論挖掘是一個非常重要的研究方向,不管是在理論和方法上進行深入的研究。也要對數據進行優化和分類,通過多層次多角度的空間數據挖掘來支持決策者進行決策,進而不斷推動各領域發展。所以在空間技術挖掘是當今必須重視,并且要進行深刻的討論。

參考文獻:

[1] 孫建國,趙軍,閆浩文.一個空間數據挖掘原型系統的設計與實現[J].蘭州交通大學學報,2004,23(4):94-97.

[2] 武文波,張自賓,金卓.空間數據挖掘技術及應用[J].水資源與水工程學報,2008,19(6):23-27.

[3] 閆永慧,胡伍生.空間數據挖掘中的數據預處理技術研究[J].山西建筑,2009,35(14):363-365.

[4] 高陽.中國數據挖掘研究進展[J].南京大學學報(自然科學版),2011,47(4):351-353.

[5] 原建偉.基于內容分析的數據挖掘研究[J].河北工業科技,2011,28(5):299-301,342.

【通聯編輯:聞翔軍】

猜你喜歡
理論方法問題
變快的方法
基于多元外在表征理論的高一氧化還原反應教學
學習方法
“理論”與“實踐”
多項式理論在矩陣求逆中的應用
初中語文教師專業素養存在問題及提升策略研究
初中心理教學中存在的問題研究
中小企業人力資源管理存在的問題及對策分析
我國商業銀行信貸風險管理存在的問題與對策分析
用對方法才能瘦