來源:《中國(guó)高新技術(shù)產(chǎn)業(yè)導(dǎo)報(bào)》
北京是中國(guó)軟件產(chǎn)業(yè)的中心,產(chǎn)業(yè)規(guī)模居全國(guó)首位。盡管如此,北京的數(shù)據(jù)挖掘產(chǎn)業(yè)發(fā)展與中國(guó)數(shù)據(jù)產(chǎn)業(yè)類似,仍停留在初級(jí)階段。北京擁有大量從事數(shù)據(jù)挖掘的國(guó)內(nèi)外企業(yè)和單位,分布在理論算法研究、軟件工具、咨詢服務(wù)、集成開發(fā)等產(chǎn)業(yè)鏈各個(gè)環(huán)節(jié)。相比較而言,產(chǎn)業(yè)鏈上游市場(chǎng)主要被國(guó)外企業(yè)占據(jù),國(guó)內(nèi)企業(yè)主要處于產(chǎn)業(yè)鏈的末端。SAS、SPSS、SAP、Oracle、Teredata、微軟和IBM等企業(yè)都把北京作為輻射中國(guó)的核心;而國(guó)內(nèi)企業(yè)像神州數(shù)碼、太極、中科軟、華迪、拓爾思等主要提供系統(tǒng)集成服務(wù),產(chǎn)品和工具提供商數(shù)量較少,規(guī)模較小,影響力與國(guó)外企業(yè)相比有一定差距。
北京海量數(shù)據(jù)挖掘產(chǎn)業(yè)發(fā)展難點(diǎn)分析
用戶數(shù)據(jù)挖掘工具使用能力弱
目前用戶普遍存在的問題是,數(shù)據(jù)掌握者與數(shù)據(jù)挖掘結(jié)果需求者往往不是同一人,由此造成掌握企業(yè)數(shù)據(jù)的人不知道數(shù)據(jù)有什么用,而需要數(shù)據(jù)挖掘結(jié)果的人卻不知道從何處得到這些結(jié)果,因而在決策中處于被動(dòng)的局面。用戶數(shù)據(jù)挖掘工具使用能力弱,造成企業(yè)數(shù)據(jù)與數(shù)據(jù)挖掘結(jié)果的集成問題突出。
用戶缺乏能夠執(zhí)行數(shù)據(jù)挖掘的復(fù)合型人才
從目前電信、金融行業(yè)的人才結(jié)構(gòu)來看,主導(dǎo)建設(shè)數(shù)據(jù)挖掘系統(tǒng)的大多是工科出身,業(yè)務(wù)不熟悉,對(duì)于數(shù)學(xué)領(lǐng)域中的統(tǒng)計(jì)學(xué)也都較為生疏。因此這種復(fù)合型人才的缺乏也在很大程度上造成了我國(guó)數(shù)據(jù)挖掘市場(chǎng)的不成熟。
數(shù)據(jù)源的可靠性問題
數(shù)據(jù)源是整個(gè)數(shù)據(jù)挖掘過程的源頭,如果源頭的數(shù)據(jù)不能保證可靠、可信和科學(xué),那么挖掘得到的信息也就不可靠。因此,如果數(shù)據(jù)源的問題不解決,數(shù)據(jù)挖掘就是紙上談兵。
北京發(fā)展海量數(shù)據(jù)挖掘產(chǎn)業(yè)的優(yōu)劣勢(shì)分析
北京發(fā)展海量數(shù)據(jù)挖掘產(chǎn)業(yè)的優(yōu)勢(shì)
一是數(shù)據(jù)挖掘產(chǎn)業(yè)結(jié)構(gòu)完整。完整的數(shù)據(jù)挖掘產(chǎn)業(yè)鏈條包括算法提供方、產(chǎn)品和工具提供商、系統(tǒng)集成商、咨詢公司和企業(yè)用戶。北京是中國(guó)軟件產(chǎn)業(yè)的中心,其海量數(shù)據(jù)挖掘產(chǎn)業(yè)結(jié)構(gòu)相對(duì)完整。
二是有較為成熟的理論和技術(shù)。北京有較為成熟的海量數(shù)據(jù)挖掘理論和技術(shù),擁有北大SAS 數(shù)據(jù)挖掘卓越中心、中國(guó)科大博納數(shù)據(jù)挖掘中心等專業(yè)研究機(jī)構(gòu);擁有中科院計(jì)算所MSMiner多策略數(shù)據(jù)挖掘平臺(tái)、人大金倉(cāng)SmartBI系列產(chǎn)品、TRS BigData等海量數(shù)據(jù)挖掘產(chǎn)業(yè)有代表性的產(chǎn)品。
三是數(shù)據(jù)資源豐富,企業(yè)、政務(wù)機(jī)關(guān)集聚,數(shù)據(jù)的質(zhì)量和數(shù)量都占有優(yōu)勢(shì)。