數(shù)據(jù)挖掘技術(shù)及其在職業(yè)教育中的應(yīng)用探討
段向紅 張飛舟
摘要:文章闡述了數(shù)據(jù)挖掘技術(shù)的概念、分類、功能以及主要過(guò)程,探討分析了數(shù)據(jù)挖掘技術(shù)用于職業(yè)教育的可能性。
關(guān)鍵詞:數(shù)據(jù)挖掘;職業(yè)教育;教育信息化
目前,計(jì)算機(jī)技術(shù)已經(jīng)滲透到社會(huì)生活的各個(gè)方面,對(duì)職業(yè)教育的教學(xué)也產(chǎn)生了重要影響。隨著教育信息化進(jìn)程的推進(jìn),產(chǎn)生了大量的、復(fù)雜的數(shù)據(jù),面對(duì)如此巨大的數(shù)據(jù)資源,如何更充分、更有效地加以利用呢?將數(shù)據(jù)挖掘(Data Mining,DM)技術(shù)應(yīng)用于職業(yè)教育中,可從大量的教育數(shù)據(jù)中發(fā)現(xiàn)隱藏的、有用的知識(shí)來(lái)指導(dǎo)教育、發(fā)展教育,改善職業(yè)教育中的教學(xué)效果,從而有效提高職校學(xué)生的職業(yè)與文化素質(zhì)。
數(shù)據(jù)挖掘技術(shù)
隨著信息技術(shù)的飛速發(fā)展及數(shù)據(jù)庫(kù)技術(shù)的廣泛應(yīng)用,人們積累的數(shù)據(jù)越來(lái)越多,但是數(shù)據(jù)資源中蘊(yùn)含的知識(shí)卻未能得到充分的挖掘和利用,“數(shù)據(jù)豐富而知識(shí)貧乏”的問(wèn)題十分嚴(yán)重。人們迫切需要一種新的技術(shù)將這些海量的數(shù)據(jù)資源轉(zhuǎn)換為有用的知識(shí),從而幫助人們科學(xué)地進(jìn)行各種決策。面對(duì)這一挑戰(zhàn),數(shù)據(jù)挖掘技術(shù)應(yīng)運(yùn)而生,并逐漸顯示出其強(qiáng)大的生命力。
(一)數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是一個(gè)集統(tǒng)計(jì)學(xué)、人工智能、模式識(shí)別、并行計(jì)算、機(jī)器學(xué)習(xí)、數(shù)據(jù)庫(kù)等技術(shù)于一體的交叉性學(xué)科研究領(lǐng)域。數(shù)據(jù)挖掘是一個(gè)從數(shù)據(jù)中發(fā)現(xiàn)知識(shí)的過(guò)程。數(shù)據(jù)挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的、有用的信息和知識(shí)的過(guò)程。通過(guò)數(shù)據(jù)挖掘可以幫助決策者尋找規(guī)律,發(fā)現(xiàn)被忽略的要素,預(yù)測(cè)趨勢(shì),進(jìn)行決策。數(shù)據(jù)挖掘是對(duì)數(shù)據(jù)內(nèi)在和本質(zhì)的高度抽象與概括,是對(duì)數(shù)據(jù)從感性認(rèn)識(shí)到理性認(rèn)識(shí)的升華。它涉及對(duì)數(shù)據(jù)庫(kù)中的大量數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析以及模型化處理,從中提取輔助決策的關(guān)鍵性數(shù)據(jù),因此數(shù)據(jù)挖掘就是深層次的數(shù)據(jù)信息分析方法。
(二)數(shù)據(jù)挖掘的分類與主要功能
數(shù)據(jù)挖掘的分類方式很多,根據(jù)數(shù)據(jù)挖掘的任務(wù)可分為:分類或預(yù)測(cè)模型數(shù)據(jù)挖掘、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類分析、關(guān)聯(lián)規(guī)則分析、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等。根據(jù)數(shù)據(jù)挖掘的對(duì)象可分為:關(guān)系數(shù)據(jù)庫(kù)、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、多媒體數(shù)據(jù)、異質(zhì)數(shù)據(jù)庫(kù)、遺產(chǎn)數(shù)據(jù)庫(kù)以及Web數(shù)據(jù)源等。數(shù)據(jù)挖掘具有預(yù)測(cè)趨勢(shì)和行為、關(guān)聯(lián)分析、聚類、概念描述以及偏差檢測(cè)等主要功能。
預(yù)測(cè)趨勢(shì)和行為數(shù)據(jù)挖掘自動(dòng)在大型數(shù)據(jù)庫(kù)中尋找預(yù)測(cè)性信息,以往需要進(jìn)行大量手工分析的問(wèn)題如今可以通過(guò)數(shù)據(jù)挖掘迅速直接地由數(shù)據(jù)本身得出結(jié)論。
關(guān)聯(lián)分析數(shù)據(jù)關(guān)聯(lián)是數(shù)據(jù)庫(kù)中存在的一類重要的可被發(fā)現(xiàn)的知識(shí)。若兩個(gè)或多個(gè)變量的取值之間存在某種規(guī)律性,就稱為關(guān)聯(lián)。
聚類數(shù)據(jù)庫(kù)中的記錄可被劃分為一系列有意義的子集,即聚類。聚類增強(qiáng)了人們對(duì)客觀現(xiàn)實(shí)的認(rèn)識(shí),是概念描述和偏差分析的先決條件。
概念描述概念描述就是對(duì)某類對(duì)象的內(nèi)涵進(jìn)行描述,并概括這類對(duì)象的有關(guān)特征。
偏差檢測(cè)數(shù)據(jù)庫(kù)中的數(shù)據(jù)常有一些異常記錄,從數(shù)據(jù)庫(kù)中檢測(cè)這些偏差很有意義。偏差包括很多潛在的知識(shí),如分類中的反常實(shí)例、不滿足規(guī)則的特例等。
總之,數(shù)據(jù)挖掘所要處理的問(wèn)題,就是在龐大的數(shù)據(jù)庫(kù)中找出有價(jià)值的隱藏事件,并且加以分析,獲取有意義的信息,歸納出有用的結(jié)構(gòu),作為決策者進(jìn)行決策的依據(jù)。
(三)數(shù)據(jù)挖掘的基本過(guò)程
數(shù)據(jù)挖掘的基本過(guò)程包括:數(shù)據(jù)收集、數(shù)據(jù)整理、數(shù)據(jù)挖掘、結(jié)果評(píng)估、分析決策等,其基本與步驟如圖1所示。從圖1不難看出,數(shù)據(jù)挖掘的各過(guò)程不是一次就能完成的,其中某些步驟或者全過(guò)程可能需要多次的循環(huán)反復(fù),才有可能達(dá)到預(yù)期的效果。
數(shù)據(jù)收集大量全面豐富的數(shù)據(jù)是數(shù)據(jù)挖掘的前提,沒(méi)有數(shù)據(jù),數(shù)據(jù)挖掘也就無(wú)從談起。因此,數(shù)據(jù)收集是數(shù)據(jù)挖掘的首要步驟。在開(kāi)始數(shù)據(jù)挖掘之前,首先要消除噪聲或不一致數(shù)據(jù),廣泛收集用戶的各種信息,建立數(shù)據(jù)庫(kù)與數(shù)據(jù)表,為數(shù)據(jù)挖掘做準(zhǔn)備。數(shù)據(jù)可以來(lái)自于現(xiàn)有事務(wù)處理系統(tǒng),也可以從數(shù)據(jù)倉(cāng)庫(kù)中得到。
數(shù)據(jù)整理數(shù)據(jù)整理是數(shù)據(jù)挖掘的必要環(huán)節(jié)。由數(shù)據(jù)收集階段得到的數(shù)據(jù)可能有一定的“污染”,表現(xiàn)在數(shù)據(jù)可能存在自身的不一致性,或者有缺失數(shù)據(jù)的存在等,從數(shù)據(jù)庫(kù)中檢索與分析任務(wù)相關(guān)的數(shù)據(jù),確保數(shù)據(jù)能夠真實(shí)反映待挖掘的對(duì)象,因此數(shù)據(jù)的整理是必需的。數(shù)據(jù)挖掘通過(guò)匯總或聚集操作將數(shù)據(jù)變換或統(tǒng)一成適合挖掘的形式,可單獨(dú)利用也可綜合利用各種數(shù)據(jù)挖掘方法對(duì)數(shù)據(jù)進(jìn)行分析,挖掘用戶所需要的各種規(guī)則、趨勢(shì)、類別、模型等。
結(jié)果評(píng)估數(shù)據(jù)挖掘的結(jié)果有些是有實(shí)際意義的,而有些是沒(méi)有實(shí)際意義的,這就需要進(jìn)行評(píng)估。這樣對(duì)發(fā)現(xiàn)的規(guī)則、趨勢(shì)、類別、模型進(jìn)行評(píng)估,可以保證發(fā)現(xiàn)的模式的正確性。
分析決策數(shù)據(jù)挖掘的最終目的是輔助決策。決策者可以根據(jù)數(shù)據(jù)挖掘的結(jié)果,結(jié)合實(shí)際情況,調(diào)整競(jìng)爭(zhēng)策略等,并將挖掘結(jié)果以可視化的形式展現(xiàn)在用戶面前。
(四)數(shù)據(jù)挖掘的模型
數(shù)據(jù)挖掘模型在本質(zhì)上可分為預(yù)測(cè)型模型與描述型模型兩類,其模型結(jié)構(gòu)框圖如圖2所示。從圖2中可以看出,每類模型下都包含一些需要用到該類模型的最常用的數(shù)據(jù)挖掘任務(wù)。預(yù)測(cè)型模型對(duì)數(shù)據(jù)的值進(jìn)行預(yù)測(cè),能夠完成的數(shù)據(jù)挖掘任務(wù)包括分類、回歸、時(shí)間序列分析和預(yù)測(cè)。描述型模型對(duì)數(shù)據(jù)中的模式或關(guān)系進(jìn)行辨識(shí)。與預(yù)測(cè)型模型不同,描述型模型提供了一種探索被分析數(shù)據(jù)的性質(zhì)的方法,而不是預(yù)測(cè)新的性質(zhì)。聚類、匯總、關(guān)聯(lián)規(guī)則和序列發(fā)現(xiàn)在本質(zhì)上都通常被視為描述型模型。
數(shù)據(jù)挖掘技術(shù)的應(yīng)用
(一)教學(xué)管理方面
職校學(xué)生的知識(shí)結(jié)構(gòu)和學(xué)習(xí)風(fēng)格是學(xué)校學(xué)生的基本特征。知識(shí)結(jié)構(gòu)說(shuō)明了學(xué)生對(duì)正在或?qū)⒁獙W(xué)習(xí)知識(shí)的掌握情況,主要包括學(xué)生初始技能、當(dāng)前技能和目標(biāo)技能。學(xué)習(xí)風(fēng)格包括學(xué)生的生理特征、心理特征和社會(huì)特征三個(gè)方面。利用數(shù)據(jù)挖掘功能分析學(xué)生特征,掌握學(xué)習(xí)者的狀態(tài),目的在于幫助學(xué)習(xí)者修正自己的學(xué)習(xí)行為。通過(guò)對(duì)學(xué)生特征分析結(jié)果和事先制定的行為目標(biāo)標(biāo)準(zhǔn)進(jìn)行比較,教師能夠幫助學(xué)習(xí)者修正學(xué)習(xí)行為,提高學(xué)習(xí)能力,完善人格,因材施教,有利于學(xué)生各方面素質(zhì)和諧發(fā)展。隨著計(jì)算機(jī)在教學(xué)管理方面的廣泛應(yīng)用,學(xué)生和教師的學(xué)習(xí)、工作、獎(jiǎng)勵(lì)、處罰等信息被存儲(chǔ)在教學(xué)管理數(shù)據(jù)庫(kù)中。例如,學(xué)生入學(xué)后,在校學(xué)生管理數(shù)據(jù)庫(kù)中存放有大量的學(xué)生檔案,包括的內(nèi)容有家庭情況、身體狀況、入校前后的學(xué)習(xí)成績(jī)、特長(zhǎng)愛(ài)好、獎(jiǎng)懲等信息。利用數(shù)據(jù)挖掘的關(guān)聯(lián)分析和演變分析等功能,在學(xué)生管理數(shù)據(jù)庫(kù)中挖掘有價(jià)值的數(shù)據(jù),分析學(xué)生的日常行為,可得知各種行為活動(dòng)之間的內(nèi)在聯(lián)系。
(二)教學(xué)評(píng)價(jià)方面
教學(xué)評(píng)價(jià)是世界教育科學(xué)研究三大研究領(lǐng)域之一。教學(xué)評(píng)價(jià)的技術(shù)水平是衡量一個(gè)國(guó)家教育發(fā)展水平的重要尺度。教學(xué)評(píng)價(jià)就是根據(jù)教學(xué)目標(biāo)和教學(xué)原則的要求,系統(tǒng)地收集信息,對(duì)教學(xué)過(guò)程中的教學(xué)活動(dòng)以及教學(xué)成果給予價(jià)值判斷的過(guò)程。其內(nèi)容主要包括對(duì)學(xué)生“學(xué)”的評(píng)價(jià)和對(duì)教師“教”的評(píng)價(jià)。
目前,職業(yè)教育評(píng)價(jià)指標(biāo)主要包括學(xué)生綜合測(cè)評(píng)指標(biāo)和課堂教學(xué)評(píng)價(jià)指標(biāo),這些評(píng)價(jià)指標(biāo)多數(shù)是參考國(guó)內(nèi)外相關(guān)評(píng)價(jià)指標(biāo)體系并結(jié)合實(shí)際操作中的經(jīng)驗(yàn)和調(diào)查問(wèn)卷等制定的,對(duì)于各項(xiàng)指標(biāo)之間的關(guān)系、重要程度以及指標(biāo)存在的合理性等方面很難作出判斷,將關(guān)聯(lián)規(guī)則和粗糙集理論應(yīng)用于各評(píng)價(jià)系統(tǒng),可以對(duì)指標(biāo)進(jìn)行排序、約簡(jiǎn)等,在一定程度上對(duì)評(píng)價(jià)指標(biāo)進(jìn)行優(yōu)化,可以找到比較合理且簡(jiǎn)單易行的評(píng)價(jià)指標(biāo)體系。另一方面,學(xué)習(xí)評(píng)價(jià)是教育工作者的重要職責(zé)之一。評(píng)定學(xué)生的學(xué)習(xí)行為,既可對(duì)學(xué)生起到信息反饋和激發(fā)學(xué)習(xí)動(dòng)機(jī)的作用,又是檢查課程計(jì)劃、教學(xué)程序以至教學(xué)目的的手段,也是考查學(xué)生個(gè)別差異,便于因材施教的途徑。評(píng)價(jià)要遵循“評(píng)價(jià)內(nèi)容要全面、評(píng)價(jià)方式要多元化、多次化、注重自評(píng)與互評(píng)的有機(jī)結(jié)合”的原則。在教學(xué)科研網(wǎng)絡(luò)普遍建立的今天,利用數(shù)據(jù)挖掘工具對(duì)學(xué)生的學(xué)習(xí)成績(jī)數(shù)據(jù)庫(kù)、行為記錄數(shù)據(jù)庫(kù)、獎(jiǎng)勵(lì)處罰數(shù)據(jù)庫(kù)等進(jìn)行分析處理,可以及時(shí)得到學(xué)生的評(píng)價(jià)結(jié)果,對(duì)學(xué)生出現(xiàn)的不良學(xué)習(xí)行為進(jìn)行及時(shí)指正。同時(shí),還能夠克服教師主觀評(píng)價(jià)的不公正、不客觀的弱點(diǎn),減輕教師的工作量。
因此,將關(guān)聯(lián)規(guī)則運(yùn)用于教學(xué)評(píng)價(jià)數(shù)據(jù)中,探討教學(xué)效果的好壞與教師年齡、職稱之間的關(guān)系、學(xué)生各項(xiàng)素質(zhì)指標(biāo)之間的關(guān)系等,用來(lái)及時(shí)地對(duì)教師的教學(xué)和專業(yè)發(fā)展以及學(xué)生的學(xué)習(xí)和個(gè)性發(fā)展提供指導(dǎo),這是非常有意義的。另外,教學(xué)評(píng)價(jià)在實(shí)施的過(guò)程中,更多的是注重評(píng)價(jià)的結(jié)果,以作為教師晉升、學(xué)生評(píng)優(yōu)等的依據(jù),很少考慮教學(xué)評(píng)價(jià)對(duì)教學(xué)過(guò)程的指導(dǎo)作用。
(三)課程設(shè)置方面
職業(yè)學(xué)校的課程設(shè)置有其一定的規(guī)律性,先基礎(chǔ),后專業(yè),學(xué)習(xí)是循序漸進(jìn)的。每學(xué)期要修的課程雖然有一定的規(guī)律,但也不是一成不變的。如何合理地設(shè)置每學(xué)期的課程,使之既顧全了大局,又兼顧局部需求是值得研究的問(wèn)題。例如,同一年級(jí)在不同班級(jí)學(xué)習(xí)同一門(mén)課程時(shí),學(xué)生的總體成績(jī)有時(shí)會(huì)相差很大,利用學(xué)校教學(xué)數(shù)據(jù)庫(kù)中存放的歷屆學(xué)生各門(mén)學(xué)科的考試成績(jī),結(jié)合數(shù)據(jù)挖掘的關(guān)聯(lián)分析與時(shí)間序列分析等相關(guān)功能,就能從這些海量數(shù)據(jù)中挖掘出有用的信息,幫助分析這些數(shù)據(jù)之間的相關(guān)性、回歸性等性質(zhì),得出一些具有價(jià)值的規(guī)則和信息,最終找到影響學(xué)生成績(jī)的原因,并可在此基礎(chǔ)上,對(duì)課程設(shè)置做出合理安排。另外,在通常情況下,學(xué)生可以正常地修完本學(xué)期的課程,不會(huì)影響學(xué)生的學(xué)習(xí)效果。但個(gè)別學(xué)期出現(xiàn)的特殊情況如果處理不好,就會(huì)影響學(xué)習(xí)效果。
(四)教學(xué)過(guò)程與方法方面
在教學(xué)過(guò)程中,教師通常采用多種教學(xué)方法完成對(duì)本門(mén)課程的教學(xué)任務(wù),如講授法、討論法、案例法、多媒體輔助法、實(shí)驗(yàn)對(duì)比法、調(diào)查法、參觀學(xué)習(xí)法等等。這些大量的教學(xué)班次實(shí)踐過(guò)的經(jīng)驗(yàn)存放于教學(xué)數(shù)據(jù)庫(kù)中,可以用數(shù)據(jù)挖掘的方法來(lái)挖掘數(shù)據(jù)庫(kù)中的數(shù)據(jù),判定面臨的教學(xué)班應(yīng)該采取什么教學(xué)方法才能滿足教學(xué)需要,更有利于學(xué)生對(duì)知識(shí)的理解和吸收。課程結(jié)束后將每個(gè)學(xué)生的成績(jī)和對(duì)教學(xué)方法的評(píng)價(jià)進(jìn)行綜合,運(yùn)用回歸線性分析、關(guān)聯(lián)規(guī)則的方法來(lái)判斷本次教學(xué)方法適合哪一類學(xué)生,對(duì)于分類、分層次教學(xué)具有推廣和指導(dǎo)意義。
考試是對(duì)教學(xué)效果的檢驗(yàn),是教學(xué)中必不可少的環(huán)節(jié)之一,能否對(duì)教和學(xué)起到促進(jìn)作用,在很大程度上取決于試題質(zhì)量的好壞。因此,探索有效的方法來(lái)評(píng)價(jià)試題的質(zhì)量在實(shí)際教學(xué)過(guò)程中有重要的意義。目前,大多數(shù)學(xué)校只是簡(jiǎn)單地根據(jù)學(xué)生的考試成績(jī)畫(huà)出成績(jī)分布曲線,如果是正態(tài)分布則認(rèn)為試題的難易度和區(qū)分度基本符合要求。這種評(píng)價(jià)方法給出的是對(duì)試題質(zhì)量的粗略評(píng)價(jià),對(duì)實(shí)際教學(xué)沒(méi)有起到很好的促進(jìn)和指導(dǎo)作用。將數(shù)據(jù)挖掘中的關(guān)聯(lián)規(guī)則應(yīng)用于試卷分析數(shù)據(jù)庫(kù),根據(jù)學(xué)生得分情況可以分析出每道題的難易度、區(qū)分度、相關(guān)度等指標(biāo),教師據(jù)此可以對(duì)試題的質(zhì)量作出比較準(zhǔn)確的評(píng)價(jià),進(jìn)而可以用來(lái)檢查自己的教學(xué)情況及學(xué)生的掌握情況并為今后的教學(xué)提供指導(dǎo)。
數(shù)據(jù)挖掘技術(shù)采用比較成熟和科學(xué)的分析方法,在將其引入教學(xué)時(shí)也必須充分處理好其他因素,比如調(diào)查問(wèn)卷的合理度、反饋結(jié)果的真實(shí)度、數(shù)據(jù)量的大小是否足以進(jìn)行挖掘、不同學(xué)科的課程特點(diǎn)及挖掘結(jié)果的可信度等等,這樣才能更充分地挖掘?qū)W生的潛力,提高教學(xué)效率,優(yōu)化教學(xué)策略和評(píng)估教學(xué)效果。因此,數(shù)據(jù)挖掘技術(shù)經(jīng)過(guò)在教育領(lǐng)域中應(yīng)用功能及技術(shù)的不斷發(fā)展和完善,必將發(fā)揮越來(lái)越大的作用,并且隨著人們對(duì)這一技術(shù)的關(guān)注,相信其在教育領(lǐng)域的應(yīng)用范圍會(huì)越來(lái)越廣,其對(duì)教育的改革和發(fā)展必將起到巨大的推動(dòng)作用。
[1]朱明.數(shù)據(jù)挖掘[M].北京:中國(guó)科技大學(xué)出版社,2002.
[2]張玉林.數(shù)據(jù)挖掘技術(shù)在教學(xué)過(guò)程中的指導(dǎo)作用[J].西安通信學(xué)院學(xué)報(bào),2006,5(2):38-40.
[3]于承敏.數(shù)據(jù)挖掘(Data Mining)技術(shù)運(yùn)用于教育領(lǐng)域之探討[J].聊城大學(xué)學(xué)報(bào),2005,18(2):79-82.
[4]李紅艷.數(shù)據(jù)挖掘及其運(yùn)用于教學(xué)評(píng)價(jià)的設(shè)想[J].襄樊職業(yè)技術(shù)學(xué)院學(xué)報(bào),2003,2(1):142-45.
[5]林陽(yáng).數(shù)據(jù)挖掘在教育信息化中的潛在價(jià)值[J].現(xiàn)代教育技術(shù),2002,(1):65-69.