實(shí)時(shí)廣告競(jìng)拍平臺(tái)中的海量數(shù)據(jù)分析和競(jìng)價(jià)預(yù)測(cè)
摘要:實(shí)時(shí)廣告競(jìng)拍平臺(tái)會(huì)產(chǎn)生海量的數(shù)據(jù),如何對(duì)這些數(shù)據(jù)進(jìn)行分析和建模會(huì)決定廣告競(jìng)拍的成敗.其中一個(gè)重要的問(wèn)題是,如何得到勝出競(jìng)價(jià)的概率密度函數(shù)以便用于指導(dǎo)競(jìng)價(jià).在文獻(xiàn)(Cui Y, Zhang R, Li W, Mao J. Bid landscape forecasting in online ad exchange marketplace. Proceedings of the 17th A CM SIGKDD International Conference on Knowledge Discovery and Data Mining. New York: ACM, 2011: 265-273)中,雅虎實(shí)驗(yàn)室提出了一個(gè)技術(shù)框架來(lái)解決這個(gè)問(wèn)題:首先利用合理的統(tǒng)計(jì)學(xué)方法對(duì)海量數(shù)據(jù)按照特征屬性進(jìn)行分類(lèi);再利用高效的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲(chǔ),以便快速定位特定屬性的信息;最后用梯度提升決策樹(shù)(gradient boosting decision trees,GBDT)模型和有限混合模型(finite mixture model,F(xiàn)MM)學(xué)習(xí)得到勝出競(jìng)價(jià)的分布模型.結(jié)合國(guó)內(nèi)競(jìng)拍平臺(tái)的數(shù)據(jù)特點(diǎn),在上述文獻(xiàn)的基礎(chǔ)上,對(duì)技術(shù)框架進(jìn)行改進(jìn),并提出修正的算法.
注: 保護(hù)知識(shí)產(chǎn)權(quán),如需閱讀全文請(qǐng)聯(lián)系應(yīng)用數(shù)學(xué)與計(jì)算數(shù)學(xué)學(xué)報(bào)雜志社