- 无标题文档


































 铁路客票 ; 数据分析 ; 数据挖掘 ; DBSCAN聚类 ; 客票管理    


 passenger ticket ; data analysis ; data mining ; DBSCAN clustering analysis ; Ticketing management    




The ticketing management of railway department usually makes decision based on historical data or empirical analysis of experts. That leads to the decision-making much vulnerable and fluctuate,then effects the development of railway. With the development of the network and information technology,railway has also driven by the big data. The characteristic of the big data is configurable rather than single. So it becomes very important to railway section to invest how to use the big data to serve the railway development and help them to make significant decision. At the same time,the data mining in railway mainly focus on the construction of database. Nevertheless,the research on the data analysis method are rare in the railway ticketing management. There are just several papers about how to apply the train ticket data into the railway marketing. With the motivation of better applying the big data into the railway ticketing marketing,this thesis has the fowling aspects:
(1) According to the relevant analysis and reduction method to select the reference data which is based on the character of the date. And using analysis of variance significant correlation with test data and found that there is significant correlation between booking time and other factors.
(2) Analysis the correlation of the advance time of booking ticket with personality character, train type, buy ticket mode, the type of the destination city and the travel time.
(3) Using density-based clustering algorithm DBSCAN gets railway tickets on classification category 5 customer groups, explaining the result of the five categories and each type of customers’ characteristics are analyzed.
(4) At last,finding the distribution regularity of railway passenger ticket behavior, many significant suggestions are proposed based on the derived of data analysis and data mining.








[1] 崇阳. 大数据时代下的物联网浅析[J]. 数字技术与应用. 2015(05): 227.

[2] 方巍,郑玉,徐江. 大数据:概念、技术及应用研究综述[J]. 南京信息工程大学学报(自然科学版). 2014(05): 405-419.

[3] 梁士斌. 用大数据提前研判旅客出行规律[N]. 法制日报, (2).

[4] James M, Chui M. Big Data: The Next Frontier for Innovation, Competition and Productivity[J]. McKinsey Quarterly. 2011.

[5] Mayer-Schönberger V, K C. Big data: A Revolution That Will Transform How We Live, Work, And Think [M]. Houghton Mifflin Harcourt, 2013.

[6] Mcguire T, Manyika J, Chui M. Why Big Data Is the New Competitive Advantage[J]. Ivey Business Journal. 2012: 7-8.

[7] Quinlan J R. Learning Efficient Classification Procedures and Their Application to Chess and Games[J]. Machine Learning: An Artifical Intelligence Approach. 1984(1): 463-482.

[8] Schlimmer J, Fisher D. Case Study of Incremental Concept Induction[J]. Proceedings of the Fourth National Conference on Artificial Intelligence. 1986: 496-501.

[9] Utgof P E. Naive Bayesian Model,NBM[J]. Proceedings of the Fifth International Conference on Machine Learning. 1988: 107-120.

[10] Agrawal R. Fast algorithms for mining association rules[J]. International Conference on Very Large Data Bases. 1994, (3): 487-499.

[11] Han J, Pei J, Y Y. Mining Frequent Patterns without Candidate Generation[J]. IEEE Trans Knowl Data Eng. 2000: 1-12.

[12] Park JS, Chen MS, Yu PS. An Effective Hash-based Algorithm for Mining Association Rules[J].Parallel Distribute Compute. 2004(61): 239-248.

[13] Mj Z. Scalable Algorithms for Association Mining[J]. IEEE Trans Knowl Data Eng. 2001(12): 372-390.

[14] Weisberg S. Applied Linear Regression[M]. Beijing: China Statistics Press, 1998: 1-291.

[15] Marques JP. Pattern Recognition Concepts,Methods and Applications[M]. Beijing: Tsinghua University Press, 2002: 51-77.

[16] Fred ALN, Leiitao JMN. Partitional VS Hierarchical Clustering using a Minimum Grammar Complexity Approach.[J]. SSPR&SPR 2000. 2000: 193-202.

[17] Macqueen. Extensions to the K-meens Algorithm for Clustering Large Data Sets with Categorical Values[J]. Data Mining and Knowledge,Discovery II. 1987: 283-304.

[18] http://www.ics.uci.edu/~mlearn/databasc/[Z].

[19] Zhao YC, Song J. GDILC:A Grid-based Density Isoline Clustering Algorithm[J]. Intemet Conf. on Info-Net IEEE Press. 2001: 140-145.

[20] Micro WM, Chow E, Tommy WS. A New Shifting Grid Clustering Algorithm[J]. PaUem Recognition. 2004, 37(4): 503-521.

[21] Viswanath P, Babu V S. Rough-DBSCAN: A Fast Hybrid Density Based Clustering Method for Large Data Sets[J]. Pattern Recognition Letters. 2009, 30(16): 1477-1488.

[22] Ester M, Kriegel H, Sander J O R, et al. A Density-based Algorithm for Discovering Clusters in Large Spatial Databases with Noise.[Z]. 1996226-231.

[23] Tugay Bilgin T, Amurcu C C, Lmaz YI. A Data Mining Application on Air Temperature Database[M]. Advances in Information Systems, Springer, 2004, 68-76.

[24] Martin Ester, Hans-Peter Kriegel, Sander J R, et al. Density-Connected Sets and their Application for Trend Detection in Spatial Databases.[Z]. 199710-15.

[25] Domenica A, Coppola M. Experiments in Parallel Clustering with DBSCAN[M]. Euro-Par 2001 Parallel Processing, Springer, 2001, 326-331.

[26] Yang C, Wang F, Huang B. Internet Traffic Classification Using Dbscan[Z]. IEEE, 2009163-166.

[27] Kieu L M, Bhaskar A, Chung E. Transit Passenger Segmentation Using Travel Regularity Mined from Smart Card Transactions Data[J]. 2014.

[28] Bhaskar A, Chung E, Others. Passenger Segmentation Using Smart Card Data[J]. Intelligent Transportation Systems, IEEE Transactions on. 2015, 16(3): 1537-1548.

[29] 李国杰,程学旗. 大数据研究:未来科技及经济社会发展的重大战略领域——大数据的研究现状与科学思考[J]. 中国科学院院刊. 2012(06): 647-657.

[30] 王元卓,靳小龙,程学旗. 网络大数据:现状与展望[J]. 计算机学报. 2013(06): 1125-1138.

[31] 程学旗,靳小龙,王元卓,等. 大数据系统和分析技术综述[J]. 软件学报. 2014(09): 1889-1908.

[32] 涂新莉,刘波,林伟伟. 大数据研究综述[J]. 计算机应用研究. 2014(06): 1612-1616.

[33] 代明睿,朱克非,郑平标. 我国铁路应用大数据技术的思考[J]. 铁道运输与经济. 2014(03): 23-26.

[34] 何琼王晖王琦. 数据挖掘理论与实例[M]. 北京: 经济科学出版社, 2012.

[35] 王光宏,蒋平. 数据挖掘综述[J]. 同济大学学报(自然科学版). 2004(02): 246-252.

[36] 麦晓冬,余海冰. Web数据挖掘综述[J]. 科技咨询导报. 2007(01): 14-15.

[37] 马宏斌,王柯,马团学. 大数据时代的空间数据挖掘综述[J]. 测绘与空间地理信息. 2014(07): 19-22.

[38] 贾澎涛,何华灿,刘丽,等. 时间序列数据挖掘综述[J]. 计算机应用研究. 2007(11): 15-18.

[39] 孙玉芬,卢炎生. 流数据挖掘综述[J]. 计算机科学. 2007(01): 1-5.

[40] 周丽娟,王慧,王文伯,等. 面向海量数据的并行KMeans算法[J]. 华中科技大学学报(自然科学版). 2012(S1): 150-152.

[41] 车丽美,肖洋,王甦易,等. Kmeans聚类分析在形音字表音度中的应用[J]. 计算机技术与发展. 2011(02): 223-225.

[42] 邵峰晶,张斌,于忠清. 多阈值BIRCH聚类算法及其应用[J]. 计算机工程与应用. 2004(12): 174-176.

[43] 蒋盛益,李霞. 一种改进的BIRCH聚类算法[J]. 计算机应用. 2009(01): 293-296.

[44] 张丽杰. 具有稳定饱和度的DBSCAN算法[J]. 计算机应用研究. 2014(07): 1972-1975.

[45] 王丹丹,付华,徐耀松. 基于DBSCAN算法的煤矿瓦斯监测信息聚类分析方法研究[J]. 工矿自动化. 2010(08): 45-48.

[46] 潘玲玲,张育平,徐涛. 核DBSCAN算法在民航客户细分中的应用[J]. 计算机工程. 2012(10): 70-73.

[47] 冀平,方园,单杏花,等. 铁路客票营销分析系统的研究[J]. 铁路计算机应用. 1999, 8(6): 29-31.

[48] 刘春煌,梁明珠. 铁路客票数据仓库建设方案的研究[J]. 中国铁道科学. 2001(03): 12-17.

[49] 杜彦华,尹晓峰,刘春煌. 基于多Agent的铁路客票数据挖掘系统的研究[J]. 铁路计算机应用. 2005(08): 5-7.

[50] 梅巧玲,史天运. 客运营销辅助决策支持系统的研究[J]. 铁路计算机应用. 2007(01): 13-15.

[51] 任艳娟,张春民. 数据挖掘在铁路客运客户关系管理中的应用[J]. 铁道运营技术. 2014(01): 9-11.

[52] 黎茂盛,史峰,郑国华. 不同票价客票需求强度参数的数据挖掘技术研究[J]. 铁道科学与工程学报. 2005(01): 79-84.

[53] 张琪,黄厚宽. 基于铁路客票分析的序列模式挖掘[J]. 铁路计算机应用. 2004(07): 19-21.

[54] 王艳辉,贾利民,王卓,等. 基于时空序列的铁路客运量数据挖掘预测[J]. 中国铁道科学. 2005(04): 130-135.

[55] 陆丽花. 铁路客票数据挖掘研究[D]. 中南大学, 2008.

[56] 吕晓艳. 基于决策树的数据建模分析方法及其在铁路中的应用研究[D]. 中国铁道科学研究院, 2007.

[57] 陈兰,杨慧,岳红宇. 基于KANO模型的乘客购票行为影响因素分类研究[J]. 南京工业大学学报(社会科学版). 2014(03): 81-87.

[58] 冯霞,徐冰宇,卢敏. 民航旅客订票行为细分及群体特征分析[J]. 计算机工程与设计. 2015(08): 2217-2222.

[59] 刘攀. 基于TAM的铁路旅客网络购票使用意向研究[D]. 天津师范大学, 2013.

[60] 杨倩倩. 基于订票行为的航空旅客划分方法研究[D]. 江苏科技大学, 2015.

[61] 刘高原. 基于客票特征数据的我国高速铁路旅客出行行为分析研究[D]. 北京交通大学, 2012.

[62] 陈兰. 基于民航乘客有限理性购票行为的存量控制模型研究[D]. 南京理工大学, 2015.

[63] 百度百科http://baike.baidu.com/view/1600788.htm

[64] 中国百科网http://www.chinabaike.com/z/shenghuo/kp/2016/0514.html.

[65] David C, Hoaglin Frederick, Mosteller John, et al. Understanding Robust and Exploratory Data Analysis[M]. 1-1 ed. Wiley: 22-46.

[66] 贺瑶,王文庆,薛 飞 [J]. 计算机技术与发展. 2013(23): 70-72.

[67] 胡文瑜,孙志挥,吴英杰. 数据挖掘取样方法研究[J]. 数据库技术.2011(23): 45-54.

[68] 李建. 数据挖掘技术在电信数据分析中的应用研究及原型实现[D]. 上海交通大学,2007.

[69] 钟晓,马少平,张钹,俞瑞钊. 数据挖掘综述[J]. 模式识别与人工智能.2001(14): 48-55.

[70] 佟星格,王丽丽. 大学生网络购票实证研究:以交通运输部12306系统为例[J]. 模式识别与人工智能.2001(14): 48-55.

[71] 百度百科http://baike.baidu.com/link

[72] JiaweiHan,MichelineKamber著,范明,孟小峰. 数据挖掘概念与技术,机械工业出版社,2001.

[73] 方洪鹰. 数据挖掘中数据预处理的方法研究[D]. 西南大学,2009.

[74] 杨小勇. 方差分析法浅析———单因素的方差分析[J]. 实验科学与技术. 2013(11): 41-43.

[75] 新华网http://news.xinhuanet.com/local/2016-02/18/c_1118087681.htm

[76] 铁道论坛http://bbs.railcn.net/thread-1458999-1-1.html

[77] 中国城市发展网http://www.chinacity.org.cn/csph/csph/299460.html

[78] 《2015年济南市居民的日常出行调查统计》http://news.163.com/16/0331/14/



[81] 朱晓. 房地产数据挖掘的方法和利用实践[Z].中国北京:20138 [67]

[82] 朱宇. 基于DBSCAN的分布式数据挖掘模型的研究与实现[D]. 吉林大学,2009.

[83] 李春安. 基于WebGIS的土壤作物动态信息智能系统的开发与应用[D]. 吉林农业大学,2013.

[84] 李先光,刘颖,袁竞峰,等. 房地产市场分析预测中的数据挖掘技术应用研究[J]. 贵州工业大学学报(自然科学版). 2007(01): 44-48.

[85] 任艳娟. 基于数据挖掘的铁路客运客户关系管理研究[D]. 兰州交通大学,2014.

[86] 吕晓艳. 基于决策树的数据建模分析方法及其在铁路中的应用研究[D]. 中国铁道科学研究院,2007.

[87] 吕晓艳. 面向列车客票数据预测分析及特征提取方法的研究[D]. 郑州大学,2004.

[88] 林刚. 基于大数据挖掘的GSM-R网络综合监测系统[J]. 广西通信技术. 2014(04): 30-34.

[89] 陈建昌. 大数据环境下的网络安全分析[J]. 中国新通信. 2013(17): 13-16.

[90] http://www.docin.com.

[91] 王洋. 基于数据挖掘聚类分析的房地产市场信息处理技术的应用研究[D]. 黑龙江大学,2010.

[92] 申彦. 大规模数据集高效数据挖掘算法研究[D]. 江苏大学,2013.

[93] 李建. 数据挖掘技术在电信数据分析中的应用研究及原型实现[D]. 上海交通大学,2007.

[94] 张丽杰. 具有稳定饱和度的DBSCAN算法[J]. 计算机应用研究. 2014(07): 1972-1975.

[95] 陈彤. 高速铁路客流分析及其营销策略[J]. 上海铁道技术. 2011(02): 15-16.


 U292 S 2016    




   建议浏览器: 谷歌 火狐 360请用极速模式,双核浏览器请用极速模式