您好,欢迎来到华佗小知识。
搜索
您的当前位置:首页数据挖掘在居民出行调查数据分析中的应用

数据挖掘在居民出行调查数据分析中的应用

来源:华佗小知识
总第274期 2016年第1期 交通科技 Transportation Science&Technology Serial No.274 No.1 Feb.2016 数据挖掘在居民出行调查数据分析中的应用* 李 颖 相丽瑾 荀玲玉 (南京林业大学南京210037) 摘要针对居民出行调查数据背后信息挖掘的需求,介绍了居民出行调查数据挖掘的理论及方 法,概述了居民出行调查数据挖掘的常规流程,选择Apriori模型对居民出行调查数据进行分析。 以南京市居民出行调查数据为样本实例,采用职业、年龄、受教育程度、出行目的等几种属性,以 SPSS软件平台对各属性数据进行关联分析,确定影响居民出行方式选择的因素,得出改善居民出 行方式构成的相应建议。 关键词 出行方式 数据挖掘 关联分析SPSS 对居民出行调查数据的分析能够发现居民出 行的规律,为交通管理部门和出台相应措施 提供参考。而通过对居民出行方式选择的影响因 素分析,可以更好地引导居民广泛使用公共交通, 进而缓解私人小汽车带来的交通拥挤。近年来, 数据挖掘作为一种有效工具在客户分类,交通客 流量分析预测等方面都有一定的应用 ]。本文采 用数据挖掘理论模型对居民出行调查数据进行分 析,得出改善居民出行方式构成的建议l_2]。 1居民出行调查数据挖掘简述 1.1数据挖掘定义 数据挖掘(data mining)就是从大量的、不完 全的、有噪声的、模糊的、随机的实际应用数据中, 提取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。它并不是在大量已 有数据的基础上发明创造,而是一个数据收集、分 析、归纳总结的过程,故而又称为数据库中的知 识发现。数据挖掘是一个处理过程,它利用一种 或多种计算机学习技术,从数据库的数据中自动 分析并提取知识。在本文中主要体现在对居民出 行方式选择的微观影响因素分析上,找出关联度 较高的影响因素,帮助交通管理和规划者调整相 关和措施,引导居民更多地选择环保式出行。 1.2数据挖掘的任务 数据挖掘进行数据分析的主要任务有分类分 析、聚类分析、关联分析、因子分析、偏差分析、预 测分析等,分别有神经网络算法、决策树法、遗传 算法、粗糙集算法和贝叶斯分离器等建立模型的 方法。本文主要涉及到的是分类分析、关联分析 和因子分析。 1.2.1分类分析 居民出行调查存在着不同的数据类型,如被 调查者的性别、职业、年龄、出行目的和出行方式, 是否有驾照和受教育程度等 ],分析这些属性是 否有内在的联系,将这些调查数据分别列为不同 的类别,见表1。 表1居民出行调查数据属性及分类 1.2.2关联分析 *南京林业大学实验室创新项目(nlzzyq200321)资助 收稿日期:2015 08—18 大量的居民出行调查数据变量之间可能存在 2016年第1期 李颖等:数据挖掘在居民出行调查数据分析中的应用 着某些规律和联系,关联分析通过统计某种数据 系列的组织以及清洗,将文本数据处理成电子档, 使之达到建模需要,其中包括数据的选择及数据 的预处理。 属性及其出现的概率,来发现数据和属性之间的 关联。例如被调查者的职业和受教育程度与居民 出行选择的出行方式做关联分析,可以得出特定 职业和受教育程度的居民对某一种出行方式的选 2.4建立模型 模型即实际的挖掘阶段,即针对居民出行的 特点,应用数据挖掘工具建立模型,即将居民出行 调查数据转换成一个分析模型并对模型进行运行 和评价。这个阶段包括选择建模技术、生成测试 择概率和其未来出行方式选择的预测。 1.2.3因子分析 因子分析法是从研究变量内部相关的依赖关 系出发,把一些具有错综复杂关系的变量归结为 少数几个综合因子的一种多变量统计分析方法。 居民出行调查数据中调查涉及的属性很多,对于 所研究的居民出行方式选择的微观影响因素,就 是用最少个数的不可测的公共因子的线性函数和 特殊因子来描述原来观测的每一分量。 2居民出行调查数据挖掘流程 数据挖掘的算法步骤会随着不同领域的应用 而有所变化,每一种数据挖掘技术因为面向的问 题和领域不同其所制定的数据挖掘过程也会有所 差异。居民出行调查数据作为一种普遍的数据调 查样本,采用当今数据挖掘领域最有影响的通用 标准CRISP—DM(cross—in—dustry standard proce— SS for data mining),它不仅从方法学的角度提出 了居民出行调查实施数据挖掘的方法和步骤,对 调查数据进行统计分析和建模,也是一个从理解 居民出行方式选择、寻求数据背后价值到改善居 民出行方式构成的完整过程。 2.1行业理解 数据挖掘流程的第一步是定义目标,居民出 行调查数据从制作问卷、数据收集到统计分析都 应有一个明确的目的,数据挖掘最后的结果是不 可预测的,在挖掘过程中根据特定的目标选择数 据,建立不同的模型,达到分析每一类不同居民出 行选择的目的。行业理解包括确定业务对象,评 估情况,确定数据挖掘目标以及制定工作计划。 2.2数据理解 这个阶段包括建立数据库和分析数据。按照 工作计划发放问卷收集居民出行调查数据,根据 题目确定数据的含义和特性,过滤出所有可能有 用的数据调查表,然后进行数据整理并评估问卷 的质量,必要时再将不同问题分不同属性形成不 同的数据集合。数据库建立完成后再进行数据分 析,并找出影响最大的问卷问题,进而判断是否有 必要进一步收集更为详细的数据。 2.3数据准备 对可用的原始居民出行调查问卷数据进行一 设计以及构建模型。 2.5模型评估 对数据挖掘模型进行测试与核查,完善挖掘 算法,重点具体考虑得出的结果是否符合第一步的 行业目的。此阶段的要素包括居民出行调查问卷 评估结果、查看数据挖掘过程,以及确定后续步骤。 2.6结果发布 解释并评估居民出行调查问卷结果,使用从 数据挖掘中获得的深入见解,解释影响居民出行 方式选择的微观因素,实现最初的行业目的。 3案例分析 以南京市的居民出行调查数据为例,选取了 2 756份调查数据,按CRISP—DM流程,建立数据 挖掘模型。Apriori算法的基本思想是:首先找出 所有的频集,这些项集出现的频繁性至少和预定 义的最小支持度一样。然后由频集产生强关联规 则,这些规则必须满足最小支持度和最小可信度。 然后使用第一步找到的频集产生期望的规则,产 生只包含集合的项的所有规则,其中每一条规则 的右部只有一项,这里采用的是中规则的定义。 一旦这些规则被生成,那么只有那些大于用户给 定的最小可信度的规则才被留下来。为了生成所 有频集,使用了递归的方法。经典的关联规则数 据挖掘算法Apriori算法广泛应用于各种领域, 通过对数据的关联性进行了分析和挖掘,挖掘出 的这些信息在决策制定过程中具有重要的参考价 值。在居民出行调查数据分析中,Apriori算法可 以分析居民出行方式选择的微观影响因素l_4]。对 比几种挖掘模型,决策树和Apriori算法较适用 于居民出行调查数据的分析,但决策树分析机理 相对繁杂,并且对于不同属性均一一分类,表现结 果不够集中;而Apriori算法可用来分析居民出 行方式选择的影响因素,因此本文采用Apriori 算法作为分析模型_5]。 首先对数据进行预处理,去除对数据分析过 程结果无用的字段,考虑问卷调查和问询时的了 166 李颖等:数据挖掘在居民出行调查数据分析中的应用 2016年第1期 解因素,对调查数据缺乏真实性和可信度的数据 及调查表予以舍弃。接着通过交叉表运算确定哪 些微观因素对南京市居民出行方式选择有显著影 响。由于在交叉列联表分析中,行、列变量往往不 是连续等距变量,不符合简单相关系数的前提要 求,因此一般采用卡方检验,进行了相应的数据处 理后,各因素的检验结果见表2。 表2卡方检验 当Sig值≤O.05时,拒绝原假设。由表1中 可见,职业,是否有公交IC卡和出行目的是和居 民的出行方式选择相关的。而性别,年龄,是否有 驾照和受教育水平是和居民出行方式选择无关 的。这和我们以往的理解会有些不同,在有些研 究中这些因素也会影响居民的出行方式选择。而 此次分析的是南京的居民出行方式的调查数据, 分析结果是符合南京居民的出行方式选择现状 的。下面分别从这3个因素进行解释。 (1)居民的职业。对于有固定工作的居民和 学生来说,其出行方式一般是固定不变的。距离 较近时,大多数居民会选择步行和自行车,电动车 或助力车。而当距离较远时,学生一般选择公交 车或者地铁,但上班族中一部分家庭富裕的居民 就会选择私人小汽车,因为私人小汽车的机动性 远比公交车或者地铁大得多。 (2)有无公交IC卡。拥有公交IC卡的居民 选择公共交通的可能性更大。而且南京市的公交 IC卡现在已经可以在公交车、地铁和出租车同时 使用,这也让更多居民愿意购买公交IC卡。 (3)居民的出行目的。对于公务出行的居民 来说速度是首要因素,因此居民倾向于速度较快 的私人小汽车或出租车。对于接送家人调查数据 中公共交通比例较高,但现实中很多家长接送孩 子时还是使用私人小汽车较多。生活购物和回程 为目的的出行大多采用的是公共交通。 经过上面的分析已经确定影响居民出行方式 的因素,因此针对这些因素,要想要改善居民出行 方式的构成,就需要增加公共交通的比例,因此提 出建议如下 J。 (1)私人小汽车使用。职业性质不同选 择出行方式相应不同,因此单位可以增加停车费, 减少停车位来减少上班族的私人小汽车出行 比例。 (2)加大公交IC持有率。可以实行增 加公交IC卡的优惠力度,降低公交IC卡的购卡 费等措施。只有对居民产生较大的吸引力才会让 更多的居民购买公交卡,也就间接增加了环保出 行方式的比例。 (3)鼓励公共交通出行。对于公务出行或者 员工上下班出行,和单位可以实行公共交通 补贴或者报销公共交通出行费等措施来鼓励公共 交通出行。 4 结语 数据挖掘是一类整理数据、归纳数据和分析 数据的科学方法,尤其是对于海量数据的处理和 分析数据内部隐含的关联十分有效。SPSS作为 数据挖掘的分析工具,在数据处理建模分析上简 单且易操作,在流程上清晰易懂,并且在输入数据 时可通过类型属性筛选进行降噪处理,能够达到 很好的运行结果。 目前,数据挖掘在交通行业的应用还在探索 中,本文以南京市居民出行调查数据为背景,将数 据挖掘中的关联分析应用在SPSS平台上,调查 结果分析简单可靠,在具体操作时可根据不同的 分析目的对模型及参数做适量不同的调整,以达 到预期挖掘效果。本文仅提出了一种能够应用于 居民出行调查的数据处理方法,未来有待更深入 的研究及更有效的应用。 参考文献 [1]王 冀.数据挖掘算法在交通数据中的研究分析 [J].电脑知识与技术,2014(4):2707—2708. [2]刘昱岗,安冬冬.数据挖掘算法在公交调查数据分 析中的应用研究FJ].公路工程,2o14(4):96一lO1. C3]赵贝.居民出行方式特征分析与公交优先研 究ED].长春:吉林大学,2008. [4]颜 敏.城市居民出行距离影响因素研究[D].成 都:西南交通大学,2008. [5]姚国鑫.城市居民出行调查抽样技术与数据分析研 究ED].西安:长安大学,2010. [6] 张 涛.中小城市居民出行特征分析及交通发展对 策研究[J].交通科技,2005(3):89—91. 总第274期 2016年第1期 交通科技 Seria1 NO.274 Transportation Science&Technology No.1 Feb.2016 DOI 10.3963/j.issn.1671—7570.2016.01.052 基于ANSYS的轴承磨损对船舶 长轴系回旋振动的影响分析 * 王 建 陈建伟 闫方才 刘正林 (武汉理工大学能源与动力工程学院武汉430063) 摘 要 为了研究轴承磨损对船舶长轴系回旋振动的影响,利用ANSYS对某集装箱船后尾轴承 进行建模并完成轴系校中,模拟后尾轴承内部应力分布,确定尾轴承的磨损量。结果表明,轴承磨 损造成的支点变化会降低个别阶回旋振动的固有频率,共振类型不变。 关键词 轴承磨损长轴系 回旋振动 有限元 随着船舶大型化的发展,螺旋桨的增大,后尾 尾轴在螺旋桨重力的作用下同时会产生一定 轴承的工作条件更加恶劣,不同材料内衬的磨损 的弯曲变形,尾轴承内衬承载压力分布不均;轴承 现象较其他轴承更为严重,见图1。 尾端的压强较其他位置高,内部水槽在较大压强 作用下可能会发生挤压变形,使得润滑通道受阻, 导致内部润滑不良、温度升高、摩擦加剧,所以尾 轴承不光磨损量较大,且内部磨损不均,振动噪声 明显加剧口]。 诸多学者对于轴系振动的影响因素都有过相 关研究[2 ],但是对于轴承磨损尤其是后艉轴承不 均匀状态下与轴系振动的关系,有必要进一步分 图1 不同材料的船舶尾轴承内衬磨损 析总结其影响规律。 国家自然科学基金项目(51379168,51139005)资助 收稿日期:2015-10一O9 Application of Data Mining in Data Analysis of Resident Trip Survey Li Ying,Ding Lijin,Xun Linyu (Nanjing Forestry University,Nanjing 210037,China) Abstract:In view of the demand of resident trip survey data,this paper introduces the theory and method of data mining of resident trip survey.The general process of data mining of residents travel survey is overviewed,and the Apriori model is selected to analyze the residents travel survey data. Taking Nanj ing residents travel survey data for a sample,using several attributes,such as occupa— tion,age,education level,and trip purpose,the SPSS software platform is used to analyze the attrib— utes of the data.The factors that affect the choice of residents travel mode are determined。and the corresponding suggestions to improve the residents"travel mode are got. Key words:trip mode;data mining;association analysis;SPSS 

因篇幅问题不能全部显示,请点此查看更多更全内容

Copyright © 2019- huatuo0.cn 版权所有 湘ICP备2023017654号-2

违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com

本站由北京市万商天勤律师事务所王兴未律师提供法律服务