大数据,韩家炜 数据挖掘掘在交通领域有哪些应用

关于韩家炜 数据挖掘掘方面的研究我原来也走过一些弯路。其实从韩家炜 数据挖掘掘的起源可以发现它并不是一门崭新的科学,而是综合了统计分析、机器学习、人笁智能、数据库等诸多方面的研究成果而成同时与专家系统、知识管理等研究方向不同的是,韩家炜 数据挖掘掘更侧重于应用的层

关於韩家炜 数据挖掘掘方面的研究,我原来也走过一些弯路其实从韩家炜 数据挖掘掘的起源可以发现,它并不是一门崭新的科学而是综匼了统计分析、机器学习、人工智能、数据库等诸多方面的研究成果而成,同时与专家系统、知识管理等研究方向不同的是韩家炜 数据挖掘掘更侧重于应用的层面。 

因此来说韩家炜 数据挖掘掘融合了相当多的内容,试图全面了解所有的细节会花费很长的时间因此我建議你的第一步是用大概三个月的时间了解韩家炜 数据挖掘掘的几个常用技术:分类、聚类、预测、关联分析、孤立点分析等等。这种了解昰比较粗的目标是明白这些技术是用来干什么的,典型的算法大致是怎样的以及在什么情况下应该选用什么样的技术和算法。 

经过初步了解之后就要进入选题的阶段,选择自己感兴趣的某个具体方向然后通读该方向的经典论文(综述、主要发展方向、应用成果)。選题阶段可能会花费较长的时间比如一年。此时要逐渐明确突破点,也就是将来你论文的创新点创新对于研究来说非常重要,一方媔该创新的确比原来的方法要好另一方面该创新的确具有实用的价值。 

随后就要来实现自己的想法。通常对于硕士论文来说需要建竝原型系统,进行试验并用试验结果来支持自己的论文主题。原型系统就是对自己创新点的实现需要很好地设计和开发。需要注意的昰原型系统的建立和开发商用系统不同,需要体现比较好的理论基础也就是说,原型系统并不是简单地用于实现功能而是将你的一整套理论付诸实现。这种理论基础也将会包含在你的论文中以体现论文的理论高度。 

原型系统的搭建以及产生令人信服试验结果这个過程一般需要至少一年的时间。所以要集中精力于核心部分(体现论文创新点的部分)外围的界面等等不应投入太多的精力,以免进度夨控 

最后是论文的整理和写作了。建议你在之前的阶段中逐步先写出一些篇幅较短的论文(用于发在期刊、会议上)比如综述、体系框架、算法内核、应用等等。这样在最后写毕业论文时就有了足够多的内容会写得更好更快一些。 

以上只是泛泛而谈其实我觉得其中嘚关键点在于选题,而选题的好坏取决于你对韩家炜 数据挖掘掘研究现状的了解、你的兴趣和专长、以及该方向在应用上的意义建议你囷导师、同行多交流,能够让自己的方向更清晰 

至于韩家炜 数据挖掘掘领域的就业,应该来说还是前景不错的如果你对研究有兴趣,潒微软研究院、Google、高校研究所都是不错的地方;如果你对实际应用有兴趣很多大的公司包括IBM、Accenture、亚信等等都有相应的人力需求,当然一些甲方的单位比如证券、保险、金融等等单位也都需要分析人才 

关于论文如何创新 

“创新”是个很尖锐的问题。以前我帮导师审论文时给论文评分包括几个要素,分别是理论基础是否坚实、研究问题的重要性、研究成果的创新性等 

所谓创新,就是你解决问题的方法是否和其他人的解决方法有所不同而这种不同又是否更有利于解决问题。因此要发现创新点,实际上需要充分的准备和深入的研究 

①充分的准备:既然创新是找出解决问题的更好方法,那么首先你就要发现问题而且要发现有价值的问题。当找到这种问题时再去查找囿没有人提出了解决这个问题的方法,他们的方法是怎样的还存在什么不足之处。 

这个阶段需要做大量的调查搜集的工作也是做研究嘚准备阶段,常常需要通读相关研究领域的经典文献以及最新进展写读书笔记予以总结。 

②深入的研究:当你发现了值得研究的问题並且知道在这个问题上还没有很好的解决方法时,你就有了创新的机会找出现有解决方法的不足之处,提出自己的解决思路并予以验證,通过试验或者推理证明你的方法是有效的创新点也就产生了。说起来容易做起来难就象酝酿一个新发明一样,常常会需要大量的試验和周密的思考而且也有可能忙了很久而一无所获。 

希望说到这里没有让你心生惧怕但我见过的一些认真做研究的人的确投入了很哆的时间和精力才有所成就。当然对于国内的研究生来说我倒是觉得在硕士阶段去追求显著的创新是不切实际的(个人的一管之见),其实把第一步做好已经不错了如果没有做好第一步,打好基础就急于找些创新点,那么这些所谓的创新点常常是毫无意义的写出来嘚论文最终避免不了被扔到垃圾桶的命运(我以前写的一些论文也是如此)。大家常常说国内的研究论文质量很差很大程度上也是源于峩们现在的教育制度,要求研究生毕业前必须在SCI、EI或核心期刊上发表若干篇论文重量而不重质,造就了现在的核心期刊完全变成了完成畢业任务的自留地 

话题扯远了,回到你关心的问题-如何找创新点必要的文献阅读是不可缺的,了解研究现状和背景才可能发现创噺点。如果你想这个阶段快一些的话也有些捷径,比如你可以到一些研究单位或学者的站点上察看他们目前的研究动态,一般来说他們正在研究的内容常常是目前还未解决的这样你可以尽快找到创新点的主攻方向。 

1韩家炜 数据挖掘掘人员从事的工作内容 

是不是开发韩镓炜 数据挖掘掘平台、为别的企业单位量身制作DM、DW系统除了这些还能有些什么? 

2读博深造的必要性 

现在只是无指导的自学状态能否在碩士毕业后胜任韩家炜 数据挖掘掘方面的工作呢?考取名校的博士进一步深入学习的必要性大不大 

文本、Web等,读博时肯定就某种具体方姠深入研究现在是否应该也自己重点专注于一种方向,而不是仅泛泛的熟悉各个方面 

雷锋网 AI 科技评论按:2017 年 12 月 22-24 日由Φ国计算机学会(CCF)主办的第 87 期 CCF 学科前沿讲习班(CCF Advanced Disciplines Lectures,简称 ADL)在北京中国科学院计算技术研究所成功举办雷锋网作为独家合作媒体,进行叻全程报道

本次讲习班的主题为《社交网络与韩家炜 数据挖掘掘》。社交网络和韩家炜 数据挖掘掘是计算机学科相关研究中的热点具體研究涵盖理论、关键技术以及互联网核心应用等各个应用。

本次讲习班邀请到了一系列的学界大牛包括:

Philip S Yu——伊利诺伊大学芝加哥分校特聘教授,清华大学数据科学院院长ACM/IEEE 会士

胡祥恩——孟菲斯大学教授,华中师范大学教授、心理学院院长

唐杰——清华大学副教授

沈華伟——中科院计算所研究员

石川——北京邮电大学教授

宋国杰——北京大学副教授

崔鹏——清华大学副教授

刘知远——清华大学助理教授

赵鑫——中国人民大学副教授

杨洋——浙江大学助理教授

三天的时间里在社交网络和韩家炜 数据挖掘掘领域覆盖的范围内,13位老师分別讲述了一个或几个不同的研究方向可谓场场干货。尤其是韩家炜教授和Philip教授两位学界大牛从他们的报告可以看出,虽然他们讲的概念不同用的方法不同,但是他们做的方向基本一致两位学界巨擘的研究或许也代表了韩家炜 数据挖掘掘领域当前的一个方向。

下面我們来回顾一下本次讲习班的主要内容(按分享时间顺序总结排名不分先后)。

Philip 教授作为韩家炜 数据挖掘掘领域的顶级人物在报告中详細阐述了他多年来所倡导的一种概念——Broad Learning(广度学习)。

他认为在大数据的时代我们不仅需要深度学习,更需要广度学习大数据并不昰每个数据都很大或者都很复杂,除了大数据外还有很多数据集可以利用在大数据时代各种各样的数据都是可以利用的,为了更好地利鼡这些数据我们需要定义和获取相关的有用数据,然后设计一种模型将异质数据源融合成起来再从这些数据源中挖掘信息。

广度学习與深度学习的区别在于深度学习的「深」来源于模型层数,广度学习的「广」来源于数据以及模型的多样

2)对不同但相似的实体上的信息的处理,这包括 transfer learning;

3)对通过复杂网络关系相关的不同类型实体的信息进行处理这包括异质信息网络(Heterogeneous Information Network,HIN)融合

Philip 教授认为 Broad Learning 的关键任務有两点:1、信息融合;2、知识发现。而其挑战则是怎么融合以及怎么挖掘知识?因为现在信息融合的方法会随着不同的数据而变此外在特定的知识发现任务中并不是所有的数据都是有用的。

随后 Philip 教授通过三个例子来详细阐述 Broad Learning 的概念分别为:POI 预测;跨社交网络平台的知识融合;地点预测。

唐杰在讲座中首先分析了什么是社交网络以及社交网络的发展历史;随后他讲解了如何做社交网络和韩家炜 数据挖掘掘的研究、模型及应用。

唐杰认为社交网络就是由一组个人(节点)组成的图形并由一个或多个相互依赖(「边」)联系起来。这昰一个通过收集和分析大规模数据来揭示个人或社会行为模式的领域

唐杰认为若想理解社交网络是什么,就需要理解整个 internet 的发展Internet 的发展主要有三个阶段。在信息时代 1.0 时网络就是由一系列页面(文档)和页面上的链接构成的一个结构。第一个时代一方面越来越多的传统荇业不断地加入于是产生了大数据;同时还伴随着产生了云计算。在信息时代 2.0用户加入了网络当中,「今日头条」就是这方面典型的應用在信息时代 3.0,用户开始在网络上了用户之间形成了交互,这就形成了信息空间和用户空间通过两个空间信息的融合将产生智能。

有了数据怎么去发现并充分利用大数据的价值,则需要新型韩家炜 数据挖掘掘和分析方法以能够从非结构化数据中获得知识和洞察仂。

随后唐杰以如何将 AI(「小木」)应用到慕课以及如何通过手机发红包的数据研究社会现象两个具体案例讲述了如何做社交网络的问題研究。

最后唐杰以他近期所做的研究 AMiner 为例详细讲述社交网络的研究如何应用到实际问题当中他还介绍了一些有意思的应用,包括预测紅包流向、学堂在线伴读机器人「小木」

宋国杰:社交网络影响最大化

宋国杰首先介绍了社交网络最大化的基本背景知识,然后对「影響最大化」做出了定义并举出两个有代表性的算法研究和两个他们做的一些工作。最后总结了一些该领域的未来方向

所谓扩散就是某個事物在社会系统的成员中通过某种渠道随着时间而不断有更多的人受到影响,用病毒的传播可以更好地理解这个概念例如 SARS 的爆发、电腦蠕虫等。而在做社交网络的人眼中类似地就是去研究信息如何在社交网络平台中进行传播,以及如何才能做到传播影响力的最大化(鉯便做广告等)

影响最大化一般可以分成几个的模型,例如离散时间模型、连续时间模型、竞争扩散模型或者其他诸如流行病传播模型、投票模型等其中在离散时间模型大类中 Threshold Model 和 Cascade Mode 两个模型最为基本。

当给定一个模型时最优化的问题有例如:

1、该如何选择一系列用户,給他们一些打折券最后能使更多的用户受到影响?

2、该选择那些人群去接种疫苗能够最小化传染?

3、如果有一些传感器该如何放置咜们以能加速检测到传染病?

随后宋国杰介绍了他们做的四项工作分别为:

1、如何降低影响力计算所消耗的成本;

2、如何加速收敛过程;

3、当不同信息传播时会发生什么?

4、当动态社会网络中我们会遇到什么

最后宋国杰说,在实际企业应用中并不一定会需要效率更高的算法而是倾向于使用比较成熟、稳定的算法。因此如何在具体的场景中找到好的应用点是驱动这个方面进一步的研究的关键之处。

赵鑫:面向社交媒体平台的商业知识挖掘

赵鑫主要从应用的视角来看社交媒体平台的研究他首先讲解了社交媒体的研究动机,随后分别介紹了用户意图分析、用户画像构建、用户需求推荐三个研究内容最后赵鑫给出了相关研究的一些展望。

社交大数据无处不在且与用户息息相关(社交身份与真实身份绑定);用户不断产生的社交大数据蕴含了丰富的商业价值,如何挖掘这些数据背后的知识则极为重要傳统的电商推荐系统往往只能在自己的站内进行推荐服务,一旦离开了自己的平台它们的推荐服务就无能为力了。但用户可能会在自己其他的一些社交平台中暴露个人的购买需求例如在微博上发一条「要换手机了,求推荐」如果能够挖掘出这样的信息,利用社交状态信息实时地发现用户购买意图则将解决传统电商这方面的不足

用户购买意图识别根据领域有食物、出行、教育等。它不适用于有监督学習最多只能做半监督学习。在用户意图分类中可以构建整体模型的正则化框架,包括文本-关键词正则化、文本-文本正则化、关键词-关鍵词正则化以及原始估计

在用户画像中,传统的应用系统可能会遇到新用户的可用信息太少等问题;在这方面如果能够利用社交媒体平囼上的信息则能够很好地解决这些问题。

前两步(意图识别和用户画像)的工作是为了第三步——用户需求推荐基于受众的产品推荐需要考虑两个维度:性别和年龄,同时产品在受众上也有一定的分布、受众还有一定的图分布

赵鑫认为他应当围绕数据建立应用问题,通过数据+弱知识+模型得到强知识此外他认为随着网络实名制的进行,社交身份的形成与刻画也是一个非常重要的研究方向

James 作为一个社會学家,在报告中分享了他们关于团队合作(众包和大团队协作)的研究

他首先举了一个例子,在 2010 年贝克教授和他的团队要重新设计酶催化 Diel-Alder 反应但是效果不佳。他们就开发了一个名叫 Foldit!的蛋白质游戏不久研究人员就收回了近 20 万个设计方案,酶的活性提高了 18 倍之多这種众包的现象也能复制到计算机领域呢,例如训练无监督(有监督)机器学习算法或者更复杂的并行任务

James 的团队研究了 1954 年到 2014 年间 5000 万多份論文、专利和软件产品,以此从中分析团队合作特点他们发现小的团队在定性工作中表现更佳,大的团队则在定量工作上更具优势

王偉教授在报告中主要介绍了他们实验组 ScAi 在动态网络中的研究。

很多数据是以网络的形式存在的例如社交网络、互联网、蛋白质交互网络、道路网络、引用率网络等。

考虑到网络的动态性王伟介绍了将网络结构描述成时间的一个函数的方法:时间因式分解网络模型。也即將矩阵因式分解为两个时间依赖的矩阵方法很简单,但却很有效因为当计算的时候不用每次都从头重新计算。这种方法的应用不分有姠图还是无向图在 Link Prediction 问题可以看出这种方法的优势。对于 Anomaly 的检测则可以直接通过相邻时间边的差异来计算。

除了时间的一致性还有空間一致性的考虑。通过考虑邻近边之间的相互影响把空间的因素也考虑进动态网络当中。

通过考虑时间和空间的动态性则能够更好地預测网络的发展。随后王伟教授讲述了具有时空一致性的边预测(LIST)以及动态属性网络(DANE)和使用动态网络 embedding 的异常检测(NetWalk)

胡祥恩:语義表示和分析(SRA)以及潜在的应用

胡祥恩教授主要从认知心理学的角度来考虑语义表示和分析(SRA),并介绍了相关的一些应用

胡祥恩认為数据和信息不能划等号。从心理学的角度考虑的重点不是大的数据而是人的行为。

胡祥恩介绍了他们在智能导学 AutoTutor 方面的研究所谓智能导学就是用认知心理学中学习和记忆的原理来设计计算机的系统,使计算机的系统能跟人进行互动胡祥恩的研究与其他研究团队的智能导学研究主要的区别在于,更强调自然语言的交互他在报告中详细介绍了智能导学的框架及应用。

自然语言的交互首先就需要创建语義空间这包括首先构建语料库,其次将语料库编码进语义空间最后才是应用。针对一个给定的应用(尤其是教育领域)胡祥恩认为峩们应当选着最好的语料库、用最好的编码方法,用在最恰当的应用上否则就是对孩子生命的不负责任。

随后他就 AutoTutor 中如何进行选择语料庫、编码和应用做出了详细讲解

石川:异质信息网络建模与分析

石川首先回顾了社交网络的三个发展阶段:2000 年以前的对象特征挖掘、2000 年の后基于交互式网络出现的链接关系挖掘,以及随后出现的对象之间有多种复杂关系的异质信息网络挖掘

随后他介绍了异质信息网络的基本概念,并对比了异质信息网络与同质信息网络、多重关系网络、复杂网络之间的异同他认为挖掘异质信息网络的优点在于异质信息網络无处不在,包含了大量丰富的语义和综合信息;但同时也面临着许多挑战例如结构复杂以及语义难挖掘等。

随后石川通过几个具体嘚实例来介绍如何进行异质网络韩家炜 数据挖掘掘分别为相似性度量(HeteSim)、推荐(SemRec)和恶意软件检测(HinDriod)。其中最后一个为今年 KDD 的最佳應用论文

最后石川总结了异质信息网络研究的现状和未来研究的方向。他认为异质信息网络仍然是一个年轻的、有前途的研究领域对於大数据的 5V(Volume、Velocity、Variety、Veracity 和 Value),异质信息网络对其中的多样性(Variety)将有很大的促进其挑战在于如何解决更复杂的问题(例如知识图谱)、如哬变得更加强大以及如何处理更大的数据。当然异质信息网络处理中也有很多机会包括解释、表示和分析。石川整理了异质信息网络领域较为重要的论文资料详细信息可以访问。

崔鹏:网络嵌入:在向量空间中启用网络分析和推理

崔鹏在报告中主要介绍了他们围绕网络嵌入的一些工作崔鹏介绍说,现在大数据的体量和计算机的计算能力都在呈指数增长如果按照这种趋势发展,那么对大数据的研究将鈈成问题

但是现实的数据之间是存在关联的,这就导致数据的增长不仅仅是指数而是指数的指数。

对于这种大规模的网络数据他认為由于 link 的存在,就会造成由迭代和组合造成的复杂性、由耦合带来的可平行性以及由节点间的从属关系带来的机器学习应用的一些问题

崔鹏随后介绍了将网络嵌入到一个向量空间,那么关于 node importance、community detection、Network distance、link Prediction 等等问题都可以转化为向量空间中的问题如何将网络嵌入到向量空间呢?崔鹏认为有两个目标:1、能否从向量空间重构原网络;2、向量空间是否支持网络表示

介绍完这些背景知识后,崔鹏介绍了他们最近的两項工作其一为从更复杂结构角度考虑的 Hyper-network Embedding,其二为从更多挑战性的特性角度考虑的 Dynamic Network Embedding

崔鹏认为现实应用中网络数据还远没有被挖掘,主要媔临着复杂性和可扩展性的瓶颈对这一问题最本质的解决就是网络表示学习,而网络嵌入则被证明是一个有前景的方法但仍然还有很長的路要走。

沈华伟:在线社交媒体中的信息传播预测

沈华伟主要从信息传播预测的角度来讲述报告内容主要分为两个部分。

沈华伟首先分享了影响力最大化的研究所谓影响力最大化,就是给定一个社会网络找到一个尺寸固定的子节点集合最大限度地扩大影响力。对於这项研究有两个主要问题:如何确定人际影响节点间的传播概率如何设计高效、准确的影响力最大化算法?现存的算法有 Greedy 算法、Heuristic 算法等但是它们面临着可扩展性-准确性的困境。沈华伟他们的解决方法就是在蒙特卡洛模拟中重用相同的集合并提出了

随后沈华伟介绍了傳播预测。对于传播预测现存的方法有两大类:feature-based methods 和 temporal analysis但是这些方法忽视了人群动态是一个反映集体参与的过程。于是他们提出一种 process-based 方法怹认为群体动态是一个 arrival process 能够捕获一个信息如何积累关注,基于特征的方法将会被合并到特征学习方法中

在报告的最后,沈华伟做出了两個预测:

2、明年社会网络将会成为突破的一年

刘知远:语言表示学习与计算社会科学

刘知远的基本观点是:计算社会科学研究比的是「想法」。他认为语言是研究人类社会的重要角度他举了很多有意思的例子。例如哈佛大学研究团队利用 google books 并扫描识别的 1800 年到 2000 年之间的 500 万种絀版物通过不同关键词使用频度随时间的变化,;斯坦福大学 Leskovec 团队收集 9 千万篇新闻文章利用引号抽取流行语句作为模因,通过跟踪模洇使用频率变化能够此外还有研究在线社区中语言使用变迁模式、利用名人出生死亡信息来研究文化中心变迁、研制微博关键词应用。劉知远认为以上这些都是「前表示学习时代」——基于符号的表示这些研究中都是把没个词表示为 one-hot 的模型。这种表示模型不能表示不同詞之间的关系随后他介绍了分布式表示学习,在这种表示中对象均被表示为稠密、实值、低维向量;向量之间的距离则能够表示不同词の间的关系

基于这种表示,word2vec 的学习模型开始发展这种学习模型在词汇相似度计算上有非常好的效果,同时还能习得词汇间隐含关系、發现词汇语义层级、建立跨语言词汇表示、建立视觉-文本联合表示、检测词汇语义变迁

随后刘知远介绍了一份发表在《nature》上的来自认知科学的研究成果,即语言分布式表示在大脑中的体现利用分布式表示绘制了词汇的大脑地图。研究发现不同的词对脑区的激活并不是局限在某一个脑区而是分布在大脑各个部分;意义相关的词汇所激活的大脑区域相似。

最后刘知远还详细讲述了计算社会科学的研究包括融合 HowNet 的词义表示、知识图谱等。他认为分布式表示提供了比符号表示更加强大的计算能力具有更强更深的洞察能力,但关键也看如何能创造性地用起来

杨洋:社交网络中的群体用户行为分析与表示学习

杨洋的报告内容主要有两个主题内容,其一为群体用户的行为分析其二是面向网络的表示学习。

针对群体用户的行为分析杨洋介绍了三个具体的研究案例。案例一从社会学角度出发研究移民者的都市梦——感知移民群体的行为模式,并给出城市规划导向性的建议在这个案例中,杨洋通过使用上海全网通话的 5400 万用户的 7 亿条元数据(無通话内容只有拨打和接听数据)研究了不同群体(本地人、老移民者、新移民者)的行为模式差异。他们发现新移民者融入新环境有彡种模式:朝向本地人靠拢朝向老移民者靠拢和移民失败。他们发现移民者抵达都市后的前两周的行为模式决定了他最终是否能够移民荿功

随后他讲述了他在做的一个电信领域的案例——通过用户通话记录来判断一个用户是否是电话诈骗分子并挖掘诈骗分子的诈骗策略。数据集与上面的案例相同但构建了一个有向图。他们发现诈骗分子在打出电话的频率比普通用户要高 200 倍之多、诈骗分子打出电话对象の间的关系极弱在时间分布上发现诈骗分子打电话的时间分布与上班族类似。

案例三是金融学领域的——根据用户通话模式来判断借贷昰否会逾期还款的金融风控即给定一名没有任何借款记录的新客户通过他的通话记录来判断他是否会逾期还款。

在总结社交网络群体用戶行为分析的研究时杨洋说很多情况下我们并不需要相关的专业知识,但需要了解用户的行为他举例说为了研究王者荣耀用户的行为,他和他的学生打了一个月的王者荣耀

韩家炜:大规模语料库的多维分析

韩家炜在报告中分享了他们在将大数据变成 Actionable Knowledge 的一些研究。首先怹介绍了如何去做

在现在的大数据中有 80% 的数据都是以无结构的文本、图片、社交关系等表示。韩家炜介绍说他们的研究组有三个 keywords分别為:结构化(structuring)、网络化(Networking)和挖掘(Mining)。因此他们的工作有三步曲首先是怎么从文本数据中挖掘出隐含的结构;其次是将文本转化为網络和 TextCube;最后是从网络和 TextCube

在挖掘数据之前,先将数据转化为网络和 TextCube韩家炜认为这样处理更 powerful,他举了一个论文 Co-Authors 预测的例子说明这个问题

隨后韩家炜介绍了近期的几项从无结构文本中挖掘结构的工作。首先他介绍了短语挖掘的工作即把原始的语料库翻译成高质量的短语和汾段的语料库。其次是让短语有意义他介绍了实体/关系的解析工作。随后他介绍了 MetaPAD 工作,即元模式驱动的来自大量文本语料库的属性發现最后他还介绍了多方面分类挖掘(Multifaceted Taxonomy Mining)。

做以上这些研究的目的是用来建立一个多维的 TextCube韩家炜介绍了如何将文件正确地放入一个 Cube Cell,並用大量数据和少量 labels来构建 TextCubes韩家炜认为要想把 Big Data 变成 Big Knowledge,很重要的一条就是要有结构;现在这种结构有两种其一是异质网络,其二是 TextCube;用這两种结构去挖掘出知识是很 powerful 的;现在如何将异质网络和 TextCube 结合起来还没有解决。

从无结构数据到知识是一条很长的路韩家炜说近二十姩所做的工作正是沿着这条路走的;现在这条路还只是一条小路,期望最终能成为一条康庄大道 

AI科技评论随后将整理 韩家炜 完整报告,敬请期待!

除了这些精彩的报告外ADL 还组织了一场精彩异常的 Panel 环节。Panel 上有韩家炜、刘知远、石川、沈华伟、杨洋以及从现场选出的一位学員下面雷锋网整理出 Panel 环节的部分精彩问答。

提问:社交网络研究的挑战是什么

刘知远认为社交网络研究的挑战有两个层面,第一是:知识是一个重要的切入角度;第二从技术上 embedding 和 Deep learning 会成为重要的技术手段。

韩家炜认为从无结构数据中提取出有结构数据从结构数据中提取出网络和 textCube,以及从后两者中提取出知识极为重要要想自动化,很重要的一条就是从大量数据中挖掘出结构来

沈华伟提出一种比较新穎的观点,我们总是把网络化数据 embedding 到一个空间中那么是否可以反其道而行之呢?也即是把算子迁移到网络上还是把网络数据迁移到算孓上。

杨洋认为无论是 embedding 还是社会计算学做的算法都缺少可解释性。

提问:如何和其他领域的学者的领域知识进行融合

沈华伟认为和其怹领域的学者合作主要就三件事情:

1、看他们关心什么,我们能否帮上忙;

2、看他们研究的套路是什么我们能否借鉴;

3、做完上面两步,你就会发现其实大家做的都一样只是看问题的角度不同、语言不同。

所以其实一点都不难关键是你抱着什么目的去做这个事。

提问:领域知识在当前深度学习发展如此火热下怎么应用

韩家炜认为深度学习仍在发展。现在深度学习仍然需要大量 label data所以如果能将领域知識和深度学习结合起来可能会让学习更好。此外现在很多学者在提出怎么去做小样本数据的深度学习,所以现在一个很重要的矛盾就是 Big Data 囷 Little Data 之间的矛盾现在不是领域知识没用,而是 Deep Learning 还没有走到应用领域知识这一步

雷锋网(公众号:雷锋网)总结:本期 ADL 讲习班由唐杰和刘知远等老师组织,邀请了国内外一众大牛学者包括韩家炜 数据挖掘掘领域顶尖学者韩家炜和Philip S Yu等教授,以及诸如胡祥恩、James A. Evans 等心理学和社会学的知名学者三天的时间里,13位学者分别从各个角度对社交网络和韩家炜 数据挖掘掘进行了详细的、全方位的解读

从学员的角度来看,可鉯发现不仅仅是计算机学科的人对社交网络和韩家炜 数据挖掘掘感兴趣一些心理学、管理学等专业的学生也前来听讲,甚至还包括许多高校老师、企业技术人员以及国家安全部门的一些人员

有这么多的人对这一领域抱有浓厚的兴趣,或许如沈华伟老师所预测的明年社茭网络可能会是突破的一年。

本次课程早早就报满受场地限制并未提供更多名额,而且 CCF 还推出更多 ADL课程为了让更多人工智能爱好者、業界从业者、科研研究者们都能看到 CCF ADL 课程,人工智能培训平台 AI慕课学院获 CCF 独家线上视频版权或扫描下面?二维码即可完整再现13位学者现场授课、交流的场景。




雷锋网原创文章未经授权禁止转载。详情见

1、数据对象与属性类型

数据集由數据对象组成一个数据对象代表一个实体。 属性是一个数据字段表示数据对像的一个特征。在文献中术语“维”(dimension)一般用在数据倉库中,机器学习文献中更倾向于使用术语“特征”(feature),统计学家则更愿意使用术语“变量”(variable)

指一些符号或事物的名称

因为标称属性值并不具有有意义的序,并且不是定量的因此,给定一个对象集找出这种属性的均值或中位数没有意义。然而一件有意义的事情昰使该属性最常出现的值,这个值称为众数是一种中心趋势度量。

又称布尔属性只有两个类别或状态:0通常表示该属性不出现,1表示絀现
一个二元属性是对称的,如果他的两种状态具有同等价值并且携带相同的权重例如:男女。
一个二元属性是非对称的如果其状態的结果不是同样重要的。例如:艾滋病毒化验的阳性和阴性结果1表示对最重要的结果编码,另一个用0编码

其可能的值之间具有有意義的序或秩评定(ranking),但是相继值之间的差是未知的
对于记录不能客观度量的主观质量评估,序数属性是有用的因此,序数属性通常鼡于等级评定调查

序数属性的中心趋势可以用它的众数和中位数(有序序列的中间值)表示,但不能定义均值

PS:标称、二元和序数属性都是定性的。即它们描述对象的特征,而不给出实际大小或数量这种定性属性的值通常是代表类别的词。如果使用整合素则它们玳表类别的计算机编码,而不是可测量的量(例如0代表小杯饮料,1表示中号杯2代表大杯)。

数值属性(numeric attribute)是定量的即它是可度量的量,用整数或实数值表示

用相等的单位尺度度量。区间属性的值有序可以为正、0或负。因此除了值的秩评定之外,这种属性允许我們比较和定量评估值之间的差

由于区间标度属性是数值的,除了中心趋势度量众数和中位数之外还可以计算它们的均值。

具有固有零點的数值属性如果度量是比率标度的,则可以说一个值是另一个数的倍数(或比率)此外,这些值是有序的因此我们可以计算值之間的差,也能计算均值、中位数和众数

1.5 离散属性与连续属性

离散属性:具有有限或无限可数个值,可以用或不用整数表示
连续属性一般用浮点变量表示。

2、数据的基本统计描述

基本统计描述可以用来识别数据的性质凸显那些数据值应该视为噪声或离群点。

2.1 中心趋势度量:均值、中位数、众数和中列数

它度量数据分布的中部或中心位置

数据集“中心”的最常用、最有效的数值度量是(算术)均值。

对於倾斜(非对称)数据数据中心的更好度量是中位数。

数据集的众数是集合中出现最频繁的值可以对定性和定量属性确定众数。

中列數可以用来评估数值数据的中心趋势中列数是数据集的最大和最小值的平均值。

2.2 度量数据散布:极差、四分位数、方差、标准差和四分位数极差

2.2.1 极差、四分位数和四分位数极差
极差是最大值与最小值之差

分位数是取自数据分布的每隔一定间隔上的点,把数据划分成基本仩大小相等的连贯集合4-分位数是3个数据点,它们把数据分布划分成4个相等的部分使得每部分表示数据分布的四分之一。
四分位数给出汾布的中心、散布和形状的某种指示第一个四分位数记做Q1,是第25个百分位数它砍掉数据的最低的25%。第3个四分位数记做Q3是第75个百分位數,它砍掉数据的最低的75%(或最高的25%)第2个四分位数是第50个百分位数,作为中位数它给出数据分布的中心。

第1个和第3个四分位数之间嘚距离是散布的一种简单度量它给出被数据的中间一半所覆盖的范围,该距离称为四分位数极差(IQR)定义为 IQR=Q3-Q1。

2.2.2 五数概括、盒图与离群點

盒图是一种流行的分布的直观表示盒图体现了五数概括:
1) 盒的端点一般在四分位数上,使得盒的长度是四分位数极差IQR
2) 中位数用盒内的线标记。
3) 盒外的两条线(称作胡须)延伸到最小( Minimum)和最大(Maximum)观测值

由于现实数据中总是存在各式各样地“脏数据”,也称為“离群点”于是为了不因这些少数的离群数据导致整体特征的偏移,将这些离群点单独汇出而盒图中的胡须的两级修改成最小观测徝与最大观测值。这里有个经验就是最大(最小)观测值设置为与四分位数值间距离为1.5个IQR(中间四分位数极差)。即
1、IQR = Q3-Q1即上四分位数与下四分位数之间的差,也就是盒子的长度
2、最小观测值为min = Q1 - 1.5*IQR,如果存在离群点小于最小观测值则胡须下限为最小观测值,离群点单独以点汇出如果没有比最小观测值小的数,则胡须下限为最小值
3、最大观测值为max = Q3 + 1.5*IQR,如果存在离群点大于最大观测值则胡须上限为最大观测值,離群点单独以点汇出如果没有比最大观测值大的数,则胡须上限为最大值

通过盒图,在分析数据的时候盒图能够有效地帮助我们识別数据的特征:
1、直观地识别数据集中的异常值(查看离群点)。识别可疑的离群点的通常规则是挑选落在第3个四分位数之上或第1个四分位數之下至少1.5 × IQR处得值。
2、判断数据集的数据离散程度和偏向(观察盒子的长度上下隔间的形状,以及胡须的长度)

方差和标准差都是数据散布度量,它们指出数据分布的散布程度低标准差意味着数据观测趋向于非常靠近均值,而高标准差表示数据散布在一个大的值域中

2.4 數据的基本统计描述的图形显示

我要回帖

更多关于 韩家炜 数据挖掘 的文章

 

随机推荐