京东云大数据库云平台数据库设计在什么什么省?什么市?

维生素 | 脱发 | 流感 | 历史人物 | 茂名市 | 饮食 | 哲学 | 仓鼠 | 咖啡 | 奶茶 | 汽车设计 | 大学生 | 九龙 | 面相 | 狐臭 | 鲜奶 | 机箱 | 强迫症 | 宝洁（P&G） | 动物 | 莎车县 | 乳腺癌 | 医患关系 | 翡翠 | 江苏省 | 语言 | 电脑硬件 | 骊威 | 燕窝 | 酒文化 | 医学生 | 汽车维修 | 大脑 | 大白菜 | 高血压 | 电视 | 云计算 | 骨折 | 伊宁市 | 食品 | 地图 | 实木家具 | 冬虫夏草 | 过敏性鼻炎 | 太湖县 | 眼科学 | 历史 | 南京市 | 呼和浩特市 | 上火 | 猪瘟 | 医疗行业 | 异性朋友 | 编程 | 酵素 | 内黄县 | 同学聚会 | 男闺蜜 | 赛欧 | 厦门市 | 柠檬 | 佛教 | 自卑 | 礼仪 | 骨科 | 牙齿矫正 | 企业 | 中国文学 | 鲤鱼 | 服装面料 | 红酒 | 案件 | 视力保健 | 痛风 | 绝地求生大逃杀 | 坐月子 | 美国 | 房价 | 鸡蛋 | 洗发水 | 铜仁市 | 口臭 | 室友关系 | 辐射危害 | 徽州区 | 米粉 | 天花 | 演出 | 三菱商事 | 混凝土 | 螃蟹 | 高二 | 情商 | 初恋 | 前任恋人 | 粉丝（Fans） | 情绪管理 | 滦州市 | 进贤县 | 父亲 | 儿童教育 | 鸭绿江 | 疾病 | 新疆维吾尔自治区 | 大学生活 | 抚顺市 | 社交网络 | 萧炎 | 奶粉 | 周易 | 湿疹 | 微信朋友圈 | 大城县 | 生物材料 | 刷机 | 研究生 | 牛初乳 | 牛肉 | 巧克力 | 泾川县 | 电路 | 练字 | 姓氏 | 考研 | 八字算命 | 工资 | 汉服 | 约会 | 城市规划 | 埇桥区 | 祁县 | 记忆力 | 胶州市 | 非洲 | 杨凡 | 王者荣耀 | 烤瓷牙 | 罗兰 | 卡通 | 化疗 | 武冈市 | 医学常识 | 日本 | 产后护理 | 淇县 | 实验 | 家庭暴力 | 手工艺 | 亲子鉴定 | 电动汽车 | 头晕 | 延安 | 人体 | 卫生巾 | 微生物 | 奇瑞 | 视频剪辑 | 酒店 | 空气质量 | 蔬菜 | 彬州市 | 发动机 | 名言 | 室友 | 植物 | 前端开发 | 大红袍 | 华为手机 | 植发 | 显卡 | 孕妇 | 鸡尾酒 | 白血病 | 床垫 | 艾灸 | 汤品 | 维生素c | 创业 | 抑郁 | 麦克风 | 科学技术 | 新风系统 | 辣椒 | 女生爱情 | 余杭区 | 情感专家 | 公路车 | 孤岛惊魂（游戏） | 网站 | 职场沟通 | 博物馆 | 韭菜 | 羊 | 民族 | 调酒 | 五菱宏光s | 院校信息 | 西宁市 | 白兰地 | 餐饮 |

你的位置：网站首页 >> 频道首页 >>数据库 >>京东云大数据库云平台数据库设计在什么什么省?什么市?

京东云大数据库云平台数据库设计在什么什么省?什么市?

来源：蜘蛛抓取(WebSpider) 时间：2018-06-16 20:16 标签：云大医院

京东云平台总架构师、系统技术部负责人刘海锋：从，大规模内存数据库演进之路
发表于 16:20|
作者唐小引
摘要：京东云平台总架构师、系统技术部负责人刘海锋带来“大规模内存数据库JIMDB：从”主题演讲。JIMDB基于redis，以内存为中心的数据存储，其底层技术研发包括了存储引擎、复制协议、分片策略三部分。
【CSDN现场报道】-12日，由中国计算机学会（CCF）主办，CCF大数据专家委员会承办，中国科学院计算技术研究所、北京中科天玑科技有限公司与CSDN共同协办，以“数据安全、深度分析、行业应用”为主题的
2015中国大数据技术大会（Big Data Technology Conference 2015，BDTC 2015）在北京新云南皇冠假日酒店盛大开幕。
2015中国大数据技术大会首日全体会议中，京东云平台总架构师、系统技术部负责人刘海锋带来了名为“大规模内存数据库JIMDB：从”的主题演讲。“Memory is the new disk”，JIMDB基于redis，以内存为中心的数据存储，其底层技术研发包括了存储引擎（Dict、LSM with RAM-SSD hybrid、B+Tree）、复制协议（async、sync等）、分片策略（Hash、Range）三个部分。过去两年，JIMDB一直持续建设，拥有着数千台大内存机器，多个数据中心，1000+线上集群，支撑了京东几乎所有的业务。
京东云平台总架构师、系统技术部负责人刘海锋
以下为演讲实录
刘海锋：各位同行朋友，大家下午好！非常高兴来到BDTC跟大家做交流。我今天要给大家分享的是大规模的以内存为中心的新型数据库——JIMDB，包括它过去两年的历程、技术脉络以及是怎么支撑起京东的典型电商业务。刚才Databricks公司联合创始人、Spark首席架构师辛湜分享了，它是以内存为中心的分布式计算系统，到Spark最关心的创新是以磁盘为中心演进至以内存计算为中心，从计算领域是这样。而从我个人角度也非常坚信，存储依然会有这样的趋势。这个观点是过去两年工作中，和我的团队在实践中得到的很深刻的体会。今天在这里做个简单分享，希望对大家有参考价值。电商不仅仅是大数据驱动的，我们用大数据为用户、商品等带来运营效率的提升。同时，从在线的数据访问来讲，电商业务需要非常快速的数据访问。大家可以看到，我们随便打开京东首页或类似的电商首页，图片是我们的资产，是商品形象的描述，可以用CDN加速。除了图片之外，其他几乎都是动态内容，量很大，且是频繁被改写的，它们需要非常快速的访问，比如说商品的详情、价格、品类下推荐的结果等许多内容，打开个商品详情页面或列表页，后台逻辑是很复杂的，需要非常多的数据去展现。这个过程中，一个是快速的数据访问对终端用户的体验有非常关键的影响。另外，从我们产品工程师开发的产品角度出发，另一个诉求就是关注业务逻辑，而不应该花时间优化后台在线存储的性能。Jim Gray是数据库领域的泰斗级人物，他其中一句话我记得很清楚，即“Memory is the new disk（内存是新的磁盘）”。07、08年时我们买的内存大小标准配置是4G左右，很快4G、8G、16G一路下来，很多公司都会采购158、265G内存，估计明年都会用1T内存。我们都用265G内存加万兆网卡来做，单机内存在快速变大，整体很多在线的小结构和半结构化数据存放在内存里，这个问题是不大的，也是非常合理的。而且用内存做在线存储确实有弊端，就是成本在一个时间段内有些偏高，但是除此之外却带来很多性能、管理等各方面的便捷性，两相权衡下，在一定程度上，成本的升高对有一定规模和业务比较重要的公司可以接受，而且我们可以用技术手段降低这个成本。JIMDB的全称为The Jingdong In-Memory Database，这个系统的名字是我在大概2014年初起的，它并不是严格的关系型数据库，而是一种新型的，以内存为中心的全部托管、全管理服务化的数据库。它是以内存为中心的数据存储，主要针对在线的结构或半结构化的数据，过去两年一直在持续建设。从目前的业务价值角度，它支撑了京东几乎所有的在线业务。除图片之外，几乎所有的动态内容都被它所服务，或者严格来说，图片的有些信息也用它来存储。越来越呈现一个趋势，就是我们更多地用它来做主存储，MySQL或者DataBase会进行归档。接下来我从技术角度做个简单介绍。JIMDB基于redis，redis是一个非常优秀的开源软件，它做对了两个事情。第一，它是基于内存的，简单且高性能；第二，也是基于内存，它提供了非常丰富的数据类型和数据结构。对许多互联网公司来说非常方便，比如商品的详情、属性等，非常便捷。两年前，我们为了解决它的痛点，因为之前的监控系统已不能满足我们的业务需求，便不断演进，一路做下来。Build a distributed system它是相对分散的分布式系统，有许多分支、模块，不同模块做不同的事情。从用户（业务的开发人员）的角度，给他们提供Java、C driver，其他小众语言是给他们提供代理，完全兼容但是不限于RAM servers 。对于任何一个业务都给它集群，所有集群都在我们的物理资源池上。我们这个团队的核心任务是做一套复杂的平台，一套健壮的分布式系统，管理目前大概四五千台大内存机器，为众多业务提供可靠的、性能稳定的、数据有持久性保证的高可用服务。这个系统从部署结构来讲，是单个物理服务器、多实力的结构，任何大内存物理servers上都会部署多个内存，好处是便于流量监控等，但是给业务和监控带来很多复杂性。对行业来说目前还是比较合理，故障的检测与切换，扩容的管理、升级、监控等都是独立的模块。存储的servers是复用原来redis网络编程的框架，但是复制的协议、存储的引擎等各方面都是自己来开发。在此列举几个技术点。第一，怎么做故障切换？分布式系统要解决的第一个问题是怎么处理故障。故障是个很严肃的事情，并不能简单说有一个进程有一个servers不通了就是故障，会发生网络不稳定等等，各个方面都有可能。在一个或多个数据中心有若干个故障检测器，当多数人认为它故障并且没有人认为它健康时，才能定位确实故障。发给故障的控制器做下一步事情，重新触发新的配置，改变集群的拓扑。所以故障的检测和自动的Failover是2014年做的第一个事情，把故障自动化，这个事情说起来简单，其实是最基础和最重要的，因为整个过程分很多步骤，前一段时间还出现过Bug。第二个关键问题是任何一个逻辑的集群、业务数据量会增长、变化，所以必须支持在线、动态、重新的分片，或者说重新的Sharding，这个Sharding核心思想不是简单把集群分片，中间要加一个抽象，才能进行动态的重新分片。对于这个策略来说，中间加一个bucket的抽象，然后来进行管理。迁移的过程是通过复制来做的，学术界或工程界喜欢管它叫“Partial replication”。举例来说，原来是3个分片，现在怎么变成4个分片？通过调度算法，决策把哪些分片中的bucket迁移到这里，迁移是通过复制来做的，建一个复制关系，但是这个复制关系并不是复制它原来所有的数据，所以要求复制协议的实现是要做特殊的事情，只要这一个区间的复制，复制全部完成之后更改拓扑，最后生效，这可以做并行的Partial replication做迁移。从数据的可靠性保证比较高，技术也比较简单和传统。过去两年从底层技术研发分三个方面一步步演进做了些事情，从存储引擎的角度，用的最多的是这个，第二个存储引擎是LSM，我们用RAM+SSD做混合的两级存储，这三种不是取代的关系，而是互为补充。第二种更多应用的场景，是有些东西比较大，我们可以把这个放在SSD上，把K依然放在RAM里，这样可以适当的节省成本，目前第二类线上已经有百分之十几的用量，但是数据量要乘四五倍，因为每台机器单机容量更大。第三类是B+TREE，可以排序，可以支持按范围查找和便利，这个线上用得不是特别多，我们只支持有需要按范围、需要便利查询的场景。复制协议更加关键，因为对于存储来说最核心的是复制，除了异步复制就是同步复制，我们上半年做了状态机的复制。分片策略我们用哈希最多，因为哈希最简单，业务更多时候需要单K去查询，有些业务需要按范围，我们支持Range。这三个方面技术可以做合理的按业务场景组合，满足不同的业务需求，比如业务更多是用Dict+异步复制+哈希分片策略，比较大的是RAM+SSD两级存储，然后配合其他的策略。从业务使用场景角度，我们是分而治之，不同的软件、不同的集群，根据业务的需要，可以分成这么两大类。不少业务是做纯缓存，后台还有数据库和其他存储，我们更多是用异步复制或者不复制，哈希的分片，可以做LUR的淘汰。但是线上也有将近一半左右的集群，他们不仅仅用这个东西做缓存，他们做持久存储，我们有更高的可靠性保证，一般用来开启同步或者状态机的复制，然后用范围或哈希分片，而且对它的快照做定时备份，备份到内部对象存储上去。对任何一个系统来说，底层的基础技术研发仅仅是它的一个环节，当系统达到一定规模之后，更多工作会放在监控和运维体系的建设方面。整个平台我们有比较完善的监控体系，这更多是数据驱动的，从各个方面，连接树、网络入出流量等等，产生很多时间序列进行分析、预警，并且驱动各种控制器做决策。比如有的分片存的数据因为是个华为的手机，它太热了，我们就可以把它做分列，很多时候做扩容做分列并不是因为容量，而是因为数据的热度。数据监控也存在这个系统里做快速的展现。基于容器的自动化运维，因为我刚才说过，整个系统规模比较大，有几千台机器，而且每台机器上部署很多的存储节点，所以运维的复杂性比较高。在整个2013年更多是依靠手工的运维，怎么样选机器，怎么样部署，运维工作量极大，在2014年下半年和2015年上半年，我们花了很长时间做全自动化运维的平台，它是基于Docker，简单来说是大的Linux大内存服务器上上面有很多Docker，每个进程是Docker实例，用Docker软件管理版本，智能做机器的选择，做定期的软件升级，各个方面很多工作。这个平台通过容器技术也在这里面有所发挥。说一说规模吧，因为对于任何一个底层系统建设来说，它核心的价值只有一定规模、真实驱动业务才能有收获力。线上我们有多个数据中心，有几千台大内存机器，都需要跨数据中心的复制，有的基于容灾的考虑，比如不同的机房有不同的规则，有可能跨机房做异步复制，有可能同步，预计明年有512G内存或者1T内存机器的采购。线上支持了1000多个线上的业务，每个应用相当于一个逻辑的集群。从运维角度来说，这么多台机器里面有大概3万多Docker的实例。内存存储带来什么？花了很多内存片、内存条，带来了极佳的性能、非常稳定的性能，这是我们线上某一个比较重要的集群，在双十一期间可以看到它整体的QPS超过200多万，是非常稳定的，99%的请求都在2毫秒之内返回，这个让用户体验更好，让我们的业务开发起来更加简单，让公司运维团队更加省心、更加轻松。内存存储考虑的一个主要因素是，内存可以花钱买，但是不能因为软件因素再去浪费内存，内存存储是分出来的，线上很多集群比较夸张、比较大，可能因为它使用场景比较特殊，才产生了碎片。但是整个分布来说，我们也做一些优化的工作，从内存分布器选择来看，主要的集群内存碎片率基本在1.1-1.3左右。我个人工程上的经验来说，这是非常好的内存分配器，内存分配器自行开发意义很小。正在做的事情比较多，优先级比较高的是让它更稳定更好的运维，除此之外进一步提升性能，通过软件硬件协同创新，引入更大、更便宜的内存、更快的网卡，考虑重新实现用户的网络协议加速小包的处理性能。Linux网络协议站不是为数据中心高速的网络、高速的在线应用而设计，每一次包都要中断，对于大包是合理的，对于小包是不划算的，这样的存储性能更多的是小包处理，我们在考虑重写用户协议，来加速小包处理的性能。在功能方面我们也在做个事情，这更多是工作量的事情，考虑从NoSQL支持SQL接口，因为底层有了横向扩张、灵活复制的内存里的数据结构的存储。通过JAVA等等提供，这是工作量的问题而已。另外，希望在某种程度上降低成本，因为平台化第一步是求规模稳定，让它有很好的性能和效率的保证，第二是从整体来说能降低成本，比大家分散、自由去用更省钱。基本的想法是这样的，目前是专署集群，我们希望从专署集群过渡到聚合各个IDC的RAM资源，比如说我们私有云机器去分容器、去分虚拟机，很多时候CPU是瓶颈，分完了内存有剩余，非结构化机器磁盘是瓶颈，磁盘或SSD被分完了但内存有空余，我们聚合整个RAM资源，让数据动态流动、去降低成本。简单的跟大家交流这些，总结下来，我个人非常认同“内存是存储的未来”，特别是对结构化的、海量的、小的、需要快速访问的数据。从工程上来说，是“一件事，分布做，持续做”。谢谢大家！
更多精彩内容，请关注直播专题，新浪微博，订阅CSDN大数据微信号。
推荐阅读相关主题：
CSDN官方微信
扫描二维码,向CSDN吐槽
微信号：CSDNnews
相关热门文章走近京东云华东数据中心，为何选址在宿迁？
经过近年来的努力，我国数据中心发展已呈现出规模化、集中化、绿色化、布局合理化的良好发展态势。在新一代信息技术产业、互联网经济快速发展的推动下，我国数据中心发展进入新一轮的大规模扩张期。京东云华东数据中心二期紧密张罗，据说可以在今年年底可投入使用。
规模化火力全开
日前，从京东云华东数据中心建设部宿迁工程项目部获悉，京东云华东数据中心一期投产运行1年来，使用率已接近100%，为满足更多客户需求，项目二期的4号模块正加紧建设，已完成工程总量三分之一。
据了解，目前该项目二期的4号模块建设已完成设备采购，水冷系统、柴发系统已陆续进场安装，现场施工人员达300余人，预计今年底投产使用。
据项目相关负责人介绍，京东云华东数据中心1期模块可实现运算能力超100万亿/秒，存储能力不小于5000PB，能耗PUE≤1.3，比普通数据中心全年节电量和减少碳排放量都有很大提升，远远领先于传统机房能力，将全力支撑京东商城、京东金融以及京东云重要客户的业务需求。
京东CTO张晨曾多次在业界大会上讲到：京东每年的618，11.11电商大促，无论从数据分析还是秒杀交易，都需要强有力的数据中心支撑。
宿迁自建数据中心作为京东的标杆项目，从整体的规划设计，到各个模块内机房的灵活配置，都能够更好的支撑京东不断增长的各项业务。
能支撑618、双11电商大促的京东云华东数据中心里面都有些什么名堂？选址在宿迁又有什么优势？
京东云华东数据中心整体介绍
京东云华东数据中心位于江苏省北部的宿迁市，平均气温14℃。这里是“西楚霸王”项羽的故乡，也是京东集团CEO刘强东的家乡。宿迁有京杭大运河穿境而过，北倚骆马湖，南临洪泽湖，水务资源极其丰富，这为大型数据中心散热提供了便利条件。
项目坐落于湖滨新区，园区总占地面积达13万平方米，整体由4个规模相当的云数据中心模块和1栋综合大楼组成，总建筑面积55328平方米，每个模块建筑面积12332平方米。
4个模块均为单层建筑，即使层高较高（7.5米，内部工作区空间净高约4米）而可以计为两层，容积率也小于1，单层建筑大大简化了数据中心建设和部署的要求：
服务器和机柜等设备不受电梯限制，可直接推入机房，安装部署效率高；
建筑物结构强度不用太高。宿迁机房采用地板下送风设计，承重仍可达到每平方米1吨。即使未来要扩大承重能力，也不像多层建筑那样需要考虑楼板和支撑的加固。
模块内部的数据机房和配电室也由相同的小模块组合而成，可根据使用需求灵活布置、调整模块内容。每个模块包括10个机房，分为4个低密、3个高密、1个微模块和2个网络。4栋机房楼（数据中心模块）容纳机柜总数量超过5000架，可承载20万台服务器。
采用双路110KV专用变电站，每栋机房楼配置2200KW发电机组作为后备电源，具备连续满载12小时的运行能力。加上高压直流UPS提供15分钟延时，构成三重供电保障。
宿迁市一年最高气温35.5℃，最低气温-12.1℃，平均气温14℃。区内地表水系十分发达，河渠纵横，以京杭大运河为主要水运通道，水位一般在9～9.5米。液冷散热可以节省大量的空调成本，另一方面，相比风冷散热造成的灰尘影响，液冷散热在安全与静音方面也更为突出。
700冷吨离心冷水机组为N+1配置，蓄冷罐蓄冷时间15分钟。据说京东IDC建设部还自主研发了一套自适应的温控算法，可以使整个机房始终保持在最适合的温度环境当中。在外部条件适宜的时候，通过设置在机房楼顶部的冷却塔实现水侧自然冷却，达到节能降耗的目标。
责任编辑：
声明：该文观点仅代表作者本人，搜狐号系信息发布平台，搜狐仅提供信息存储空间服务。
今日搜狐热点云已经成为在互联网圈里出现频率最高的一个词了。无论是公有云、私有云、开发云，测试云，也不仅仅是互联网企业，传统企业也因为云做出了或多或少的改变。云已经成为像水、电一样不可或缺的资源。
随着“云”渗透进生活的方方面面，无论是自建，还是利用已有资源，各大公司都纷纷开始搭建云平台。都想在云上分一杯羹。
自主研发的京东云
京东作为国内最大的电商之一，也在搭建自己的云平台，而且大部分的技术都是自主研发。为什么不选择现有的资源而要自己研发？
京东云大数据平台技术负责人廖晓辉说：“京东全产业链的电商模式，在国内是独一无二的,没有成熟产品可以借鉴，很多技术问题都需要创新的方式去解决。只有自主研发才能打造出最适合京东的信息系统。第二，“技术驱动”一直是京东的发展战略，我们自主研发的信息系统和积累技术，是京东的核心竞争力之一。但是事实上京东并没有完全自主研发所有的系统，也应用了一些开源的的技术。再结合京东自身的业务，去解决京东遇到的问题，从而更好地为我们业务去服务，为用户去服务。”
京东的云平台却包含很多分支包括宙斯、云鼎，移动平台等，是什么原因让京东打算做这么复杂的云平台？
廖晓辉认为，京东云对外所推出的公有云服务，都是基于私有云技术的产品。京东自身业务发展非常需要有一个稳定，完善的私有云做基础。在私有云技术产品稳定后我们就对京东生态内的合作伙伴、对社会开放。云平台是京东技术产业化的先锋，要以云技术和云模式，构建一个电商云生态，让京东生态内的卖家和合作伙伴以及让全社会做电商的企业都能在京东云上享受到京东的电商服务。
随着京东的发展，京东的卖家越来越多，所有的电商平台都存在这样一个问题：多个租户共享同一数据库实例必然需要一个有效的隔离方案，防止一个用户的慢查询请求或恶意请求影响其他用户访问。
廖晓辉说：“就做云数据库来讲，在京东云里面提供的服务既有共享型的数据库，也有独享型的数据库。一些用户特别关注的资源隔离对于这个问题，我们的做法是用独立的虚机方式去做部署，或者基于容器技术—Docker去实现不同级别的资源隔离。”
大数据环境下的Spark
毫无疑问京东的数据量一定大的惊人，那么在大数据环境下进行数据分析，更多人都会选择Spark，因为大家都知道它是基于内存上面进行运算，这样的话可能处理的数据会有限。
廖晓辉告诉记者：“就spark来讲，它出现时间不长发展的却很快，它的RDD分布式内存结构概念和容错性支持，以及利用DAG做执行优化，即性能和可靠性的表现，使得它非常有吸引力。但在内存受限的情况下，确实会影响它的性能表现。对于内存等资源限制的情况下，还需要对大量数据做低延迟处理，，这种场景我们可能需要考虑采取近似计算方式，但如果计算结果的精度要求不能降低，可能我们要走增量计算的方式：持续性地对一些增量数据做一些累进式的实时计算，来得到实时地计算结果来满足业务或用户的需求，相当于把全量数据的离线计算，转变成一种持续性的增量的计算方式。”
在数据存储上大致有几类，像通常的key-value数据库，文档型的数据库mongodb，列式HBase等等，京东是如何考量和选择的HBase的？
廖晓辉书：其实各种不同的数据库类型我们都有用到,包括HBase和mongodb。选择哪一种需要结合我们的业务需求，考虑数据存取的计算方式以及开发效率。mongodb它对各种语言都非常友好并提供相对丰富的API，它数据在数据量不是非常大的情况下，会有非常好的性能表现。而对于HBase来说，它属于Hadoop生态里面的一款产品，它适合random access场景或少数据量scan，随着数据增长易于扩容同时维持高的读写性能;列存储对于稀疏矩阵数据存储，加上压缩，能提高存储的效率。我们还是根据业务需要，以及数据量的规模，考虑以后的扩容以及项目研发效率来选择。
传统上，若是使用Hadoop MapReduce框架，虽然可以容易地实现较为复杂的统计需求，但实时性却无法得到保证；反之若是采用Storm这样的流式框架，实时性虽可以得到保证，但需求的实现复杂度也大大提高了我们。Spark Streaming在两者之间找到了一个平衡点？
廖晓辉解答：“Hadoop MapReduce计算模式实际上降低了做并行计算、大数据处理的门槛，适合于高吞吐量的批处理场景。而Storm和Spark-Streaming，它们都是流式计算的框架。Storm以其低延迟、易扩展性和容错机制等特点发展至今已经非常成熟，也非常优秀，为许多互联网公司所青睐。Spark-Streaming它基于spark将流式数据拆分为mini-batch做持续计算，从目前来看，它的处理延迟可能稍高，但也基本满足实时计算地要求，且它有丰富的计算和转换类API，并易于使用。虽然内部使用Scala去实现但是也支持JAVA的开发，在开发效率方面还是非常高的，此外，我们自己的经验是在生产环境验证了它的稳定性和可靠性。如果对两者进行比较，个人认为，storm适合对实时性要求更高的场合，因为它可以把延迟控制在亚秒级或者更低。而Spark-Streaming作为Spark Stack中的一员，如果熟悉了Spark下的开发方式，对Spark-streaming的开发非常容易上手；大部分的大数据处理需求，不同的workload，Spark Stack中有相应的技术产品可供选择，可避免维护不同的计算框架。选择Spark-Streaming就要考虑这个生态系统里的其他产品以及开发效率。Spark社区很火，在今年出现1.0版本之后，很快就出现了1.1版本，有非常好的势头，也在实际应用中用它的优异表现在赢得越来越多的用户。”
双十一过去不久京东作为国内首屈一指的电商平台在双十一期间如何保证服务器在大量请求、访问的的正常运转而不宕机的？
廖晓辉说：“双十一保障是一项有组织有计划地工作。在双十一之前会有一个比较长的筹备时间，会对双十一的流量和业务的增长做一个预估，有计划的去做线上的系统扩容以及完善监控，并对可能的异常做好演练并制定预案。双十一期间近一周左右时间，京东的研发部包括云平台的研发人员会安排人员24小时值班，来解决任何可能出现的线上问题。双十一之后对双十一的情况做一个总结，积累经验，从而提升系统的稳定性。
另外，从服务系统架构层面，要有HA, Loadbalance 设计，有故障只降服不停服，可扩容；要有非常及时和完善的监控，保障异常情况下，第一时间处理，缩短故障时间。再有就是防攻击系统和灾备方案进一步提供保障。”
介绍一下京东云中大数据的云服务，你们的技术实现，对Spark的应用，以及产品路线和遇到的挑战。
廖晓辉说：“云海是京东云提供的大数据开放服务，是商家驱动的数据开发平台，商家授权数据，ISV来开发相关数据产品，服务于商家的数据驱动、精细化运营的需求。同时用户也可以上传自己的数据，作为京东平台电商数据的补充。
云海中的Spark
云海不仅提供大数据存储和计算资源，同时还有云端的数据挖掘和开发工作台，这背后所涉及到的交互查询分析，批处理计算，实时计算，机器学习算法工具，在线OLAP分析，都涉及到Spark相关技术的应用。我们在依托Spark来搭建高效的计算平台和工具集，目的是使挖掘数据价值的过程变得更敏捷，而且是一套全云端的解决方案。
京东有大数据平台建设的丰富经验，同时数据驱动业务，数据驱动决策，基于大数据的精细化运营上也有成熟的经验，这些个经验也能帮助在京东上做生意的商家，可以借鉴用于改善运营效率，提高用户满意度。这个价值输出，通过云海，做的方式就是团结在电商领域期望结合大数据提供数字化运营解决方案的软件商这个群体，搭建一个平台以数据为核心，连接商家需求和ISV数据产品服务，同时对ISV的数据产品做一些引导，在解决商家的实际问题中产生价值。
在云海的建设过程中我们碰到很多挑战，有大数据处理的技术方面的，对于这类问题，我们也结合业务，基于Spark做自主地研发工作或改进框架本身。同时数据开放的有效和可行方式，我们也在探索中。近些年大数据概念的“热”以及大数据在一些互联网公司，电商企业，以及金融等领域的应用的示范作用，让各组织越来越重视数据资产，现阶段，由于数据的敏感性，对数据收集、处理、挖掘大多限于组织内部。但从另一方面，相信很多人都同。在数据的网络里，数据连接数据，汇聚各领域的数据，数据开放共享、供给不断，让更多人、个体有机会及时、便捷地分析和挖掘其中的价值，势必能让数据发挥更大的作用，甚至把社会信息化带入一个更高的层次。因为这两面性，即在数据资产保护和开放之间求得一种平衡，建立数据交换可行、可信的平台，同时是可持续的，值得更多的组织和个人来探索，合作。
声明：本文内容由互联网用户自发贡献自行上传，本网站不拥有所有权，未作人工编辑处理，也不承担相关法律责任。如果您发现有涉嫌版权的内容，欢迎发送邮件至：进行举报，并提供相关证据，工作人员会在5个工作日内联系你，一经查实，本站将立刻删除涉嫌侵权内容。
【51CTO.com原创稿件】一年一度的购物狂欢又到来了。双11，早已不再是光棍节的代名词，而是一场名副其实的购物狂欢节。在消费者购物买买买的时

京东云大数据库云平台数据库设计在什么什么省?什么市?

我要回帖

更多关于云大医院的文章

随机推荐

京东云大数据库云平台数据库设计在什么什么省?什么市?

我要回帖

更多关于 云大医院 的文章

随机推荐

更多关于云大医院的文章