`

数据库大数据访问的常用解决方法

阅读更多

 

1、对海量数据进行分区操作


对海量数据进行分区操作十分必要,例如针对按年份存取的数据,我们可以按年进行分区,不同的数据库有不同的分区方式,不过处理机制大体相同。例如SQL Server的数据库分区是将不同的数据存于不同的文件组下,而不同的文件组存于不同的磁盘分区下,这样将数据分散开,减小磁盘I/O,减小了系统负荷,而且还可以将日志,索引等放于不同的分区下。

 

2、建立广泛的索引


对海量的数据处理,对大表建立索引是必行的,建立索引要考虑到具体情况,例如针对大表的分组、排序等字段,都要建立相应索引,一般还可以建立复合索引,对 经常插入的表则建立索引时要小心,笔者在处理数据时,曾经在一个ETL流程中,当插入表时,首先删除索引,然后插入完毕,建立索引,并实施聚合操作,聚合 完成后,再次插入前还是删除索引,所以索引要用到好的时机,索引的填充因子和聚集、非聚集索引都要考虑。

 


3、加大虚拟内存

如果系统资源有限,内存提示不足,则可以靠增加虚拟内存来解决。笔者在实际项目中曾经遇到针对18亿条的数据进行处理,内存为1GB,1个P4 2.4G的CPU,对这么大的数据量进行聚合操作是有问题的,提示内存不足,那么采用了加大虚拟内存的方法来解决,在6块磁盘分区上分别建立了6个 4096M的磁盘分区,用于虚拟内存,这样虚拟的内存则增加为 4096*6 + 1024 = 25600 M,解决了数据处理中的内存不足问题。

 

4、分批处理

海量数据处理难因为数据量大,那么解决海量数据处理难的问题其中一个技巧是减少数据量。可以对海量数据分批处理,然后处理后的数据再进行合并操作,这样逐 个击破,有利于小数据量的处理,不至于面对大数据量带来的问题,不过这种方法也要因时因势进行,如果不允许拆分数据,还需要另想办法。不过一般的数据按 天、按月、按年等存储的,都可以采用先分后合的方法,对数据进行分开处理。

 

5、使用数据仓库和多维数据库存储

数据量加大是一定要考虑OLAP的,传统的报表可能5、6个小时出来结果,而基于Cube的查询可能只需要几分钟,因此处理海量数据的利器是OLAP多维分析,即建立数据仓库,建立多维数据集,基于多维数据集进行报表展现和数据挖掘等。



 

6、负载均衡技术

 

负载均衡集群是由一组相互独立的计算机系统构成,通过常规网络或专用网络进行连接,由路由器衔接在一起,各节点相互协作、共同负载、均衡压力,对客户端来说,整个群集可以视为一台具有超高性能的独立服务器。

 

实现数据库的负载均衡技术,首先要有一个可以控制连接数据库的控制端。在这里,它截断了数据库和程序的直接连接,由所有的程序来访问这个中间层,然后再由中间层来访问数据库。这样,我们就可以具体控制访问某个数据库了,然后还可以根据数据库的当前负载采取有效的均衡策略,来调整每次连接到哪个数据库。

 

 

 

参考资料:  数据库大数据访问的解决方法     http://www.studyofnet.com/news/379.html

 

 

 

 

分享到:
评论

相关推荐

    大数据常用数据库汇总.pdf

    ⼤数据常⽤数据库汇总 通常数据库分为关系型数据库和⾮关系型数据库,关系型数据库的优势到现在也是⽆可替代的,⽐如MySQL、SQL Server、Oracle、 DB2、SyBase、Informix、PostgreSQL以及⽐较⼩型的Access等等数据库...

    数据库上机实验作业报告

    数据库上机实验作业报告

    最全数据分析资料汇总(含python、爬虫、数据库、大数据、tableau、统计学等).zip

    常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-...

    3-5-美团大数据平台架构实践-谢语宸.pdf

    数据分析师可以通过BI产品平台进行交互式的数据查询访问,也可以通过可视化的报表工具查看已经处理好的常用分析指标。公司高管也是通过这个平台上的天机系统查看公司主要业务指标和报表。 美团大数据平台的整个过程...

    大数据文献综述.docx

    大数据概念 大数据定义 维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集。也就是说大数据是一个体量特别大,数据类别特别大的数据集,并且这样的...

    大数据产业链构成解析.doc

    国内 以阿里巴巴、百度、腾讯、人大金仓、浪潮、曙光、南大通用为代表的互联网企业、云 计算和数据库厂商纷纷加大应用推广力度,在国际先进的开源大数据技术基础上,形成 独自的大数据平台构建和应用服务解决方案,...

    大数据LBS.docx

    大数据LBS全文共2页,当前为第1页。大数据LBS全文共2页,当前为第1页。 大数据LBS全文共2页,...常用的方法是,在路网中找到一条依次经过给定路段序列的最短路径。然而,由于低采样率轨迹地图匹配问题仍然面临较大的挑

    《数据科学与大数据技术导论》数据的采集.pptx

    在大数据的采集过程中,其主要特点是成千上万的用户同时进行访问和操作而引起的高并发数,所以在采集端需要部署大量数据库才能对其支撑,并且在这些数据库之间进行负载均衡和分片是需要深入思考和设计的。...

    数据库访问接口你不会只知道JDBC吧! ! ! !

    常用数据库访问接口简介 不同的程序设计语言会有各自不同的数据库访问接口,程序语言通过这些接口,执行 SQL 语句,进行数据库管理。主要的数据库访问接口主要有 ODBC、JDBC、ADO.NET 和 PDO。 ODBC ODBC(Open ...

    MySQL数据库管理高级篇(一)

    MySQL所使用的SQL语言是用于访问数据库的最常用标准化语言。MySQL采用了双授权策略,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源代码这一特点。 本课程作为MySQL的基础课程,主要讲解...

    关于爬虫大数据的一切.zip

    常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-...

    mysql属于关系型数据库吗

    MySQL所使用的 SQL 语言是用于访问数据库的最常用标准化语言。MySQL 软件采用了双授权政策,分为社区版和商业版,由于其体积小、速度快、总体拥有成本低,尤其是开放源码这一特点,一般中小型网站的开发都选择 MySQL...

    使用SpringData轻松操作数据库

    SpringData又包含多个子项目,常用的有:SpringDateJPA:目的是为了减少数据层的开发量,提供了操作数据库的接口。SpringDateMongoDB:为操作MongoDB数据库提供了接口支持,在大数据层用的比较多。SpringDateRedis:...

    Python爬虫 - 大数据 - 人工智能.zip

    常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-...

    大数据专业--爬虫实训手册.zip

    常用的存储形式包括关系型数据库、NoSQL数据库、JSON文件等。 遵守规则: 为避免对网站造成过大负担或触发反爬虫机制,爬虫需要遵守网站的robots.txt协议,限制访问频率和深度,并模拟人类访问行为,如设置User-...

    保护你的Sqlite数据库(SQLite数据库安全秘籍)

    下面向大家介绍几种常用的防止SQLite被下载的方法 1、将SQLite放在WEB不能访问到的地方。 有些虚拟主机一般也都会提供一个单独目录,供用户放一些不想被下载或访问的文件,所以放在这个目录很安全。Ilia还提供了另一...

    数据库设计及应用.doc

    易扩展 数据库管理系统(Database Management System,简称DBMS)由一个互相关联的数据的集合和一组用以访问这些数据的程序组成 。是位于用户与操作系统之间的一层数据管理软件。DBMS的用途:科学地组织和存储数 据...

    8天大数据真实项目Spark电商离线和实时分析系统

    Spark 技术生态栈中最常用的三个技术框架,Spark Core、Spark SQL 和?Spark Streaming,进行离线计算和实时计算业务模块的开发。实现了包括用户访问?session 分析、页面单跳转化率统计、热门商品离线统计、广告流量...

    2017最新大数据架构师精英课程

    本资源为大数据基础到中高级教学资源,适合稍微有点大数据或者java基础的人群学习,资源过大,上传乃是下载链接,不多说,上目录: 1_java基础2 l3 a2 a$ t7 J2 b+ `- p 2_java引入ide-eclipse 3_java基础知识-循环...

    大数据分析及处理方法.docx

    除此之外,Redis和MongoDB这样的NoSQL数据库也常用于数据的采集 在大数据的采集过程中,其主要特点和挑战是并发数高,因为同时有可能会有成千上万的用户来进行访问和操作,比方火车票售票网站和淘宝,它们并发的访问...

Global site tag (gtag.js) - Google Analytics