关于我们

质量为本、客户为根、勇于拼搏、务实创新

< 返回新闻公共列表

大数据与传统数据的区别

发布时间:2019-12-07 16:46:04

大数据与传统数据比较的主要特征是数据量“大”,数据类型“复杂”,数据价值“无限”。

图片 1.png


数据量大十分好理解,以前我们存储数据使用的单位是 KB,一个Excel表格也就几十到几百KB,现在我们经常说到GB甚至是TB乃至PB的数据量级,它们的数量关系如下所示。

1MB=1024KB 

1GB=1024MB

1TB=1024GB 

1PB=1024TB 

更直观地说,1KB相当于512个字符,1MB相当于6本红楼梦的数量……淘宝网20153月每天产生约7TB的数据量,相当于4000万本红楼梦的数据量,中国最大的图书馆中国国家图书馆藏书量为3000万本。由此可见,我们的大数据实在是数据量庞大。但是为什么会产生如此大量的数据呢?我们从检索数据、传输数据和保存数据的方法来看,这些问题的数据量很大。  数据获取方式的质变是大数据能够产生的核心要素。以往的数据取得方式多是人工取得数据,最大的特征是手动输入数据,超市通过在收银台输入用户的特征来收集用户数据,键盘的形状大致如图3-3所示。

图片 2.png

超市通过这样的方式来收集用户的数据,对收集的数据进行分析,来对用户画像与人群定位。试想在超市每天如此大的接待量情况下,收银员能否保证数据录入的准确性呢?与此同时,通过人工输入的方式每天能够采集多少数据呢?类似的这种键盘记录的方式还有许多人工录入数据的方式不再一一举例,传统记录数据的方式必定只能是小范围的,少量的和准确度欠佳的。而现在的数据获取方式大多是通过URL传输和API接口,大体上数据获取的方式有这样几类:爬虫抓取、用户留存、用户上传、数据交易和数据共享。

图片 3.png

自有数据与外部数据是数据获取的两个主要渠道。在自有数据中,我们可以通过一些爬虫软件有目的的定向爬取,比如爬取一批用户的微博关注数据,某汽车论坛的各型号汽车的报价等。用户留存多是用户使用了公司的产品或是业务,用户在使用产品或是业务中会留下一系列行为数据,这个构成了我们的数据库主体,通常的数据分析多基于用户留存的数据。用户上传数据诸如持证自拍照、通讯录、历史通话详单等需要用户主动授权提供的数据,这类数据往往是业务运作中的关键数据。相较于自有数据获取,外部数据的获取方式简单许多,绝大多数都是基于API接口的传输,也有少量的数据采用线下交易以表格或文件的形式线下传输。此类数据要么采用明码标价一条数据多少钱,或是进行数据共享,交易双方承诺数据共享,谋求共同发展。  至此,我们看到新时代的数据获取形式相较于传统数据获取的方式更加多元、更加高效。  同样的大数据与传统数据的传输方式也截然不同。传统数据要么以线下传统文件的方式,要么以邮件或是第三方软件进行传输,而随着API接口的成熟和普及就好像以前的手机充电接口,从千奇百怪、五花八门到今天的两大主要类别:iPhone系统与Android系统。API接口也随着时代的发展逐渐标准化、统一化,一个程序员只用两天的时间就能完成一个API接口开发,而API接口传输数据的效率更是能够达到毫秒级。  在数据存储方面,大数据的存储环境相较于传统数据的存储已经跃升了好几个数量级。犹记得十多年前软盘还非常高级,存储量达到20MB的软盘已然很贵,更别说U盘和移动硬盘了。  大数据与传统数据的另一个显著差异是数据类型的丰富。传统数据更注重于对象的描述,而大数据更倾向与对数据过程的记录。为了便于大家理解,下面简单的举个例子说明传统数据与大数据的记录方式有何区别。  

传统数据的记录方式如下表。

图片 4.png

大数据的记录方式如下表

图片 5.png

  很明显地看到,传统数据和大数据记录数据的最大区别是大数据不仅对对象进行了描述,还加入了时间、地点等维度,这样的数据记录的是一个过程,从小明进入餐厅之前开始一直到小明离开餐厅,这整个过程都会被记录下来。而传统数据的记录方式更倾向于对结果的简单描述。  当然,大数据能记录的用户就餐数据远不局限于上述所列的字段,理想状况的大数据监控甚至会记录用户吃饭的方式、吃饭时的行为、吃饭时的面部表情等一系列数据,这些数据反映了用户对就餐环境的感受,对餐食口味的反应,进一步可以用来改进就餐环境、食物口味,给出点餐建议。  大数据与传统数据的核心差异在于其价值的不可估量。传统数据的价值体现在信息传递与表征,是对现象的描述与反馈,让人通过数据去了解数据。而大数据是对现象发生过程的全记录,通过数据不仅能够了解对象,还能分析对象,掌握对象运作的规律,挖掘对象内部的结构与特点,甚至能了解对象自己都不知道的信息。  诸如某百科对一个人的描述与概括,记录了这个人的身高、体重、出生年月、兴趣爱好、日常活动、亲朋好友等数据,这些算是传统数据,通过这些传统数据你能知道和认识这个人。如果一个人被记录为大数据,就能详细地记录一系列的过程数据,例如他什么时候发生的、睡眠的质量、身体状况以及他在什么时候做什么。 通过这些过程数据,我们不仅能够了解这个人,还能够了解他的习惯性人格,还能够引出隐藏在生活习惯中的感情和心理活动等信息。这些并没有被传统数据所反映,但也反映了承载信息的大数据的丰富性。丰富的信息背后隐藏着巨大的价值。这些价值观甚至可以帮助人们达到“思考就是所得”的境界。大型数据价值的特殊之处在于,它的可发掘性、相同的数据集合、不同的人得到不同水平的东西。就像遇到同一个人一样,既有只看外表的人,也有从表情看心理活动的人,也有从眼前看经验的人,也有从服装看品味的人,也有从鞋子看生活习惯的人。这些深层次的非象征性内容需要技术和实力,这就是我们所说的数据分析和数据挖掘。



/template/Home/Zkeys/PC/Static