数据库管理系统是什么软件(国内银行都在使用
经常有刚进入职场的刚从事数据分析的新人,问我做数据分析需要学什么,如何规划自己的学习路径。我会告诉他:如果你不会用 Excel,就先学 Excel,到时候你可以用 Excel 处理和分析一些小数据集没有问题(具体表现是:常用函数公式、数据透视表,你熟练过滤、排序和图表),您可以学习 SQL 语言,然后使用 BI 来分析和熟悉业务。然后在某个阶段,您可以开始使用 R 或。以后如果能走得更远,可以学习一些大数据框架,比如Spark。
为什么要学习 Excel?
首先,Excel是我们最常用的数据分析和处理工具。 Excel的功能非常丰富,基本可以涵盖我们以后在其他软件(SQL、BI、R)中学习的那些功能。
可能有人会问,既然 Excel 这么强大,为什么还要学习其他工具呢?这是因为Excel以菜单的形式运行,难以实现自动化和功能复用。当然也可以通过VBA来实现。使用VBA也是编程,但是因为VBA是一种语言,基本上只能在软件中使用,学习的投入成本与产出收益不成比例,不推荐学习。这是客观原因之一;另一个是Excel性能较差,在处理比较大的数据集时经常崩溃。 (虽然上面的版本号称能容纳100万+条记录,但上万条数据开始冻结)。
为什么在 Excel 之后还需要学习 SQL?
客观原因是大多数数据分析工作都需要 SQL 技能。为了保证数据的安全性和管理的方便性,将数据统一存储在数据库中,需要使用SQL语言从数据库中提取和查询数据。有些公司甚至使用 SQL 语言进行数据分析。
另外一个原因是,即使你先学了其他工具,比如R,甚至是Spark等大数据框架,你会发现最后还是要学SQL。如果先学 SQL,在学习 R、Spark 等更复杂的工具之前,可以先弄清楚很多概念,对以后的学习很有帮助。这就好比盖房子,先打地基,再一层一层的盖起来。
SQL 语言的学习排在 Excel 之后,其他工具之前。另一个重要的原因是SQL可以在一定程度上帮助Excel解决大数据集的问题,同时也为其他工具搭建了一座桥梁。
数据库和SQL的学习也分为两部分。第一部分讲数据库和表的概念。二是对SQL语句和数据库操作的掌握。
一、数据库基础
先说一下我对数据库的理解。数据库,顾名思义,就是数据的集合,由数据表组成。
放置在一个物理实体上,它是一堆写在磁盘上的文件,其中包含数据。这些最基本的数据组成一个表格,我们把它想象成一个Excel表格,如下图:
每个表都有一个唯一标识符、主键或 ID。 ID是数据库中的一个重要概念,称为唯一标识符/主键,用来表示数据的唯一性。相当于我们的身份证,是唯一的。有了身份证,我们就知道数据在哪里。
ID 通常没有商业意义,是唯一的标识。每个表只能有一个主键,主键通常是整数。主键一旦建立,通常不允许修改其值。
数据库是表的集合。一个数据库中可以有多个表,我们给每个表命名,表之间可以相互关联。连接意味着可以对数据进行相应的匹配。正式名称叫做join,对应的操作叫做join,我们想象成Excel中的样子。
比如上面两张图,左图是学生信息表,右图是老师信息表。左图中的主键是学生证,右图的主键是教师证。细心的读者可能会发现,右图中还有一张学生证。这里的学生证是专门用来加入用户表的,不是主键。只是这两张表是通过学生证的唯一信息关联起来的。
但是两个表的关系并不是信息之间的一一对应关系,也会有空缺,比如:
两个表之间的连接会变成:
了解了以上概念,你就会知道什么是关系型数据库。简单来说,就是一个由多个可以相互连接的二维行列表组成的数据库。在数据准备过程中,我们通常会建立表关联进行分析。
关系数据库是基于关系代数模型开发的。常用的关系型数据库有SQL、MySQL、DB2等,这取决于企业的使用情况。我们将在后续研究中重点关注 MySQL。
关系型数据库(不感兴趣的可以跳过):
DB2:关系型数据库,适用于大型分布式应用系统,确实是一个非常非常好的数据库,无论是稳定性、安全性、恢复性等都无可挑剔,从小型到大型应用都非常适合但是使用起来很麻烦,安装要求很多,很多软件可能会和DB2冲突,因为DB2一般安装在小型机或者服务器上,所以安装在PC上很麻烦。创建一个新库需要设置很多东西,分配各种存储空间。
:是目前市场占有率最大的数据库。我在学习SSH时使用它。安装很复杂,程序文件多达3G……使用起来很方便,对于我这样的初学者来说,配置很简单,配置和管理方法也很复杂要求苛刻的企业级应用,并且拥有非常强大的数据字典,可以说是最实用的数据库了,不过查了一下,价格也不便宜。 ..
MS SQL:最初使用的是2000和2005版本,两个版本有很大不同。 2000的数据库做的不错,程序小,操作简单,功能比较齐全。它在各方面都是一个中等的数据库。它是一个中型数据库。我的毕业设计是用MS SQL 2000做的。2005年增加了很多功能,比较复杂,有大数据库的风格,价格也涨了。个人认为,除非是系统或产品,否则还是用它比较好。
MySQL:MySQL是一个非常好的关系型数据库,免费,功能齐全,小程序,安装方便。现在很多网站都用MYSQL,字段约束有点差,其他都是Yes,和MS SQL差不多。
:一个典型的桌面数据库,我觉得做个单机系统还可以,比如记账、记事等等。在局域网里跑个小系统就够了,数据源连接是很简单,因为是数据库,所以自带数据源。
更多关于数据库的知识,阅读《数据库系统简介》就足够了。
二、尝试使用 MySQL 数据库
如果您没有接触过数据库或 SQL,我们建议您下载并安装 MySQL 数据进行试用。 MySQL数据库的下载安装比较简单,安装完成后就可以使用了。
可以访问MySQL官网下载,网址如下(这里是版本下载地址):
下载MySQL时需要免费注册,注册页面为英文。下载工具后,点击运行,程序会自动为你在网上安装MySQL,并自动配置。安装过程中需要设置密码,自己设置登录密码,记住下次登录MySQL时需要这个密码。
解压后没有my.ini文件(我的端口设置为3308),截图中添加了。
管理命令行:
在MySQL安装目录的bin目录下执行命令:
---
得到以下结果:
看到警告,我检查了mysql,建议使用
修改 my.ini 文件
警告消失,打印默认密码:nj>/I
然后,安装服务:
-- .0
因为这是电脑上的第二个mysql,所以把服务名改成了.0
启动服务:
净启动 .0
更改初始密码
登录mysql后执行:
ALTER USER 'root'@'' WITH d BY '';
将 MySQL 与 Excel 或其他数据分析工具连接起来
在默认安装的情况下,有一个插件可以让MySQL数据库连接到Excel。想象一下,我们通过 SQL 语言对 MySQL 数据库中的大量数据进行处理和计算,并将计算结果存储在特定的数据表中。然后通过Excel连接MySQL数据库,将数据读入Excel,用Excel分析绘制图表,免去了从数据库导出数据再导入Excel的麻烦,能提高效率吗?
郑重声明:本文版权归原作者所有,转载文章仅出于传播更多信息之目的。如果作者信息标注有误,请尽快联系我们修改或删除,谢谢。