再说说LOAD和SOURCE
admin
2023-05-16 08:22:01
0

MySQL中导入数据的方法主要有两种: LOADSOURCE, 下面看看两者的特点.

 

测试过程中二进制日志格式, 和用到的表结构如下:

(root@localhost) [(none)]> SHOW VARIABLES LIKE 'binlog_format';

+---------------+-------+

| Variable_name | Value |

+---------------+-------+

| binlog_format | ROW  |

+---------------+-------+

1 row in set (0.00 sec)

 

(root@localhost) [stage]> SHOW CREATE TABLE st1\G

*************************** 1. row***************************

      Table: st1

Create Table: CREATE TABLE `st1` (

  `a`int(10) unsigned NOT NULL DEFAULT '0',

  `b`varchar(4) NOT NULL DEFAULT '',

  `c`int(11) NOT NULL DEFAULT '0'

) ENGINE=InnoDB DEFAULT CHARSET=utf8mb4

1 row in set (0.00 sec)

 

使用LOAD导入数据.

(root@localhost) [stage]> LOAD DATA INFILE '/tmp/st1.txt' INTO TABLE st1;

Query OK, 4 rows affected (0.00 sec)

Records: 4 Deleted: 0  Skipped: 0  Warnings: 0

 

分析其产生的二进制日志, 可以发现LOAD将该过程作为一个事物了.

BEGIN

/*!*/;

# at 193

# at 263

#170904 15:36:07 server id 1683316  end_log_pos 314 CRC32 0xffbd6789       Table_map: `stage`.`st1` mapped to number76

# at 314

#170904 15:36:07 server id 1683316  end_log_pos 397 CRC32 0xb3c288aa     Write_rows: table id 76 flags: STMT_END_F

### INSERT INTO `stage`.`st1`

### SET

###  @1=1

###  @2='aa'

###  @3=2

### INSERT INTO `stage`.`st1`

### SET

###  @1=2

###  @2='bb'

###  @3=4

### INSERT INTO `stage`.`st1`

### SET

###  @1=3

###  @2='cc'

###  @3=6

### INSERT INTO `stage`.`st1`

### SET

###  @1=4

###  @2='dd'

###  @3=8

# at 397

#170904 15:36:07 server id 1683316  end_log_pos 428 CRC32 0x67fed44c      Xid = 29

COMMIT/*!*/;

 

上面的过程, 其实和下面的语句是等价的.

START TRANSACTION;

INSERT INTO st1 VALUES(…);

INSERT INTO st1 VALUES(…);

COMMIT;

 

LOAD遇到错误, 如数据类型不对, 或数据列不匹配等, 整个过程就会回滚. 下面是实际数据导入中遇到的一个报错:

(root@localhost) [product]> LOAD DATA INFILE '/tmp/pro1.txt' INTO TABLE pro1;

ERROR 1261 (01000): Row 4999999 doesn'tcontain data for all columns

 

(root@localhost) [product]>system perror 1261;

MySQL error code 1261(ER_WARN_TOO_FEW_RECORDS): Row %ld doesn't contain data for all columns

 

如上报错, 在导入第499999条记录时, 遇到错误, 整个事物进行了回滚, 这样的大事物运行效率很低, 即使最后提交成功, 在主从复制环境下, 也极有可能造成延时.

 

建议LOAD导入数据时, 可先用命令split将数据文件分成若干小文件, 然后多次导入; 也可借助PT工具pt-fifo-split分割文件, 其具体使用见说明文档.

 

 

其实上面拆分导入的方式, 正是命令SOURCE的思路, 其一般导入INSERT语句, 格式如INSERT INTO st1 VALUES(…), (…), (…) …

 

下面是实际数据导入中摘出来的日志:

Query OK, 8690 rows affected (0.19 sec)

Records: 8690  Duplicates: 0 Warnings: 0

 

Query OK, 8800 rows affected (0.24 sec)

Records: 8800  Duplicates: 0 Warnings: 0

 

可见SOURCE8000行记录左右提交一次, 也可在二进制日志中得到印证. 若某条记录出错, 其所在分组会进行回滚. 至于为什么是8000, 暂且理解为内部机制了.


相关内容

热门资讯

“扫码入企”为企业松绑减负 本报记者 刘 亮□ “扫码入企”本质上是通过数字化手段进一步规范涉企行政检查,解决企业长期反映强烈的...
高三女生高考前确诊罕见病,母亲... 极目新闻记者 张裕5月15日,武汉市第三十九中学成人礼现场,高三学生杨乐乐在母亲搀扶下走过“成人门”...
台中队誓师大会登场,黄国昌:民... 海峡导报综合报道 台湾民众党“台中队”16日亮相,跨足山海屯、市区目前提名6名市议员参选人,白营党主...
“美国稀土联盟跑不起来:日本不... 【文/观察者网 王一】美国想拉盟友重建稀土供应链,却发现队伍不好带。美国彭博社5月15日发长文分析称...
大连爱碧克取得管口自动辊凸台装... 国家知识产权局信息显示,大连爱碧克空调配件有限公司取得一项名为“一种管口自动辊凸台装置”的专利,授权...
免费开放!机器人足球赛等趣味科... 5月16日至17日,中国科学院第22届公众科学日在全国一百余家高校科研院所举行,并面向社会免费开放。...
“智云上海,智惠全城”中国电信... 5月15日,2026年中国电信第六届科技节上海站正式启幕。活动主论坛以“智云上海,智惠全城”为主题,...
孙燕姿演唱会中突发不适,多名工... 5月15日晚,孙燕姿在台北举行演唱会,表演途中她腿部突然有些不适,疑似抽筋。但她仍坚持唱完当前曲目,...
燃气热水器通电显示屏不亮 1、可能是燃气热水器的显示屏连接线发生断路的情况。2、可能是家庭内的电压出现大幅度波动,或者电压过低...
长虹电视机开机后显示屏不亮是什... 果液晶电视出现这种情况的话,很有可能是由于电视内部排线接触不好造成的。因为在液晶电视内部,各个援建在...