编码与解码
admin
2023-07-17 07:23:25
0

1.字符编码
编码与解码
ascii码(不能直接写字符,汉字从而引入了GBK码)
GB2312 收录了7445个汉字及字符;
GBK1.0 收录了21886个汉字及字符;
GB18030 收录了27484个汉字及字符;
unicode 国际标准但都需要俩个字节;
utf-8 是优化的国际化的统一标准,(是可变长的字符集)英文及其字符用1byte表示,而汉字要用3bite表示;

2 .代码中的体现

res1='你好'
res2='hello'

print(res1.encode('utf-8') ,type(res1.encode('utf-8')))   # b'**\xe4\xbd\xa0**\xe5\xa5\xbd'  bytes类型
print(res2.encode('utf-8'))         # b'hello'

print(res1.encode('gbk'),type(res1.encode('gbk')))   # b'**\xc4\xe3**\xba\xc3'                bytes类型
print(res2.encode('gbk'))        # b'hello'

能够发现英文在gbk与utf-8的编码下是不发生变换的;而汉字在gbk的编码下是2字节,而在utf-8的编码下是3字节,类型是bytes类型

ret1=b'\xe4\xbd\xa0\xe5\xa5\xbd'
print(ret1.decode('utf-8'))
print(ret1.decode('gbk'))      #  会出现乱码 浣犲ソ

能够发现utf-8编码下的bytes类型,由gbk解码能够解码但出现了乱码,因为gbk每2个字节解码一次

ret2=b'\xc4\xe3\xba\xc3'
print(ret2.decode('gbk'))     #  能够解码为    你好

print(ret2.decode('utf-8'))
#  报错的类型:  UnicodeDecodeError: 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte
能够发现utf-8编码下的bytes类型,由gbk解码能够解码但出现了乱码,因为gbk每2个字节解码一次

3.实际中遇到的问题(模拟黏包问题)`

server端:

import socket

sk=socket.socket()
sk.bind(('127.0.0.1',8091))
sk.setsockopt(socket.SOL_SOCKET,socket.SO_REUSEADDR,1)

sk.listen()
conn,addre=sk.accept()

while True:
    cmd=input('>>>')
    if cmd=='Q':
        conn.send(cmd.encode('utf-8'))
        break
    conn.send(cmd.encode('utf-8'))
    res=conn.recv(1024)
    print(res.decode('utf-8'))
conn.close()

sk.close()

client端:


import socket
import subprocess

sk=socket.socket()

sk.connect(('127.0.0.1',8091))

while True:
    cmd=sk.recv(1024).decode('utf-8')
    if cmd=='Q':
        break
    res=subprocess.Popen(cmd,shell=True,stdout=subprocess.PIPE,stderr=subprocess.PIPE)  # stdout;stderr拿到的数据就是bytes类型
    stdout='stdout:'+res.stdout.read().**decode('gbk')**     # 这里的解码只能是gbk,因为它的编码形式就是gbk
    stderr = 'stderr:' + res.stderr.read()**.decode('gbk')**  
    sk.send(bytes(stdout,encoding='utf-8'))
    sk.send(bytes(stderr,encoding='utf-8'))

sk.close()

4.个注意的问题:
1.socket,send('数据类型只能是bytes,传码之前一定要编码');
2.str+ bytes是不能拼接的,只有将bytes类型解码成str才能拼接;

(能力有限,多多指教^-^)

相关内容

热门资讯

“艺考名师”涉嫌性侵猥亵至少2... 今年4月,影视艺考培训机构影路站台创始人杜某哲涉嫌强奸和强制猥亵一案开庭。庭审持续了整整两天。据悉,...
又一项目签约东莞,重点打造高端... 6月5日,东莞水乡经济区管委会 麻涌镇人民政府 与广合科技股份有限公司 举行项目投资签约仪式 广合科...
技术扎根,全栈破局!科陆电子S... 6月3日-5日,SNEC2026在上海国家会展中心举行。本次展会是美的集团新能源事业部成立后的首次亮...
合肥市长江路第二小学橡树湾学子... 以科技筑梦,以创新成长!近日,2026年合肥市机器人竞赛圆满落幕。全市各校科创能手同台竞技、巅峰对决...
增至200颗!我国成功发射千帆... 2026年6月5日14时34分,在海南商业航天发射场,长征八号运载火箭将千帆极轨12组卫星准确送入预...
苏州医疗机构AI智能体应用实践... 人工智能正深刻重塑卫生健康服务模式,AI智能体已成为医院数字化转型、智慧医疗建设的重要引擎。为了让A...
霸权霸道霸凌!中方回应美制裁古... 问:美国财政部4日发布公告,宣布将古巴国家主席迪亚斯-卡内尔等人及同其相关的实体和个人列入制裁名单,...
一天热死3400人,印度也要限... “太阳跟印度人结仇了!”在印度的社交网络里,这句话成为了口头禅。印度人只能用梗图表达对高温与热浪的愤...
智能眼镜成了偷拍空姐的“神器”... 近日,上海云女士在乐奇ROKID智能眼镜用户社区内,发现有用户使用该品牌眼镜在登机时拍摄“春秋航空”...
美政府要求AI模型接受安全测试 参考消息网6月5日报道据路透社6月2日报道,根据2日发布的一项行政命令,特朗普政府将要求领先的人工智...