python 正确字符串处理(自己踩过的坑)
admin
2023-06-27 09:23:46
0

不管是谁,只要处理过由用户提交的调查数据,就能明白这种乱七八糟的数据是怎么一回事。为了得到一组能用于分析工作的格式统一的字符串,需要做很多事情:去除空白符、删除各种标点符号、正确的大写格式等。做法之一是使用内建的字符串方法和正则表达式re模块:

一般写法

states = ['   Alabama ', 'Georgia!', 'Georgia', 'georgia', 'FlOrIda',
         'south   carolina##', 'West virginia?']

import re

def clean_strings(strings):  # 一般对数据的处理步骤
    result = []
    for value in strings:
        value = value.strip()
        value = re.sub('[!#?]', '', value)
        value = value.title()
        result.append(value)
    return result

In [173]: clean_strings(states)
Out[173]: 
['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

推荐写法

def remove_punctuation(value):
    return re.sub('[!#?]', '', value)

clean_ops = [str.strip, remove_punctuation, str.title]  # 函数也是对象

def clean_strings(strings, ops):
    result = []
    for value in strings:
        for function in ops:
            value = function(value)
        result.append(value)
    return result

In [175]: clean_strings(states, clean_ops)
Out[175]: 
['Alabama',
 'Georgia',
 'Georgia',
 'Georgia',
 'Florida',
 'South   Carolina',
 'West Virginia']

# 或者
In [176]: for x in map(remove_punctuation, states):  #  
   .....:     print(x)
Alabama 
Georgia
Georgia
georgia
FlOrIda
south   carolina
West virginia

相关内容

热门资讯

越来越多城市推行有奖发票 作者 | 第一财经 陈益刊今年中央财政投入100亿元在50个试点城市开展有奖发票试点,而未纳入试点范...
创明申请甲醇增程器功率控制方法... 国家知识产权局信息显示,绵阳创明智能电池有限责任公司、深圳市创明新能源股份有限公司申请一项名为“甲醇...
原创 红... 这一到618活动红米手机就杀疯了,本身高配低价的手机再降价,一下子吸引了很多用户入手,在京东平台内,...
一所突然“消失”的学校,一个心... 2120万元的赔偿请求,最终仅判赔2.53万元。2026年2月10日,一审判决送达后,武敏只用3天就...
新华社:人工智能和能源加速“双... 新华社发文表示,中国石油“昆仑”大模型深度解析复杂地质构造和油气藏特征,助力油气勘探开发提质增效;南...
俄军已控制七成城区,乌东重镇或... 据凤凰卫视报道,乌克兰武装部队在康斯坦丁诺夫卡市的处境正进一步恶化。根据几个隶属于乌军的社交媒体账号...
人民日报:AI一本正经胡说八道... 日前,江苏一顾客用AI软件预约餐厅,到店后却被告知无预约记录,怒写差评,商家称不支持AI订座,AI软...
燃气灶开关怎么维修 燃气灶是我们日常生活中经常使用的一种电器,而灶具的开关是其功能的核心部分之一,一旦发生故障,可能会影...
燃气灶看不见火花怎么办 如果燃气灶看不见火花,可能是因为以下原因:1. 火花塞头脏了:为了确保正常工作,燃气灶上的火花塞头需...
燃气灶靠墙吧台收纳方法 燃气灶靠墙吧台是很多小型家庭厨房常见的布局,因为这种布局既方便省空间,又能满足日常烹饪需要。但是由于...