>>> import ast
>>> x = '[ "A","B","C" , " D"]'
>>> x = ast.literal_eval(x)
>>> x
['A', 'B', 'C', ' D']
>>> x = [n.strip() for n in x]
>>> x
['A', 'B', 'C', 'D']
使用 ast.literal_eval 您可以安全地评估表达式节点或包含 Python 文字或容器显示的字符串。提供的字符串或节点只能由以下 Python 文字结构组成:字符串、字节、数字、元组、列表、字典、布尔值和无。
只要存在 stringified 字典列表,json
模块就是更好的解决方案。 json.loads(your_data)
函数可用于将其转换为列表。
>>> import json
>>> x = '[ "A","B","C" , " D"]'
>>> json.loads(x)
['A', 'B', 'C', ' D']
相似地
>>> x = '[ "A","B","C" , {"D":"E"}]'
>>> json.loads(x)
['A', 'B', 'C', {'D': 'E'}]
'["a","b"]'
,但不适用于 "['a','b']"
。
.replace('\'', '"')
但我确信该字符串中的数据不包含任何会影响最终结果的关键单引号/双引号。
'[{"car_id": "1", "price": 19527.11, "outlier": false}]'
eval
很危险 - 您不应执行用户输入。
如果您有 2.6 或更高版本,请使用 ast 而不是 eval:
>>> import ast
>>> ast.literal_eval('["A","B" ,"C" ," D"]')
["A", "B", "C", " D"]
一旦你有了它,strip
字符串。
如果您使用的是旧版本的 Python,则可以使用简单的正则表达式非常接近您想要的:
>>> x='[ "A", " B", "C","D "]'
>>> re.findall(r'"\s*([^"]*?)\s*"', x)
['A', 'B', 'C', 'D']
这不如 ast 解决方案好,例如它不能正确处理字符串中的转义引号。但这很简单,不涉及危险的 eval,如果您使用的是没有 ast 的较旧的 Python,它可能足以满足您的目的。
eval
很危险 - 你不应该执行用户输入。”吗?我正在使用 3.6
eval
,它将评估任何有效的 python 表达式,这有潜在的危险。 literal_eval
通过仅评估 Python 文字结构解决了这个问题:字符串、数字、元组、列表、字典、布尔值和无。
有一个快速的解决方案:
x = eval('[ "A","B","C" , " D"]')
可以通过以下方式删除列表元素中不需要的空格:
x = [x.strip() for x in eval('[ "A","B","C" , " D"]')]
受上述与基本 python 包一起使用的一些答案的启发,我比较了一些(使用 Python 3.7.3)的性能:
方法一:ast
import ast
list(map(str.strip, ast.literal_eval(u'[ "A","B","C" , " D"]')))
# ['A', 'B', 'C', 'D']
import timeit
timeit.timeit(stmt="list(map(str.strip, ast.literal_eval(u'[ \"A\",\"B\",\"C\" , \" D\"]')))", setup='import ast', number=100000)
# 1.292875313000195
方法二:json
import json
list(map(str.strip, json.loads(u'[ "A","B","C" , " D"]')))
# ['A', 'B', 'C', 'D']
import timeit
timeit.timeit(stmt="list(map(str.strip, json.loads(u'[ \"A\",\"B\",\"C\" , \" D\"]')))", setup='import json', number=100000)
# 0.27833264000014424
方法三:不导入
list(map(str.strip, u'[ "A","B","C" , " D"]'.strip('][').replace('"', '').split(',')))
# ['A', 'B', 'C', 'D']
import timeit
timeit.timeit(stmt="list(map(str.strip, u'[ \"A\",\"B\",\"C\" , \" D\"]'.strip('][').replace('\"', '').split(',')))", number=100000)
# 0.12935059100027502
我很失望地看到我认为可读性最差的方法是性能最好的方法......在使用最具可读性的选项时需要考虑权衡......对于我通常使用 python 的工作负载类型比性能稍高的选项更重视可读性,但像往常一样,这取决于。
'[ "A","B","C" , " D"]'
前面有 u
有什么特别的原因吗
import ast
l = ast.literal_eval('[ "A","B","C" , " D"]')
l = [i.strip() for i in l]
如果它只是一个一维列表,则无需导入任何内容即可完成:
>>> x = u'[ "A","B","C" , " D"]'
>>> ls = x.strip('[]').replace('"', '').replace(' ', '').split(',')
>>> ls
['A', 'B', 'C', 'D']
这个你能做到
**
x = '[ "A","B","C" , " D"]'
print(list(eval(x)))
** 最好的一个是公认的答案
尽管这不是一种安全的方法,但最好的答案是公认的。发布答案时不知道评估危险。
假设您的所有输入都是列表并且输入中的双引号实际上并不重要,这可以通过简单的正则表达式替换来完成。它有点 perl-y,但就像一个魅力。另请注意,输出现在是一个 unicode 字符串列表,您没有指定您需要它,但考虑到 unicode 输入,这似乎是有意义的。
import re
x = u'[ "A","B","C" , " D"]'
junkers = re.compile('[[" \]]')
result = junkers.sub('', x).split(',')
print result
---> [u'A', u'B', u'C', u'D']
junkers 变量包含我们不想要的所有字符的编译正则表达式(用于速度),使用 ] 作为字符需要一些反斜杠技巧。 re.sub 将所有这些字符都替换为空,我们在逗号处拆分结果字符串。
请注意,这也会从条目 u'["oh no"]' ---> [u'ohno'] 中删除空格。如果这不是您想要的,则需要对正则表达式进行一些改进。
无需导入任何东西,也无需评估。对于大多数基本用例,包括原始问题中给出的用例,您可以在一行中执行此操作。
一个班轮
l_x = [i.strip() for i in x[1:-1].replace('"',"").split(',')]
解释
x = '[ "A","B","C" , " D"]'
# str indexing to eliminate the brackets
# replace as split will otherwise retain the quotes in returned list
# split to conv to list
l_x = x[1:-1].replace('"',"").split(',')
输出:
for i in range(0, len(l_x)):
print(l_x[i])
# vvvv output vvvvv
'''
A
B
C
D
'''
print(type(l_x)) # out: class 'list'
print(len(l_x)) # out: 4
您可以根据需要使用列表推导解析和清理此列表。
l_x = [i.strip() for i in l_x] # list comprehension to clean up
for i in range(0, len(l_x)):
print(l_x[i])
# vvvvv output vvvvv
'''
A
B
C
D
'''
嵌套列表
如果你有嵌套列表,它确实会更烦人。不使用正则表达式(这将简化替换),并假设您要返回一个扁平列表(和 zen of python says flat is better than nested):
x = '[ "A","B","C" , " D", ["E","F","G"]]'
l_x = x[1:-1].split(',')
l_x = [i
.replace(']', '')
.replace('[', '')
.replace('"', '')
.strip() for i in l_x
]
# returns ['A', 'B', 'C', 'D', 'E', 'F', 'G']
如果您需要保留嵌套列表,它会变得有点丑陋,但仍然可以通过 re 和列表理解来完成:
import re
x = '[ "A","B","C" , " D", "["E","F","G"]","Z", "Y", "["H","I","J"]", "K", "L"]'
# clean it up so regex is simpler
x = x.replace('"', '').replace(' ', '')
# look ahead for the bracketed text that signifies nested list
l_x = re.split(r',(?=\[[A-Za-z0-9\',]+\])|(?<=\]),', x[1:-1])
print(l_x)
# flatten and split the non nested list items
l_x0 = [item for items in l_x for item in items.split(',') if not '[' in items]
# convert the nested lists to lists
l_x1 = [
i[1:-1].split(',') for i in l_x if '[' in i
]
# add the two lists
l_x = l_x0 + l_x1
最后一个解决方案适用于任何存储为字符串的列表,无论是否嵌套。
'[]'
并返回 ['']
。如果您正在解析数据框中的列,这可能是一个问题。否则很好的解决方案!
如果您知道您的列表仅包含带引号的字符串,则此 pyparsing 示例将为您提供已剥离字符串的列表(甚至保留原始的 Unicode-ness)。
>>> from pyparsing import *
>>> x =u'[ "A","B","C" , " D"]'
>>> LBR,RBR = map(Suppress,"[]")
>>> qs = quotedString.setParseAction(removeQuotes, lambda t: t[0].strip())
>>> qsList = LBR + delimitedList(qs) + RBR
>>> print qsList.parseString(x).asList()
[u'A', u'B', u'C', u'D']
如果您的列表可以有更多的数据类型,甚至在列表中包含列表,那么您将需要一个更完整的语法——比如 pyparsing 示例目录中的 this one,它将处理元组、列表、整数、浮点数和带引号的字符串。
要使用 json 进一步完成@Ryan 的答案,这里发布的一个非常方便的转换 unicode 的功能是:https://stackoverflow.com/a/13105359/7599285
ex 带双引号或单引号:
>print byteify(json.loads(u'[ "A","B","C" , " D"]')
>print byteify(json.loads(u"[ 'A','B','C' , ' D']".replace('\'','"')))
['A', 'B', 'C', ' D']
['A', 'B', 'C', ' D']
当您将存储为字符串的列表加载到 CSV 时,通常会发生这种情况
如果您将列表存储在 CSV 格式中,例如 OP 询问:
x = '[ "A","B","C" , " D"]'
以下是如何将其加载回列表:
import csv
with open('YourCSVFile.csv') as csv_file:
reader = csv.reader(csv_file, delimiter=',')
rows = list(reader)
listItems = rows[0]
listItems
现在是列表
list(reader)
给出了一个列表。每个内部列表都是 csv 列的字符串列表。没有列表的字符串表示开始...
"['1', '2', '3']"
。当您使用 csv.reader
读取 csv 文件时,每一行都是 ['1', '2', '3']
。那是字符串列表。不是列表的字符串表示...
[1, 2, 3]
。假设 csv 行是 [1,2,3] 4 5
。用 list(reader)
阅读它会得到 [["[1,2,3]", "4", "5"], ...]
,然后做 rows[0]
会得到 ["[1,2,3]", "4", "5"]
。再说一次,我不明白这如何回答这个问题......
在处理存储为 Pandas DataFrame 的抓取数据时,您可能会遇到此类问题。
如果值列表以文本形式存在,则此解决方案就像魅力一样。
def textToList(hashtags):
return hashtags.strip('[]').replace('\'', '').replace(' ', '').split(',')
hashtags = "[ 'A','B','C' , ' D']"
hashtags = textToList(hashtags)
Output: ['A', 'B', 'C', 'D']
不需要外部库。
我想用正则表达式提供更直观的模式解决方案。下面的函数将包含任意字符串的字符串化列表作为输入。
逐步解释:您删除所有空格、括号和 value_separators(前提是它们不是您要提取的值的一部分,否则会使正则表达式更复杂)。然后将清理后的字符串拆分为单引号或双引号,并取非空值(或奇数索引值,无论偏好如何)。
def parse_strlist(sl):
import re
clean = re.sub("[\[\],\s]","",sl)
splitted = re.split("[\'\"]",clean)
values_only = [s for s in splitted if s != '']
return values_only
testsample: "['21',"foo" '6', '0', "A"]"
因此,根据所有答案,我决定对最常用的方法进行计时:
from time import time
import re
import json
my_str = str(list(range(19)))
print(my_str)
reps = 100000
start = time()
for i in range(0, reps):
re.findall("\w+", my_str)
print("Regex method:\t", (time() - start) / reps)
start = time()
for i in range(0, reps):
json.loads(my_str)
print("json method:\t", (time() - start) / reps)
start = time()
for i in range(0, reps):
ast.literal_eval(my_str)
print("ast method:\t\t", (time() - start) / reps)
start = time()
for i in range(0, reps):
[n.strip() for n in my_str]
print("strip method:\t", (time() - start) / reps)
regex method: 6.391477584838867e-07
json method: 2.535374164581299e-06
ast method: 2.4425282478332518e-05
strip method: 4.983267784118653e-06
所以最终正则表达式获胜!
您可以通过从列表的字符串表示中切掉第一个和最后一个字符来保存 .strip() fcn(请参见下面的第三行)
>>> mylist=[1,2,3,4,5,'baloney','alfalfa']
>>> strlist=str(mylist)
['1', ' 2', ' 3', ' 4', ' 5', " 'baloney'", " 'alfalfa'"]
>>> mylistfromstring=(strlist[1:-1].split(', '))
>>> mylistfromstring[3]
'4'
>>> for entry in mylistfromstring:
... print(entry)
... type(entry)
...
1
<class 'str'>
2
<class 'str'>
3
<class 'str'>
4
<class 'str'>
5
<class 'str'>
'baloney'
<class 'str'>
'alfalfa'
<class 'str'>
并使用纯 python - 不导入任何库
[x for x in x.split('[')[1].split(']')[0].split('"')[1:-1] if x not in[',',' , ',', ']]
这个解决方案比我上面读到的更简单,但需要匹配列表的所有功能
x = '[ "A","B","C" , " D"]'
[i.strip() for i in x.split('"') if len(i.strip().strip(',').strip(']').strip('['))>0]
['A B C D']
不定期副业成功案例分享
eval
,而不是ast.literal_eval
。ast.literal_eval
比eval
更安全,但它实际上并不安全。正如 recent versions of the docs 所解释的:“警告由于 Python 的 AST 编译器中的堆栈深度限制,可能会使用足够大/复杂的字符串使 Python 解释器崩溃。”事实上,可以通过仔细的堆栈粉碎攻击来运行任意代码,尽管据我所知,没有人为此建立一个公开的概念证明。