ChatGPT解决这个技术问题 Extra ChatGPT

如何将列表的字符串表示形式转换为列表

我想知道最简单的方法是将如下列表的字符串表示形式转换为 list

x = '[ "A","B","C" , " D"]'

即使在用户在逗号之间放置空格和引号内放置空格的情况下,我也需要处理它并将其转换为:

x = ["A", "B", "C", "D"] 

我知道我可以用 strip()split() 去除空格并检查非字母字符。但是代码变得非常笨拙。有我不知道的快速功能吗?


B
Boris Verkhovskiy
>>> import ast
>>> x = '[ "A","B","C" , " D"]'
>>> x = ast.literal_eval(x)
>>> x
['A', 'B', 'C', ' D']
>>> x = [n.strip() for n in x]
>>> x
['A', 'B', 'C', 'D']

ast.literal_eval

使用 ast.literal_eval 您可以安全地评估表达式节点或包含 Python 文字或容器显示的字符串。提供的字符串或节点只能由以下 Python 文字结构组成:字符串、字节、数字、元组、列表、字典、布尔值和无。


根据下面的评论,这很危险,因为它只是运行字符串中的任何 python。因此,如果有人打电话删除其中的所有内容,它会很高兴地删除。
@PaulKenjora:您想到的是 eval,而不是 ast.literal_eval
ast.literal_evaleval更安全,但它实际上并不安全。正如 recent versions of the docs 所解释的:“警告由于 Python 的 AST 编译器中的堆栈深度限制,可能会使用足够大/复杂的字符串使 Python 解释器崩溃。”事实上,可以通过仔细的堆栈粉碎攻击来运行任意代码,尽管据我所知,没有人为此建立一个公开的概念证明。
@sqp_125,那么它是一个常规列表,你不需要解析任何东西?
文档指出(2021 年):“这可用于安全地评估包含来自不受信任来源的 Python 值的字符串,而无需自己解析这些值。它无法评估任意复杂的表达式,例如涉及运算符或索引的表达式。”
B
Boris Verkhovskiy

只要存在 stringified 字典列表,json 模块就是更好的解决方案。 json.loads(your_data) 函数可用于将其转换为列表。

>>> import json
>>> x = '[ "A","B","C" , " D"]'
>>> json.loads(x)
['A', 'B', 'C', ' D']

相似地

>>> x = '[ "A","B","C" , {"D":"E"}]'
>>> json.loads(x)
['A', 'B', 'C', {'D': 'E'}]

这适用于整数,但不适用于我的情况下的字符串,因为每个字符串都是单引号而不是双引号,叹息。
根据@PaulKenjora 的评论,它适用于 '["a","b"]',但不适用于 "['a','b']"
在我的情况下,我必须在初始字符串中用双引号替换单引号以确保它有效 .replace('\'', '"') 但我确信该字符串中的数据不包含任何会影响最终结果的关键单引号/双引号。
它不适用于此字符串。有人知道为什么吗? '[{"car_id": "1", "price": 19527.11, "outlier": false}]'
如果用户应该只输入数字列表,我认为这是阻止恶意用户的最安全方法。
M
Mark Byers

eval 很危险 - 您不应执行用户输入。

如果您有 2.6 或更高版本,请使用 ast 而不是 eval:

>>> import ast
>>> ast.literal_eval('["A","B" ,"C" ," D"]')
["A", "B", "C", " D"]

一旦你有了它,strip 字符串。

如果您使用的是旧版本的 Python,则可以使用简单的正则表达式非常接近您想要的:

>>> x='[  "A",  " B", "C","D "]'
>>> re.findall(r'"\s*([^"]*?)\s*"', x)
['A', 'B', 'C', 'D']

这不如 ast 解决方案好,例如它不能正确处理字符串中的转义引号。但这很简单,不涉及危险的 eval,如果您使用的是没有 ast 的较旧的 Python,它可能足以满足您的目的。


你能告诉我你为什么说“eval 很危险 - 你不应该执行用户输入。”吗?我正在使用 3.6
@AaryanDewan 如果您直接使用 eval,它将评估任何有效的 python 表达式,这有潜在的危险。 literal_eval 通过仅评估 Python 文字结构解决了这个问题:字符串、数字、元组、列表、字典、布尔值和无。
A
Alexei Sholik

有一个快速的解决方案:

x = eval('[ "A","B","C" , " D"]')

可以通过以下方式删除列表元素中不需要的空格:

x = [x.strip() for x in eval('[ "A","B","C" , " D"]')]

这仍然会保留引号内的空格
这是对任意代码执行的公开邀请,除非您绝对确定输入将始终 100% 受信任,否则切勿这样做或类似的事情。
我可以使用这个建议,因为我知道我的数据将始终采用这种格式并且是一项数据处理工作。
k
kinzleb

受上述与基本 python 包一起使用的一些答案的启发,我比较了一些(使用 Python 3.7.3)的性能:

方法一:ast

import ast
list(map(str.strip, ast.literal_eval(u'[ "A","B","C" , " D"]')))
# ['A', 'B', 'C', 'D']

import timeit
timeit.timeit(stmt="list(map(str.strip, ast.literal_eval(u'[ \"A\",\"B\",\"C\" , \" D\"]')))", setup='import ast', number=100000)
# 1.292875313000195

方法二:json

import json
list(map(str.strip, json.loads(u'[ "A","B","C" , " D"]')))
# ['A', 'B', 'C', 'D']

import timeit
timeit.timeit(stmt="list(map(str.strip, json.loads(u'[ \"A\",\"B\",\"C\" , \" D\"]')))", setup='import json', number=100000)
# 0.27833264000014424

方法三:不导入

list(map(str.strip, u'[ "A","B","C" , " D"]'.strip('][').replace('"', '').split(',')))
# ['A', 'B', 'C', 'D']

import timeit
timeit.timeit(stmt="list(map(str.strip, u'[ \"A\",\"B\",\"C\" , \" D\"]'.strip('][').replace('\"', '').split(',')))", number=100000)
# 0.12935059100027502

我很失望地看到我认为可读性最差的方法是性能最好的方法......在使用最具可读性的选项时需要考虑权衡......对于我通常使用 python 的工作负载类型比性能稍高的选项更重视可读性,但像往常一样,这取决于。


'[ "A","B","C" , " D"]' 前面有 u 有什么特别的原因吗
t
tosh
import ast
l = ast.literal_eval('[ "A","B","C" , " D"]')
l = [i.strip() for i in l]

r
ruohola

如果它只是一个一维列表,则无需导入任何内容即可完成:

>>> x = u'[ "A","B","C" , " D"]'
>>> ls = x.strip('[]').replace('"', '').replace(' ', '').split(',')
>>> ls
['A', 'B', 'C', 'D']

注意事项:如果列表中的任何字符串之间有逗号,这可能会很危险。
如果您的字符串列表是列表列表,这将不起作用
T
Tomato Master

这个你能做到

**

x = '[ "A","B","C" , " D"]'
print(list(eval(x)))

** 最好的一个是公认的答案

尽管这不是一种安全的方法,但最好的答案是公认的。发布答案时不知道评估危险。


不建议在这个线程的几个地方使用 eval,因为它会简单地作为代码运行,无论输入什么,都会带来安全风险。这也是一个重复的答案。
d
dirkjot

假设您的所有输入都是列表并且输入中的双引号实际上并不重要,这可以通过简单的正则表达式替换来完成。它有点 perl-y,但就像一个魅力。另请注意,输出现在是一个 unicode 字符串列表,您没有指定您需要它,但考虑到 unicode 输入,这似乎是有意义的。

import re
x = u'[ "A","B","C" , " D"]'
junkers = re.compile('[[" \]]')
result = junkers.sub('', x).split(',')
print result
--->  [u'A', u'B', u'C', u'D']

junkers 变量包含我们不想要的所有字符的编译正则表达式(用于速度),使用 ] 作为字符需要一些反斜杠技巧。 re.sub 将所有这些字符都替换为空,我们在逗号处拆分结果字符串。

请注意,这也会从条目 u'["oh no"]' ---> [u'ohno'] 中删除空格。如果这不是您想要的,则需要对正则表达式进行一些改进。


b
born_naked

无需导入任何东西,也无需评估。对于大多数基本用例,包括原始问题中给出的用例,您可以在一行中执行此操作。

一个班轮

l_x = [i.strip() for i in x[1:-1].replace('"',"").split(',')]

解释

x = '[ "A","B","C" , " D"]'
# str indexing to eliminate the brackets
# replace as split will otherwise retain the quotes in returned list
# split to conv to list
l_x = x[1:-1].replace('"',"").split(',')

输出:

for i in range(0, len(l_x)):
    print(l_x[i])
# vvvv output vvvvv
'''
 A
B
C 
  D
'''
print(type(l_x)) # out: class 'list'
print(len(l_x)) # out: 4

您可以根据需要使用列表推导解析和清理此列表。

l_x = [i.strip() for i in l_x] # list comprehension to clean up
for i in range(0, len(l_x)):
    print(l_x[i])
# vvvvv output vvvvv
'''
A
B
C
D
'''

嵌套列表

如果你有嵌套列表,它确实会更烦人。不使用正则表达式(这将简化替换),并假设您要返回一个扁平列表(和 zen of python says flat is better than nested):

x = '[ "A","B","C" , " D", ["E","F","G"]]'
l_x = x[1:-1].split(',')
l_x = [i
    .replace(']', '')
    .replace('[', '')
    .replace('"', '')
    .strip() for i in l_x
]
# returns ['A', 'B', 'C', 'D', 'E', 'F', 'G']

如果您需要保留嵌套列表,它会变得有点丑陋,但仍然可以通过 re 和列表理解来完成:

import re
x = '[ "A","B","C" , " D", "["E","F","G"]","Z", "Y", "["H","I","J"]", "K", "L"]'
# clean it up so regex is simpler
x = x.replace('"', '').replace(' ', '') 
# look ahead for the bracketed text that signifies nested list
l_x = re.split(r',(?=\[[A-Za-z0-9\',]+\])|(?<=\]),', x[1:-1])
print(l_x)
# flatten and split the non nested list items
l_x0 = [item for items in l_x for item in items.split(',') if not '[' in items]
# convert the nested lists to lists
l_x1 = [
    i[1:-1].split(',') for i in l_x if '[' in i 
]
# add the two lists 
l_x = l_x0 + l_x1

最后一个解决方案适用于任何存储为字符串的列表,无论是否嵌套。


请注意,该方法不适用于空列表。你拿走 '[]' 并返回 ['']。如果您正在解析数据框中的列,这可能是一个问题。否则很好的解决方案!
P
PaulMcG

如果您知道您的列表仅包含带引号的字符串,则此 pyparsing 示例将为您提供已剥离字符串的列表(甚至保留原始的 Unicode-ness)。

>>> from pyparsing import *
>>> x =u'[ "A","B","C" , " D"]'
>>> LBR,RBR = map(Suppress,"[]")
>>> qs = quotedString.setParseAction(removeQuotes, lambda t: t[0].strip())
>>> qsList = LBR + delimitedList(qs) + RBR
>>> print qsList.parseString(x).asList()
[u'A', u'B', u'C', u'D']

如果您的列表可以有更多的数据类型,甚至在列表中包含列表,那么您将需要一个更完整的语法——比如 pyparsing 示例目录中的 this one,它将处理元组、列表、整数、浮点数和带引号的字符串。


C
CptHwK

要使用 json 进一步完成@Ryan 的答案,这里发布的一个非常方便的转换 unicode 的功能是:https://stackoverflow.com/a/13105359/7599285

ex 带双引号或单引号:

>print byteify(json.loads(u'[ "A","B","C" , " D"]')
>print byteify(json.loads(u"[ 'A','B','C' , ' D']".replace('\'','"')))
['A', 'B', 'C', ' D']
['A', 'B', 'C', ' D']

H
Hrvoje

当您将存储为字符串的列表加载到 CSV 时,通常会发生这种情况

如果您将列表存储在 CSV 格式中,例如 OP 询问:

x = '[ "A","B","C" , " D"]'

以下是如何将其加载回列表:

import csv
with open('YourCSVFile.csv') as csv_file:
    reader = csv.reader(csv_file, delimiter=',')
    rows = list(reader)

listItems = rows[0]

listItems 现在是列表


不确定这与问题有何关系... list(reader) 给出了一个列表。每个内部列表都是 csv 列的字符串列表。没有列表的字符串表示开始...
列表的@Tomerikoo 字符串表示形式完全相同,只是它在文件中。
否。列表的字符串表示形式是 "['1', '2', '3']"。当您使用 csv.reader 读取 csv 文件时,每一行都是 ['1', '2', '3']。那是字符串列表。不是列表的字符串表示...
@Tomerikoo 您如何将列表存储在文件中,而不是使用此处的任何方法来恢复它。
好的,假设 csv 里面确实有 [1, 2, 3]。假设 csv 行是 [1,2,3] 4 5。用 list(reader) 阅读它会得到 [["[1,2,3]", "4", "5"], ...],然后做 rows[0] 会得到 ["[1,2,3]", "4", "5"]。再说一次,我不明白这如何回答这个问题......
d
dobydx

在处理存储为 Pandas DataFrame 的抓取数据时,您可能会遇到此类问题。

如果值列表以文本形式存在,则此解决方案就像魅力一样。

def textToList(hashtags):
    return hashtags.strip('[]').replace('\'', '').replace(' ', '').split(',')

hashtags = "[ 'A','B','C' , ' D']"
hashtags = textToList(hashtags)

Output: ['A', 'B', 'C', 'D']

不需要外部库。


J
Jordy Van Landeghem

我想用正则表达式提供更直观的模式解决方案。下面的函数将包含任意字符串的字符串化列表作为输入。

逐步解释:您删除所有空格、括号和 value_separators(前提是它们不是您要提取的值的一部分,否则会使正则表达式更复杂)。然后将清理后的字符串拆分为单引号或双引号,并取非空值(或奇数索引值,无论偏好如何)。

def parse_strlist(sl):
import re
clean = re.sub("[\[\],\s]","",sl)
splitted = re.split("[\'\"]",clean)
values_only = [s for s in splitted if s != '']
return values_only

testsample: "['21',"foo" '6', '0', "A"]"


p
passs

因此,根据所有答案,我决定对最常用的方法进行计时:

from time import time
import re
import json


my_str = str(list(range(19)))
print(my_str)

reps = 100000

start = time()
for i in range(0, reps):
    re.findall("\w+", my_str)
print("Regex method:\t", (time() - start) / reps)

start = time()
for i in range(0, reps):
    json.loads(my_str)
print("json method:\t", (time() - start) / reps)

start = time()
for i in range(0, reps):
    ast.literal_eval(my_str)
print("ast method:\t\t", (time() - start) / reps)

start = time()
for i in range(0, reps):
    [n.strip() for n in my_str]
print("strip method:\t", (time() - start) / reps)



    regex method:    6.391477584838867e-07
    json method:     2.535374164581299e-06
    ast method:      2.4425282478332518e-05
    strip method:    4.983267784118653e-06

所以最终正则表达式获胜!


J
JCMontalbano

您可以通过从列表的字符串表示中切掉第一个和最后一个字符来保存 .strip() fcn(请参见下面的第三行)

>>> mylist=[1,2,3,4,5,'baloney','alfalfa']
>>> strlist=str(mylist)
['1', ' 2', ' 3', ' 4', ' 5', " 'baloney'", " 'alfalfa'"]
>>> mylistfromstring=(strlist[1:-1].split(', '))
>>> mylistfromstring[3]
'4'
>>> for entry in mylistfromstring:
...     print(entry)
...     type(entry)
... 
1
<class 'str'>
2
<class 'str'>
3
<class 'str'>
4
<class 'str'>
5
<class 'str'>
'baloney'
<class 'str'>
'alfalfa'
<class 'str'>

I
Ioannis Nasios

并使用纯 python - 不导入任何库

[x for x in  x.split('[')[1].split(']')[0].split('"')[1:-1] if x not in[',',' , ',', ']]

C
CassAndr

这个解决方案比我上面读到的更简单,但需要匹配列表的所有功能

x = '[ "A","B","C" , " D"]'
[i.strip() for i in x.split('"') if len(i.strip().strip(',').strip(']').strip('['))>0]

['A B C D']