ChatGPT解决这个技术问题 Extra ChatGPT

bash中字符串的长度

如何获取存储在变量中的字符串的长度并将其分配给另一个变量?

myvar="some string"
echo ${#myvar}  
# 11

如何为输出 11 设置另一个变量?


f
fedorqui

要获取存储在变量中的字符串的长度,请说:

myvar="some string"
size=${#myvar} 

要确认它已正确保存,echo 它:

$ echo "$size"
11

使用 UTF-8 字符串,您可以有一个字符串长度一个字节长度。 see my answer
您也可以直接在其他参数扩展中使用它 - 例如在这个测试中,我检查 $rulename 是否以 $RULE_PREFIX 前缀开头:[ "${rulename:0:${#RULE_PREFIX}}" == "$RULE_PREFIX" ]
你能解释一下#myvar{#myvar}的表达式吗?
@lerneradams 请参阅 ${#parameter} 上的 Bash reference manual →3.5.3 Shell Parameter Expansion替换参数扩展值的字符长度
F
F. Hauri - Give Up GitHub

UTF-8 字符串长度

除了fedorqui's correct answer,我想展示string长度和byte长度的区别:

myvar='Généralités'
chrlen=${#myvar}
oLang=$LANG oLcAll=$LC_ALL
LANG=C LC_ALL=C
bytlen=${#myvar}
LANG=$oLang LC_ALL=$oLcAll
printf "%s is %d char len, but %d bytes len.\n" "${myvar}" $chrlen $bytlen

将呈现:

Généralités is 11 char len, but 14 bytes len.

您甚至可以查看存储的字符:

myvar='Généralités'
chrlen=${#myvar}
oLang=$LANG oLcAll=$LC_ALL
LANG=C LC_ALL=C
bytlen=${#myvar}
printf -v myreal "%q" "$myvar"
LANG=$oLang LC_ALL=$oLcAll
printf "%s has %d chars, %d bytes: (%s).\n" "${myvar}" $chrlen $bytlen "$myreal"

会回答:

Généralités has 11 chars, 14 bytes: ($'G\303\251n\303\251ralit\303\251s').

注意: 根据 Isabell Cowan's comment,我已将设置与 $LANG 一起添加到 $LC_ALL

参数的长度,工作样本

参数工作与常规变量相同

showStrLen() {
    local bytlen sreal oLang=$LANG oLcAll=$LC_ALL
    LANG=C LC_ALL=C
    bytlen=${#1}
    printf -v sreal %q "$1"
    LANG=$oLang LC_ALL=$oLcAll
    printf "String '%s' is %d bytes, but %d chars len: %s.\n" "$1" $bytlen ${#1} "$sreal"
}

将作为

showStrLen théorème
String 'théorème' is 10 bytes, but 8 chars len: $'th\303\251or\303\250me'

有用的 printf 校正工具:

如果你:

for string in Généralités Language Théorème Février  "Left: ←" "Yin Yang ☯";do
    printf " - %-14s is %2d char length\n" "'$string'"  ${#string}
done

 - 'Généralités' is 11 char length
 - 'Language'     is  8 char length
 - 'Théorème'   is  8 char length
 - 'Février'     is  7 char length
 - 'Left: ←'    is  7 char length
 - 'Yin Yang ☯' is 10 char length

不是很漂亮的输出!

为此,这里有一个小功能:

strU8DiffLen() {
    local charlen=${#1} LANG=C LC_ALL=C
    return $(( ${#1} - charlen ))
}

或写在一行中:

strU8DiffLen() { local chLen=${#1} LANG=C LC_ALL=C;return $((${#1}-chLen));}

那么现在:

for string in Généralités Language Théorème Février  "Left: ←" "Yin Yang ☯";do
    strU8DiffLen "$string"
    printf " - %-$((14+$?))s is %2d chars length, but uses %2d bytes\n" \
        "'$string'" ${#string} $((${#string}+$?))
  done 

 - 'Généralités'  is 11 chars length, but uses 14 bytes
 - 'Language'     is  8 chars length, but uses  8 bytes
 - 'Théorème'     is  8 chars length, but uses 10 bytes
 - 'Février'      is  7 chars length, but uses  8 bytes
 - 'Left: ←'      is  7 chars length, but uses  9 bytes
 - 'Yin Yang ☯'   is 10 chars length, but uses 12 bytes

不幸的是,这并不完美!

但是留下了一些奇怪的 UTF-8 行为,比如双行距字符、零行距字符、反向置换和其他不可能那么简单的行为......

查看 diffU8test.shdiffU8test.sh.txt 了解更多限制。


您可能还需要设置 LC_ALL=C 或者其他。
@F.Hauri 但是,在某些系统上,您的解决方案将无法正常工作,因为它不理会 LC_ALL 。它可能在 Debian 及其衍生产品的默认安装上运行良好,但在其他系统(如 Arch Linux)上,它将无法提供正确的字符串字节长度。
感谢您采用简单的方法并将其复杂化:)
@thistleknot 对不起,對不起 有时 简单 只是一个想法。
@F8ER 为了防止 forks。示例:尝试将 return 替换为 echo,在最后一个示例中添加 OFF=$(strU8DiffLen....) 并将 ? 替换为 OFF 在我的主机中需要 10 毫秒,其中发布的命题在 1 毫秒内完成工作。 (快 10 倍!)
d
dmatej

我想要最简单的情况,最后是这样的结果:

echo -n 'Tell me the length of this sentence.' | wc -m;
36

对不起,伙计:(这是 bash... 把所有东西都视为钉子的被诅咒的锤子,尤其是你的拇指。“告诉我这句话的长度。”包含 36 个字符。echo '' | wc -m => 1。你d 需要使用 -n: echo -n '' | wc -m => 0... 在这种情况下,这是一个很好的解决方案:)
谢谢指正!手册页说:-n do not output the trailing newline
a
admirabilis

您可以使用:

MYSTRING="abc123"
MYLENGTH=$(printf "%s" "$MYSTRING" | wc -c)

wc -c 或 wc --bytes 用于字节计数 = Unicode 字符按 2、3 或更多字节计数。

wc -m 或 wc --chars 用于字符计数 = Unicode 字符被计数,直到它们使用更多字节。


严重地?一个管道,一个子shell和一个用于微不足道的外部命令?
这会处理 mylen=$(printf "%s" "$HOME/.ssh" | wc -c) 之类的事情,而接受的解决方案会失败,您需要先myvar=$HOME/.ssh
这并不比 ${#var} 好。您仍然需要将 LC_ALL / LANG 设置为 UTF-8 语言环境,否则 -m 将返回字节数。
g
gniourf_gniourf

回应帖子开始:

如果您想将此与命令行或函数参数一起使用...

使用代码:

size=${#1}

可能存在您只想检查零长度参数而不需要存储变量的情况。我相信你可以使用这种语法:

if [ -z "$1" ]; then
    #zero length argument 
else
    #non-zero length
fi

有关 Bash 条件表达式的更完整列表,请参阅 GNUwooledge


Z
Zane

如果您想将此与命令行或函数参数一起使用,请确保使用 size=${#1} 而不是 size=${#$1}。第二个可能更本能,但语法不正确。


“你不能做<无效语法>”的部分问题也就是说,该语法无效,尚不清楚读者应该将其解释为什么意思。 size=${#1} 肯定是有效的。
嗯,这是出乎意料的。在这种情况下,我不知道 #1 是 $1 的替代品。
它不是。 # 没有替换 $ - 大括号外的 $ 仍然是扩展运算符。一如既往,# 是长度运算符。
我已经修复了这个答案,因为它是一个有用的提示,但不是规则的例外 - 正如@CharlesDuffy 指出的那样,它完全遵循规则
t
thistleknot

使用您提供的示例

#KISS (Keep it simple stupid)
size=${#myvar}
echo $size

@Angel问题是关于为长度命令的输出设置一个变量,这个问题回答了这个问题。
M
Mukesh Shakya

以下是计算变量长度的几种方法:

echo ${#VAR}
echo -n $VAR | wc -m
echo -n $VAR | wc -c
printf $VAR | wc -m
expr length $VAR
expr $VAR : '.*'

并将结果设置在另一个变量中,只需将带有反引号的上述命令分配给另一个变量,如下所示:

otherVar=`echo -n $VAR | wc -m`   
echo $otherVar

http://techopsbook.blogspot.in/2017/09/how-to-find-length-of-string-variable.html


T
Troublemaker-DV

我知道 Q 和 A 已经够老了,但今天我第一次面对这个任务。通常我使用 ${#var} 组合,但使用 unicode 失败:我用 bash 处理的大多数文本都是西里尔文......根据@atesin 的回答,我制作了可能可用的简短(并准备更缩短)函数用于脚本。这是一项让我想到这个问题的任务:在伪图形框中显示一些可变长度的消息。所以,这里是:

$ cat draw_border.sh
#!/bin/sh
#based on https://stackoverflow.com/questions/17368067/length-of-string-in-bash
border()
{
local BPAR="$1"
local BPLEN=`echo $BPAR|wc -m`
local OUTLINE=\|\ "$1"\ \|
# line below based on https://www.cyberciti.biz/faq/repeat-a-character-in-bash-script-under-linux-unix/
# comment of Bit Twiddler Jun 5, 2021 @ 8:47
local OUTBORDER=\+`head -c $(($BPLEN+1))</dev/zero|tr '\0' '-'`\+
echo $OUTBORDER
echo $OUTLINE
echo $OUTBORDER
}
border "Généralités"
border 'А вот еще одна '$LESSCLOSE' '
border "pure ENGLISH"

这个样本产生了什么:

$ draw_border.sh
+-------------+
| Généralités |
+-------------+
+----------------------------------+
| А вот еще одна /usr/bin/lesspipe |
+----------------------------------+
+--------------+
| pure ENGLISH |
+--------------+

第一个例子(法语?)取自上面某人的例子。第二个结合了西里尔字母和一些变量的值。第三个是不言自明的:只有 1s 1/2 的 ASCII 字符。

我使用 echo $BPAR|wc -m 而不是 printf ... 是为了不依赖 printf 是否内置。

上面我看到了关于 echo 的尾随换行符和 -n 参数的讨论。我没有使用它,因此我只在 $BPLEN 中添加了一个。如果我使用 -n,我必须添加 2。

要解释 wc -mwc -c 之间的区别,请参阅相同的脚本,其中只有一个小改动:-m 已替换为 -c

$ draw_border.sh
+----------------+
| Généralités |
+----------------+
+---------------------------------------------+
| А вот еще одна /usr/bin/lesspipe |
+---------------------------------------------+
+--------------+
| pure ENGLISH |
+--------------+

拉丁文的重音字符和西里尔文的大部分字符都是两字节的,因此绘制的水平线的长度大于消息的实际长度。希望,它会节省一些时间:-)

ps 俄罗斯文字说“这里还有一个”

pps 工作“双线”

#!/bin/sh
#based on https://stackoverflow.com/questions/17368067/length-of-string-in-bash
border()
{
# line below based on https://www.cyberciti.biz/faq/repeat-a-character-in-bash-script-under-linux-unix/
# comment of Bit Twiddler Jun 5, 2021 @ 8:47
local OUTBORDER=\+`head -c $(( $(echo "$1"|wc -m) +1))</dev/zero|tr '\0' '-'`\+
echo $OUTBORDER"\n"\|\ "$1"\ \|"\n"$OUTBORDER
}
border "Généralités"
border 'А вот еще одна '$LESSCLOSE' '
border "pure ENGLISH"

为了不让重复的 OUTBORDER 的绘制使代码混乱,我将 OUTBORDER 的形成放在单独的命令中


a
ahuemmer

也许只是使用:

echo $myvar | wc -c