Unicode正規化とは？

Unicode正規化は「コードポイントや字体が異なる同じ意味の文字は等価とみなすように比較したい！」というときに使うものです。例えば、正規化形式の一種であるNFKCを使うと「ア」と「ｱ」が等価になります。

詳しくはMDNを読んでください。

developer.mozilla.org

Pythonでは

Pythonでは識別子にASCII外の文字を使用することができます。

入力１ = input()
print(入力１)

Pythonがソースコードを解析するとき、全ての識別子はNFKCに変換されます。

docs.python.org

そのため、このようなコードも動きます。

ア = input()  # 全角
print(ｱ)  # 半角

このように字体が異なっていてもNFKC的に等しいなら同じ変数として使用できるんですね。そのため、次のようなコードも動いてしまいます。

# Normal
print("Hello world")
# 全角
ｐｒｉｎｔ("Hello world")
# bold italic
𝙥𝙧𝙞𝙣𝙩("Hello world")
# 上付き文字 下付き文字
ᵖʳⁱⁿᵗ("Hello world")
ₚᵣᵢₙₜ("hello world")
# いろいろ
𝖕𝖗𝖎𝖓𝖙("Hello world")
𝓹𝓻𝓲𝓷𝓽("Hello world")
𝕡𝕣𝕚𝕟𝕥("Hello world")
𝚙𝚛𝚒𝚗𝚝("Hello world")

Pyjailでは

このような面白い挙動がCTFではどう出題されているのでしょうか？

Filter bypass

code = input()

for c in code:
    if c in "abcdefghijklmnopqrstuvwxyzABCDEFGHIJKLMNOPQRSTUVWXYZ1234567890":
        print("deny")
        exit()

exec(code)

アルファベットと数字が全て禁止されているpyjailです。ASCII内で考えると記号しか使えないように思ってしまいますが、先ほどのテクニックを使うと簡単にbypassできますね。

ｅｘｅｃ(ｉｎｐｕｔ())

このテクニックは日本のCTFでは見たことないですが、ところどころで使われています。

UIUCTF 2021 Baby python fixed

https://jgeralnik.github.io/writeups/2021/08/09/baby-python-fixed/
UIUCTF 2022 A Horse with No Names / A Horse with No Neighs

https://github.com/nikosChalk/ctf-writeups/blob/master/uiuctf22/jail/a-horse-with-no-neighs/README.md
中国語のブログ

一道有趣的pyjail题目分析
他にも非想定解に使われたものなどいろいろ

code golf

調べていて見つけたWriteup(polygl0ts)で面白い悪用方法があったので紹介します。

b01ler CTF 2021 の pyjailgolf3 という問題です。

from collections.abc import __builtins__

bi = __builtins__
del bi["help"]

line = input(">>> ")

flag = "THIS_IS_FLAG"

if len(line) > 10:
    raise Exception()

try:
    eval(line, {"__builtins__": bi}, locals())
except:
    pass