コンテンツにスキップするには Enter キーを押してください

タグ: 日本語処理

AppEngineのhashlibで日本語を含む文字列のハッシュ値を取得しようとするとエラーになる件

ファイルやテキストの改竄を検知するためにMD5やSHA256などのハッシュ関数を利用してハッシュ値を求めるということはよくあると思うんですが。
Google App Engine / Pythonでこれをやろうとして変なエラーに遭遇してしまい、パニクったので備忘録として書いておきます。

ものすごく要約するとこんなコードを書いていました。

import hashlib

text = u'ほげほげ'
hash = hashlib.sha256(text).hexdigest()

実際はtextには外部から取得した、これよりもっとながーーい文字列が入っていて、その文字列のハッシュ値を求める、というものでした。

localhostのSDKではこれでちゃんと動いてたんですよ。

ところがプロダクション環境にデプロイしてみると、動かない。

ログを見ると、
UnicodeEncodeError: 'ascii' codec can't encode characters in position 18-40: ordinal not in range(128)
と出ていたので、どうやらASCII範囲外の文字をASCII文字列にエンコードしようとしてエラーになっている、ということはわかりました。

が、原因はわかったものの解決法がわからない。

エラーメッセージでググってみると、どうやら外人さんも同じ問題で悩んでいたらしいということがわかり、そこに解決法が載っていました。

というわけで修正したコードがこちらです。

import hashlib

text = u'ほげほげ'
hash = hashlib.sha256(text.encode('utf-8')).hexdigest()

はい、textを明示的に「utf-8」と指定してencodeしてやりました。

これがPythonのややこしいところなんですが、「Unicode型文字列」と「(UTF-8エンコードされた)str型文字列」は全くの別物なんですよね…。

とにもかくにも、これでプロダクション環境でもちゃんとハッシュ値を取得することができるようになりました。


コメントする