コンテンツにスキップするには Enter キーを押してください

タグ: Google App Engine

AppEngineのhashlibで日本語を含む文字列のハッシュ値を取得しようとするとエラーになる件

ファイルやテキストの改竄を検知するためにMD5やSHA256などのハッシュ関数を利用してハッシュ値を求めるということはよくあると思うんですが。
Google App Engine / Pythonでこれをやろうとして変なエラーに遭遇してしまい、パニクったので備忘録として書いておきます。

ものすごく要約するとこんなコードを書いていました。

import hashlib

text = u'ほげほげ'
hash = hashlib.sha256(text).hexdigest()

実際はtextには外部から取得した、これよりもっとながーーい文字列が入っていて、その文字列のハッシュ値を求める、というものでした。

localhostのSDKではこれでちゃんと動いてたんですよ。

ところがプロダクション環境にデプロイしてみると、動かない。

ログを見ると、
UnicodeEncodeError: 'ascii' codec can't encode characters in position 18-40: ordinal not in range(128)
と出ていたので、どうやらASCII範囲外の文字をASCII文字列にエンコードしようとしてエラーになっている、ということはわかりました。

が、原因はわかったものの解決法がわからない。

エラーメッセージでググってみると、どうやら外人さんも同じ問題で悩んでいたらしいということがわかり、そこに解決法が載っていました。

というわけで修正したコードがこちらです。

import hashlib

text = u'ほげほげ'
hash = hashlib.sha256(text.encode('utf-8')).hexdigest()

はい、textを明示的に「utf-8」と指定してencodeしてやりました。

これがPythonのややこしいところなんですが、「Unicode型文字列」と「(UTF-8エンコードされた)str型文字列」は全くの別物なんですよね…。

とにもかくにも、これでプロダクション環境でもちゃんとハッシュ値を取得することができるようになりました。


コメントする

「俺の話を聞け!」で「Google App Engine / Pythonでソーシャルアプリを作った話」について発表しました

きょう13時から大阪・西中島にある株式会社クロノスで開催された「俺の話を聞け!」で、「Google App Engine / Pythonでソーシャルアプリを作った話」というタイトルで15分くらい発表させていただきました。
…ていうかこれを書いている現在、まだ開催中なんですが。

プレゼン資料はあとで公開します。
Google Docsってアニメーション効かないからページ数分割しまくってるので、それを上手いこと削除してからになります…。
そーゆーわけでちょっと待ってください><

16時45分追記
公開しました><
内容はそのまま、アニメーションだけ削除して100枚→50枚に圧縮!!

見えない人はこちら


コメントする