[Python] [unicode] unicodedata だけで半角->全角の変換ができるか

Published On: 1970-01-01|Last Updated: 1970-01-01|Categories: Uncategorized|

# -*- coding: utf-8 -*-
"""
Unicode Standard Annex #11 East Asian Width:
    http://www.unicode.org/reports/tr11/tr11-14.html
"""
import unicodedata
def convert(s, errors=''):
assert isinstance(s, unicode)
result = []
for c in s:
#unicodedata.east_asian_width(c) == 'H'
name = unicodedata.name(c, '')
if name.startswith('HALFWIDTH '):
try:
c = unicodedata.lookup(name[10:])
except LookupError:
print name
if errors != 'ignore': raise
result.append(c)
return ''.join(result)
if __name__ == '__main__':
s = '''
    ｱｲｳｴｵ
    ｧｨｩｪｫ
    ｶｷｸｹｺ
    ｻｼｽｾｿ
    ﾀﾁﾂﾃﾄ
    ﾅﾆﾇﾈﾉ
    ﾊﾋﾌﾍﾎ
    ﾏﾐﾑﾒﾓ
    ﾔ ﾕ ﾖ
    ｬ ｭ ｮ
    ﾗﾘﾙﾚﾛ
    ﾜ ｦ ﾝ
    ､｡ﾞﾟ｢｣･ｰ
    '''
print convert(s.decode('utf_8'), 'ignore')

を実行した結果↓

HALFWIDTH KATAKANA VOICED SOUND MARK
HALFWIDTH KATAKANA SEMI-VOICED SOUND MARK
アイウエオ
ァィゥェォ
カキクケコ
サシスセソ
タチツテト
ナニヌネノ
ハヒフヘホ
マミムメモ
ヤ ユ ヨ
ャ ュ ョ
ラリルレロ
ワ ヲ ン
、。ﾞﾟ「」・ー

変換できなかったのは↓

>>> unicodedata.name('゛'.decode('mbcs'))
'KATAKANA-HIRAGANA VOICED SOUND MARK'
>>> unicodedata.name('゜'.decode('mbcs'))
'KATAKANA-HIRAGANA SEMI-VOICED SOUND MARK'
>>> unicodedata.name('ﾞ'.decode('mbcs'))
'HALFWIDTH KATAKANA VOICED SOUND MARK'
>>> unicodedata.name('ﾟ'.decode('mbcs'))
'HALFWIDTH KATAKANA SEMI-VOICED SOUND MARK'

in the blue

[Python] [unicode] unicodedata だけで半角->全角の変換ができるか

コメント

Leave A Comment コメントをキャンセル

関連

Adobe XD

Ubuntu 20.04 on Lenovo H505s

V55t-15ARE の写真

ライブラリーとフレームワーク

in the blue