[sgt/charset] / mimeenc.c

/*
 * mimeenc.c - translate our internal character set codes to and
 * from MIME standard character-set names.
 * 
 */

#include <ctype.h>
#include "charset.h"
#include "internal.h"

static const struct {
    const char *name;
    int charset;
} mimeencs[] = {
    /*
     * Most of these names are taken from
     * 
     *   http://www.iana.org/assignments/character-sets
     * 
     * Where multiple encoding names map to the same encoding id
     * (such as the variety of aliases for ISO-8859-1), the first
     * is considered canonical and will be returned when
     * translating the id to a string.
     * 
     * I also list here a few names which aren't in the above web
     * page, but which I've seen in the wild in real mail. These
     * are marked with a comment saying WILD.
     */

    { "US-ASCII", CS_ASCII },
    { "ANSI_X3.4-1968", CS_ASCII },
    { "iso-ir-6", CS_ASCII },
    { "ANSI_X3.4-1986", CS_ASCII },
    { "ISO_646.irv:1991", CS_ASCII },
    { "ASCII", CS_ASCII },
    { "ISO646-US", CS_ASCII },
    { "us", CS_ASCII },
    { "IBM367", CS_ASCII },
    { "cp367", CS_ASCII },
    { "csASCII", CS_ASCII },
    { "646", CS_ASCII },	       /* WILD */

    { "BS_4730", CS_BS4730 },
    { "iso-ir-4", CS_BS4730 },
    { "ISO646-GB", CS_BS4730 },
    { "gb", CS_BS4730 },
    { "uk", CS_BS4730 },
    { "csISO4UnitedKingdom", CS_BS4730 },

    { "ISO-8859-1", CS_ISO8859_1 },
    { "ISO8859-1", CS_ISO8859_1 },     /* WILD */
    { "iso-ir-100", CS_ISO8859_1 },
    { "ISO_8859-1", CS_ISO8859_1 },
    { "ISO_8859-1:1987", CS_ISO8859_1 },
    { "latin1", CS_ISO8859_1 },
    { "l1", CS_ISO8859_1 },
    { "IBM819", CS_ISO8859_1 },
    { "CP819", CS_ISO8859_1 },
    { "csISOLatin1", CS_ISO8859_1 },

    { "ISO-8859-2", CS_ISO8859_2 },
    { "ISO8859-2", CS_ISO8859_2 },     /* WILD */
    { "ISO_8859-2:1987", CS_ISO8859_2 },
    { "iso-ir-101", CS_ISO8859_2 },
    { "ISO_8859-2", CS_ISO8859_2 },
    { "latin2", CS_ISO8859_2 },
    { "l2", CS_ISO8859_2 },
    { "csISOLatin2", CS_ISO8859_2 },

    { "ISO-8859-3", CS_ISO8859_3 },
    { "ISO8859-3", CS_ISO8859_3 },     /* WILD */
    { "ISO_8859-3:1988", CS_ISO8859_3 },
    { "iso-ir-109", CS_ISO8859_3 },
    { "ISO_8859-3", CS_ISO8859_3 },
    { "latin3", CS_ISO8859_3 },
    { "l3", CS_ISO8859_3 },
    { "csISOLatin3", CS_ISO8859_3 },

    { "ISO-8859-4", CS_ISO8859_4 },
    { "ISO8859-4", CS_ISO8859_4 },     /* WILD */
    { "ISO_8859-4:1988", CS_ISO8859_4 },
    { "iso-ir-110", CS_ISO8859_4 },
    { "ISO_8859-4", CS_ISO8859_4 },
    { "latin4", CS_ISO8859_4 },
    { "l4", CS_ISO8859_4 },
    { "csISOLatin4", CS_ISO8859_4 },

    { "ISO-8859-5", CS_ISO8859_5 },
    { "ISO8859-5", CS_ISO8859_5 },     /* WILD */
    { "ISO_8859-5:1988", CS_ISO8859_5 },
    { "iso-ir-144", CS_ISO8859_5 },
    { "ISO_8859-5", CS_ISO8859_5 },
    { "cyrillic", CS_ISO8859_5 },
    { "csISOLatinCyrillic", CS_ISO8859_5 },

    { "ISO-8859-6", CS_ISO8859_6 },
    { "ISO8859-6", CS_ISO8859_6 },     /* WILD */
    { "ISO_8859-6:1987", CS_ISO8859_6 },
    { "iso-ir-127", CS_ISO8859_6 },
    { "ISO_8859-6", CS_ISO8859_6 },
    { "ECMA-114", CS_ISO8859_6 },
    { "ASMO-708", CS_ISO8859_6 },
    { "arabic", CS_ISO8859_6 },
    { "csISOLatinArabic", CS_ISO8859_6 },

    { "ISO-8859-7", CS_ISO8859_7 },
    { "ISO8859-7", CS_ISO8859_7 },     /* WILD */
    { "ISO_8859-7:1987", CS_ISO8859_7 },
    { "iso-ir-126", CS_ISO8859_7 },
    { "ISO_8859-7", CS_ISO8859_7 },
    { "ELOT_928", CS_ISO8859_7 },
    { "ECMA-118", CS_ISO8859_7 },
    { "greek", CS_ISO8859_7 },
    { "greek8", CS_ISO8859_7 },
    { "csISOLatinGreek", CS_ISO8859_7 },

    { "ISO-8859-8", CS_ISO8859_8 },
    { "ISO8859-8", CS_ISO8859_8 },     /* WILD */
    { "ISO_8859-8:1988", CS_ISO8859_8 },
    { "iso-ir-138", CS_ISO8859_8 },
    { "ISO_8859-8", CS_ISO8859_8 },
    { "hebrew", CS_ISO8859_8 },
    { "csISOLatinHebrew", CS_ISO8859_8 },

    { "ISO-8859-9", CS_ISO8859_9 },
    { "ISO8859-9", CS_ISO8859_9 },     /* WILD */
    { "ISO_8859-9:1989", CS_ISO8859_9 },
    { "iso-ir-148", CS_ISO8859_9 },
    { "ISO_8859-9", CS_ISO8859_9 },
    { "latin5", CS_ISO8859_9 },
    { "l5", CS_ISO8859_9 },
    { "csISOLatin5", CS_ISO8859_9 },

    { "ISO-8859-10", CS_ISO8859_10 },
    { "ISO8859-10", CS_ISO8859_10 },   /* WILD */
    { "iso-ir-157", CS_ISO8859_10 },
    { "l6", CS_ISO8859_10 },
    { "ISO_8859-10:1992", CS_ISO8859_10 },
    { "csISOLatin6", CS_ISO8859_10 },
    { "latin6", CS_ISO8859_10 },

    { "TIS-620", CS_ISO8859_11 },

    { "ISO-8859-13", CS_ISO8859_13 },
    { "ISO8859-13", CS_ISO8859_13 },   /* WILD */

    { "ISO-8859-14", CS_ISO8859_14 },
    { "ISO8859-14", CS_ISO8859_14 },   /* WILD */
    { "iso-ir-199", CS_ISO8859_14 },
    { "ISO_8859-14:1998", CS_ISO8859_14 },
    { "ISO_8859-14", CS_ISO8859_14 },
    { "latin8", CS_ISO8859_14 },
    { "iso-celtic", CS_ISO8859_14 },
    { "l8", CS_ISO8859_14 },

    { "ISO-8859-15", CS_ISO8859_15 },
    { "ISO8859-15", CS_ISO8859_15 },   /* WILD */
    { "ISO_8859-15", CS_ISO8859_15 },
    { "Latin-9", CS_ISO8859_15 },

    { "ISO-8859-16", CS_ISO8859_16 },
    { "ISO8859-16", CS_ISO8859_16 },   /* WILD */
    { "iso-ir-226", CS_ISO8859_16 },
    { "ISO_8859-16", CS_ISO8859_16 },
    { "ISO_8859-16:2001", CS_ISO8859_16 },
    { "latin10", CS_ISO8859_16 },
    { "l10", CS_ISO8859_16 },

    { "IBM437", CS_CP437 },
    { "cp437", CS_CP437 },
    { "437", CS_CP437 },
    { "csPC8CodePage437", CS_CP437 },

    { "IBM850", CS_CP850 },
    { "cp850", CS_CP850 },
    { "850", CS_CP850 },
    { "csPC850Multilingual", CS_CP850 },

    { "IBM866", CS_CP866 },
    { "cp866", CS_CP866 },
    { "866", CS_CP866 },
    { "csIBM866", CS_CP866 },

    { "windows-1250", CS_CP1250 },
    { "win-1250", CS_CP1250 },	       /* WILD */

    { "windows-1251", CS_CP1251 },
    { "win-1251", CS_CP1251 },	       /* WILD */

    { "windows-1252", CS_CP1252 },
    { "win-1252", CS_CP1252 },	       /* WILD */

    { "windows-1253", CS_CP1253 },
    { "win-1253", CS_CP1253 },	       /* WILD */

    { "windows-1254", CS_CP1254 },
    { "win-1254", CS_CP1254 },	       /* WILD */

    { "windows-1255", CS_CP1255 },
    { "win-1255", CS_CP1255 },	       /* WILD */

    { "windows-1256", CS_CP1256 },
    { "win-1256", CS_CP1256 },	       /* WILD */

    { "windows-1257", CS_CP1257 },
    { "win-1257", CS_CP1257 },	       /* WILD */

    { "windows-1258", CS_CP1258 },
    { "win-1258", CS_CP1258 },	       /* WILD */

    { "KOI8-R", CS_KOI8_R },
    { "csKOI8R", CS_KOI8_R },

    { "KOI8-U", CS_KOI8_U },

    { "KOI8-RU", CS_KOI8_RU },	       /* WILD */

    { "JIS_X0201", CS_JISX0201 },
    { "X0201", CS_JISX0201 },
    { "csHalfWidthKatakana", CS_JISX0201 },

    { "macintosh", CS_MAC_ROMAN_OLD },
    { "mac", CS_MAC_ROMAN_OLD },
    { "csMacintosh", CS_MAC_ROMAN_OLD },

    { "VISCII", CS_VISCII },
    { "csVISCII", CS_VISCII },

    { "hp-roman8", CS_HP_ROMAN8 },
    { "roman8", CS_HP_ROMAN8 },
    { "r8", CS_HP_ROMAN8 },
    { "csHPRoman8", CS_HP_ROMAN8 },

    { "DEC-MCS", CS_DEC_MCS },
    { "dec", CS_DEC_MCS },
    { "csDECMCS", CS_DEC_MCS },

    { "UTF-8", CS_UTF8 },

    { "UTF-7", CS_UTF7 },
    { "UNICODE-1-1-UTF-7", CS_UTF7 },
    { "csUnicode11UTF7", CS_UTF7 },

    /*
     * Quite why the EUC-CN encoding is known to MIME by the name
     * of its underlying character set, I'm not entirely sure, but
     * it is. Shrug.
     */
    { "GB2312", CS_EUC_CN },
    { "csGB2312", CS_EUC_CN },

    { "EUC-KR", CS_EUC_KR },
    { "csEUCKR", CS_EUC_KR },

    { "EUC-JP", CS_EUC_JP },
    { "csEUCPkdFmtJapanese", CS_EUC_JP },
    { "Extended_UNIX_Code_Packed_Format_for_Japanese", CS_EUC_JP },

    { "ISO-2022-JP", CS_ISO2022_JP },
    { "csISO2022JP", CS_ISO2022_JP },

    { "ISO-2022-KR", CS_ISO2022_KR },
    { "csISO2022KR", CS_ISO2022_KR },

    { "Big5", CS_BIG5 },
    { "csBig5", CS_BIG5 },
    { "Big-5", CS_BIG5 },	       /* WILD */
    { "ChineseBig5", CS_BIG5 },	       /* WILD */

    { "Shift_JIS", CS_SHIFT_JIS },
    { "MS_Kanji", CS_SHIFT_JIS },
    { "csShiftJIS", CS_SHIFT_JIS },

    { "HZ-GB-2312", CS_HZ },

    { "UTF-16BE", CS_UTF16BE },

    { "UTF-16LE", CS_UTF16LE },

    { "UTF-16", CS_UTF16 },

    /*
     * This bit is fiddly and possibly technically incorrect; but
     * rumour has it that the KSC 5601 encoding is a subset of
     * Microsoft CP949, and that MS products tend to announce CP949
     * as KSC 5601 in much the same way they seem willing to
     * announce CP1252 as its subset ISO 8859-1. So I cheat
     * shamelessly here by letting KSC 5601 map to CP949.
     */
    { "KS_C_5601-1987", CS_CP949 },
    { "iso-ir-149", CS_CP949 },
    { "KS_C_5601-1989", CS_CP949 },
    { "KSC_5601", CS_CP949 },
    { "korean", CS_CP949 },
    { "csKSC56011987", CS_CP949 },
    { "KSC5601", CS_CP949 },	       /* WILD */

#if 0
    { "ISO-2022-JP-2", CS_ISO2022_JP_2 },
    { "csISO2022JP2", CS_ISO2022_JP_2 },
#endif
};

const char *charset_to_mimeenc(int charset)
{
    int i;

    for (i = 0; i < (int)lenof(mimeencs); i++)
	if (charset == mimeencs[i].charset)
	    return mimeencs[i].name;

    return NULL;		       /* not found */
}

int charset_from_mimeenc(const char *name)
{
    int i;

    for (i = 0; i < (int)lenof(mimeencs); i++) {
	const char *p, *q;
	p = name;
	q = mimeencs[i].name;
	while (*p || *q) {
	    if (tolower(*p) != tolower(*q))
		break;
	    p++; q++;
	}
	if (!*p && !*q)
	    return mimeencs[i].charset;
    }

    return CS_NONE;		       /* not found */
}
Commit	Line	Data
c6d25d8d	1	/*
	2	* mimeenc.c - translate our internal character set codes to and
	3	* from MIME standard character-set names.
	4	*
	5	*/
	6
	7	#include <ctype.h>
	8	#include "charset.h"
	9	#include "internal.h"
	10
	11	static const struct {
	12	const char *name;
	13	int charset;
	14	} mimeencs[] = {
	15	/*
	16	* Most of these names are taken from
	17	*
	18	* http://www.iana.org/assignments/character-sets
	19	*
	20	* Where multiple encoding names map to the same encoding id
	21	* (such as the variety of aliases for ISO-8859-1), the first
	22	* is considered canonical and will be returned when
	23	* translating the id to a string.
	24	*
	25	* I also list here a few names which aren't in the above web
	26	* page, but which I've seen in the wild in real mail. These
	27	* are marked with a comment saying WILD.
	28	*/
	29
a3a72148	30	{ "US-ASCII", CS_ASCII },
c6d25d8d	31	{ "ANSI_X3.4-1968", CS_ASCII },
	32	{ "iso-ir-6", CS_ASCII },
	33	{ "ANSI_X3.4-1986", CS_ASCII },
	34	{ "ISO_646.irv:1991", CS_ASCII },
	35	{ "ASCII", CS_ASCII },
	36	{ "ISO646-US", CS_ASCII },
c6d25d8d	37	{ "us", CS_ASCII },
	38	{ "IBM367", CS_ASCII },
	39	{ "cp367", CS_ASCII },
	40	{ "csASCII", CS_ASCII },
	41	{ "646", CS_ASCII }, /* WILD */
	42
294941fa	43	{ "BS_4730", CS_BS4730 },
	44	{ "iso-ir-4", CS_BS4730 },
	45	{ "ISO646-GB", CS_BS4730 },
	46	{ "gb", CS_BS4730 },
	47	{ "uk", CS_BS4730 },
	48	{ "csISO4UnitedKingdom", CS_BS4730 },
	49
c6d25d8d	50	{ "ISO-8859-1", CS_ISO8859_1 },
	51	{ "ISO8859-1", CS_ISO8859_1 }, /* WILD */
	52	{ "iso-ir-100", CS_ISO8859_1 },
	53	{ "ISO_8859-1", CS_ISO8859_1 },
	54	{ "ISO_8859-1:1987", CS_ISO8859_1 },
	55	{ "latin1", CS_ISO8859_1 },
	56	{ "l1", CS_ISO8859_1 },
	57	{ "IBM819", CS_ISO8859_1 },
	58	{ "CP819", CS_ISO8859_1 },
	59	{ "csISOLatin1", CS_ISO8859_1 },
	60
	61	{ "ISO-8859-2", CS_ISO8859_2 },
	62	{ "ISO8859-2", CS_ISO8859_2 }, /* WILD */
	63	{ "ISO_8859-2:1987", CS_ISO8859_2 },
	64	{ "iso-ir-101", CS_ISO8859_2 },
	65	{ "ISO_8859-2", CS_ISO8859_2 },
	66	{ "latin2", CS_ISO8859_2 },
	67	{ "l2", CS_ISO8859_2 },
	68	{ "csISOLatin2", CS_ISO8859_2 },
	69
	70	{ "ISO-8859-3", CS_ISO8859_3 },
	71	{ "ISO8859-3", CS_ISO8859_3 }, /* WILD */
	72	{ "ISO_8859-3:1988", CS_ISO8859_3 },
	73	{ "iso-ir-109", CS_ISO8859_3 },
	74	{ "ISO_8859-3", CS_ISO8859_3 },
	75	{ "latin3", CS_ISO8859_3 },
	76	{ "l3", CS_ISO8859_3 },
	77	{ "csISOLatin3", CS_ISO8859_3 },
	78
	79	{ "ISO-8859-4", CS_ISO8859_4 },
	80	{ "ISO8859-4", CS_ISO8859_4 }, /* WILD */
	81	{ "ISO_8859-4:1988", CS_ISO8859_4 },
	82	{ "iso-ir-110", CS_ISO8859_4 },
	83	{ "ISO_8859-4", CS_ISO8859_4 },
	84	{ "latin4", CS_ISO8859_4 },
	85	{ "l4", CS_ISO8859_4 },
	86	{ "csISOLatin4", CS_ISO8859_4 },
	87
	88	{ "ISO-8859-5", CS_ISO8859_5 },
	89	{ "ISO8859-5", CS_ISO8859_5 }, /* WILD */
	90	{ "ISO_8859-5:1988", CS_ISO8859_5 },
	91	{ "iso-ir-144", CS_ISO8859_5 },
	92	{ "ISO_8859-5", CS_ISO8859_5 },
	93	{ "cyrillic", CS_ISO8859_5 },
	94	{ "csISOLatinCyrillic", CS_ISO8859_5 },
	95
	96	{ "ISO-8859-6", CS_ISO8859_6 },
	97	{ "ISO8859-6", CS_ISO8859_6 }, /* WILD */
	98	{ "ISO_8859-6:1987", CS_ISO8859_6 },
	99	{ "iso-ir-127", CS_ISO8859_6 },
	100	{ "ISO_8859-6", CS_ISO8859_6 },
	101	{ "ECMA-114", CS_ISO8859_6 },
	102	{ "ASMO-708", CS_ISO8859_6 },
	103	{ "arabic", CS_ISO8859_6 },
	104	{ "csISOLatinArabic", CS_ISO8859_6 },
	105
	106	{ "ISO-8859-7", CS_ISO8859_7 },
	107	{ "ISO8859-7", CS_ISO8859_7 }, /* WILD */
	108	{ "ISO_8859-7:1987", CS_ISO8859_7 },
	109	{ "iso-ir-126", CS_ISO8859_7 },
	110	{ "ISO_8859-7", CS_ISO8859_7 },
	111	{ "ELOT_928", CS_ISO8859_7 },
	112	{ "ECMA-118", CS_ISO8859_7 },
	113	{ "greek", CS_ISO8859_7 },
114	{ "greek8", CS_ISO8859_7 },
115	{ "csISOLatinGreek", CS_ISO8859_7 },
116
117	{ "ISO-8859-8", CS_ISO8859_8 },
118	{ "ISO8859-8", CS_ISO8859_8 }, /* WILD */
119	{ "ISO_8859-8:1988", CS_ISO8859_8 },
120	{ "iso-ir-138", CS_ISO8859_8 },
121	{ "ISO_8859-8", CS_ISO8859_8 },
122	{ "hebrew", CS_ISO8859_8 },
123	{ "csISOLatinHebrew", CS_ISO8859_8 },
124
125	{ "ISO-8859-9", CS_ISO8859_9 },
126	{ "ISO8859-9", CS_ISO8859_9 }, /* WILD */
127	{ "ISO_8859-9:1989", CS_ISO8859_9 },
128	{ "iso-ir-148", CS_ISO8859_9 },
129	{ "ISO_8859-9", CS_ISO8859_9 },
130	{ "latin5", CS_ISO8859_9 },
131	{ "l5", CS_ISO8859_9 },
132	{ "csISOLatin5", CS_ISO8859_9 },
133
134	{ "ISO-8859-10", CS_ISO8859_10 },
135	{ "ISO8859-10", CS_ISO8859_10 }, /* WILD */
136	{ "iso-ir-157", CS_ISO8859_10 },
137	{ "l6", CS_ISO8859_10 },
138	{ "ISO_8859-10:1992", CS_ISO8859_10 },
139	{ "csISOLatin6", CS_ISO8859_10 },
140	{ "latin6", CS_ISO8859_10 },
141
b8aed8e3	142	{ "TIS-620", CS_ISO8859_11 },
b8aed8e3	143
c6d25d8d	144	{ "ISO-8859-13", CS_ISO8859_13 },
	145	{ "ISO8859-13", CS_ISO8859_13 }, /* WILD */
	146
	147	{ "ISO-8859-14", CS_ISO8859_14 },
	148	{ "ISO8859-14", CS_ISO8859_14 }, /* WILD */
	149	{ "iso-ir-199", CS_ISO8859_14 },
	150	{ "ISO_8859-14:1998", CS_ISO8859_14 },
	151	{ "ISO_8859-14", CS_ISO8859_14 },
	152	{ "latin8", CS_ISO8859_14 },
	153	{ "iso-celtic", CS_ISO8859_14 },
	154	{ "l8", CS_ISO8859_14 },
	155
	156	{ "ISO-8859-15", CS_ISO8859_15 },
	157	{ "ISO8859-15", CS_ISO8859_15 }, /* WILD */
	158	{ "ISO_8859-15", CS_ISO8859_15 },
	159	{ "Latin-9", CS_ISO8859_15 },
	160
	161	{ "ISO-8859-16", CS_ISO8859_16 },
	162	{ "ISO8859-16", CS_ISO8859_16 }, /* WILD */
	163	{ "iso-ir-226", CS_ISO8859_16 },
	164	{ "ISO_8859-16", CS_ISO8859_16 },
	165	{ "ISO_8859-16:2001", CS_ISO8859_16 },
	166	{ "latin10", CS_ISO8859_16 },
	167	{ "l10", CS_ISO8859_16 },
	168
	169	{ "IBM437", CS_CP437 },
	170	{ "cp437", CS_CP437 },
	171	{ "437", CS_CP437 },
	172	{ "csPC8CodePage437", CS_CP437 },
	173
	174	{ "IBM850", CS_CP850 },
	175	{ "cp850", CS_CP850 },
	176	{ "850", CS_CP850 },
	177	{ "csPC850Multilingual", CS_CP850 },
	178
9b7e7a92	179	{ "IBM866", CS_CP866 },
	180	{ "cp866", CS_CP866 },
	181	{ "866", CS_CP866 },
	182	{ "csIBM866", CS_CP866 },
	183
c6d25d8d	184	{ "windows-1250", CS_CP1250 },
	185	{ "win-1250", CS_CP1250 }, /* WILD */
	186
	187	{ "windows-1251", CS_CP1251 },
	188	{ "win-1251", CS_CP1251 }, /* WILD */
	189
	190	{ "windows-1252", CS_CP1252 },
	191	{ "win-1252", CS_CP1252 }, /* WILD */
	192
	193	{ "windows-1253", CS_CP1253 },
	194	{ "win-1253", CS_CP1253 }, /* WILD */
	195
	196	{ "windows-1254", CS_CP1254 },
	197	{ "win-1254", CS_CP1254 }, /* WILD */
	198
	199	{ "windows-1255", CS_CP1255 },
	200	{ "win-1255", CS_CP1255 }, /* WILD */
	201
	202	{ "windows-1256", CS_CP1256 },
	203	{ "win-1256", CS_CP1256 }, /* WILD */
	204
	205	{ "windows-1257", CS_CP1257 },
	206	{ "win-1257", CS_CP1257 }, /* WILD */
	207
	208	{ "windows-1258", CS_CP1258 },
	209	{ "win-1258", CS_CP1258 }, /* WILD */
	210
	211	{ "KOI8-R", CS_KOI8_R },
	212	{ "csKOI8R", CS_KOI8_R },
	213
	214	{ "KOI8-U", CS_KOI8_U },
	215
	216	{ "KOI8-RU", CS_KOI8_RU }, /* WILD */
	217
01081d4e	218	{ "JIS_X0201", CS_JISX0201 },
	219	{ "X0201", CS_JISX0201 },
	220	{ "csHalfWidthKatakana", CS_JISX0201 },
	221
c6d25d8d	222	{ "macintosh", CS_MAC_ROMAN_OLD },
	223	{ "mac", CS_MAC_ROMAN_OLD },
	224	{ "csMacintosh", CS_MAC_ROMAN_OLD },
	225
	226	{ "VISCII", CS_VISCII },
	227	{ "csVISCII", CS_VISCII },
	228
	229	{ "hp-roman8", CS_HP_ROMAN8 },
	230	{ "roman8", CS_HP_ROMAN8 },
	231	{ "r8", CS_HP_ROMAN8 },
	232	{ "csHPRoman8", CS_HP_ROMAN8 },
	233
	234	{ "DEC-MCS", CS_DEC_MCS },
	235	{ "dec", CS_DEC_MCS },
	236	{ "csDECMCS", CS_DEC_MCS },
	237
	238	{ "UTF-8", CS_UTF8 },
	239
	240	{ "UTF-7", CS_UTF7 },
	241	{ "UNICODE-1-1-UTF-7", CS_UTF7 },
	242	{ "csUnicode11UTF7", CS_UTF7 },
	243
	244	/*
	245	* Quite why the EUC-CN encoding is known to MIME by the name
	246	* of its underlying character set, I'm not entirely sure, but
	247	* it is. Shrug.
	248	*/
	249	{ "GB2312", CS_EUC_CN },
	250	{ "csGB2312", CS_EUC_CN },
	251
	252	{ "EUC-KR", CS_EUC_KR },
	253	{ "csEUCKR", CS_EUC_KR },
	254
	255	{ "EUC-JP", CS_EUC_JP },
	256	{ "csEUCPkdFmtJapanese", CS_EUC_JP },
	257	{ "Extended_UNIX_Code_Packed_Format_for_Japanese", CS_EUC_JP },
	258
	259	{ "ISO-2022-JP", CS_ISO2022_JP },
	260	{ "csISO2022JP", CS_ISO2022_JP },
	261
	262	{ "ISO-2022-KR", CS_ISO2022_KR },
	263	{ "csISO2022KR", CS_ISO2022_KR },
	264
	265	{ "Big5", CS_BIG5 },
	266	{ "csBig5", CS_BIG5 },
5301b839	267	{ "Big-5", CS_BIG5 }, /* WILD */
5301b839	268	{ "ChineseBig5", CS_BIG5 }, /* WILD */
c6d25d8d	269
	270	{ "Shift_JIS", CS_SHIFT_JIS },
	271	{ "MS_Kanji", CS_SHIFT_JIS },
	272	{ "csShiftJIS", CS_SHIFT_JIS },
	273
	274	{ "HZ-GB-2312", CS_HZ },
	275
	276	{ "UTF-16BE", CS_UTF16BE },
	277
	278	{ "UTF-16LE", CS_UTF16LE },
	279
	280	{ "UTF-16", CS_UTF16 },
	281
	282	/*
	283	* This bit is fiddly and possibly technically incorrect; but
	284	* rumour has it that the KSC 5601 encoding is a subset of
	285	* Microsoft CP949, and that MS products tend to announce CP949
	286	* as KSC 5601 in much the same way they seem willing to
	287	* announce CP1252 as its subset ISO 8859-1. So I cheat
	288	* shamelessly here by letting KSC 5601 map to CP949.
	289	*/
	290	{ "KS_C_5601-1987", CS_CP949 },
	291	{ "iso-ir-149", CS_CP949 },
	292	{ "KS_C_5601-1989", CS_CP949 },
	293	{ "KSC_5601", CS_CP949 },
	294	{ "korean", CS_CP949 },
	295	{ "csKSC56011987", CS_CP949 },
	296	{ "KSC5601", CS_CP949 }, /* WILD */
	297
	298	#if 0
	299	{ "ISO-2022-JP-2", CS_ISO2022_JP_2 },
	300	{ "csISO2022JP2", CS_ISO2022_JP_2 },
	301	#endif
	302	};
	303
	304	const char *charset_to_mimeenc(int charset)
	305	{
	306	int i;
	307
	308	for (i = 0; i < (int)lenof(mimeencs); i++)
	309	if (charset == mimeencs[i].charset)
	310	return mimeencs[i].name;
	311
	312	return NULL; /* not found */
	313	}
	314
	315	int charset_from_mimeenc(const char *name)
	316	{
	317	int i;
	318
	319	for (i = 0; i < (int)lenof(mimeencs); i++) {
	320	const char p, q;
	321	p = name;
	322	q = mimeencs[i].name;
	323	while (p \|\| q) {
	324	if (tolower(p) != tolower(q))
	325	break;
	326	p++; q++;
	327	}
	328	if (!p && !q)
	329	return mimeencs[i].charset;
	330	}
	331
	332	return CS_NONE; /* not found */
333	}