mdw@git.distorted.org.uk Git - sgt/charset/blame_incremental

... / ...

Commit	Line	Data
	1	/*
	2	* emacsenc.c - translate our internal character set codes to and from
	3	* GNU Emacs coding system symbols. Derived from running M-x
	4	* list-coding-systems in Emacs 21.3.
	5	*
	6	*/
	7
	8	#include <ctype.h>
	9	#include "charset.h"
	10	#include "internal.h"
	11
	12	static const struct {
	13	const char *name;
	14	int charset;
	15	} emacsencs[] = {
	16	/*
	17	* Where multiple encoding names map to the same encoding id
	18	* (such as iso-latin-1 and iso-8859-1), the first is considered
	19	* canonical and will be returned when translating the id to a
	20	* string.
	21	*/
	22	{ "us-ascii", CS_ASCII },
	23	{ "iso-latin-9", CS_ISO8859_15 },
	24	{ "iso-8859-15", CS_ISO8859_15 },
	25	{ "latin-9", CS_ISO8859_15 },
	26	{ "latin-0", CS_ISO8859_15 },
	27	{ "iso-latin-1", CS_ISO8859_1 },
	28	{ "iso-8859-1", CS_ISO8859_1 },
	29	{ "latin-1", CS_ISO8859_1 },
	30	{ "iso-latin-2", CS_ISO8859_2 },
	31	{ "iso-8859-2", CS_ISO8859_2 },
	32	{ "latin-2", CS_ISO8859_2 },
	33	{ "iso-latin-3", CS_ISO8859_3 },
	34	{ "iso-8859-3", CS_ISO8859_3 },
	35	{ "latin-3", CS_ISO8859_3 },
	36	{ "iso-latin-4", CS_ISO8859_4 },
	37	{ "iso-8859-4", CS_ISO8859_4 },
	38	{ "latin-4", CS_ISO8859_4 },
	39	{ "cyrillic-iso-8bit", CS_ISO8859_5 },
	40	{ "iso-8859-5", CS_ISO8859_5 },
	41	{ "greek-iso-8bit", CS_ISO8859_7 },
	42	{ "iso-8859-7", CS_ISO8859_7 },
	43	{ "hebrew-iso-8bit", CS_ISO8859_8 },
	44	{ "iso-8859-8", CS_ISO8859_8 },
	45	{ "iso-8859-8-e", CS_ISO8859_8 },
	46	{ "iso-8859-8-i", CS_ISO8859_8 },
	47	{ "iso-latin-5", CS_ISO8859_9 },
	48	{ "iso-8859-9", CS_ISO8859_9 },
	49	{ "latin-5", CS_ISO8859_9 },
	50	{ "chinese-big5", CS_BIG5 },
	51	{ "big5", CS_BIG5 },
	52	{ "cn-big5", CS_BIG5 },
	53	{ "cp437", CS_CP437 },
	54	{ "cp850", CS_CP850 },
	55	{ "cp866", CS_CP866 },
	56	{ "cp1250", CS_CP1250 },
	57	{ "cp1251", CS_CP1251 },
	58	{ "cp1253", CS_CP1253 },
	59	{ "cp1257", CS_CP1257 },
	60	{ "japanese-iso-8bit", CS_EUC_JP },
	61	{ "euc-japan-1990", CS_EUC_JP },
	62	{ "euc-japan", CS_EUC_JP },
	63	{ "euc-jp", CS_EUC_JP },
	64	{ "iso-2022-jp", CS_ISO2022_JP },
	65	{ "junet", CS_ISO2022_JP },
	66	{ "korean-iso-8bit", CS_EUC_KR },
	67	{ "euc-kr", CS_EUC_KR },
	68	{ "euc-korea", CS_EUC_KR },
	69	{ "iso-2022-kr", CS_ISO2022_KR },
	70	{ "korean-iso-7bit-lock", CS_ISO2022_KR },
	71	{ "mac-roman", CS_MAC_ROMAN },
	72	{ "cyrillic-koi8", CS_KOI8_R },
	73	{ "koi8-r", CS_KOI8_R },
	74	{ "koi8", CS_KOI8_R },
	75	{ "japanese-shift-jis", CS_SHIFT_JIS },
	76	{ "shift_jis", CS_SHIFT_JIS },
	77	{ "sjis", CS_SHIFT_JIS },
	78	{ "thai-tis620", CS_ISO8859_11 },
	79	{ "th-tis620", CS_ISO8859_11 },
	80	{ "tis620", CS_ISO8859_11 },
	81	{ "tis-620", CS_ISO8859_11 },
	82	{ "mule-utf-16-be", CS_UTF16BE },
	83	{ "utf-16-be", CS_UTF16BE },
	84	{ "mule-utf-16-le", CS_UTF16LE },
	85	{ "utf-16-le", CS_UTF16LE },
	86	{ "mule-utf-8", CS_UTF8 },
	87	{ "utf-8", CS_UTF8 },
	88	{ "vietnamese-viscii", CS_VISCII },
	89	{ "viscii", CS_VISCII },
	90	{ "iso-latin-8", CS_ISO8859_14 },
	91	{ "iso-8859-14", CS_ISO8859_14 },
	92	{ "latin-8", CS_ISO8859_14 },
	93	{ "compound-text", CS_CTEXT },
	94	{ "x-ctext", CS_CTEXT },
	95	{ "ctext", CS_CTEXT },
	96	{ "chinese-hz", CS_HZ },
	97	{ "hz-gb-2312", CS_HZ },
	98	{ "hz", CS_HZ },
	99	};
	100
	101	const char *charset_to_emacsenc(int charset)
	102	{
	103	int i;
	104
	105	for (i = 0; i < (int)lenof(emacsencs); i++)
	106	if (charset == emacsencs[i].charset)
	107	return emacsencs[i].name;
	108
	109	return NULL; /* not found */
	110	}
	111
	112	int charset_from_emacsenc(const char *name)
	113	{
	114	int i;
	115
	116	for (i = 0; i < (int)lenof(emacsencs); i++) {
	117	const char p, q;
	118	p = name;
	119	q = emacsencs[i].name;
	120	while (p \|\| q) {
	121	if (tolower(p) != tolower(q))
	122	break;
	123	p++; q++;
	124	}
	125	if (!p && !q)
	126	return emacsencs[i].charset;
	127	}
	128
	129	return CS_NONE; /* not found */
	130	}