[sgt/charset] / emacsenc.c

/*
 * emacsenc.c - translate our internal character set codes to and from
 * GNU Emacs coding system symbols.  Derived from running M-x
 * list-coding-systems in Emacs 21.3.
 * 
 */

#include <ctype.h>
#include "charset.h"
#include "internal.h"

static const struct {
    const char *name;
    int charset;
} emacsencs[] = {
    /*
     * Where multiple encoding names map to the same encoding id
     * (such as iso-latin-1 and iso-8859-1), the first is considered
     * canonical and will be returned when translating the id to a
     * string.
     */
    { "us-ascii", CS_ASCII },
    { "iso-latin-9", CS_ISO8859_15 },
    { "iso-8859-15", CS_ISO8859_15 },
    { "latin-9", CS_ISO8859_15 },
    { "latin-0", CS_ISO8859_15 },
    { "iso-latin-1", CS_ISO8859_1 },
    { "iso-8859-1", CS_ISO8859_1 },
    { "latin-1", CS_ISO8859_1 },
    { "iso-latin-2", CS_ISO8859_2 },
    { "iso-8859-2", CS_ISO8859_2 },
    { "latin-2", CS_ISO8859_2 },
    { "iso-latin-3", CS_ISO8859_3 },
    { "iso-8859-3", CS_ISO8859_3 },
    { "latin-3", CS_ISO8859_3 },
    { "iso-latin-4", CS_ISO8859_4 },
    { "iso-8859-4", CS_ISO8859_4 },
    { "latin-4", CS_ISO8859_4 },
    { "cyrillic-iso-8bit", CS_ISO8859_5 },
    { "iso-8859-5", CS_ISO8859_5 },
    { "greek-iso-8bit", CS_ISO8859_7 },
    { "iso-8859-7", CS_ISO8859_7 },
    { "hebrew-iso-8bit", CS_ISO8859_8 },
    { "iso-8859-8", CS_ISO8859_8 },
    { "iso-8859-8-e", CS_ISO8859_8 },
    { "iso-8859-8-i", CS_ISO8859_8 },
    { "iso-latin-5", CS_ISO8859_9 },
    { "iso-8859-9", CS_ISO8859_9 },
    { "latin-5", CS_ISO8859_9 },
    { "chinese-big5", CS_BIG5 },
    { "big5", CS_BIG5 },
    { "cn-big5", CS_BIG5 },
    { "cp437", CS_CP437 },
    { "cp850", CS_CP850 },
    { "cp866", CS_CP866 },
    { "cp1250", CS_CP1250 },
    { "cp1251", CS_CP1251 },
    { "cp1253", CS_CP1253 },
    { "cp1257", CS_CP1257 },
    { "japanese-iso-8bit", CS_EUC_JP },
    { "euc-japan-1990", CS_EUC_JP },
    { "euc-japan", CS_EUC_JP },
    { "euc-jp", CS_EUC_JP },
    { "iso-2022-jp", CS_ISO2022_JP },
    { "junet", CS_ISO2022_JP },
    { "korean-iso-8bit", CS_EUC_KR },
    { "euc-kr", CS_EUC_KR },
    { "euc-korea", CS_EUC_KR },
    { "iso-2022-kr", CS_ISO2022_KR },
    { "korean-iso-7bit-lock", CS_ISO2022_KR },
    { "mac-roman", CS_MAC_ROMAN },
    { "cyrillic-koi8", CS_KOI8_R },
    { "koi8-r", CS_KOI8_R },
    { "koi8", CS_KOI8_R },
    { "japanese-shift-jis", CS_SHIFT_JIS },
    { "shift_jis", CS_SHIFT_JIS },
    { "sjis", CS_SHIFT_JIS },
    { "thai-tis620", CS_ISO8859_11 },
    { "th-tis620", CS_ISO8859_11 },
    { "tis620", CS_ISO8859_11 },
    { "tis-620", CS_ISO8859_11 },
    { "mule-utf-16-be", CS_UTF16BE },
    { "utf-16-be", CS_UTF16BE },
    { "mule-utf-16-le", CS_UTF16LE },
    { "utf-16-le", CS_UTF16LE },
    { "mule-utf-8", CS_UTF8 },
    { "utf-8", CS_UTF8 },
    { "vietnamese-viscii", CS_VISCII },
    { "viscii", CS_VISCII },
    { "iso-latin-8", CS_ISO8859_14 },
    { "iso-8859-14", CS_ISO8859_14 },
    { "latin-8", CS_ISO8859_14 },
    { "compound-text", CS_CTEXT },
    { "x-ctext", CS_CTEXT },
    { "ctext", CS_CTEXT },
    { "chinese-hz", CS_HZ },
    { "hz-gb-2312", CS_HZ },
    { "hz", CS_HZ },
};

const char *charset_to_emacsenc(int charset)
{
    int i;

    for (i = 0; i < (int)lenof(emacsencs); i++)
	if (charset == emacsencs[i].charset)
	    return emacsencs[i].name;

    return NULL;		       /* not found */
}

int charset_from_emacsenc(const char *name)
{
    int i;

    for (i = 0; i < (int)lenof(emacsencs); i++) {
	const char *p, *q;
	p = name;
	q = emacsencs[i].name;
	while (*p || *q) {
		if (tolower((unsigned char)*p) != tolower((unsigned char)*q))
		break;
	    p++; q++;
	}
	if (!*p && !*q)
	    return emacsencs[i].charset;
    }

    return CS_NONE;		       /* not found */
}
Commit	Line	Data
32361bda	1	/*
	2	* emacsenc.c - translate our internal character set codes to and from
	3	* GNU Emacs coding system symbols. Derived from running M-x
	4	* list-coding-systems in Emacs 21.3.
	5	*
	6	*/
	7
	8	#include <ctype.h>
	9	#include "charset.h"
	10	#include "internal.h"
	11
	12	static const struct {
	13	const char *name;
	14	int charset;
	15	} emacsencs[] = {
	16	/*
	17	* Where multiple encoding names map to the same encoding id
	18	* (such as iso-latin-1 and iso-8859-1), the first is considered
	19	* canonical and will be returned when translating the id to a
	20	* string.
	21	*/
	22	{ "us-ascii", CS_ASCII },
	23	{ "iso-latin-9", CS_ISO8859_15 },
	24	{ "iso-8859-15", CS_ISO8859_15 },
	25	{ "latin-9", CS_ISO8859_15 },
	26	{ "latin-0", CS_ISO8859_15 },
	27	{ "iso-latin-1", CS_ISO8859_1 },
	28	{ "iso-8859-1", CS_ISO8859_1 },
	29	{ "latin-1", CS_ISO8859_1 },
	30	{ "iso-latin-2", CS_ISO8859_2 },
	31	{ "iso-8859-2", CS_ISO8859_2 },
	32	{ "latin-2", CS_ISO8859_2 },
	33	{ "iso-latin-3", CS_ISO8859_3 },
	34	{ "iso-8859-3", CS_ISO8859_3 },
	35	{ "latin-3", CS_ISO8859_3 },
	36	{ "iso-latin-4", CS_ISO8859_4 },
	37	{ "iso-8859-4", CS_ISO8859_4 },
	38	{ "latin-4", CS_ISO8859_4 },
	39	{ "cyrillic-iso-8bit", CS_ISO8859_5 },
	40	{ "iso-8859-5", CS_ISO8859_5 },
	41	{ "greek-iso-8bit", CS_ISO8859_7 },
	42	{ "iso-8859-7", CS_ISO8859_7 },
	43	{ "hebrew-iso-8bit", CS_ISO8859_8 },
	44	{ "iso-8859-8", CS_ISO8859_8 },
	45	{ "iso-8859-8-e", CS_ISO8859_8 },
	46	{ "iso-8859-8-i", CS_ISO8859_8 },
	47	{ "iso-latin-5", CS_ISO8859_9 },
	48	{ "iso-8859-9", CS_ISO8859_9 },
	49	{ "latin-5", CS_ISO8859_9 },
	50	{ "chinese-big5", CS_BIG5 },
	51	{ "big5", CS_BIG5 },
	52	{ "cn-big5", CS_BIG5 },
	53	{ "cp437", CS_CP437 },
	54	{ "cp850", CS_CP850 },
	55	{ "cp866", CS_CP866 },
	56	{ "cp1250", CS_CP1250 },
	57	{ "cp1251", CS_CP1251 },
	58	{ "cp1253", CS_CP1253 },
	59	{ "cp1257", CS_CP1257 },
	60	{ "japanese-iso-8bit", CS_EUC_JP },
	61	{ "euc-japan-1990", CS_EUC_JP },
	62	{ "euc-japan", CS_EUC_JP },
	63	{ "euc-jp", CS_EUC_JP },
	64	{ "iso-2022-jp", CS_ISO2022_JP },
65	{ "junet", CS_ISO2022_JP },
66	{ "korean-iso-8bit", CS_EUC_KR },
67	{ "euc-kr", CS_EUC_KR },
68	{ "euc-korea", CS_EUC_KR },
69	{ "iso-2022-kr", CS_ISO2022_KR },
70	{ "korean-iso-7bit-lock", CS_ISO2022_KR },
71	{ "mac-roman", CS_MAC_ROMAN },
72	{ "cyrillic-koi8", CS_KOI8_R },
73	{ "koi8-r", CS_KOI8_R },
74	{ "koi8", CS_KOI8_R },
75	{ "japanese-shift-jis", CS_SHIFT_JIS },
76	{ "shift_jis", CS_SHIFT_JIS },
77	{ "sjis", CS_SHIFT_JIS },
78	{ "thai-tis620", CS_ISO8859_11 },
79	{ "th-tis620", CS_ISO8859_11 },
80	{ "tis620", CS_ISO8859_11 },
81	{ "tis-620", CS_ISO8859_11 },
82	{ "mule-utf-16-be", CS_UTF16BE },
83	{ "utf-16-be", CS_UTF16BE },
84	{ "mule-utf-16-le", CS_UTF16LE },
85	{ "utf-16-le", CS_UTF16LE },
86	{ "mule-utf-8", CS_UTF8 },
87	{ "utf-8", CS_UTF8 },
88	{ "vietnamese-viscii", CS_VISCII },
89	{ "viscii", CS_VISCII },
90	{ "iso-latin-8", CS_ISO8859_14 },
91	{ "iso-8859-14", CS_ISO8859_14 },
92	{ "latin-8", CS_ISO8859_14 },
93	{ "compound-text", CS_CTEXT },
94	{ "x-ctext", CS_CTEXT },
95	{ "ctext", CS_CTEXT },
96	{ "chinese-hz", CS_HZ },
97	{ "hz-gb-2312", CS_HZ },
98	{ "hz", CS_HZ },
99	};
100
101	const char *charset_to_emacsenc(int charset)
102	{
103	int i;
104
105	for (i = 0; i < (int)lenof(emacsencs); i++)
106	if (charset == emacsencs[i].charset)
107	return emacsencs[i].name;
108
109	return NULL; /* not found */
110	}
111
112	int charset_from_emacsenc(const char *name)
113	{
114	int i;
115
116	for (i = 0; i < (int)lenof(emacsencs); i++) {
117	const char p, q;
118	p = name;
119	q = emacsencs[i].name;
120	while (p \|\| q) {
273ef1a1	121	if (tolower((unsigned char)p) != tolower((unsigned char)q))
32361bda	122	break;
	123	p++; q++;
	124	}
	125	if (!p && !q)
	126	return emacsencs[i].charset;
	127	}
	128
	129	return CS_NONE; /* not found */
	130	}