汉语是牺牲了什么,才成为世界最紧凑、最高效的语言?
汉语汉字是以“基础字符(汉字)多、上手难度高”为代价,获取了高信息熵、底层架构好的优势。这两个缺点甚至直接导致汉字的两次拉丁化危机,使其差一点就像越南的喃字一样,泯灭于历史的长河中了········
一、汉字是世界最紧凑、最高效的语言之一吗?
答案是肯定的,以汉字为代表的意音方块字,作为一个复杂的文字符号系统,其信息熵很高。
从信息量的角度看,方块字与拉丁字母是二维码与条形码的区别。单从维度上说,方块字的信息含量就比字母文字高了一个数量级。
1948年,英国数学家克劳德·香农在论文《A Mathematical Theory of Communication》(通信的数学原理)中,提出了一个表征符号系统中单位符号平均信息量的指标——信息熵,并给出了计算信息熵的公式。
根据公式,符号系统中符号越多,信息熵越大;符号出现的频率越均匀,信息熵越高。据数理语言学中著名的齐普夫定律(ZIPF’SLAW)对全球主要语言进行统计,发现汉语是当今世界上信息量最大的文字符号系统。联合国五种工作语言文字的信息熵的比较如下:
- 法文:3.98比特
- 西班牙文:4.01比特
- 英文:4.03比特
- 俄文:4.35比特
- 中文:9.65比特
可以看出,拼音文字的信息熵小,差别不大。汉字的信息量最大。
汉字对拼音文字的这种信息熵优势是什么概念?
简单的比喻就是十进制数与二进制数的差别。十进制数字系统需要人记忆0-9,10个符号,二进制只需要记忆0和1两个符号。十进制乘除要记忆9X9表,二进制只需要学会与、或、非的简单逻辑。但是,人类在日常生活中为什么不使用二进制数字系统呢?因为那样很浪费,一个数字“7”表示成二进制就成了“111”,记个大数人不累?反过来,人类为什么不用十六进制,或更高的进制呢?一方面是人脑智力的限制,另一方面,十六进制也未必能大幅度提高信息熵。
汉字用5000个字解决了绝大多数人面对绝大多数文章的理解问题,就凭这一点汉字就已经领先拼音文字很多了。拼音文字要达到同样效果至少需要十万单词量,要一个人学10年以上。这种信息熵反映在文字上,就是联合国文件中,中文版本一定是最薄的。这就是汉字字符集信息熵高的优势。
而且如果觉得不够简练,汉语还贴心地提供多种压缩算法,例如:诗、词、文言文……
这在古代书写材料稀缺的情况下(无论是西方的羊皮纸、莎草纸,还是中国的竹简、早期的纸,都是较为昂贵的),信息熵高的文字就更有利于知识的传播、保存,对文明的发展显得尤为关键了。
但世界万物,凡有所得,必有代价,正所谓“命运赠送的礼物,早已在暗中标好了价格”,那汉语汉字又牺牲了什么,才获得紧凑高效这一优点的呢?
汉语付出的代价就是“基础字符(汉字)多、上手难度高”,这两个缺点甚至直接导致汉字的两次拉丁化危机,使其差一点就像越南的喃字一样,泯灭于历史的长河中了········
二、汉语的缺陷与两次拉丁化危机
1、“学习久上手难”导致的第一次拉丁化危机
毋庸置疑,虽然汉字承载着汉语的诸多优势,但是汉字本身最大的劣势却是不可回避的,那就是——学习时间长,不利于快速上手。 这主要是因为以下几个原因:
- 造字法有点乱,表音表意规律不清晰(没办法,无论任何项目,历经数千年迭代下来,都必然成为代码屎山),不仅字和字之间缺乏联系,字和读音之间联系也不甚紧密,哪怕是看起像形声字,由于几千年语音的变化,读音却与想象的相差甚远, 识字不敢读半边,要靠死记硬背。
- 识字量大,需要认识1500字以上才能脱盲(要花费2-3年时间),而成年人学拼音文字只需花费几个月掌握数十个字母、音标、表音文字拼写和读音之间的规律后,便可快速入门,做到“我手写我口”。
- 音调系统很古怪(这一条主要是针对外国初学者,这也他们最常见的抱怨之一,怎么可能Shuxue既可以是“数学”同时还能是“输血”呢?或者guojiang可以是“过奖”或者是“果酱”?)
- 文化方面,汉语的难点在于,整个中文是依托于数千年的文化积淀而有序传承的,因此目前所用的词汇中有大量的典故、成语。(对于外国初学者)如果不了解其中的背景知识,那读起来是相当费劲的。
这是汉字的劣势,导致与其他文字相比,学习上手难度较高。因此,要学习掌握中文常用的3500个汉字(占全部汉字使用率的99%以上),往往至少全日制学习三年才行,而拼音只需几个月就可以了。
这也导致清末民初众多名人支持“汉字拼音化”的核心原因之一,当时这帮民国文化人的推理逻辑很简单:
中国积贫积弱->没有人才->受教育人少->汉字太难->拼音简单->汉字拼音化
因此,自“五四运动”之后的几十年里,无数文人志士致力于“汉字拼音化”,不是因为这些人吃饱了撑的,也不是单单蠢到被人骗了,而是当时的中国真的面临极大的困境:国家想要复兴就要有知识,想要有知识就要学习,但学习是件极为奢侈的事情。
如果你是知识分子,想唤醒沉睡的国人,心里着急,“汉字拼音化“这个方案,是合情合理(至少看起来像),符合当时的国情的。
3500个常用汉字至少要学全日制学三年,而拼音只需几个月。
而当时中国处于“亡国灭种”的正危急存亡时刻,什么都缺,连时间都缺。
亡国时刻的人们是没时间抒情的,没时间念旧的,更没时间学习茴字的四种写法。
他们迫不及待的想要在一夜之间培养四万万能读能写的人,这些人中可以诞生四千万能学习数理化的人,四百万学有所成的人,四十万高级工程师!建立四万所工厂,生产一个大帝国所需的所有铁甲舰和火车,化肥和石油!
而汉字拼音化,就是当时不少知识分子的想到的破局之道。
在他们看来,这不是愚昧无知,也不是崇洋媚外,而是生死关头的断臂求生。
能理解这些,就能理解为什么他们为什么要搞汉字拼音化了。
--------------------------------
题外话:
多了解前因后果,会对历史人物的言论,多一份理解。但是,这份理解,绝不能等同于赞同。
虽能理解他们当时的所思所想,也能够体谅“他们要求拉丁化,全盘西化,本意还是为保存和发展种族”的本心,但若要给其一个盖棺定论的话,那就是——
这不过是一帮彻底被打碎文化自信、且不学无术(最多只学了半桶水)的“知识分子”的“病急乱投医”罢了。
二十世纪初那会儿,接二连三的战败早已打碎中国人天朝上国的自信,连“中学为体、西学为用”这种符合正常文化自尊的做法都没底气坚持了。
对于这些彻底丧失文化自信的知识分子来说,不学西方国必亡。
在中国落后的现实下,中国的万事万物都有可能是造成落后的原因,所以病急乱投医,当真一厢情愿认为,只有否定延续了数千年的中华传统文化,否定了整个辉煌灿烂的中华文明,连汉字也放弃改成拉丁文,全盘西化“脱亚入欧”,才能救国救民。
说他们不学无术、半桶水,是因为他们根本没有做客观的科学研究,只是看别国强大,便随意臆测其强大的原因,譬如说拉丁化可以减少文盲,还不是一拍脑瓜的想法,真有什么科学依据么?
(扫盲的真正关键在于体系化的全民教育,而不是所谓拼音文字,你看亚非拉一堆用拼音文字的国家,还不是文盲遍地。反之如台湾,只要良好的全民教育体系,就算是用繁体字也能实现全岛扫盲。而一旦全民教育体系出来问题,例如2020年代的美国,一样能整出全国识字率只有79%这种奇葩活)。
而真正脚踏实地的华夏先贤们,他们也知道为了救亡图存,就必须要提高广大群众的识字率。
所以他们在新中国成立后,面对识字率只有不到10%的现实,因地制宜制定的第一套简化字方案,大力倡导推广白话文,推行汉语拼音方案,用最短的时间,最高的效率,让一个数亿人口的大国,消除了为数众多的文盲,适应了工业化大生产的需要,进而让一个沉沦落伍数百年的农业国,建成了一个规模齐全的现代工业体系。
这才是真的“救国救民,功德无量。”
2:“打字输入困难”导致的第二次拉丁化危机
“打字输入困难”这一点现在看来不算什么,但往前几十年,那真是一个极其严重的问题,汉字甚至差一点就因此彻底拉丁化了。
要知道,自清末以来大半个世纪的「汉字拉丁化」思潮,其中一个重要理由就是——汉字印刷出版成本太高,阻碍知识文化快速传播普及。
而20世纪初,开民智是关乎国家发展进步一个至关重要的环节。各国无不在积极普及教育,开展文化启蒙,提高国民素质,而对教育/文化传播影响最大的是什么行业?
————出版业。
汉语有5000多个单字,任何一个小报社,小出版社要印东西最起码要准备好几百万个甚至上千万个字码,要不然就要临时刻字。而欧洲国家普遍使用字母文,字母大小写都算上,也不过几十个基础单元,日本的平假名片假名算一起,也100来个基础单元。相对而言汉字印刷费时,费工,费料,印刷成本比拼音文字高指数量级。
之后印刷机和打字机的出现后更是雪上加霜,直接造成的结果就是——排版效率出现了巨大的差距,别人家出版业已经用了大半个世纪的机械化自动/半自动排版了,而直到上世纪80年代,我们还在人工排版。隔壁日本在19世纪就意识到了教育普及的重要性,于是为了适应西方铸排机的印刷方式,原本认为写汉字才高雅的大和民族立马向片假名滑跪了。我们呢?制版就靠工人在几千个铅字里一个个找,出份日报都费劲。你要是出本刊物出本书,里面生僻字再一多,猴年马月才能排完版。
出版业效率低,知识和信息就无法廉价高效的传播。
当时的很多人(包括一些名人和文化界大人物)大多鼓励汉字拉丁化,因为这样我们就可以使用铸排机加快出版效率了。而且也有很大的群众基础在,毕竟大多数人本来就不识字,教他们学方块汉字还是拉丁汉字,没什么区别。
为此,汉语拼音化言论铺天盖地、甚嚣尘上,甚至建国后政府都一直推进相关工作,当时是真的要准备步日本,韩国,朝鲜,越南的后尘,把汉字彻底拼音化的。
1954年官方成立的文字改革委员会,委员会早就做了决定:“一定要实行拼音化”,虽然没有给拼音化下一个时间表,但是工作一直在做,就好比“一定要解放台湾”,没有时间表说明何时解放,但是一定要解放一样。
那什么时候中国官方才停止了推动拼音化的工作呢?
——是1985年,为什么会在这时停止拼音化的探索呢?
因为1980年,咱们的王选院士发明了汉字激光照排系统,并利用该技术成功印刷了纪念周总理的文学作品——《伍豪之剑》。汉字出版业从此直接跨过机械化,实现了信息化,汉字输入/打印不再是问题了。
至此,王选院士用自己的努力,把【汉字拉丁化】彻底丢进了历史的垃圾桶。
(是那些有骨气的、坚信汉语的优越性、中国文明在计算机世界一定能找到自己的出路的人的坚持与创新才有了今天。有此国士,实乃中华之幸)
对于当时的人民来说,打字机时代如果一直延续下去的话,汉字就真的危险了——那种环境下,「汉字拼音/拉丁化」将会成为一种无奈的选择,被广泛推广········
但后来汉字激光照排和五笔输入法出现,汉字出版业直接跨过机械化,实现了信息化,解决了困扰近百年的难题,汉语拼音化随之被多数学者抛弃。汉字也就此躲过了一劫。
3、汉字的其他缺陷:
(1)语素少,造成同音现象,听说层面信息传递低效
中文语素少,造成同音现象远多于英语法语,在听说场景中,不得不借助视觉能力。
同样是各位吐槽的英语时态变化,法语各种变位,阴阳性,因为单词变形使得读音也变化,在听说中容易分清。典型的就是he/she/it,在中文里是三个同音的「ta」,以至于很多人必须再补充问一下「ta是男的还是女的」。
也即,在听说层面,汉语的信息传递较为低效。这种低效导致汉语必须字正腔圆,逐字逐句,语速不能过快。而英语可以有闪音连读,因此在相同时间内能够传递更多的信息量。尤其在看视频时,没有字幕且说话人口音不标准时,就会不舒服。英语反而少很多。从这个角度看,汉语的简练是体现在读写上面的,而在听说层面显著落后于表音文字。这也很好理解,汉语作为意音文字,本身读写能力强大。英法语是所听即所见,记录的是读音(英语正字法太烂是另一回事),各有优势。简练也是看场景的。
同音造成的困扰,也是老外学习中文的一大苦恼,同音就罢了,同一个字,意思还那么多,简直是要让外国人分分钟崩溃。
前面说了那么多汉字的缺点,那么汉字真的不如英语等拼音/字母文字么?
当然不是!!!
汉字底层架构设计好,信息熵高(简练),哪怕是在全球文字中,汉字的底层架构是独一档的存在,他是一种拥有高度概念抽象能力的「面向对象」文字,拥有近乎完美的「封装」「继承」「多态」特性。每一个部首和基本汉字都是一个封装的「类(class)」,造字造词都是通过「继承」(最常用的是多重继承)来完成的,然后再通过声调完成「重载」以简化音系。
这些特性也让汉字成为了天生的跨学科文字,能以区区3500字便囊括表达万事万物能够有效解决了科学技术发展下单词量爆炸问题,让人最容易学到新事物和跨学科事物(大幅降低专业壁垒),让普通人也能快速高效读专业书籍。就这一点而言,汉字是可谓是“先天知识普惠圣体”啊,全民“通才”教育的至强神器,堪称最适合工业科技时代的文字之一·············
三、为何说汉字是“先天知识普惠圣体”,最适合工业科技时代的文字之一?
汉字底层架构设计好、「面向对象」的特点,也带来了以下的几个优势:
- 可通过高效组词的方式,解决词汇量爆炸问题(掌握3500字,百万词汇都不怕)
- 词组逻辑性好,容易理解(甚至“望文生义”也大差不差),大幅降低专业壁垒
- 缩写词更易理解
- “一字一音”的单音节模式,带来的更高效编码
- 具备“二维码”特性,便于认读(读得准+读得快)
- 形音结合,解决同音字问题
优势1:3500字走遍天下都不怕,有效解决词汇量爆炸问题,
所有语言都有一个特性,就是——你必须掌握它的基础量才能运用自如。比如汉语体系的字,英语体系的词。
那英文需要掌握多少词汇,才能满足基本生活需求呢?曾有专家专门整理的词汇频率表:
- 掌握2000英文单词,阅读覆盖率为75.89%
- 掌握9000英文单词,阅读覆盖率为98.10%
- 掌握24000英文单词,阅读覆盖率为99.65%,
也就是说,如果要满足98%的阅读覆盖率,就至少需要掌握9000个英文单词,要想满足99.6%的阅读覆盖率,就得掌握24000个单词,这个记忆的工作量着实不小啊·····
咱拿中文对比一下:(数据来自国家标准 GB2312-80《信息交换用汉字编码字符集*基本集》相关词频统计)
- 掌握1000个汉字,阅读覆盖率为91.91%,
- 掌握2000个汉字,阅读覆盖率为98.38%,
- 掌握3500个汉字,阅读覆盖率为99.82%,
- 当然学汉语还得记词组,但是负担会小很多,因为那些字你都已经认识了。在掌握了3500常用字以后,深入学下去基本都是“熟字新词”,扩大词汇量很容易。
举个例子:
- 牛:bull
- 肉:meat
- 牛肉:beaf
[牛肉]这个词, 汉语就是[牛]+[肉],表达直接准确。 而英语相对应的,应该是[bull]+meat。但这样组合,就成了一个多重音节的词汇。对于表达和理解都十分费力。于是,英语就直接新造了一个词beaf,这完全就是资源的浪费。英语不仅需要记住[牛][肉],还得记住[牛肉],而汉字系统只需要记住[牛]和[肉]这两个词汇就可以了。
而英文嘛,由于英文词汇之间无法建立像汉字词汇那样紧密的联系,就导致只要有一个新的概念在英语中出现,英文就必须设计出一种新词汇与之对应,而且很难在从字形看出彼此之间的联系,那要记的单词就多咯········
也就是说,对于英文零基础的中国人,要全职学习2年英文才能熟练掌握9000-1万个单词,雅思能考7-8分,这已经非常了不起啦,但去读报纸,小说,跨专业的学术文章时,会发现自己仍旧是个半文盲,还是满篇不认识的单词。
而中国人只要能掌握3500个汉字,以及相关词汇,就可以阅读《人民日报》而不会有多少生词。英语母语的人,得掌握24000个单词后, 才能实现差不多的读报效果。
而且,英文读者一旦遇上报纸中那0.35%不认识的单词,那体验就不那么美妙了。前面说过,英文单词不像中文,难以“望文生义”,碰上了,不是认识就是不认识,猜都没法猜。按照0.35%的频率,平均每阅读1000个单词,就有近4个单词不认识。一页office文档就500个英文单词,看小说时每页都会出现1-2个不认识的单词,而若这是关键词,是非常影响阅读体验的。
所以,就最终效果而言,英国人学习了2万单词,他能享受的信息还是有限的。中国人学习三四千汉字,就可以享受几乎全部信息。可谓是“学少而知多”,投资收益率高的惊人呀。
同时,英文等拼音文字还存在一个问题:词汇量爆炸
拼音/字母文字通常采用采用“构词法”,也就是”“一物一词”造词模式,导致一旦有了新事物,就得造一个新词汇来表述。这样就会直接导致一个严重问题,就是——随着时代的进步,新生事物的不断涌现,词汇总量会呈指数级暴增。你不要小看造新词带来的破坏,这个如同熵增一样,随着时间的推移会非常恐怖。
举个极端点的例子,
目前世界上有37万种植物。
拼音文字造37万单词也容易(字母排列组合下就行),但是这意味着你要学几十万个单词?
谁能学会?谁能记住?这还不是最操蛋的。
更操蛋的是,世界上有150万种动物。
更更操蛋的是,世界上有数百万种微生物。
这还只是生物这一门学科·······
如果每一个新事物都要造一个单词,那么造出来单词数量会吓死人,不可能有人认识。而且这些新词汇都需要学习者去重新记忆他们的拼写、音标、词义、时态变化,这样会造成英文词汇的学习记忆难度呈倍数级的上升!
而且这一问题随着时间推移,会显得越发突出。据《纽约时报》统计,莎士比亚时代的英语词汇量约为三万,但进入现代后,英文词汇总量已迅速增长至100万,且仍在持续增长中(英语每年还有1~2万新词产生),普通人一辈子也记不完。
人类有限的时间和需要掌握的基础词量形成强烈的矛盾。而汉语是被冲击最小的一种语言。原因就是原因就是汉语体系高效组合的先进性。一定数量的汉字会组合成无数的词语,不同的词语又会组合成不同的词组,生成表达准确含义的新词,避免了重新造词(神奇就神奇在你只需要了解最基本的汉字就可以懂得组合出的词的意思),从而提高了资源利用率。
其实咱们的老祖宗当年造字,也曾走上过“构词(字)法”这条歪路,给每个事物都造一个新的对应的字/词(主要是当时还在竹简上刻字的年代,为了竹简轻点、字数少点,故意搞出来的一大把单字)。
比如马,少壮的马叫驹,高六尺的马叫骄,青黑色的马叫骐,毛色黄白相杂的马叫駓......
后来老祖宗发现这样下去不是事呀。直接改用“组词法”来解决这一问题,比如将骐写成“青黑马”。从而避免这一问题,还可触类旁通,记忆量大减。
汉语里:
火箭,不就是火推动的箭么?
计算机,不就是会计算的机器么?
想象你拎起“脑”这个词,可以拎出一串“猪脑,羊脑,脑干,脑髓,脑细胞……”(这才是体现抽象和逻辑好吗?)
汉语这种强大的容纳、表述能力,可以利用不同组合就表达了不同事物,伟大而让人轻松。
英语呢?
有了火箭,就得产生个新词ROCKET;
有了计算机,就得来个COMPUTER。
记忆量大呀,挺累人的······
瞧瞧,这就是差距。
优势2:高效组词便于理解,大幅降低专业知识门槛,可谓是“先天知识普惠圣体”
由于英文等拼音文字的词汇之间无法建立像汉字词汇那样紧密的联系,也很难在从字形看出彼此之间的联系,这就给普通人的阅读理解带来巨大的麻烦与不便。
举个简单的例子:
有个经典笑话:那就是【绝大部分英国人不知道葡萄干是用葡萄制作的,也不知道葡萄酒是用葡萄酿的】,为啥呢?
因为这几个货的单词是这样的:
- 葡萄 grape
- 葡萄干 raisin
- 葡萄酒 wine
- 葡萄糖 glucose
光看字面和读音,你是无法得知这个单词与表述的东西有啥联系的。
再举个例子,为什么美国总统特朗普会给美国人民科普无人机没有人?
因为无人机英文是——drone,这五个字母组合在一起,实在是表达不出来——这东西里面没有人。
当然,也有读者会反驳——怎么会呢,这完全可以用词根词缀来解决啊。采取类似中文组词的方式,把词根作为构成单词的组件,利用词根来构成单词。这样即使你完全不认识这个新的单词,根据词根你可以猜出他的是个什么意思。
这看起来的确是好办法(毕竟中文就是这么干的),但是嘛·········有些事别人(汉字)做起来简单,你(英文)做起来就不一定简单咯······
拼音文字如果要走这条路,代价就是——这样单词会变得很长。因为字母/拼音文字,由于缺少单音节词,所以一般常用词只能使用双音节词。而要形成逻辑结构就必须大规模使用四音节词,这种完全用词根词缀组合来表达海量的关联信息就太冗长了,且非常低效。
一个有意义的词根起码也得三四个字母,两三个词根的组合,这个单词就奔着十几二十个字母去了。如果稍微复杂一点的新词,学会这个单词的发音怕是得去德云社了。
举个典型的例子:
英文:pneumonoultramicroscopicsilicovolcanoconiosis
英 ['nju:mənəʊ ˌʌltrə-ˌmaɪkrəs' kɒpɪk'sɪlɪkəvɒl'keɪnəʊ kəʊnɪ'əʊsɪs]
美 ['nju:mənoʊ ˌʌltrə-ˌmaɪkrəs' kɒpɪk'sɪlɪkəvɒl'keɪnoʊ koʊnɪ'oʊsɪs]
中文学名:肺尘埃沉着病(看着就像英文直译,有点拗口)
中文简称:肺尘病
pneumonoultramicroscopicsilicovolcanoconiosis是一个典型的词根组合词,由pneumono(肺部)-ultra(微)-microscopic(微小的)-silico(硅)-volcano(粉尘)-conio-sis(沉积状态)组合而成。大家可以照着音标念念,保证你会从此对英文的“优越性”佩服地五体投地!
所以现实中大家也基本不用这个词,而是使用silicosis来表述,但·····短倒是短了,可它也就失去了望文生义的功能,非专业读者看到这个词恐怕想不到这是一种肺部疾病吧?
英文、德文里面的不少超级长的单词,就用上述这个方法造出来的,发音有规律,看了就能读。就是长了那么“亿点点”,没人会用。
而且随着时间的推移与不断的造词,导致英文单词越来越长,目前8个字母以上英文单词已经达到50%以上,甚至30%单词超过12位字母。英文单词平均长度,正在无休止的变长!
为了避免这种低效,很多常用的词就只能抛弃逻辑结构,只能造无法联想记忆的新词来避免单词的冗长与笨拙(又回到“一物一新单词”),然后嘛·······就又跑回前面词汇量爆炸的老路了。
与拼音文字的屎山代码相比,汉字的底层架构的先进性简直爆表了啊····
词汇量爆炸还带了一个严重问题:专业词汇不断增多,造成专业隔离。
作为中国人:你认识3500个汉字基本上可以读书看报了。 作为英国人:你认识10000个英文单词还是个“半文盲”。
由于词汇量爆炸式增长,在英文实际应用中,每个专业都有大量专业英语词汇被发明出来,并需要专门学习,例如各种法律、医学、化学等专业都有数以千计的专有词汇,为此还不得不专门编纂(各学科的)专业英语词典。
基本上,任何一门学科都有专业英语,而且其专业英文字典往往都非常厚,如此一来,造成的后果就是专业英语只有专业的人才可以记忆和使用,导致英语的专业知识壁垒越来越高。而普通老百姓一旦遇到了哪怕稍微专业一点的学术技术领域名词,立马懵逼变文盲了。
不信?我随便贴个葫芦科植物+分类残页给英文和拉丁文,给大家看一看。
看汉字部分,中国小学生也一看就懂,大概猜测这个瓜是啥特点。 但是国外老百姓要是猛然撞见这些单词。。。。立马听了懵B,见了流泪——完全不懂啊!
再比如医学领域,普通人学专业医学英语基本上是从头开始,跟以前学过的英语完全不一样。
不信的话,最方便验证的一个方法,去医院,你去看各科室的牌子,看英文标牌,你会觉得大学英语四六级白学了。
- 在英美,如“四环素”、“变阻器”、“碳酸钙”、“高血压”、“肾结石”、“七边形” 、“五面体”等词汇,都只有专业人士才会。
- 一般人连他们的基本医学术语,如“酒精绵球”“血压计”都不会讲。脑水肿、胃溃疡等病名,说给普通人听也听不懂,
普通外国人进了医院就只能听凭医生护士忽悠,连自己到底是啥病都不明白。
尤其跨专业、跨学科阅读医学,生物,化学,法律的书籍文献时;众多的专业词汇,即使对于英语母语者来说,也是一辈子都没见过的生词,完全是在读天书一样。
这就导致英美等国出现一个严重问题——功能性文盲众多!
所谓功能性文盲,是指:“具有阅读、书写或计算能力,但是却缺乏利用这些能力来处理某些日常生活事务的能力”。“日常生活事务”指的是例如阅读报纸、查字典、读公车时刻表、理解说明书、填写申请书一类事情。
根据美国教育部和美国国家识字研究所2013年开展的【关于美国文盲人数的全面深入的调查】结果,美国有3200~5000万功能性文盲。
据调查结果,全美成年人中不怎么识字的占到了总人口的14%,也就是3200万人。全美21%的成年人有阅读困难,达不到五年级小学生所应有的阅读水平。而美国高中毕业生中20%的人连自己毕业证书上的单词都看不懂。
这其中很大一部分锅得扣在英语头上,英语“构词法”的特性决定了,如果他要想达到较为复杂的阅读或者书写,需要的基础词汇量太大,一到稍微专业一些的领域,别说是普通人了,就算是(非该领域的)精英的大学生,照样会立马化身文盲。
而汉语新词是以现有的汉字组合起来,即使是科技时代很多新的专业词汇,汉字也可以通过组合的方式表达其复杂的含义。而中文由字组词,只用4千汉字可代表各种科学技术单词,解决了科学技术发展下单词量爆炸问题。
由于汉字的单音节特性,又有丰富含义,使其可以很奢侈地使用逻辑结构来构建“词组”。汉语新词是以现有的汉字组合起来,即使遇到没见过的新词,只要认识组成词语的单个汉字,你基本都可以望文生义,这种逻辑结构,使得中文的联系性、逻辑性要优于字母语言。
举例来说,
以英语为例,水仙花叫narcissus,如果该儿童不知道这个单词,他就无法根据这个词本身的组成部分推知它是什么意思。因为这个词的组成成分没有太多的常用的可以令人一望而知是什么东西的那种成分。narc有‘缉毒探员’的意思,narco有‘麻醉、昏睡’的意思。但它们一方面不属于最常用的词类,另一方面也不能暗示这个词本身是一种花。 而且儿童还未必能把narc单独分离成一个词。
而在中国,当人民日报出现‘水仙花’这个单词时,中国儿童尽管也许不知道这究竟是什么花,但是他不需查字典就知道这是一种花。
水仙’两个字也是常用字,可以帮助+儿童判断这种花至少不是菊花、桃花、牡丹花及许多儿童已经知道的种种花卉。
也就是说,他即使不知道究竟是什么具体的花,他也已经知道
- 1)这是一种花;
- 2)这不是别的所有那些他已经知道的花。
知道什么是一种知识,知道什么东西不是什么,也是一种知识。如果将这个词中所含的信息量规定为3,则中国儿童已经不教而知其2,即67% 可是,对于一个印欧语系的儿童来说,恐怕就不是这样。如果将这个词所含的信息量照样规定为3,则西方儿童所能获得的有效信息量只能是0, 即0%
因此,印欧语系儿童面临的是一个完全的生词,不知道就不知道,必须作为一个完全的生词来记住。 当中国儿童看到‘水仙花’这个生词的地方的时候,他可能略一停顿,根据自己的理解便继续读下去,而印欧语系的儿童却会因为这个生词而完全给卡住了,因为他如果压根儿就不知道这个生词是什么意思,他就难以判断究竟它是一个具有关键意思的词呢,还是可以跳过不管的词。
这也是表音文字的缺点,就是出现新事物后,新发明的词汇意思和文字基本上没啥关联,你得不断扩展词汇量。而表意文字就是拿以前的文字凑合一下就是新词汇了,国内理工科专业课,谁见过需要专门去背词汇的?除非学的是英文教材。
实际上国内理工科本科学得认真点儿的,看大部分理工科研究生的论文,都能看懂个大概,跨专业交流,你说某人不知道其他专业的知识点是正常的,但要说完全听不懂人家说的啥,那倒是很罕见。
所以在中文互联网上,有时候双方互骂的时候会把对方比作小学生,甚至很多时候真的是小学生和大学生在网上辩论,虽然看起来这是个不好的行为,但反面说明了,中文的结构一旦理解,就非常容易突破功能性文盲的问题,即便是小学生,照样不存在能认字但无法用文字组成高级语句的问题。
因此,在英语国家,掌握1万单词的也就家庭主妇水平,真的什么工作也干不了,这才是对人最大的恶意,基本上你就被锁死在底层。没有2万个词别想读报,没有3万个词别想把周刊读顺(据美国联邦教育委员会调查,美国中学毕业生七成看不懂纽约时报),大学毕业10年后的职业人士一般都得懂8万单词,才能从事知识密集型的工作,例如学个开挖掘机,先要学一大堆单词,学个驾驶,先要学一大堆单词,根本不利于科技普及。
而在现代社会一个说汉语的人只需要掌握3500个字(占汉字总使用率的99%以上),就可以读书、看报、搞科研。哪怕给你篇论文或来本专业书籍读,也很难找出不认识的字,即便是不认识的专业术语,相当一部分都可以望文生义。所以中国以后在多专业的交叉领域挺有优势的。
英语等字母拼音文字所谓的简单是入门比较简单,但仅能对付日常用语,却禁锢了使用者的知识摄入量,抬高了学习知识的门槛,是不利于全民科技推广的一种语言。
但英语也有一个好处,就是筛选(隔离?)能力特别强,中文的普及能力导致了,天才和普通人在语言认知能力之间无法拉开差距,比如知乎常见的两个辩题:中药和西药,西方伪历论。
我们不讨论哪方是对的,但你会发现,你只要有高中以上的知识,加基本的拼音打字能力,加互联网搜索能力,你就可以参加这些比较高深的辩题,而这一点,在英语语境里面是绝对做不到的,高中层面的英语词汇,绝对不足以支持你发表一篇比较有说服力的网络回答。
也就是说,即便是在中文环境中烂大街的辩题,如果你放到英语语境中,你只会收获很多非常夸张的阴谋论,而非一个看起来还算正常的网络辩论,能完成正常网络辩论的,一定是有一定学历水平以上的人士才能参加的工作。英语在功能性上的隔阂,特别容易把专业人士从普通人里面筛选出来,而英语本身的特性就是是个大筛选器,普通人是跨不过去的。
这也就是为什么英语国家下,民众和精英之间的对立程度特别大,比尔盖茨这样的人哪怕真的去非洲普及疫苗,也会被整上各种疫苗阴谋论,因为英语体系下,普通人和精英甚至可以说是两个物种,比如我们常说,(中文)每个字我都认识,但连起来我就看不懂了,在英文的表达环境里面是,你说的每个字我都不认识,连起来我更看不懂。
在疫情期间,为什么很多政策在外国无法执行,很多人喜欢说外国人崇尚自由,这是一方面,另一方面恐怕是,外国的普通人根本听不懂精英到底在说些什么。
同时,精英和民众隔离会导致他们的社会科学脱离底层,变成一种纯粹的精英游戏,很多时候你发现外国的各种民主制越搞越乱,其实本质也就在此,语言间的功能性隔离是跨不过去的,精英说的东西很多普通人一脸蒙,根本理解不了,比如上次脱欧,很多人都是等脱欧投票结束后才去查字典了解情况是什么,单纯的演讲根本传达不了足够的信息给普通人做判断,最终是精英获利,但责任甩给了普通人。
这点中文会有很大优势,民众能说很多只有外国精英才会说的词汇,而且能理解其意思,这就给上下信息流通带来很大便捷。
某程度上来说,汉字是可谓是“先天 知识普惠圣体”,因为汉字天生就是属于跨学科的文字,让人最容易学到新事物和跨学科事物。让普通人也能快速高效读专业书籍,这才是最大的普世价值。
此外,汉语汉字这个特点也给中国工业/科技发展带来一个巨大优势——提供了一个超大规模的“通才”储备库
中文在承载和传播信息方面的优势和效率,使得几乎每一个中国人都能成为“啥都知道一些”的“通才”——这其中的大部分甚至都能达到基层从业人员的水准。
可以这么说,一个中国人,只要高中毕业,不考虑准入门槛,只说实操水平,“文”能去当文员助理,“理”能去当科研民工刷试管,“工”能去厂里下流水线开机床,“医”能揣一本《赤脚医生手册》救急,“兵”能去读战术手册挖战壕打炮。
这就是为什么我对中国的世界工厂地位有信心。你在别的地方找不到这么大规模的“通才”储备库。你在别的语系,语种,语言环境下,找不到这么高效率的“基层从业人员培养体系”。这才是“世界工厂”的核心竞争力支撑啊·······
优点3:中文缩写词更易理解
由于汉语具有远超其他语言的庞大单音节词库,因此在对特定名词进行缩写的时候,就更具有无可比拟的优势。表音语言在对名词缩写时,一般只能取首字母,这非常容易引起歧义。而中文可以直接取整个名词中比较具有代表意义的字,可以极大地消除歧义。
比如美国人说“国安局”就是“NSA”,只看这三个字母,不结合任何语境,大概很难猜到是什么意思;同样的,哪怕有语境,同样的缩写表示的意思可能会很多。但是中文缩写,基本上歧义率很低,对语境的要求弱,除非涉及高度专业性内容,不然读者一般都能看懂什么意思。你说个国安局,人即使不知道全称,国,安,局,三个字都已经涵盖了相关的意思。FBI这些不冷门的还能通过信息了解一下,那些冷门的怎么办,比如各种医学疾病的缩写,各种不出名的部门。在这些东西上就很容感知知道中文有多么优秀。
换句话来说,字母文字适合扫盲,但很难保持文化延续和科技交流。而汉语等意音方块字在历史文化延续传承和科技交流上简直不能再赞。
看大家回复挺多的,再来吐槽一下英文的缩写!
- 无人驾驶飞机,简称 无人机。英文Unmanned Aerial Vehicle,简称 UAV,百度百科有7个义项。
- 平视展示系统,简称 抬头显示,或抬显。英文Head Up Display,简称HUD,百度百科只有1个义项。
- 西北工业大学,简称西工大。麻省理工Massachusetts Institute of Technologya,简称MIT,百度百科有8个义项。
- 中国银行,简称中行,这不会有歧义吧?英文简称BOC,百度百科有6个义项。
- MBA,百度百科6个义项……
- PM,百度百科25个义项..
- USA,百度百科3个义项……
看出来了吧?英文缩写的两个问题,一是含义完全丢失,二是重复率太高。这导致了一个问题,非专业人士,或者不联系语境,根本不知道缩写是什么。而汉语的简称通常都能保留下一部分含义,靠猜经常能猜出来,即使猜不出来,解释一遍也基本能记住了。
呵呵,大家看,中文相比英文的优势是不是就充分体现出来了? 从这可以看出,类似长度的组合词,中文一般都要比英文的逻辑要更清晰。这不简简单单是是效率的问题,而更是人民接受信息能力的问题。组词方式越短、越有逻辑性,学习就越简单。整个社会效率就越高。
汉字确实比字母难学一些,然而每个汉字的含金量非常高,每个人只要掌握三千常用字,就可以迅速地掌握庞大的词汇量,就能顺利阅读包括专业论文的各种文献(但是里面要是引用了大量英文可就看不懂了),这是中国教育文理科都能互相理解和挑剔、自学成才率高、平均智商高的一个重要因素。这也是我们的母语为每个人提供的学习便利。
优点4:单音节结构促进高效编码与传输
汉字是高度单音节化,发音趋于“一字一音”。这相对于拉丁文的多音节体系,汉语的单音节体系在传输效率方面具备很大的优势。
从信息论角度来考虑,编码是很有学问的。举个例子。我们知道计算机传输信息,实际上传输的都是0和1。那么,如果我们传输的各种信息出现的频率不一样高怎么办?答案是,出现越频繁的,编码越短。这样就能提高总体效率。
比方说,我们只有四种信息要传递。按一般的想法,自然是把这四种信息分别用00、01、10、11来表示。每个信息都需要用两位二进制数来表示,也就是说传播100条信息需要发送200个二进制数。但是如果其中有一种信息出现的概率是91%,而另外三种分别是3%。那么就可以使用另一种编码方式:1,01,001,000。平均下来这种传播方式传播100条信息需要发送91+2*3+3*3+3*3=115个二进制数。显然比前面那种效率要高。
因此,你会发现各个语言中越常用的词,一般就越短。英语里,我、你、他、她、我们,都是单音节词。
但是,单音节终归是有限的,因此大多数意思仍需通过双音节或多音节词来表达。这时候汉语的优势就显示出来了。由于汉语所能承载的单音节词比其他语言多几倍,所以在构成多音节词的时候就可以很奢侈地使用逻辑结构。这种逻辑结构,使得中文的联系性、逻辑性要优于一般语言。而与语音脱离的文字体系,则进一步支撑了这种结构,方便了记忆。
我们来举一个非常简单的例子。普通中国人的初等数学能力往往超过欧美。这并不简简单单是教育的问题。更关键地,这是中文对数字命名结果。
中文由于汉语在单音节词上无可匹敌优势,可以极度奢侈地给予每一个数字一个单音节发音。没有音调的语言,是不可能做到这一点的,因为还有其他更常见的东西需要占用宝贵的单音节词的资源。
人对数字的短期记忆,实际上是对数字发音的记忆。研究表明中国人一次能够记住的数字长度要高于英语母语国家。而在计算中,你需要短期记忆很多数字,这一点就天然地给予了中国人绝对优势。
更进一步地说,中国的数字系统均基于单音节,这使得我们能够采用高度逻辑化的方式构建完整的数字体系。九十六,就是九个十加一个六。英语是“九十”(与九和十都不同的特殊词)加一个六。法语是四个二十加十六。汉语种最简洁而最富逻辑的结构,在世界各种主要语言中是独一无二的。
为了直观对比,可以看看下图,了解下各国语言是如何表达“97”这个数字的····
(吐槽:丹麦语 97 = 7+(-(1/2)+5)*20,这个读法属实有毛病啊··········)
九九乘法口诀表,就是构建在这个基础上的。其他国家的儿童如果想背下来这张表,可以说比中国儿童难了几倍。语言上具备了这种优势,中国人的初等数学怎么能不好?就初等数学上的优势,乘以初等数学在整个社会中的价值,这就是中国的根本竞争优势之一。
当然,需要指出的是,在较长单词的构成上,表音文字同样展现出一定的逻辑结构,这是语言发展过程中的必然现象。比如说英文nephritis,就来源于希腊语中一个读音类似的词,而希腊语中的那个词则来源于希腊语Nefros和itis,也就是“肾”和“炎”。不过很抱歉的是,由于表音能力差,这些很常见的意思必须要用这么多音节来表达。这就远不如中文简简单单的“肾炎”了。
优点5:信息熵高
前面已经说过,不再赘述
优点6:具备“二维码”特性,便于认读(读得准+读得快)
人是用视觉,或者说图案来接受信息的,汉字的图案本身就是信息,而字母语言的图案没有信息,排列组合才是信息。
所以,本质上来说,拉丁系的表音文字(拼音)是一种一维线性符号(条形码),只有左右顺序有意义。
以汉字为代表的方块字,则是是二维码,除了左右,还有上下的排序。汉字能够在平面上沿竖直和水平两个方 向延伸,所以一个汉字往往就能代表很复杂的意思,表达同样的信息,汉字也更省空间。汉字在更加充分地利用了人类的视觉系统,这使得读取速度大为加快。
此外,因为汉字充分的利用了平面的二维性,表达同样的信息时,在横向长度上比表音文字短。比如一个音节用一个汉字就够了,但是表音文字就要用几个符号把他的音素表示出来。而我们在阅读时同一时间视觉只能集中在一定的范围内,在这个范围内,我们可以看到汉字表达更多的意思。这也很大程度上提升汉字的阅读速度。
优点7:形音结合,解决同音字问题
汉字由于是意音文字,还具备一大优势,那就是避免了同音字太多导致无法识别的问题。
对付《施氏食狮史》、《季姬击鸡记》这种同音文糊毫无压力(据说是当年某反对汉字拉丁化的学者撰写的小文,可自行百度)
《季姬》
寂,集鸡,鸡即棘鸡。棘鸡饥叽,季姬及箕稷济鸡。鸡既济,跻姬笈,季姬忌,急咭鸡,鸡急,继圾几,季姬急,即籍箕击鸡,箕疾击几伎,伎即齑,鸡叽集几基,季姬急极屐击鸡,鸡既殛,季姬激,即记《季姬击鸡记》。
《施氏食狮史》
石室诗士施氏,嗜狮,誓食十狮。施氏时时适市视狮。 十时,适十狮市。是时,适施氏适市。施氏视十狮,恃矢势,使是十狮逝世。氏拾是十狮尸,适石室。 石室湿,施氏使侍拭石室。石室拭,施氏始试食十狮尸。食时,始识十狮实十石狮尸。试释是事。
而韩国在废除汉字后采用谚文(纯拼音文字),导致缺乏形旁指示,大量的同音字无法区分。这就造成一系列的社会问题。例如韩国就出现过那种把防水材料搞成吸水材料的笑话(韩语里“防水”和“放水”读音一致,结果建筑公司错误理解了图纸)。
四、汉字,我们文化的根!
汉字是音形分离的,所有方言发音可以千奇百怪,但是写成文字一模一样,防止了形随音成在大地理区间和超长时间下形成新的语言,保持了语言的稳定不飘移分裂。
今天一个随便的中学生,就可以直接阅读,先秦诸子百家的著作,他可以自在地跨越千年,直接和历史上的先贤进行思想上的对话。
因为什么呢?
因为自秦以来,华夏便“书同文”了,每一个汉字都被赋予了一个相对稳定的意思。即便我们相隔千年,即便我们地域不同,口音各异,我们都可以自然而然地阅览秦文汉赋唐诗宋词元曲明清小说。
但是如果是一个英国人,他要读四百年前英文版圣经KJV 1611(King James Version,简称KJV 1611,英国国王请来诸多学者翻译的第一版英文圣经,最后成书于1611年)的话,就会发现,靠,这都写的什么呀,好古老的英文, 表示看不懂, 或者能看懂一点也懒得再往下看了。(KJV1611 最难辨认的不是他的字体, 就26个字母, 字体你习惯就好了。 最难辨认的是很多词的拼法和句子的用法, 比较奇怪。),如果是更久远的古英语的话,那读起来就更牙疼了。
当然,这都还算好的,更为可悲的是文字传承彻底断绝,儿孙不识祖宗文,例如越南。
关于越南文字拉丁化的后果,大家可以看看知乎答主Yves S亲身经历的故事:
假如汉语完全拉丁化或是注音化后,会发生什么事情?在二十一世纪初的某个秋天,五个中国学生在法国博物馆里,透过几张泛黄的宣纸,了解到了一桩一百多年前发生在越南的案子。
而同行的越南同学们,由于废弃了汉字、喃字,改用拉丁字母注音,再也无法读懂自己祖先留下典籍,
他们再也无法知道这些文字后面的恩怨情仇、悲欢离合。
他们也不能知道主人公的平凡或伟大、卑鄙或高尚。
他们可能对其视而不见。
运气好的话,他们或许会说:
“这看起来像是汉字/喃字。”
中国人以独特的历史和大一统的思想,用特有的方块字维持了这样一个特有的国家形态,在所有原生文明里面,唯独中国汉字靠着这种方式传承至今,这个不得不说是伟大的。
埃及、苏美尔等民族留给世界的是希腊神庙的源头、所有字母的起源、甚至过半思想的启蒙,但是我们的汉字却给华夏留下了千余年的国祚。
大风泱泱,大潮滂滂。炎黄八百代承袭,中华五千载变迁。
龙凤为图,汉字为记。文明圣火,千古未绝者,唯我无双!