联合国文件真的是中文版本的最薄吗?
问题只问了薄厚,那只需要统计一下文档的页数就好了。
我统计了2006年以来的所有联合国安理会决议文件,共计1099份。先把结论写在前面:除去有并列最薄的文件后,绝大部分文件,中文是最薄的。
中文 页数最少的决议有 391 份。
英语 页数最少的决议有 7 份。
西班牙语 页数最少的决议有 1 份。
其余的,页数一样或者有并列最少的页码。
有哪些文件不是中文最薄呢?
决议 1803 中页数最少的语言是 英语,总页数为 7。(内容是伊朗核问题,内容大概是继续要求伊朗暂停铀浓缩等活动)
决议 1877 中页数最少的语言是 英语,总页数为 4。(有关卢旺达的问题)
决议 1932 中页数最少的语言是 西班牙语,总页数为 3。(这份西班牙语的文本,附件没有单起一页,成了唯一一个中英以外的选手)
决议 1993 中页数最少的语言是 英语,总页数为 2。(关于国际法庭的)
决议 2231 中页数最少的语言是 英语,总页数为 104。(这份是伊核问题最主要的决议之一,同时也是我统计的所有决议中最长的一篇。中文108页)
决议 2260 中页数最少的语言是 英语,总页数为 1。(科特迪瓦问题)
决议 2268 中页数最少的语言是 英语,总页数为 2。(叙利亚人道问题)
决议 2533 中页数最少的语言是 英语,总页数为 1。(叙利亚人道问题)
其余有意思的发现
各个语言在联合国安理会决议中的平均厚度
阿拉伯语:6.29 页
中文:4.54 页
英语:4.97 页
法语:5.47 页
俄语:5.99 页
西班牙语:5.49 页
如果页数能代表语言简略程度,那么第一名是中文,第二名是英文,之后分别是法语,西班牙语,俄语,阿拉伯语
领先最多的一篇决议
决议2368,中文28页,英文33页,比英文少了5页(伊黎伊斯兰国(达伊沙)和基地组织制裁名单)
如何得出此结论的呢?
联合国的文件都在官网上放着,可以抓下来,统计一下的
按理说这么久了应该有人做个爬虫把联合国各个决议爬取下来啊,居然没人做,那就我来试试吧
前面有些答案提到联合国部分机构翻译的水平不一,所以就先选个大机构,安全理事会,选取近两年的各项决议看看。这些决议有些能直接调动维和部队,应该不会胡乱翻译。
各项决议都在这里下载:
比如今年这个2751号决议,提供了六种语言的下载,分别为阿拉伯语,中文,英语,法语,俄语,西班牙语(阿拉伯语我不认识,不知道是不是这个)
下载的文件格式为PDF,打开后大概是这样的:
决议的具体信息对于我们的答案没有什么帮助,有帮助的是下载链接:
https://daccess-ods.un.org/access.nsf/Get?OpenAgent&DS=s/res/2751(2024)&Lang=A
https://daccess-ods.un.org/access.nsf/Get?OpenAgent&DS=s/res/2751(2024)&Lang=C
https://daccess-ods.un.org/access.nsf/Get?OpenAgent&DS=s/res/2751(2024)&Lang=E
https://daccess-ods.un.org/access.nsf/Get?OpenAgent&DS=s/res/2751(2024)&Lang=F
https://daccess-ods.un.org/access.nsf/Get?OpenAgent&DS=s/res/2751(2024)&Lang=R
https://daccess-ods.un.org/access.nsf/Get?OpenAgent&DS=s/res/2751(2024)&Lang=S
分别是阿拉伯语,中文,英语,法语,俄语,西班牙语的文件,注意到,2751是决议编号,后面的Lang=啥就是语言版本。有规律就好办了,写一段Python程序,将这些报告逐一下载下来就好啦
但是代码我肯定是懒得写的,交给AI代劳啦,联合国的服务器太烂,我直接6线程同时下载,两分钟就下载完成了2024年的所有决议。
我这网络质量不错,偶尔有下载失败的,手动下载一下就行,下载了这么多,就出现了两次
只下载到了2006年的数据,为什么呢?因为宿舍熄灯了
接下来是数据分析的内容,首当其冲的就是页数了。Python有个库,PyPDF2,直接这样就可以输出PDF的页数了:
reader = PdfReader(pdf_path)
page_count = len(reader.pages)
下载的时候,我就将文件重命名为决议号+语言的文件名形式了,并将同一决议号的文件放在了同一个子文件夹中,很容易分辨出来哪几个文件是属于同一份决议
接下来,写个循环,遍历读取所有文件夹中的文件件,依次比较页数大小。如果有并列第一的,就会返回超过1个的元素,排除一下就行,最后即可得出此结论。