Mojibake: علامت های سوال ، شخصیت های عجیب و غریب و سایر مسائل.
ترجمه نرم افزار بهترین سایت ترجمه
فیس بوکتوییترLinkedInپیوند را کپی کنید
آیا تا به حال هنگام مشاهده محتوا در برنامه ها یا وب سایت ها به زبان های دیگر ، شخصیت های عجیبی مانند این موارد پیدا کرده اید؟ اینها چیست و از کجا آمده است؟
یافتن این شخصیت های عجیب و غریب ، ظاهراً بی جا به احتمال زیاد نتیجه مشکلات رمزگذاری است و می تواند سردرد باشد. با عبور محتوا از مرزها ، سیستم عامل ها و زبانها ، این امر بارها در قسمت محلی سازی رخ می دهد.
رمزگذاری کاراکتر
همه چیز در کامپیوتر یک عدد است. اگر می خواهیم روی کامپیوتر حرف ولنی نیوز داشته باشیم ، همه باید توافق کنیم که کدام عدد با کدام حرف مطابقت دارد. این “رمزگذاری کاراکتر” نامیده می شود.
رمزگذاری نویسه به نحوه اختصاص “مجموعه کاراکتر” برای زبانهای مختلف به رایانه اشاره دارد. آنها در “صفحات کد” یا “نقشه های شخصیت” تعریف شده اند. این جداول کاراکترها را با توالی های خاص یک و صفر ترکیب می کنند.
ساده ترین رمزگذاری ASCII نام دارد. نویسه های ASCII فقط با استفاده از 7 بیت ذخیره می شوند ، به این معنی که فقط 2 کاراکتر 7 7 = 128 وجود دارد.
ASCII برای رمزگذاری کاراکترهای اساسی به انگلیسی / لاتین بسیار عالی عمل می کند ، اما بیش از 128 حرف در جهان وجود دارد!
با روبرو شدن زبان ها و رایانه های آسیایی همه چیز پیچیده شد. در بعضی از زبان ها ، به عنوان مثال چینی ، شما تا 60،000 حرف متفاوت دارید. اینجاست که طرح های رمزگذاری 16 بیتی ظاهر می شوند و به شما امکان ذخیره حداکثر 64000 کاراکتر را می دهند.
به عنوان مثال ژاپن از ASCII استفاده نمی کند و به سادگی رمزگذاری های خود را ایجاد کرده و حداکثر 4 تا همزمان دارد. همه آنها با یکدیگر ناسازگار هستند. بنابراین ، اگر مثلاً سندی را از یک کامپیوتر ژاپنی به یک رایانه دیگر با رمزگذاری نادرست ارسال می کردید ، متن خراب می شود.
ژاپنی ها اصطلاحی برای این پدیده دارند: موجی باک
برخی از زبانهای تحت تأثیر موجیبک :
عربیسوال Mojibake gpi_mojibake شخصیت های عجیب و غریب و سایر موارد را نشان می دهد
فرانسوی
انگلیسی: ممکن است در بعضی از نویسه ها مانند em dashes (-) یا dashes (-) وجود داشته باشد. سایت ترجمه رایگان به ندرت بر شخصیت های الفبا تأثیر می گذارد.
ژاپنی
چینی: در چینی ، این پدیده 亂碼 (Luàn mǎ) یا ‘کد آشفته’ نامیده می شود.
زبانهای مبتنی بر الفبای سیریلیک: موجی بیک همچنین روی زبانهایی مانند روسی ، اوکراینی ، بلاروسی یا تاجیکی تأثیر می گذارد. در زبانهایی مانند بلغاری ، موجیباک همچنین به عنوان “الفبای میمون” ترجمه می شود و در صربی به “زباله” معروف است.
لهستانی
زبانهای اسکاندیناوی: موجیبک بر زبان های اسکاندیناوی تأثیر می گذارد گرچه معمول نیست. فنلاندی و سوئدی از الفبای مشابه الفبای انگلیسی با سه حرف جدید استفاده می کنند: å ، ä و.
اسپانیایی: Mojibake در اسپانیایی می تواند به عنوان “تغییر شکل” ترجمه شود و همان اتفاقی که در زبان های اسکاندیناوی می افتد: اسپانیایی از 26 حرف استاندارد لاتین استفاده می کند اما در عین حال شامل حروفی مانند ñ ، لهجه ها و گاهی ü است. این نویسه ها ، زیرا در ASCII در دسترس نیستند ، به اشتباه نمایش داده می شوند.
نمونه اسپانیایی متن اسپانیایی: علامت گذاری
رمزگذاری پرونده تنظیم در مرورگر نتیجه
ویندوز -1256 ISO 8859-1 Se أ ± alizaci أ³ n
ISO 8859-1 مک رومن Seà iz alización
UTF-8 ISO 8859-1 Seöalización
UTF-8 مک رومن Se • alizaci³n
یونیکد برای نجات
سرانجام ، کسی به اندازه کافی کافی داشت و تصمیم گرفت استانداردی ایجاد کند گوگل ترجمه تا تمام استانداردهای کدگذاری را متحد کند. این استاندارد Unicode نامیده می شود و یک رمزگذاری واقعی نیست بلکه یک مجموعه کاراکتر است.
یونیکد دارای کد کد 1،114،112 موقعیت ممکن است. برای زبانهایی مانند عربی ، روسی ، ژاپنی ، کره ای ، چینی ، زبانهای اروپایی و غیره و حتی برای نویسه هایی که وجود ندارند کافی است. با استفاده از Unicode می توانید سندی را به هر زبانی بنویسید.
UTF-8 یا UTF-32؟
سوال UTF-8 gpi_mojibake شخصیت های عجیب و غریب و سایر موارد را نشان می دهد
UTF-32 یک رمزگذاری کاراکتر یونیکد است که برای هر کاراکتر از یک عدد 32 بیتی استفاده می کند. این بسیار منطقی است ، اما فضای زیادی را هدر می دهد. یک سند انگلیسی 4 برابر بیشتر از حد لازم را اشغال می کند.
چرا در بسیاری از مواقع که فقط از 128 مقدار اول استفاده خواهیم کرد ، برای داشتن 1،112،064 مقدار به چنین تعداد زیادی نیاز داریم؟
UTF-8 “رمزگذاری طول متغیر” است. این بدان معناست که بیشتر اوقات ، هر کاراکتر فقط 8 بیت را اشغال می کند ، اما در صورت لزوم می تواند تا 32 بیت گسترش یابد. این سیستم بدون اتلاف فضا می تواند از هر کاراکتر یونیکد پشتیبانی کند و همین امر آن را به محبوب ترین رمزگذاری کاراکتر تبدیل کرده است.
نتیجه
امروزه بیشترین استاندارد مورد استفاده UTF-8 است زیرا می تواند هر کاراکتری را رمزگذاری کند و با ASCII سازگار است. علاوه بر این ، UTF-8 از نظر فضا نسبتاً کارآمد است و همین امر آن را برای بیشتر موارد به کارآمدترین استاندارد رمزگذاری تبدیل می کند.
اطمینان از اینکه برنامه شما “محلی سازی آماده است” در توسعه برنامه هایی که به راحتی می توانند بومی سازی شوند کلیدی است. پشتیبانی از رمزگذاری نویسه های مختلف و انتخاب رمزگذاری صحیح ، دو مرحله مهم در پروژه های محلی سازی است ، یا برای وب سایت ها و یا محلی سازی نرم افزار.
منابع GPI بیشتر در مباحث ترجمه نرم افزار
Globalization Partners International (GPI) به طور مکرر با طراحی ، توسعه و استقرار وب سایت چند زبانه به مشتریان کمک می کند و مجموعه ای از ابزارهای جهانی سازی را برای کمک به شما در دستیابی به اهداف پروژه بومی سازی وب سایت چند زبانه ایجاد کرده است. می توانید آنها را در بخش ابزارهای ترجمه و پورتال های وب سایت ما جستجو کنید. همچنین ممکن است برخی از مقاله ها و پیوندهای زیر مفید باشند:
بهترین روش های بومی سازی نرم افزار
نقش XML در محلی سازی
محلی سازی صفحات انجمن در Salesforce: قسمت 1
شبه محلی سازی چیست؟
مجموعه ابزار چند زبانه برنامه برای Visual Studio 2012 – ویندوز 8