ما رأيك بموضوع ترميز المحارف العربية

تحياتي...
أنا مهتم بموضوع الترميز العربي و أريد معرفة رأيك بهذا الموضوع.
فمن المعروف وجود العديد من طرق الترميز العربي الأكثر شهرة بينها ثلاثة:
صيغة الايزو 8859 الصادرة عن المنظمة الدولية للمعايير و التي كانت المعيار العربي الأساسي الصادر عن المنظمة العربية للمقاييس و المعايير ASMO-708 و هو معيار 8 بت و الذي اعتقد أنه نغس المعيار الذي تبناه اليونكس و الماكنتوش.
بينما تأخرت ميكروسوفت قليلاً في تبنيه حتى الاصدارة الثالثة من الاكسبلورر في مقابل انحيازها لمعاييرها الخاصة: القديم الخاص بالدوس DOS-720 و الجديد -نسبياً- الخاص بالويندوز cp1256 حيث أن معيار الويندوز -و الصادر عن شركة ميكروسوفت- هو المعيار الأكثر انتشاراً في الانترنت و قد أصبح المعيار القياسي de facto رغم أنه غير صادر عن هيئة دولية (شرعية) رغم وجود بعض المواقع العربية التي تصر على المعيار الدولي كجريدة السفير البيروتية و جريدة الكفاح العربي.

المشكلة هنا هي أن هذه المواقع (خفية) بالنسبة لمحركات البحث، حيث لا أعرف كيف يمكن البحث عن نصوص فيها.

و هناك المعيار الثالث و هو المعيار الذي أعتقد أنه الأفضل من الناحية التقنية و هو معيار اليونيكود و لكني إلى الآن لم أجد موقعاً عربياً واحداً يستخدمه، رغم أنه الحل الوحيد لكتابة نصوص تحتوي مجموعة من اللغات معقدة الترميز كما أعتقد.

و ما أريد معرفته:

 


أولاً: هل لديك مقالة من كتابتك أو من قراءاتك تناقش هذه القضية؟ إن لم تكن موجودة فهل أطمع بمقالة متكاملة منك تناقش هذه القضية -إذا سمح وقتك و كنت مهتماً بالمسألة طبعاً-
ثانياً: ما رأيك بالترميز الأنسب للعربية على الانترنت (أعتقد إن جوابك واضح بسبب استخدامك لترميز الويندوز في موقعك و لكني أرغب بمعرفة حيثيات قرارك)
ثالثاً: ما هي الطريقة المثلى للبحث عن نصوص عربية على الانترنت إذا كانت مرمزة بطريقة مختلفة (الأيزو مثلاً) و لنأخذ البحث في جريدة السفير البيروتية مثلاً، هل يمكن استخدام غووغل أو غووغل العربي مثلاً للقيام بهكذا بحث؟

و شكراً لك.

شادي حجازي

أهلا بالعزيز ابن مكرم ناقشت هذه القضية سابقا مع فريق www.aw3.org ومع أنس طويلة مدير www.linuxsyria.org، ولكن لم ندون النقاش. ربما تجد نقاشا مدونا في أرشيف فريق www.arabeyes.org أعتقد أن الترميز الأنسب هو الترميز الذي يحقق لك كل أهدافك، ويوصل ما تريد أن تقوله إلى أكبر عدد ممكن ممن يهمهم موضوعك، سواء وافقت أو لم توافق عليه أية جهة معيارية. على الإنترنت هناك عدة عوامل تلعب دورا في اختيار الترميز المناسب. - سهولة التأليف Authoring: يتعلق الأمر ببرامج التأليف التي تتوفر لديك. إذا كنت مثلي تستخدم Windows وبرامج OpenOffice, فلديك عدد كبير من الخيارات المتاحة. أنا مثلا أستخدم EditPlus لتحرير الصفحات، وعندما أحتاج كتابة بالعربية يمكن أن أستخدم المفكرة بعد تغيير نوع الخط إلى Courier New. في الحالتين ليست لدي أية مشكلة تنسيق لأنني أضبط خيار الترميز الافتراضي للنظام على الترميز العربي. - سهولة النشر Publishing: بعض الناس تفضل استخدام برامج تدير عملية النشر الالكتروني من التأليف إلى النشر على الإنترنت. في هذه الحالة قد يضطر الناشر لاستخدام ترميز معين يفرضه عليه برنامج النشر الالكتروني الذي يستخدمه، وأعتقد أن هذه هي حالة الجرائد التي ذكرتها، يعني الموضوع ليس توافقا مع المعايير بقدر ما هو نتيجة لاستخدام نظام ماكنتوش في تحرير الموقع. - كفاءة العرض وقدرة أكبر عدد من الناس على الوصول إليه: من هذه الناحية لا توجد مشكلة كما أعتقد. كل المتصفحات تدعم كل خيارات الترميز المتاحة. - مدى توافق الترميز مع محركات البحث: آه، هنا المشكلة الكبرى. قليلون جدا هم الأشخاص الذين لا يرغبون أن تسجل مواقعهم في محركات البحث (ومنهم بيل غيتس)، وبالمقابل، محركات البحث لا تنقصها المواقع، وإذا لم يعجبها الترميز، فلن تسجل الصفحة. إذا أردت أن يبحث الآخرون عنك في محركات البحث، استخدم ترميزا تقبله محركات البحث. من وجهة نظر الباحث عن المعلومات، لا يهم الترميز بقدر ما يهم الوصول إلى المعلومة. ولذلك فهو مضطر لبذل كل جهد للوصول إليها. طبعا من الخطأ أن يكلف الناشر من يبحثون عنه جهدا إضافيا كما يفعل محررو السفير والكفاح العربي، وربما يعكس هذا ضعفا في التخطيط أو في استيعاب أسس النشر على الإنترنت. الآن، إذا أردت أن تبحث عن معلومة أنت متأكد أنها موجودة في مخزن معلومات مثل محرك البحث، ولكن لا تعرف الترميز الذي يجب صياغة معيار البحث به. في هذه الحالة عليك أن تجرب. وإذا تكررت هذه الحالة يمكنك كتابة برنامج صغير (دلفي أو VB) يأخذ منك معيار البحث، ويترمجه إلى كل أنواع الترميز الممكنة، ثم يفتح لك صفحات متصفحك المفضل ويطلب البحث عن المعيار بالترميزات المختلفة. بعض المتصفحات تدعم تغيير الترميز وتقوم آليا بترجمة النص الذي يدخل بترميز معين إلى الترميز المكافئ الذي تفهمه مخدمات الويب، ولكنني شخصيا أجد تغيير الترميز من المتصفح عملا مثيرا للأعصاب. أخيرا، لماذا Unicode? إذا كنت تريد استخدام أكثر من ترميز (إضافة إلى الترميز الأساسي) على حاسبك، فالمشكلة أن ويندوز يجبرك على اختيار ترميز واحد فقط وعلى إعادة الإقلاع عند تغيير هذا الترميز. يعني مثلا عندما يقرأ والدي موسوعة الشعر بالعربية، ويريد أن يسمح لأخي أن يدرس الألمانية، يجب تغيير الترميز وإعادة إقلاع الحاسب. صمم Unicode ليكون حلا لهذه المشكلة. ولكن لكي يكون فعلا حلا لها. يجب أن تبنى التطبيقات وفق Unicode. كم تطبيقا تعرفه يدعم Unicode? لائحتي ليست طويلة، وبرامجي التي أستخدمها عادة لم تكتب باستخدام Unicode ولذلك فوجوده مثل عدم وجوده لدي. الخلاصة: أنا أستخدم cp1256 وأدعوكم لاستخدامه، فهو متوافق مع محركات البحث، ويعمل على كل أنظمة التشغيل التي اختبرتها خلال الأعوام الماضية، وكل البرامج العربية التي أعرفها (بما فيها النسخ الجديدة من برامج شركة صخر) تتعامل معه إذا كان مفعلا على النظام. وعندما تضمنون أن كل برامجكم تعمل بنظام محارف Unicode، يمكنكم التفكير باستخدام Unicode على حاسبكم، ولكن حذار من استخدامه في برامج قد تعمل على نظام تشغيل لم يثبت معه دعم Unicode فتظهر إشارات الاستفهام البغيضة بدلا من النصوص.

ملاحظة أخيرة جديرة بالاهتمام لفتت نظري و أنا أبحث في موقع السفير: أنهم قاموا منذ سنوات باختبار النشر بترميز الويندوز، و ما يزال من الممكن الاطلاع على تلك التجربة على الوصلة http://www.assafir.com/win/today/front/summary.html مما يرجح عندي أن القرار قد لا يكون سببه تقنياً و حسب.

In reply to by ابن مكرم

بالنسبة لمحرك البحث، الصفحة هي مجموعة من البايتات المتتالية. بعض محركات البحث تتشاطر، فتحاول أن تمكنك من البحث في الصفحات المكتوبة بلغة أو لغات محددة، وفي هذه الحالة يتم تضييق نطاق البحث. ولكي تتمكن محركات البحث من تنفيذ البحث بلغة معينة، يجب أن تعرف اللغة التي كتبت فيها كل صفحة يضمها الأرشيف. وهكذا، لدى محركات البحث رؤية خاصة لموضوع اللغة. وعندما تجد موقعا لا تعرف اللغة التي يستخدمها، يمكنها أن تهمله، أو أن تضمه إلى نتائج البحث عند البحث في كامل محتوى الأرشيف. محركات البحث أيضا تهمل بعض المواقع، مثلا المواقع التي لا تتوافق مع سياستها، والمواقع التي تسيء استخدام خدمة التسجيل لدى المحرك، فترسل له بضع طلبات تحديث كل شهر، وأحيانا كل يوم. أخيرا، إذا لم يكن محرك البحث قد أرشف الصفحة التي تبحث عنها، فلا داعي للعناء، لن تجدها أبدا لديه.