عرض مشاركة واحدة
  #3  
قديم 03-23-2019, 06:49 AM
الصورة الرمزية حامد السحلي
حامد السحلي حامد السحلي متواجد حالياً
إعراب e3rab.com
 
تاريخ التسجيل: Nov 2006
الدولة: سورية
المشاركات: 1,323
افتراضي

لماذا يفشل المهندسون الحاسوبيّون في إنتاج موارد لغوية دقيقة؟

Published on August 3, 2015

Alexis Neme
Alexis Neme
Computational Linguistics Scientist - FR-AR-PT-EN (alexis.neme@gmail.com)
11 articles

11

0

Original version in English "Why do computer scientists fail to produce an accurate Arabic Lexical Resource?", by Alexis Neme and Eric Laporte

لماذا يفشل المهندسون الحاسوبيّون
في إنتاج موارد لغوية دقيقة؟
ألكسي عميد نعمة ـ إيرك لابورت

Indonesian version






في التحليل الصرفي الأوتوماتيكيّ للنصوص الإنجليزية، يوفّر برنامج التحليل لكل إسم وارد بصيغة الجمع صيغته المفردة. فما هو حال النصوص العربية؟ غالباً البرامج لا توفّر لصِيغة جمع التكسير الصيغة المفردة.

على سبيل المثال، إن كانت كلمة [knives] واردة في النص الانجليزي، فالبرنامج الصرفيّ يوفّر التحليل للإنجليزية:

knives = {المفرد = "knife"، عدد = "جمع"}؛

وبالمثل إن كانت كلمة [أسلحة] واردة في النص العربيّ، يجب أن يوفِّر برنامج التحليل للعربيّة:

أسلحة = {المفرد = "سلاح"، عدد = "جمع تكسير"}.

عادةً، التحليل الصرفيّ هو المعالجة الأولى من سلسلة معالجات حاسوبية. إحصائياً، فمن كل 10 كلمات في النصوص العربية، كلمة واحدة بالمعدّل تَرِد في صِيغة الجمع. ومن كل 10 كلمات واردة في صِيغة الجمع، 3 تَرِد في صِيغة الجمع السالم و 7 في صِيغة جمع التكسير. إذاً لا توجد وسيلة في البرنامج لتجنُّب صيغة جمع تكسير أو حتى الإلتفاف عليها.

صيغة الجمع السالم تحفظ صيغة المفرد وهي مبنية على زيادة في آخر صيغة المفرد. أما صيغة جمع التكسير فلا تحفظها، وهي صيغة مبنية على دمج جذر صيغة المفرد بوزن جمع التكسير الملائمة. ويتكوّن الجذر من الحروف الصامتة اي دون الحركات. ويتكون الوزن من أحرف الجذر المحاطة بحركات وأحرف مدّ وحروف زائدة في بعض الأحيان.



يمكن للناطقين بالعربية أن يربطوا فوراً وتلقائياً صيغة المفرد بصيغة جمع التكسير وبالعكس، على سبيل المثال [سلاح <=> أسلحة]. أما الناطقون المتعلِّمون قادرون على شرح المراحل للحصول على [أسلحة] من خلال صيغة المفرد [سلاح] بالإستناد على معرفة أوّليَّة في الصرف التقليدي بالآتي:

إستخراج أحرف الجذر من صيغة المفرد: سلاح => س ل ح

دمج الجذر المستخرَج في وزن جمع التكسير أفْعِلَة : [ س ل ح & أفْعِلَة ] => أسْلِحَة



بين 25 وزن متاح لجموع التكسير، لا يمكن للناطقين شرح أسباب اختيار هذه الصيغة، هنا أفْعِلَة، وتعليل هذا الاختيار غالباً ما يكون غامضاً ومبهماً. وقد صنّف اللغويّون صيغ جمع التكسير الى قياسيَّة وسماعيّة أي لا تخضع لقاعدة. إنّ جموع التكسير في الصرف هي من أكثر الظواهر اللغوية صعوبة.

يمكن للناطقين بالعربية أيضاً أن يربطوا فوراً صيغة المفرد بصيغة جمع التكسير في المثل [إمَام <=> أئِمَّة] وبالعكس، وربما بإمكان بعضهم أيضاً أن يلاحظوا أنّ وزن جمع التكسيرهو كما في المثال السابق، أي [أئِمَّة، أسْلِحَة] هما على وزن أفْعِلَة . أما الناطقون المتعلمون ليسوا قادرين على شرح كيفية الحصول على [أئِمَّة] من خلال صيغة المفرد [إمام]. وحدهم الخبراء في المورفوفنولوجيّة قادرون على هذا الشرح [إمام، أئمّة]:

إستخراج أحرف الجذر من صيغة المفرد: إمام => {ء} م م

حيث {ء} تمثل 5 أشكال إملائية محتملة للهمزة.

دمج أحرف الجذر في وزن الجمع أفْعِلَة: [{ء} م م & أفْعِلَة] => أَ{ء} ْمِمَة

نقل الكسرة الى موضع السكون: أَ{ء} ْمِمَة => أَ{ء}ِممَة

إدغام الحرف المماثل أي ”م” : أَ{ء}ِممَة => أَ{ء}ِمَّة

إختيار الشكل الإملائي للهمزة: أَ{ء}ِمَّة => أَئِمَّة



تشمل سلسلة العمليات أعلاه على شروط مورفونولوجيّة من أجل أنْ تصبح سارِية المَفْعُول قبل تطبيقها؛ بالإضافة الى أنَّ إختيار شكل الهمزة يجب أن يتم عبر مجموعة قواعد إملائية مترابطة وخاصة بها.

ويجب أيضاً إحترام تسلسل هذه القواعد لتطبيقها في ترتيبمعيَّن ، وهنا، لا يمكن إختيار الشكل الإملائي للهمزة قبل إنتقال الكسرة الى موضع السكون. فهذا يعني أنك يجب أن تكون على معرفة بعديد من الوصفات والعديد من المكوِّنات في كل وصفة وشروط إستعمالها، فلا يمكن أن نقلي البيضة مثلاً قبل وضع وتسخين وتذويب الزبدة في المقلاة.

علاوة على ذلك، يجب إضافة علامة نحويّة تلحق آخر الإسم والمرتبطة بتعريف الإسم (نكرة، مضاف، معرَّف) وإعرابه (مرفوع، منصوب، مجرور) أي 3x3 = 9 علامات. أخيرا، التاء المربوطة {ة} تتحول إلى تاء مبسوطة "ت" إذا ما إتصّل الإسم بضمير، كما في [أسلحة + هم => أسلحتـهم]. وبالإمكان توصيف هذه المتغيِّرات بواسطة المعادلة التالية:

أسلح {ة} {علامة الإعراب} [<ضمير متَّصل إختياريّ>]

ظواهر كهذه هي عديدة في المورفوفونولوجيا لدرجة أنه من المستحيل أن يوجد مورد لغويّ عربيّ دقيق ومستغنياً عن مثل هذا التوصيف المفصَّل.



دِقّة الموارد المعجمية العربية تتطلب توصيف مورفوفونولوجيّ وإملائي مفصّل، ​​وبالتالي خبير متخصص. ويحدّد الخبير المداخل المعجمية وترميز تغيُّراتها التصرفية الإملائية مستعيناً بمفاهيم مجرّدة كالوزن والجذر، والتبدلات المورفوفونولوجيّة مثل حذف و إدخال واستبدال حرف، وإنتقاله وإدغامه. بالإضافة إلى ذلك، عليه التعامل مع علامات الإعراب، والاختلافات الإملائية وتغيُّراتها، وقواعد السوابق واللواحق وعلاقتها بأشكالها النحويّة والإملائية المجازة، … ينبغي على الموارد المعجمية الدقيقة أن تشمل أيضا الأفعال والأسماء والصفات في جميع أشكالها التصريفية: معلوم/مجهول؛ ماضي/مضارع/أمر؛ المرفوع/ المنصوب/المجزوم /المؤكّد؛ مذكر/مؤنث .…

الآن، تخيّل إدارة 80000 مدخل معجميّ في قاموس، 10000 منها لها جمع تكسير.



العودة إلى سؤالنا في البداية، لماذا لا يوفِّر برنامج التحليل الصرفيّ لكل إسم وارد بصيغة جمع التكسير في النص صيغته المفردة؟ ليس من المستغرب أن لا يربط البرنامج صيغة جمع التكسير بصيغته المفردة، لأنها مسألة مُسْتَعْصِية وعسيرة.

من دون خبير متخصص في المورفوفونولوجيا، لا يمكن للمهندسين الحاسوبيّين التعامل مع 80000 مدخل معجمي والاهتمام الكامل بالنحو، بالتصريف بالمورفوفونولوجيا وبالإملاء واستخدام المفاهيم المجردة المرتبطة بكل تخصص؛ بالإضافة إلى البرمجيات المتخصصة في حقل معالجات اللغات الطبيعية وتفهّمها من أجل إنتاج موارد معجميّة دقيقة.
__________________
إعراب نحو حوسبة العربية
http://e3rab.com/moodle
المهتمين بحوسبة العربية
http://e3rab.com/moodle/mod/data/view.php?id=11
المدونات العربية الحرة
http://aracorpus.e3rab.com
رد مع اقتباس