الأسماء العربية وتطهير البيانات

اقرأ لهؤلاء

التكنولوجيا .. وثورة في العلاج الذاتي
لا شك أن التكنولوجيا الحديثة باتت تلعب دورا استراتجيا في تطوير الخدمات الصحية العالمية بصورة تشكل قفزات نوعية كبيرة بداية من الأبحاث المتعلقة بتطوير
	تكنولوجيا محاربة الفساد  .. وصبر الشعب
التعلم خطوة خطوة في ممارسة الديمقراطية هو أحد أهم مكتسبات الشعب المصري خلال السنوات الستة الماضية لاسيما بعد أن نجح
الشباب .. واستراتيجية قومية للإبداع
يدرك الجميع أن مصر واحدة من الدول التي وهبها الله قوة بشرية لا يستهان بها ، إذ إن 60 % من السكان في عمر الشباب أقل من 25 عاما
تحديد حقوق وواجبات الروبوتات
كما يقال، لا قيمة لشيء بدون إثبات وتوثيق ورقي، وفي خضم الضجة العالمية حول النتائج المحتملة لدخولنا ثورة صناعية من نوع جديد، يقودها
الأمن الفضائي .. والتنسيق العربي المطلوب " 1- 3 "
يشكل الأمن والاستقرار، وحماية حقوق الملكية الفكرية أحد أهم متطلبات عملية التنمية الاقتصادية وإقناع المستثمرين

أصدقاؤك يفضلون:

الأسماء العربية وتطهير البيانات

هناك اهتمام متزايد بمعرفة من سافر من مدينة "أ" إلى "ب" ؟ من يحول مبالغ معينة أول كل شهر إلى نفس الجهة؟ من يبعث برسائل على شبكات اجتماعية إلى من؟ السبب هو تصاعد خطر الإرهاب والقرصنة من جهة؛ واهتمام شركات التسويق بأنماط الاستهلاك، وبيانات المستهلكين.
في كلتا الحالتين تبذل الشركات، والمؤسسات الغالي، والنفيس لتضع أيديها على معلومات دقيقة، وصحيحة عن الشخص، أو الأشخاص المطلوبين.
هنا يجئ دور عملية تنقية، وتطهير البيانات Data Cleansing، والتي تتناول الجوانب التالية من البيانات (المصدرwww.dqglobal.com):
الاكتمال - ما هي البيانات المفقودة أو غير الصالحة للاستعمال؟
المطابقة - ما هي البيانات التي يتم تخزينها في شكل غير قياسي ؟
الاتساق - ما هي البيانات التي تعطي معلومات متضاربة؟
دقة - ما هي البيانات غير الصحيحة أو القديمة؟
الازدواجية - ما هي البيانات المكررة؟
التكامل - ما هي البيانات التي تفتقد علاقات مع بيانات أخرى لها قيمة؟
تطهير وتنقية البيانات كان وسيظل موضوعا مهما في كل زمان، ومكان, تزداد أهميته في عالمنا الناطق بالعربية . السبب هو تعدد الشكل الذي تكتب به الأسماء العربية. باللغة الإنجليزية.
ليس سرا أن معظم الهجمات الإرهابية قام بها عرب ومسلمون ذوو أسماء عربية , بل إننا مؤخرا رأينا أجانب غربيين يقومون بهذه العمليات مطلقين على أنفسهم أسماء عربية , الأمر الذي أطلق التباسا تسبب في اتهام أبرياء بسبب تشابه أسمائهم مع اسم إرهابي على قائمة المطلوبين.
إن تعدد طرق كتابة الكثير من الأسماء العربية يجعل الوصول إلى الشخص المقصود أمرا صعبا. دعونا نرى عدد الاحتمالات التي يمكن بها كتابة اسم محمد. ثمانية طرق لكتابة هذا الاسم (حسب الصورة التالية), أضف إلى هذا ست طرق لكتابة مصطفى , و ست طرق أخرى لكتابة عبد الرحيم , ستجد أن هناك 288 احتمال مختلف لكتابة اسم مصطفى محمد عبد الرحيم باللغة الإنجليزية, وكل هذه الطرق تشير إلى شخص واحد.
لجأ العاملون في العالم الرقمي إلى تقنية ETL في بناء قواعد بيانات الاستعلام Business Intelligence , حيث يتم اختيار الحقول المطلوبة من قواعد بيانات مختلفة، ونقلها إلى قاعدة بيانات يتم تصميمها بعناية , ثم تحميل البيانات إليها بعد تنقيتها، وتطهيرها.
لكن الوضع تغير الآن, أصبحنا في حاجه إلى معلومات فورية .. معلومات تأتي من مصادر مختلفة من أجهزة حواسب على منصات مختلفة (حاسبات تقليدية, حاسبات لوحية, هواتف, شبكات اجتماعية ... الخ) .هذه الحاجة الملحة إلى معلومات آنية يعني أنه يجب أن تكون المعلومات على درجة نقاء عال, أو بالنسبة للمثال الذي ضربناه سابقا, يجب أن تكون هناك طريقة واحدة لكتابة اسم مصطفى محمد عبد الرحيم باللغة الإنجليزية.
كيف نتفق على صورة واحدة لكتابة الأسماء العربية باللغة الإنجليزية؟ الحل هو إنشاء معجم للأسماء العربية يستخدم طريقة قياسية لكتابة هذه الأسماء . السؤال من سيكون مسئولا عن هذه المبادرة؟
في رأيي المتواضع هو شركات تخزين المعلومات, فالمعلومات هي حياتهم وأصل عملهم, شركات مثل IBM, HP, DELL, EMC, HDS وغيرها, فهذه الشركات تدفع الملايين في Corporate Social Responsibility أو المسئولية الاجتماعية للشركات. لم لا تساهم هذه الشركات في مهمة ذات قيمة عالية لكل متحدث بالعربية, بل وقيمة عالية لكل الحكومات والمؤسسات في البلاد العربية.
لو وضعت هذه الشركات يدها في يد مجلس مشترك من الكيانات التي لها إمكانية الحصول على كميات كبيرة من البيانات مثل منظمات الضمان الاجتماعي وزارات الداخلية في الدول العربية , واتفقوا فيما بينهم على طريقة موحدة لكتابة الأسماء العربية . لو حدث هذا لوصلنا إلى اتفاق فيما بيننا جميعا لكتابة أسمائنا بطريقة موحدة.

مشاركات القراء