-
IT DATA تعلن عن منحة MCITP في مراكزها المعتمدة للطلبة والخريجين بتكلفة منخفضة
-
الفيسبوكبون يشنون هجوم الكترونيا على موقع توفيق عكاشة
-
اشترك في مسابقة 2012 جنيه دهب من " موبينيل " واكسب جنيهات ذهبيةيومياً واسبوعياً وشهرياً
-
كيونت تطرح "بيور هوم" لمواجهة تلوث مياه الشرب فى مصر بعد الثورة
-
فى مذكرة ل شرف : سكان مدينة العبور يطالبون بنقلهم اداريا لمحافظة القاهرة
-
ب 5000 دولار : "امراة الية " لاقامة علاقات عاطفية مع الرجل
-
من ابناء القطاع : 3 مرشحين لتولى منصب وزير الاتصالات
-
اقبال كبير على التعليم الالكترونى فى مصر لقدرته على ايصال المعلومة اسرع وأقل تكلفة
-
"فودافون" تنفى القبض على 3 من موظفيها لبيعهم كروت بأسعار مخالفة للتسعيرة.. وتبحث تعديل عرض "الكارت كارتين" بما يتوافق مع مصلحة عملائها
-
"Hitech4all.com"يفوز بجائزة ثقافة الجودة بالإعلام العربي من جامعة حمدان بن محمد الإلكترونية
اقرأ لهؤلاء
أصدقاؤك يفضلون:
هناك اهتمام متزايد بمعرفة من سافر من مدينة "أ" إلى "ب" ؟ من يحول مبالغ معينة أول كل شهر إلى نفس الجهة؟ من يبعث برسائل على شبكات اجتماعية إلى من؟ السبب هو تصاعد خطر الإرهاب والقرصنة من جهة؛ واهتمام شركات التسويق بأنماط الاستهلاك، وبيانات المستهلكين.
في كلتا الحالتين تبذل الشركات، والمؤسسات الغالي، والنفيس لتضع أيديها على معلومات دقيقة، وصحيحة عن الشخص، أو الأشخاص المطلوبين.
هنا يجئ دور عملية تنقية، وتطهير البيانات Data Cleansing، والتي تتناول الجوانب التالية من البيانات (المصدرwww.dqglobal.com):
الاكتمال - ما هي البيانات المفقودة أو غير الصالحة للاستعمال؟
المطابقة - ما هي البيانات التي يتم تخزينها في شكل غير قياسي ؟
الاتساق - ما هي البيانات التي تعطي معلومات متضاربة؟
دقة - ما هي البيانات غير الصحيحة أو القديمة؟
الازدواجية - ما هي البيانات المكررة؟
التكامل - ما هي البيانات التي تفتقد علاقات مع بيانات أخرى لها قيمة؟
تطهير وتنقية البيانات كان وسيظل موضوعا مهما في كل زمان، ومكان, تزداد أهميته في عالمنا الناطق بالعربية . السبب هو تعدد الشكل الذي تكتب به الأسماء العربية. باللغة الإنجليزية.
ليس سرا أن معظم الهجمات الإرهابية قام بها عرب ومسلمون ذوو أسماء عربية , بل إننا مؤخرا رأينا أجانب غربيين يقومون بهذه العمليات مطلقين على أنفسهم أسماء عربية , الأمر الذي أطلق التباسا تسبب في اتهام أبرياء بسبب تشابه أسمائهم مع اسم إرهابي على قائمة المطلوبين.
إن تعدد طرق كتابة الكثير من الأسماء العربية يجعل الوصول إلى الشخص المقصود أمرا صعبا. دعونا نرى عدد الاحتمالات التي يمكن بها كتابة اسم محمد. ثمانية طرق لكتابة هذا الاسم (حسب الصورة التالية), أضف إلى هذا ست طرق لكتابة مصطفى , و ست طرق أخرى لكتابة عبد الرحيم , ستجد أن هناك 288 احتمال مختلف لكتابة اسم مصطفى محمد عبد الرحيم باللغة الإنجليزية, وكل هذه الطرق تشير إلى شخص واحد.
لجأ العاملون في العالم الرقمي إلى تقنية ETL في بناء قواعد بيانات الاستعلام Business Intelligence , حيث يتم اختيار الحقول المطلوبة من قواعد بيانات مختلفة، ونقلها إلى قاعدة بيانات يتم تصميمها بعناية , ثم تحميل البيانات إليها بعد تنقيتها، وتطهيرها.
لكن الوضع تغير الآن, أصبحنا في حاجه إلى معلومات فورية .. معلومات تأتي من مصادر مختلفة من أجهزة حواسب على منصات مختلفة (حاسبات تقليدية, حاسبات لوحية, هواتف, شبكات اجتماعية ... الخ) .هذه الحاجة الملحة إلى معلومات آنية يعني أنه يجب أن تكون المعلومات على درجة نقاء عال, أو بالنسبة للمثال الذي ضربناه سابقا, يجب أن تكون هناك طريقة واحدة لكتابة اسم مصطفى محمد عبد الرحيم باللغة الإنجليزية.
كيف نتفق على صورة واحدة لكتابة الأسماء العربية باللغة الإنجليزية؟ الحل هو إنشاء معجم للأسماء العربية يستخدم طريقة قياسية لكتابة هذه الأسماء . السؤال من سيكون مسئولا عن هذه المبادرة؟
في رأيي المتواضع هو شركات تخزين المعلومات, فالمعلومات هي حياتهم وأصل عملهم, شركات مثل IBM, HP, DELL, EMC, HDS وغيرها, فهذه الشركات تدفع الملايين في Corporate Social Responsibility أو المسئولية الاجتماعية للشركات. لم لا تساهم هذه الشركات في مهمة ذات قيمة عالية لكل متحدث بالعربية, بل وقيمة عالية لكل الحكومات والمؤسسات في البلاد العربية.
لو وضعت هذه الشركات يدها في يد مجلس مشترك من الكيانات التي لها إمكانية الحصول على كميات كبيرة من البيانات مثل منظمات الضمان الاجتماعي وزارات الداخلية في الدول العربية , واتفقوا فيما بينهم على طريقة موحدة لكتابة الأسماء العربية . لو حدث هذا لوصلنا إلى اتفاق فيما بيننا جميعا لكتابة أسمائنا بطريقة موحدة.