International Science and Technology Journal

Home < Articles < Article Details

Scientific Terminology Classification Using Deep Neural Networks: An LSTM-Based Approach

الملخص
يشهد العالم العلمي توسعًا غير مسبوق في حجم الإنتاج المعرفي وتزايدًا في تعقيد التداخل بين التخصصات العلمية، مما يستدعي تطوير أنظمة ذكية قادرة على تصنيف المصطلحات العلمية بدقة وكفاءة. تهدف هذه الدراسة إلى اقتراح نموذج متقدم للتصنيف الآلي للمصطلحات العلمية باستخدام تقنيات التعلم العميق، بالاعتماد على قاعدة بيانات ضخمة من منصة arXiv تضم أكثر من 136 ألف وثيقة بحثية تغطي تسعة مجالات علمية رئيسية. اعتمدت منهجية البحث على معالجة نصية دقيقة شملت التنظيف اللغوي والتحليل الصرفي، بالإضافة إلى تمثيل المصطلحات في فضاء عددي باستخدام تقنية Word2Vec، ثم بناء نموذج تصنيف قائم على الشبكات العصبية طويلة الذاكرة قصيرة المدى (LSTM)، مما عزز القدرة على فهم السياقات الدلالية والعلاقات المفاهيمية المعقدة. أظهرت نتائج النموذج فعالية واعدة، حيث حقق دقة تصنيف عامة بلغت 72%، مع أداء متميز في مجالات مثل الرؤية الحاسوبية بنسبة 89% ومعالجة اللغة الطبيعية بنسبة 87%. كما أظهر النموذج قدرة ملحوظة على التمييز بين السياقات المختلفة للمصطلحات متعددة الاستخدام، رغم استمرار بعض التحديات المتعلقة بتصنيف الفئات قليلة التمثيل. وتوضح الدراسة أن تقنيات التعلم العميق توفر إمكانات فعالة لإدارة وتنظيم المصطلحات العلمية، مع التأكيد على أهمية معالجة التحديات المرتبطة بتمثيل الفئات النادرة والحاجة إلى نماذج أكثر تطورًا لفهم البنى المعرفية الدقيقة. كما توصي الدراسة بعدة توجهات مستقبلية لتطوير النموذج، من بينها توسيع نطاق المجالات العلمية المغطاة، والتأكيد على ضرورة تطوير حلول متعددة اللغات تراعي التنوع الثقافي والمعرفي للمصطلحات العلمية. ويمثل هذا البحث إضافة نوعية في مجال التنظيم الذكي للمعرفة، ويمهد الطريق لبناء أدوات أكثر تطورًا لدعم البحث العلمي وتحسين إدارة المحتوى الأكاديمي في البيئات الرقمية.............. الكلمات المفتاحية:............. تصنيف المصطلحات العلمية؛ الشبكات العصبية العميقة؛ تنقيب النصوص؛ LSTM؛ معالجة اللغة الطبيعية.
Abstract
The scientific world is witnessing an unprecedented expansion in the volume of knowledge production and an increasing complexity in the interdisciplinary overlap, which calls for the development of intelligent systems capable of accurately and efficiently classifying scientific terms. This study aims to propose an advanced model for the automatic classification of scientific terms using deep learning techniques, based on a massive database from the arXiv platform comprising over 136,000 research documents covering nine major scientific fields. The research methodology relied on precise text processing, including linguistic cleaning and morphological analysis, along with representing terms in a numerical space using Word2Vec technology, followed by building a classification model based on Long Short-Term Memory (LSTM) neural networks, enhancing the ability to understand semantic contexts and complex conceptual relationships. The model's results demonstrated promising effectiveness, achieving an overall classification accuracy of 72%, with outstanding performance in fields such as computer vision at 89% and natural language processing at 87%. The model also showed a remarkable ability to distinguish between different contexts of multi-use terms, although some challenges persisted in classifying underrepresented categories. The study illustrates that deep learning techniques offer effective potential for managing and organizing scientific terminology, while also highlighting the importance of addressing challenges related to the representation of rare categories and the need for more advanced models to understand fine grained cognitive structures. The study recommends several future directions for model development, including expanding the range of covered scientific fields, and emphasizes the necessity of developing multilingual solutions that consider the diverse cultural and cognitive contexts of scientific terms. This research constitutes a qualitative addition to the field of intelligent knowledge organization and paves the way for building more advanced tools to support scientific research and improve the management of academic content in digital environments................. Keywords:............ scientific term classification; deep neural networks; text mining; LSTM; natural language processing.