استرداد المعلومات من ملفات نصية غير منظمة مختلفة - تعدين النص؟

https://stackoverflow.com/questions/2461477

20-09-2019
|

سؤال

أحتاج إلى بعض المساعدة في حل هذه المشكلة.

لدينا كمية كبيرة من المستندات من مجال محدد معين. هذه الوثائق هي عن مصادر التمييز ، وبالتالي يمكن أن يكون هيكلها مختلفًا جدًا أيضًا. على الجانب الآخر ، لدي طاولة مع بعض الحقول المحددة حيث يجب ملء بعض الأرقام من مستخلص الوثائق.

فمثلا:

حققت شركة Company X حجمًا تجاريًا بقيمة 20 مليون دولار في عام 2010. وكان 1،000،000 دولار هو تبادل الشركة Y هذا العام.

يجب أن تكون النتيجة مثل هذا

|| Company | Year | Volume  
||  X      | 2010 |  200,000  
||  Y      | 2010 | 1000,000

هل يمكنك توجيهي إلى بعض الروابط أو الموضوعات ، حيث يمكنني العثور على مزيد من المعلومات حول كيفية حل هذه المشكلة.

أعلم أنه لا يوجد حل خارج الصندوق لهذا الغرض ، لكن أين يجب أن أبدأ في البحث عنه.

شكرا مقدما.

المحلول

موافق. هناك مختبرات علوم الكمبيوتر بأكملها مخصصة لهذا النوع من الأشياء! ربما تبدأ من خلال البحث عن أداة تسمى Rapidminer

فيما يلي أيضًا بعض ألقاب الورق البحثية التي لديّ PDF (التي لم يعد لدي روابط لصالح للأسف):

1. الفهم الآلي للبيانات المالية باستخدام الشبكات العصبية والقواعد الدلالية

James Markovitch Dun & Bradstreet ، Search Technologies April 1995 البريد الإلكتروني: jsmarkovitch@yahoo.com حقوق الطبع والنشر  1995 James Markovitch

2. نهج متكامل لاستخراج الهيكل الدلالي التلقائي في صور المستند

Margherita Berardi ، Michele Lapi ، و Donato Malerba Dipartimento di Informatica - Università degli studi di Bari via Orabona 4 - 70126 Bari {Berardi ، Lapi ، Malerba}@di.uniba.it

أعتقد أن الأول سيكون ذا أهمية أكبر فيما يتعلق بما أنت عليه بعد. لست متأكدًا تمامًا من مقدار القيمة التي ستكون عليها :)

مرخصة بموجب: CC-BY-SA مع الإسناد

لا تنتمي إلى StackOverflow