بالاخره گزارش فنی تجزیه‌گر یارا را آماده کردیم.

Mohammad Sadegh Rasooli and Joel TetreaultYara Parser: A Fast and Accurate Dependency Parser. arXiv:1503.06733v1 [cs.CL] 23 Mar 2015.

 

https://twitter.com/YahooLabs/status/580493345635627009


برچسب‌ها: نحو, تجزیه, ابزارهای پردازشی, مقاله, پژوهش‌نامه
+ نوشته شده توسط محمّد صادق رسولی در سه شنبه چهارم فروردین ۱۳۹۴ و ساعت 20:53 |
نسخهٔ ۱.۱ پیکرهٔ نحوی وابستگی زبان فارسی شامل تصحیحات اندکی نسبت به پیکرهٔ اولیه و تغییر در بخش‌بندی در دادهٔ یادگیری، ارزیابی و آزمون است. این پیکره از پیوند زیر قابل دریافت است:

پیوند دریافت


برچسب‌ها: دادگان زبانی, نحو, پردازش زبان فارسی
+ نوشته شده توسط محمّد صادق رسولی در پنجشنبه بیست و هشتم اسفند ۱۳۹۳ و ساعت 4:50 |
این برنامه (برنامچه بگویم بهتر است) را چند وقت پیش برای استخراج هم‌ترازی با استفاده از GIZA++ نوشتم. این برنامه نشانی گیزا، تقطیع‌گر واژه و دیگر ابزارهای جانبی را می‌گیرد و خروجی هم‌ترازی را می‌دهد.

نشانی منبع یرنامه

اگر نیاز به گرفتن اشتراک بین دو طرف هم‌ترازی دارید،‌ برنامهٔ ساده زیر این کار را انجام می‌دهد (از فایل A3.final برای گرفتن هم‌ترازی استفاده نمایید).

نشانی منبع برنامه

 

پی‌نوشت

پیام‌های خصوصی شما که درخواست می‌کنید به شما با ایمیل جواب بدهم بعضاً‌ به دلیل مشغلهٔ کاری فراموش می‌شود. لذا لطف کنید یا به صورت مستقیم ایمیل بفرستید یا پیام عمومی بگذارید تا پایین پیام پاسخ بدهم.


برچسب‌ها: ابزارهای پردازشی, ‌ هم‌ترازی
+ نوشته شده توسط محمّد صادق رسولی در پنجشنبه بیست و یکم اسفند ۱۳۹۳ و ساعت 7:6 |

نسخهٔ ۰٫۲ تجزیه‌گر یارا برخی از اشکالات نسخهٔ اول را ندارد و دارای سرعت و دقت بیشتری‌ست. این تجزیه‌گر، علاوه بر امکانات قبلی، امکان استفاده از ویژگی‌های خوشهٔ واژگان براون را داراست. 

دریافت

در ضمن توسعهٔ این پروژه برچسب‌زن اجزای سخنی نیز توسعه یافته است.

منبع برنامهٔ برچسب‌زن 


برچسب‌ها: نحو, تجزیه, ابزارهای پردازشی, برچسب‌زنی
+ نوشته شده توسط محمّد صادق رسولی در چهارشنبه بیست و دوم بهمن ۱۳۹۳ و ساعت 1:55 |

تجزیه‌گر وابستگی یارا بر اساس الگوریتم مبتنی بر گذار و با زبان جاوا استاندارد نوشته شده است. سرعت این تجزیه‌گر به مراتب بالاتر از خیلی از تجزیه‌گرهای معروف است. پیش‌نسخهٔ‌ این تجزیه‌گر را عرضه کرده‌ام. در این پیش‌نسخه امکان تجزیهٔ کامل و تجزیهٔ‌ جزئی جملات وجود دارد. این تجزیه‌گر به صورت آپاچی ارائه شده است و برای استفاده و عرضه در محصولات تجاری محدودیتی وجود ندارد.

دریافت پیش‌نسخهٔ ۰٫۱ و کد منبع

منبع (در حال توسعه)‌ در گیت‌هاب

ان‌شاءالله به زودی گزارش کار این تجزیه‌گر را منتشر خواهم کرد تا برای ارجاع در مقالات علمی مشکلی نباشد.


برچسب‌ها: نحو, تجزیه, ابزارهای پردازشی
+ نوشته شده توسط محمّد صادق رسولی در دوشنبه ششم بهمن ۱۳۹۳ و ساعت 21:39 |

پیکرهٔ نحوی زبان فارسی - پژوهشی بر اساس دستور وابستگی

 نويسندگان: محمدصادق رسولی، منوچهر کوهستانی، امیرسعید مولودی
 
تعداد صفحات: 133
نوبت و سال انتشار: اول - 1393
 

برچسب‌ها: کتاب, پردازش زبان فارسی, نحو, دادگان زبانی
+ نوشته شده توسط محمّد صادق رسولی در دوشنبه پانزدهم دی ۱۳۹۳ و ساعت 23:48 |

نسخهٔ‌سوم این دادهٔ‌ چندزبانه منتشر شده است. این داده به صورت خودکار و برای ۲۷۱ زبان مختلف تهیه شده است.

http://babelnet.org/

 


برچسب‌ها: دادگان زبانی, شبکهٔ معنایی
+ نوشته شده توسط محمّد صادق رسولی در چهارشنبه بیست و ششم آذر ۱۳۹۳ و ساعت 20:54 |
این مقاله به تازگی در مجلهٔ Computer Speech and Language منتشر شده است.

 

Saeed Farzy and Heshaam Faili, A swarm-inspired re-ranker system for statistical machine translation, Computer Speech & Languageو Volume 29, Issue 1, January 2015, Pages 45–62.

Abstract
Recently, re-ranking algorithms have been successfully applied on statistical machine translation systems. Due to the errors in the hypothesis alignment and varying word order between the source and target sentences and also the lack of sufficient resources such as parallel corpora, decoding may result in ungrammatical or non-fluent outputs. This paper proposes a re-ranking system based on swarm algorithms, which makes the use of sophisticated non-syntactical features to re-rank the n-best translation candidates. We introduce plenty of easy-computed non-syntactical features to deal with SMT system errors plus the quantum-behaved particle swarm optimization (QPSO) algorithm to adjust the weights of features. We have evaluated the proposed approach on 2 translation tasks in different language pairs (Persian → English and German → English) and genres (news and novel books). In comparison with PSO-, GA-, Perceptron- and averaged Perceptron-style re-ranking systems, the experimental study demonstrates the superiority of the proposed system in terms of translation quality on both translation tasks. In addition, the impacts of the proposed features on the translation quality have been analyzed, and the most positive ones have been recognized. At the end, the impact of the n-best list size on the proposed system is investigated.

 


برچسب‌ها: مقاله, پردازش زبان فارسی, ترجمهٔ خودکار
+ نوشته شده توسط محمّد صادق رسولی در سه شنبه بیست و هفتم آبان ۱۳۹۳ و ساعت 0:23 |

چند سالی است که شبکه‌های عصبی تحت عنوان یادگیری عمیق در پردازش زبان مورد توجه و اقبال عمومی قرار گرفته‌اند [پیوند]. این پایان‌نامه شاید مهم‌ترین پایان‌نامه‌ای باشد که در این زمینه منتشر شده است و حاوی نوآوری‌های مختلفی در این زمینه است.

Recursive Deep Learning for Natural Language Processing and Computer Vision, Richard Socher
PhD Thesis, Computer Science Department, Stanford University


برچسب‌ها: پایان‌نامه, شبکه‌های عصبی, یادگیری عمیق, یادگیری خودکار
+ نوشته شده توسط محمّد صادق رسولی در پنجشنبه هشتم آبان ۱۳۹۳ و ساعت 1:23 |
ویرایش دوم این کتاب، به تازگی منتشر شده است:

Hang Li, Learning to Rank for Information Retrieval and Natural Language Processing, Second Edition, Synthesis Lectures on Human Language Technologies, October 2014, Morgan & Claypool Publishers.

Abstract
Learning to rank refers to machine learning techniques for training a model in a ranking task. Learning to rank is useful for many applications in information retrieval, natural language processing, and data mining. Intensive studies have been conducted on its problems recently, and significant progress has been made. This lecture gives an introduction to the area including the fundamental problems, major approaches, theories, applications, and future work. The author begins by showing that various ranking problems in information retrieval and natural language processing can be formalized as two basic ranking tasks, namely ranking creation (or simply ranking) and ranking aggregation. In ranking creation, given a request, one wants to generate a ranking list of offerings based on the features derived from the request and the offerings. In ranking aggregation, given a request, as well as a number of ranking lists of offerings, one wants to generate a new ranking list of the offerings. Ranking creation (or ranking) is the major problem in learning to rank. It is usually formalized as a supervised learning task. The author gives detailed explanations on learning for ranking creation and ranking aggregation, including training and testing, evaluation, feature creation, and major approaches. Many methods have been proposed for ranking creation. The methods can be categorized as the pointwise, pairwise, and listwise approaches according to the loss functions they employ. They can also be categorized according to the techniques they employ, such as the SVM based, Boosting based, and Neural Network based approaches. The author also introduces some popular learning to rank methods in details. These include: PRank, OC SVM, McRank, Ranking SVM, IR SVM, GBRank, RankNet, ListNet & ListMLE, AdaRank, SVM MAP, SoftRank, LambdaRank, LambdaMART, Borda Count, Markov Chain, and CRanking. The author explains several example applications of learning to rank including web search, collaborative filtering, definition search, keyphrase extraction, query dependent summarization, and re-ranking in machine translation. A formulation of learning for ranking creation is given in the statistical learning framework. Ongoing and future research directions for learning to rank are also discussed.

 

اگر به کتاب دسترسی ندارید با بنده تماس بگیرید rasooli{AT}cs.columbia{DOT}edu

 


برچسب‌ها: کتاب, رتبه‌بندی
+ نوشته شده توسط محمّد صادق رسولی در سه شنبه ششم آبان ۱۳۹۳ و ساعت 2:43 |