این ویدئوها همان موقع برگزاری همایش منتشر شده بود ولی من خبر نداشتم، بنابراین با تأخیری نه چندان اندک خبرش را در اینجا می‌گذارم.

 

پیوند به یوتیوب


برچسب‌ها: ارائه, مقاله, منابع آموزشی
+ نوشته شده توسط محمّد صادق رسولی در چهارشنبه بیست و ششم فروردین ۱۳۹۴ و ساعت 23:53 |

این مقاله به تازگی منتشر شده است و ادعاهای جالبی در مورد نوشتن یک تجزیه‌گر وابستگی ساده با ۳۰۰ خط برنامه‌نویسی و استفاده از ابزارهای «یادگیری جستجو» کرده است. دقتی که این تجزیه‌گر با رویکرد حریصانه دارد به مراتب بالاتر از ابزارهای مشابه است. مبنای اصلی این مقاله یادگیری تقلیدی (imitation learning) است.

 

Chang, Kai-Wei, He He, Hal Daumé III, and John Langford. "Learning to Search for Dependencies." arXiv preprint arXiv:1503.05615 (2015).

 

Abstract

We create a transition-based dependency parser using a general purpose learning to search system. The result is a fast and accurate parser for many languages. Compared to other transition-based dependency parsing approaches, our parser provides similar statistical and computational performance with best-known approaches while avoiding various downsides including randomization, extra feature requirements, and custom learning algorithms. We show that it is possible to implement a dependency parser with an open-source learning to search library in about 300 lines of C++ code, while existing systems often requires several thousands of lines.


برچسب‌ها: مقاله, تجزیه, یادگیری خودکار, یادگیری جستجو, یادگیری تقلیدی
+ نوشته شده توسط محمّد صادق رسولی در سه شنبه یازدهم فروردین ۱۳۹۴ و ساعت 3:20 |
بالاخره گزارش فنی تجزیه‌گر یارا را آماده کردیم.

Mohammad Sadegh Rasooli and Joel TetreaultYara Parser: A Fast and Accurate Dependency Parser. arXiv:1503.06733v1 [cs.CL] 23 Mar 2015.

 

https://twitter.com/YahooLabs/status/580493345635627009


برچسب‌ها: نحو, تجزیه, ابزارهای پردازشی, مقاله, پژوهش‌نامه
+ نوشته شده توسط محمّد صادق رسولی در سه شنبه چهارم فروردین ۱۳۹۴ و ساعت 20:53 |
نسخهٔ ۱.۱ پیکرهٔ نحوی وابستگی زبان فارسی شامل تصحیحات اندکی نسبت به پیکرهٔ اولیه و تغییر در بخش‌بندی در دادهٔ یادگیری، ارزیابی و آزمون است. این پیکره از پیوند زیر قابل دریافت است:

پیوند دریافت


برچسب‌ها: دادگان زبانی, نحو, پردازش زبان فارسی
+ نوشته شده توسط محمّد صادق رسولی در پنجشنبه بیست و هشتم اسفند ۱۳۹۳ و ساعت 4:50 |
این برنامه (برنامچه بگویم بهتر است) را چند وقت پیش برای استخراج هم‌ترازی با استفاده از GIZA++ نوشتم. این برنامه نشانی گیزا، تقطیع‌گر واژه و دیگر ابزارهای جانبی را می‌گیرد و خروجی هم‌ترازی را می‌دهد.

نشانی منبع یرنامه

اگر نیاز به گرفتن اشتراک بین دو طرف هم‌ترازی دارید،‌ برنامهٔ ساده زیر این کار را انجام می‌دهد (از فایل A3.final برای گرفتن هم‌ترازی استفاده نمایید).

نشانی منبع برنامه

 

پی‌نوشت

پیام‌های خصوصی شما که درخواست می‌کنید به شما با ایمیل جواب بدهم بعضاً‌ به دلیل مشغلهٔ کاری فراموش می‌شود. لذا لطف کنید یا به صورت مستقیم ایمیل بفرستید یا پیام عمومی بگذارید تا پایین پیام پاسخ بدهم.


برچسب‌ها: ابزارهای پردازشی, ‌ هم‌ترازی
+ نوشته شده توسط محمّد صادق رسولی در پنجشنبه بیست و یکم اسفند ۱۳۹۳ و ساعت 7:6 |

نسخهٔ ۰٫۲ تجزیه‌گر یارا برخی از اشکالات نسخهٔ اول را ندارد و دارای سرعت و دقت بیشتری‌ست. این تجزیه‌گر، علاوه بر امکانات قبلی، امکان استفاده از ویژگی‌های خوشهٔ واژگان براون را داراست. 

دریافت

در ضمن توسعهٔ این پروژه برچسب‌زن اجزای سخنی نیز توسعه یافته است.

منبع برنامهٔ برچسب‌زن 


برچسب‌ها: نحو, تجزیه, ابزارهای پردازشی, برچسب‌زنی
+ نوشته شده توسط محمّد صادق رسولی در چهارشنبه بیست و دوم بهمن ۱۳۹۳ و ساعت 1:55 |

تجزیه‌گر وابستگی یارا بر اساس الگوریتم مبتنی بر گذار و با زبان جاوا استاندارد نوشته شده است. سرعت این تجزیه‌گر به مراتب بالاتر از خیلی از تجزیه‌گرهای معروف است. پیش‌نسخهٔ‌ این تجزیه‌گر را عرضه کرده‌ام. در این پیش‌نسخه امکان تجزیهٔ کامل و تجزیهٔ‌ جزئی جملات وجود دارد. این تجزیه‌گر به صورت آپاچی ارائه شده است و برای استفاده و عرضه در محصولات تجاری محدودیتی وجود ندارد.

دریافت پیش‌نسخهٔ ۰٫۱ و کد منبع

منبع (در حال توسعه)‌ در گیت‌هاب

ان‌شاءالله به زودی گزارش کار این تجزیه‌گر را منتشر خواهم کرد تا برای ارجاع در مقالات علمی مشکلی نباشد.


برچسب‌ها: نحو, تجزیه, ابزارهای پردازشی
+ نوشته شده توسط محمّد صادق رسولی در دوشنبه ششم بهمن ۱۳۹۳ و ساعت 21:39 |

پیکرهٔ نحوی زبان فارسی - پژوهشی بر اساس دستور وابستگی

 نويسندگان: محمدصادق رسولی، منوچهر کوهستانی، امیرسعید مولودی
 
تعداد صفحات: 133
نوبت و سال انتشار: اول - 1393
 

برچسب‌ها: کتاب, پردازش زبان فارسی, نحو, دادگان زبانی
+ نوشته شده توسط محمّد صادق رسولی در دوشنبه پانزدهم دی ۱۳۹۳ و ساعت 23:48 |

نسخهٔ‌سوم این دادهٔ‌ چندزبانه منتشر شده است. این داده به صورت خودکار و برای ۲۷۱ زبان مختلف تهیه شده است.

http://babelnet.org/

 


برچسب‌ها: دادگان زبانی, شبکهٔ معنایی
+ نوشته شده توسط محمّد صادق رسولی در چهارشنبه بیست و ششم آذر ۱۳۹۳ و ساعت 20:54 |
این مقاله به تازگی در مجلهٔ Computer Speech and Language منتشر شده است.

 

Saeed Farzy and Heshaam Faili, A swarm-inspired re-ranker system for statistical machine translation, Computer Speech & Languageو Volume 29, Issue 1, January 2015, Pages 45–62.

Abstract
Recently, re-ranking algorithms have been successfully applied on statistical machine translation systems. Due to the errors in the hypothesis alignment and varying word order between the source and target sentences and also the lack of sufficient resources such as parallel corpora, decoding may result in ungrammatical or non-fluent outputs. This paper proposes a re-ranking system based on swarm algorithms, which makes the use of sophisticated non-syntactical features to re-rank the n-best translation candidates. We introduce plenty of easy-computed non-syntactical features to deal with SMT system errors plus the quantum-behaved particle swarm optimization (QPSO) algorithm to adjust the weights of features. We have evaluated the proposed approach on 2 translation tasks in different language pairs (Persian → English and German → English) and genres (news and novel books). In comparison with PSO-, GA-, Perceptron- and averaged Perceptron-style re-ranking systems, the experimental study demonstrates the superiority of the proposed system in terms of translation quality on both translation tasks. In addition, the impacts of the proposed features on the translation quality have been analyzed, and the most positive ones have been recognized. At the end, the impact of the n-best list size on the proposed system is investigated.

 


برچسب‌ها: مقاله, پردازش زبان فارسی, ترجمهٔ خودکار
+ نوشته شده توسط محمّد صادق رسولی در سه شنبه بیست و هفتم آبان ۱۳۹۳ و ساعت 0:23 |