ورود به حساب کاربری

نام کاربری *
رمز عبور *
یاداوری

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

امتیاز کاربران

ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 

قطعه بندی متن (Tokenizer)

به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد این ابزار جمع آوری واحد هایی است که در زبان فارسی به عنوان واحد های مستقل معنایی شناخته می شوند. سپس بر اساس انتخاب هر کدام از این واحدها متن بر اساس آن شکسته خواهد شد. از نمونه های انگلیسی آن می توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل های بعدی آماده میکند. در واقع این واحد ساز جزء مراحل پیش پردازش (pre process) متن به حساب میآید. در فرایتند تحلیل متون اغلب بعد از پارس (Pars) کردن متن عمل جداسازی کلمات با ابزار Tokenizer انجام میشود. معمولا بعد از این مرحله نوبت به مرحله حذف ایست‌واژه‌هایا Stop Wordsها میباشد که در مراحل بعدی به آن میپردازیم. در شکل زیر این مراحل به تصویر کشیده شده است. ابزار واحد ساز (Tokenizer) برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، جمله و نمادهای معنادار مانند space و tab است.

به عیارتی دیگر واحدسازی تکه­ تکه کردن سند به قسمت­های کوچک به نام واحد است. واحدسازی در سطح کلمات رخ می­دهد و واحدهای استخراج شده می­توانند به عنوان ورودی ماژول­های دیگر مانند ریشه­ یاب و برچسب­گذار استفاده شود. لازمه­ ی ایجاد این ابزار جمع ­آوری واحدهایی است که در زبان فارسی به عنوان واحدهای مستقل معنایی شناخته می­ شوند. متن بر اساس انتخاب هر کدام از این واحدها، شکسته خواهد شد. از نمونه­ های انگلیسی این ابزار می­توان به Flex، JLex، JFLex، ANTLR،Ragel  و Quex اشاره کرد.

این ابزار مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند. کلمات چند بخشی، کلمات بهم چسبیده و ترکیب‌های خاصی مانند اعداد اعشاری، تاریخ و ساعت از چالش‌های موجود در تشخیص مرز کلمات است.

 

tokenizer را نباید با موارد زیر اشتباه گرفت.

چانکر (Chunker): ابزاری برای تشخیص گروه های اسمی، فعلی و …. در یک جمله. جهت تقویت الگوریتم های وابسته به برچسب زن معنایی (Semantic role labeler) لازم است، نه تنها نقش های کلمات مشخص گردند، بلکه باید وابستگی های کلمات به لحاظ نقشی در جمله مشخص گردند. از جمله نمونه های انگلیسی آن می توان به Illinois Chunker  اشاره کرد.

برچسب زن معنایی: ابزاری برای تشخیص نقش گرامری کلمه در جمله. این ابزار یکی از مهمترین نقش ها را در پردازش های زبانی بر عهده دارد. دقت در این ابزار بسیار حائز اهمیت است. این ابزار باید نقش های گرامری کلمات در جمله ها مانند فعل، فاعل، مفعول مستقیم، مفعول غیر مستقیم و …. را تشخیص دهد. از جمله نمونه های انگلیسی آن می توان به OpenNlP، Illinois SRL، Swirl  و LTHSRL اشاره کرد. این ابزارها از الگوریتم پارسینگ charniak استفاده می کنند.

 

پردازش متن

تحلیل صرفی

POS, Tokenizer, lemmatizer

تحلیل نحوی

Chunker, Parser

تحلیل معنایی

Co-reference, NER, Event Detection

 


قطعه بندی متون

                                                   جایگاه قطعه بندی متون

 

مثالی از نمونه کد جاوا برای استفاده از ابزار قطعه بند یا tokenizer با کتابخانه jhazm:

import jhazm.tokenizer.WordTokenizer;
//jhazm tokenizer
WordTokenizer wordtokenizer = null;
try {
 wordtokenizer = new WordTokenizer(true);
} catch (IOException e) {
 // If document File was crrupted So Go to Next Doc
 continue;
}
ArrayList<String> wordsList = new ArrayList<>(wordtokenizer.tokenize(textWithOutStopWords));

نقش و جایگاه واحدساز (Tokenizer) در پردازش متن


                                                 جایگاه واحد ساز

 

 ------------------------------------
منبع : خانه بیگ دیتای ایران

شرکت دانش بنیان رایانش سریع هزاره ایرانیان به منظور ارائه راهکارهای رایانش سریع، تحلیل داده، بیگ دیتا و کلان داده به سازمانها و شرکتهای عصر دیجیتال تشکیل شده است. خدماتی از جمله طراحی راهکارهای بیگ دیتا، راه اندازی دریاچه داده و انباره داده، ساخت کاتالوگ داده، تحلیل داده و یادگیری ماشینی و ... از جمله فعالیتهای این شرکت می باشد.

 

 

آخرین مقالات

کامپایل و نصب mfix-2016.1

درک عملکرد دستگاه های انرژی، محیط زیست و فرایندها...

تحولات جدید در بیگ دیتا (...

تحولات جدید در بیگ دیتا (Big Data) در سال ۲۰۲۴ مقد...

راهنمای محاسبات با عملکرد...

خلاصه اجرایی این کتاب، راهنمایی مقدماتی درباره مح...

جک دونگارا برنده جایزه تو...

در سپتامبر 2024، IT4Innovations افتخار استقبال از...

اهمیت استفاده از بیگ دیتا...

اهمیت استفاده از بیگ دیتا در صنعت بانکداری مقدمه...

لزوم استفاده از فناوری بی...

لزوم استفاده از فناوری بیگ دیتا و کاربردهای مفید...

تاریخچه بیگ دیتا از آغاز...

تاریخچه بیگ دیتا از آغاز تا امروز بیگ دیتا (Big D...

لزوم تحلیل داده در دنیای...

تحلیل داده‌ها به فرآیند بررسی، تفسیر و استخراج اط...

مقایسه نفت و دیتا در دنیا...

مقایسه نفت و دیتا در دنیای امروز: ثروت جدید در دنی...

ارزش داده ها در دنیای امر...

در دنیای امروز، داده‌ها به یکی از با ارزش‌ترین دار...

معرفی کامل صف پیشرفته کاف...

آپاچی کافکا نیز پلت فرم متن باز به منظور پردازش جر...

روندهای معماری داده در سا...

هدف اصلی از پیاده‌سازی معماری داده، استانداردسازی...

کامپیوترهای کوانتومی: انف...

کامپیوترهای کوانتومی انفجاری در سرعت محاسبات ایجا...

رایانش مرزی یا EDGE COMPU...

در این مقاله تصمیم داریم با مفهومی به نام رایانش...

پردازش سریع تصاویر دریافت...

پردازش سریع تصاویر دریافت از راه دور (RS) در بسیار...

امنیت در مجازی سازی و رای...

مجازی سازی و رایانش ابری در رایانش ابری کامپوننت...

الگوریتم‌‌های پیش‌بین و ک...

استفاده از الگوریتم‌های پیش‌بین و هوش مصنوعی به د...

استفاده از سیستم چند عامل...

رایانش ابری یکی از راه حل های فشرده توسعه یافته بر...

۶ مهارت پر تقاضای بازار د...

متخصص دانش ابری (Cloud professional) یکی از عناوی...

جریان موازی بین منابع HPC...

چکیده انجام تجزیه و تحلیل یا تولید تصویری همزمان ب...

پردازش داده‌های جریانی در...

با ظهور وب ۲٫۰ و اینترنت اشیا، ردگیری همه نوع اطلا...

معرفی روش ها و ارائه پیشن...

چكیده محاسبات ابری یک فنآوری جدید نیست؛ بلکه روشی...

آیا فرآیند دموکراتیزه شدن...

ما وسط یک تحول تکنولوژیکی هستیم که شیوه سازماندهی...

کارکرد نظارتی و مدیریتی م...

محاسبات ابری و اینترنت اشیا به عنوان دو مبحث داغ د...

پیوند کلان داده با هوش مص...

سیستم‌های نرم‌افزاری تجاری همچون سرویس‌های ERP و...

محاسبات ابری قدرت رقابتی...

آیا فناوری دیجیتال، یک نیروی دموکراتیزه کننده است...

معماري لامبدا در مقابل مع...

معماري لامبدا تولید بی وقفه داده ها در دنیاي امروز...

زبان برنامه‌نویسی Milk سر...

زبان برنامه‌نویسی Milk که توسط دانشگاه MIT توسعه...

بیگ دیتا ، یادگیری ماشین...

سازمان‌ها گاهی اوقات به سختی تلاش می‌کنند تا با دس...

محاسبات مه چه هستند و چه...

در ابتدا همه چیز «ابر» بود، ولی حالا کلمه جدید «مه...

گالری تصاویر

hacklink al hack forum organik hit