ورود به حساب کاربری

نام کاربری *
رمز عبور *
یاداوری

تجزیه گر یا پارسر متون و تشخیص زبان با آپاچی تیکا (Apache Tika)

امتیاز کاربران

ستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعالستاره غیر فعال
 

 

آپاچی تیکا:

آپاچی تیکا یکی از پروژه‌های متن باز Apache است که کلاسی برای شناسایی زبان متون دارد. Tika برای استخراج متن اصلی از فایل های متنی و تجزیه کردن قسمت های مختلف فایل با توجه به متا دیتای آن کاربرد دارد. تیکا برای تعیین زبان یک متن، میزان فاصله بازنمایی آن متن را با بازنمایی زبان‌های موجود در سیستم تعیین می‌کند و زبانی که کمترین فاصله را با متن موجود دارد، در صورت رسیدن به یک اطمینان نسبی از زبان شناسایی شده، آن زبان را بر می‌گرداند. فاصله بین متن موجود و زبان‌های مختلف برمبنای فاصله اقلیدسیِ بسامد نسبی n-gramهای (یعنی نسبت بسامد هر n-gram به مجموع بسامد n-gramهای موجود) واقع در بازنمایی متن و بازنمایی زبان، محاسبه می‌شود. جویشگر متن‌باز Nutch نیز برای شناسایی زبان صفحات از Tika استفاده می‌کند

 


                                                                   آپاچی تیکا

 

ابزار ابزاری Apache Tika ™ می تواند متادیتا و متن را از بیش از هزار نوع فایل مختلف (مانند PPT، XLS و PDF) شناسایی و استخراج کند. همه این انواع فایل ها را می توان از طریق یک رابط واحد تجزیه کرد، که Tika برای نمایه سازی موتورهای جستجو، تجزیه و تحلیل محتوا، ترجمه و غیره مفید است. شما می توانید آخرین نسخه را در صفحه دانلود پیدا کنید. لطفا برای دریافت اطلاعات بیشتر در مورد نحوه شروع استفاده از Tika صفحه شروع به کار را مشاهده کنید.

صفحات پارس و آشکارساز اصلی رابطهای Tika و نحوه کار آنها را توضیح می دهند. اگر شما علاقه مند به مشارکت در Tika هستید، لطفا به صفحه Contributing مراجعه کنید یا یک ایمیل به لیست توسعه Tika ارسال کنید.

Tika یک پروژه از بنیاد نرمافزار آپاچی است و قبلا یک زیر پروژه آپاچی لوسیان بود.

Tika  برای شناسایی زبان سندها از یک فایل tika.language.properties استفاده می‌کند که شامل اسامی دو حرفی زبان‌ها بر مبنای استاندارد ISO 639 است. بر مبنای این فایل، مجموعه‌ای از فایل‌های Language Profile مربوط به زبان‌های اشاره شده در tika.language.properties از حافظه جانبی خوانده می‌شوند و برای ساخت pofileهای زبانی مورد استفاده توسط Tika به کار گرفته می‌شوند. نام فایل های Language Profile به شکل <Language>.ngp است و شامل مجموعه‌ای از n-gramهای حرفی به همراه فراوانی آن‌ها برای یک زبان است. بخشی از فایل en.ngp که مربوط به زبان انگلیسی است در ادامه آورده شده است.

# See the License for the specific language governing permissions and

# limitations under the License.

_th 154732

the 117027

he_ 95427

on_ 52529

ion 52199

_in 48458

_of 47302

_to 46961

با مقایسه‌ی این n-gramها و n-gramهای استخراج شده از متن یک صفحه HTML مورد بررسی، میزان شباهت زبان متن صفحه با هر یک از زبان‌های موجود در Tika تعیین می‌شود. بر اساس یک مقدار از پیش تعیین شده برای ReasonablyCertain بودن برای زبان تشخیص داده شده، زبان شناسایی شده یا مقدار null بازگردانده می‌شود.

کلاس LanguageIdentifier در Tika برای تعیین زبان متن، میزان فاصله content profile آن متن را (که مشابه با Language Profile یک زبان است) با Language Profile زبان‌های موجود در Tika تعیین می‌کند و زبانی که کمترین فاصله را با متن موجود دارد، در صورت رسیدن به یک اطمینان نسبی از  زبان شناسایی شده، برمی‌گرداند. فاصله بین متن موجود و زبان‌های مختلف برمبنای فاصله اقلیدسیِ بسامد نسبی n-gramهای (یعنی نسبت بسامد هر n-gram به مجموع بسامد n-gramهای موجود) واقع در profile متن و profile زبان، محاسبه می‌شود.

public static String parseToPlainText(String filePath) {
    //If Your document contained more than 100000 characters, Set writeLimit to (-1) For receive the full text of the document.
    BodyContentHandler handler = new BodyContentHandler(-1);
    AutoDetectParser parser = new AutoDetectParser();
    Metadata metadata = new Metadata();
    try (FileInputStream stream = new FileInputStream(filePath)){
        parser.parse(stream, handler, metadata);
        return handler.toString();
    } catch (org.xml.sax.SAXException | IOException | TikaException ex) {
        JOptionPane.showMessageDialog(null, ex.getMessage(), "Exception in: MyTikaParser-parsToPlainText()", JOptionPane.ERROR_MESSAGE);
    }
    return null;
}

 

public static String identifyLanguage(String text) {
    LanguageIdentifier identifier = new LanguageIdentifier(text);;
    if (identifier.getLanguage().equalsIgnoreCase("fa")){
        if (text.contains("گ") || text.contains("چ") || text.contains("پ") || text.contains("ژ")){
            return "fa";
        } else {
            return "ar";
        }
    }else {
        return identifier.getLanguage();
    }

-------------------------------------------------------

منبع: https://tika.apache.org , http://bigdata-ir.com

 

 

 

 

شرکت دانش بنیان رایانش سریع هزاره ایرانیان به منظور ارائه راهکارهای رایانش سریع، تحلیل داده، بیگ دیتا و کلان داده به سازمانها و شرکتهای عصر دیجیتال تشکیل شده است. خدماتی از جمله طراحی راهکارهای بیگ دیتا، راه اندازی دریاچه داده و انباره داده، ساخت کاتالوگ داده، تحلیل داده و یادگیری ماشینی و ... از جمله فعالیتهای این شرکت می باشد.

 

 

آخرین مقالات

کامپایل و نصب mfix-2016.1

درک عملکرد دستگاه های انرژی، محیط زیست و فرایندها...

معرفی کامل صف پیشرفته کاف...

آپاچی کافکا نیز پلت فرم متن باز به منظور پردازش جر...

روندهای معماری داده در سا...

هدف اصلی از پیاده‌سازی معماری داده، استانداردسازی...

کامپیوترهای کوانتومی: انف...

کامپیوترهای کوانتومی انفجاری در سرعت محاسبات ایجا...

رایانش مرزی یا EDGE COMPU...

در این مقاله تصمیم داریم با مفهومی به نام رایانش...

پردازش سریع تصاویر دریافت...

پردازش سریع تصاویر دریافت از راه دور (RS) در بسیار...

امنیت در مجازی سازی و رای...

مجازی سازی و رایانش ابری در رایانش ابری کامپوننت...

الگوریتم‌‌های پیش‌بین و ک...

استفاده از الگوریتم‌های پیش‌بین و هوش مصنوعی به د...

استفاده از سیستم چند عامل...

رایانش ابری یکی از راه حل های فشرده توسعه یافته بر...

۶ مهارت پر تقاضای بازار د...

متخصص دانش ابری (Cloud professional) یکی از عناوی...

جریان موازی بین منابع HPC...

چکیده انجام تجزیه و تحلیل یا تولید تصویری همزمان ب...

پردازش داده‌های جریانی در...

با ظهور وب ۲٫۰ و اینترنت اشیا، ردگیری همه نوع اطلا...

معرفی روش ها و ارائه پیشن...

چكیده محاسبات ابری یک فنآوری جدید نیست؛ بلکه روشی...

آیا فرآیند دموکراتیزه شدن...

ما وسط یک تحول تکنولوژیکی هستیم که شیوه سازماندهی...

کارکرد نظارتی و مدیریتی م...

محاسبات ابری و اینترنت اشیا به عنوان دو مبحث داغ د...

پیوند کلان داده با هوش مص...

سیستم‌های نرم‌افزاری تجاری همچون سرویس‌های ERP و...

محاسبات ابری قدرت رقابتی...

آیا فناوری دیجیتال، یک نیروی دموکراتیزه کننده است...

معماري لامبدا در مقابل مع...

معماري لامبدا تولید بی وقفه داده ها در دنیاي امروز...

زبان برنامه‌نویسی Milk سر...

زبان برنامه‌نویسی Milk که توسط دانشگاه MIT توسعه...

بیگ دیتا ، یادگیری ماشین...

سازمان‌ها گاهی اوقات به سختی تلاش می‌کنند تا با دس...

محاسبات مه چه هستند و چه...

در ابتدا همه چیز «ابر» بود، ولی حالا کلمه جدید «مه...

توسعه هوش مصنوعی مبتنی بر...

به گزارش ایسنا و به نقل از انگجت، پژوهشگران "ام.آی...

نگاهی به کاربردهای رایانش...

رایانش ابری مبحثی است که این روزها زیاد به آن پرد...

نرم افزار شبیه سازی، آنال...

دانلود CST Studio Suite: ارائه راه حل های محاسبات...

دانلود Siemens Star CCM+...

نرم افزار Star CCM یک ابزار شبیه سازی قدرتمند است...

ورود بیگ دیتا به صنعت دار...

تکنولوژی در حال ورود به صنعت داروسازی است و پیش‌بی...

چهارمین جلسه meetup: اصلا...

مهاجمان اغلب با استفاده از اشتباهات کدنویسی کوچک و...

مدیریت خصوصیات صف در کلاس...

 لیست زیر ,ویژگی های صف را نمایش می دهد : acl_grou...

AMD از رویکرد طراحی تازه‌...

AMD چند روز پیش به‌صورت رسمی از رویکرد طراحی جدیدی...

دومین جلسه meet up:مقدمه...

فهرست : توضیح مختصر از توسعه ی کلودسیم نصب کلودسیم...

گالری تصاویر

hacklink al duşakabin fiyatları fethiye escort bayan escort - vip elit escort dizi film izle erotik film izle duşakabin hack forum marsbahis betkom marsbahisgirtr holiganbet