OCR یا نویسه‌خوان نوری و کاربرد آن در نرم‌افزار بایگانی اسناد

4.9/5 - (42 امتیاز)
OCR یا نویسه‌خوان نوری و کاربرد آن در نرم‌افزار بایگانی اسناد
موضوعاتی که در این مقاله به آن‌ها پرداخته خواهد شد، به شرح ذیل است:

OCR مخفف Optical Character Recognition و یا Optical Character Reader می‌باشد و در واقع نرم‌افزار متن خوانی است که برای تشخیص و بازیابی الفبا و نوشته‌های دست‌نویس یا تایپ شده طراحی شده است و در نرم افزار بایگانی اسناد و مدارک برای اسکن اسناد استفاده می‌شود.

کاربردهای OCR

به کمک “نویسه‌خوان نوری” می‌توان متن‌های دست‌نویس یا متونی را که قبلا با ماشین تحریر تایپ شده و یا نوشته‌های چاپ شده را به صورت خودکار به متن‌های کامپیوتری تبدیل نموده و آن‌ها را ذخیره کرد. یعنی تبدیل تصاویر کلمات به کدهای قابل فهم برای کامپیوتر و می دانیم هر متنی که در کامپیوتر ذخیره شود می‌توان روی آن پردازش‌های دلخواهی انجام دهیم.

مثلا می‌توان آن‌ها را ویرایش کرد. یا به عنوان مثال یکی از کاربردهای آن را می‌توان تبدیل حروف و نوشته‌های خطی، به خط بریل (مخصوص نابینایان) دانست و به این ترتیب همه نوشته‌های بشر توسط نابینایان قابل خوانده شدن است.

البته استفاده از OCR تنها برای تبدیل تصویر متون تایپ شده به متن تایپی نیست. بلکه هر جا شما عکسی داشته باشید که در قسمتی از آن حرف یا شماره‌ای وجود داشته باشد، سیستم OCR آن را تشخیص می‌دهد. به عنوان مثال می‌توان از آن در دوربین‌های کنترل سرعت جاده‌ها و همچنین دوربین‌های پلاک‌خوان در پارکینگ‌ها استفاده کرد. دوربین سرعت سنج، به صورت مستمر سرعت خودرو ها را اندازه‌گیری می‌کند و بعد از شناسائی خودروی متخلف، از پلاک خودرو عکس می‌گیرد و حالا با استفاده از سیستم OCR و بدون دخالت انسان می‌توان شماره پلاک ماشین را شناسایی کرده و در سیستم ذخیره نمود و یا آن را به مرکز پلیس اطلاع داد.

بعد از اسکن اسناد توسط سیستم مدیریت و بایگانی اسناد، رایانه پردازشی را بر روی تصویر انجام می‌دهد. ابتدا تصویر را به قسمت‌های مجزا تقسیم می‌کند. بعد با استفاده از الگوریتم‌های پردازش تصویر و هوش مصنوعی حروف کاراکترهایی را از درون متن استخراج می‌کند. اما ممکن است متن شما هنگام عکسبرداری چرخیده باشد. در نتیجه کامپیوتر عکس را چند درجه می‌چرخاند و باز عمل قبل را بر روی آن انجام می‌دهد و نتیجه درست‌تری را به دست می‌آورد. البته در اکثر موارد کار به همین راحتی که گفته می‌شود نیست و بسیاری عملیات پیچیده دیگر باید روی تصویر انجام بگیرد.

انواع او سی آر

در خط‌های دیگر، به ویژه زبان‌هایی که با حروف لاتین نوشته می‌شوند، سال‌هاست که از OCR استفاده می‌شود. اما در ایران چند سالی است این تکنولوژی مورد توجه قرار گرفته.انواع مختلفی از OCR برای متون چاپی و متون دست‌نویس وجود دارد، یعنی نوعی که یک متن قبلا تایپ شده مانند کتاب یا روزنامه را می‌تواند وارد کامپیوتر کند و نوعی که متن دست‌نویس را می‌خواند.

متن‌های دست‌نویس هم به دو صورت گسسته و پیوسته وجود دارند: متن دست‌نویس پیوسته مثل همان چیزهایی است که ما هر از گاهی که دلمان تنگ می‌شود روی کاغذ می‌نویسیم، یا یک نامه، یا یک شعر و غیره. اما متن دست‌نویس گسسته همان نوشته‌هایی است که حروف آن جدا از هم و به صورت گسسته نوشته شده‌اند مثل نام و نام خانوادگی که در فرم‌های آزمون ثبت نام،‌ به صورت هر حرف داخل یک کادر نوشته می‌شوند و یا مانند اعداد.

ویژگی‌های سیستم OCR نرم‌افزار مدیریت اسناد کیداک

شرکت دانش هم‌آرا تکنولوژی OCR را برای زبان فارسی در نرم‌افزار مدیریت اسناد (آرشیو اسناد) خود گسترش داده است. تا جایی که نرم‌افزار KeyDoc به عنوان یکی از دقیق‌ترین و کارآمدترین نرم‌افزارهای بومی در زمینه بایگانی و مدیریت اسناد در کشور شناخته می‌شود و تاکنون مورد اطمینان بسیاری از سازمان‌ها و شرکت‌های ایرانی بوده است.

ویژگی OCR نرم‌افزار کیداک هرگونه متن فارسی و انگلیسی را با دقت بسیار بالا تشخیص داده و برای پردازش‌های بعدی در سامانه دخیره می‌کند.

البته او سی آر تنها یکی از ویژگی‌های پیشرفته سیستم مدیریت هوشمند اسناد و مدارک کیدادک می‌باشد؛ برای آشنایی بیشتر با نرم‌افزار کیداک این مقاله را مطالعه کنید و یا برای کسب مشاوره تخصصصی رایگان و امکان استفاده از دمو نرم‌افزار با کارشناسان شرکت دانش هم‌آرا تماس بگیرید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

برای دریافت مشاوره تخصصی رایگان، با تکمیل فرم زیر منتظر تماس کارشناسان ما باشید!