Wednesday, January 13, 2016

கூகுளின் இலவச எழுத்துணரி

பழைய அச்சு நூல்களைப் பாதுகாக்க ஒரு எளிய வழி, அவற்றை ஒரு ஒளி வருடி (scanner) ல் வருடி, உயர்தரப் படங்களாக சேமித்து வைப்பது. இவ்வாறு மின்மயமாக்கும் பணியை (Digitization) பலரும் பல்வேறு இடங்களில் இயன்ற போது செய்து வருகின்றனர். தமிழ் இணையக் கல்விக் கழகம், தமிழ் மரபு அறக்கட்டளை போன்ற அமைப்புகளும், பொள்ளாச்சி நசன் போன்ற தனியாரும் செய்து வருகின்றனர்.

விலை குறைந்து வரும் ஒளி வருடிக் கருவிகளும் camscanner போன்ற திறன்பேசிச் செயலிகளும் கொண்டு இன்று ஆர்வம் உள்ள எவரும் அச்சு நூல்களை மின்னூலாக்கி விடலாம்.

பொதுவாக இந்த மின்னூல்கள் JPEG அல்லது PDF வடிவிலேயே சேமிக்கப் படுகின்றன. மின்னூல்களின் உண்மையான பயன்கள் அவை உரை வடிவில் இருந்தால் மட்டுமே கிடைக்கும். Epub, Mobi, HTML போன்ற வடிவங்களுக்கு மாற்றுதல், மின்னூல் படிப்பான் (Ebook reader), திறன்பேசிகள் போன்ற கருவிகளில் படித்தல், நூல்களுக்குள் தேவையான வார்த்தைகளைத் தேடுதல் போன்றவற்றை PDF ல் செய்ய இயலாது.

ஒரு PDF ஐ உரை வடிவில் மாற்ற, தட்டச்சு செய்வது தான் ஒரே சிறந்த வழியாக இருந்து வருகிறது. PDF ல் இருந்து உரையை அப்படியே பிரித்தெடுக்கும் முறை இருந்தால் நன்றாக இருக்கும் என்பது ஒரு நெடு்ங்கனவு. இதற்கு OCR – Optical character recognition என்று பெயர். ஆங்கிலத்தில் tesseract OCR என்ற கட்டற்ற மென்பொருள் இதை சிறப்பாக செய்கிறது.

தமிழில் ஒளி உணரிக்கான தேவையும் ஏக்கமும் வெகு காலமாகவே உள்ளது. Tesseract OCR க்கு வெவ்வேறு தமிழ் எழுத்துருக்களை அறிமுகப்படுத்தும் முயற்சியும் நடைபெற்று வருகிறது. என் நண்பர் பாலவிக்னேஷ் அந்த ஆய்வில் ஈடுபட்டுள்ளார். 
kbalavignesh@gmail.com
https://printalert.wordpress.com/2014/10/28/tesseract-training-more-fonts/


இது தவிர பொன் விழி எனும் OCR மென்பொருளும் learnfun நிறுவனத்தால் விற்கப்பட்டுகிறது.
http://learnfunsystems.com/products/tamil.htm

மத்திய அரசும் OCR ஆய்வு செய்து வருகிறது. (IISc, Banglore) ஆய்வுகளுக்கும் தனியார் அமைப்புகளுக்கும் மட்டும் வழங்கப் படுகிறது.
மக்கள் பணத்தில் நடக்கும் ஆய்வுகளும் மென் பொருட்களும் பொது மக்களுக்கு மறுக்கப்படுவது விந்தையே.

ஆங்கிலத்தில் மொழி சார் மென்பொருட்களான சொற்பிழைத் திருத்தி, இலக்கணப் பிழைத் திருத்தி,OCR, Text to speech, speech to text போன்றவை சிறப்பாக இருக்க முக்கியக் காரணம் அவற்றின் மீதான ஆய்வுகளும் மென் பொருட்களும் கட்டற்ற முறையில் மூலநிரலுடன் பொது மக்களுக்கு எளிதில் கிடைப்பது தான். அரசு நிறுவனங்களும் பல்கலைக்கழகங்களும் தமது படைப்புகளை மக்களுக்கு மூல நிரலுடன் அளிக்கின்றன. அவற்றைப் பலரும் தொடர்ந்து மேம்படுத்தி வருகின்றனர்.

தமிழிலோ நிலைமை தலைகீழ். அரசும் பல்கலைக் கழகங்களும் தம் மென்பொருட்களையும் ஆய்வுகளையும் யாருக்கும் தருவதில்லை. ஆய்வு அறிக்கையும் மென் பொருட்களும்  பீரோவில் பூட்டி வைக்கப் படுகின்றன. இதே ஆய்வு மீண்டும் வேறு ஒரு அரசுத் துறையில், வேறு பல்கலைக்கழகத்தில் மீண்டும் பெரும் பொருட்செலவுடன் தொடங்கும். பிறகு பீரோவில் ஒளிந்து கொள்ளும்.

இதனால்தான் தமிழுக்காக அதிக மென்பொருட்கள் இல்லை.  தமிழ்நாட்டில் மென்பொருள் துறையில் வேலை செய்பவர்கள் இல்லாத ஊரே இல்லை எனலாம். ஆனாலும் ஒரு சிறந்த சொற்பிழைத் திருத்தியோ, இலக்கணப் பிழைத் திருத்தியோ இல்லை. நாம் படிக்கும் செய்தித்தாள்களில், விளம்பரங்களில், இணையப் பக்கங்களில், சுவரொட்டிகளில் எழுத்துப்பிழை கண்டால், ஒவ்வொரு மென்பொருள் வல்லுனரும் வெட்கப்பட வேண்டும்.

தற்போது மொழியியல் ஆய்வுகளில் கூகுள் போன்ற நிறுவனங்களும் விக்கிமீடியா போன்ற அமைப்புகளும் பெரும் ஆர்வம் காட்டி வருகின்றன.

சமீபத்தில் தமிழர்களின் நெடுநாள் கனவான OCR, எழுத்துணரியை கூகுள் இலவசமாக வெளியிட்டுள்ளது. Google Drive ல் ஒரு படத்தை ஏற்றி, அதை Google Doc ஆகத் திறந்தால் OCR செய்யப்பட்டு, படமும் அதற்கான உரையும் கிடைக்கிறது. தமிழ் உள்ளிட்ட 200 மொழிகளில் கிடைக்கிறது.

இதற்கான செய்முறை இதோ.


http://www.thewindowsclub.com/google-drive-convert-image-to-text

Google Drive இல் 2MB இற்கு குறைவான படக்கோப்பினை தரவேற்றம் செய்யுங்கள் .பின்னர் அந்த கோப்பில் வலது கிளிக் செய்து Google Doc ஊடாக திறந்தால் அது சொற்கோப்பாக மாறிவிடும்

மேலதிக உதவி
https://support.google.com/drive/answer/176692?hl=en

மாற்றப்பட்ட எடுத்துக்காட்டான கோப்புகள்
https://docs.google.com/document/d/1OXre4-phQOayE0wyGTttQq-eD3Djt_alsuhkmS8BeRI/edit
https://docs.google.com/document/d/12_6eTMMrDbWcVMQIvv8kGFbHizYcG8_ca4OieBbKjUw/edit


இது சிறப்பாக வேலை செய்ய, படம் குறைந்தது 300 DPI ஆவது இருக்க வேண்டும். அதற்கும் குறைவாக இருந்தால் எழுத்துக்கள் சரியாக வருவதில்லை.

இதுவரை வந்த எழுத்துணரி மென்பொருட்களில் பெருமளவு சிறப்பாக இருப்பது இதுவே. ஒரு பெரிய நூலின் ஒவ்வொரு படமாக ஏற்றி, அதை OCR செய்து உரையாக மாற்றி சேமிப்பது கடினம். அதை தானியக்கமாகச் செய்ய ஒரு மென்பொருள் உருவாக்கியுள்ளேன். லினக்ஸ் இயங்குதளத்தில் பைதான் மொழியில் எழுதினேன். கட்டற்ற மென்பொருளான இதன் மூலநிரலை இங்கே பதிவிறக்கலாம்.
https://github.com/tshrinivasan/google-ocr-python
இதனை மேம்படுத்தவும், பிற இயக்குதளங்களுக்கு மாற்றவும் விரும்புவோர் செய்து கொள்ளலாம்.

உங்களிடம் உள்ள எல்லா PDF ஆவணங்களையும் உரையாக கூடிய விரைவில் மாற்றிக் கொள்ளுங்கள். தன் சேவையை கூகுள் எப்போது வேண்டுமானாலும் நிறுத்தி விடலாம். Orkut, RSS reader, Buzz, code search, wave என தன் சேவையை மூடுவது கூகுள் வழக்கமாகச் செய்யும் ஒன்று.

தமிழுக்கென கட்டற்ற மென்பொருளாக ஒரு OCR உருவாக்குவது,  Tesseract OCR க்கு தமிழைப் பயிற்றுவிப்பது போன்றவையே நல்ல, நிரந்தரத் தீர்வுகள். ஆர்வமுள்ளோர் எனக்கு எழுதுங்கள். இணைந்து பணியாற்றி நம் கனவுகளை நாமே நனவாக்குவோம்.
http://www.youtube.com/watch?v=PH9TnD67oj4




 ••••••••

மலைகள் இதழ் 83 ல் எழுதிய கட்டுரை.
http://malaigal.com/?p=7382
Post a Comment