பழைய அச்சு நூல்களைப் பாதுகாக்க ஒரு எளிய
வழி, அவற்றை ஒரு ஒளி வருடி (scanner) ல் வருடி, உயர்தரப் படங்களாக
சேமித்து வைப்பது. இவ்வாறு மின்மயமாக்கும் பணியை (Digitization) பலரும்
பல்வேறு இடங்களில் இயன்ற போது செய்து வருகின்றனர். தமிழ் இணையக் கல்விக்
கழகம், தமிழ் மரபு அறக்கட்டளை போன்ற அமைப்புகளும், பொள்ளாச்சி நசன் போன்ற
தனியாரும் செய்து வருகின்றனர்.
விலை குறைந்து வரும் ஒளி வருடிக் கருவிகளும் camscanner போன்ற திறன்பேசிச் செயலிகளும் கொண்டு இன்று ஆர்வம் உள்ள எவரும் அச்சு நூல்களை மின்னூலாக்கி விடலாம்.
பொதுவாக இந்த மின்னூல்கள் JPEG அல்லது PDF வடிவிலேயே சேமிக்கப் படுகின்றன. மின்னூல்களின் உண்மையான பயன்கள் அவை உரை வடிவில் இருந்தால் மட்டுமே கிடைக்கும். Epub, Mobi, HTML போன்ற வடிவங்களுக்கு மாற்றுதல், மின்னூல் படிப்பான் (Ebook reader), திறன்பேசிகள் போன்ற கருவிகளில் படித்தல், நூல்களுக்குள் தேவையான வார்த்தைகளைத் தேடுதல் போன்றவற்றை PDF ல் செய்ய இயலாது.
ஒரு PDF ஐ உரை வடிவில் மாற்ற, தட்டச்சு செய்வது தான் ஒரே சிறந்த வழியாக இருந்து வருகிறது. PDF ல் இருந்து உரையை அப்படியே பிரித்தெடுக்கும் முறை இருந்தால் நன்றாக இருக்கும் என்பது ஒரு நெடு்ங்கனவு. இதற்கு OCR – Optical character recognition என்று பெயர். ஆங்கிலத்தில் tesseract OCR என்ற கட்டற்ற மென்பொருள் இதை சிறப்பாக செய்கிறது.
தமிழில் ஒளி உணரிக்கான தேவையும் ஏக்கமும் வெகு காலமாகவே உள்ளது. Tesseract OCR க்கு வெவ்வேறு தமிழ் எழுத்துருக்களை அறிமுகப்படுத்தும் முயற்சியும் நடைபெற்று வருகிறது. என் நண்பர் பாலவிக்னேஷ் அந்த ஆய்வில் ஈடுபட்டுள்ளார்.
kbalavignesh@gmail.com
https://printalert.wordpress. com/2014/10/28/tesseract- training-more-fonts/
இது தவிர பொன் விழி எனும் OCR மென்பொருளும் learnfun நிறுவனத்தால் விற்கப்பட்டுகிறது.
http://learnfunsystems.com/ products/tamil.htm
மத்திய அரசும் OCR ஆய்வு செய்து வருகிறது. (IISc, Banglore) ஆய்வுகளுக்கும் தனியார் அமைப்புகளுக்கும் மட்டும் வழங்கப் படுகிறது.
மக்கள் பணத்தில் நடக்கும் ஆய்வுகளும் மென் பொருட்களும் பொது மக்களுக்கு மறுக்கப்படுவது விந்தையே.
ஆங்கிலத்தில் மொழி சார் மென்பொருட்களான சொற்பிழைத் திருத்தி, இலக்கணப் பிழைத் திருத்தி,OCR, Text to speech, speech to text போன்றவை சிறப்பாக இருக்க முக்கியக் காரணம் அவற்றின் மீதான ஆய்வுகளும் மென் பொருட்களும் கட்டற்ற முறையில் மூலநிரலுடன் பொது மக்களுக்கு எளிதில் கிடைப்பது தான். அரசு நிறுவனங்களும் பல்கலைக்கழகங்களும் தமது படைப்புகளை மக்களுக்கு மூல நிரலுடன் அளிக்கின்றன. அவற்றைப் பலரும் தொடர்ந்து மேம்படுத்தி வருகின்றனர்.
தமிழிலோ நிலைமை தலைகீழ். அரசும் பல்கலைக் கழகங்களும் தம் மென்பொருட்களையும் ஆய்வுகளையும் யாருக்கும் தருவதில்லை. ஆய்வு அறிக்கையும் மென் பொருட்களும் பீரோவில் பூட்டி வைக்கப் படுகின்றன. இதே ஆய்வு மீண்டும் வேறு ஒரு அரசுத் துறையில், வேறு பல்கலைக்கழகத்தில் மீண்டும் பெரும் பொருட்செலவுடன் தொடங்கும். பிறகு பீரோவில் ஒளிந்து கொள்ளும்.
இதனால்தான் தமிழுக்காக அதிக மென்பொருட்கள் இல்லை. தமிழ்நாட்டில் மென்பொருள் துறையில் வேலை செய்பவர்கள் இல்லாத ஊரே இல்லை எனலாம். ஆனாலும் ஒரு சிறந்த சொற்பிழைத் திருத்தியோ, இலக்கணப் பிழைத் திருத்தியோ இல்லை. நாம் படிக்கும் செய்தித்தாள்களில், விளம்பரங்களில், இணையப் பக்கங்களில், சுவரொட்டிகளில் எழுத்துப்பிழை கண்டால், ஒவ்வொரு மென்பொருள் வல்லுனரும் வெட்கப்பட வேண்டும்.
தற்போது மொழியியல் ஆய்வுகளில் கூகுள் போன்ற நிறுவனங்களும் விக்கிமீடியா போன்ற அமைப்புகளும் பெரும் ஆர்வம் காட்டி வருகின்றன.
சமீபத்தில் தமிழர்களின் நெடுநாள் கனவான OCR, எழுத்துணரியை கூகுள் இலவசமாக வெளியிட்டுள்ளது. Google Drive ல் ஒரு படத்தை ஏற்றி, அதை Google Doc ஆகத் திறந்தால் OCR செய்யப்பட்டு, படமும் அதற்கான உரையும் கிடைக்கிறது. தமிழ் உள்ளிட்ட 200 மொழிகளில் கிடைக்கிறது.
இதற்கான செய்முறை இதோ.
http://www.thewindowsclub.com/ google-drive-convert-image-to- text
Google Drive இல் 2MB இற்கு குறைவான படக்கோப்பினை தரவேற்றம் செய்யுங்கள் .பின்னர் அந்த கோப்பில் வலது கிளிக் செய்து Google Doc ஊடாக திறந்தால் அது சொற்கோப்பாக மாறிவிடும்
மேலதிக உதவி
https://support.google.com/ drive/answer/176692?hl=en
மாற்றப்பட்ட எடுத்துக்காட்டான கோப்புகள்
https://docs.google.com/ document/d/1OXre4- phQOayE0wyGTttQq-eD3Djt_ alsuhkmS8BeRI/edit
https://docs.google.com/ document/d/12_ 6eTMMrDbWcVMQIvv8kGFbHizYcG8_ ca4OieBbKjUw/edit
இது சிறப்பாக வேலை செய்ய, படம் குறைந்தது 300 DPI ஆவது இருக்க வேண்டும். அதற்கும் குறைவாக இருந்தால் எழுத்துக்கள் சரியாக வருவதில்லை.
இதுவரை வந்த எழுத்துணரி மென்பொருட்களில் பெருமளவு சிறப்பாக இருப்பது இதுவே. ஒரு பெரிய நூலின் ஒவ்வொரு படமாக ஏற்றி, அதை OCR செய்து உரையாக மாற்றி சேமிப்பது கடினம். அதை தானியக்கமாகச் செய்ய ஒரு மென்பொருள் உருவாக்கியுள்ளேன். லினக்ஸ் இயங்குதளத்தில் பைதான் மொழியில் எழுதினேன். கட்டற்ற மென்பொருளான இதன் மூலநிரலை இங்கே பதிவிறக்கலாம்.
https://github.com/ tshrinivasan/google-ocr-python
இதனை மேம்படுத்தவும், பிற இயக்குதளங்களுக்கு மாற்றவும் விரும்புவோர் செய்து கொள்ளலாம்.
உங்களிடம் உள்ள எல்லா PDF ஆவணங்களையும் உரையாக கூடிய விரைவில் மாற்றிக் கொள்ளுங்கள். தன் சேவையை கூகுள் எப்போது வேண்டுமானாலும் நிறுத்தி விடலாம். Orkut, RSS reader, Buzz, code search, wave என தன் சேவையை மூடுவது கூகுள் வழக்கமாகச் செய்யும் ஒன்று.
தமிழுக்கென கட்டற்ற மென்பொருளாக ஒரு OCR உருவாக்குவது, Tesseract OCR க்கு தமிழைப் பயிற்றுவிப்பது போன்றவையே நல்ல, நிரந்தரத் தீர்வுகள். ஆர்வமுள்ளோர் எனக்கு எழுதுங்கள். இணைந்து பணியாற்றி நம் கனவுகளை நாமே நனவாக்குவோம்.
http://www.youtube.com/watch?v=PH9TnD67oj4
••••••••
மலைகள் இதழ் 83 ல் எழுதிய கட்டுரை.
http://malaigal.com/?p=7382
விலை குறைந்து வரும் ஒளி வருடிக் கருவிகளும் camscanner போன்ற திறன்பேசிச் செயலிகளும் கொண்டு இன்று ஆர்வம் உள்ள எவரும் அச்சு நூல்களை மின்னூலாக்கி விடலாம்.
பொதுவாக இந்த மின்னூல்கள் JPEG அல்லது PDF வடிவிலேயே சேமிக்கப் படுகின்றன. மின்னூல்களின் உண்மையான பயன்கள் அவை உரை வடிவில் இருந்தால் மட்டுமே கிடைக்கும். Epub, Mobi, HTML போன்ற வடிவங்களுக்கு மாற்றுதல், மின்னூல் படிப்பான் (Ebook reader), திறன்பேசிகள் போன்ற கருவிகளில் படித்தல், நூல்களுக்குள் தேவையான வார்த்தைகளைத் தேடுதல் போன்றவற்றை PDF ல் செய்ய இயலாது.
ஒரு PDF ஐ உரை வடிவில் மாற்ற, தட்டச்சு செய்வது தான் ஒரே சிறந்த வழியாக இருந்து வருகிறது. PDF ல் இருந்து உரையை அப்படியே பிரித்தெடுக்கும் முறை இருந்தால் நன்றாக இருக்கும் என்பது ஒரு நெடு்ங்கனவு. இதற்கு OCR – Optical character recognition என்று பெயர். ஆங்கிலத்தில் tesseract OCR என்ற கட்டற்ற மென்பொருள் இதை சிறப்பாக செய்கிறது.
தமிழில் ஒளி உணரிக்கான தேவையும் ஏக்கமும் வெகு காலமாகவே உள்ளது. Tesseract OCR க்கு வெவ்வேறு தமிழ் எழுத்துருக்களை அறிமுகப்படுத்தும் முயற்சியும் நடைபெற்று வருகிறது. என் நண்பர் பாலவிக்னேஷ் அந்த ஆய்வில் ஈடுபட்டுள்ளார்.
kbalavignesh@gmail.com
https://printalert.wordpress.
இது தவிர பொன் விழி எனும் OCR மென்பொருளும் learnfun நிறுவனத்தால் விற்கப்பட்டுகிறது.
http://learnfunsystems.com/
மத்திய அரசும் OCR ஆய்வு செய்து வருகிறது. (IISc, Banglore) ஆய்வுகளுக்கும் தனியார் அமைப்புகளுக்கும் மட்டும் வழங்கப் படுகிறது.
மக்கள் பணத்தில் நடக்கும் ஆய்வுகளும் மென் பொருட்களும் பொது மக்களுக்கு மறுக்கப்படுவது விந்தையே.
ஆங்கிலத்தில் மொழி சார் மென்பொருட்களான சொற்பிழைத் திருத்தி, இலக்கணப் பிழைத் திருத்தி,OCR, Text to speech, speech to text போன்றவை சிறப்பாக இருக்க முக்கியக் காரணம் அவற்றின் மீதான ஆய்வுகளும் மென் பொருட்களும் கட்டற்ற முறையில் மூலநிரலுடன் பொது மக்களுக்கு எளிதில் கிடைப்பது தான். அரசு நிறுவனங்களும் பல்கலைக்கழகங்களும் தமது படைப்புகளை மக்களுக்கு மூல நிரலுடன் அளிக்கின்றன. அவற்றைப் பலரும் தொடர்ந்து மேம்படுத்தி வருகின்றனர்.
தமிழிலோ நிலைமை தலைகீழ். அரசும் பல்கலைக் கழகங்களும் தம் மென்பொருட்களையும் ஆய்வுகளையும் யாருக்கும் தருவதில்லை. ஆய்வு அறிக்கையும் மென் பொருட்களும் பீரோவில் பூட்டி வைக்கப் படுகின்றன. இதே ஆய்வு மீண்டும் வேறு ஒரு அரசுத் துறையில், வேறு பல்கலைக்கழகத்தில் மீண்டும் பெரும் பொருட்செலவுடன் தொடங்கும். பிறகு பீரோவில் ஒளிந்து கொள்ளும்.
இதனால்தான் தமிழுக்காக அதிக மென்பொருட்கள் இல்லை. தமிழ்நாட்டில் மென்பொருள் துறையில் வேலை செய்பவர்கள் இல்லாத ஊரே இல்லை எனலாம். ஆனாலும் ஒரு சிறந்த சொற்பிழைத் திருத்தியோ, இலக்கணப் பிழைத் திருத்தியோ இல்லை. நாம் படிக்கும் செய்தித்தாள்களில், விளம்பரங்களில், இணையப் பக்கங்களில், சுவரொட்டிகளில் எழுத்துப்பிழை கண்டால், ஒவ்வொரு மென்பொருள் வல்லுனரும் வெட்கப்பட வேண்டும்.
தற்போது மொழியியல் ஆய்வுகளில் கூகுள் போன்ற நிறுவனங்களும் விக்கிமீடியா போன்ற அமைப்புகளும் பெரும் ஆர்வம் காட்டி வருகின்றன.
சமீபத்தில் தமிழர்களின் நெடுநாள் கனவான OCR, எழுத்துணரியை கூகுள் இலவசமாக வெளியிட்டுள்ளது. Google Drive ல் ஒரு படத்தை ஏற்றி, அதை Google Doc ஆகத் திறந்தால் OCR செய்யப்பட்டு, படமும் அதற்கான உரையும் கிடைக்கிறது. தமிழ் உள்ளிட்ட 200 மொழிகளில் கிடைக்கிறது.
இதற்கான செய்முறை இதோ.
http://www.thewindowsclub.com/
Google Drive இல் 2MB இற்கு குறைவான படக்கோப்பினை தரவேற்றம் செய்யுங்கள் .பின்னர் அந்த கோப்பில் வலது கிளிக் செய்து Google Doc ஊடாக திறந்தால் அது சொற்கோப்பாக மாறிவிடும்
மேலதிக உதவி
https://support.google.com/
மாற்றப்பட்ட எடுத்துக்காட்டான கோப்புகள்
https://docs.google.com/
https://docs.google.com/
இது சிறப்பாக வேலை செய்ய, படம் குறைந்தது 300 DPI ஆவது இருக்க வேண்டும். அதற்கும் குறைவாக இருந்தால் எழுத்துக்கள் சரியாக வருவதில்லை.
இதுவரை வந்த எழுத்துணரி மென்பொருட்களில் பெருமளவு சிறப்பாக இருப்பது இதுவே. ஒரு பெரிய நூலின் ஒவ்வொரு படமாக ஏற்றி, அதை OCR செய்து உரையாக மாற்றி சேமிப்பது கடினம். அதை தானியக்கமாகச் செய்ய ஒரு மென்பொருள் உருவாக்கியுள்ளேன். லினக்ஸ் இயங்குதளத்தில் பைதான் மொழியில் எழுதினேன். கட்டற்ற மென்பொருளான இதன் மூலநிரலை இங்கே பதிவிறக்கலாம்.
https://github.com/
இதனை மேம்படுத்தவும், பிற இயக்குதளங்களுக்கு மாற்றவும் விரும்புவோர் செய்து கொள்ளலாம்.
உங்களிடம் உள்ள எல்லா PDF ஆவணங்களையும் உரையாக கூடிய விரைவில் மாற்றிக் கொள்ளுங்கள். தன் சேவையை கூகுள் எப்போது வேண்டுமானாலும் நிறுத்தி விடலாம். Orkut, RSS reader, Buzz, code search, wave என தன் சேவையை மூடுவது கூகுள் வழக்கமாகச் செய்யும் ஒன்று.
தமிழுக்கென கட்டற்ற மென்பொருளாக ஒரு OCR உருவாக்குவது, Tesseract OCR க்கு தமிழைப் பயிற்றுவிப்பது போன்றவையே நல்ல, நிரந்தரத் தீர்வுகள். ஆர்வமுள்ளோர் எனக்கு எழுதுங்கள். இணைந்து பணியாற்றி நம் கனவுகளை நாமே நனவாக்குவோம்.
http://www.youtube.com/watch?v=PH9TnD67oj4
••••••••
மலைகள் இதழ் 83 ல் எழுதிய கட்டுரை.
http://malaigal.com/?p=7382
No comments:
Post a Comment