जनातलं, मनातलं
"कुठे काय" विषयी थोडेसे...
Primary tabs
नमस्कार
(ह्या संकेतस्थळावर इतर संकेतस्थळांविषयीचा मजकूर वाचला आणि हा लेख लिहिण्यास धीर आला. सदर लेख ही कुठल्याही प्रकारची जाहिरात समजू नये तसेच सदर संकेतस्थळाच्या नियमांत बसत नसल्यास काढून टाकला तरी चालेल.)
मी मराठीतली काही प्रमुख संकेतस्थळे नेहेमी वाचतो. अर्थात प्रत्येक वेळी सर्वच मजकूर वाचायला जमतो असे नाही. पण गेल्या काही महिन्यांमधे मी वैयक्तिकरीत्या जास्त कार्यमग्न झालो आणि त्याचप्रमाणे संकेतस्थळांवर होणार्या लिखाणाची वारंवारिताही वाढलेली दिसली. बराच चांगला मजकूर वाचायचा राहून जाउ लागला आणि प्रत्येक वेळी सगळीच्या सगळी स्थळे बघणे अवघड होउन बसले. ह्यावर काही उपाय केला पाहीजे असे माझ्या मनाने घेतले आणि मग मी त्या दृष्टीने शोध घ्यायला सुरुवात केली. सगळ्यात प्रथम विचार मनात आला तो आरएसएस फीड चा. पण त्यात २ अडचणी दिसल्या - सगळ्या संकेतस्थळांचा फीड नव्हता आणि ज्यांचा होता तो माझ्या दृष्टीने उपयोगाचा नव्हता. मग नजर गेली 'मराठी ब्लॉग विश्व ' वर - अर्थात ते फक्त ब्लॉग पुरतेच मर्यादित होते. पण आपणही अशाच प्रकारचे काही तरी करावे ह्या विचाराने उचल खाल्ली.
मग शोधता शोधता नजर पडली - 'स्क्रीन स्क्रेपिंग' वर - तसच काहीसं करुन बघायच अस ठरवल. मग एक संकेतस्थळ निवडल - छोटासा कोड लिहिला आणि संपूर्ण मजकूर माझ्या संगणकावर उतरवून घेण्यात मला यश मिळाले. नंतरची पायरी म्हणजे - त्यातल्या हव्या त्या विभागाच्या हव्या त्या नोंदी वेगळ्या काढणे. हे काम अर्थात थोडे किचकट होते आणि आधी कधी केले नसल्यामुळे नीटशी कल्पना नव्हती. अजून तपास करता 'रेग्युलर एक्स्प्रेशन्स' वापरावी लागतील असे कळले. हे काम थोडे परिचयाचे असले तरी एवढ्या मोठ्या प्रमाणावर आधी केले नव्हते. इथे मदतीला धावून आले - एक सर्वांगसुंदर एप्लिकेशन 'एक्स्प्रेस्सो ' - रेग्युलर एक्स्प्रेशन्स लिहिणार्यांसाठी गरजेची गोष्ट. ह्याच्यामुळे काम खूपच भरभर होउ लागले. एकदाची समस्या एका संकेतस्थळापुरती सुटली आणि मार्ग सापडला.
मग विचार सुरु झाला - की एकापेक्शा अधिक संकेतस्थळे जर जोडायची असतील (आणि तशी गरज अर्थातच होतीच) - तर नीट विचार करुन 'आराखडा' ठरवावा लागेल.
विचारात घेतलेल्या गरजा अशा होत्या -
१ आज्ञावलीत बदल न करता गरजेप्रमाणे संकेतस्थळे जोडता यायला हवीत.
२ संकेतस्थळांचे विभाग (कथा, कविता, चर्चा) नीट हाताळता यायला हवेत.
३ एखादे संकेतस्थळ जर एखाद्या दिवशी उघडत नसेल तर ती बाब नीट हाताळता यायला हवी.
४ बर्याच स्थळांवर 'अर्धवट दुवे' असतात - ती व्यवस्थित हाताळली गेली पाहिजे.
५ कुठे कमी तर कुठे जास्त पोस्ट्स ची संख्या नीट हाताळता यायला हवी.
६ आज्ञावलीत कुठेही हार्ड कोडींग नको.
७ मजकूराचे 'बाह्यांग' (दर्शनिय स्वरुप) हे 'साचा' (टेंप्लेट) स्वरुपातच वापरावे.
८ मुख्यपृष्ठावर 'सगळे एकत्रित' दिसले पाहीजे -ते सुद्धा दिलेल्या संख्येच्या प्रमाणातच.
एवढा सगळा विचार केल्यावर मग 'बाह्य विदा मदतीने' (मेटा डाटा) हा प्रश्न बर्याच अंशी सोपा करता येईल असा विचार केला आणि 'बाह्य विदा' एक्सएमएल मधे साठवायचे ठरविले. चुकादुरुस्तीस सोपे जावे म्हणून डॉट नेट मधे करायचे ठरविले. जमले. मग अजून संकेतस्थळे जोडली. पहा - "कुठे काय" - सध्या दर दोन तासांनी अद्ययावत होते.
सध्याच्या आवृत्तीतील अडचणी
- सगळ्याच संकेतस्थळांची दिनांक निर्देशन रचना सारखी नसल्यामुळे सगळीकडून नीट तारखा मिळणे कठिण जाते.
- त्याचमुळे (आणि वेगळ्या आराखड्यामुळे / आज्ञायनामुळे) तारीखवार वर्गवारी सध्या शक्य होत नाहीये
उपयोग
- सगळ्या संकेतस्थळांवरील माहिती एकत्रित एकाच ठिकाणी
- संकेतस्थळांवरील भार थोडातरी कमी होईल (अशा गोड स्वप्नात दंग :) )
- अजून कुठल्याही अशाच प्रकारच्या योजनेसाठी उपयोग
(हे सगळे लिहिण्याचे कारण म्हणजे एकतर आपल्यापर्यंत हे पोचवावे आणि ही जी आज्ञावली आहे तीचा इतर बाबतीत अगदी सहज उपयोग करुन घेण्यासारखा आहे. उदाहरणार्थ : सध्या अर्थिक मंदी असल्यामुळे बरेच लोक नोकर्या शोधत आहेत - अशावेळी ही आज्ञावली वापरुन एक 'सगळ्या नोकरी शोध संकेतस्थळांवरचा' विदा एकत्र करुन प्रदर्शित करणे सहज शक्य आहे.)
भविष्यातील योजना
१ मुक्तस्त्रोत भाषेत आज्ञायन
२ होस्टींग सर्व्हर वर स्थापना आणि तिथूनच अद्ययावत करण्याची सोय (हा प्रकार महाग आहे असे समजते)
३ गुगल विजेट्स सारखी 'उघड झाप'
आपल्या सूचनांचे स्वागत आहे. कोणाला इच्छा असल्यास आज्ञावली उपलब्ध करुन दिली जाईल.
आपला नम्र
-- वाचक
आवडला.
- (सर्वव्यापी)प्राजु
http://praaju.blogspot.com/
उपक्रम आवडला...
अवांतरः तुम्हाला 'कुठे काय' वर दोन ओळींचे काथ्याकूट वगळता येतील का?
अनामिक.
तू तयार केलेले डिज़ाइन स्पेसिफिकेशन्स साहिच आहेत.
भविष्यातल्या स्केलेबीलिटी साठी आवश्यक आहेत.
बाकी एक गोष्टा मला कळली नाही. तू म्हणतोस की स्क्रीन स्करेपिंग चा उपयोग केला. पण मग भविष्यात तुला एखादी नवीन
साइट जोडायची झाली तर स्क्रीन स्क्रेपिंग चा कोड त्याप्रमाणे बदलायला नाही का लागणार?
कारण की प्रत्येक साइट ची मांडणी वेगळी. मग तुझी क्रमांक एक ची गरज कशी काय पुरी होते?
रेग्युलर एक्सप्रेशन साठी वेगळा प्रोग्रॅम इनस्टॉल करायची गरज नाही.
ही साइट बघ
http://www.fileformat.info/tool/regex.htm
माझ्या माहितीप्रमाणे वेगळा प्रोग्रॅम इन्स्टॉल करायची गरज नाही पण प्रत्येक साईट साठी वेगळे regex (regular expression) लिहावे लागते.
मला लूक आवडला... :)
आता हे संस्थळही कायम वापरेन...धन्यवाद...
______________________________
पायाला घाण लागू नये म्हणून जपतोस, मनाला घाण लागू नये म्हणून जप हो श्याम....
ही आमची अनुदिनी ... http://bhadkamkar.blogspot.com/
मी पण नियमित वापरेन. पूर्वी पण वापरत होतो. मधेच विस्मरण झाले होते. लूक छान आहे.
बिपिन कार्यकर्ते
अत्यंत छान लेख.
बाकी नविन लिखाण कोणत्या निकषावर ठरते हे कळले नाही. म्हणजे गद्य लेखनात मिपाचे १६ पोस्ट (मागील २ दिवस जुने), मनोगताचे १५ पोस्ट (मागील ७ दिवस जुने) तर उपक्रमाचे १४ पोस्ट दिसत आहेत (मागील १० दिवस जुने).
मी जर मागील २० दिवस आंतरजालावर आलो नसेन तर मला लिखाण कसे वाचायला मिळेल ? (म्हणजे कुठे काय वापरुन वाचणे सोपे कसे होइल ?)
उपक्रम स्तुत्य आहे याबाबत वाद नाही.
तुमचा उपक्रम एकदम झकासच आहे. विशेषतः मिसळपाव, मनोगत, उपक्रम, मायबोली, सुरेशभट यांसारख्या दिग्गज संस्थ.चे दुवे एकाच पानावर उपलब्ध करून दिल्याबद्दल दुग्धशर्करा योग.
मला यातले काही ज्ञान नाही. पण अर्थअविषयक, आरोग्य, इ. अनेक पोटविषयही त्यात यावेत असे वाटते. शिवाय एखाद्या विभागात प्रत्येक संकेतस्थळावरच्या ताज्या १० बातम्या दिसत असल्या तरी त्यापूर्वीच्या बातम्या पहायची सोयही हवी असे वाटते. थोडक्यात नव्या पोस्ट, जुन्या पोस्ट पाहाता यायला हव्यात.
पुढील वाटचालीकरता शुभेच्छा ! :-)
___________
माझ्या लिखाणावर सर्व प्रकाशकांची मोजकी प्रतिक्रिया असते : साभार परत !
_____________
माझी दुनिया
अभिनव उपक्रम आवडला.
तुमचे संकेतस्थळ न्याहळकाच्या फेव्हरिट्स मधे सामील केले आहे.
मी होमपेज म्हणूनच सामील केलयं :-)
____________
माझ्या लिखाणावर सर्व प्रकाशकांची मोजकी प्रतिक्रिया असते : साभार परत !
_____________
माझी दुनिया
स्तुत्य उपक्रम........संकेतस्थळांवरील वाचनिय पण अनवधानाने वाचायचे राहुन गेलेले सर्व लिखाण
एकाच ठिकाणी उपलब्ध करुन दिल्याबद्दल मनःपुर्वक आभार.
वेळेअभावी सगळ्याच संकेतस्थळांना भेट देता न येणार्यांसाठी अतिशय उत्तम.
"अनामिका"
खुप छान संकेतस्थळ आहे.
तुमची ही कल्पना मुक्तस्त्रोतात येवो अशी शुभकामना.
लेख छान झाला आहे. मुद्देसुद आणि सुटसुटीत.
नीलकांत
मस्त आहे एकदम..
होम पेजच करुन टाकतो ह्या पेजला.
एक सल्ला.
स्क्रीन स्क्रेपिंग हे संकेतस्थळचालकाची परवानगी नसताना त्या संकेतस्थळाची प्रत काढल्यासारखे आहे. कारण बहुतेक स्क्रीन स्क्रेपर्स "रोबोट्स.टेक्स्ट" मधील सूचनांचे पालन करीत नाहीत.
संचारक (क्रालर्स) हे रोबोट्स.टेक्स्ट चे पालन करतात. अन्यथा त्यांच्यावर कायद्यानुसार कारवाई करण्याची डीएमसीए मध्ये सोय आहे.
आपण ज्या संकेतस्थळांचे स्क्रीन स्क्रेपिंग करता आहात, त्यांचे चालक अर्थातच कायद्याच्या भानगडीत पडणार नाहीत (स्वतःच्या खिशाला खार लावून ते ही संकेतस्थळे चालवतात हेच खूप झाले.)
पण आपण ह्या सर्वांना आर एस एस फीड्स् (वाहिन्या) सुरू कराव्यात ह्याविषयी आग्रह केलेला आहे का ?
कारण एकदा त्यांनी स्वतःहून आर एस एस वाहिनी सुरू केली, की तुम्ही कायद्याच्या कचाट्यातून सुटलात.
-- सर्किट
आणखी एक , जश्या या संस्थ वरच्या नव्या लेखांच्या फिड्स आपण देत आहात, तसेच त्या त्या लेखांच्या प्रतिसादाच्या फिड्स देऊ शकता का ?
अवांतर : मी फाफॉ न्याहाळक वापरत असल्याने ,’कुठे काय ?’ या संस्थ ला होम पेज केले आहे शिवाय फाफॉ चे अपडेट स्कॅनर एक्सटेंशन वापरून ’कुठं काय ?’ ची सगळी पाने ताबडतोब अद्ययावत करून घेते.
____________
माझ्या लिखाणावर सर्व प्रकाशकांची मोजकी प्रतिक्रिया असते : साभार परत !
_____________
माझी दुनिया
मनापासून धन्यवाद.
बाकी तांत्रिक बाबी डोक्यावरून गेल्या पण चालू दे.
(म्हणूनच प्रोग्रॅमिंग सोडून प्रोजेक्ट मॅनेजमेंटकडे वळलो ;) )
सर्वप्रथम सगळ्यांना धन्यवाद उत्साहवर्धक प्रतिक्रियांबद्दल... (एवढा प्रतिसाद मिळेल असे खरेच वाटले नव्हते)
आता काही शंकांचे समाधान करण्याचा माझ्यापरीने प्रयत्न करतो.
गोगोल
लंबुटांगने दिलेले उत्तर बरोबर आहे, एखादे नविन संस्थळ जोडताना कोड बदलायची गरज नाही - एक्सएमएल फाईल मधे नविन संस्थळाची माहिती (आणि रेग्युलर एक्स्प्रेशन) जोडले की झाले.
यात्री
आज्ञावली फक्त त्या त्या संस्थळावर जाउन योग्य त्या मार्गावर वर जाउन एचटीएमएल गोळा करते. आणि मग रेग्युलर एक्स्प्रेशन वापरुन पोस्ट्स वेगळ्या करते आणि त्यातल्या पहिल्या १० (एक्सएमएल फाईल मधल्या संख्येप्रमाणे) दाखवते. मान्य आहे ह्याच्यात काही त्रुटी असू शकतिल पण दुसरा उपाय अद्याप सापडलेला नाही.
दुनिया
जशी जशी इतर विषयांवरची संस्थळे उपलब्ध होतील तशी तशी ती जोडली जातील. एक ध्यानात घ्यावे की इथे फक्त तीच संस्थळे जोडली जातील जी 'फोरम' स्वरुपात आहेत म्हणजेच सारखी अद्ययावत होत असतात.
सर्किट
आज्ञायन कुठल्याही प्रकारचे 'स्क्रीन स्क्रेपिंग' करत नाही. फक्त त्या त्या दुव्यावर जाउन एचटीएमएल गोळा करते. हीच क्रिया कोणीही त्या संकेतस्थळाला भेट देतो तेव्हा होत असते. शिवाय ह्याच्यावर जाहिराती आणि वर्गणी दोन्ही नाही. आणि श्रेय अव्हेर तळटीपेत दिलेला आहे. त्यातून एखाद्या संकेतस्थळ चालकांनी परवानगी नाकारली तर त्या स्थळाची जोडणी काढून टाकता येईल.
नमस्कार
आपल्या सर्वांना कळविण्यास आनंद होतो की "कुठे काय" ह्या संकेतस्थळाला आता स्वत:चे घर मिळाले आहे. नवा पत्ता आहे http://www.kuthekay.com
ह्या ठिकाणी जाहिराती, पॉप-अप्स वगैरे अजिबात नाहीत.
जरुर भेट द्या आणि आपला अभिप्राय (टीका, सूचना) नक्की कळवा.
आपला नम्र
-- वाचक
खूप 'आयटी'वालं टेक्निकल असल्यामुळे पूर्णपणे डोक्यावरून गेले. त्यात माहीत नसलेले असे खूप मराठी प्रतिशब्द वापरल्याने आणखीनच अनाकलनीय झाले आहे.
असो.
------------------------
सुधीर काळे
Parkinson's Laws
1. Work expands to occupy time available.
2. Bureaucrats add subordinates, not rivals.
3. In meetings, time spent on a point is inversely proportional to its importance!
साईट मराठीतच आहे, बघून कृपया कळवा.
तुमच्या संकेतस्थळाची मांडणी आवडली. थोड्या सूचना करण्याचा मोह अनावर झाला आहे:
१. संकेत स्थळाचे नाव दुवा म्हणून वापरावे. म्हणजे (मिसळपाव) हे कंसात दिसते त्यावर जर टिचकी मारता आली तर थेट त्या संकेतस्थळाला जाता येइल.
२. गूगल प्रमाणे "शोधा म्हणजे सापडेल" अशी खिडकी.
३. तुमच्याच संकेतस्थळावर तुम्हाला मेल करायची सोय असावी, जेणेंकरून प्रेक्षक तुम्हाला त्यांची मते कळवू शकतील.
/मराठे