Indexing document and search engine api

ทีมงานได้รับความไว้วางใจในการดำเนินการจัดทำระบบ Search Engine API เพื่อนำข้อมูลไปใช้ในเว็บไซต์ต่างๆที่เจ้าของโครงการต้องการ พร้อมเปิดเป็น API สาธารณะให้ผู้ที่ได้รับอนุญาติให้ใช้งานได้เช่นกันด้วยระบบ Indexing + API ทำให้การวิเคราะห์เอกสาร และการค้นหาเอกสารมีความสมบูรณ์พร้อมเปิดให้ใช้งาน

Search Engine API

โปรเจกค์ล่าสุดที่เราได้ปรับปรุงเพิ่มเติมจากระบบเดิม เพื่อใช้ในการจัดการเอกสารอย่างเต็มรูปแบบ โดยตัวโครงการเราได้รับมอบหมายให้ทำการ Indexing เอกสารกว่าพันเล่ม จัดรูปแบบเอกสาร แยกข้อมูลจากเอกสาร ทำการเชื่อมเอกสารให้ถึงกันได้ พร้อมด้วยระบบค้นหาข้อมูลที่ถูกต้องมากยิ่งขึ้น และการนำเสนอข้อมูลที่คำนึงถึงผู้ใช้งานเป็นหลัก

Indexing Document

การทำดัชนีเอกสารเป็นพันๆเล่ม เพื่อแยกข้อมูลออกจากเนื้อหา พร้อมเชื่อมโยงเอกสาร โดยข้อมูลอ้างอิงที่เกี่ยวข้องได้แก่

  • แยกวันที่ออกจากเอกสาร
  • ระบุวันที่ว่าเอกสารนั้นเกิดอยู่ในช่วงเวลาใหน
  • ระบุตำแหน่ง ที่อยู่ให้กับเอกสาร
  • ระบุสถานที่ให้กับเอกสาร
  • ระบุโครงการ หรือคำสำคัญของเอกสาร ตามเงื่อนไขได้

เก็บข้อมูลเอกสารลงฐานข้อมูลทั้ง RDBMS และ NoSQL เพื่่อใช้ในการค้นหา และแสดงผลข้อมูลในภายหลัง รองรับการทำซ้ำเอกสาร หรือการปรับปรุงเอกสารเพื่อให้ได้ข้อมูลที่ถูกต้องมากยิ่งขึ้น

Search API

พัฒนาระบบ API รองรับการค้นหาเอกสาร งานนี้เน้นการรับส่งข้อมูลล้วนๆ โดยเน้นที่ความถูกต้องและความเร็ว เราจึงนำเทคโนโลยีที่ช่วยในการจัดเก็บข้อมูล และการส่งข้อมูลที่จะช่วยเพิ่มความเร็วให้ได้มากที่สุดได้แก่

  • การนำ slim framework มาใช้เป็น REST API ในการรองรับการร้องขอข้อมูล และการส่งข้อมูลกลับมาในการเป็น format json ที่เป็นมาตรฐาน สามารถนำไปใช้งานได้หลากหลายรูปแบบ
  • การใช้การจัดเก็บข้อมูล RDBMS ที่รองรับการค้นหาข้อมูลแบบ FULLTEXT SEARCH ที่ช่วยตัดสินใจในการเลือกข้อมูลให้ใกล้เคียงกับความต้องการมากขึ้น
  • จัดเก็บข้อมูลด้วย elasticsearch software ช่วยในการทำ index เอกสารในรูปของ NoSQL สำหรับนำไปใช้ในการสืบค้นที่รวดเร็วมากยิ่งขึ้น
  • มีการใช้ nodejs เพื่อลดการรอ transaction request จาก server โดย client จะส่งข้อมูลไป ไม่สนใจ server ฝั่ง server จะส่งข้อมูลกลับมาให้เมื่อทำงานเรียบร้อย

ด้วยระบบ Search Engine API ทำให้เจ้าของโปรเจกค์สามารถเผยแพร่ API เพื่อเป็นข้อมูลสาธารณะ หรือนำไปใช้กับ Application อื่นๆได้ด้วย

งาน Search Engine API เหมาะสำหรับการทำงานกับเอกสารจำนวนมาก เช่นหนังสือวิชาการ ประมวลกฏหมาย เอกสารอื่นๆ จำนวนมากๆได้