paint-brush
ວິທີການຂໍ້ມູນການຈັດຊື້ການດູແລສຸຂະພາບຖືກໃຊ້ເພື່ອປະເມີນຄວາມຫນ້າເຊື່ອຖືຂອງຜູ້ສະຫນອງໂດຍ@textmining

ວິທີການຂໍ້ມູນການຈັດຊື້ການດູແລສຸຂະພາບຖືກໃຊ້ເພື່ອປະເມີນຄວາມຫນ້າເຊື່ອຖືຂອງຜູ້ສະຫນອງ

ໂດຍ Text Mining6m2024/12/22
Read on Terminal Reader

ຍາວເກີນໄປ; ອ່ານ

ພາກນີ້ສົນທະນາກ່ຽວກັບຄວາມສັບສົນຂອງຂໍ້ມູນການຈັດຊື້ການດູແລສຸຂະພາບ, ສຸມໃສ່ເອກະສານການປະມູນແລະລາງວັນທີ່ມີຫຼາຍພາສາແລະບໍ່ມີໂຄງສ້າງຂອງເວທີ TED, ແລະການພັດທະນາຖານຂໍ້ມູນທີ່ມີໂຄງສ້າງສໍາລັບການປະເມີນຄວາມສ່ຽງຂອງຜູ້ສະຫນອງ.
featured image - ວິທີການຂໍ້ມູນການຈັດຊື້ການດູແລສຸຂະພາບຖືກໃຊ້ເພື່ອປະເມີນຄວາມຫນ້າເຊື່ອຖືຂອງຜູ້ສະຫນອງ
Text Mining HackerNoon profile picture
0-item

ຕາຕະລາງການເຊື່ອມຕໍ່

  1. ບົດຄັດຫຍໍ້ແລະບົດແນະນໍາ

  2. ໂດເມນ ແລະໜ້າວຽກ

    2.1. ແຫຼ່ງຂໍ້ມູນແລະຄວາມສັບສົນ

    2.2. ນິຍາມໜ້າວຽກ

  3. ວຽກງານທີ່ກ່ຽວຂ້ອງ

    3.1. ການຂຸດຄົ້ນຂໍ້ຄວາມ ແລະພາບລວມການຄົ້ນຄວ້າ NLP

    3.2. ການຂຸດຄົ້ນຂໍ້ຄວາມແລະ NLP ໃນການນໍາໃຊ້ອຸດສາຫະກໍາ

    3.3. ການຂຸດຄົ້ນຂໍ້ຄວາມແລະ NLP ສໍາລັບການຈັດຊື້

    3.4. ສະຫຼຸບຈາກການທົບທວນວັນນະຄະດີ

  4. ວິທີການສະເຫນີ

    4.1. ຄວາມຮູ້ໂດເມນ

    4.2. ການສະກັດເນື້ອຫາ

    4.3. ການແບ່ງເຂດຫຼາຍ

    4.4. ການ​ກວດ​ສອບ​ລາຍ​ການ​ຫຼາຍ​

    4.5. ການ​ວິ​ເຄາະ​ຫຼາຍ​

    4.6. ການວິເຄາະ XML, ການເຂົ້າຮ່ວມຂໍ້ມູນ, ແລະການພັດທະນາດັດຊະນີຄວາມສ່ຽງ

  5. ການທົດລອງແລະການສາທິດ

    5.1. ການປະເມີນອົງປະກອບ

    5.2. ການສາທິດລະບົບ

  6. ສົນທະນາ

    6.1. ຈຸດສຸມ 'ອຸດສາຫະກໍາ' ຂອງໂຄງການ

    6.2. ຄວາມຫຼາກຫຼາຍຂອງຂໍ້ມູນ, ລັກສະນະຫຼາຍພາສາ ແລະຫຼາຍໜ້າວຽກ

    6.3. ຄວາມຫຍຸ້ງຍາກຂອງທາງເລືອກ algorithmic

    6.4. ຄ່າໃຊ້ຈ່າຍຂອງຂໍ້ມູນການຝຶກອົບຮົມ

  7. ບົດສະຫຼຸບ, ການຮັບຮູ້, ແລະເອກະສານອ້າງອີງ

2. ໂດເມນ ແລະໜ້າວຽກ

ວຽກງານນີ້ເນັ້ນໃສ່ການຈັດຊື້ສຸຂະພາບ, ເຊິ່ງບໍ່ຄ່ອຍໄດ້ສຶກສາໃນວັນນະຄະດີ. ເປົ້າຫມາຍຕົ້ນຕໍຂອງໂຄງການແມ່ນການພັດທະນາເວທີທີ່ອະນຸຍາດໃຫ້ສ້າງແບບເຄື່ອນໄຫວຂອງ 'ໂປຣໄຟລ໌ຄວາມສ່ຽງຂອງຜູ້ສະຫນອງ' ສໍາລັບຜູ້ສະຫນອງການດູແລສຸຂະພາບແຕ່ລະຄົນ. ພວກເຮົາຄາດຄະເນຂໍ້ມູນດັ່ງກ່າວປະກອບດ້ວຍ 'ຕົວຊີ້ວັດ' ທີ່ແຕກຕ່າງກັນທີ່ປະເມີນທັດສະນະທີ່ແຕກຕ່າງກັນ (ຕົວຢ່າງ, ຄວາມສາມາດໃນການສະຫນອງຜະລິດຕະພັນບາງຢ່າງ, ການຄຸ້ມຄອງທາງພູມສາດ) ຂອງ 'ຄວາມສ່ຽງ' ສໍາລັບຜູ້ຊື້ທີ່ມີທ່າແຮງທີ່ຈະເຊັນສັນຍາກັບຜູ້ສະຫນອງ. ນີ້ຈະຊ່ວຍໃຫ້ຄໍາຖາມເຊັ່ນ: 'ໃຜເປັນຜູ້ສະຫນອງສາມາດສະຫນອງຢາຊະນິດນີ້', 'ພວກເຂົາມີຄວາມສາມາດທີ່ຈະສະຫນອງໃຫ້ແກ່ປະເທດນີ້ໃນລະດັບໃດ', ຫຼື 'ພວກເຂົາສາມາດສະຫນອງປະລິມານດັ່ງກ່າວ' ເພື່ອຕອບໄດ້ງ່າຍ. ຄໍາຖາມດັ່ງກ່າວມັກຈະສໍາຄັນສໍາລັບການຕັດສິນໃຈຂອງຜູ້ຊື້. ຢ່າງໃດກໍ່ຕາມ, ຂະບວນການຈັດຊື້ໃນປະຈຸບັນແມ່ນອີງໃສ່ການແຍກດ້ວຍຕົນເອງໂດຍຜ່ານເອກະສານທີ່ມີຄວາມຍາວຫຼາຍເພື່ອຄົ້ນຫາຄໍາຕອບ. ນີ້ແມ່ນຂະບວນການບໍລິໂພກຊັບພະຍາກອນຫຼາຍ. ເຂົ້າໃຈໄດ້, ຜູ້ເປີດໃຊ້ເປົ້າຫມາຍຕົ້ນຕໍຂອງພວກເຮົາຈະເປັນຖານຂໍ້ມູນທີ່ມີໂຄງສ້າງຂອງຂໍ້ມູນສັນຍາປະຫວັດສາດຂອງຜູ້ສະຫນອງການດູແລສຸຂະພາບ. ດັ່ງນັ້ນ, ເປົ້າຫມາຍທີສອງຂອງໂຄງການແມ່ນເພື່ອພັດທະນາຖານຂໍ້ມູນດັ່ງກ່າວແລະຕື່ມຂໍ້ມູນໃນການຈັດຊື້ດ້ານສຸຂະພາບປະຫວັດສາດ. ໃນຂະນະທີ່ຂໍ້ມູນການຈັດຊື້ສາທາລະນະແມ່ນມີຢ່າງຫຼວງຫຼາຍ, ດັ່ງທີ່ພວກເຮົາຈະອະທິບາຍຕໍ່ໄປນີ້, ມີການປະສົມຂອງຂໍ້ມູນຫຼາຍພາສາທີ່ມີໂຄງສ້າງ, ເຄິ່ງໂຄງສ້າງ, ແລະບໍ່ມີໂຄງສ້າງທີ່ຕ້ອງໄດ້ຮັບການຂຸດຄົ້ນແລະເຊື່ອມໂຍງ. ດັ່ງນັ້ນ, ສ່ວນຫນຶ່ງຂອງວຽກງານຂອງໂຄງການແມ່ນການພັດທະນາການຂຸດຄົ້ນຂໍ້ຄວາມແລະການແກ້ໄຂ NLP ທີ່ອັດຕະໂນມັດການປຸງແຕ່ງຂໍ້ມູນການຈັດຊື້ທີ່ບໍ່ມີໂຄງສ້າງໃນຈໍານວນຂະຫນາດໃຫຍ່ໂດຍອັດຕະໂນມັດກັບຂໍ້ມູນຂຸດຄົ້ນບໍ່ແຮ່ທີ່ສາມາດນໍາໃຊ້ເຂົ້າໃນຖານຂໍ້ມູນ. ເປົ້າຫມາຍຂອງບົດຄວາມນີ້ແມ່ນດັ່ງນັ້ນ, ເພື່ອລາຍງານການພັດທະນາຂອງວິທີການຂຸດຄົ້ນຂໍ້ຄວາມເຫຼົ່ານີ້ແລະ NLP.

2.1. ແຫຼ່ງຂໍ້ມູນແລະຄວາມສັບສົນ

ໂຄງ​ການ​ດັ່ງ​ກ່າວ​ໄດ້​ແນ​ໃສ່​ຂໍ້​ມູນ​ການ​ຈັດ​ຊື້​ຈາກ​ເວ​ທີ 'Tenders Electronic ປະ​ຈໍາ​ວັນ​' (TED​)​, ເຊິ່ງ​ໄດ້​ຖືກ​ນໍາ​ໃຊ້​ໂດຍ​ລັດ​ຖະ​ບານ EU ເພື່ອ​ເຜີຍ​ແຜ່​ໂຄງ​ການ​ທີ່​ກ່ຽວ​ຂ້ອງ​ກັບ​ການ​ຈັດ​ຊື້​ສາ​ທາ​ລະ​ນະ​ຂອງ​ເຂົາ​ເຈົ້າ​. TED ເຜີຍແຜ່ຫຼາຍກວ່າ 460,000 ຮຽກຮ້ອງການປະມູນແລະສັນຍາລາງວັນໃນ 26 ພາສາເອີຣົບຢ່າງເປັນທາງການຕໍ່ປີ, ສໍາລັບມູນຄ່າປະມານ 420 ຕື້ເອີໂຣ. ແຕ່ລະການປະມູນອາດຈະແບ່ງອອກເປັນຫຼາຍ 'ຫຼາຍ', ເຊິ່ງຫຼາຍແມ່ນຫົວໜ່ວຍສັນຍາທີ່ນ້ອຍທີ່ສຸດ. ແຕ່ລະ lots ອາດຈະປະກອບມີຫຼາຍລາຍການທີ່ຕ້ອງການ. ເປັນຕົວຢ່າງ, ປະກາດການປະມູນ '2019/S 180-437985'[1] ລາຍຊື່ 47 lots ຈາກ NHS (UK) tender, ມີຂະຫນາດຂອງເຂົາເຈົ້າຕັ້ງແຕ່ 2 ຫາຫຼາຍກວ່າ 30 ລາຍການ. ຖ້າການປະມູນຮັບປະກັນການປະມູນທີ່ປະສົບຜົນສໍາເລັດ, 'ລາງວັນສັນຍາ' (ຫຼືຫຼາຍລາງວັນ) ຈະຖືກເຮັດແລະບັນທຶກໄວ້ໃນ TED ສໍາລັບການປະມູນ. ຕໍ່ໄປນີ້, ສໍາລັບເຫດຜົນຂອງການອະທິບາຍ, ພວກເຮົາສົມມຸດວ່າມີລາງວັນຫນຶ່ງສໍາລັບແຕ່ລະການປະມູນ (ຢ່າງໃດກໍ່ຕາມໃນການປະຕິບັດ, ວິທີການຂອງພວກເຮົາແມ່ນໃຊ້ກັບລາງວັນທັງຫມົດທີ່ມີຢູ່ສໍາລັບການປະມູນ). ຫມາຍເຫດຈໍານວນຫລາຍທີ່ສະເຫນີໃນການສະເຫນີລາຄາແລະລາງວັນສັນຍາສ້າງຄວາມສໍາພັນ 'ຫຼາຍຕໍ່ຫຼາຍ'. ຄື, ຫຼາຍ lots ສາມາດມອບໃຫ້ຫນ່ວຍງານດຽວແລະເອກະສານໃນລາງວັນສັນຍາດຽວ; ຈໍານວນດຽວຍັງສາມາດມອບໃຫ້ຫຼາຍຫນ່ວຍງານ, ປະກອບເປັນລາງວັນສັນຍາຫຼາຍ; ນອກຈາກນັ້ນ, ລາງວັນສັນຍາດຽວສາມາດປະກອບມີຫນຶ່ງຫຼືຫຼາຍ lots.


ໃນ TED, ແຕ່ລະການປະມູນແລະລາງວັນສັນຍາທີ່ສອດຄ້ອງກັນຂອງມັນມີໄຟລ໌ XML ທີ່ມີໂຄງສ້າງທີ່ບັນທຶກອົງປະກອບທີ່ສໍາຄັນຂອງຂໍ້ມູນ. ພວກເຮົາອ້າງເຖິງສິ່ງເຫຼົ່ານີ້ເປັນ 'XML ທີ່ອ່ອນໂຍນ' ແລະ 'ລາງວັນ XML'. ຕົວຢ່າງຂອງ XML ທີ່ອ່ອນໂຍນແມ່ນສະແດງຢູ່ໃນຮູບ 1. ລາງວັນ XMLs ໂດຍທົ່ວໄປແມ່ນປະຕິບັດຕາມໂຄງສ້າງດຽວກັນ. Tender XMLs ຂໍ້ມູນເອກະສານເຊັ່ນ: ຜູ້ຊື້, lots, ລາຍການຂອງ lots, ເງື່ອນໄຂຂອງສັນຍາ, ແລະອື່ນໆ ລາງວັນ XMLs ເອກະສານຜູ້ຊື້, lots, ຜູ້ສະຫນອງທີ່ໄດ້ຮັບຮາງວັນສໍາລັບແຕ່ລະ lots, ມູນຄ່າສັນຍາ, ປະລິມານ, ແລະອື່ນໆ. ການເກັບກຳ 'ເອກະສານຄັດຕິດ' ທີ່ໃຫ້ລາຍລະອຽດເພີ່ມເຕີມຂອງການປະມູນ, ໂດຍສະເພາະໃນຈຳນວນ ແລະ ລາຍການ ('ເອກະສານແນບການປະມູນ')


ຮູບທີ 1. ການຍົກຕົວຢ່າງ XML ທີ່ອ່ອນໂຍນຈາກ TED (ແຈ້ງການ ID 2020/S 050-119757). ຂໍ້ສັງເກດ II.2.1 ລາຍຊື່ຈຳນວນສະເພາະ ແລະລາຍການຂອງມັນ, ໃນຂະນະທີ່ II.2.5 ລາຍຊື່ເງື່ອນໄຂຂອງສັນຍາ.


ເນື່ອງຈາກຄວາມພ້ອມຂອງ XMLs ທີ່ອ່ອນໂຍນແລະໄດ້ຮັບລາງວັນ, ຄົນເຮົາອາດຈະພິຈາລະນາວຽກງານຂອງການພັດທະນາແລະການສ້າງຖານຂໍ້ມູນທີ່ງ່າຍດາຍ. ຢ່າງໃດກໍຕາມ, ຂໍ້ມູນໃນຄວາມເປັນຈິງແມ່ນສັບສົນຫຼາຍ. ທໍາອິດແລະສໍາຄັນ, XMLs ອ່ອນໂຍນແລະລາງວັນມັກຈະບໍ່ຄົບຖ້ວນ. ຂໍ້​ມູນ​ທີ່​ຂາດ​ຫາຍ​ໄປ​ທີ່​ເດັ່ນ​ແມ່ນ​ຂໍ້​ມູນ​ຫຼາຍ​ແລະ​ລາຍ​ການ​. ຕົວຢ່າງ, XML ອ່ອນໂຍນສໍາລັບ '2019/S 180-437985', ກ່າວເຖິງ 47 lots ໃນການປະມູນ, ໂດຍບໍ່ມີການລາຍລະອຽດຂອງລາຍການສະເພາະແຕ່ມີຈໍານວນອ້າງອີງຫຼາຍ. ຂໍ້​ມູນ​ທີ່​ສໍາ​ຄັນ​ນີ້​ແມ່ນ​ມີ​ຢູ່​ໃນ​ການ​ດາວ​ໂຫຼດ​ເປັນ​ຈໍາ​ນວນ​ຫຼາຍ​ຂອງ 7 ເອ​ກະ​ສານ​ຄັດ​ເລືອກ​ທີ່​ອ່ອນ​ໂຍນ (PDFs​)​. ທັງ XMLs ທີ່ອ່ອນໂຍນແລະລາງວັນຫຼັງຈາກນັ້ນການອ້າງອິງແຫຼ່ງຂໍ້ມູນເຫຼົ່ານີ້ຂ້າມຜ່ານການນໍາໃຊ້ການອ້າງອິງຈໍານວນຫລາຍ. ການຟື້ນຕົວຂໍ້ມູນດັ່ງກ່າວແມ່ນສໍາຄັນຕໍ່ການສ້າງໂປຣໄຟລ໌ຄວາມສ່ຽງຂອງຜູ້ສະຫນອງ, ເຊິ່ງຈໍາເປັນຕ້ອງຄິດໄລ່ຂອບເຂດແລະປະລິມານຂອງຜະລິດຕະພັນທີ່ຜູ້ສະຫນອງໄດ້ສະຫນອງໃນໄລຍະຜ່ານມາ. ອັນທີສອງ, ບໍ່ແມ່ນທຸກໆເອກະສານຕິດຂັດແມ່ນກ່ຽວຂ້ອງກັບຈຸດປະສົງຂອງພວກເຮົາ. ໃນບັນດາເອກະສານເຫຼົ່ານີ້ສໍາລັບ '2019/S 180-437985', ສອງ PDFs ບອກຈໍານວນແລະລາຍການຕົວຈິງ (ເຊັ່ນ: ຮູບ 2), ໃນຂະນະທີ່ອື່ນໆເອກະສານສະເພາະ, ຄວາມຕ້ອງການ, ກົດລະບຽບແລະໂປໂຕຄອນແລະອື່ນໆ. ອັນທີສາມ, ບໍ່ແມ່ນທຸກໆຫນ້າຂອງເອກະສານຄັດຕິດທີ່ກ່ຽວຂ້ອງ. ຂໍ້ມູນ. ຕົວຢ່າງ, ຮູບທີ 3 ສະແດງໃຫ້ເຫັນວ່າຢູ່ໃນການປະມູນອື່ນ, lots and items are described in one page but different sections of a long document. ອັນທີສີ່, ດັ່ງທີ່ໄດ້ສະແດງຢູ່ໃນຮູບທີ 2 ແລະ 3, ມີຄວາມແຕກຕ່າງກັນຢ່າງຫຼວງຫຼາຍໃນຈຳນວນ ແລະ ຂໍ້ມູນລາຍການທີ່ໄດ້ຖືກອະທິບາຍພາຍໃນປະເທດດຽວກັນ, ຫຼື ແທ້ຈິງແລ້ວ, ແມ່ນແຕ່ອົງການດຽວກັນ. ຄວາມແຕກຕ່າງນີ້ໄດ້ຖືກສັງເກດເຫັນໃນລະດັບຕ່າງໆເຊັ່ນ: ການໃຊ້ຮູບແບບທີ່ມີໂຄງສ້າງ (ຕົວຢ່າງ, ຂໍ້ຄວາມຟຣີທຽບກັບຕາຕະລາງ / ລາຍການ); ຈໍານວນຂໍ້ມູນທີ່ເຂົ້າລະຫັດ (ຕົວຢ່າງ: ຕາຕະລາງໃນຮູບ 2 ລາຍຊື່ 16 ຖັນ (ຄຸນລັກສະນະ) ສໍາລັບແຕ່ລະລາຍການ) ເຖິງແມ່ນວ່າສໍາລັບປະເພດດຽວກັນຂອງຜະລິດຕະພັນ / ບໍລິການ; ແລະ semantics ຂອງໂຄງສ້າງທີ່ໂຄງສ້າງໄດ້ຖືກຮັບຮອງເອົາ (ຕົວຢ່າງ, ຄໍາສັ່ງແລະຊື່ຂອງຖັນ). ລະດັບສູງຂອງຄວາມສັບສົນແລະບໍ່ສອດຄ່ອງດັ່ງກ່າວອາດຈະເປັນເຫດຜົນສໍາຄັນຫນຶ່ງທີ່ເຮັດໃຫ້ການຂາດການຂຸດຄົ້ນຂໍ້ຄວາມແລະການສຶກສາ NLP ຫຼືຄໍາຮ້ອງສະຫມັກສໍາລັບການຈັດຊື້ການດູແລສຸຂະພາບ.


ຮູບທີ 2. ພາບລວມຂອງເອກະສານຄັດຕິດ PDF ອັນໜຶ່ງທີ່ເປັນສ່ວນຫນຶ່ງຂອງການປະມູນ '2019/S 180-437985' (NHS, UK). ຮູບພາບສະແດງໃຫ້ເຫັນພຽງແຕ່ບາງຄໍລໍາຂອງຕາຕະລາງ, ເນື່ອງຈາກພື້ນທີ່ຫນ້າຈໍາກັດ. ແຕ່ລະແຖວອະທິບາຍລາຍການໜຶ່ງ, ໃນຂະນະທີ່ຖັນທີ 1 ສະແດງເຖິງການອ້າງອີງຫຼາຍ (ເປັນຕົວເລກ).


ຮູບທີ 3. ບົດຄັດຫຍໍ້ຂອງເອກະສານຄັດຕິດ PDF ອັນໜຶ່ງທີ່ເປັນສ່ວນຫນຶ່ງຂອງການປະມູນ '2020/S 111-270678' (ພະແນກສຸຂະພາບ ແລະການດູແລສັງຄົມ, ອັງກິດ). ຮູບ​ພາບ​ສະ​ແດງ​ໃຫ້​ເຫັນ​ພຽງ​ແຕ່​ສ່ວນ​ຫນຶ່ງ​ຂອງ​ຫນ້າ​ຂອງ​ເອ​ກະ​ສານ PDF ຫນຶ່ງ​ທີ່​ມີ​ລາຍ​ການ lots ແລະ​ລາຍ​ການ​. ຂໍ້ມູນລາຄາແມ່ນສະແດງຢູ່ໃນຫນ້າອື່ນໆ.


ຜູ້ຂຽນ:

(1) Ziqi Zhang*, ໂຮງຮຽນຂໍ້ມູນຂ່າວສານ, ມະຫາວິທະຍາໄລ Sheffield, Regent Court, Sheffield, UKS1 4DP (Ziqi.Zhang@sheffield.ac.uk);

(2) Tomas Jasaitis, Vamstar Ltd., ລອນດອນ (Tomas.Jasaitis@vamstar.io);

(3) Richard Freeman, Vamstar Ltd., ລອນດອນ (Richard.Freeman@vamstar.io);

(4) Rowida Alfrjani, ໂຮງຮຽນຂໍ້ມູນຂ່າວສານ, ມະຫາວິທະຍາໄລ Sheffield, Regent Court, Sheffield, UKS1 4DP (Rowida.Alfrjani@sheffield.ac.uk);

(5) Adam Funk, ໂຮງຮຽນຂໍ້ມູນຂ່າວສານ, ມະຫາວິທະຍາໄລ Sheffield, Regent Court, Sheffield, UKS1 4DP (Adam.Funk@sheffield.ac.uk).


ເອກະສານນີ້ແມ່ນ ມີຢູ່ໃນ arxiv ພາຍໃຕ້ໃບອະນຸຍາດ CC BY 4.0.

[1] https://ted.europa.eu/udl?uri=TED:NOTICE:437985-2019:TEXT:EN:HTML, ເຂົ້າເຖິງຫຼ້າສຸດ: ພະຈິກ 2022