Вто , 7ми Сеп

Променето на: 10:08:07, 07 Сеп 2010

Вие сте овде : ДомаСтранициЗа Сервисот

Добредојдовте на Daily.mk

Daily.mk е нов, иновативен начин како најбрзо и најлесно да дојдете до саканите информации од дневните медиуми во Македонија. Ние се трудиме да најновите и најрелевантни информации од овие медиуми ви ги претставиме на начин кој ќе биде најлесен за читање. Овој процес вклучува неколку автоматизирани чекори:

  • Собирање на податоците од весниците
  • Екстрахирање на содржините, сликите и видеата од весниците
  • Семантичка анализа на добиените документи
  • Групирање на документите
  • Прикажување на документите

Собирање на податоци од весниците

Податоците од весниците се собираат на секои 10тина минути во зависност од тоа колку фреквентно дадениот извор објавува вести. Доколку некој извор не е фреквентен системот се прилагодува на неговата фреквенција со што се овозможува помало оптеретување на серверите на весниците. Нашата фер политика за користење се грижи за начинот на користење на овие сервиси. Доколку содржината на веста се смени, системот дозволува грејс период од 6 часа за менување на содржината на весниците. Откако овој период ќе помине, содржината на веста останува да биде последната.

Екстрахирање на содржините, сликите, видеата од весниците

Откако ќе се идентификува нова вест или променета вест, системот ја превзема оваа вест во форма на HTML (без слики и видеа). Алгоритамот за екстрахирање на содржината ни овозможува да без користење на темплејти за дадени страници ја извадиме релевантната содржина (веста од оригиналниот извор) прескокнувајќи ги другите текстуални содржини како коментари и сл. Во зависност од тоа, се детектираат и сликите/видеата асоцирани со содржината. Овој алгоритам е прилично комплексен во тоа како одредува содржина и е комплетно независен од јазик и тип на содржини што ни овозможува лесно да додаваме нови извори на вести. * Доколку имате ваш весник или било каков друг информативен сервис кој што сакате да се појави на нашиот сервис ве молиме пополнете го формуларот за пристапување на сервисот.

Семантичка анализа на добиените документи

Овој процес подразбира статистичко обработување на текстуалните податоци (добивање на клучни зборови и тн), граматичко обработување на зборовите (членувани форми, глаголи, именки, имиња) и автоматско екстрахирање на ентитети. Ова ни овозможува попрецизно да ги идентификуваме групите на слични документи како и да можеме да прикажеме интересни (за нас) информации како што се имињата и нивната популарност. Доколку имате сугестии во поглед на функционалноста на овој сегмент ве молиме испратете ги преку оваа форма.

Групирање на документите

Овој процес овозможува да детектираме кои документи се слични со кои со што можеме да ги собереме на едно купче (кластер). Овие кластери се референтно мерило за тоа која вест е популарна, т.е. една вест е популарна доколку нејзиниот кластер е поголем, повеќе весници збореле за неа, и доколку генерално нејзината старост е помала. Понекогаш се случува да весниците објават друга содржина под различен наслов. Во таа ситуација зависно од содржината веста ќе влезе во кластерот во кој што си одговара (се обидуваме да детектираме вакви грешки но верувајте дека е прилично комплициран процесот на одредување).

Прикажување на документите

Главниот начин на прикажување на документите е оној од кластерите (кој што е на насловната страница). Бидејќи не секогаш најновите вести стигаат најгоре на кластерите, за да не пропуштите некоја вест, системот ви овозможува прегледување на вестите по време и по извор. Исто така за оние што се заинтересирани за пратење на весници поврзани со ентитети, системот нуди и можност за листање на документите поврзани со одредени ентитети, на пример Реал Мадрид .

Доколку сте заинтересирани за подобрување на квалитетот на сервисот можете слободно да не контактирате на оваа форма.


И....

Голема благодарност до:

  • Јован Пехчевски
  • Сашо Мацановски - Трендо
  • До он.нет, boom и тн, и тн....