Списание Статистика

bg | en

ПРИЛОЖНИ АСПЕКТИ НА ГОЛЕМИТЕ ДАННИ В ОФИЦИАЛНАТА СТАТИСТИКА

Галя Статева

Резюме: Настоящата статия е предназначена да запознае читателя с една възможност за практическо приложение на „големите данни“, която е реализирана в рамките на проведено от екип на НСИ емпирично изследване на тема „Извличане на информация от интернет за характеристики на предприятията (web-scraping)“.
Във Въведението подробно е обяснена основната цел на проведеното емпирично изследване, която е насочена към проучване на възможностите за прилагането на техниките „web-scraping“ и „text mining“ и оценяване на ефекта от използването им в процеса на събиране на данни и подобряване на качеството на информацията за предприятията от статистическия бизнес регистър на НСИ чрез достъп до техните уебсайтове.
В глава I подробно е представена технологичната среда за осъществяване на емпиричното изследване, включително общата референтна логическа архитектура за прилагане на техниките на „web-scraping“. Направена е обстойна характеристика на техниката „web-scraping“ и са описани случаите, в които се използват различните видове - специфичен и генеричен „web-scraping“.
Изложението в глава II е посветено на практическата реализация на четирите пилотни „сценария“. Провеждането и анализът на резултатите от отделните „use-сase“ са представени в аналогична последователност - цел, ресурсна и технологична осигуреност, постигнати резултати, правни ограничения.

Ключови думи:

Дата на публикуване: 2018-03-19

Свали пълен текст