Вероятностое латентно-семантическое индексирование

Перейти к: навигация, поиск

Вероятностный латентно-семантический анализ (ВЛСА), также известный как вероятностное латентно-семантическое индексирование (ВЛСИ, особенно в области информационного поиска) — это статистический метод анализа корреляции двух типов данных. Данный метод является дальнейшим развитием латентно-семантического анализа. ВЛСА применяется в таких областях как информационный поиск, обработка естественного языка, машинное обучение и смежных областях. Данный метод был впервые опубликован в 1999 году Thomas Hofmann[1].

По сравнению с обычным латентно-семантическим анализом, который основан на линейной алгебре и является способом снижения размерности матрицы (как правило, с помощью разложения диагональной матрицы по сингулярным значениям — SVD), вероятностный латентно-семантический анализ основан на смешанном разложении, в свою очередь берущим своё начало из модели скрытых классов. Данный подход более принципиален, поскольку имеет прочную основу в области статистики.

Варианты pLSA

  • Иерархические расширения:
    • Асимметричное: MASHA («Multinomial ASymmetric Hierarchical Analysis», «полиномиальный асимметричный иерархический анализ»)[2]
    • Симметричное: HPLSA («Hierarchical Probabilistic Latent Semantic Analysis», «Иерархический вероятностный латентно-семантический анализ»),[3]
  • Генеративные модели: разработаны для решения часто критикуемых недостатков pLSA, а именно — того, что он является неправильной порождающей моделью для новых документов.
  • Данные высшего порядка: Хотя это редко обсуждается в научной литературе, pLSA, естественно, примени́м и для данных более высокого порядка (трёхуровневых и выше), то есть он может моделировать совместное поведение трёх и более переменных. В симметричной формулировке, данной выше, это делается простым добавлением условного распределения вероятностей для этих дополнительных переменных. Это вероятностный аналог неотрицательной тензорной факторизации.

Примечания

  1. Probabilistic Latent Semantic Indexing, Proceedings of the Twenty-Second Annual International SIGIR Conference on Research and Development in en:Information Retrieval (SIGIR-99), 1999
  2. A Probabilistic Framework for the Hierarchic Organisation and Classification of Document Collections, in Information Processing and Management, 2002
  3. A Hierarchical Model for Clustering and Categorising Documents, in «Advances in Information Retrieval — Proceedings of the 24th BCS-IRSG European Colloquium on IR Research (ECIR-02)», 2002

См. также

Вероятностое латентно-семантическое индексирование.

© 2021–2023 sud-mal.ru, Россия, Барнаул, ул. Денисова 68, +7 (3852) 74-95-52