Sign in to follow this  
Followers 0
disa66

Как посчитать частотность

10 posts in this topic

Всем привет, возникла интересная задача. Есть большой текст, а точнее большой набор ключевых фраз. Символов даже не знаю на сколько...миллионов на 100-150.

 

Так вот нужно выделить из этого большого семантического ядра (300000 ключевиков) , самые часто встречающиеся слова. Каким образом это проще сделать? 

 

например,

 

Слово1 Слово2 Слово3

 

Слово4 Слово3 Слово5

 

Это два ключа, мне нужно разбить их по словам и узнать частоту вхождения каждого слова в список из 300000 ключевиков

Share this post


Link to post
Share on other sites

Частотность уже проверена? Если да, то в экселе через сортировку: упорядочить по полю "частотность" - убывание. Если нет - то даже не знаю, сколько времени уйдёт на проверку 300к ключей.

Share this post


Link to post
Share on other sites

Всем привет, возникла интересная задача. Есть большой текст, а точнее большой набор ключевых фраз. Символов даже не знаю на сколько...миллионов на 100-150.

 

Так вот нужно выделить из этого большого семантического ядра (300000 ключевиков) , самые часто встречающиеся слова. Каким образом это проще сделать? 

Т.е. у Вас есть список ключей, как я понял?

Если да, то вот:

КейКоллектор либо Словоёб (это прога, а не ругань).

Вписываете свои ключи, собираете по ним частотности.

Ахтунг! Не собирать новые запросы, а там есть функция добавления своих, уже имеющихся фраз, и оперирования ими.

Я не помню, можно ли туда сразу добавить такой объем ключей, как у Вас. Если нет, то придется частями.

Share this post


Link to post
Share on other sites

100-150 лямов символов..... 300к ключивиков..... Вы решили монетизировать Историю КПСС или Капитал? :)

С отсылками на войну и мир + библию 

Share this post


Link to post
Share on other sites

Это потенциальные ключи, в том то все и дело, что из большого объема данных мне нужно выбрать подходящие

Share this post


Link to post
Share on other sites

Это потенциальные ключи, в том то все и дело, что из большого объема данных мне нужно выбрать подходящие

 

 

Символов даже не знаю на сколько...миллионов на 100-150.

а каким способом вы их собирали, что нет их частотности? 

Share this post


Link to post
Share on other sites

Видимо задача не верно понята. мне нужно сделать следующее:

например,

 

Слово1 Слово2 Слово3

 

Слово4 Слово3 Слово5

 

Это два ключа, мне нужно разбить их по словам и узнать частоту вхождения каждого слова в список из 300000 ключевиков

Share this post


Link to post
Share on other sites

Похоже на скрытую рекламу.... а так можно сделать все в екселе, если комп позволит работать с такими данными.

Share this post


Link to post
Share on other sites

Create an account or sign in to comment

You need to be a member in order to leave a comment

Create an account

Sign up for a new account in our community. It's easy!


Register a new account

Sign in

Already have an account? Sign in here.


Sign In Now
Sign in to follow this  
Followers 0

  • Recently Browsing   0 members

    No registered users viewing this page.