Jump to content
Sign in to follow this  
disa66

Как посчитать частотность

Recommended Posts

Всем привет, возникла интересная задача. Есть большой текст, а точнее большой набор ключевых фраз. Символов даже не знаю на сколько...миллионов на 100-150.

 

Так вот нужно выделить из этого большого семантического ядра (300000 ключевиков) , самые часто встречающиеся слова. Каким образом это проще сделать? 

 

например,

 

Слово1 Слово2 Слово3

 

Слово4 Слово3 Слово5

 

Это два ключа, мне нужно разбить их по словам и узнать частоту вхождения каждого слова в список из 300000 ключевиков

Share this post


Link to post
Share on other sites

Частотность уже проверена? Если да, то в экселе через сортировку: упорядочить по полю "частотность" - убывание. Если нет - то даже не знаю, сколько времени уйдёт на проверку 300к ключей.

Share this post


Link to post
Share on other sites

Всем привет, возникла интересная задача. Есть большой текст, а точнее большой набор ключевых фраз. Символов даже не знаю на сколько...миллионов на 100-150.

 

Так вот нужно выделить из этого большого семантического ядра (300000 ключевиков) , самые часто встречающиеся слова. Каким образом это проще сделать? 

Т.е. у Вас есть список ключей, как я понял?

Если да, то вот:

КейКоллектор либо Словоёб (это прога, а не ругань).

Вписываете свои ключи, собираете по ним частотности.

Ахтунг! Не собирать новые запросы, а там есть функция добавления своих, уже имеющихся фраз, и оперирования ими.

Я не помню, можно ли туда сразу добавить такой объем ключей, как у Вас. Если нет, то придется частями.

Share this post


Link to post
Share on other sites

100-150 лямов символов..... 300к ключивиков..... Вы решили монетизировать Историю КПСС или Капитал? :)

С отсылками на войну и мир + библию 

Share this post


Link to post
Share on other sites

Это потенциальные ключи, в том то все и дело, что из большого объема данных мне нужно выбрать подходящие

Share this post


Link to post
Share on other sites

Это потенциальные ключи, в том то все и дело, что из большого объема данных мне нужно выбрать подходящие

 

 

Символов даже не знаю на сколько...миллионов на 100-150.

а каким способом вы их собирали, что нет их частотности? 

Share this post


Link to post
Share on other sites

Видимо задача не верно понята. мне нужно сделать следующее:

например,

 

Слово1 Слово2 Слово3

 

Слово4 Слово3 Слово5

 

Это два ключа, мне нужно разбить их по словам и узнать частоту вхождения каждого слова в список из 300000 ключевиков

Share this post


Link to post
Share on other sites

Похоже на скрытую рекламу.... а так можно сделать все в екселе, если комп позволит работать с такими данными.

Share this post


Link to post
Share on other sites

Join the conversation

You can post now and register later. If you have an account, sign in now to post with your account.

Guest
Reply to this topic...

×   Pasted as rich text.   Paste as plain text instead

  Only 75 emoji are allowed.

×   Your link has been automatically embedded.   Display as a link instead

×   Your previous content has been restored.   Clear editor

×   You cannot paste images directly. Upload or insert images from URL.

Sign in to follow this  

  • Recently Browsing   0 members

    No registered users viewing this page.

×
×
  • Create New...