Пиранха (бағдарламалық жасақтама) - Piranha (software)

Пиранха Бұл мәтіндік тау-кен үшін жасалған жүйе Америка Құрама Штаттарының Энергетика министрлігі (DOE) бойынша Oak Ridge ұлттық зертханасы (ORNL). Бағдарламалық жасақтама байланыссыз еркін мәтінді құжаттардың үлкен көлемін өңдейді және олардың арасындағы қарым-қатынасты көрсетеді, бұл әдістеме денсаулық сақтау саласындағы алаяқтықтан бастап, ұлттық қауіпсіздікке дейінгі көптеген ғылыми және мәліметтер саласында құнды. Нәтижелер бизнеске және үкіметтік талдаушыларға арналған басымдыққа ие кластерлерде ұсынылған. Пиранха мәтіндік ақпаратты параллельді өңдеуді қамтамасыз ететін жиілік / кері корпус жиілігін өлшеу әдісі терминін қолданады, осылайша өте үлкен құжаттар жиынтығын талдауға мүмкіндік береді. Жинау және шығару: Мәліметтер базасы және әлеуметтік медиа сияқты көптеген дереккөздерден миллиондаған құжаттарды жинауға және жүздеген файл форматтарынан мәтін алуға болады; Бұл ақпарат. содан кейін кез-келген тілге аударыла алады.Сақтау және индекстеу: Іздеу серверлеріндегі құжаттар, реляциялық мәліметтер базасы және т.с.с. сақтауға және индекстеуге болады.Ұсынылады: Белгілі бір қолданушылар үшін ең құнды ақпаратты ұсыну.Санаттарға бөлу: Бақыланатын және жартылай бақыланатын машиналық оқыту әдістері мен мақсатты іздеу тізімдері бойынша элементтерді топтастыру.Кластерлеу: Ұқсастық иерархиялық топ құру үшін қолданылады.Көрнекілік: Пайдаланушылар байланыстарды тез тануы үшін құжаттар арасындағы қатынастарды көрсету.

Бұл жұмыс нәтижесінде сегіз берілген (9,256,649, 8,825,710, 8,473,314, 7,937,389, 7,805,446, 7,693,9037, 7,315,858, 7,072,883) және бірнеше коммерциялық лицензиялар (TextOre және Pro2Serve-ті қоса алғанда), денсаулық сақтау саласы, өнертапқыштар, және Pro2Serve VortexT Analytics деп аталады, екі R&D 100 марапаттары және көптеген ғылыми-зерттеу басылымдары.

Әдебиеттер тізімі

Марапаттар

Патенттер

Сыртқы сілтемелер